Arquivo.pt preservou informação online acerca de projectos europeus financiados pelo H2020

Thumbnail H2020 projectos

A principal missão do Arquivo.pt é preservar informação online para fins de investigação e educação.

Anteriormente, o Arquivo.pt identificou e preservou websites de projectos de investigação e desenvolvimento financiados pela União Europeia durante os programas FP4, FP5, FP6 e FP7 (1994-2013).

Agora, o Arquivo.pt contribuiu para a preservação da informação científica publicada online que documenta projetos de investigação e desenvolvimento financiados pela União Europeia durante o programa Horizonte 2020 (2014-2021). Foram preservados 197 milhões de ficheiros (17 TB) relacionados com ciência para acesso futuro.

Projectos H2020 publicam informação online valiosa que está a ser perdida

O recurso a websites para documentar as atividades de projetos de investigação e desenvolvimento tem vindo sempre a aumentar, sendo utilizados para disponibilizar informação científica relevante que completa a literatura publicada, como por exemplo conjuntos de dados abertos, apresentações em eventos ou software desenvolvido.

Contudo, após o fim dos projetos, os respetivos websites normalmente desaparecem causando uma perda irrecuperável de informação científica única e valiosa.

Arquivo.pt identificou automaticamente os endereços que documentam projetos de investigação e desenvolvimento H2020

O portal de dados abertos da União Europeia publicou um conjunto de dados do Community Research and Development Information Service (CORDIS) que documenta projetos de investigação financiados durante o programa H2020. Porém, dos 31 129 projetos listados, apenas 46% apresentavam o URL do projecto (coluna projectURL).

O Arquivo.pt desenvolveu uma metodologia de baixo custo que identifica automaticamente os URLs relacionados com projetos de investigação e desenvolvimento para serem preservados de forma sistemática. Esta identificação automática é alcançada através da combinação do recurso a conjuntos de dados abertos com serviços de pesquisa na web. Esta metodologia é detalhada no artigo científico publicado na conferência International Conference on Digital Preservation 2016.

Em suma, extraímos 270 650 URLs únicos dos seguintes conjuntos de dados abertos:

Em seguida, extraímos o acrónimo e o título dos projetos documentados nos conjuntos de dados e pesquisámos automaticamente na web usando a API do Bing para encontrar URLs adicionais.

Todos os conjuntos de dados e ferramentas desenvolvidas foram disponibilizados publicamente em acesso aberto para que possam ser reutilizados e complementados de forma colaborativa, incluindo o software desenvolvido para identificar automaticamente URLs adicionais sobre os projetos H2020.

197 milhões de ficheiros da web acerca de Ciência foram preservados

O Arquivo.pt identificou e preservou 197 milhões de ficheiros da web (17 TB) de informação que documentam projetos de investigação e desenvolvimento financiados pelo programa europeu Horizonte 2020.

Em 2021, podemos testemunhar que alguns sites dos projetos já não estão disponíveis online, como o website do projeto Extended Model of Organic Semiconductors (EXTMOS) (http://extmos.eu/). No entanto, a informação deste website foi preservada e pode ser acedida no Arquivo.pt:

Archived version at Arquivo.pt (https://arquivo.pt/wayback/20170427182603/http://extmos.eu/) of the home page of the EXTMOS Research and Development project (http://extmos.eu/)funded by H2020.

Versão arquivada no Arquivo.pt da página inicial do projeto EXTMOS de Investigação e Desenvolvimento financiado pelo H2020.

Contribuições para complementar os conjuntos de dados abertos da União Europeia

Todos os conjuntos de dados resultantes foram tornados públicos para que possam ser melhorados e reutilizados por outras organizações também interessadas na preservação deste património digital:

Se quiser saber mais informações sobre esta coleção, assista ao vídeo Preservation of web content related to Horizon 2020.

Referências

É investigador?

“Major Minors” no Dia Mundial da Preservação Digital 2021

Última atualização em 1 de Fevereiro de 2022 às 15:52

Os vencedores do Prémio Arquivo.pt 2021 foram os convidados da sessão online do Arquivo.pt no Dia Mundial da Preservação Digital, 4 de novembro de 2021.

Tal como em anos anteriores, o Arquivo.pt associou-se a esta iniciativa internacional realizando uma sessão aberta, onde se partilham conhecimentos úteis à comunidade.

Paulo Martins, Leandro Costa e Jose Carlos Ramalho, que orientou este trabalho, falaram do projeto “Major Minors” e da forma como utilizaram os conteúdos preservados pelo Arquivo.pt.

O projeto “Major Minors” é uma ontologia de recortes de imprensa de jornais portugueses com referência a minorias sociais.  Tem por objetivo mapear e estudar a representação de minorias em contexto jornalístico português ao longo das duas primeiras décadas do século XXI.

Divulgue e partilhe o conteúdos da sessão que aqui disponibilizamos.

Agenda

4 de novembro

15:00 h – Boas vindas e novidades, Daniel Gomes (slides PDF, 3MB)
15:10 h – Major Minors, Paulo Martins, Leandro Costa e José Carlos Ramalho (Slides PDF, 5MB)
15:40 h – Perguntas e respostas
16:00 h – Fim

Vídeo da sessão

Crie narrativas automáticas sobre qualquer tema!

thumnail-exemplo-conta-me-historias-q3

O Arquivo.pt disponibiliza uma nova função que permite criar automaticamente narrativas temporais sobre qualquer tema.

A funcionalidade “Narrativa”, integrada no Arquivo.pt em setembro de 2021, é o resultado da colaboração entre o “Conta-me Histórias”, vencedor do Prémio Arquivo.pt 2018 e o Arquivo.pt.

O projeto “Conta-me Histórias” foi desenvolvido por investigadores do Laboratório de Inteligência Artificial e Apoio a Decisão (LIAADINESCTEC) e afiliados às instituições Instituto Politécnico de TomarCentro de Investigação em Cidades Inteligentes (CI2); Universidade do Porto e Universidade de Innsbruck.

Como funciona?

Quando um utilizador insere um conjunto de palavras acerca de um tema na caixa de pesquisa do Arquivo.pt e clica no botão “Narrativa”, é direcionado para o serviço “Conta-me Histórias”, que por sua vez analisa automaticamente as notícias de 25 websites arquivados pelo Arquivo.pt ao longo do tempo e apresenta ao utilizador uma cronologia de notícias relacionadas com o tema pesquisado.

Por exemplo, se pesquisarmos por “Jorge Sampaio” e carregarmos no botão “Narrativa” (Figura 1), seremos direcionados para o “Conta-me Histórias”, onde obteremos automaticamente uma narrativa de notícias arquivadas (Figura 2).

exemplo-conta-me-historias-narrativa

Figura 1: Resultados da pesquisa de páginas sobre “Jorge Sampaio”.

exemplo-conta-me-historias-2

Figura 2: Narrativa de notícias sobre “Jorge Sampaio” gerada pelo serviço “Conta-me Histórias”.

Crie agora a sua narrativa!

O “Conta-me Histórias” pesquisa, analisa e agrega milhares de resultados para gerar cada narrativa acerca de um tema. Recomenda-se a escolha de palavras descritivas sobre temas bem definidos, personalidades ou eventos para obter boas narrativas.

A criação de uma narrativa é útil para investigadores, jornalistas ou cidadãos que pretendam obter rapidamente uma visão geral acerca da evolução de um tema ao longo do tempo, poupando-lhes assim imenso tempo e trabalho.

Aceda ao Arquivo.pt e experimente criar uma narrativa sobre um tema à sua escolha.

Diga-nos como foi a sua experiência para melhorarmos o serviço!

Livro “The Past Web: Exploring Web Archives” prolongado até 20 de março, 2022!

thumb-the-past-web

Última atualização em 3 de Março de 2022 às 9:44

Livro "The Past Web: exploring web archives" disponível até 6 de março via b-on

 

O prazo para descarregar gratuitamente o novo livro “The Past Web: exploring web archives” via B-on foi prolongado até dia 20 de março!

 

Desde 2006 que não era publicado um livro que refletisse o estado-da-arte na área da preservação da web e da investigação que tem sido conduzida sobre os arquivos da web.

O principal objetivo do novo livro The Past Web: exploring web archives foi criar um novo recurso atualizado que permitisse formar mais pessoas na área de preservação da web e dar a conhecer os arquivos da web aos investigadores e académicos.

Assim sendo, o livro dirige-se principalmente à comunidade académica e científica, e apresenta os métodos mais inovadores para a exploração de informação do passado preservada pelos arquivos da web.

Daniel Gomes, gestor do Arquivo.pt liderou a equipa de editores do livro, composta também pelos especialistas Elena Demidova, Jane Winters e Thomas Risse. No total, o livro contou com as contribuições de 40 autores especialistas na área de arquivo da web, oriundos de todo o mundo.

A obra divide-se em 6 partes onde encontramos variados recursos para explorar páginas arquivadas da Internet desde a década de 1990.

Podemos também aprender como preservar a nossa memória coletiva na Era Digital, que estratégias utilizar na seleção de conteúdos online e qual o impacto dos arquivos web na preservação de informação histórica.

O livro pretende apoiar os professores na sua missão de transmitir conhecimento inovador e adequado para a literacia digital necessária para formar profissionais para o século XXI.

O gestor do Arquivo.pt alerta para a necessidade de incluir os arquivos da web nos planos letivos e destaca que este conhecimento traz uma grande vantagem competitiva principalmente para os estudantes de Ciências Sociais e Humanidades.

Um detalhe inovador deste livro é que todos os links citados foram preservados pelo Arquivo.pt por forma a assegurar que as referências se mantenham válidas ao longo do tempo.

O livro está disponível gratuitamente para ser descarregado a partir de instituições do ensino superior (entidades aderentes à b-On) até dia 6 de março de 2022!

Se não tem acesso à rede b-on, pode descarregar uma versão não final do livro (pre-print).

Ligações

Galeria de imagens

Apresentação do livro “The past Web” no Museu de Leiria durante as Jornadas FCCN

Apresentação do livro
Apresentação do livro
Apresentação do livro
Apresentação do livro
Apresentação do livro
Apresentação do livro
Apresentação do livro
Apresentação do livro
Apresentação do livro Apresentação do livro Apresentação do livro Apresentação do livro Apresentação do livro Apresentação do livro Apresentação do livro Apresentação do livro

Sites de 2019 disponíveis e o Arquivo.pt ultrapassa os 10 000 milhões de ficheiros

thumb_notre-dame-paris

Última atualização em 21 de Setembro de 2021 às 10:52

A informação recolhida da Web durante 2019 está acessível através do Arquivo.pt, depois do embargo de 1 ano que precede a disponibilização de conteúdos.

As imagens do incêndio na Catedral de Notre Dame, printscreen de página do Jornal I, 17-04-29, preservada pelo Arquivo.pt
As imagens do incêndio na Catedral de Notre Dame, printscreen de página do Jornal I, 17-04-29, preservada pelo Arquivo.pt

Relembre e investigue os acontecimentos históricos de 2019, tais com:

O Arquivo.pt recolheu 1700 milhões de ficheiros, a partir de 2 milhões de sites visitados, num total de 131 terabytes que agora estão disponíveis para que possa aceder a eventos passados.

Em 2021, o Arquivo.pt disponibiliza acesso aberto a mais de 10 000 milhões de ficheiros (721 terabytes) oriundos de 27 milhões de websites.

Arquivo.pt certificado como fornecedor de dados abertos

selo-dados-gov

Última atualização em 7 de Outubro de 2021 às 15:39

O Arquivo.pt tem colaborado com a Agência para a Modernização Administrativa (AMA) com o objetivo de melhorar a preservação dos websites da Administração Pública.

A colaboração assenta em 3 pontos de ação:

  • identificação e recolha de todos os websites da Administração Pública;
  • preservação dos dados publicados em websites da Administração Pública que já não são atualizados no Memorial do Arquivo.pt (ex. “Tenho uma criança”);
  • formação em preservação dos dados abertos publicados online.

A AMA é a organização pública responsável pela promoção dos meios digitais na Administração Pública e tem por objetivo modernizar e simplificar o acesso dos cidadãos aos serviços do Estado.

O Arquivo.pt é um serviço operado pela Fundação para a Ciência e a Tecnologia I.P. (unidade FCCN) que preserva dados publicados na Web entre 1996 e a atualidade, tornando-os acessíveis a qualquer cidadão para fins de memória e investigação.

Diretiva da União Europeia para dados abertos inclui documentos nos sítios na Internet

A Diretiva (UE) 2019/1024 do Parlamento Europeu e do Conselho, relativa aos dados abertos e à reutilização de informações do setor público de 20 de junho de 2019, estipula o seguinte:

“(30) A presente diretiva prevê a definição do termo «documento» e essa definição deverá designar também qualquer parte do documento. O termo «documento» deverá abranger qualquer representação de atos, factos ou informações – e qualquer compilação destes –, seja qual for o seu meio (papel, suporte eletrónico, registo sonoro, visual ou audiovisual).

(34) A fim de facilitar a reutilização, os organismos do setor público deverão, se possível e adequado, disponibilizar os documentos, incluindo os que são publicados em sítios na Internet, num formato aberto e compatível com a leitura por máquina, juntamente com os respetivos metadados, ao melhor nível de precisão e granularidade, num formato que garanta a interoperabilidade

(35) Deverá considerar-se que um documento se apresenta em formato legível por máquina se tiver um formato de ficheiro estruturado de modo a ser facilmente possível, por meio de aplicações de software, identificar, reconhecer e extrair dados específicos. Os dados codificados em ficheiros estruturados num formato legível por máquina deverão ser considerados dados legíveis por máquina. Os formatos legíveis por máquina podem ser abertos ou sujeitos a direitos de propriedade; podem ser normas formais ou não.

(60) A Comissão deverá facilitar a cooperação entre Estados-Membros e apoiar a conceção, o ensaio, a aplicação e a implantação de interfaces eletrónicas interoperáveis que permitam dispor de serviços públicos mais eficazes e seguros.

O serviço público Arquivo.pt tem a missão de preservar os documentos publicados nos sítios da Internet para viabilizar o seu acesso aberto a longo prazo e disponibiliza interfaces eletrónicas interoperáveis (APIs) para o seu processamento automático.

A Lei portuguesa n.º 68/2021 de 2021-08-26 aprova os princípios gerais em matéria de dados abertos e transpõe a Diretiva europeia.

Arquivo.pt certificado como fornecedor de dados abertos da Administração Pública

A AMA reconheceu o Arquivo.pt como serviço público e fornecedor de dados abertos e atribuiu o seu selo de certificação no Portal de Dados Abertos.

O Arquivo.pt faz a recolha genérica de informação publicada na Web de interesse para a comunidade portuguesa. Porém, tem a seu cargo a preservação de websites da Administração Pública como o Portal do Governo em colaboração com o Centro de Gestão da Rede Informática do Governo (CEGER).

Qualquer cidadão pode aceder aos dados abertos resultantes destes arquivos históricos, podendo por exemplo, pesquisar informação oficial publicada em websites dos sucessivos Governos.

Em 2021, o Arquivo.pt disponibilizava acesso aberto a mais de 10 000 milhões de ficheiros (721 TB) oriundos de 27 milhões de websites. Os dados abertos preservados pelo Arquivo.pt podem ser explorados através da interface de pesquisa, automaticamente através de API (https://arquivo.pt/api) ou reutilizando os conjuntos de dados derivados.

Conjuntos de dados derivados disponíveis no Portal de Dados Abertos

Além dos artefactos web originais preservados no Arquivo.pt, este serviço tem gerado conjuntos de dados abertos derivados das suas atividades, que estão agora disponíveis em acesso aberto para que possam ser reutilizados:

Lista de recursos

Arquivo.pt nos eventos internacionais de 2021

Thumbnail IIPC WAC 2021

Última atualização em 17 de Agosto de 2021 às 19:36

Em junho de 2021, ocorreram 3 eventos internacionais relacionados com arquivos da web que contaram com os contributos do Arquivo.pt:

Contributos do Arquivo.pt para a comunidade internacional

O Arquivo.pt apresentou resultados do trabalho desenvolvido durante o último ano, com destaque para as funcionalidades que melhoraram a reprodução dos conteúdos arquivados, como é o caso da função “Completar a página”.

Foram apresentadas as novas coleções históricas do Geocities e do Internet Memory Foundation, que foram integradas no Arquivo.pt e as recolhas especiais sobre as Eleições Europeias de 2019 e Covid-19.

O Arquivo.pt é uma infraestrutura de investigação de âmbito internacional porque os seus serviços e conteúdos históricos preservados estão acessíveis a qualquer investigador do mundo.

Apresentações realizadas

  • “Arquivo.pt updates 2021”: presentation at the IIPC – General Assembly, Daniel Gomes (Vídeo)
  • “Complete the page!”. 1 minute drop in (demonstração da funcionalidade “completar a página”), Daniel Gomes (Slide)
  • “A transnational and cross-lingual crawl of the European Parliamentary Elections 2019, Ivo Branco (Slides, Vídeo)
  • “Enhancing access to research the Geocities historical collection”, Pedro Gomes (Slides, Vídeo)

 

Complete the page - demo
Complete the page – demo. Slide used in the IIPC 1 minute presentation, at the IIPC General Assembly 2021

Eleições Autárquicas de 2021: precisamos da sua ajuda!

Temos destacado durante as nossas apresentações que o Arquivo.pt precisa muito da sua ajuda para conseguir preservar a informação publicada na Web relacionada com Eleições.

Os sites eleitorais são de manifesta importância histórica. Contudo, são difíceis de identificar porque aparecem e desaparecem rapidamente, e muitas vezes são apenas referenciados em meios impressos (ex. cartazes).

Por isso, a sua colaboração é fundamental!

Para ajudar, basta adicionar endereços de páginas ou sites relacionados com as Eleições Autárquicas de 2021 através do seguinte link:

Se sugerir apenas 1 endereço relacionado com a sua localidade prestará um valioso contributo.

Consegue ajudar?

Se tiver alguma questão, por favor contacte-nos.

Conheça os vencedores do Prémio Arquivo.pt 2021!

Última atualização em 18 de Fevereiro de 2022 às 12:36


Os vencedores do Prémio Arquivo.pt 2021 foram anunciados pelo Jornal Público, parceiro oficial de comunicação desta edição, que atribuiu uma menção honrosa ao melhor trabalho baseado nos conteúdos do jornal. Foram recebidos 26 trabalhos candidatos.

A cerimónia de entrega de prémios decorreu durante o encerramento do Ciência 2021 – Encontro com a Ciência e Tecnologia, no dia 30 de junho pelas 17h15, no Centro de Congressos de Lisboa.

1º classificado – “Major Minors”

O vencedor do prémio no valor de 10 000 euros foi o trabalho “Major Minors” desenvolvido por Paulo Martins e Leandro Costa.

“Major Minors” é uma Ontologia de recortes de imprensa de jornais portugueses com referência a minorias sociais.

Este trabalho visa mapear e estudar a representação de minorias em contexto jornalístico português ao longo das duas primeiras décadas do século XXI.

Por exemplo, um utilizador pode visualizar artigos arquivados de notícias que referem minorias.

2º classificado – “Politiquices”

O 2º prémio no valor de 3 000 euros foi atribuído ao trabalho “Politiquices”, desenvolvido por David Batista.

“Politquices” é uma aplicação Web que permite pesquisar relações de apoio ou oposição entre personalidades e partidos políticos expressas em títulos de notícias preservadas no Arquivo.pt.

Esta interface permite analisar a relação de apoio ou oposição entre duas personalidades ou organizações políticas.

<href=”#3″>

3º classificado – “Primeiras páginas de jornais online portugueses”

O 3º classificado recebeu um prémio no valor de 2 000 euros e foi atribuído ao trabalho “Primeiras páginas de jornais online portugueses”, realizado por Susana Parreira, sob orientação de Ana Sabino, Ana Boavida e Penousal Machado.

“Primeiras páginas de jornais online portugueses” apresenta uma análise gráfica interativa das primeiras páginas de jornais online portugueses. Para este estudo foram analisados itens específicos dentro do desenho de jornais, permitindo assim observar tendências ao longo do tempo.

Como resultado temos uma interface Web que permite de forma interativa visualizar, por exemplo, o espaço ocupado pelas imagens na primeira página do Público.

Menção Honrosa do Público

O Jornal Público, parceiro oficial da 4ª edição do Prémio Arquivo.pt atribuiu a sua Menção Honrosa ao trabalho “Primeiras páginas de jornais online portugueses”, realizado por Susana Parreira, sob orientação de Ana Sabino, Ana Boavida e Penousal Machado.

Vídeos

Galeria de imagens

Entrega do Prémio Arquivo.pt 2021
Entrega do Prémio Arquivo.pt 2021
Entrega do Prémio Arquivo.pt 2021
Entrega do Prémio Arquivo.pt 2021
Entrega do Prémio Arquivo.pt 2021
Entrega do Prémio Arquivo.pt 2021
Entrega do Prémio Arquivo.pt 2021
Entrega do Prémio Arquivo.pt 2021
Entrega do Prémio Arquivo.pt 2021
Entrega do Prémio Arquivo.pt 2021
Entrega do Prémio Arquivo.pt 2021
Entrega do Prémio Arquivo.pt 2021
Entrega do Prémio Arquivo.pt 2021
Entrega do Prémio Arquivo.pt 2021
Entrega do Prémio Arquivo.pt 2021
Entrega do Prémio Arquivo.pt 2021
Entrega do Prémio Arquivo.pt 2021
Entrega do Prémio Arquivo.pt 2021
Entrega do Prémio Arquivo.pt 2021
Entrega do Prémio Arquivo.pt 2021 Entrega do Prémio Arquivo.pt 2021 Entrega do Prémio Arquivo.pt 2021 Entrega do Prémio Arquivo.pt 2021 Entrega do Prémio Arquivo.pt 2021 Entrega do Prémio Arquivo.pt 2021 Entrega do Prémio Arquivo.pt 2021 Entrega do Prémio Arquivo.pt 2021 Entrega do Prémio Arquivo.pt 2021 Entrega do Prémio Arquivo.pt 2021 Entrega do Prémio Arquivo.pt 2021 Entrega do Prémio Arquivo.pt 2021 Entrega do Prémio Arquivo.pt 2021 Entrega do Prémio Arquivo.pt 2021 Entrega do Prémio Arquivo.pt 2021 Entrega do Prémio Arquivo.pt 2021 Entrega do Prémio Arquivo.pt 2021 Entrega do Prémio Arquivo.pt 2021 Entrega do Prémio Arquivo.pt 2021

Créditos das fotos: Valter Gouveia – FCT | FCCN | Arquivo.pt

Coleção do 1º arquivo da web europeu pesquisável no Arquivo.pt

logo Internet Memory Foundation - website

Última atualização em 1 de Outubro de 2021 às 9:10

A coleção histórica de conteúdos da Web gerada ao longo da atividade da Internet Memory Foundation (IMF) foi doada ao Arquivo.pt e pode agora ser pesquisada!

A IMF foi uma organização europeia dedicada a preservar conteúdos da web que foi extinta em 2018.

O 1º projeto de arquivo da Web na Europa (2004-2010) foi liderado por Julien Masanès (que foi convidado de honra na celebração dos 10 anos do Arquivo.pt) e denominava-se European Archive Foundation.

Em 2010, Julien Masanès, o “pai” dos arquivos da Web na Europa criou a IMF.

Exemplos de páginas da coleção doada pelo IMF

A coleção doada pelo IMF foi agora integrada no acervo do Arquivo.pt para ser preservada para a posteridade.

Esta coleção é composta por 142 milhões de ficheiros que totalizam 6,3 TB de informação histórica cujos textos ou imagens podem agora ser pesquisados através do Arquivo.pt.

print homepage www.limes.fp6-limes.eu

Página do projeto LIMES (Land and Sea Monitoring for Environment and Security), 2009.

print homepage intelligence-territoriale.eu

Página do projeto Intelligence-territoriale, 2009.

Página sobre as Eleições Europeias de 2009 (www.elections2009-results.eu).

Página da agência noticiosa Reuters acerda do WikiLeaks, 2011

Print da página do Internet Memory Research em 2014

Página do Internet Memory Foundation, 2014.

Pesquise esta nova coleção!

Esta nova coleção recebeu foi nomeada “InternetMemory” na lista de coleções do Arquivo.pt.

Podem ser realizadas pesquisas sobre esta coleção utilizando o parâmetro de pesquisa collection ou através da página de pesquisa customizada disponível em arquivo.pt/InternetMemory.

printscreen da custom-search para a coleção InternetMemory