Última atualização em 16 de Junho de 2023 às 13:39
A principal missão do Arquivo.pt é preservar informação online para fins de investigação e educação.
Anteriormente, o Arquivo.pt identificou e preservou websites de projectos de investigação e desenvolvimento financiados pela União Europeia durante os programas FP4, FP5, FP6 e FP7 (1994-2013).
Agora, o Arquivo.pt contribuiu para a preservação da informação científica publicada online que documenta projetos de investigação e desenvolvimento financiados pela União Europeia durante o programa Horizonte 2020 (2014-2021). Foram preservados 197 milhões de ficheiros (17 TB) relacionados com ciência para acesso futuro.
Projectos H2020 publicam informação online valiosa que está a ser perdida
O recurso a websites para documentar as atividades de projetos de investigação e desenvolvimento tem vindo sempre a aumentar, sendo utilizados para disponibilizar informação científica relevante que completa a literatura publicada, como por exemplo conjuntos de dados abertos, apresentações em eventos ou software desenvolvido.
Contudo, após o fim dos projetos, os respetivos websites normalmente desaparecem causando uma perda irrecuperável de informação científica única e valiosa.
Arquivo.pt identificou automaticamente os endereços que documentam projetos de investigação e desenvolvimento H2020
O portal de dados abertos da União Europeia publicou um conjunto de dados do Community Research and Development Information Service (CORDIS) que documenta projetos de investigação financiados durante o programa H2020. Porém, dos 31 129 projetos listados, apenas 46% apresentavam o URL do projecto (coluna projectURL).
O Arquivo.pt desenvolveu uma metodologia de baixo custo que identifica automaticamente os URLs relacionados com projetos de investigação e desenvolvimento para serem preservados de forma sistemática. Esta identificação automática é alcançada através da combinação do recurso a conjuntos de dados abertos com serviços de pesquisa na web. Esta metodologia é detalhada no artigo científico publicado na conferência International Conference on Digital Preservation 2016.
Em suma, extraímos 270 650 URLs únicos dos seguintes conjuntos de dados abertos:
Em seguida, extraímos o acrónimo e o título dos projetos documentados nos conjuntos de dados e pesquisámos automaticamente na web usando a API do Bing para encontrar URLs adicionais.
Todos os conjuntos de dados e ferramentas desenvolvidas foram disponibilizados publicamente em acesso aberto para que possam ser reutilizados e complementados de forma colaborativa, incluindo o software desenvolvido para identificar automaticamente URLs adicionais sobre os projetos H2020.
197 milhões de ficheiros da web acerca de Ciência foram preservados
O Arquivo.pt identificou e preservou 197 milhões de ficheiros da web (17 TB) de informação que documentam projetos de investigação e desenvolvimento financiados pelo programa europeu Horizonte 2020.
Em 2021, podemos testemunhar que alguns sites dos projetos já não estão disponíveis online, como o website do projeto Extended Model of Organic Semiconductors (EXTMOS) (http://extmos.eu/). No entanto, a informação deste website foi preservada e pode ser acedida no Arquivo.pt:
Versão arquivada no Arquivo.pt da página inicial do projeto EXTMOS de Investigação e Desenvolvimento financiado pelo H2020.
Contribuições para complementar os conjuntos de dados abertos da União Europeia
Todos os conjuntos de dados resultantes foram tornados públicos para que possam ser melhorados e reutilizados por outras organizações também interessadas na preservação deste património digital:
Se quiser saber mais informações sobre esta coleção, assista ao vídeo Preservation of web content related to Horizon 2020.
Referências
É investigador?