Arquivo.pt preservou informação online acerca de projectos europeus financiados pelo H2020

Thumbnail H2020 projectos

Última atualização em 16 de Junho de 2023 às 13:39

A principal missão do Arquivo.pt é preservar informação online para fins de investigação e educação.

Anteriormente, o Arquivo.pt identificou e preservou websites de projectos de investigação e desenvolvimento financiados pela União Europeia durante os programas FP4, FP5, FP6 e FP7 (1994-2013).

Agora, o Arquivo.pt contribuiu para a preservação da informação científica publicada online que documenta projetos de investigação e desenvolvimento financiados pela União Europeia durante o programa Horizonte 2020 (2014-2021). Foram preservados 197 milhões de ficheiros (17 TB) relacionados com ciência para acesso futuro.

Projectos H2020 publicam informação online valiosa que está a ser perdida

O recurso a websites para documentar as atividades de projetos de investigação e desenvolvimento tem vindo sempre a aumentar, sendo utilizados para disponibilizar informação científica relevante que completa a literatura publicada, como por exemplo conjuntos de dados abertos, apresentações em eventos ou software desenvolvido.

Contudo, após o fim dos projetos, os respetivos websites normalmente desaparecem causando uma perda irrecuperável de informação científica única e valiosa.

Arquivo.pt identificou automaticamente os endereços que documentam projetos de investigação e desenvolvimento H2020

O portal de dados abertos da União Europeia publicou um conjunto de dados do Community Research and Development Information Service (CORDIS) que documenta projetos de investigação financiados durante o programa H2020. Porém, dos 31 129 projetos listados, apenas 46% apresentavam o URL do projecto (coluna projectURL).

O Arquivo.pt desenvolveu uma metodologia de baixo custo que identifica automaticamente os URLs relacionados com projetos de investigação e desenvolvimento para serem preservados de forma sistemática. Esta identificação automática é alcançada através da combinação do recurso a conjuntos de dados abertos com serviços de pesquisa na web. Esta metodologia é detalhada no artigo científico publicado na conferência International Conference on Digital Preservation 2016.

Em suma, extraímos 270 650 URLs únicos dos seguintes conjuntos de dados abertos:

Em seguida, extraímos o acrónimo e o título dos projetos documentados nos conjuntos de dados e pesquisámos automaticamente na web usando a API do Bing para encontrar URLs adicionais.

Todos os conjuntos de dados e ferramentas desenvolvidas foram disponibilizados publicamente em acesso aberto para que possam ser reutilizados e complementados de forma colaborativa, incluindo o software desenvolvido para identificar automaticamente URLs adicionais sobre os projetos H2020.

197 milhões de ficheiros da web acerca de Ciência foram preservados

O Arquivo.pt identificou e preservou 197 milhões de ficheiros da web (17 TB) de informação que documentam projetos de investigação e desenvolvimento financiados pelo programa europeu Horizonte 2020.

Em 2021, podemos testemunhar que alguns sites dos projetos já não estão disponíveis online, como o website do projeto Extended Model of Organic Semiconductors (EXTMOS) (http://extmos.eu/). No entanto, a informação deste website foi preservada e pode ser acedida no Arquivo.pt:

Archived version at Arquivo.pt (https://arquivo.pt/wayback/20170427182603/http://extmos.eu/) of the home page of the EXTMOS Research and Development project (http://extmos.eu/)funded by H2020.

Versão arquivada no Arquivo.pt da página inicial do projeto EXTMOS de Investigação e Desenvolvimento financiado pelo H2020.

Contribuições para complementar os conjuntos de dados abertos da União Europeia

Todos os conjuntos de dados resultantes foram tornados públicos para que possam ser melhorados e reutilizados por outras organizações também interessadas na preservação deste património digital:

Se quiser saber mais informações sobre esta coleção, assista ao vídeo Preservation of web content related to Horizon 2020.

Referências

É investigador?