Última atualização em 16 de Junho de 2023 às 13:39
A principal missão do Arquivo.pt é preservar informação online para fins de investigação e educação.
Agora, o Arquivo.pt contribuiu para a preservação da informação científica publicada online que documenta projetos de investigação e desenvolvimento financiados pela União Europeia durante o programa Horizonte 2020 (2014-2021). Foram preservados 197 milhões de ficheiros (17 TB) relacionados com ciência para acesso futuro.
Projectos H2020 publicam informação online valiosa que está a ser perdida
O recurso a websites para documentar as atividades de projetos de investigação e desenvolvimento tem vindo sempre a aumentar, sendo utilizados para disponibilizar informação científica relevante que completa a literatura publicada, como por exemplo conjuntos de dados abertos, apresentações em eventos ou software desenvolvido.
Contudo, após o fim dos projetos, os respetivos websites normalmente desaparecem causando uma perda irrecuperável de informação científica única e valiosa.
Arquivo.pt identificou automaticamente os endereços que documentam projetos de investigação e desenvolvimento H2020
O portal de dados abertos da União Europeia publicou um conjunto de dados do Community Research and Development Information Service (CORDIS) que documenta projetos de investigação financiados durante o programa H2020. Porém, dos 31 129 projetos listados, apenas 46% apresentavam o URL do projecto (coluna projectURL).
O Arquivo.pt desenvolveu uma metodologia de baixo custo que identifica automaticamente os URLs relacionados com projetos de investigação e desenvolvimento para serem preservados de forma sistemática. Esta identificação automática é alcançada através da combinação do recurso a conjuntos de dados abertos com serviços de pesquisa na web. Esta metodologia é detalhada no artigo científico publicado na conferência International Conference on Digital Preservation 2016.
Em suma, extraímos 270 650 URLs únicos dos seguintes conjuntos de dados abertos:
Em seguida, extraímos o acrónimo e o título dos projetos documentados nos conjuntos de dados e pesquisámos automaticamente na web usando a API do Bing para encontrar URLs adicionais.
Todos os conjuntos de dados e ferramentas desenvolvidas foram disponibilizados publicamente em acesso aberto para que possam ser reutilizados e complementados de forma colaborativa, incluindo o software desenvolvido para identificar automaticamente URLs adicionais sobre os projetos H2020.
197 milhões de ficheiros da web acerca de Ciência foram preservados
O Arquivo.pt identificou e preservou 197 milhões de ficheiros da web (17 TB) de informação que documentam projetos de investigação e desenvolvimento financiados pelo programa europeu Horizonte 2020.
Em 2021, podemos testemunhar que alguns sites dos projetos já não estão disponíveis online, como o website do projeto Extended Model of Organic Semiconductors (EXTMOS) (http://extmos.eu/). No entanto, a informação deste website foi preservada e pode ser acedida no Arquivo.pt:
Versão arquivada no Arquivo.pt da página inicial do projeto EXTMOS de Investigação e Desenvolvimento financiado pelo H2020.
Contribuições para complementar os conjuntos de dados abertos da União Europeia
Todos os conjuntos de dados resultantes foram tornados públicos para que possam ser melhorados e reutilizados por outras organizações também interessadas na preservação deste património digital:
- Cordis-h2020projectsComplementedByArquivoPT.xlsx: contem 2 colunas adicionais em comparação com o conjunto de dados originais:
- URLsBingSearch (coluna V): top 10 resultados de pesquisa retornados pela Bing API quando a coluna projectUrl (coluna K) no conjunto de dados estava vazia (ex. http://extmos.eu/)
- ArchivedProjectURLs (coluna W): link direto para a versão preservada dos projectUrls e URLsBingSearch no Arquivo.pt (ex. https://arquivo.pt/wayback/http://extmos.eu)
- Cordis-h2020organizationsComplementedByArquivoPT.xlsx: 1 coluna adicional:
- archivedOrganizationUrl (coluna Y): link direto para a versão preservada dos organizationUrl (coluna O) no Arquivo.pt (ex. https://arquivo.pt/wayback/www.it.pt)
- Cordis-h2020reportsComplementedByArquivoPT.xlsx: 1 coluna adicional:
- archivedUrl (coluna P): link direto para a versão preservada dos url (coluna O) no Arquivo.pt (e.g. https://arquivo.pt/wayback/http://crome.ces.uc.pt)
Se quiser saber mais informações sobre esta coleção, assista ao vídeo Preservation of web content related to Horizon 2020.
Referências
- Trabalho anterior para preservar documentação online sobre projectos FP4-FP7
- Software e conjuntos de dados para identificar automaticamente informações online acerca de projetos H2020
- Relatório técnico sobre a coleção H2020 projectos EU (em português)
- Vídeo Preservation of web content related to Horizon 2020, Pedro Gomes, Outubro 2021
- Apresentação Preservation of web content related to Horizon 2020, Pedro Gomes, Junho 2023