Arquivo.pt preservou informação online acerca de projectos europeus financiados pelo H2020

Thumbnail H2020 projectos

Última atualização em 16 de Junho de 2023 às 13:39

A principal missão do Arquivo.pt é preservar informação online para fins de investigação e educação.

Anteriormente, o Arquivo.pt identificou e preservou websites de projectos de investigação e desenvolvimento financiados pela União Europeia durante os programas FP4, FP5, FP6 e FP7 (1994-2013).

Agora, o Arquivo.pt contribuiu para a preservação da informação científica publicada online que documenta projetos de investigação e desenvolvimento financiados pela União Europeia durante o programa Horizonte 2020 (2014-2021). Foram preservados 197 milhões de ficheiros (17 TB) relacionados com ciência para acesso futuro.

Projectos H2020 publicam informação online valiosa que está a ser perdida

O recurso a websites para documentar as atividades de projetos de investigação e desenvolvimento tem vindo sempre a aumentar, sendo utilizados para disponibilizar informação científica relevante que completa a literatura publicada, como por exemplo conjuntos de dados abertos, apresentações em eventos ou software desenvolvido.

Contudo, após o fim dos projetos, os respetivos websites normalmente desaparecem causando uma perda irrecuperável de informação científica única e valiosa.

Arquivo.pt identificou automaticamente os endereços que documentam projetos de investigação e desenvolvimento H2020

O portal de dados abertos da União Europeia publicou um conjunto de dados do Community Research and Development Information Service (CORDIS) que documenta projetos de investigação financiados durante o programa H2020. Porém, dos 31 129 projetos listados, apenas 46% apresentavam o URL do projecto (coluna projectURL).

O Arquivo.pt desenvolveu uma metodologia de baixo custo que identifica automaticamente os URLs relacionados com projetos de investigação e desenvolvimento para serem preservados de forma sistemática. Esta identificação automática é alcançada através da combinação do recurso a conjuntos de dados abertos com serviços de pesquisa na web. Esta metodologia é detalhada no artigo científico publicado na conferência International Conference on Digital Preservation 2016.

Em suma, extraímos 270 650 URLs únicos dos seguintes conjuntos de dados abertos:

Em seguida, extraímos o acrónimo e o título dos projetos documentados nos conjuntos de dados e pesquisámos automaticamente na web usando a API do Bing para encontrar URLs adicionais.

Todos os conjuntos de dados e ferramentas desenvolvidas foram disponibilizados publicamente em acesso aberto para que possam ser reutilizados e complementados de forma colaborativa, incluindo o software desenvolvido para identificar automaticamente URLs adicionais sobre os projetos H2020.

197 milhões de ficheiros da web acerca de Ciência foram preservados

O Arquivo.pt identificou e preservou 197 milhões de ficheiros da web (17 TB) de informação que documentam projetos de investigação e desenvolvimento financiados pelo programa europeu Horizonte 2020.

Em 2021, podemos testemunhar que alguns sites dos projetos já não estão disponíveis online, como o website do projeto Extended Model of Organic Semiconductors (EXTMOS) (http://extmos.eu/). No entanto, a informação deste website foi preservada e pode ser acedida no Arquivo.pt:

Archived version at Arquivo.pt (https://arquivo.pt/wayback/20170427182603/http://extmos.eu/) of the home page of the EXTMOS Research and Development project (http://extmos.eu/)funded by H2020.

Versão arquivada no Arquivo.pt da página inicial do projeto EXTMOS de Investigação e Desenvolvimento financiado pelo H2020.

Contribuições para complementar os conjuntos de dados abertos da União Europeia

Todos os conjuntos de dados resultantes foram tornados públicos para que possam ser melhorados e reutilizados por outras organizações também interessadas na preservação deste património digital:

Se quiser saber mais informações sobre esta coleção, assista ao vídeo Preservation of web content related to Horizon 2020.

Referências

É investigador?

Sites de 2019 disponíveis e o Arquivo.pt ultrapassa os 10 000 milhões de ficheiros

thumb_notre-dame-paris

Última atualização em 21 de Setembro de 2021 às 10:52

A informação recolhida da Web durante 2019 está acessível através do Arquivo.pt, depois do embargo de 1 ano que precede a disponibilização de conteúdos.

As imagens do incêndio na Catedral de Notre Dame, printscreen de página do Jornal I, 17-04-29, preservada pelo Arquivo.pt
As imagens do incêndio na Catedral de Notre Dame, printscreen de página do Jornal I, 17-04-29, preservada pelo Arquivo.pt

Relembre e investigue os acontecimentos históricos de 2019, tais com:

O Arquivo.pt recolheu 1700 milhões de ficheiros, a partir de 2 milhões de sites visitados, num total de 131 terabytes que agora estão disponíveis para que possa aceder a eventos passados.

Em 2021, o Arquivo.pt disponibiliza acesso aberto a mais de 10 000 milhões de ficheiros (721 terabytes) oriundos de 27 milhões de websites.

Arquivo.pt certificado como fornecedor de dados abertos

selo-dados-gov

Última atualização em 17 de Agosto de 2022 às 8:40

O Arquivo.pt tem colaborado com a Agência para a Modernização Administrativa (AMA) com o objetivo de melhorar a preservação dos websites da Administração Pública.

A colaboração assenta em 3 pontos de ação:

  • identificação e recolha de todos os websites da Administração Pública;
  • preservação dos dados publicados em websites da Administração Pública que já não são atualizados no Memorial do Arquivo.pt (ex. “Tenho uma criança”);
  • formação em preservação dos dados abertos publicados online.

A AMA é a organização pública responsável pela promoção dos meios digitais na Administração Pública e tem por objetivo modernizar e simplificar o acesso dos cidadãos aos serviços do Estado.

O Arquivo.pt é um serviço operado pela Fundação para a Ciência e a Tecnologia I.P. (unidade FCCN) que preserva dados publicados na Web entre 1996 e a atualidade, tornando-os acessíveis a qualquer cidadão para fins de memória e investigação.

Diretiva da União Europeia para dados abertos inclui documentos nos sítios na Internet

A Diretiva (UE) 2019/1024 do Parlamento Europeu e do Conselho, relativa aos dados abertos e à reutilização de informações do setor público de 20 de junho de 2019, estipula o seguinte:

“(30) A presente diretiva prevê a definição do termo «documento» e essa definição deverá designar também qualquer parte do documento. O termo «documento» deverá abranger qualquer representação de atos, factos ou informações – e qualquer compilação destes –, seja qual for o seu meio (papel, suporte eletrónico, registo sonoro, visual ou audiovisual).

(34) A fim de facilitar a reutilização, os organismos do setor público deverão, se possível e adequado, disponibilizar os documentos, incluindo os que são publicados em sítios na Internet, num formato aberto e compatível com a leitura por máquina, juntamente com os respetivos metadados, ao melhor nível de precisão e granularidade, num formato que garanta a interoperabilidade

(35) Deverá considerar-se que um documento se apresenta em formato legível por máquina se tiver um formato de ficheiro estruturado de modo a ser facilmente possível, por meio de aplicações de software, identificar, reconhecer e extrair dados específicos. Os dados codificados em ficheiros estruturados num formato legível por máquina deverão ser considerados dados legíveis por máquina. Os formatos legíveis por máquina podem ser abertos ou sujeitos a direitos de propriedade; podem ser normas formais ou não.

(60) A Comissão deverá facilitar a cooperação entre Estados-Membros e apoiar a conceção, o ensaio, a aplicação e a implantação de interfaces eletrónicas interoperáveis que permitam dispor de serviços públicos mais eficazes e seguros.

O serviço público Arquivo.pt tem a missão de preservar os documentos publicados nos sítios da Internet para viabilizar o seu acesso aberto a longo prazo e disponibiliza interfaces eletrónicas interoperáveis (APIs) para o seu processamento automático.

A Lei portuguesa n.º 68/2021 de 2021-08-26 aprova os princípios gerais em matéria de dados abertos e transpõe a Diretiva europeia.

Arquivo.pt certificado como fornecedor de dados abertos da Administração Pública

A AMA reconheceu o Arquivo.pt como serviço público e fornecedor de dados abertos e atribuiu o seu selo de certificação no Portal de Dados Abertos.

O Arquivo.pt faz a recolha genérica de informação publicada na Web de interesse para a comunidade portuguesa. Porém, tem a seu cargo a preservação de websites da Administração Pública como o Portal do Governo em colaboração com o Centro de Gestão da Rede Informática do Governo (CEGER).

Qualquer cidadão pode aceder aos dados abertos resultantes destes arquivos históricos, podendo por exemplo, pesquisar informação oficial publicada em websites dos sucessivos Governos.

Em 2021, o Arquivo.pt disponibilizava acesso aberto a mais de 10 000 milhões de ficheiros (721 TB) oriundos de 27 milhões de websites. Os dados abertos preservados pelo Arquivo.pt podem ser explorados através da interface de pesquisa, automaticamente através de API (https://arquivo.pt/api) ou reutilizando os conjuntos de dados derivados.

Conjuntos de dados derivados disponíveis no Portal de Dados Abertos

Além dos artefactos web originais preservados no Arquivo.pt, este serviço tem gerado conjuntos de dados abertos derivados das suas atividades, que estão agora disponíveis em acesso aberto para que possam ser reutilizados:

Lista de recursos

Apresentação no IIPC Web Archiving Conference 2022

Coleção do 1º arquivo da web europeu pesquisável no Arquivo.pt

logo Internet Memory Foundation - website

Última atualização em 1 de Outubro de 2021 às 9:10

A coleção histórica de conteúdos da Web gerada ao longo da atividade da Internet Memory Foundation (IMF) foi doada ao Arquivo.pt e pode agora ser pesquisada!

A IMF foi uma organização europeia dedicada a preservar conteúdos da web que foi extinta em 2018.

O 1º projeto de arquivo da Web na Europa (2004-2010) foi liderado por Julien Masanès (que foi convidado de honra na celebração dos 10 anos do Arquivo.pt) e denominava-se European Archive Foundation.

Em 2010, Julien Masanès, o “pai” dos arquivos da Web na Europa criou a IMF.

Exemplos de páginas da coleção doada pelo IMF

A coleção doada pelo IMF foi agora integrada no acervo do Arquivo.pt para ser preservada para a posteridade.

Esta coleção é composta por 142 milhões de ficheiros que totalizam 6,3 TB de informação histórica cujos textos ou imagens podem agora ser pesquisados através do Arquivo.pt.

print homepage www.limes.fp6-limes.eu

Página do projeto LIMES (Land and Sea Monitoring for Environment and Security), 2009.

print homepage intelligence-territoriale.eu

Página do projeto Intelligence-territoriale, 2009.

Página sobre as Eleições Europeias de 2009 (www.elections2009-results.eu).

Página da agência noticiosa Reuters acerda do WikiLeaks, 2011

Print da página do Internet Memory Research em 2014

Página do Internet Memory Foundation, 2014.

Pesquise esta nova coleção!

Esta nova coleção recebeu foi nomeada “InternetMemory” na lista de coleções do Arquivo.pt.

Podem ser realizadas pesquisas sobre esta coleção utilizando o parâmetro de pesquisa collection ou através da página de pesquisa customizada disponível em arquivo.pt/InternetMemory.

printscreen da custom-search para a coleção InternetMemory

 

 

 

 

Eleições Presidenciais 2021: precisamos da sua ajuda!

thumbnail_presidenciais
banner_presidenciais_v
Formulário de sugestão de endereços de páginas, sites e outros conteúdos Web

O Arquivo.pt convida todos os cidadãos a sugerirem páginas da Web relacionadas com as Eleições Presidenciais de 2021 para serem preservadas para o futuro.

As Eleições Presidenciais ocorrerão em Portugal no dia 24 de janeiro de 2021.

As suas sugestões são importantes para que o Arquivo.pt consiga guardar uma memória mais completa deste importante evento eleitoral.

Para sugerir páginas utilize este formulário (https://tinyurl.com/presidenciais-sugerir)

 

Arquivo.pt preserva websites de projectos científicos nacionais

thumbnail_memoriafct

Última atualização em 26 de Fevereiro de 2021 às 13:06

Preservar os websites de projectos científicos é importante

Os conteúdos dos websites tendem a desaparecer quando os projetos científicos terminam.

A preservação dos websites de projetos científicos é importante porque:

  • documenta o desenvolvimento dos projetos;
  • assegura o acesso a conteúdos técnicos e científicos únicos que os investigadores publicaram nos websites dos projetos (ex. apresentações, fotografias, conjuntos de dados);
  • reforça a visibilidade dos resultados dos projetos financiados pela FCT.

Recolha experimental dos websites dos projetos de científicos em 2016

O Arquivo.pt recolheu websites de projetos financiados pela FCT em 2016 de forma automática.

A informação acerca destes websites estava dispersa pois não era registada durante o processo administrativo.

Durante cerca 20 anos a FCT financiou projetos científicos, por isso o número de sites poderia ser demasiado elevado para serem identificados manualmente.

Foi então adoptada uma metodologia automática de identificação destes websites desenvolvida pelo Arquivo.pt.

A base de dados da FCT tinha um total de 11 996 entradas de projetos mas não incluía referências a endereços web. Aplicando a metodologia automática foram identificados 7 956 URLs relacionados com os projectos científicos financiados.

A recolha dos conteúdos referenciados por estes endereços resultaram na preservação de 600 721 ficheiros (72 GB), incluindo conteúdos tais como páginas da web de grupos de pesquisa, páginas pessoais de investigadores ou blogs relacionados com os projetos.

Referências online em relatórios de projectos científicos passaram a ser preservadas a partir de 2020

A partir de junho de 2020, os endereços dos websites dos projetos financiados pela FCT passaram obrigatoriamente a ser registados nos relatórios de progresso e final submetidos à FCT.

O Arquivo.pt passou a utilizar estes endereços para preservar o conteúdos de websites de projetos científicos nacionais de forma sistemática.

1ª recolha oficial de websites de projectos científicos

Em junho de 2020, o Arquivo.pt obteve 263 endereços relacionados com 100 projetos científicos a partir dos relatórios financiados pela FCT. Grande parte dos endereços (67%) não tinha qualquer versão anteriormente preservada no Arquivo.pt.

Os endereços obtidos apontam para recursos online tais como os websites dos projetos, unidades de I&D, notícias nos media, artigos em revistas científicas ou repositórios, base de dados, vídeos no Youtube ou páginas do Facebook.

Em julho de 2020, lançou-se uma recolha especial a partir deste conjunto de endereços que resultou em 6,9 GB de informação obtidos a partir da visita a 31 606 URLs.

Exposição acerca de projetos de Investigação & Desenvolvimento

A Memória da Investigação Científica é uma exposição online dedicada aos websites de projetos científicos financiados pela Fundação para a Ciência e a Tecnologia (FCT) que o Arquivo.pt tem preservado.

Encontram-se também websites das Unidades de Investigação & Desenvolvimento financiadas pela FCT.

Memorial do Arquivo.pt preserva gratuitamente websites científicos

O serviço Memorial do Arquivo.pt tem preservado websites históricos da FCT que foram desativados. Estes foram criados para eventos ou iniciativas que terminaram e por isso os seus conteúdos deixaram de ser actualizados.

Para incluir um website no Memorial, o Arquivo.pt começa por fazer uma recolha de alta qualidade dos seus conteúdos.

Em seguida, os conteúdos recolhidos são validados em colaboração com os responsáveis pelo website.

Finalmente, o endereço do website é redireccionado para os conteúdos que passaram a ser preservados pelo Arquivo.pt.

Por exemplo, se alguém quiser aceder a qualquer página do site do Encontro Arquivos Científicos realizado em 2014, será redirecionado para o Arquivo.pt.

Assim, os conteúdos permanecem acessíveis ao longo do tempo e os links, as referências em comunicações científicas que possam existir não se quebram.

O serviço de preservação digital Memorial do Arquivo.pt não tem custos para websites da comunidade académica e científica, bastando enviar um pedido para contacto@arquivo.pt.

Para saber mais

Arquivos online ou do online?

thumbnail_tendencias

No final de 2020, recomendamos alguns textos que colocam o futuro em perspetiva.

Destacamos o tema da preservação dos conteúdos online, apresentado no livro   “Tendências 2021”, mais precisamente no capítulo intitulado “Arquivos online ou do online?” da autoria de Daniel Gomes, Gestor do Arquivo.pt.

Fui convidado para escrever acerca dos desafios e ameaças aos arquivos online. A primeira questão que me surgiu foi o que se entende por um “arquivo online”?

A minha preocupação reside nos “arquivos do online” porque ainda nem existe uma consciência instituída acerca da sua necessidade, seja a nível académico, governamental ou individual.

É tecnologicamente impossível preservar toda a informação online. Mas é um absurdo não ter a consciência, e consequentemente a acção, de que temos de preservar alguma da informação online para acesso a curto, médio e longo prazo.

Leia o texto na íntegra nas páginas 23 a 26 do livro em acesso-aberto “Tendências 2021”.

O desafio é cultivar a consciência da importância de preservar conteúdos online aprendendo como fazê-lo na prática.

Votos de Bom Ano!

Vencedor do Prémio no Dia Mundial da Preservação Digital

WDPD2020-Portuguese-Portrait-RGB

Última atualização em 23 de Novembro de 2020 às 18:19

WDPD2020-Portuguese-Landscape-RGB

No mês de novembro comemora-se o Dia Mundial da Preservação Digital e, para assinalar esta iniciativa internacional, o Arquivo.pt realizou uma sessão online aberta à comunidade.

Formulário de inscrição (gratuita mas necessária)

O convidado especial desta sessão foi o 1º classificado do Prémio Arquivo.pt 2020, Miguel Ramalho, que nos falou do seu trabalho intitulado “Desarquivo”.

Tal como em 2017, 2018 e 2019, convidámos todas as pessoas a conhecerem o Arquivo.pt, e a utilizarem-no na investigação e na preservação da memória.

O Dia Mundial da Preservação Digital é promovido pelo Digital Preservation Coalitium (UK) e é motivo para iniciativas em todo o mundo, partilhadas nas redes sociais com a hashtag WDPD2020.

Agenda

15h00 – Boas vindas (slides, 1 MB, PDF)
15h05 – Novidades do Arquivo.pt, Daniel Gomes (slides, 2.6 MB, PDF)
15h15 – Desarquivo, 1º classificado do Prémio Arquivo.pt 2020, Miguel Ramalho (slides, 3 MB, PDF)
15h45 – Questões dos participantes
16h00 – Fim

Vídeo da sessão

Inquérito de satistação (1 minuto)

Coleção histórica do Geocities disponível no Arquivo.pt

thumbnail research_geocities

Última atualização em 23 de Setembro de 2021 às 15:30

O Geocities.com foi a primeira grande “rede social” que permitia a qualquer pessoa criar o seu website e difundir informação através da Internet. Foi criado em 1994, adquirido pela Yahoo! em 1999 e encerrado em 2009.

Surgiram iniciativas para preservar os conteúdos do Geocities, tais como o projecto do Archive Team que reuniu 641 GB de informação em 2009, o oOCities ou o Geocities.ws.

Dada a relevância histórica do Geocities, o Arquivo.pt também integrou os seus conteúdos que prevaleceram até aos dias de hoje.

Agora, qualquer pessoa pode facilmente explorar os conteúdos históricos do Geocities utilizando as ferramentas inovadoras de pesquisa disponibilizadas pelo Arquivo.pt como a pesquisa de páginas, pesquisa de imagens ou via API.

Com esta iniciativa, o Arquivo.pt pretende contribuir para o surgimento de estudos inovadores em áreas como Artes, Humanidades ou Sociologia (ver sumário do projecto).

Pesquise agora o Geocities em: arquivo.pt/searchGeocities

Exemplos de sites Geocities preservados no Arquivo.pt

Video Enhancing access to research the Geocities historical collection

Enhancing access to research the Geocities historical collection, Pedro Gomes, RESAW 2021 (slides)

 

Coleção internacional acerca das Eleições Europeias 2019 está disponível

thumbnail print_eleicoes-europeias_eu

Última atualização em 30 de Agosto de 2022 às 10:45

Print www.eleicoes.europeias .eu
Excerto de www.european.elections.eu, preservado pelo Arquivo.pt em maio de 2019

A coleção especial de páginas Web acerca das Eleições Europeias de 2019 está disponível para pesquisa no Arquivo.pt.

Para compilar esta coleção, foram identificadas páginas escritas em 24 línguas europeias, através de pesquisas automáticas no motor de busca Bing e sugestões oriundas de 17 países europeus.

Destaca-se a colaboração do Publications Office of the European Union que reviu a lista dos termos de pesquisa nas diversas línguas da União Europeia.

Entre maio e julho de 2019, o Arquivo.pt recolheu de forma exaustiva páginas relacionadas com as Eleições Europeias em vários países.

A coleção resultante denominada “Eleições Europeias 2019” reúne 99 milhões de ficheiros que totalizam 4,8 TeraBytes de informação.

O relatório técnico “A transnational crawl of the European Parliamentary Elections 2019” detalha a metodologia aplicada. Esta metodologia tem sido aplicada para gerar outras coleções temáticas como por exemplo acerca do Covid-19.

Convidam-se todos os cidadãos, especialmente os investigadores, a explorarem os conteúdos da Web do passado e a incluí-los nos seus trabalhos através deste serviço criado especialmente para pesquisar a coleção multi-lingue Eleições Europeias de 2019: https://arquivo.pt/ee2019

Vídeo “A transnational and cross-lingual crawl of the European Parliamentary Elections 2019”

A transnational and cross-lingual crawl of the European Parliamentary Elections 2019, Ivo Branco, IIPC Web Archiving Conference and RESAW 2021 (slides)

Para saber mais