Coleção do 1º arquivo da web europeu pesquisável no Arquivo.pt

logo Internet Memory Foundation - website

Última atualização em 1 de Outubro de 2021 às 9:10

A coleção histórica de conteúdos da Web gerada ao longo da atividade da Internet Memory Foundation (IMF) foi doada ao Arquivo.pt e pode agora ser pesquisada!

A IMF foi uma organização europeia dedicada a preservar conteúdos da web que foi extinta em 2018.

O 1º projeto de arquivo da Web na Europa (2004-2010) foi liderado por Julien Masanès (que foi convidado de honra na celebração dos 10 anos do Arquivo.pt) e denominava-se European Archive Foundation.

Em 2010, Julien Masanès, o “pai” dos arquivos da Web na Europa criou a IMF.

Exemplos de páginas da coleção doada pelo IMF

A coleção doada pelo IMF foi agora integrada no acervo do Arquivo.pt para ser preservada para a posteridade.

Esta coleção é composta por 142 milhões de ficheiros que totalizam 6,3 TB de informação histórica cujos textos ou imagens podem agora ser pesquisados através do Arquivo.pt.

print homepage www.limes.fp6-limes.eu

Página do projeto LIMES (Land and Sea Monitoring for Environment and Security), 2009.

print homepage intelligence-territoriale.eu

Página do projeto Intelligence-territoriale, 2009.

Página sobre as Eleições Europeias de 2009 (www.elections2009-results.eu).

Página da agência noticiosa Reuters acerda do WikiLeaks, 2011

Print da página do Internet Memory Research em 2014

Página do Internet Memory Foundation, 2014.

Pesquise esta nova coleção!

Esta nova coleção recebeu foi nomeada “InternetMemory” na lista de coleções do Arquivo.pt.

Podem ser realizadas pesquisas sobre esta coleção utilizando o parâmetro de pesquisa collection ou através da página de pesquisa customizada disponível em arquivo.pt/InternetMemory.

printscreen da custom-search para a coleção InternetMemory

 

 

 

 

Coleção internacional acerca das Eleições Europeias 2019 está disponível

thumbnail print_eleicoes-europeias_eu

Última atualização em 1 de Outubro de 2021 às 9:12

Print www.eleicoes.europeias .eu
Excerto de www.european.elections.eu, preservado pelo Arquivo.pt em maio de 2019

A coleção especial de páginas Web acerca das Eleições Europeias de 2019 está disponível para pesquisa no Arquivo.pt.

Para compilar esta coleção, foram identificadas páginas escritas em 24 línguas europeias, através de pesquisas automáticas no motor de busca Bing e sugestões oriundas de 17 países europeus.

Destaca-se a colaboração do Publications Office of the European Union que reviu a lista dos termos de pesquisa nas diversas línguas da União Europeia.

Entre maio e julho de 2019, o Arquivo.pt recolheu de forma exaustiva páginas relacionadas com as Eleições Europeias em vários países.

A coleção resultante denominada “Eleições Europeias 2019” reúne 99 milhões de ficheiros que totalizam 4,8 TeraBytes de informação.

O relatório técnico “A transnational crawl of the European Parliamentary Elections 2019” detalha a metodologia aplicada. Esta metodologia tem sido aplicada para gerar outras coleções temáticas como por exemplo acerca do Covid-19.

Convidam-se todos os cidadãos, especialmente os investigadores, a explorarem os conteúdos da Web do passado e a incluí-los nos seus trabalhos através deste serviço criado especialmente para pesquisar a coleção multi-lingue Eleições Europeias de 2019: https://arquivo.pt/ee2019

Vídeo “A transnational and cross-lingual crawl of the European Parliamentary Elections 2019”

A transnational and cross-lingual crawl of the European Parliamentary Elections 2019, Ivo Branco, IIPC Web Archiving Conference and RESAW 2021 (slides)

Para saber mais

Eleições Europeias de 2019: precisamos da sua ajuda!

Eleicões Europeias 2019

Última atualização em 1 de Outubro de 2021 às 9:11

Os sites e as páginas sobre as eleições desaparecem rapidamente depois do período eleitoral, deixando para a história um vazio de informação.

A responsabilidade de preservar a memória é de todos e, por isso, precisamos da sua ajuda para identificar páginas Web relacionadas com as eleições, tal como fizemos em anos anteriores, para que as ideias e os debates deste tempo sobre o futuro da Europa não caiam no esquecimento.

Basta acrescentar na lista colaborativa os endereços de páginas ou de sites que acha interessantes para memória futura destas eleições, através do link seguinte:

Ao sugerir 1 endereço prestará um valioso contributo. Consegue ajudar?

Se tiver alguma questão, por favor contacte-nos.

Arquivo.pt preservou sites sobre projetos de Investigação & Desenvolvimento financiados pela Comissão Europeia

EuropeanCommission

Última atualização em 1 de Outubro de 2021 às 9:12

O Arquivo.pt identificou automaticamente sites de projetos de I&D para preservar o seu conteúdo. Já preservou mais de 52 milhões de ficheiros (7 TB) relacionados com ciência para acesso futuro.

Os sites de I&D são valiosos e estão a ser perdidos

Os sites dos projetos de Investigação & Desenvolvimento (I&D) são cada vez mais usados para disponibilizar importante informação científica que complementa a literatura publicada (ex. conjuntos de dados ou documentação, software). Contudo, após o término dos projetos, os sites normalmente desaparecem causando uma perda permanente de informação científica única e valiosa.

Distribuição de URLs de projetos que referenciavam conteúdo relevante por Programa-Quadro desde o FP4 (1994), oriundos do EU Open Data Portal e validados em novembro de 2015.

Distribuição de URLs de projetos que referenciavam conteúdo relevante por Programa-Quadro desde o FP4 (1994), oriundos do EU Open Data Portal e validados em novembro de 2015.
Distribuição de URLs de projetos que referenciavam conteúdo relevante por Programa-Quadro desde o FP4 (1994), oriundos do EU Open Data Portal e validados em novembro de 2015.

A informação online relativa a projetos de I&D não está a ser exaustivamente documentada. Por exemplo, a informação referente aos endereços dos sites dos projetos financiados no programa 7º Programa-Quadro (FP7) disponibilizada através do Portal de Dados Abertos da União Europeia (EU Open Data Portal) está omissa para 92% dos projetos.

Arquivo.pt identificou sites de I&D automaticamente

O foco do Arquivo.pt é a preservação de informação publicada na Web para fins científicos e académicos. Assim sendo, desenvolveu um projeto para a identificação automática de endereços relacionados com projetos de I&D para que o seu conteúdo seja preservado de forma sistemática.

A identificação automática é realizada através da combinação de conjuntos de dados abertos com serviços de busca gratuitos, de modo a que possa ser aplicada mesmo em contextos com recursos limitados. Este trabalho está detalhado num artigo publicado na conferência científica International Conference on Digital Preservation 2016.

Todos os dados e ferramentas desenvolvidas durante esta investigação foram disponibilizados em acesso aberto de modo a que possam ser reutilizados e colaborativamente melhorados.

Já foram preservados 52 milhões de ficheiros da web relacionados com Ciência

A aplicação da metodologia desenvolvida pelo Arquivo.pt já permitiu preservar mais de 52 milhões de ficheiros (7 TB) oriundos de 53 993 sites de projetos de I&D financiados desde o FP4 (1994), tais como o projeto europeu WEZARD financiado com o objetivo de “preparar a futura comunidade de investigação na área da robustez dos sistemas de transporte aéreos quando for deparada com incidentes climáticos”. O site para este projeto (www.wezard.eu) já não se encontra disponível online.Contudo, foi preservado e pode ser acedido no Arquivo.pt.

Todos os sites identificados e preservados no âmbito deste projeto podem ser acedidos através do Arquivo.pt desde março de 2017.

Site do projeto europeu WEZARD (www.wezard.eu), financiado pelo 7º Programa-Quadro da União Europeia entre 2011 e 2013, disponível no Arquivo.pt.
Site do projeto europeu WEZARD (www.wezard.eu), financiado pelo 7º Programa-Quadro da União Europeia entre 2011 e 2013, disponível no Arquivo.pt.

 

 

Contributos para complementar os dados do European Open Data Portal

O processo desenvolvido foi aplicado aos conjuntos de dados publicados através do EU Open Data Portal para tentar complementar as informações em falta acerca dos URLs dos projetos. Os resultados obtidos mostraram que a integridade do conjunto de dados do FP7 foi melhorada em 86,6%.

Todos os conjuntos de dados resultantes foram disponibilizados ao público para que possam ser melhorados e reutilizados por outras organizações interessadas na preservação deste património digital (FP4FP5FP6FP7).

Referências

É investigador?

Uma primeira tentativa de arquivar o .EU.

Última atualização em 1 de Outubro de 2021 às 9:12

Notícia actualizada em Agosto 1, 2019

O Arquivo.pt realizou uma experiência para tentar preservar sítios alojados sob o domínio .EU.

O domínio .EU é utilizado frequentemente para referenciar sítios web relacionados com a Europa. A estratégia de preservação da Web tem sido delegar a responsabilidade de arquivar cada domínio nacional às entidades nacionais respetivas. Contudo, o domínio .EU é internacional e a sua preservação ainda não foi atribuída a nenhuma instituição.

RESAW (Research Infrastructure for the Study of Archived Web Materials) é uma rede europeia que tem como objetivo a criação de uma infraestrutura para o estudo de materiais arquivados da web.

No âmbito das atividades do RESAW, o Arquivo.pt realizou uma primeira tentativa de recolher e arquivar sítios alojados sob o domínio .EU. Esta primeira recolha decorreu entre os dias 21 de Novembro e 16 de Dezembro de 2014.

Foram realizadas mais 2 recolhas experimentais de sites do .EU que passado 1 ano passaram a estar pesquisáveis em Arquivo.pt. Além disso, disponibilizámos um protótipo de pesquisa focada nas recolhas do .EU que demonstra a facilidade de criar motores de busca focados em determinadas colecções através da utilização do operador de pesquisa “collection”

Colaborações com investigadores interessados em estudar os materiais recolhidos são bem-vindas.

Para saber mais

Portuguese Web Archive: a Memory Infrastructure @DLM2014

Última atualização em 1 de Outubro de 2021 às 9:10

Apresentação acerca do serviço Arquivo.pt e da importância de arquivar a Web para memória futura da Humanidade.

Apresentação na Quinta 17:15 (13 Novembro) em Lisboa no DLM Forum – Making the Information Governance Landscape in Europe.

O evento terá lugar no Instituto Superior Técnico.

@dlmforum2014 #DLM2014