Arquivo.pt atinge 1 PetaByte de informação preservada!

Última atualização em 5 de Dezembro de 2023 às 20:12

O Arquivo.pt acabou de acumular 1 PetaByte de conteúdos no seu acervo no mês em que completou 16 anos de existência.

Esta informação está acessível tanto para os investigadores como para o cidadão comum.

No Arquivo.pt é possível pesquisar informação publicada na Web no passado, como por exemplo:

Descubra mais páginas através das paginas selecionadas nas Exposições Online do Arquivo.pt.

Primeira página da Web portuguesa
O site oficial da Expo’98
Notícias do jornal Público no dia da final do Campeonato Europeu de Futebol de 2016
Exposição Online “Memória da Imprensa Portuguesa. Páginas Web antigas de jornais e revistas (1996-2018)”

Objetivo e missão do arquivo da Web de Portugal

O Arquivo.pt foi criado a 8 de novembro de 2007 com o objetivo de preservar conteúdos da Web portuguesa.

Em 2013, enquanto serviço operado pela Fundação para a Ciência e a Tecnologia, a sua missão foi formulada nestes termos: “Promover a preservação de conteúdos disponíveis na Internet nacional, garantindo a disponibilização deste à comunidade científica e ao público em geral” (Decreto Lei nº55/2013).

Nos anos mais recentes, o Arquivo.pt tem criado novos serviços tais como o CitationSaver que permite aos investigadores gravarem as referências a conteúdos Web que constam nos seus artigos científicos. O Memorial e o Completar a Página facilitam o acesso aos conteúdos dispersos no enorme bloco de 1 PetaByte de dados.

De onde veio tanta informação?

Para atingir o volume de 1 PetaByte, o Arquivo.pt gravou periodicamente conteúdos dos sites do domínio .PT e de sites portugueses noutros domínios.

Além disso, foram feitas recolhas frequentes, diárias e mensais, a um pequeno conjunto de sites governamentais e aos principais sites noticiosos em Portugal.

No âmbito de colaborações internacionais, foram recolhidos conteúdos de sites em diversas línguas, como por exemplo sobre as Eleições Europeias de 2019.

Os conteúdos anteriores a 2008 vieram do Internet Archive e de doações, como é o caso de uma coleção feita pela Biblioteca Nacional e pelo INESC sobre as Eleições Legislativas de 2005.

O maior conjunto de dados em língua portuguesa em acesso aberto para os investigadores

Ao disponibilizar 1 PetaByte de informação, em acesso aberto e através do uso de APIs (Application Programming Interfaces), o Arquivo.pt é uma ferramenta útil para a investigação.

Por exemplo, um investigador que pretender fazer um estudo sobre as eleições em Portugal pode utilizar todo o acervo do Arquivo.pt. Melhor ainda, pode focar-se apenas em algumas recolhas especiais dedicadas às eleições, escolhendo as que lhe interessam e descarregando apenas alguns Terabytes para processar automaticamente com as APIs.

Contributo de diversas equipas e dos amigos do Arquivo.pt

O desenvolvimento do Arquivo.pt vai para além da questão tecnológica e deve-se à dedicação e persistência das diversas pessoas que nele trabalharam, desde 2007.

Deve-se também ao contributo de muitos amigos do Arquivo.pt, sempre atentos para ajudar a melhorar, e à resposta da comunidade de utilizadores.

“Parabéns campeões! Obrigado”

Dia Mundial da Preservação Digital dedicado à Justiça

Última atualização em 13 de Novembro de 2023 às 8:59

O Instituto de Gestão Financeira e Equipamentos da Justiça (IGFEJ) e a Secretaria Geral do Ministério da Justiça (SGMJ), em colaboração com a BAD, organizaram o evento “Preservação Digital na Justiça” para assinalar o Dia Mundial da Preservação Digital, a 2 de novembro de 2023.

Neste evento, realizado no auditório da Polícia Judiciária, em Lisboa, estiveram presentes representantes da área governativa da Justiça e profissionais no âmbito dos arquivos, da comunicação e dos departamentos de informática.

Como usar o Arquivo.pt para preservar os websites institucionais

O Arquivo.pt participou com a apresentação “Preserve o seu website” na qual se abordou a questão da preservação dos websites institucionais e aspetos cada vez mais importantes como a cibersegurança.

As entidades da área da Justiça podem beneficiar do Arquivo.pt e dos seus diversos serviços para assegurar uma boa preservação dos seus websites, mitigar ameaças à cibersegurança e fornecer conteúdos históricos aos cidadãos.

Como conclusão desta apresentação ficaram as seguintes recomendações:

  • Faça o inventário e dê a conhecer os seus Websites atuais e históricos
  • Use colaborativamente os serviços do Arquivo.pt
  • Grave no formato normalizado os conteúdos com o ArchiveWeb.page

Materiais

FCUL preservou mais de 100 websites históricos no Memorial

thumb-memorial-fcul

Última atualização em 27 de Março de 2024 às 11:16

Mais de 100 websites históricos da Faculdade de Ciências da Universidade de Lisboa (FCUL) passaram a estar acessíveis através do serviço Memorial do Arquivo.pt.

O Departamento de Informática da FCUL enviou ao Arquivo.pt uma lista de websites antigos alojados nos seus servidores que já não eram atualizados, mas cujo conteúdo histórico continua a ser interessante para a comunidade (ex. websites de projetos de investigação ou eventos científicos).

O Arquivo.pt preservou estes websites em colaboração com os seus responsáveis, procurando manter para o futuro uma representação fiel dos conteúdos publicados.

A FCUL redirecionou o endereço de cada website para o Arquivo.pt, e pôde então desligar os servidores respetivos e passar a poupar os recursos que dispendia na sua manutenção (ex. eletricidade, espaço, recursos humanos).

O caso exemplar do MiNEMA

print-memorial-minema

Página de aterragem do www.minema.di.fc.ul.pt no Memorial do Arquivo.pt.

O website do programa científico MiNEMA foi o primeiro que a FCUL integrou no Memorial do Arquivo.pt. Este website deixou de ser atualizado em 2009 quando o projeto terminou. A FCUL investiu recursos na manutenção do website por mais 10 anos até ser necessário desligá-lo por motivos de cibersegurança.

O Memorial do Arquivo.pt surgiu então como uma opção e a partir de 2020, a FCUL passou a ter de manter apenas o domínio www.minema.di.fc.ul.pt enquanto que o Arquivo.pt passou a preservar a informação contida no website.

Note-se que os conteúdos do website continuam a ser apresentados nos resultados dos motores de busca.

Faça como a FCUL e preserve os seus websites históricos no Memorial!

Cada vez mais as instituições recorrem ao Memorial do Arquivo.pt para preservar de forma segura os conteúdos dos seus websites históricos. Por exemplo, a FCUL preservou 116 websites, o Centro de Gestão da Rede Informática do Governo preservou 23 e a Fundação para a Ciência e a Tecnologia preservou 40.

As instituições públicas têm prioridade para beneficiar deste serviço. No entanto, outras entidades também o podem solicitar desde que sejam detentoras do domínio do website.

Identifique os seus websites históricos que podem ser integrados no Memorial do Arquivo.pt e contacte-nos!

Saber mais

Completar páginas do passado: sim é possível!

Última atualização em 16 de Outubro de 2023 às 19:04

Existem páginas arquivadas da web que são reproduzidas de forma incompleta devido a problemas ocorridos durante o processo de arquivo (ex. desformatadas ou com falta de imagens embedidas).

Completar a página é uma funcionalidade do Arquivo.pt que permite recuperar os elementos em falta nas páginas arquivadas a partir de outros arquivos da web ou dos websites originais.

Quando um utilizador visualiza uma página arquivada no Arquivo.pt, basta aceder ao menu Opções no canto superior direito e escolher Completar a página.

Este processo é realizado de forma automática e o Arquivo.pt é o único arquivo da web no mundo que o disponibiliza!

Como funciona o Completar a página?

Se abrir uma página arquivada que lhe pareça incompleta, tente a opção Completar a página e aguarde.

O Arquivo.pt efetuará uma busca pelos elementos em falta, na Internet e noutros arquivos da Web utlizando o protocolo Memento. Em caso de sucessso, os elementos obtidos serão imediatamente mostrados na página.

Posteriormente, estes elementos recuperados são integrados no acervo do Arquivo.pt, para que a página apareça sempre mais completa em futuras consultas realizadas por qualquer utilizador.

complete-page-website-cristina-guerra

Completar a página de entrada do website da artista Cristina Guerra encontrou uma imagem em falta.

Por exemplo, o website da artista Cristina Guerra, arquivado em 2005, tinha uma imagem em falta. Mas utilizando o Completar a página, foi possível em 2021 obtê-la a partir de outro arquivo da web que a tinha preservado e passar a presentar a página de forma mais completa.

Participe na curadoria colaborativa para melhorar a qualidade do Arquivo.pt!

Devido ao elevado número de páginas arquivadas não é possível ao Arquivo.pt tentar completar todas automaticamente. Por isso, a colaboração dos utilizadores para identificar páginas importantes com elementos em falta e tentar completá-las é importante.

Ao utilizar o Completar a página a comunidade de utilizadores está  a contribuir para melhorar a qualidade das páginas preservadas no Arquivo.pt!

Experimente sempre completar as páginas arquivadas que lhe pareçam incompletas e se detectar algum problema contacte-nos.

Divulgue o Completar a página do Arquivo.pt!

Participação do Arquivo.pt em eventos internacionais sobre arquivos da Web

logo-IIPC

Última atualização em 1 de Agosto de 2023 às 12:54

Encontro com a comunidade dos arquivos da Web

O Internacional Internet Preservation Consortium (IIPC), consórcio que reune inicitivas de preservação da Web de todo o mundo, realizou a Assembleia Geral com os seus associados no dia 10 de maio de 2023.

Nos dias seguintes, 11 e 12 de maio, realizou-se a IIPC Web Archiving Conference (IIPC WAC), uma iniciativa aberta à comunidade, onde podem participar pessoas ou entidades não associodas ao IIPC e interessadas no domínio da preservação da Web.

O acolhimento dos dois eventos foi feito conjuntamente pela KB – National Library of the Netherlands, e pelo Beeld &  Geluid – Netherlands Institute for Sound & Vision.

Contributos do Arquivo.pt na Web Archiving Conference

O Arquivo.pt participou nas reuniões dos grupos de trabalho do IIPC (Training Working Group e Curators Working Group) e contribuiu com apresentações nas sessões temáticas  Collaborations & Outreach e Program infrastructure (sessões 7 e 17).

  • Arquivo.pt updates 2023 (slides)
  • Linking web archiving with arts and humanities: the collaboration between ROSSIO and Arquivo.pt (video, slides)
  • Arquivo.pt behind the curtains (slides)

Encontro com a comunidade dos investigadores RESAW

RESAW (Research Infrastructure for the Study of Archived Web Materials) é uma iniciativa criada em 2012 com o objetivo de promover os estudos baseados em conteúdos Web arquivados, em áreas como Ciências Sociais, Artes e Humanidades Digitais.

A conferência RESAW 2023 foi realizada no MUCEM Lab (Mediterranean Institute of Heritage Crafts), em Marselha, de 5 a 6 de junho de 2023, sob o tema Exploring the Archived Web During a Highly Transformative Age.

Contributos do Arquivo.pt no RESAW 2023

O Arquivo.pt contribuiu com apresentações para as sessões Web Archive in Mediterranean area and its merge(4.A,), From online Tools to Web Archive (6.B.), Towards a participatory approach to collections (9. A.), Digging up the materials for writing web history (9.B.).

  • How to research governmental web data? (abstract, slides)
  • Archiving Cryptocurrencies (abstract, slides)
  • Time to explore, time to learn from the archived web: Arquivo.pt training initiative (abstract, slides)
  • Exhibiting Web Memories from Arquivo.pt: a call for community participation (abstract, slides)

Encontro do Projeto CLEOPATRA

O Projeto CLEOPATRA, liderado pelo L3S Research Center at the Gottfried Wilhelm Leibniz University of Hannover, desenvolveu desde 2019 um progama de formação para investigadores doutorandos (Early Stage Researcher, PhD).

O Arquivo.pt participou em três cursos: Incentives design for hybrid multilingual information processing and analytics, em Southampton; National and transnational media coverage of European parliamentary elections, 2004-2014, Londres; e NLP for under-resourced languages, em Zagreb, na Croácia.

Em 2022, o Arquivo.pt acolheu dois investigadores nas suas instalações os quais utilizaram os recursos arquivados e tiveram apoio especial da equipa do Arquivo.pt para desenvolverem a sua investigação.

O projeto CLEOPATRA terminou em 2023 com a realização de um encontro a 16 de maio, em Hannover, que reuniu professores, investigadores e representantes de instituições envolvidas.

Daniel Gomes, Gestor do Arquivo.pt, destacou as novas ferramentas que o Arquivo.pt disponibiza e os resultados dos trabalhos realizados pelos investigadores que passaram pelo Arquivo.pt.

  • Secondments@Arquivo.pt and new research tools available (Slides)

Museu Virtual do Turismo criou coleção de Websites preservados

Coleção registos no Catálogo do MUVITUR com páginas Web preservadas no Arquivo.pt

Última atualização em 25 de Abril de 2023 às 20:14

O MUVITUR, Museu Virtual do Turismo, é um portal agregador de conteúdos digitais sobre o Turismo em Portugal.

A plataforma é mantida pela Biblioteca Celestino Domingues da Escola Superior de Hotelaria e Turismo do Estoril (ESHTE) e tem a participação de instituições de diversas áreas do património que são provedoras de conteúdos.

Entre os conteúdos digitalizados que podem ser consultados no catálogo e acedidos nas instituições provedoras encontravam-se som, imagem, fotografia, material impresso digitalizado. Contudo, faltavam os Websites.

Assim, surgiu a ideia da nova coleção “Páginas Web” do MUVITUR.

Colaboração entre o MUVITUR e o Arquivo.pt

Em 2019, iniciou-se uma colaboração entre o Arquivo.pt e o MUVITUR com o objetivo de identificar sites relacionados com o Turismo em Portugal e de divulgar o histórico de conteúdos publicados na Web, desde 1996.

Em 2022, estabeleceu-se uma lista com cerca de 400 registos de websites de diversas entidades ligadas ao Turismo, hotéis, agências de viagens, páginas dos sites dos municípios com informação turística e outras.

Dessa informação reunida resultou a primeira coleção de websites preservados sobre Turismo em Portugal.

Catálogo do MUVITUR com páginas Web preservadas no Arquivo.pt

Como foi feita a integração

O MUVITUR utiliza o software Nyron, o qual permite agregar conteúdos de diversas proveniências através do protocolo interoperabilidade OAI-PMH (Open Archives Initiative Protocol for Metadata Harvesting), cuja utilização é muito comum entre bibliotecas, arquivos e museus para fornecer conteúdos a portais, como por exemplo o Europeana.

O Arquivo.pt, porém, não disponibiliza informação através do OAI-PMH, pelo que foi necessário encontrar uma forma alternativa de criar um registo no Nyron com informação descritiva de Websites preservados.

O procedimento para a integração foi o seguinte:

  • Exportou-se para uma folha Excel o esquema XML com os campos para os metadados, de acordo com o que funciona no Nyron;
  • A informação foi inserida manualmente na folha Excel, respeitando o formato e a sintaxe, em colaboração com os técnicos responsáveis pelo sistema;
  • O ficheiro XML com os dados inseridos foi validado e importado para o Nyron.

A criação de registos em catálogos é em grande parte manual e exige uma curadoria humana. No entanto, foi possível introduzir informação para ser processada automaticamente nos registos da coleção de Websites. Por exemplo, a miniatura (thumbnail) foi obtida utilizando a API do Arquivo.pt, mais espeicificamento o linkToScreenShot, visível nos detalhes técnicos de uma página preservada (ver em Opções).

Para outros elementos, tais como o título do site, seria possível obtê-los automaticamente através da API do Arquivo.pt, no entanto a qualidade da informação depende do que os produtores do site inseriram e pode não ser a melhor.  As datas para limitar o âmbito temporal também podem ser obtidas de forma automática. Privilegiou-se o método manual para controlar a informação apresentada.

Na continuidade do projeto, a coleção vai ser aumentada com novos registos, pois existem milhares de sites sobre o setor do Turismo.

Descrição de conteúdos Web no catálogo do MUVITUR

Na coleção “Paginas Web” são utilizados os seguintes dados:

  • Denominação – geralmente o título do website
  • Organização – a entidade a quem pertence a publicação
  • Endereço do sítio Web na Internet
  • Endereço para versão no Arquivo.pt
  • Momento(s) para recordar
  • Link para miniatura no Arquivo.pt
  • Descritores
  • Dados geográficos (localização, coordenadas, nome geográfico)

A apresentação da informação foi ajustada para ficar alinhada com a de outros recursos do MUVITUR e contém ligações para o Arquivo.pt.

Por exemplo, no registo do site “Turismo do Algarve”, encontramos uma ligação para um momento a recordar em 2011 e outra a ligação para o histórico no Arquivo.pt em “Consultar objeto”.

Detalhe do registo do site "Turismo do Algarve"
Detalhe do registo do site “Turismo do Algarve”

Organizações podem criar coleções de Websites da sua área

Com este projeto inédito podemos dizer que os Websites preservados ganharam cidadania ou espaço em plataformas digitais dedicadas à memória histórica.

Os Websites raramente são incluídos em catálogos ou expostos em contexto museológico, em Portugal. Em breve, essa realidade pode mudar.

A National Library of Australia, por exemplo, tem registos de Websites preservados no catálogo. Na Tasmania Libraries o catálogo bibliográfico descreve em formato Marc21 mais de 3000 Websites preservados.  Na Library of Congress há coleções de Websites antigos ao lado dos recursos tradicionais.

O MUVITUR abriu caminho para que outras entidades criem coleções de Websites do seu interesse nas suas plataformas.

Outros resultados da colaboração

CitationSaver preserva citações para conteúdos online

Última atualização em 21 de Novembro de 2023 às 16:03

Os documentos citam conteúdos da Web referenciando os seus endereços (URL) para que o leitores possa vir a aceder-lhes.

No caso dos artigos científicos, a importância destas citações é ainda maior para manter a integridade de uma investigação porque muitas vezes referenciam informação fundamental para permitir a reprodutibilidade de uma experiência ou análise.

Por exemplo, as ligações num artigo científico podem citar os conjuntos de dados, software ou notícias da web que suportaram a investigação e que não estão incluídos no texto do artigo científico.

Para responder à necessidade de preservar a integridade dos documentos, o Arquivo.pt criou o CitationSaver.

O CitationSaver automaticamente extrai as ligações citadas num documento e preserva o seu conteúdo (ex. páginas web citadas num livro) para que possam ser recuperadas mais tarde a partir do Arquivo.pt.

infografia-citationsaver-pt

Use o CitationSaver para preservar a integridade dos seus documentos

Carregue um documento e o CitationSaver extrairá os endereços citados, gravando os seus conteúdos e disponibilizando-os no Arquivo.pt passado pouco tempo. Existem 3 métodos para carregar um documento:

  • insira o endereço (URL) do ficheiro PDF ou TXT, se este estiver publicado online
  • carregue o ficheiro em formato PDF ou TXT
  • cole o texto que contem os endereços que pretende preservar (ex. secção de Referências de um artigo ou Bibliografia de um livro)

Mais informação

Projeto Renascer traz de volta websites antigos

Última atualização em 26 de Junho de 2023 às 17:33

As organizações mantêm domínios em sua posse que referenciavam websites apesar de já não os utilizarem, para evitar que sejam comprados ou apenas por esquecimento.

O objetivo do projeto Renascer é trazer de volta websites históricos cujo conteúdo deixou de estar disponível online e cujo domínio continua a ser detido pelos seus autores.

Domínios “esquecidos” podem causar problemas de cibersegurança

Em maio de 2023, o domínio hmsportugal.pt do projeto Harvard Medical School-Portugal apontava apenas para uma página pré-definida de um servidor web ativo e o domínio continuava a ser detido pelo seu autor.

Nesta situação, o conteúdo original do website estava inacessível apesar do domínio continuar a ser detido pelo autor do website.

Além disso, uma vez que o domínio continuava a apontar para um servidor web ativo, se este não estiver a ser atualizado poderão ocorrer problemas de cibersegurança.

O domínio hmsportugal.pt poderia passar a apontar para os conteúdos do website preservados no Arquivo.pt.

Como se dá o Renascer dos websites?

O dono do domínio apenas tem de o redirecionar para o Arquivo.pt, através do serviço Memorial.

Por exemplo, o domínio mctes.pt passou a apontar para os seus conteúdos originais preservados no Arquivo.pt, fazendo assim Renascer este website.

Exemplos de domínios Renascidos

O projeto Renascer identificou domínios ativos geridos pela FCCN que não referenciavam conteúdo, e passou a dar-lhes nova vida com os conteúdos históricos preservados no Arquivo.pt.

Contacte o Arquivo.pt para fazer Renascer os websites históricos da sua organização.

Veja os seguintes exemplos de websites Renascidos:

 

 

Link curto para esta página: arquivo.pt/renascer

Websites do Afeganistão e a queda do regime em agosto de 2021

thumbnail_Karima Faryabi

Última atualização em 26 de Setembro de 2022 às 15:55

afghan-ministry-of-economy-17-08-2021

Website do Ministério da Economia do Afeganistão com Karima Faryabi (gravado a 17 de agosto de 2021)

No dia 15 de agosto de 2021 o palácio presidencial em Cabul foi tomado pelos Talibãs, consumando a queda do regime que vigorava há 20 anos, após os atentados do 11 de Setembro nos Estados Unidos.

A comunidade dos arquivistas da Web, através do Content Development Working Group do International Internet Preservation Consortium, lançou o desafio da gravação dos sites afegãos, face ao risco de estes virem a desaparecer com o novo regime.

Não há tempo a perder quando se trata de preservar a Web

O Arquivo.pt reagiu rapidamente lançando uma pesquisa automática de conteúdos focada em sites do domínio .af e em notícias dos media internacionais sobre os eventos em curso.

No dia 17 de agosto os websites começaram a ser gravados.

Foram utilizados 1800 endereços de sites do Afeganistão (terminados em .af) e 500 notícias dos meios de comunicação social de todo o mundo.

Os endereços, URLs ou “seeds” foram obtidos através de pesquisa automática, utilizando o Bing Search API, e colocados imediatamente em gravação.

Conteúdos disponíveis para conhecer a história do Afeganistão

Como resultado da recolha realizada passaram a estar disponíveis no Arquivo.pt mais de 400 Gigabytes de informação que qualquer pessoa pode utilizar para investigação nas mais diversas áreas.

O principal contributo do Arquivo.pt para a comunidade dos arquivistas da Web foi a demonstração da pesquisa automática que permite uma reação rápida na gravação de conteúdos Web em risco iminente de se perderem.

Mais informação

Conjunto de dados abertos do Arquivo.pt (Dados.gov)

Conteúdos recolhidos pelo Content Development Working Group do International Internet Preservation Consortium disponíveis no serviço Archive-it

Participação do Arquivo.pt no encontro do International Internet Preservation Consortium

thumbnail_GA_WAC2022

Última atualização em 29 de Julho de 2022 às 12:34

Encontro com a comunidade dos arquivos da Web

O Internacional Internet Preservation Consortium (IIPC), consórcio que reune inicitivas de preservação da Web de todo o mundo, realizou a Assembleia Geral com os seus associados entre os dias 17 e 19 de maio de 2022.

Na semana seguinte, nos dias 24 e 25 de maio, realizou-se a IIPC Web Archiving Conference (IIPC WAC), via online tal como no ano anterior devido às contingências da pandemia da Covid-19.

O acolhimento dos dois eventos foi feito pela Library of Congress.

Recursos e iniciativas do Arquivo.pt na Web Archiving Conference

A IIPC Web Archiving Conference (IIPC WAC) é uma iniciativa aberta à comunidade, onde podem participar pessoas ou entidades não associodas ao IIPC e interessadas no domínio da preservação da Web.

O Arquivo.pt contribuiu em duas sessões Ligthtning Talks  (sessão 5 e sessão 13).

As apresentações do Arquivo.pt centraram-se nos recursos e iniciativas que este serviço tem ultimamente oferecido à comunidade.