Grave sites antes que desapareçam com a ferramenta Browsertrix Crawler

Última atualização em 11 de Dezembro de 2024 às 12:16

O mês de setembro marca o início de um ano de trabalho e também o fim de muitos sites que se perdem sem remédio. Remodelados ou desligados sem se ter feito uma boa cópia dos seus conteúdos, é assim que se perdem muitos sites sem necessidade.

Há ferramentas que permitem a gravação imediata dos sites pelas próprias organizações que os gerem. Além disso, há o serviço arquivo a-pedido em alta qualidade que o Arquivo.pt presta a entidades parceiras ou no contexto de colaborações pontuais.

Neste artigo pretende-se destacar o Browsertrix Crawler que é utilizado pelo Arquivo.pt, sem excluir outras ferramentas, e que pode ser útil aos gestores de informação e departamentos de informática.

Uso do Browsertrix-crawler pelo Arquivo.pt para recolhas de alta qualidade

O Browsertrix Crawler é uma ferramenta que permite gravar websites inteiros e listas de páginas web de forma automática e num formato compatível com os arquivos da Web.

O Arquivo.pt utiliza o Browsertrix Crawler para fazer recolhas de alta qualidade de sites (RAQs), a pedido da comunidade. Por exemplo, quando um site está para ser desligado, quando vai sofrer uma remodelação ou, periodicamente, para manter um bom histórico de sites importantes.

Um caso ilustrativo é o site da Câmara Municipal de Almada, gravado em abril de 2021, a pedido do Arquivo Municipal. Outro caso é o site do jornal  Notícias de Leiria que foi gravado antes do seu encerramento, em dezembro de 2023.

Os pedidos de recolha de alta qualidade (RAQs) ao Arquivo.pt são cada vez vez mais frequentes: 77 pedidos, de janeiro a setembro de 2024. É sinal  de que há uma maior preocupação com a preservação dos conteúdos Web.

O que é preciso para usar locamente o Browsertrix-crawler

O grupo que o desenvolveu o Browsertrix Crawler, o Webrecorder.net  liderado por Ilya Kreymer, tem como mote “web archiving for all”.  As suas ferramentas permitem a gravação da Internet de forma descentralizada e em pequena escala.

O Browsertrix Crawler está disponível e pode ser instalado no próprio computador para pequenas recolhas.

A versão linha de comandos aqui recomendada é a mesma que o Arquivo.pt está a utilizar.

Pela experiência da equipa do Arquivo.pt, pode dizer-se que usar o Browsertrix Crawler é fácil em equipas multidisciplinares, onde há sempre alguém com conhecimentos mínimos para usar comandos Linux e dar algum apoio pontual.

Demonstração de gravação de sites inteiros no próprio computador

Neste vídeo apresenta-se um caso de utilização do Browsertrix Crawler num simples computador de secretária. É útil para quem quer aprofundar conhecimentos e práticas de gravação de sites em ambiente local e destina-se a não especialistas.

Outras ferramenta utilizadas pelo Arquivo.pt para gravar conteúdos

Brozzler: ferramenta para uma melhorar o histórico dos sites de recolha diária e mensal

O Brozzler é uma ferramenta semelhante ao Browsertrix Crawler, pois também baseia a sua gravação num browser. É utilizado e mantido pelo Internet Archive.

O Arquivo.pt utiliza o Brozzler, pelo menos desde 2018, para gravar páginas web com conteúdos interativos presentes nas páginas web e para recolhas de alta qualidade (RAQs).

Listas até 200 sites são gravadas com sucesso pelo Brozzler. Por exemplo, os 125 sites de recolha diária (FAWPs) são gravados com o Brozzler no início de cada mês. Ao longo do mês, outros 75 sites de recolha mensal (MAWPs) são gravados usando o Brozzler.

No final de 2023, o Arquivo.pt comparou o Brozzler e o Browsertrix Crawler e optou por manter estas duas ferramentas.

Heritrix, pywb e ArchiveWeb.page: ferramentas para milhares de sites ou para uma página

O Heritrix crawler é a principal ferramenta de gravação do Arquivo.pt. É utilizado em enormes listas de websites, como por exemplo os sites do domínio .PT a que se juntam outros sites portugueses, ultrapassando meio milhão de endereços.

No lado oposto, está a extensão ArchiveWeb.page que o Arquivo.pt utiliza para pequenas gravações página a página e também para a formação Arquivar a Web: faça-você-mesmo!.

Para completar a lista de ferramentas de gravação utilizadas pelo Arquivo.pt, deve referir-se o pywb que entra em ação, por exemplo, quando um utilizador do Arquivo.pt usa a funcionalidade “Completar a página” ou o serviço de gravação na hora ArchivePageNow.

Arquivo404 mais poderoso!

Última atualização em 9 de Agosto de 2024 às 12:58

O Arquivo.pt tem lançado serviços complementares inovadores úteis para as organizações optimizarem o seu funcionamento.

A nova versão do Arquivo.pt denominada Helios foi lançada no dia 13 de novembro de 2023 e inclui desenvolvimentos no Arquivo404 e CitationSaver.

Arquivo404 com novos métodos para definir intervalos temporais

O Arquivo404 é um serviço que apresenta aos utilizadores de um website, ligações para versões arquivadas, em vez de lacónicas mensagens de erro “Página não encontrada”.

Porém, por vezes é necessário especificar qual é a versão correcta de uma página arquivada que deve ser apresentada. Por exemplo, o domínio de um website pode ter pertencido a outra entidade no passado e pretende-se que sejam mostradas apenas as versões arquivadas desde que o website passou a pertencer aos seus donos actuais.

Para este efeito, foram lançados 3 novos métodos para configurar o Arquivo404:

  • setMinimumDate(minDate : Date) – especifica a data mais antiga da versão arquivada do URL que pode ser apresentada.
  • setMaximumDate(maxDate : Date) – especifica a data mais recente da versão arquivada do URL que pode ser apresentada.
  • setMostRelevantMemento(criterion : ‘oldest’ | ‘most-recent’) – especifica a ordem dos resultados das versões arquivadas que foram recuperadas do arquivo da web. Por omissão, é apresentada a mais antiga  (‘oldest’).

Em suma, o Arquivo404 passou a permitir definir se apresenta ao utilizador a página arquivada mais antiga ou a mais recente, dentro de um determinado intervalo de tempo.

CitationSaver processa documentos HTML

O CitationSaver é um serviço que extrai citações em documentos para recursos online e arquiva-os. Este serviço é particularmente útil para manter a integridade dos artigos científicos e a reproducibilidade das experiências e estudos neles descritos.

Muitos artigos em acesso-aberto são publicados em formato de hipertexto (HMTL). O CitationSaver passou a processar documentos em formato HTML, além dos formatos PDF e TXT.

Por exemplo, se um utilizador encontrar um artigo na Web que contenha citações para recursos online, apenas terá de inserir o endereço da página do artigo no CitationSaver. Os endereços (URLs) serão extraídos e arquivados para que não se percam.

Exemplo de artigo da Revista de Gestão Costeira Integrada, disponiblizado no SciELO

Saber mais

Use os serviços do Arquivo.pt e se detetar algum problema, por favor contacte-nos.

Completar páginas do passado: sim é possível!

Última atualização em 16 de Outubro de 2023 às 19:04

Existem páginas arquivadas da web que são reproduzidas de forma incompleta devido a problemas ocorridos durante o processo de arquivo (ex. desformatadas ou com falta de imagens embedidas).

Completar a página é uma funcionalidade do Arquivo.pt que permite recuperar os elementos em falta nas páginas arquivadas a partir de outros arquivos da web ou dos websites originais.

Quando um utilizador visualiza uma página arquivada no Arquivo.pt, basta aceder ao menu Opções no canto superior direito e escolher Completar a página.

Este processo é realizado de forma automática e o Arquivo.pt é o único arquivo da web no mundo que o disponibiliza!

Como funciona o Completar a página?

Se abrir uma página arquivada que lhe pareça incompleta, tente a opção Completar a página e aguarde.

O Arquivo.pt efetuará uma busca pelos elementos em falta, na Internet e noutros arquivos da Web utlizando o protocolo Memento. Em caso de sucessso, os elementos obtidos serão imediatamente mostrados na página.

Posteriormente, estes elementos recuperados são integrados no acervo do Arquivo.pt, para que a página apareça sempre mais completa em futuras consultas realizadas por qualquer utilizador.

complete-page-website-cristina-guerra

Completar a página de entrada do website da artista Cristina Guerra encontrou uma imagem em falta.

Por exemplo, o website da artista Cristina Guerra, arquivado em 2005, tinha uma imagem em falta. Mas utilizando o Completar a página, foi possível em 2021 obtê-la a partir de outro arquivo da web que a tinha preservado e passar a presentar a página de forma mais completa.

Participe na curadoria colaborativa para melhorar a qualidade do Arquivo.pt!

Devido ao elevado número de páginas arquivadas não é possível ao Arquivo.pt tentar completar todas automaticamente. Por isso, a colaboração dos utilizadores para identificar páginas importantes com elementos em falta e tentar completá-las é importante.

Ao utilizar o Completar a página a comunidade de utilizadores está  a contribuir para melhorar a qualidade das páginas preservadas no Arquivo.pt!

Experimente sempre completar as páginas arquivadas que lhe pareçam incompletas e se detectar algum problema contacte-nos.

Divulgue o Completar a página do Arquivo.pt!

CitationSaver preserva citações para conteúdos online

Última atualização em 21 de Novembro de 2023 às 16:03

Os documentos citam conteúdos da Web referenciando os seus endereços (URL) para que o leitores possa vir a aceder-lhes.

No caso dos artigos científicos, a importância destas citações é ainda maior para manter a integridade de uma investigação porque muitas vezes referenciam informação fundamental para permitir a reprodutibilidade de uma experiência ou análise.

Por exemplo, as ligações num artigo científico podem citar os conjuntos de dados, software ou notícias da web que suportaram a investigação e que não estão incluídos no texto do artigo científico.

Para responder à necessidade de preservar a integridade dos documentos, o Arquivo.pt criou o CitationSaver.

O CitationSaver automaticamente extrai as ligações citadas num documento e preserva o seu conteúdo (ex. páginas web citadas num livro) para que possam ser recuperadas mais tarde a partir do Arquivo.pt.

infografia-citationsaver-pt

Use o CitationSaver para preservar a integridade dos seus documentos

Carregue um documento e o CitationSaver extrairá os endereços citados, gravando os seus conteúdos e disponibilizando-os no Arquivo.pt passado pouco tempo. Existem 3 métodos para carregar um documento:

  • insira o endereço (URL) do ficheiro PDF ou TXT, se este estiver publicado online
  • carregue o ficheiro em formato PDF ou TXT
  • cole o texto que contem os endereços que pretende preservar (ex. secção de Referências de um artigo ou Bibliografia de um livro)

Mais informação

Arquivo404 mostra páginas preservadas em vez de “páginas não encontradas”

Última atualização em 14 de Novembro de 2023 às 14:45

O seu website apresenta mensagens de “Erro 404 – Página não encontrada” aos seus utilizadores?

O Arquivo.pt oferece uma solução para este problema através do Arquivo404.

Basta inserir uma única linha de código na página que gera a mensagem de erro 404 no seu website e serão apresentadas páginas preservadas aos seus utilizadores em vez de páginas não encontradas.

Veja estes exemplos em websites que instalaram o Arquivo404.

Como funciona o Arquivo404?

example-fccn-arquivo404_pt

Quando um utilizador tenta aceder a uma página que já não se encontra disponível num website, o arquivo404 verifica automaticamente se existe uma versão dessa página preservada no Arquivo.pt.

Se a página existir no Arquivo.pt, é apresentado um link para que o utilizador para que possa visitar esta versão.
Se não existir, é apresentada a página de erro normal.

Veja o Arquivo404 em funcionamento neste exemplo de página de erro que apresenta um link gerado automaticamente pelo Arquivo404

Como instalar o Arquivo404 no seu website?

A implementação mais simples do Arquivo404 consiste em inserir a seguinte linha de código Javascript no HTML que gera a mensagem de “Página não encontrada” (dentro do <body>):

<script type="text/javascript" src="//arquivo.pt/arquivo404.js" async defer onload="ARQUIVO_NOT_FOUND_404.call();"></script>

O código do Arquivo404 pode ser adaptado facilmente.  Pode por exemplo, criar uma mensagem de erro personalizada.

Dica para sites WordPress: Ao editar a página de erro 404 e  ao inserir o script arquivo404 dentro do <body>,  deve colocar no princípio a tag <!– wp:html –> e no fim <!– /wp:html –>, caso contrário o script é apagado.

Se tive qualquer dúvida ou dificuldade, por favor contacte-nos!

Saber mais

Link curto esta página: arquivo.pt/arquivo404

Arquive páginas no Arquivo.pt com o ArchivePageNow

Thumb save page now

Última atualização em 11 de Dezembro de 2024 às 12:14

O Arquivo.pt lançou uma nova versão, denominada Francisco, no dia 19 de janeiro de 2022.

Nesta versão, destaca-se o novo serviço ArchivePageNow que permite a qualquer pessoa arquivar uma página Web para ser preservada pelo Arquivo.pt. Basta colocar o endereço de uma página e navegar pelos conteúdos.

O ArchivePageNow do Arquivo.pt foi inspirado no Internet Archive Save Page Now e implementado utilizando o webrecorder pywb.

Por exemplo, uma publicação no blog da FCCN que assinalou os 30 anos da Internet em Portugal, foi gravada com o ArchivePageNow e ficou preservada no Arquivo.pt.

Ao utilizar o ArchivePageNow está a contribuir para que informações importantes publicadas na Internet não se percam.

Ajude-nos a melhorar: avise-nos de problemas!

As interfaces de utilização foram recodificadas nesta nova versão e necessitamos da sua ajuda para testá-las em diferentes dispositivos (ex. telemóveis, tablets, portáteis).

Por isso, se detectar algum problema, por favor contacte-nos!

Lembre-se de enviar sempre o endereço da página onde detectou o problema.

Para saber mais

 

Crie narrativas automáticas sobre qualquer tema!

thumnail-exemplo-conta-me-historias-q3

O Arquivo.pt disponibiliza uma nova função que permite criar automaticamente narrativas temporais sobre qualquer tema.

A funcionalidade “Narrativa”, integrada no Arquivo.pt em setembro de 2021, é o resultado da colaboração entre o “Conta-me Histórias”, vencedor do Prémio Arquivo.pt 2018 e o Arquivo.pt.

O projeto “Conta-me Histórias” foi desenvolvido por investigadores do Laboratório de Inteligência Artificial e Apoio a Decisão (LIAADINESCTEC) e afiliados às instituições Instituto Politécnico de TomarCentro de Investigação em Cidades Inteligentes (CI2); Universidade do Porto e Universidade de Innsbruck.

Como funciona?

Quando um utilizador insere um conjunto de palavras acerca de um tema na caixa de pesquisa do Arquivo.pt e clica no botão “Narrativa”, é direcionado para o serviço “Conta-me Histórias”, que por sua vez analisa automaticamente as notícias de 25 websites arquivados pelo Arquivo.pt ao longo do tempo e apresenta ao utilizador uma cronologia de notícias relacionadas com o tema pesquisado.

Por exemplo, se pesquisarmos por “Jorge Sampaio” e carregarmos no botão “Narrativa” (Figura 1), seremos direcionados para o “Conta-me Histórias”, onde obteremos automaticamente uma narrativa de notícias arquivadas (Figura 2).

exemplo-conta-me-historias-narrativa

Figura 1: Resultados da pesquisa de páginas sobre “Jorge Sampaio”.

exemplo-conta-me-historias-2

Figura 2: Narrativa de notícias sobre “Jorge Sampaio” gerada pelo serviço “Conta-me Histórias”.

Crie agora a sua narrativa!

O “Conta-me Histórias” pesquisa, analisa e agrega milhares de resultados para gerar cada narrativa acerca de um tema. Recomenda-se a escolha de palavras descritivas sobre temas bem definidos, personalidades ou eventos para obter boas narrativas.

A criação de uma narrativa é útil para investigadores, jornalistas ou cidadãos que pretendam obter rapidamente uma visão geral acerca da evolução de um tema ao longo do tempo, poupando-lhes assim imenso tempo e trabalho.

Aceda ao Arquivo.pt e experimente criar uma narrativa sobre um tema à sua escolha.

Diga-nos como foi a sua experiência para melhorarmos o serviço!

“Será que quis dizer” – nova versão do Arquivo.pt

Thumnail query_suggest_print

Última atualização em 24 de Março de 2021 às 13:32

O Arquivo.pt lançou uma nova versão, denominada Caronte, no dia 19 de janeiro de 2021.

Nesta versão destaca-se a nova sugestão de pesquisas (Será que quis dizer:).

Sempre que um utilizador introduz uma expressão de pesquisa contendo um potencial erro, o Arquivo.pt apresenta uma sugestão de pesquisa alternativa.

Por exemplo, ao pesquisar “lixboa” recebe a sugestão “Será que quis dizer: lisboa”.

query_suggest_print

Figura 1: Exemplo de funcionamento da sugestão de pesquisas ao utilizar, por exemplo, o termo “lixboa”

A abertura de candidaturas ao Prémio Arquivo.pt 2021 até 4 de maio também passou a estar em destaque no Arquivo.pt!

Ajude-nos a melhorar!

Se detectar algum problema, por favor contacte-nos!

Lembre-se de enviar sempre o endereço da página onde detectou o problema.

Para saber mais

Ver a lista dos 16 problemas resolvidos

Melhorámos a interface do Arquivo.pt

Thumbnail feature basileus version

Última atualização em 16 de Novembro de 2020 às 16:05

O Arquivo.pt lançou uma nova versão, denominada Basileus, no dia 11 de novembro de 2020.

O objetivo desta versão foi melhorar a experiência do utilizador ao navegar pelas diversas interfaces do Arquivo.pt.

Foram feitos ajustes ao nível do Web design dos quais resultaram uma maior coerência na estrutura do código, nos aspetos gráficos e nas interações, como por exemplo cores, tipo de letra e botões.

Print 2 Arquivo.pt versão Basileus

Figura 1: Interface de pesquisa e reprodução de páginas Web. Na imagem, a reprodução de uma página da coleção histórica Geocities.

Ajude-nos a melhorar!

Se detectar algum problema, por favor contacte-nos!

Lembre-se de enviar sempre o endereço da página onde detectou o problema.

Para saber mais

Nova versão do Arquivo.pt (WARC release)

Logótipo do Arquivo.pt - quadrado 288px

O Arquivo.pt lançou uma nova versão do seu serviço no dia 16 de Outubro denominada WARC Release.

Esta nova versão tem como principal novidade o suporte de indexação textual de conteúdos da web armazenados no formato WARC.

Foi também atualizada a biblioteca de parsing de documentos para utilizar o Apache-Tika.

Detalhes técnicos

O Arquivo.pt tem uma nova funcionalidade na reprodução de páginas preservadas que permite aceder aos Detalhes Técnicos acerca de uma página arquivada.

Ferramentas replay arquivo.pt

Para tal basta clicar no ícone circular com um “i”. Irão ser apresentados metadados acerca da página tais como o título, o tipo ou a codificação de caracteres. Experimente!

Detalhes técnicos Arquivo.pt

Reportar problema

O Arquivo.pt adicionou a função de Reportar Problema às suas interfaces para facilitar a identificação de problemas com a ajuda dos utilizadores.

Para tal, basta carregar no ícone da barata, que o irá reencaminhar para um formulário de contacto já preenchido com a ligação para a página onde ocorreu o erro.

Nova funcionalidade reportar problema
Função Reportar Problema disponível através do “ícone da barata”.

Caso encontre algum erro, no Arquivo.pt por favor contacte-nos.

Mais novidades

  • O Arquivo.pt é agora servido através de ligação segura, seguindo o protocolo HTTPS (https://arquivo.pt).
  • Novo logótipo do Arquivo.pt.
  • Passou a ser possível inserir vários sites na pesquisa avançada.
  • Corrigidas vulnerabilidades de segurança, de Cross Site Scripting.
  • Corrigidos problemas na indexação para a reprodução de páginas preservadas (índices CDXJ inválidos).
  • Corrigidos problemas nos logs aplicacionais nos servidores do Arquivo.pt.