Grave sites antes que desapareçam com a ferramenta Browsertrix Crawler

Última atualização em 19 de Setembro de 2024 às 14:08

O mês de setembro marca o início de um ano de trabalho e também o fim de muitos sites que se perdem sem remédio. Remodelados ou desligados sem se ter feito uma boa cópia dos seus conteúdos, é assim que se perdem muitos sites sem necessidade.

Há ferramentas que permitem a gravação imediata dos sites pelas próprias organizações que os gerem. Além disso, há o serviço arquivo a-pedido em alta qualidade que o Arquivo.pt presta a entidades parceiras ou no contexto de colaborações pontuais.

Neste artigo pretende-se destacar o Browsertrix Crawler que é utilizado pelo Arquivo.pt, sem excluir outras ferramentas, e que pode ser útil aos gestores de informação e departamentos de informática.

Uso do Browsertrix-crawler pelo Arquivo.pt para recolhas de alta qualidade

O Browsertrix Crawler é uma ferramenta que permite gravar websites inteiros e listas de páginas web de forma automática e num formato compatível com os arquivos da Web.

O Arquivo.pt utiliza o Browsertrix Crawler para fazer recolhas de alta qualidade de sites (RAQs), a pedido da comunidade. Por exemplo, quando um site está para ser desligado, quando vai sofrer uma remodelação ou, periodicamente, para manter um bom histórico de sites importantes.

Um caso ilustrativo é o site da Câmara Municipal de Almada, gravado em abril de 2021, a pedido do Arquivo Municipal. Outro caso é o site do jornal  Notícias de Leiria que foi gravado antes do seu encerramento, em dezembro de 2023.

Os pedidos de recolha de alta qualidade (RAQs) ao Arquivo.pt são cada vez vez mais frequentes: 77 pedidos, de janeiro a setembro de 2024. É sinal  de que há uma maior preocupação com a preservação dos conteúdos Web.

O que é preciso para usar locamente o Browsertrix-crawler

O grupo que o desenvolveu o Browsertrix Crawler, o Webrecorder.net  liderado por Ilya Kreymer, tem como mote “web archiving for all”.  As suas ferramentas permitem a gravação da Internet de forma descentralizada e em pequena escala.

O Browsertrix Crawler está disponível e pode ser instalado no próprio computador para pequenas recolhas.

A versão linha de comandos aqui recomendada é a mesma que o Arquivo.pt está a utilizar.

Pela experiência da equipa do Arquivo.pt, pode dizer-se que usar o Browsertrix Crawler é fácil em equipas multidisciplinares, onde há sempre alguém com conhecimentos mínimos para usar comandos Linux e dar algum apoio pontual.

Demonstração de gravação de sites inteiros no próprio computador

Neste vídeo apresenta-se um caso de utilização do Browsertrix Crawler num simples computador de secretária. É útil para quem quer aprofundar conhecimentos e práticas de gravação de sites em ambiente local e destina-se a não especialistas.

Outras ferramenta utilizadas pelo Arquivo.pt para gravar conteúdos

Brozzler: ferramenta para uma melhorar o histórico dos sites de recolha diária e mensal

O Brozzler é uma ferramenta semelhante ao Browsertrix Crawler, pois também baseia a sua gravação num browser. É utilizado e mantido pelo Internet Archive.

O Arquivo.pt utiliza o Brozzler, pelo menos desde 2018, para gravar páginas web com conteúdos interativos presentes nas páginas web e para recolhas de alta qualidade (RAQs).

Listas até 200 sites são gravadas com sucesso pelo Brozzler. Por exemplo, os 125 sites de recolha diária (FAWPs) são gravados com o Brozzler no início de cada mês. Ao longo do mês, outros 75 sites de recolha mensal (MAWPs) são gravados usando o Brozzler.

No final de 2023, o Arquivo.pt comparou o Brozzler e o Browsertrix Crawler e optou por manter estas duas ferramentas.

Heritrix, pywb e ArchiveWeb.page: ferramentas para milhares de sites ou para uma página

O Heritrix crawler é a principal ferramenta de gravação do Arquivo.pt. É utilizado em enormes listas de websites, como por exemplo os sites do domínio .PT a que se juntam outros sites portugueses, ultrapassando meio milhão de endereços.

No lado oposto, está a extensão ArchiveWeb.page que o Arquivo.pt utiliza para pequenas gravações página a página e também para a formação Arquivar a Web: faça-você-mesmo!.

Para completar a lista de ferramentas de gravação utilizadas pelo Arquivo.pt, deve referir-se o pywb que entra em ação, por exemplo, quando um utilizador do Arquivo.pt usa a funcionalidade “Completar a página” ou o serviço de gravação na hora SavePageNow.