Este Ciclo de Webinars, dedicado à preservação da memória cultural publicada na Web, é uma colaboração entre a APDSI e o Arquivo.pt, FCCN serviços digitais da Fundação para a Ciência e a Tecnologia I.P..
Programa
Webinar 1 – 20 de março – Arquivo.pt: uma nova ferramenta para pesquisar o
passado. Daniel Gomes, Gestor do Arquivo.pt – Vídeo, slides
Webinar 2 – 25 de março – Bem publicar para bem preservar. Pedro Gomes,
Encarregado pelas recolhas do Arquivo.pt – Vídeo, slides
Webinar 3 – 27 de março – Acesso e processamento automático de informação
preservada da Web através de APIs. Vasco Rato, Web developer do Arquivo.pt – Vídeo, Slides
Webinar 4 – 1 de abril – Arquivar a Web: faça-você-mesmo!. Ricardo Basílio,
Curador digital do Arquivo.pt
Última atualização em 11 de Dezembro de 2024 às 12:16
O mês de setembro marca o início de um ano de trabalho e também o fim de muitos sites que se perdem sem remédio. Remodelados ou desligados sem se ter feito uma boa cópia dos seus conteúdos, é assim que se perdem muitos sites sem necessidade.
Há ferramentas que permitem a gravação imediata dos sites pelas próprias organizações que os gerem. Além disso, há o serviço arquivo a-pedido em alta qualidade que o Arquivo.pt presta a entidades parceiras ou no contexto de colaborações pontuais.
Neste artigo pretende-se destacar o Browsertrix Crawler que é utilizado pelo Arquivo.pt, sem excluir outras ferramentas, e que pode ser útil aos gestores de informação e departamentos de informática.
Uso do Browsertrix-crawler pelo Arquivo.pt para recolhas de alta qualidade
O Browsertrix Crawler é uma ferramenta que permite gravar websites inteiros e listas de páginas web de forma automática e num formato compatível com os arquivos da Web.
O Arquivo.pt utiliza o Browsertrix Crawler para fazer recolhas de alta qualidade de sites (RAQs), a pedido da comunidade. Por exemplo, quando um site está para ser desligado, quando vai sofrer uma remodelação ou, periodicamente, para manter um bom histórico de sites importantes.
Um caso ilustrativo é o site da Câmara Municipal de Almada, gravado em abril de 2021, a pedido do Arquivo Municipal. Outro caso é o site do jornal Notícias de Leiria que foi gravado antes do seu encerramento, em dezembro de 2023.
Os pedidos de recolha de alta qualidade (RAQs) ao Arquivo.pt são cada vez vez mais frequentes: 77 pedidos, de janeiro a setembro de 2024. É sinal de que há uma maior preocupação com a preservação dos conteúdos Web.
O que é preciso para usar locamente o Browsertrix-crawler
O grupo que o desenvolveu o Browsertrix Crawler, o Webrecorder.net liderado por Ilya Kreymer, tem como mote “web archiving for all”. As suas ferramentas permitem a gravação da Internet de forma descentralizada e em pequena escala.
O Browsertrix Crawler está disponível e pode ser instalado no próprio computador para pequenas recolhas.
A versão linha de comandos aqui recomendada é a mesma que o Arquivo.pt está a utilizar.
Pela experiência da equipa do Arquivo.pt, pode dizer-se que usar o Browsertrix Crawler é fácil em equipas multidisciplinares, onde há sempre alguém com conhecimentos mínimos para usar comandos Linux e dar algum apoio pontual.
Demonstração de gravação de sites inteiros no próprio computador
Neste vídeo apresenta-se um caso de utilização do Browsertrix Crawler num simples computador de secretária. É útil para quem quer aprofundar conhecimentos e práticas de gravação de sites em ambiente local e destina-se a não especialistas.
Outras ferramenta utilizadas pelo Arquivo.pt para gravar conteúdos
Brozzler: ferramenta para uma melhorar o histórico dos sites de recolha diária e mensal
O Brozzler é uma ferramenta semelhante ao Browsertrix Crawler, pois também baseia a sua gravação num browser. É utilizado e mantido pelo Internet Archive.
O Arquivo.pt utiliza o Brozzler, pelo menos desde 2018, para gravar páginas web com conteúdos interativos presentes nas páginas web e para recolhas de alta qualidade (RAQs).
Listas até 200 sites são gravadas com sucesso pelo Brozzler. Por exemplo, os 125 sites de recolha diária (FAWPs) são gravados com o Brozzler no início de cada mês. Ao longo do mês, outros 75 sites de recolha mensal (MAWPs) são gravados usando o Brozzler.
No final de 2023, o Arquivo.pt comparou o Brozzler e o Browsertrix Crawler e optou por manter estas duas ferramentas.
Heritrix, pywb e ArchiveWeb.page: ferramentas para milhares de sites ou para uma página
O Heritrix crawler é a principal ferramenta de gravação do Arquivo.pt. É utilizado em enormes listas de websites, como por exemplo os sites do domínio .PT a que se juntam outros sites portugueses, ultrapassando meio milhão de endereços.
Para completar a lista de ferramentas de gravação utilizadas pelo Arquivo.pt, deve referir-se o pywb que entra em ação, por exemplo, quando um utilizador do Arquivo.pt usa a funcionalidade “Completar a página” ou o serviço de gravação na hora ArchivePageNow.
Nos dias seguintes, 11 e 12 de maio, realizou-se a IIPC Web Archiving Conference (IIPC WAC), uma iniciativa aberta à comunidade, onde podem participar pessoas ou entidades não associodas ao IIPC e interessadas no domínio da preservação da Web.
Contributos do Arquivo.pt na Web Archiving Conference
O Arquivo.pt participou nas reuniões dos grupos de trabalho do IIPC (Training Working Group e Curators Working Group) e contribuiu com apresentações nas sessões temáticas Collaborations & Outreach e Program infrastructure (sessões 7 e 17).
O Arquivo.pt contribuiu com apresentações para as sessões Web Archive in Mediterranean area and its merge(4.A,), From online Tools to Web Archive (6.B.), Towards a participatory approach to collections (9. A.), Digging up the materials for writing web history (9.B.).
How to research governmental web data? (abstract, slides)
O Arquivo.pt participou em três cursos: Incentives design for hybrid multilingual information processing and analytics, em Southampton; National and transnational media coverage of European parliamentary elections, 2004-2014, Londres; e NLP for under-resourced languages, em Zagreb, na Croácia.
Em 2022, o Arquivo.pt acolheu dois investigadores nas suas instalações os quais utilizaram os recursos arquivados e tiveram apoio especial da equipa do Arquivo.pt para desenvolverem a sua investigação.
O projeto CLEOPATRA terminou em 2023 com a realização de um encontro a 16 de maio, em Hannover, que reuniu professores, investigadores e representantes de instituições envolvidas.
Daniel Gomes, Gestor do Arquivo.pt, destacou as novas ferramentas que o Arquivo.pt disponibiza e os resultados dos trabalhos realizados pelos investigadores que passaram pelo Arquivo.pt.
Secondments@Arquivo.pt and new research tools available (Slides)
Última atualização em 21 de Setembro de 2021 às 10:52
A informação recolhida da Web durante 2019 está acessível através do Arquivo.pt, depois do embargo de 1 ano que precede a disponibilização de conteúdos.
As imagens do incêndio na Catedral de Notre Dame, printscreen de página do Jornal I, 17-04-29, preservada pelo Arquivo.pt
Relembre e investigue os acontecimentos históricos de 2019, tais com:
O Arquivo.pt recolheu 1700 milhões de ficheiros, a partir de 2 milhões de sites visitados, num total de 131 terabytes que agora estão disponíveis para que possa aceder a eventos passados.
Em 2021, o Arquivo.pt disponibiliza acesso aberto a mais de 10 000 milhões de ficheiros (721 terabytes) oriundos de 27 milhões de websites.
A Área de Serviços Avançados da FCT-FCCN, onde se inclui o Arquivo.pt e os Serviços de Vídeo, abriu uma vaga para formação complementar em infraestruturas e serviços de gestão de ciência (bolsa).
As atividades a realizar estarão relacionadas com a formação e disseminação de serviços avançados para investigação científica e ensino superior.
A data limite para a apresentação de candidaturas é dia 27 de outubro de 2017.