Última atualização em 20 de Janeiro de 2025 às 13:50
O Arquivo.pt lançou uma nova versão denominada Isis, no dia 7 de janeiro de 2025.
Suporte ao Flash utilizando o emulador Ruffle
Na nova versão do Arquivo.pt, destaca-se a funcionalidade que permite agora reproduzir animações e conteúdos interativos em Flash.
A tecnologia Flash foi utilizada em websites nos primeiros anos da Web. Porém, tornou-se obsoleta e os navegadores atuais, tais como o Google ou o Edge, deixaram de lhe dar suporte, impedindo a visualização desses conteúdos. A emulação por software é uma forma de dar acesso a conteúdos produzidos por tecnologias obsoletas.
Assim, o Arquivo.pt incluiu o Ruffle, um emulador de Flash Player que permite visualizar conteúdos em Flash, anteriormente inacessíveis ao utilizador.
Exemplos de animações em Flash no Arquivo.pt
Aceda aos sites em Flash no Arquivo.pt, tendo em conta que muitos deles foram criados para serem vistos em computadores de secretária e podem ter limitações em dispositivos móveis.
Última atualização em 11 de Dezembro de 2024 às 12:16
O mês de setembro marca o início de um ano de trabalho e também o fim de muitos sites que se perdem sem remédio. Remodelados ou desligados sem se ter feito uma boa cópia dos seus conteúdos, é assim que se perdem muitos sites sem necessidade.
Há ferramentas que permitem a gravação imediata dos sites pelas próprias organizações que os gerem. Além disso, há o serviço arquivo a-pedido em alta qualidade que o Arquivo.pt presta a entidades parceiras ou no contexto de colaborações pontuais.
Neste artigo pretende-se destacar o Browsertrix Crawler que é utilizado pelo Arquivo.pt, sem excluir outras ferramentas, e que pode ser útil aos gestores de informação e departamentos de informática.
Uso do Browsertrix-crawler pelo Arquivo.pt para recolhas de alta qualidade
O Browsertrix Crawler é uma ferramenta que permite gravar websites inteiros e listas de páginas web de forma automática e num formato compatível com os arquivos da Web.
O Arquivo.pt utiliza o Browsertrix Crawler para fazer recolhas de alta qualidade de sites (RAQs), a pedido da comunidade. Por exemplo, quando um site está para ser desligado, quando vai sofrer uma remodelação ou, periodicamente, para manter um bom histórico de sites importantes.
Um caso ilustrativo é o site da Câmara Municipal de Almada, gravado em abril de 2021, a pedido do Arquivo Municipal. Outro caso é o site do jornal Notícias de Leiria que foi gravado antes do seu encerramento, em dezembro de 2023.
Os pedidos de recolha de alta qualidade (RAQs) ao Arquivo.pt são cada vez vez mais frequentes: 77 pedidos, de janeiro a setembro de 2024. É sinal de que há uma maior preocupação com a preservação dos conteúdos Web.
O que é preciso para usar locamente o Browsertrix-crawler
O grupo que o desenvolveu o Browsertrix Crawler, o Webrecorder.net liderado por Ilya Kreymer, tem como mote “web archiving for all”. As suas ferramentas permitem a gravação da Internet de forma descentralizada e em pequena escala.
O Browsertrix Crawler está disponível e pode ser instalado no próprio computador para pequenas recolhas.
A versão linha de comandos aqui recomendada é a mesma que o Arquivo.pt está a utilizar.
Pela experiência da equipa do Arquivo.pt, pode dizer-se que usar o Browsertrix Crawler é fácil em equipas multidisciplinares, onde há sempre alguém com conhecimentos mínimos para usar comandos Linux e dar algum apoio pontual.
Demonstração de gravação de sites inteiros no próprio computador
Neste vídeo apresenta-se um caso de utilização do Browsertrix Crawler num simples computador de secretária. É útil para quem quer aprofundar conhecimentos e práticas de gravação de sites em ambiente local e destina-se a não especialistas.
Outras ferramenta utilizadas pelo Arquivo.pt para gravar conteúdos
Brozzler: ferramenta para uma melhorar o histórico dos sites de recolha diária e mensal
O Brozzler é uma ferramenta semelhante ao Browsertrix Crawler, pois também baseia a sua gravação num browser. É utilizado e mantido pelo Internet Archive.
O Arquivo.pt utiliza o Brozzler, pelo menos desde 2018, para gravar páginas web com conteúdos interativos presentes nas páginas web e para recolhas de alta qualidade (RAQs).
Listas até 200 sites são gravadas com sucesso pelo Brozzler. Por exemplo, os 125 sites de recolha diária (FAWPs) são gravados com o Brozzler no início de cada mês. Ao longo do mês, outros 75 sites de recolha mensal (MAWPs) são gravados usando o Brozzler.
No final de 2023, o Arquivo.pt comparou o Brozzler e o Browsertrix Crawler e optou por manter estas duas ferramentas.
Heritrix, pywb e ArchiveWeb.page: ferramentas para milhares de sites ou para uma página
O Heritrix crawler é a principal ferramenta de gravação do Arquivo.pt. É utilizado em enormes listas de websites, como por exemplo os sites do domínio .PT a que se juntam outros sites portugueses, ultrapassando meio milhão de endereços.
Para completar a lista de ferramentas de gravação utilizadas pelo Arquivo.pt, deve referir-se o pywb que entra em ação, por exemplo, quando um utilizador do Arquivo.pt usa a funcionalidade “Completar a página” ou o serviço de gravação na hora ArchivePageNow.
A nova versão do Arquivo.pt denominada Helios foi lançada no dia 13 de novembro de 2023 e inclui desenvolvimentos no Arquivo404 e CitationSaver.
Arquivo404 com novos métodos para definir intervalos temporais
O Arquivo404 é um serviço que apresenta aos utilizadores de um website, ligações para versões arquivadas, em vez de lacónicas mensagens de erro “Página não encontrada”.
Porém, por vezes é necessário especificar qual é a versão correcta de uma página arquivada que deve ser apresentada. Por exemplo, o domínio de um website pode ter pertencido a outra entidade no passado e pretende-se que sejam mostradas apenas as versões arquivadas desde que o website passou a pertencer aos seus donos actuais.
setMinimumDate(minDate : Date) – especifica a data mais antiga da versão arquivada do URL que pode ser apresentada.
setMaximumDate(maxDate : Date) – especifica a data mais recente da versão arquivada do URL que pode ser apresentada.
setMostRelevantMemento(criterion : ‘oldest’ | ‘most-recent’) – especifica a ordem dos resultados das versões arquivadas que foram recuperadas do arquivo da web. Por omissão, é apresentada a mais antiga (‘oldest’).
Em suma, o Arquivo404 passou a permitir definir se apresenta ao utilizador a página arquivada mais antiga ou a mais recente, dentro de um determinado intervalo de tempo.
CitationSaver processa documentos HTML
O CitationSaver é um serviço que extrai citações em documentos para recursos online e arquiva-os. Este serviço é particularmente útil para manter a integridade dos artigos científicos e a reproducibilidade das experiências e estudos neles descritos.
Muitos artigos em acesso-aberto são publicados em formato de hipertexto (HMTL). O CitationSaver passou a processar documentos em formato HTML, além dos formatos PDF e TXT.
Por exemplo, se um utilizador encontrar um artigo na Web que contenha citações para recursos online, apenas terá de inserir o endereço da página do artigo no CitationSaver. Os endereços (URLs) serão extraídos e arquivados para que não se percam.
Última atualização em 16 de Outubro de 2023 às 19:04
Existem páginas arquivadas da web que são reproduzidas de forma incompleta devido a problemas ocorridos durante o processo de arquivo (ex. desformatadas ou com falta de imagens embedidas).
Completar a página é uma funcionalidade do Arquivo.pt que permite recuperar os elementos em falta nas páginas arquivadas a partir de outros arquivos da web ou dos websites originais.
Quando um utilizador visualiza uma página arquivada no Arquivo.pt, basta aceder ao menu Opções no canto superior direito e escolher Completar a página.
Este processo é realizado de forma automática e o Arquivo.pt é o único arquivo da web no mundo que o disponibiliza!
Como funciona o Completar a página?
Se abrir uma página arquivada que lhe pareça incompleta, tente a opção Completar a página e aguarde.
O Arquivo.pt efetuará uma busca pelos elementos em falta, na Internet e noutros arquivos da Web utlizando o protocolo Memento. Em caso de sucessso, os elementos obtidos serão imediatamente mostrados na página.
Posteriormente, estes elementos recuperados são integrados no acervo do Arquivo.pt, para que a página apareça sempre mais completa em futuras consultas realizadas por qualquer utilizador.
Completar a página de entrada do website da artista Cristina Guerra encontrou uma imagem em falta.
Por exemplo, o website da artista Cristina Guerra, arquivado em 2005, tinha uma imagem em falta. Mas utilizando o Completar a página, foi possível em 2021 obtê-la a partir de outro arquivo da web que a tinha preservado e passar a presentar a página de forma mais completa.
Participe na curadoria colaborativa para melhorar a qualidade do Arquivo.pt!
Devido ao elevado número de páginas arquivadas não é possível ao Arquivo.pt tentar completar todas automaticamente. Por isso, a colaboração dos utilizadores para identificar páginas importantes com elementos em falta e tentar completá-las é importante.
Ao utilizar o Completar a página a comunidade de utilizadores está a contribuir para melhorar a qualidade das páginas preservadas no Arquivo.pt!
Experimente sempre completar as páginas arquivadas que lhe pareçam incompletas e se detectar algum problema contacte-nos.
Última atualização em 21 de Novembro de 2023 às 16:03
Os documentos citam conteúdos da Web referenciando os seus endereços (URL) para que o leitores possa vir a aceder-lhes.
No caso dos artigos científicos, a importância destas citações é ainda maior para manter a integridade de uma investigação porque muitas vezes referenciam informação fundamental para permitir a reprodutibilidade de uma experiência ou análise.
Por exemplo, as ligações num artigo científico podem citar os conjuntos de dados, software ou notícias da web que suportaram a investigação e que não estão incluídos no texto do artigo científico.
Para responder à necessidade de preservar a integridade dos documentos, o Arquivo.pt criou o CitationSaver.
O CitationSaver automaticamente extrai as ligações citadas num documento e preserva o seu conteúdo (ex. páginas web citadas num livro) para que possam ser recuperadas mais tarde a partir do Arquivo.pt.
Use o CitationSaver para preservar a integridade dos seus documentos
Carregue um documento e o CitationSaver extrairá os endereços citados, gravando os seus conteúdos e disponibilizando-os no Arquivo.pt passado pouco tempo. Existem 3 métodos para carregar um documento:
insira o endereço (URL) do ficheiro PDF ou TXT, se este estiver publicado online
carregue o ficheiro em formato PDF ou TXT
cole o texto que contem os endereços que pretende preservar (ex. secção de Referências de um artigo ou Bibliografia de um livro)
Última atualização em 14 de Novembro de 2023 às 14:45
O seu website apresenta mensagens de “Erro 404 – Página não encontrada” aos seus utilizadores?
O Arquivo.pt oferece uma solução para este problema através do Arquivo404.
Basta inserir uma única linha de código na página que gera a mensagem de erro 404 no seu website e serão apresentadas páginas preservadas aos seus utilizadores em vez de páginas não encontradas.
Quando um utilizador tenta aceder a uma página que já não se encontra disponível num website, o arquivo404 verifica automaticamente se existe uma versão dessa página preservada no Arquivo.pt.
Se a página existir no Arquivo.pt, é apresentado um link para que o utilizador para que possa visitar esta versão.
Se não existir, é apresentada a página de erro normal.
A implementação mais simples do Arquivo404 consiste em inserir a seguinte linha de código Javascript no HTML que gera a mensagem de “Página não encontrada” (dentro do <body>):
O código do Arquivo404 pode ser adaptado facilmente. Pode por exemplo, criar uma mensagem de erro personalizada.
Dica para sites WordPress: Ao editar a página de erro 404 e ao inserir o script arquivo404 dentro do <body>, deve colocar no princípio a tag <!– wp:html –> e no fim <!– /wp:html –>, caso contrário o script é apagado.
Se tive qualquer dúvida ou dificuldade, por favor contacte-nos!
Última atualização em 7 de Janeiro de 2025 às 19:04
O serviço ArchivePageNow, inicialmente denominado SavePageNow, permite a qualquer pessoa arquivar uma página Web para ser preservada pelo Arquivo.pt. Basta colocar o endereço de uma página e navegar pelos conteúdos.
Ao utilizar o ArchivePageNow está a contribuir para que informações importantes publicadas na Internet não se percam.
Ajude-nos a melhorar: avise-nos de problemas!
As interfaces de utilização foram recodificadas nesta nova versão e necessitamos da sua ajuda para testá-las em diferentes dispositivos (ex. telemóveis, tablets, portáteis).
Por isso, se detectar algum problema, por favor contacte-nos!
Lembre-se de enviar sempre o endereço da página onde detectou o problema.
Quando um utilizador insere um conjunto de palavras acerca de um tema na caixa de pesquisa do Arquivo.pt e clica no botão “Narrativa”, é direcionado para o serviço “Conta-me Histórias”, que por sua vez analisa automaticamente as notícias de 25 websites arquivados pelo Arquivo.pt ao longo do tempo e apresenta ao utilizador uma cronologia de notícias relacionadas com o tema pesquisado.
Figura 1: Resultados da pesquisa de páginas sobre “Jorge Sampaio”.
Figura 2: Narrativa de notícias sobre “Jorge Sampaio” gerada pelo serviço “Conta-me Histórias”.
Crie agora a sua narrativa!
O “Conta-me Histórias” pesquisa, analisa e agrega milhares de resultados para gerar cada narrativa acerca de um tema. Recomenda-se a escolha de palavras descritivas sobre temas bem definidos, personalidades ou eventos para obter boas narrativas.
A criação de uma narrativa é útil para investigadores, jornalistas ou cidadãos que pretendam obter rapidamente uma visão geral acerca da evolução de um tema ao longo do tempo, poupando-lhes assim imenso tempo e trabalho.
Aceda ao Arquivo.pt e experimente criar uma narrativa sobre um tema à sua escolha.
Última atualização em 16 de Novembro de 2020 às 16:05
O Arquivo.pt lançou uma nova versão, denominada Basileus, no dia 11 de novembro de 2020.
O objetivo desta versão foi melhorar a experiência do utilizador ao navegar pelas diversas interfaces do Arquivo.pt.
Foram feitos ajustes ao nível do Web design dos quais resultaram uma maior coerência na estrutura do código, nos aspetos gráficos e nas interações, como por exemplo cores, tipo de letra e botões.