Arquivo404 mais poderoso!

O Arquivo.pt tem lançado serviços complementares inovadores úteis para as organizações optimizarem o seu funcionamento.

A nova versão do Arquivo.pt denominada Helios foi lançada no dia 13 de novembro de 2023 e inclui desenvolvimentos no Arquivo404 e CitationSaver.

Arquivo404 com novos métodos para definir intervalos temporais

O Arquivo404 é um serviço que apresenta aos utilizadores de um website, ligações para versões arquivadas, em vez de lacónicas mensagens de erro “Página não encontrada”.

Porém, por vezes é necessário especificar qual é a versão correcta de uma página arquivada que deve ser apresentada. Por exemplo, o domínio de um website pode ter pertencido a outra entidade no passado e pretende-se que sejam mostradas apenas as versões arquivadas desde que o website passou a pertencer aos seus donos actuais.

Para este efeito, foram lançados 3 novos métodos para configurar o Arquivo404:

  • setMinimumDate(minDate : Date) – especifica a data mais antiga da versão arquivada do URL que pode ser apresentada.
  • setMaximumDate(maxDate : Date) – especifica a data mais recente da versão arquivada do URL que pode ser apresentada.
  • setMostRelevantMemento(criterion : ‘oldest’ | ‘most-recent’) – especifica a ordem dos resultados das versões arquivadas que foram recuperadas do arquivo da web. Por omissão, é apresentada a mais antiga  (‘oldest’).

Em suma, o Arquivo404 passou a permitir definir se apresenta ao utilizador a página arquivada mais antiga ou a mais recente, dentro de um determinado intervalo de tempo.

CitationSaver processa documentos HTML

O CitationSaver é um serviço que extrai citações em documentos para recursos online e arquiva-os. Este serviço é particularmente útil para manter a integridade dos artigos científicos e a reproducibilidade das experiências e estudos neles descritos.

Muitos artigos em acesso-aberto são publicados em formato de hipertexto (HMTL). O CitationSaver passou a processar documentos em formato HTML, além dos formatos PDF e TXT.

Por exemplo, se um utilizador encontrar um artigo na Web que contenha citações para recursos online, apenas terá de inserir o endereço da página do artigo no CitationSaver. Os endereços (URLs) serão extraídos e arquivados para que não se percam.

Exemplo de artigo da Revista de Gestão Costeira Integrada, disponiblizado no SciELO

Saber mais

Use os serviços do Arquivo.pt e se detetar algum problema, por favor contacte-nos.

Arquivo.pt preserva referências da Wikipedia

Wikimedia Portugal e Arquivo.pt

Última atualização em 19 de Setembro de 2023 às 13:47

A Wikipedia é um recurso educativo degradado por links quebrados

O Arquivo.pt preserva informação publicada online para que possa vir a ser utilizada para fins de investigação e educação. Por exemplo, o Arquivo.pt preservou informação online acerca de projectos europeus financiados pelo H2020

Os artigos da Wikipedia referenciam páginas externas com importante informação complementar que entretanto ficou indisponível.
Os artigos da Wikipedia referenciam páginas externas com importante informação complementar que entretanto ficou indisponível.

Um dos recursos online mais usados para fins de educação são os artigos da Wikipedia. Porém, por vezes os artigos da Wikipedia referenciam páginas externas com importante informação complementar que entretanto ficou indisponível nos seus websites de origem. Este problema degrada a qualidade da Wikipedia como fonte credível e verificável de informação.

Em agosto de 2023, a equipa do Arquivo.pt realizou uma experiência para medir a percentagem de links externos (fora do domínio wikipedia.org) que estavam quebrados em artigos da Wikipedia portuguesa. Os resultados obtidos mostraram que 25% dos links externos referenciados na Wikipedia portuguesa estavam quebrados.

Acresce o problema de que uma ligação pode referenciar um conteúdo ainda disponível, mas este pode já não ser o que se pretendia referenciar no artigo da Wikipedia, porque o domínio pode ter sido entretanto comprado por terceiros, por exemplo para fins maliciosos (problema de Content Drift).

Para mitigar estes problemas, o Arquivo.pt lançou um projecto para preservar as referências online contidas nos artigos da Wikipedia Portuguesa em colaboração com a Wikimedia Portugal. O objetivo foi alterar as referências para ligações quebradas em artigos na Wikipedia, para passarem a referenciar conteúdos preservados no Arquivo.pt, mantendo assim a informação referenciada acessível aos utilizadores da Wikipedia. 

Arquivo.pt preservou as páginas referenciadas nos artigos da Wikipedia Portuguesa

Os artigos da Wikipedia referenciam páginas externas com importante informação complementar que entretanto ficou indisponível.
A Wikipedia recomenda citar arquivos da web (parâmetro arquivourl/archive-url).

A Wikipedia portuguesa contém cerca de 1 milhão de artigos e em média são editadas 140 páginas por dia.

O Arquivo.pt extraiu automaticamente 14 milhões de ligações a partir das referências em todos os artigos da Wikipedia portuguesa. Destas ligações, observou-se que apenas 620 referenciavam o Arquivo.pt e 744 553 o Internet Archive (5,3%). Note-se que o guia da Wikipedia para criar referências recomenda a publicação de citações para arquivos da web (parâmetro arquivourl/archive-url)

No dia 15 de fevereiro de 2023, o Arquivo.pt recolheu todas as páginas referenciadas em artigos da Wikipedia portuguesa, o que resultou numa nova coleção nomeada EAWP42: Collection of external links from wikipedia using the wikimedia dumps que contém 12 milhões de ficheiros (856 GB).

O principal resultado deste projeto foi a criação de um novo processo automático para extrair e recolher os links externos citados em páginas da Wikipedia portuguesa. Este processo passou a fazer parte da operação das recolhas do Arquivo.pt, sendo realizada uma recolha anual das citações da Wikipedia.

Tentativa de consertar automaticamente os links quebrados nos artigos da Wikipedia

O InternetArchiveBot oferece poderosas ferramentas de operação e monitorização (ex. Dashboard e Insights)
O InternetArchiveBot oferece poderosas ferramentas de operação e monitorização (ex. Dashboard e Insights)

Existem robôs de software que adicionam automaticamente ligações para versões arquivadas em artigos da Wikipedia quando encontram ligações quebradas (ex. Pywikibot, Wayback Medic e InternetArchiveBot).

Foi realizada uma experiência para criar um ArquivoPTBot baseado no InternetArchiveBot porque é oferece poderosas ferramentas de operação e monitorização (ex. Dashboard e Insights) e é mantido pelo Internet Archive: o maior arquivo da web do mundo.

Porém, não foi possível lançar este serviço em produção porque implica alterações no sistema para utilizar o Arquivo.pt como fonte de informação arquivada. Se quiser colaborar para conseguirmos retomar este projeto contacte-nos!

Preservar as referências da Wikipedia está ao seu alcance!

O Arquivo.pt continua comprometido em contribuir para preservar os links das referências da Wikipedia e oferece os seguintes serviços que lhe podem ser úteis.

Arquivo.pt CitationSaver: preserva citações a conteúdos online (https://arquivo.pt/citationsaver).
Arquivo.pt CitationSaver: preserva citações a conteúdos online (https://arquivo.pt/citationsaver).

O CitationSaver permite-lhe submeter o código do artigo da Wikipedia e o Arquivo.pt irá automaticamente extrair os links contidos e, arquivar os conteúdos respectivos.

 

Arquivo.pt SavePageNow: grava páginas no Arquivo.pt (https://arquivo.pt/savepagenow).
Arquivo.pt SavePageNow: grava páginas no Arquivo.pt (https://arquivo.pt/savepagenow).

O SavePageNow permite-lhe arquivar imediatamente uma página no Arquivo.pt, por exemplo, que esteja a ser referenciada num artigo da Wikipedia para que não se perca.

Formações Arquivo.pt/Wikimedia

A Wikimedia Portugal em colaboração com o Arquivo.pt promoveu um conjunto de webinars que visou captar a atenção da comunidade para a preservação dos conteúdos publicados e citados na Wikipedia. Os vídeos e slides destes webinars estão disponíveis:

CitationSaver preserva citações para conteúdos online

Última atualização em 21 de Novembro de 2023 às 16:03

Os documentos citam conteúdos da Web referenciando os seus endereços (URL) para que o leitores possa vir a aceder-lhes.

No caso dos artigos científicos, a importância destas citações é ainda maior para manter a integridade de uma investigação porque muitas vezes referenciam informação fundamental para permitir a reprodutibilidade de uma experiência ou análise.

Por exemplo, as ligações num artigo científico podem citar os conjuntos de dados, software ou notícias da web que suportaram a investigação e que não estão incluídos no texto do artigo científico.

Para responder à necessidade de preservar a integridade dos documentos, o Arquivo.pt criou o CitationSaver.

O CitationSaver automaticamente extrai as ligações citadas num documento e preserva o seu conteúdo (ex. páginas web citadas num livro) para que possam ser recuperadas mais tarde a partir do Arquivo.pt.

infografia-citationsaver-pt

Use o CitationSaver para preservar a integridade dos seus documentos

Carregue um documento e o CitationSaver extrairá os endereços citados, gravando os seus conteúdos e disponibilizando-os no Arquivo.pt passado pouco tempo. Existem 3 métodos para carregar um documento:

  • insira o endereço (URL) do ficheiro PDF ou TXT, se este estiver publicado online
  • carregue o ficheiro em formato PDF ou TXT
  • cole o texto que contem os endereços que pretende preservar (ex. secção de Referências de um artigo ou Bibliografia de um livro)

Mais informação