A nova versão do Arquivo.pt denominada Helios foi lançada no dia 13 de novembro de 2023 e inclui desenvolvimentos no Arquivo404 e CitationSaver.
Arquivo404 com novos métodos para definir intervalos temporais
O Arquivo404 é um serviço que apresenta aos utilizadores de um website, ligações para versões arquivadas, em vez de lacónicas mensagens de erro “Página não encontrada”.
Porém, por vezes é necessário especificar qual é a versão correcta de uma página arquivada que deve ser apresentada. Por exemplo, o domínio de um website pode ter pertencido a outra entidade no passado e pretende-se que sejam mostradas apenas as versões arquivadas desde que o website passou a pertencer aos seus donos actuais.
setMinimumDate(minDate : Date) – especifica a data mais antiga da versão arquivada do URL que pode ser apresentada.
setMaximumDate(maxDate : Date) – especifica a data mais recente da versão arquivada do URL que pode ser apresentada.
setMostRelevantMemento(criterion : ‘oldest’ | ‘most-recent’) – especifica a ordem dos resultados das versões arquivadas que foram recuperadas do arquivo da web. Por omissão, é apresentada a mais antiga (‘oldest’).
Em suma, o Arquivo404 passou a permitir definir se apresenta ao utilizador a página arquivada mais antiga ou a mais recente, dentro de um determinado intervalo de tempo.
CitationSaver processa documentos HTML
O CitationSaver é um serviço que extrai citações em documentos para recursos online e arquiva-os. Este serviço é particularmente útil para manter a integridade dos artigos científicos e a reproducibilidade das experiências e estudos neles descritos.
Muitos artigos em acesso-aberto são publicados em formato de hipertexto (HMTL). O CitationSaver passou a processar documentos em formato HTML, além dos formatos PDF e TXT.
Por exemplo, se um utilizador encontrar um artigo na Web que contenha citações para recursos online, apenas terá de inserir o endereço da página do artigo no CitationSaver. Os endereços (URLs) serão extraídos e arquivados para que não se percam.
Um dos recursos online mais usados para fins de educação são os artigos da Wikipedia. Porém, por vezes os artigos da Wikipedia referenciam páginas externas com importante informação complementar que entretanto ficou indisponível nos seus websites de origem. Este problema degrada a qualidade da Wikipedia como fonte credível e verificável de informação.
Em agosto de 2023, a equipa do Arquivo.pt realizou uma experiência para medir a percentagem de links externos (fora do domínio wikipedia.org) que estavam quebrados em artigos da Wikipedia portuguesa. Os resultados obtidos mostraram que 25% dos links externos referenciados na Wikipedia portuguesa estavam quebrados.
Acresce o problema de que uma ligação pode referenciar um conteúdo ainda disponível, mas este pode já não ser o que se pretendia referenciar no artigo da Wikipedia, porque o domínio pode ter sido entretanto comprado por terceiros, por exemplo para fins maliciosos (problema de Content Drift).
Para mitigar estes problemas, o Arquivo.pt lançou um projecto para preservar as referências online contidas nos artigos da Wikipedia Portuguesa em colaboração com a Wikimedia Portugal. O objetivo foi alterar as referências para ligações quebradas em artigos na Wikipedia, para passarem a referenciar conteúdos preservados no Arquivo.pt, mantendo assim a informação referenciada acessível aos utilizadores da Wikipedia.
Arquivo.pt preservou as páginas referenciadas nos artigos da Wikipedia Portuguesa
O principal resultado deste projeto foi a criação de um novo processo automático para extrair e recolher os links externos citados em páginas da Wikipedia portuguesa. Este processo passou a fazer parte da operação das recolhas do Arquivo.pt, sendo realizada uma recolha anual das citações da Wikipedia.
Tentativa de consertar automaticamente os links quebrados nos artigos da Wikipedia
Existem robôs de software que adicionam automaticamente ligações para versões arquivadas em artigos da Wikipedia quando encontram ligações quebradas (ex. Pywikibot, Wayback Medic e InternetArchiveBot).
Foi realizada uma experiência para criar um ArquivoPTBot baseado no InternetArchiveBot porque é oferece poderosas ferramentas de operação e monitorização (ex. Dashboard e Insights) e é mantido pelo Internet Archive: o maior arquivo da web do mundo.
Porém, não foi possível lançar este serviço em produção porque implica alterações no sistema para utilizar o Arquivo.pt como fonte de informação arquivada. Se quiser colaborar para conseguirmos retomar este projeto contacte-nos!
Preservar as referências da Wikipedia está ao seu alcance!
O Arquivo.pt continua comprometido em contribuir para preservar os links das referências da Wikipedia e oferece os seguintes serviços que lhe podem ser úteis.
O CitationSaver permite-lhe submeter o código do artigo da Wikipedia e o Arquivo.pt irá automaticamente extrair os links contidos e, arquivar os conteúdos respectivos.
O SavePageNow permite-lhe arquivar imediatamente uma página no Arquivo.pt, por exemplo, que esteja a ser referenciada num artigo da Wikipedia para que não se perca.
Formações Arquivo.pt/Wikimedia
A Wikimedia Portugal em colaboração com o Arquivo.pt promoveu um conjunto de webinars que visou captar a atenção da comunidade para a preservação dos conteúdos publicados e citados na Wikipedia. Os vídeos e slides destes webinars estão disponíveis:
Última atualização em 21 de Novembro de 2023 às 16:03
Os documentos citam conteúdos da Web referenciando os seus endereços (URL) para que o leitores possa vir a aceder-lhes.
No caso dos artigos científicos, a importância destas citações é ainda maior para manter a integridade de uma investigação porque muitas vezes referenciam informação fundamental para permitir a reprodutibilidade de uma experiência ou análise.
Por exemplo, as ligações num artigo científico podem citar os conjuntos de dados, software ou notícias da web que suportaram a investigação e que não estão incluídos no texto do artigo científico.
Para responder à necessidade de preservar a integridade dos documentos, o Arquivo.pt criou o CitationSaver.
O CitationSaver automaticamente extrai as ligações citadas num documento e preserva o seu conteúdo (ex. páginas web citadas num livro) para que possam ser recuperadas mais tarde a partir do Arquivo.pt.
Use o CitationSaver para preservar a integridade dos seus documentos
Carregue um documento e o CitationSaver extrairá os endereços citados, gravando os seus conteúdos e disponibilizando-os no Arquivo.pt passado pouco tempo. Existem 3 métodos para carregar um documento:
insira o endereço (URL) do ficheiro PDF ou TXT, se este estiver publicado online
carregue o ficheiro em formato PDF ou TXT
cole o texto que contem os endereços que pretende preservar (ex. secção de Referências de um artigo ou Bibliografia de um livro)