Última atualização em 19 de Setembro de 2023 às 13:47
A Wikipedia é um recurso educativo degradado por links quebrados
O Arquivo.pt preserva informação publicada online para que possa vir a ser utilizada para fins de investigação e educação. Por exemplo, o Arquivo.pt preservou informação online acerca de projectos europeus financiados pelo H2020.
Um dos recursos online mais usados para fins de educação são os artigos da Wikipedia. Porém, por vezes os artigos da Wikipedia referenciam páginas externas com importante informação complementar que entretanto ficou indisponível nos seus websites de origem. Este problema degrada a qualidade da Wikipedia como fonte credível e verificável de informação.
Em agosto de 2023, a equipa do Arquivo.pt realizou uma experiência para medir a percentagem de links externos (fora do domínio wikipedia.org) que estavam quebrados em artigos da Wikipedia portuguesa. Os resultados obtidos mostraram que 25% dos links externos referenciados na Wikipedia portuguesa estavam quebrados.
Acresce o problema de que uma ligação pode referenciar um conteúdo ainda disponível, mas este pode já não ser o que se pretendia referenciar no artigo da Wikipedia, porque o domínio pode ter sido entretanto comprado por terceiros, por exemplo para fins maliciosos (problema de Content Drift).
Para mitigar estes problemas, o Arquivo.pt lançou um projecto para preservar as referências online contidas nos artigos da Wikipedia Portuguesa em colaboração com a Wikimedia Portugal. O objetivo foi alterar as referências para ligações quebradas em artigos na Wikipedia, para passarem a referenciar conteúdos preservados no Arquivo.pt, mantendo assim a informação referenciada acessível aos utilizadores da Wikipedia.
Arquivo.pt preservou as páginas referenciadas nos artigos da Wikipedia Portuguesa
A Wikipedia portuguesa contém cerca de 1 milhão de artigos e em média são editadas 140 páginas por dia.
O Arquivo.pt extraiu automaticamente 14 milhões de ligações a partir das referências em todos os artigos da Wikipedia portuguesa. Destas ligações, observou-se que apenas 620 referenciavam o Arquivo.pt e 744 553 o Internet Archive (5,3%). Note-se que o guia da Wikipedia para criar referências recomenda a publicação de citações para arquivos da web (parâmetro arquivourl/archive-url).
No dia 15 de fevereiro de 2023, o Arquivo.pt recolheu todas as páginas referenciadas em artigos da Wikipedia portuguesa, o que resultou numa nova coleção nomeada EAWP42: Collection of external links from wikipedia using the wikimedia dumps que contém 12 milhões de ficheiros (856 GB).
O principal resultado deste projeto foi a criação de um novo processo automático para extrair e recolher os links externos citados em páginas da Wikipedia portuguesa. Este processo passou a fazer parte da operação das recolhas do Arquivo.pt, sendo realizada uma recolha anual das citações da Wikipedia.
Tentativa de consertar automaticamente os links quebrados nos artigos da Wikipedia
Existem robôs de software que adicionam automaticamente ligações para versões arquivadas em artigos da Wikipedia quando encontram ligações quebradas (ex. Pywikibot, Wayback Medic e InternetArchiveBot).
Foi realizada uma experiência para criar um ArquivoPTBot baseado no InternetArchiveBot porque é oferece poderosas ferramentas de operação e monitorização (ex. Dashboard e Insights) e é mantido pelo Internet Archive: o maior arquivo da web do mundo.
Porém, não foi possível lançar este serviço em produção porque implica alterações no sistema para utilizar o Arquivo.pt como fonte de informação arquivada. Se quiser colaborar para conseguirmos retomar este projeto contacte-nos!
Preservar as referências da Wikipedia está ao seu alcance!
O Arquivo.pt continua comprometido em contribuir para preservar os links das referências da Wikipedia e oferece os seguintes serviços que lhe podem ser úteis.
O CitationSaver permite-lhe submeter o código do artigo da Wikipedia e o Arquivo.pt irá automaticamente extrair os links contidos e, arquivar os conteúdos respectivos.
O SavePageNow permite-lhe arquivar imediatamente uma página no Arquivo.pt, por exemplo, que esteja a ser referenciada num artigo da Wikipedia para que não se perca.
Formações Arquivo.pt/Wikimedia
A Wikimedia Portugal em colaboração com o Arquivo.pt promoveu um conjunto de webinars que visou captar a atenção da comunidade para a preservação dos conteúdos publicados e citados na Wikipedia. Os vídeos e slides destes webinars estão disponíveis: