Forneça conteúdos históricos da Web

Última atualização em 21 de Junho de 2021 às 12:10

Contribua para a preservação da história digital portuguesa fornecendo conteúdos históricos que tenha em sua posse.

O Arquivo.pt realiza recolhas periódicas desde Janeiro de 2008.

A única maneira de conseguirmos preservar conteúdos publicados em data anterior, é obtendo-os a partir de entidades externas que os tenham guardado ao longo do tempo.

Caso detenha conteúdos de interesse para a comunidade portuguesa e pretenda fornecê-los ao Arquivo.pt, contribuindo assim para a sua preservação, por favor contacte-nos.

O Arquivo.pt considera que todos os conteúdos publicados sob o domínio .PT pertencem à Web portuguesa e como tal serão arquivados. No entanto, poderão ser abertas excepções para conteúdos de manifesto interesse que estejam alojados sob outros domínios

Devo fornecer apenas conteúdos antigos?

Estamos interessados em todos os conteúdos que já não estejam disponíveis na Web, independentemente da sua data de publicação.

A Web é extremamente dinâmica e a informação nela publicada “passa à história” rapidamente.

A partir do momento que um conteúdo deixa de estar disponível publicamente na Web, torna-se impossível arquivá-lo.

Assim sendo, mesmo realizando recolhas periódicas da Web portuguesa, existem conteúdos interessantes que não conseguimos arquivar porque deixam de estar disponíveis antes de conseguirmos recolhê-los.

Os conteúdos que nos possa vir a fornecer podem ser, por exemplo, cópias de segurança que tenha feito do seu sítio web ao longo do tempo.

Como fornecer os conteúdos?

O Arquivo.pt guarda os conteúdos arquivados em formato ARC e idealmente os conteúdos seriam fornecidos neste formato.

No entanto, é natural que a maioria das pessoas não o utilize para guardar os seus ficheiros, pelo que aceitamos conteúdos em qualquer formato.

Posteriormente, a nossa equipa encarregar-se-á de realizar a conversão dos ficheiros fornecidos para formato ARC, para que possam ser integrados no sistema.

Contudo, para facilitar esta tarefa agradecemos que seja fornecida a máxima informação adicional possível acerca dos conteúdos, principalmente:

  • o endereço do sítio web. No caso de serem vários, agrupar os conteúdos de cada sítio web em directorias;
  • o endereço original de cada conteúdo (URL). Se estiver a fornecer uma cópia local dos conteúdos de um sítio web mantenha os nomes originais dos ficheiros. Caso se tratem de conteúdos que gravou a partir da Web forneça os seus endereços originais. Poderá incluir um ficheiro com a correspondência entre os nomes dos ficheiros e os seus endereços originais (ex. C:\fccn\index.html, http://www.fccn.pt);
  • a data de publicação de cada conteúdo. Indicar as datas em que os conteúdos foram publicados ou em que foram guardados, mesmo que sejam aproximadas. Caso esteja a gravar conteúdos de um computador para um DVD por exemplo, tenha o cuidado de manter as datas originais dos ficheiros;
  • o tipo de cada conteúdo (MIME). Tenha o cuidado de manter as extensões originais dos ficheiros (ex. .gif, .html, .jpg). Se possível envie-nos os cabeçalhos HTTP completos de cada conteúdo. É particularmente importante fornecer o tipo para os conteúdos que tenham sido gerados dinamicamente e não contenham extensões no nome dos ficheiros.

Software para conversão para formato ARC/WARC

Software com desenvolvimento do Arquivo.pt

  • Httrack2Arc: Ferramenta para converter recolhas feitas com o Httrack para ficheiros no formato Arc.
  • Roteiro2Arc: Ferramenta usada para converter para formato ARC os ficheiros no CD-rom do livro “Novo Roteiro Prático da Internet” por José Magalhães.
  • AWPJornaisIntegration: Projecto integrar coleção de recolhas de jornais online portugueses antigos.

Software com desenvolvimento externo

  • WARCIO: Ferramenta para converter ficheiros ARC em WARC desenvolvida por Ilya Kreymer.
  • warcit: Ferramenta do projeto Webrecorder para converter directórios em disco de documentos web (geralmente HTML, activos web e quaisquer outros ficheiros de dados) num ficheiro web padrão ISO (WARC).
  • har2warc: Ferramenta do projeto Webrecorder que converte ficheiros HTTP (HAR) em ficheiros padrão ISO (WARC).

Lista de contribuidores

Expressamos o nosso agradecimento às seguintes entidades pelo fornecimento de conteúdos para o Arquivo.pt:

  • Internet Memory Foundation: coleção histórica doada por Julien Masanès que liderou o projecto até ao seu encerramento em 2018 para ser integrada e pesquisável no Arquivo.pt (142 milhões de ficheiros; 6,3 TB)
  • Anat Ben-David: recolheu e doou a colleção chamada “Israblog”, que contém blogs israleitas, entre maio de 2018 janeiro de 2019 para ser pesquisável no Arquivo.pt (24 520 849 milhões de ficheiros; 0,55 TB)
  • Rui Bebiano: doou os ficheiros mais antigos do Website da revista online NON! Cultura e Intervenção, de que foi fundador, em Coimbra; os ficheiros foram convertidos e integrados no Arquivo.pt em 2020 (8 303 ficheiros)
  • Dinis Manuel Alves: partilhou um compêndio de peças jornalísticas da sua autoria publicadas na Web portuguesa entre 1997 e 2003 (4 000 ficheiros; 0,000075 TB; 2000-2007)
  • José Magalhães: autor do livro “Novo roteiro prático da Internet : o ciberespaço ao alcance de todos” que continha um CD-ROM com conteúdos da Web portuguesa em 1996 (75 174 ficheiros; 0,000316 TB; 1996)
  • Biblioteca Nacional: conteúdos arquivados em 2005 no âmbito do projecto RECOLHA (14 373 817 ficheiros; 0,165 TB; 2004-2005)
  • Grupo XLDB da Universidade de Lisboa: fornecimento e conversão para formato ARC de 5 das 10 recolhas da Web portuguesa que foram realizadas entre 2002 e 2006 no âmbito do projecto tumba! (37 000 000 ficheiros; 0,360 TB; 2005-2006)
  • Internet Archive: fornecimento de 1,9 TB de conteúdos recolhidos a partir do domínio .PT entre 1996 e 2007 (123 889 349 ficheiros; 1,948 TB; 1996-2007)
  • Helder Guerreiro: recolha de blogues da plataforma de alojamento weblog.com.pt antes de ser encerrada em 2012 (563 350 ficheiros; 0,026 TB; 2012)

Não hesite em contactar-nos

O fornecimento e integração de conteúdos externos é um processo com alguma complexidade.

Estamos ao dispor para esclarecer qualquer dúvida. Não hesite em contactar-nos.

Link curto para esta página: arquivo.pt/doar