Tecnologia

Apresentamos em seguida as principais tecnologias utilizadas no desenvolvimento do sistema de Arquivo.pt.

As tecnologias de software usadas no Arquivo.pt são disponibilizadas principalmente pelo projecto Archive-access que aglutina várias ferramentas gratuitas e de código-aberto úteis para arquivar a web.

Inicialmente, as diversas iniciativas de arquivo da web trabalharam de forma praticamente independente, desenvolvendo os seus próprios sistemas de raiz. Esta situação levou a um grande desperdício de recursos.

Os problemas relacionados com o arquivo da web eram sentidos por todos, mas cada um ocupava-se de tentar resolvê-los sozinho. Ou seja, o mesmo problema era repetidamente resolvido sem necessidade.

Por outro lado, a web não parava de crescer e novos problemas surgiam a cada dia. Tornou-se óbvio que seria necessário juntar esforços para em conjunto tentar arquivar a web com sucesso. Surgiu assim o projecto Archive-access, que tem como principal contribuidor o Internet Archive.

A maior parte do software a ser utilizado no Arquivo.pt é de código-fonte aberto tendo em vista facilitar a preservação da informação arquivada e manutenção do sistema a longo prazo.

  • O batedor usa o Heritrix e o módulo Deduplicator;
  • A componente PyWb, desenvolvida por Ilya Kreymer, é utilizada para a reprodução das páginas arquivadas;
  • Suporte do protocolo memento, para pesquisas entre vários arquivos Web.
  • A pesquisa baseia-se no NutchWax e no Lucene;
  • O componente de sugestão de pesquisas usa o Hunspell.
  • O processamento distribuído dos dados é feito recorrendo ao Hadoop, uma poderosa plataforma para processamento paralelo gratuita suportada pela Apache Software Foundation;
  • O sistema operativo usado é principalmente o Linux (CentOS);
  • A principal linguagem de programação usada é o Java;
  • Como sistema de gestão de base de dados usamos o PostgreSQL;
  • Como sistemas de suporte ao desenvolvimento e publicação na web usamos a plataforma GitHub, WordPress, Apache http server, Tomcat, Mediawiki.

Toda esta tecnologia gratuita e de código-aberto constitui uma valiosa base para a criação do Arquivo.pt.

No entanto, as ferramentas específicas para o arquivo da web são tecnologia de ponta e estão em permanente evolução, não constituindo assim produtos “prontos-a-usar”.

Frequentemente, os processos de instalação e operação não estão documentados e existem erros e incompatibilidades entre versões. Pelo que, a decisão de usar ferramentas do Archive-access exige que nos envolvamos na sua melhoria e na resolução dos problemas da preservação da web.

Todo o software desenvolvido pelo Arquivo.pt está disponível como código-aberto livre: