Ferramentas Pessoais
  •  
Você está aqui: Entrada Sobre Funcionamento Tecnologia

Tecnologia

Apresentamos em seguida as principais tecnologias utilizadas no desenvolvimento do sistema de Arquivo.pt.

As tecnologias de software usadas no Arquivo.pt são disponibilizadas principalmente pelo projecto Archive-access que aglutina várias ferramentas gratuitas e de código-aberto úteis para arquivar a web.

Inicialmente, as diversas iniciativas de arquivo da web trabalharam de forma praticamente independente, desenvolvendo os seus próprios sistemas de raiz. Esta situação levou a um grande desperdício de recursos.

Os problemas relacionados com o arquivo da web eram sentidos por todos, mas cada um ocupava-se de tentar resolvê-los sozinho. Ou seja, o mesmo problema era repetidamente resolvido sem necessidade.

Por outro lado, a web não parava de crescer e novos problemas surgiam a cada dia. Tornou-se óbvio que seria necessário juntar esforços para em conjunto tentar arquivar a web com sucesso. Surgiu assim o projecto Archive-access, que tem como principal contribuidor o Internet Archive.

A maior parte do software a ser utilizado no Arquivo.pt é de código-fonte aberto tendo em vista facilitar a preservação da informação arquivada e manutenção do sistema a longo prazo.

  • O batedor usa o Heritrix e o módulo Deduplicator;
  • A componente PyWb, desenvolvida por Ilya Kreymer, é utilizada para a reprodução das páginas arquivadas;
  • Suporte do protocolo memento, para pesquisas entre vários arquivos Web.
  • A pesquisa baseia-se no NutchWax e no Lucene;
  • O componente de sugestão de pesquisas usa o Hunspell.
  • O processamento distribuído dos dados é feito recorrendo ao Hadoop, uma poderosa plataforma para processamento paralelo gratuita suportada pela Apache Software Foundation;
  • O sistema operativo usado é principalmente o Linux (CentOS);
  • A principal linguagem de programação usada é o Java;
  • Como sistema de gestão de base de dados usamos o PostgreSQL;
  • Como sistemas de suporte ao desenvolvimento e publicação na web usamos a plataforma GitHub, Plone, Apache http server, Tomcat, Mediawiki e o Zope.

Toda esta tecnologia gratuita e de código-aberto constitui uma valiosa base para a criação do Arquivo.pt.

No entanto, as ferramentas específicas para o arquivo da web são tecnologia de ponta e estão em permanente evolução, não constituindo assim produtos "prontos-a-usar".

Frequentemente, os processos de instalação e operação não estão documentados e existem erros e incompatibilidades entre versões. Pelo que, a decisão de usar ferramentas do Archive-access exige que nos envolvamos na sua melhoria e na resolução dos problemas da preservação da web.

Todo o software desenvolvido pelo Arquivo.pt está disponível como código-aberto livre:

 

Partilhar | |