Última atualização em 6 de Janeiro de 2020 às 17:58
Apresentamos em seguida as principais tecnologias utilizadas no desenvolvimento do sistema de Arquivo.pt.
As tecnologias de software usadas no Arquivo.pt são disponibilizadas principalmente pelo projecto Archive-access que aglutina várias ferramentas gratuitas e de código-aberto úteis para arquivar a web.
Inicialmente, as diversas iniciativas de arquivo da web trabalharam de forma praticamente independente, desenvolvendo os seus próprios sistemas de raiz. Esta situação levou a um grande desperdício de recursos.
Os problemas relacionados com o arquivo da web eram sentidos por todos, mas cada um ocupava-se de tentar resolvê-los sozinho. Ou seja, o mesmo problema era repetidamente resolvido sem necessidade.
Por outro lado, a web não parava de crescer e novos problemas surgiam a cada dia. Tornou-se óbvio que seria necessário juntar esforços para em conjunto tentar arquivar a web com sucesso. Surgiu assim o projecto Archive-access, que tem como principal contribuidor o Internet Archive.
A maior parte do software a ser utilizado no Arquivo.pt é de código-fonte aberto tendo em vista facilitar a preservação da informação arquivada e manutenção do sistema a longo prazo.
- O batedor usa o Heritrix e o módulo Deduplicator;
- A componente PyWb, desenvolvida por Ilya Kreymer, é utilizada para a reprodução das páginas arquivadas;
- Suporte do protocolo memento, para pesquisas entre vários arquivos Web.
- A pesquisa baseia-se no NutchWax e no Lucene;
- O componente de sugestão de pesquisas usa o Hunspell.
- O processamento distribuído dos dados é feito recorrendo ao Hadoop, uma poderosa plataforma para processamento paralelo gratuita suportada pela Apache Software Foundation;
- O sistema operativo usado é principalmente o Linux (CentOS);
- A principal linguagem de programação usada é o Java;
- Como sistema de gestão de base de dados usamos o PostgreSQL;
- Como sistemas de suporte ao desenvolvimento e publicação na web usamos a plataforma GitHub, WordPress, Apache http server, Tomcat, Mediawiki.
Toda esta tecnologia gratuita e de código-aberto constitui uma valiosa base para a criação do Arquivo.pt.
No entanto, as ferramentas específicas para o arquivo da web são tecnologia de ponta e estão em permanente evolução, não constituindo assim produtos “prontos-a-usar”.
Frequentemente, os processos de instalação e operação não estão documentados e existem erros e incompatibilidades entre versões. Pelo que, a decisão de usar ferramentas do Archive-access exige que nos envolvamos na sua melhoria e na resolução dos problemas da preservação da web.
Todo o software desenvolvido pelo Arquivo.pt está disponível como código-aberto livre: