Vaga para administrador de sistemas do Arquivo da Web Portuguesa

O Arquivo da Web Portuguesa (www.arquivo.pt) necessita de contratar um administrador de sistemas distribuídos de larga escala.

O administrador de sistemas que agora procuramos para integrar a nossa equipa terá como responsabilidade desenvolver e manter a qualidade dos resultados fornecidos por um sistema de recolha, pesquisa e acesso distribuído por mais de 60 servidores.

Requisitos

  • Licenciatura pré-Bolonha ou Mestrado em Engenharia Informática.
  • Experiência em desenho, operação e administração de sistemas distribuídos de larga-escala em produção e expostos na Internet.
  • Conhecimentos das tecnologias Apache HTTP Server, Apache Tomcat, Java e Linux.
  • Experiência em tecnologias de monitorização e gestão de sistemas distribuídos (ex. Nagios, Cacti, Ganglia, Rex, Puppet, Chef, SpaceWalk, Jenkins).

Preferências

  • Experiência em tecnologias de processamento distribuído (ex. Hadoop, HBase).
  • Experiência em tecnologias de pesquisa de informação (ex. Apache Solr, Lucene);
  • Experiência em tecnologias de arquivo da web (ex. Heritrix, Wayback Machine, NutchWAX);
  • Experiência em plataformas de gestão de software (ex. Selenium, SonarCube, Ant, Maven, Git, SVN).
  • Sistemas de balanceamento de carga e redundância (ex. LVS).

Agradecemos ajuda na divulgação desta oferta.

Share on FacebookTweet about this on TwitterShare on LinkedInShare on Google+Email this to someone

É agora mais fácil descarregar todo o software do AWP.

Todo o código-fonte, binários e documentação podem ser descarregados em ficheiros comprimidos.

O software desenvolvido para criar o Arquivo da Web Portuguesa está disponível como um projecto gratuito de código aberto alojado no Google Code denominado pwa-technologies.

Com o objectivo de facilitar a disseminação e preservação deste software foram gerados ficheiros de exportação (dumps) que estão disponíveis nas seguintes localizações alternativas:

Sintam-se livres de replicar e melhorar este código-fonte para que no futuro exista acesso à nossa memória digital.

Share on FacebookTweet about this on TwitterShare on LinkedInShare on Google+Email this to someone

O Arquivo da Web Portuguesa aderiu ao International Internet Preservation Consortium

A Fundação para a Computação Científica Nacional, como mentora do Arquivo da Web Portuguesa, aderiu ao IIPC.

O International Internet Preservation Consortium (IIPC) é um consórcio mundial composto por 44 organizações de 25 países que tem como missão obter, preservar e manter acessível o conhecimento disponível na Internet para as gerações futuras.

Este consórcio tem desenvolvido ferramentas, normas e boas práticas para arquivar a web e promovido os  serviços disponibilizados pelos arquivos da web como recursos para investigação científica e preservação de herança cultural.

O Arquivo da Web Portuguesa é um serviço inovador baseado em tecnologia de ponta que requer investimento permanente em Investigação e Desenvolvimento.

A adesão ao IIPC é fundamental para estabelecer parcerias internacionais e permitir o desenvolvimento colaborativo de ferramentas usadas pelo Arquivo da Web Portuguesa, melhorando assim a qualidade do serviço prestado.

Para saber mais:

Share on FacebookTweet about this on TwitterShare on LinkedInShare on Google+Email this to someone

Ipres’2013: Cinco novas comunicações acerca do Arquivo da Web Portuguesa

O Arquivo da Web Portuguesa (AWP) foi divulgado durante a conferência científica internacional na área de preservação digital “Ipres’2013 – 10th International Conference on Preservation of Digital Objects” que decorreu em Lisboa de 2 a 6 de Setembro.

Share on FacebookTweet about this on TwitterShare on LinkedInShare on Google+Email this to someone

Como criar um arquivo da web pesquisável com mais de mil milhões de conteúdos

O Arquivo da Web Portuguesa publicou um estudo onde apresenta uma visão geral das aprendizagens obtidas no desenvolvimento do Arquivo da Web Portuguesa, com ênfase na aquisição de dados da Web, ordenação de resultados de pesquisa e desenho de interfaces de utilizador.

Diversas organizações em todo o mundo lutam pela preservação da informação recolhida da Web antes que ela desapareça. Contudo, os utilizadores esperam que os mecanismos de acesso às já vastas coleções de informação histórica detidas pelos arquivos da Web sejam eficientes e eficazes. O Arquivo da Web Portuguesa é o maior arquivo da Web com pesquisa por texto integral disponível ao público. Permite pesquisar em mais de 1,2 mil milhões de conteúdos arquivados da Web desde 1996.

O artigo Creating a Billion-Scale Searchable Web Archive foi apresentado na Temporal Web Analytics Workshop 2013, no Rio de Janeiro, no Brasil.

Share on FacebookTweet about this on TwitterShare on LinkedInShare on Google+Email this to someone

WWW 2013: Pesquise no passado com o Arquivo da Web Portuguesa

O Arquivo da Web Portuguesa (AWP) está na World Wide Web Conference (WWW 2013) no Rio de Janeiro, no Brasil, com uma sessão de demonstração.

sessão de demonstração na WWW 2013 apresenta o AWP, que permite pesquisar mais de 1,2 mil milhões de ficheiros arquivados entre 1996 e 2012.

Share on FacebookTweet about this on TwitterShare on LinkedInShare on Google+Email this to someone

O direito à memória na Internet.

A Internet assumiu o papel de meio de comunicação fundamental nas sociedades modernas. Em particular, as páginas da Web têm vindo a substituir a imprensa porque permitem publicar informação de uma forma simples, rápida e económica.

Não é de admirar que a Web seja cada vez mais usada como principal meio de comunicação. Desde os jornais que migram para versões exclusivamente online, às pessoas que partilham as suas fotografias acabadas de tirar directamente na Web.

Porém, a Web foi originalmente concebida para ser um meio de comunicação entre cientistas e não o principal meio de publicação das sociedades. Ou seja, foi desenhada para substituir meios de comunicação temporária como o telefone e acabou por ser usada para substituir livros, jornais ou revistas.

O problema é que a informação publicada na Web é pouco duradoura. Após apenas 1 ano, mais de 80% dos conteúdos publicados já desapareceram ou foram alterados.

A Humanidade nunca produziu e teve acesso a tanta informação. E no entanto, retém tão pouca.

Arquivos da Web permitem aceder ao passado

Os arquivos da Web recolhem, arquivam e preservam informação publicada na Web. No futuro, a informação neles arquivada fará a diferença entre a continuação da História e a ocorrência de uma Idade das Trevas, durante a qual, a maioria da informação passou a ser digital, mas a sua preservação manteve-se seguindo as práticas instituídas centenas de anos atrás.

A título de exemplo, em 2003 o estado português extinguiu a versão em papel do Diário da República, passando a existir apenas a versão online. Esta decisão poupou recursos e facilitou o acesso dos cidadãos à legislação. Contudo, são impressas 4 versões em papel exclusivamente para serem entregues na Biblioteca da Assembleia da República e na Biblioteca Nacional. As leis são escritas em formato digital, publicadas em formato digital e impressas em papel para depósito.

Em Portugal, o Arquivo da Web Portuguesa visa arquivar e preservar conteúdos da Web relevantes para a comunidade portuguesa. Este projecto destaca-se por ter desenvolvido um serviço de pesquisa textual sobre conteúdos do passado, disponível experimentalmente em http://www.arquivo.pt.

Existe alguma controvérsia acerca do facto de os arquivos da Web reproduzirem informação publicada sem o consentimento expresso dos seus autores. A interpretação legal desta questão varia consoante as fronteiras dos países. Fronteiras estas que não existem na Internet. Contudo, os arquivos da Web têm respeito pelos interesses dos autores. Por exemplo, através da introdução de períodos de embargo de acesso para que não ocorra competição de visitas com os sites originais ou bloqueio de acesso a conteúdos arquivados a pedido dos autores.

Na realidade, os arquivos da Web nacionais ou sem fins lucrativos prestam um serviço gratuito, complexo e de grande utilidade para os autores. São raríssimos os casos de autores que se sentiram lesados pela acção dos arquivos da Web.

Os arquivos da Web apenas poderão ser úteis ao cidadão comum se mantiverem o nível de acesso original da informação publicada. Ou seja, se uma página estava publicamente acessível na Web, a sua cópia arquivada deverá também continuar publicamente acessível na Web.

“Aqueles que não se lembram do passado estão condenados a repeti-lo.”, George Santayana

A pergunta que surge é se o cidadão comum alguma vez teve acesso ao passado?

No máximo, o cidadão comum teve acesso à informação escrita nos documentos oficiais que relatam a História.

Como qualquer historiador sabe, a História oficial é escrita e reescrita de acordo com as conjunturas sociais e políticas.

O passado está relatado nos documentos escritos na primeira pessoa. Documentos não controlados, não revistos, não preservados. Serão as cartas, os blocos de notas, os blogs, os fóruns.

Arrisco-me a dizer que pela primeira vez na História da Humanidade, os arquivos da Web concedem ao cidadão comum o acesso ao passado. Não apenas à História acerca dos grandes acontecimentos da Humanidade ou de uma cultura, mas do seu próprio passado enquanto indivíduo.

As pequenas coisas que fazem parte do passado e das memórias de uma pessoa, raramente são relatadas nos livros de História. Perguntaram-me: “Qual a importância de preservar um classificado com uma imagem de uma bicicleta para venda?”. Respondi: “Se tiver sido a primeira bicicleta de alguém, será uma memória valiosa para essa pessoa”.

E destas pequenas coisas sem importância os nossos descendentes poderão descobrir quem nós realmente fomos.

Daniel Gomes
Coordenador do Arquivo da Web Portuguesa

Ver artigo no jornal Público

Share on FacebookTweet about this on TwitterShare on LinkedInShare on Google+Email this to someone

Novo video “Arquivo da Web Portuguesa: Uma visão geral”

O Arquivo da Web Portuguesa permite pesquisar e aceder a informação publicada na Internet e que já não se encontra disponível nos seus sites originais.

Este vídeo apresenta uma visão geral acerca dos serviços disponibilizados pelo Arquivo da Web Portuguesa.

Share on FacebookTweet about this on TwitterShare on LinkedInShare on Google+Email this to someone

Novo video “O Arquivo da Web Portuguesa e o acesso aberto ao conhecimento científico”

Arquivar a web contribui para o acesso aberto à ciência.

Cada vez existem mais publicações científicas em acesso aberto que são exclusivamente disseminadas através da Web. É importante preservar este conhecimento para que possa vir a ser útil no futuro.

Este vídeo debate a importância de arquivar a web para contribuir para o acesso aberto ao conhecimento científico.

Share on FacebookTweet about this on TwitterShare on LinkedInShare on Google+Email this to someone