Arquivo da Web Portuguesa disponível via OpenSearch

Última atualização em 29 de Setembro de 2017 às 14:31

O Arquivo da Web Portuguesa disponibiliza uma interface de programação que permite pesquisar através do protocolo OpenSearch.

Esta interface facilita o desenvolvimento de ferramentas que utilizem as funcionalidades de pesquisa do Arquivo. Os resultados das pesquisas são devolvidos em formato XML (RSS 2.0)

Estudo científico analisa iniciativas de arquivo da Web em todo o mundo

Última atualização em 29 de Setembro de 2017 às 14:35

Esta investigação apresenta uma visão global actualizada das iniciativas de arquivo da Web. A análise das iniciativas permitiu obter estatísticas diversas, como o volume de dados arquivados ou o número de pessoas envolvidas.

O artigo A survey on web archiving initiatives, de Daniel Gomes, João Miranda e Miguel Costa, foi apresentado na International Conference on Theory and Practice of Digital Libraries 2011, em Berlim, na Alemanha.

Arquivo da Web Portuguesa disponibilizado em código aberto

Última atualização em 29 de Setembro de 2017 às 14:37

Código disponível através do repositório do Google Code

A FCCN escreveu mais de 72 000 linhas de código para melhorar as ferramentas disponibilizadas pelo projecto Archive-access.

O código-fonte do sistema que suporta a pesquisa do Arquivo da Web Portuguesa está agora disponível como um projecto de código-aberto gratuito para que possa ser utilizado e melhorado pela comunidade.

Suspensão do serviço rARC

Última atualização em 29 de Setembro de 2017 às 14:46

O projecto rARC encontra-se suspenso desde Julho de 2011.

O projecto de preservação colaborativa rARC foi iniciado em 2007 no âmbito do Arquivo da Web Portuguesa.

Contributos:

Agradecemos a todos os contribuidores a sua colaboração e apoio.

Atingimos os 1 200 milhões de conteúdos arquivados

Última atualização em 29 de Setembro de 2017 às 14:43

Dados de Julho de 2011 referentes ao volume de conteúdos arquivados

  • Atingimos os 1 200 milhões de conteúdos arquivados desde 1996, 79% deles já foram indexados
  • Poupamos 62% de espaço em disco graças ao uso do DeDuplicator nas nossas recolhas diárias
  • Estimamos ter espaço em disco até 2017 para arquivar dados mas memória apenas até 2014 para mantê-los pesquisáveis

O serviço experimental de pesquisa sobre o passado esteve disponível 100% do tempo

Última atualização em 29 de Setembro de 2017 às 14:41

Dados de Abril a Junho de 2011

  • A nossa pesquisa é suportada por um sistema distribuído composto por 111 processos, cada um com múltiplos fios de execução (threads)
  • Temos 61 computadores:
    •  1,8 TB de memória;
    • 122 processadores (488 cores);
    • 348 discos (320 TB)
  • Experimentar pesquisa sobre o passado

93% das pesquisas são respondidas em menos de 5 segundos

Última atualização em 29 de Setembro de 2017 às 14:40

Dados de Abril a Junho de 2011

  • 93% das pesquisas textuais sobre o Arquivo da Web Portuguesa são respondidas em menos de 5 segundos.
  • 95% das pesquisas por endereço são respondidas em menos de 5 segundos.
  • 73% dos cliques são na primeira página de resultados.
  • Escrevemos 72 000 linhas de código para melhorar o sistema de pesquisa original baseado no projecto Archive-access
  • Experimentar pesquisa!

Vídeo acerca do Arquivo da Web Portuguesa

Última atualização em 29 de Setembro de 2017 às 15:05

No dia 9 de Fevereiro de 2011, o Arquivo da Web Portuguesa foi apresentado durante as Jornadas FCCN.

A apresentação focou os seguintes pontos:

  • Motivação para a temática do arquivo da Web
  • Apresentação do estado do projecto Arquivo da Web Portuguesa
  • Serviços disponibilizados à comunidade

Para saber mais: