Relatório técnico analisa funcionalidade de sugestão de pesquisa para arquivos da Web

Última atualização em 29 de Setembro de 2017 às 14:18

As expressões de pesquisa com erros ortográficos são um problema comum nos motores de busca e nos arquivos da Web. Este trabalho é o resultado do desenvolvimento e integração de uma funcionalidade de correção e sugestão de pesquisa no Arquivo da Web Portuguesa.

A integração das sugestões de pesquisa na interface do Arquivo da Web Portuguesa permite melhorar a experiência dos utilizadores.

I. P. Santarém, 7 e 8 de Fev.: conheça melhor o Arquivo da Web Portuguesa

Última atualização em 4 de Agosto de 2024 às 16:39

Converse pessoalmente com a nossa equipa.

O Arquivo da Web Portuguesa será apresentado durante as Jornadas FCCN nos dias 7 e 8 de Fevereiro de 2012, através das seguintes atividades:

Arquivo da Web Portuguesa disponível via OpenSearch

Última atualização em 29 de Setembro de 2017 às 14:31

O Arquivo da Web Portuguesa disponibiliza uma interface de programação que permite pesquisar através do protocolo OpenSearch.

Esta interface facilita o desenvolvimento de ferramentas que utilizem as funcionalidades de pesquisa do Arquivo. Os resultados das pesquisas são devolvidos em formato XML (RSS 2.0)

Estudo científico analisa iniciativas de arquivo da Web em todo o mundo

Última atualização em 9 de Agosto de 2024 às 15:15

Esta investigação apresenta uma visão global actualizada das iniciativas de arquivo da Web. A análise das iniciativas permitiu obter estatísticas diversas, como o volume de dados arquivados ou o número de pessoas envolvidas.

O artigo A survey on web archiving initiatives, de Daniel Gomes, João Miranda e Miguel Costa, foi apresentado na International Conference on Theory and Practice of Digital Libraries 2011, em Berlim, na Alemanha.

Arquivo da Web Portuguesa disponibilizado em código aberto

Última atualização em 29 de Setembro de 2017 às 14:37

Código disponível através do repositório do Google Code

A FCCN escreveu mais de 72 000 linhas de código para melhorar as ferramentas disponibilizadas pelo projecto Archive-access.

O código-fonte do sistema que suporta a pesquisa do Arquivo da Web Portuguesa está agora disponível como um projecto de código-aberto gratuito para que possa ser utilizado e melhorado pela comunidade.

Suspensão do serviço rARC

Última atualização em 29 de Setembro de 2017 às 14:46

O projecto rARC encontra-se suspenso desde Julho de 2011.

O projecto de preservação colaborativa rARC foi iniciado em 2007 no âmbito do Arquivo da Web Portuguesa.

Contributos:

Agradecemos a todos os contribuidores a sua colaboração e apoio.

Atingimos os 1 200 milhões de conteúdos arquivados

Última atualização em 29 de Setembro de 2017 às 14:43

Dados de Julho de 2011 referentes ao volume de conteúdos arquivados

  • Atingimos os 1 200 milhões de conteúdos arquivados desde 1996, 79% deles já foram indexados
  • Poupamos 62% de espaço em disco graças ao uso do DeDuplicator nas nossas recolhas diárias
  • Estimamos ter espaço em disco até 2017 para arquivar dados mas memória apenas até 2014 para mantê-los pesquisáveis

O serviço experimental de pesquisa sobre o passado esteve disponível 100% do tempo

Última atualização em 29 de Setembro de 2017 às 14:41

Dados de Abril a Junho de 2011

  • A nossa pesquisa é suportada por um sistema distribuído composto por 111 processos, cada um com múltiplos fios de execução (threads)
  • Temos 61 computadores:
    •  1,8 TB de memória;
    • 122 processadores (488 cores);
    • 348 discos (320 TB)
  • Experimentar pesquisa sobre o passado