Arquivo da Web Portuguesa disponibilizado em código aberto

Última atualização em 29 de Setembro de 2017 às 14:37

Código disponível através do repositório do Google Code

A FCCN escreveu mais de 72 000 linhas de código para melhorar as ferramentas disponibilizadas pelo projecto Archive-access.

O código-fonte do sistema que suporta a pesquisa do Arquivo da Web Portuguesa está agora disponível como um projecto de código-aberto gratuito para que possa ser utilizado e melhorado pela comunidade.

Suspensão do serviço rARC

Última atualização em 29 de Setembro de 2017 às 14:46

O projecto rARC encontra-se suspenso desde Julho de 2011.

O projecto de preservação colaborativa rARC foi iniciado em 2007 no âmbito do Arquivo da Web Portuguesa.

Contributos:

Agradecemos a todos os contribuidores a sua colaboração e apoio.

Atingimos os 1 200 milhões de conteúdos arquivados

Última atualização em 29 de Setembro de 2017 às 14:43

Dados de Julho de 2011 referentes ao volume de conteúdos arquivados

  • Atingimos os 1 200 milhões de conteúdos arquivados desde 1996, 79% deles já foram indexados
  • Poupamos 62% de espaço em disco graças ao uso do DeDuplicator nas nossas recolhas diárias
  • Estimamos ter espaço em disco até 2017 para arquivar dados mas memória apenas até 2014 para mantê-los pesquisáveis

O serviço experimental de pesquisa sobre o passado esteve disponível 100% do tempo

Última atualização em 29 de Setembro de 2017 às 14:41

Dados de Abril a Junho de 2011

  • A nossa pesquisa é suportada por um sistema distribuído composto por 111 processos, cada um com múltiplos fios de execução (threads)
  • Temos 61 computadores:
    •  1,8 TB de memória;
    • 122 processadores (488 cores);
    • 348 discos (320 TB)
  • Experimentar pesquisa sobre o passado

93% das pesquisas são respondidas em menos de 5 segundos

Última atualização em 29 de Setembro de 2017 às 14:40

Dados de Abril a Junho de 2011

  • 93% das pesquisas textuais sobre o Arquivo da Web Portuguesa são respondidas em menos de 5 segundos.
  • 95% das pesquisas por endereço são respondidas em menos de 5 segundos.
  • 73% dos cliques são na primeira página de resultados.
  • Escrevemos 72 000 linhas de código para melhorar o sistema de pesquisa original baseado no projecto Archive-access
  • Experimentar pesquisa!

Vídeo acerca do Arquivo da Web Portuguesa

Última atualização em 29 de Setembro de 2017 às 15:05

No dia 9 de Fevereiro de 2011, o Arquivo da Web Portuguesa foi apresentado durante as Jornadas FCCN.

A apresentação focou os seguintes pontos:

  • Motivação para a temática do arquivo da Web
  • Apresentação do estado do projecto Arquivo da Web Portuguesa
  • Serviços disponibilizados à comunidade

Para saber mais:

Usabilidade na prática: publicámos um vídeo acerca da nossa experiência

Última atualização em 20 de Dezembro de 2019 às 17:44

Partilhamos a nossa experiência com a utilização de processos de usabilidade para resolver problemas no desenvolvimento do Arquivo da Web Portuguesa.

A apresentação foca os seguintes pontos:

  • O que é a usabilidade?
  • O Arquivo da Web Portuguesa
  • Problemas de usabilidade e iterações no desenvolvimento
  • Recomendações de usabilidade e concepção centrada no utilizador

Para saber mais:

Evolução das características da Web: publicámos um vídeo sobre um estudo que realizámos

Última atualização em 20 de Dezembro de 2019 às 17:48

Apresentação acerca da evolução das características da Web, com base num estudo científico realizado pelo Arquivo da Web Portuguesa.

A apresentação foca os seguintes pontos:

  • A Web
  • O arquivo da Web e os batedores
  • As características da Web e a sua evolução em 5 anos
  • A importância do estudo da evolução da Web no desenho de ferramentas relacionadas com a Web

Para saber mais:

Colecção de 1996 a 2000 já pode ser pesquisada

Última atualização em 29 de Setembro de 2017 às 14:50

Uma colecção de conteúdos do domínio .PT recolhidos entre 1996 e 2000, cedida pelo Internet Archive, foi integrada com sucesso no Arquivo da Web Portuguesa.

Exemplos de páginas da colecção:

Internet Archive é uma organização sem fins lucrativos fundada em 1996 e sediada em São Francisco. Foi idealizada como uma grande biblioteca da Internet e disponibiliza colecções de conteúdos digitais, incluindo sítios Web, música e livros.

Estudo científico analisa comportamento dos utilizadores num arquivo da Web

Última atualização em 29 de Setembro de 2017 às 15:00

Este trabalho apresenta uma caracterização do comportamento dos utilizadores ao pesquisarem num arquivo da Web. A análise dos registos de pesquisas permitiu obter estatísticas diversas, relacionadas, por exemplo, com as expressões de busca utilizadas ou os resultados seguidos.

O artigo Characterizing Search Behavior in Web Archives, de Miguel Costa e Mário J. Silva, foi apresentado na Temporal Web Analytics Workshop 2011, em Hyderabad, Índia.