Estudo científico analisa iniciativas de arquivo da Web em todo o mundo

Última atualização em 29 de Setembro de 2017 às 14:35

Esta investigação apresenta uma visão global actualizada das iniciativas de arquivo da Web. A análise das iniciativas permitiu obter estatísticas diversas, como o volume de dados arquivados ou o número de pessoas envolvidas.

O artigo A survey on web archiving initiatives, de Daniel Gomes, João Miranda e Miguel Costa, foi apresentado na International Conference on Theory and Practice of Digital Libraries 2011, em Berlim, na Alemanha.

Arquivo da Web Portuguesa disponibilizado em código aberto

Última atualização em 29 de Setembro de 2017 às 14:37

Código disponível através do repositório do Google Code

A FCCN escreveu mais de 72 000 linhas de código para melhorar as ferramentas disponibilizadas pelo projecto Archive-access.

O código-fonte do sistema que suporta a pesquisa do Arquivo da Web Portuguesa está agora disponível como um projecto de código-aberto gratuito para que possa ser utilizado e melhorado pela comunidade.

Suspensão do serviço rARC

Última atualização em 29 de Setembro de 2017 às 14:46

O projecto rARC encontra-se suspenso desde Julho de 2011.

O projecto de preservação colaborativa rARC foi iniciado em 2007 no âmbito do Arquivo da Web Portuguesa.

Contributos:

Agradecemos a todos os contribuidores a sua colaboração e apoio.

Atingimos os 1 200 milhões de conteúdos arquivados

Última atualização em 29 de Setembro de 2017 às 14:43

Dados de Julho de 2011 referentes ao volume de conteúdos arquivados

  • Atingimos os 1 200 milhões de conteúdos arquivados desde 1996, 79% deles já foram indexados
  • Poupamos 62% de espaço em disco graças ao uso do DeDuplicator nas nossas recolhas diárias
  • Estimamos ter espaço em disco até 2017 para arquivar dados mas memória apenas até 2014 para mantê-los pesquisáveis

O serviço experimental de pesquisa sobre o passado esteve disponível 100% do tempo

Última atualização em 29 de Setembro de 2017 às 14:41

Dados de Abril a Junho de 2011

  • A nossa pesquisa é suportada por um sistema distribuído composto por 111 processos, cada um com múltiplos fios de execução (threads)
  • Temos 61 computadores:
    •  1,8 TB de memória;
    • 122 processadores (488 cores);
    • 348 discos (320 TB)
  • Experimentar pesquisa sobre o passado

93% das pesquisas são respondidas em menos de 5 segundos

Última atualização em 29 de Setembro de 2017 às 14:40

Dados de Abril a Junho de 2011

  • 93% das pesquisas textuais sobre o Arquivo da Web Portuguesa são respondidas em menos de 5 segundos.
  • 95% das pesquisas por endereço são respondidas em menos de 5 segundos.
  • 73% dos cliques são na primeira página de resultados.
  • Escrevemos 72 000 linhas de código para melhorar o sistema de pesquisa original baseado no projecto Archive-access
  • Experimentar pesquisa!

Vídeo acerca do Arquivo da Web Portuguesa

Última atualização em 29 de Setembro de 2017 às 15:05

No dia 9 de Fevereiro de 2011, o Arquivo da Web Portuguesa foi apresentado durante as Jornadas FCCN.

A apresentação focou os seguintes pontos:

  • Motivação para a temática do arquivo da Web
  • Apresentação do estado do projecto Arquivo da Web Portuguesa
  • Serviços disponibilizados à comunidade

Para saber mais:

Usabilidade na prática: publicámos um vídeo acerca da nossa experiência

Última atualização em 20 de Dezembro de 2019 às 17:44

Partilhamos a nossa experiência com a utilização de processos de usabilidade para resolver problemas no desenvolvimento do Arquivo da Web Portuguesa.

A apresentação foca os seguintes pontos:

  • O que é a usabilidade?
  • O Arquivo da Web Portuguesa
  • Problemas de usabilidade e iterações no desenvolvimento
  • Recomendações de usabilidade e concepção centrada no utilizador

Para saber mais:

Evolução das características da Web: publicámos um vídeo sobre um estudo que realizámos

Última atualização em 20 de Dezembro de 2019 às 17:48

Apresentação acerca da evolução das características da Web, com base num estudo científico realizado pelo Arquivo da Web Portuguesa.

A apresentação foca os seguintes pontos:

  • A Web
  • O arquivo da Web e os batedores
  • As características da Web e a sua evolução em 5 anos
  • A importância do estudo da evolução da Web no desenho de ferramentas relacionadas com a Web

Para saber mais:

Colecção de 1996 a 2000 já pode ser pesquisada

Última atualização em 29 de Setembro de 2017 às 14:50

Uma colecção de conteúdos do domínio .PT recolhidos entre 1996 e 2000, cedida pelo Internet Archive, foi integrada com sucesso no Arquivo da Web Portuguesa.

Exemplos de páginas da colecção:

Internet Archive é uma organização sem fins lucrativos fundada em 1996 e sediada em São Francisco. Foi idealizada como uma grande biblioteca da Internet e disponibiliza colecções de conteúdos digitais, incluindo sítios Web, música e livros.