Arquitectura

Última atualização em 20 de Julho de 2020 às 10:23

Descreve sumariamente a arquitectura e funcionamento do sistema de arquivo.

Funcionamento geral

O funcionamento dos arquivos da web é semelhante ao dos motores de busca como o Google, dividindo-se em 3 etapas principais:

  • Recolha: a partir de um conjunto inicial de endereços de sítios da Web (raízes, seeds), inicia-se um processo automático, realizado ciclicamente, que consiste em:
    • recolher um conteúdo da Web e armazená-lo em disco;
    • extrair endereços para outras páginas a partir das ligações;
    • inserir os novos endereços descobertos para recolha.
  • Indexação: terminada a recolha, toda a informação é processada para construir os índices que permitirão realizar pesquisas rápidas.
  • Pesquisa e Acesso: após criados os índices, são disponibilizados serviços de pesquisa e acesso à informação recolhida da Web.

Os sistemas que executam as tarefas de recolha chamam-se batedores ou crawlers.

A principal diferença entre os motores de busca e os arquivos da web é que os arquivos têm a preocupação adicional de preservar a informação, mantendo-a acessível ao longo do tempo.

Para saber mais consulte as nossas publicações técnicas e científicas

  • Creating a Billion-Scale Searchable Web Archive
  • PhD Thesis: Information Search in Web Archives
  • Publicações