Última atualização em 13 de Abril de 2021 às 11:38
O funcionamento dos arquivos da web é semelhante ao dos motores de busca como o Google, dividindo-se em 3 etapas principais:
- Recolha: a partir de um conjunto inicial de endereços de sítios da Web (raízes, seeds), inicia-se um processo automático, realizado ciclicamente, que consiste em:
- recolher um conteúdo da Web e armazená-lo em disco;
- extrair endereços para outras páginas a partir das ligações;
- inserir os novos endereços descobertos para recolha.
- Indexação: terminada a recolha, toda a informação é processada para construir os índices que permitirão realizar pesquisas rápidas.
- Pesquisa e acesso: após criados os índices, são disponibilizados serviços de pesquisa e acesso à informação recolhida da Web.
A principal diferença entre os motores de busca e os arquivos da web é que os arquivos têm a preocupação adicional de preservar a informação, mantendo-a acessível ao longo do tempo.