Como criar um arquivo da web pesquisável com mais de mil milhões de conteúdos

Última atualização em 28 de Setembro de 2017 às 13:25

O Arquivo da Web Portuguesa publicou um estudo onde apresenta uma visão geral das aprendizagens obtidas no desenvolvimento do Arquivo da Web Portuguesa, com ênfase na aquisição de dados da Web, ordenação de resultados de pesquisa e desenho de interfaces de utilizador.

Diversas organizações em todo o mundo lutam pela preservação da informação recolhida da Web antes que ela desapareça. Contudo, os utilizadores esperam que os mecanismos de acesso às já vastas coleções de informação histórica detidas pelos arquivos da Web sejam eficientes e eficazes. O Arquivo da Web Portuguesa é o maior arquivo da Web com pesquisa por texto integral disponível ao público. Permite pesquisar em mais de 1,2 mil milhões de conteúdos arquivados da Web desde 1996.

O artigo Creating a Billion-Scale Searchable Web Archive foi apresentado na Temporal Web Analytics Workshop 2013, no Rio de Janeiro, no Brasil.