Como criar um arquivo da web pesquisável com mais de mil milhões de conteúdos

Última atualização em 28 de Setembro de 2017 às 13:25

O Arquivo da Web Portuguesa publicou um estudo onde apresenta uma visão geral das aprendizagens obtidas no desenvolvimento do Arquivo da Web Portuguesa, com ênfase na aquisição de dados da Web, ordenação de resultados de pesquisa e desenho de interfaces de utilizador.

Diversas organizações em todo o mundo lutam pela preservação da informação recolhida da Web antes que ela desapareça. Contudo, os utilizadores esperam que os mecanismos de acesso às já vastas coleções de informação histórica detidas pelos arquivos da Web sejam eficientes e eficazes. O Arquivo da Web Portuguesa é o maior arquivo da Web com pesquisa por texto integral disponível ao público. Permite pesquisar em mais de 1,2 mil milhões de conteúdos arquivados da Web desde 1996.

O artigo Creating a Billion-Scale Searchable Web Archive foi apresentado na Temporal Web Analytics Workshop 2013, no Rio de Janeiro, no Brasil.

WWW 2013: Pesquise no passado com o Arquivo da Web Portuguesa

Última atualização em 4 de Agosto de 2024 às 16:42

O Arquivo da Web Portuguesa (AWP) está na World Wide Web Conference (WWW 2013) no Rio de Janeiro, no Brasil, com uma sessão de demonstração.

sessão de demonstração na WWW 2013 apresenta o AWP, que permite pesquisar mais de 1,2 mil milhões de ficheiros arquivados entre 1996 e 2012.

O direito à memória na Internet.

Última atualização em 6 de Agosto de 2024 às 13:46

A Internet assumiu o papel de meio de comunicação fundamental nas sociedades modernas. Em particular, as páginas da Web têm vindo a substituir a imprensa porque permitem publicar informação de uma forma simples, rápida e económica.

Não é de admirar que a Web seja cada vez mais usada como principal meio de comunicação. Desde os jornais que migram para versões exclusivamente online, às pessoas que partilham as suas fotografias acabadas de tirar directamente na Web.

Porém, a Web foi originalmente concebida para ser um meio de comunicação entre cientistas e não o principal meio de publicação das sociedades. Ou seja, foi desenhada para substituir meios de comunicação temporária como o telefone e acabou por ser usada para substituir livros, jornais ou revistas.

O problema é que a informação publicada na Web é pouco duradoura. Após apenas 1 ano, mais de 80% dos conteúdos publicados já desapareceram ou foram alterados.

A Humanidade nunca produziu e teve acesso a tanta informação. E no entanto, retém tão pouca.

Arquivos da Web permitem aceder ao passado

Os arquivos da Web recolhem, arquivam e preservam informação publicada na Web. No futuro, a informação neles arquivada fará a diferença entre a continuação da História e a ocorrência de uma Idade das Trevas, durante a qual, a maioria da informação passou a ser digital, mas a sua preservação manteve-se seguindo as práticas instituídas centenas de anos atrás.

A título de exemplo, em 2003 o estado português extinguiu a versão em papel do Diário da República, passando a existir apenas a versão online. Esta decisão poupou recursos e facilitou o acesso dos cidadãos à legislação. Contudo, são impressas 4 versões em papel exclusivamente para serem entregues na Biblioteca da Assembleia da República e na Biblioteca Nacional. As leis são escritas em formato digital, publicadas em formato digital e impressas em papel para depósito.

Em Portugal, o Arquivo da Web Portuguesa visa arquivar e preservar conteúdos da Web relevantes para a comunidade portuguesa. Este projecto destaca-se por ter desenvolvido um serviço de pesquisa textual sobre conteúdos do passado, disponível experimentalmente em http://www.arquivo.pt.

Existe alguma controvérsia acerca do facto de os arquivos da Web reproduzirem informação publicada sem o consentimento expresso dos seus autores. A interpretação legal desta questão varia consoante as fronteiras dos países. Fronteiras estas que não existem na Internet. Contudo, os arquivos da Web têm respeito pelos interesses dos autores. Por exemplo, através da introdução de períodos de embargo de acesso para que não ocorra competição de visitas com os sites originais ou bloqueio de acesso a conteúdos arquivados a pedido dos autores.

Na realidade, os arquivos da Web nacionais ou sem fins lucrativos prestam um serviço gratuito, complexo e de grande utilidade para os autores. São raríssimos os casos de autores que se sentiram lesados pela acção dos arquivos da Web.

Os arquivos da Web apenas poderão ser úteis ao cidadão comum se mantiverem o nível de acesso original da informação publicada. Ou seja, se uma página estava publicamente acessível na Web, a sua cópia arquivada deverá também continuar publicamente acessível na Web.

“Aqueles que não se lembram do passado estão condenados a repeti-lo.”, George Santayana

A pergunta que surge é se o cidadão comum alguma vez teve acesso ao passado?

No máximo, o cidadão comum teve acesso à informação escrita nos documentos oficiais que relatam a História.

Como qualquer historiador sabe, a História oficial é escrita e reescrita de acordo com as conjunturas sociais e políticas.

O passado está relatado nos documentos escritos na primeira pessoa. Documentos não controlados, não revistos, não preservados. Serão as cartas, os blocos de notas, os blogs, os fóruns.

Arrisco-me a dizer que pela primeira vez na História da Humanidade, os arquivos da Web concedem ao cidadão comum o acesso ao passado. Não apenas à História acerca dos grandes acontecimentos da Humanidade ou de uma cultura, mas do seu próprio passado enquanto indivíduo.

As pequenas coisas que fazem parte do passado e das memórias de uma pessoa, raramente são relatadas nos livros de História. Perguntaram-me: “Qual a importância de preservar um classificado com uma imagem de uma bicicleta para venda?”. Respondi: “Se tiver sido a primeira bicicleta de alguém, será uma memória valiosa para essa pessoa”.

E destas pequenas coisas sem importância os nossos descendentes poderão descobrir quem nós realmente fomos.

Daniel Gomes
Coordenador do Arquivo da Web Portuguesa

Ver artigo no jornal Público

Novo video “Arquivo da Web Portuguesa: Uma visão geral”

Última atualização em 20 de Dezembro de 2019 às 17:26

O Arquivo da Web Portuguesa permite pesquisar e aceder a informação publicada na Internet e que já não se encontra disponível nos seus sites originais.

Este vídeo apresenta uma visão geral acerca dos serviços disponibilizados pelo Arquivo da Web Portuguesa.

Novo video “O Arquivo da Web Portuguesa e o acesso aberto ao conhecimento científico”

Última atualização em 20 de Dezembro de 2019 às 17:30

Arquivar a web contribui para o acesso aberto à ciência.

Cada vez existem mais publicações científicas em acesso aberto que são exclusivamente disseminadas através da Web. É importante preservar este conhecimento para que possa vir a ser útil no futuro.

Este vídeo debate a importância de arquivar a web para contribuir para o acesso aberto ao conhecimento científico.

Questionários de satisfação do Arquivo da Web Portuguesa nas Jornadas FCCN 2012

Última atualização em 29 de Setembro de 2017 às 14:09

A sessão de demonstração do Arquivo da Web Portuguesa nas Jornadas teve como objetivo levar os participantes a experimentar, de forma informal e descontraída, o Arquivo e as suas funcionalidades para poderem ser identificadas falhas e pontos a corrigir, e registar sugestões dos utilizadores para melhoria do sistema.

Os participantes eram convidados a fazer, caso estivessem interessados, um desafio com três passos, que incluíam a descoberta de páginas históricas no Arquivo.

Foi pedido aos participantes que preenchessem um inquérito de satisfação, numa escala crescente de satisfação 1 a 7, com perguntas sobre a sua experiência com o Arquivo da Web Portuguesa. Os resultados obtidos mostram que os utilizadores gostaram de usar o serviço (média de 6,1), que aprenderam facilmente a utilizá-lo (média 5,9) e que encontraram facilmente a informação que procuravam (média 5,1). É de salientar que os utilizadores afirmam que iriam utilizar o serviço no futuro (6,1) e que iriam falar acerca dele aos seus amigos (6,2).

Os resultados obtidos são positivos em relação à qualidade da nova interface e permitiram definir prioridades para futuras melhorias do serviço.

Disponibilidade do serviço de pesquisa a 100% no primeiro trimestre de 2012

Última atualização em 29 de Setembro de 2017 às 14:11

O Arquivo da Web Portuguesa esteve sempre disponível durante este período, não tendo registado quebras de serviço.

A arquitetura distribuída e redundante do sistema desenvolvido pelo Arquivo visa manter o serviço de pesquisa a funcionar durante o máximo de tempo possível.

Relatório técnico documenta a criação de um arquivo da web pesquisável

Última atualização em 4 de Agosto de 2024 às 16:23

Este documento apresenta o trabalho desenvolvido na criação de um serviço de arquivo da web eficiente e eficaz, desde a aquisição de dados até à conceção da interface do utilizador.

Os resultados da investigação desenvolvida foram utilizados na criação do Arquivo da Web Portuguesa. Este serviço permite pesquisar por texto integral em mais de mil milhões de conteúdos arquivados de 1996 a 2010. O projeto está disponível em código aberto.