Desvendando a estrutura oculta da Web: Dataset Links do Arquivo.pt

thumb-wikipedia_link-graph_cluster

Última atualização em 13 de Maio de 2025 às 14:30

A natureza interligada da World Wide Web há muito que fascina investigadores e tecnólogos. Hoje, temos o prazer de anunciar o lançamento do conjunto de dados Arquivo.pt Links Dataset, uma coleção abrangente que abre novas possibilidades para a compreensão e análise dos padrões de conetividade da Web.

O conjunto de dados engloba mais de 139 milhões de URLs de páginas Web, cada um acompanhado de metadados cruciais sobre as suas ligações de entrada – tanto os URLs de origem como os textos-âncora correspondentes, isto é, o texto visível e clicável nas hiperligações. Esta rica coleção de dados de interligação fornece aos investigadores uma janela única para a estrutura subjacente da Web.

A importância das hiperligações na arquitetura da Web não pode ser sobrestimada. Servem como blocos de construção fundamentais da navegação e descoberta na Web, permitindo aos utilizadores e aos sistemas automatizados percorrer a vasta paisagem de conteúdos em linha.

As hiperligações formaram a base do revolucionário algoritmo PageRank da Google, que transformou a nossa abordagem à recuperação de informações e à pesquisa na Web. A ideia fundamental do PageRank – que a importância de uma página podia ser medida através da análise das suas hiperligações de entrada – revolucionou a tecnologia de pesquisa e continua a ter influência nos sistemas modernos de recuperação de informações.

Ao disponibilizar publicamente este conjunto de dados, o Arquivo.pt permite aos investigadores explorar abordagens inovadoras semelhantes à análise da Web e ao desenvolvimento de motores de busca. O conjunto de dados abre inúmeras possibilidades de investigação em vários domínios:

  • Os investigadores podem implementar e experimentar vários algoritmos de classificação, desde abordagens clássicas como o PageRank até técnicas modernas baseadas na aprendizagem automática. A inclusão de textos âncora – o texto visível e clicável nas hiperligações – fornece um contexto semântico valioso que pode melhorar a relevância da pesquisa e a classificação dos documentos.
  • O conjunto de dados permite uma análise profunda da topologia da Web e das estruturas de ligações. Os investigadores podem investigar questões sobre os padrões de conetividade da Web, identificar grupos de conteúdos relacionados e estudar a forma como a informação se espalha pela Web através de redes de ligações.
  • O texto âncora associado a cada hiperligação oferece uma fonte rica de descrições do conteúdo da Web geradas por humanos. Estes dados podem ser particularmente valiosos para desenvolver e testar algoritmos de resumo de documentos, ferramentas de análise semântica e sistemas de classificação automática.
  • Para os investigadores de arquivo da Web, este conjunto de dados fornece informações sobre a forma como as páginas da Web são ligadas e referenciadas ao longo do tempo, oferecendo dados valiosos para o estudo de estratégias de preservação da Web e de manutenção do património digital.

Metodologia

O processo começa com um instantâneo temporal de páginas Web de um período de tempo específico (recolha). Durante esta fase inicial, os nossos sistemas analisam cada página capturada, extraindo todas as hiperligações de saída juntamente com os respetivos textos âncora e carimbos de data/hora de captura. Isto cria um mapeamento preliminar de como as páginas se ligam umas às outras dentro do período de tempo capturado.

O que torna este conjunto de dados particularmente valioso é a sua estrutura de links invertida. Em vez de organizar os dados em torno das páginas de origem e dos seus links de saída, criámos um mapa invertido que se centra nas páginas de destino e nos seus links de entrada. Essa abordagem é particularmente útil para analisar a importância ou a autoridade de uma página na estrutura da Web, pois fornece acesso imediato a todas as páginas que fazem referência ou apontam para um determinado URL.

Considere-se uma estrutura de ligações tradicional em que a Página A liga às Páginas B, C e D. Na nossa estrutura invertida, vemos entradas para as Páginas B, C e D, cada uma listando a Página A como uma fonte de ligações de entrada. Esta reorganização dos dados facilita uma análise mais eficiente da autoridade e influência da página, tornando-a particularmente valiosa para investigadores que trabalham em algoritmos de classificação ou que estudam padrões de fluxo de informação na Web.

O conjunto de dados de links do Arquivo.pt combina três colecões web distintas:

  1. PWA9609 (1996-2009): 89 milhões de páginas que captam a evolução inicial da Internet, centradas no domínio .pt. Esta coleção histórica fornece informações sobre os primeiros padrões de ligação na Web.
  2. AWP38 (Out-Nov 2021): 44 milhões de páginas que oferecem um retrato contemporâneo da conetividade da Web, com ênfase no domínio .pt, mas incluindo conteúdos mais vastos da Internet.
  3. FAWP47 (Out-Dez 2021): 8 milhões de páginas de capturas diárias de conteúdo do domínio .pt, concebidas para acompanhar as alterações de curto prazo nos padrões de ligação.

Como começar a utilizar o conjunto de dados

Os investigadores podem aceder ao conjunto completo de dados. Os dados são fornecidos num formato que permite um processamento e análise eficientes, tornando-os adequados tanto para estudos em grande escala como para investigações específicas.

Conclusão

O lançamento do conjunto de dados de links do Arquivo.pt representa uma contribuição significativa para a comunidade de investigação científica da Web. Ao disponibilizar gratuitamente esta rica coleção de dados de conetividade da Web, esperamos facilitar a investigação inovadora e aprofundar a nossa compreensão da complexa estrutura da Web.

Encorajamos os investigadores a explorar este conjunto de dados e esperamos ver as novas perspetivas e aplicações que emergem da sua análise. Quer esteja interessado em desenvolver novos algoritmos de pesquisa, estudar a topologia da Web ou investigar relações de conteúdo, este conjunto de dados fornece uma base sólida para a sua investigação.

Análise às pesquisas dos utilizadores no Arquivo.pt

demo-wordcloud-arqu

Os query logs do Arquivo.pt são recursos únicos para investigação

O Arquivo.pt disponibiliza um serviço “tipo Google” (Google-like) que permite pesquisar páginas e imagens recolhidas da web desde a década de 1990. Note-se que a pesquisa do Arquivo.pt complementa os motores de busca da web, uma vez que permite a pesquisa temporal de informação que já não se encontra disponível online nos seus sítios originais.

A análise do comportamento dos utilizadores é um importante tópico de investigação para compreender as suas necessidades de informação e melhorar a qualidade dos resultados de pesquisa. Assim, quando um utilizador interage com um motor de pesquisa, este regista as acções do utilizador num ficheiro denominado query log (registo de pesquisas). Os query logs sobre arquivos da Web são recursos únicos para a investigação porque descrevem as necessidades reais dos utilizadores de arquivos da Web sobre informações históricas que foram publicadas em linha.

Estudo de caso

Flavie Gallois e Adam Jatowt, da Universidade de Innsbruck, e Ricardo Campos, da Universidade da Beira Interior e do INESC TEC, analisaram o comportamento de pesquisa dos utilizadores com base no conjunto de dados de pesquisas do Arquivo.pt recolhidos durante um período de 3 meses, entre junho e setembro de 2021 (Analyzing User Search Behaviour in Temporal Web Repositories through Search Query Log Analysis).

Este estudo analisou as características das pesquisas, como o comprimento, o tipo ou a frequência, e comparou os resultados obtidos com trabalhos anteriores sobre o comportamento de pesquisa dos utilizadores em arquivos da Web e em motores de pesquisa da Web em tempo real.

O estudo revelou tendências e padrões fundamentais sobre o modo como os utilizadores procuram informações nos arquivos da Web, o que motiva a realização de mais trabalhos de investigação.

Como é que os utilizadores de arquivos Web pesquisam?

Figure 1 : Distribution of country origin of users
Figura 1 : Distribuição por país de origem dos utilizadores
Figure 2: Distribution of languages used in queries
Figura 2: Distribuição por língua utilizadas nas pesquisas

Os utilizadores eram de Portugal em 85,7% das pesquisas. No entanto, a língua portuguesa foi identificada através da identificação automática da língua das pesquisas como sendo utilizada em apenas 37% das pesquisas. Isto sugere que os utilizadores utilizam outras línguas que não a sua para pesquisar em arquivos Web.

Os utilizadores do Arquivo.pt tendem a utilizar queries mais longas, com mais palavras e caracteres, em comparação com estudos anteriores, tanto em arquivos da web como em motores de busca live-web. Cerca de 92% das pesquisas tinham 5 ou menos termos (média de 25 caracteres), sendo 3 o número mais comum de termos submetidos. No trabalho anterior sobre o comportamento de pesquisa em arquivos da Web, observou-se que os utilizadores tendiam a submeter de 1 a 3 termos por pesquisa, sendo 1 termo a submissão mais comum.

Os utilizadores tendem a fazer várias consultas numa sessão, em vez de uma única pesquisa, o que pode indicar a necessidade de aperfeiçoar as suas consultas de pesquisa ou de explorar várias opções de pesquisa

87,7% das pesquisas submetidas ao Arquivo.pt utilizaram browsers de desktop (computadores de secretária), apesar de o Arquivo.pt disponibilizar interfaces de utilizador amigáveis para telemóveis, as páginas antigas arquivadas na web não são responsivas e são mal renderizadas em dispositivos móveis. Assim, é expetável que os utilizadores utilizem maioritariamente os arquivos web através dos seus desktops.

Figure 3: Arquivo.pt users can refine the time span of their queries by using the From and To datepickers.
Figura 3: Os utilizadores do Arquivo.pt podem refinar o período de tempo das suas pesquisas utilizando os selectores de data “De” e “Até” (From and To).

Os utilizadores refinaram o período de tempo da pesquisa (utilizando os marcadores de data) em cerca de 50% das pesquisas, o que indica uma consciência das necessidades temporais próprias da utilização de arquivos Web. Curiosamente, os utilizadores modificaram o seletor de data “De” com mais frequência do que o seletor de data “Até”. Note-se que a manutenção do período de tempo predefinido pode corresponder às necessidades de informação do utilizador e não indica necessariamente a falta de conhecimento da existência da função de definição do período de tempo (própria da pesquisa em arquivos Web).

Apenas uma pequena percentagem de utilizadores incluiu anos específicos nos seus termos de pesquisa (4%), o que pode sugerir que a função de intervalo de tempo foi insuficiente ou passou despercebida a alguns utilizadores.

Os resultados obtidos sugerem que os utilizadores estão mais conscientes das suas necessidades de informação e que melhoraram as suas técnicas de pesquisa para serem mais eficazes nos arquivos Web, em vez de os utilizarem apenas por curiosidade, como primeiros utilizadores.

O que é procurado num arquivo Web?

Os autores do estudo aplicaram o reconhecimento automático de entidades (automatic entity recognition) sobre as pesquisas dos utilizadores e obtiveram um conjunto de nuvens de palavras que fornecem graficamente uma ideia das necessidades de informação mais comuns dos utilizadores do Arquivo.pt:

Figure 4: Word cloud of the most frequent query terms submitted to Arquivo.pt.
Figura 4: Nuvem de palavras dos termos de pesquisa mais frequentes submetidos ao Arquivo.pt.
Figure 6: The most frequent Geographical Locations in query terms submitted to Arquivo.pt.
Figura 6: As localizações geográficas mais frequentes nos termos de pesquisa submetidos ao Arquivo.pt.

Figure 6: The most frequent Organizations in query terms submitted to Arquivo.pt

    Figura 6: As organizações mais frequentes nos termos de pesquisa submetidos ao Arquivo.pt.
Figure 7: The most frequent Persons in query terms submitted to Arquivo.pt.
Figura 7: As pessoas mais frequentes nos termos de consulta submetidos ao Arquivo.pt.

Acesso ao dados das pesquisas no Arquivo.pt (query dataset)

O Arquivo.pt lançou um conjunto de recursos para apoiar estudos de investigação sobre as pesquisas dos utilizadores (query dataset):

Métricas de avaliação para pesquisa em arquivos Web

O primeiro passo para compreender o comportamento do utilizador é definir métricas de avaliação. A definição de métricas é uma ferramenta poderosa para estabelecer objectivos a longo e a curto prazo para decidir que novos produtos e funcionalidades devem ser lançados aos utilizadores.

Partilhamos um relatório de trabalho em curso que agrega informações sobre as métricas de avaliação da pesquisa em arquivos da Web: Web Archive Search Evaluation Metrics . Isto contribui para comparar o comportamento de pesquisa dos utilizadores entre os motores de pesquisa da Web em direto e os dos arquivos da Web. Não hesite em comentar diretamente o documento colaborativo ou em contactar-nos.

Este relatório fornece também um resumo de referências sobre trabalhos anteriores, fluxos de pesquisa e estrutura dos correspondentes registos de pesquisa produzidos pelo Arquivo.pt, para facilitar o trabalho dos investigadores no estudo destes conjuntos de dados.

Para saber mais

Crie narrativas automáticas sobre qualquer tema!

thumnail-exemplo-conta-me-historias-q3

O Arquivo.pt disponibiliza uma nova função que permite criar automaticamente narrativas temporais sobre qualquer tema.

A funcionalidade “Narrativa”, integrada no Arquivo.pt em setembro de 2021, é o resultado da colaboração entre o “Conta-me Histórias”, vencedor do Prémio Arquivo.pt 2018 e o Arquivo.pt.

O projeto “Conta-me Histórias” foi desenvolvido por investigadores do Laboratório de Inteligência Artificial e Apoio a Decisão (LIAADINESCTEC) e afiliados às instituições Instituto Politécnico de TomarCentro de Investigação em Cidades Inteligentes (CI2); Universidade do Porto e Universidade de Innsbruck.

Como funciona?

Quando um utilizador insere um conjunto de palavras acerca de um tema na caixa de pesquisa do Arquivo.pt e clica no botão “Narrativa”, é direcionado para o serviço “Conta-me Histórias”, que por sua vez analisa automaticamente as notícias de 25 websites arquivados pelo Arquivo.pt ao longo do tempo e apresenta ao utilizador uma cronologia de notícias relacionadas com o tema pesquisado.

Por exemplo, se pesquisarmos por “Jorge Sampaio” e carregarmos no botão “Narrativa” (Figura 1), seremos direcionados para o “Conta-me Histórias”, onde obteremos automaticamente uma narrativa de notícias arquivadas (Figura 2).

exemplo-conta-me-historias-narrativa

Figura 1: Resultados da pesquisa de páginas sobre “Jorge Sampaio”.

exemplo-conta-me-historias-2

Figura 2: Narrativa de notícias sobre “Jorge Sampaio” gerada pelo serviço “Conta-me Histórias”.

Crie agora a sua narrativa!

O “Conta-me Histórias” pesquisa, analisa e agrega milhares de resultados para gerar cada narrativa acerca de um tema. Recomenda-se a escolha de palavras descritivas sobre temas bem definidos, personalidades ou eventos para obter boas narrativas.

A criação de uma narrativa é útil para investigadores, jornalistas ou cidadãos que pretendam obter rapidamente uma visão geral acerca da evolução de um tema ao longo do tempo, poupando-lhes assim imenso tempo e trabalho.

Aceda ao Arquivo.pt e experimente criar uma narrativa sobre um tema à sua escolha.

Diga-nos como foi a sua experiência para melhorarmos o serviço!

Milhões de imagens sobre o passado!

thumbnail_pesquisa_imagens

Última atualização em 23 de Agosto de 2022 às 16:19

O Arquivo.pt lançou uma nova versão denominada Dionisius, no dia 24 de março de 2021.

1 800 milhões de imagens do passado da Web passaram a estar pesquisáveis no Arquivo.pt!

A pesquisa sobre este volume de imagens arquivadas da Web é uma inovação à escala mundial.

Para assistir a uma apresentação acerca da criação deste sistema inovador, veja a gravação da 21ª sessão do Café com o Arquivo.pt intitulada “Milhões de imagens sobre o passado – como foram indexadas no Arquivo.pt”.

Veja por exemplo, como uma pesquisa de imagens sobre a “Seleção Nacional” apresenta imagens oriundas dos websites arquivados.

print_image_search

Página de resultados de uma pesquisa acerca da “Seleção Nacional” no Arquivo.pt.

A nova API de pesquisa de imagens permite também criar novos trabalhos para se candidatar aos Prémios Arquivo.pt.

Ajude-nos a melhorar!

Se detectar algum problema, por favor contacte-nos!

Lembre-se de enviar sempre o endereço da página onde detectou o problema.

Para saber mais

“Será que quis dizer” – nova versão do Arquivo.pt

Thumnail query_suggest_print

Última atualização em 24 de Março de 2021 às 13:32

O Arquivo.pt lançou uma nova versão, denominada Caronte, no dia 19 de janeiro de 2021.

Nesta versão destaca-se a nova sugestão de pesquisas (Será que quis dizer:).

Sempre que um utilizador introduz uma expressão de pesquisa contendo um potencial erro, o Arquivo.pt apresenta uma sugestão de pesquisa alternativa.

Por exemplo, ao pesquisar “lixboa” recebe a sugestão “Será que quis dizer: lisboa”.

query_suggest_print

Figura 1: Exemplo de funcionamento da sugestão de pesquisas ao utilizar, por exemplo, o termo “lixboa”

A abertura de candidaturas ao Prémio Arquivo.pt 2021 até 4 de maio também passou a estar em destaque no Arquivo.pt!

Ajude-nos a melhorar!

Se detectar algum problema, por favor contacte-nos!

Lembre-se de enviar sempre o endereço da página onde detectou o problema.

Para saber mais

Ver a lista dos 16 problemas resolvidos

Pesquise em 17 milhões de imagens do passado com o Arquivo.pt!

Pesquisa de imagens Arquivo.pt

O Arquivo.pt lançou no final de 2018 um serviço experimental de pesquisa de imagens do passado, em que era possível pesquisar cerca de 4 milhões de imagens do passado, provenientes de algumas recolhas do Arquivo.pt.

A partir de Abril de 2019 passou a ser possível pesquisar imagens provenientes de todas as recolhas do Arquivo.pt.

Pesquisa de imagens do passado utilizando o Arquivo.pt. Pesquisa por "Jorge Saramago"

Pode agora pesquisar mais de 17 milhões de imagens únicas  (com mais de 50 pixels de largura e de altura) desde 1996.

Encontre páginas do passado através do novo serviço de pesquisa de imagens.

Experimente a opção “Visitar página” para encontrar a página Web do passado que continha a imagem que selecionou.

Jorge Sampaio regressa a casa depois de dar entrada nas urgências abola.pt 2010

Experimente já a pesquisa de imagens!

A pesquisa de imagens do Arquivo.pt está disponível em https://arquivo.pt/images.jsp

Arquivo.pt e Projeto CLEOPATRA juntos em financiamento para doutorandos

Última atualização em 31 de Janeiro de 2019 às 10:57

O Projeto CLEOPATRA está com 15 vagas abertas para Early Stage Researcher (PhD) com financiamento integral. Os assuntos vão de Web Semântica, processamento de linguagem natural, humanidades digitais até ciências sociais.

O Arquivo.pt está diretamente envolvido em três dos cursos: Incentives design for hybrid multilingual information processing and analytics, em Southampton; National and transnational media coverage of European parliamentary elections, 2004-2014, Londres (ambos nos Reino Unido); e NLP for under-resourced languages, em Zagreb, na Croácia.

Saiba mais sobre os cursos ou como se candidatar a uma das vagas no website do Projeto CLEOPATRA

Prémio Arquivo.pt estará de volta em 2019!

Última atualização em 6 de Agosto de 2024 às 17:27

Depois do grande sucesso na 1ª edição, o Prémio Arquivo.pt abrirá novamente caminho para trabalhos que utilizem, de forma útil e inovadora, a informação web do passado.

Serão 15 000€ em prémios:

  • 1º classificado: 10 000 €
  • 2º classificado: 3 000 €
  • 3º classificado: 2 000 €

As propostas distinguidas, individuais ou em grupo, serão as que melhor promovam a utilização da informação web preservada no Arquivo.pt.

As candidaturas podem conter projetos de investigação que utilizem os recursos do Arquivo.pt ou descobertas de aplicações úteis para a sociedade.

O regulamento será divulgado em breve e as candidaturas abrirão no início de 2019.

Vencedores da 1ª edição  (Prémio Arquivo.pt 2018)

O grande vencedor da 1ª edição do Prémio Arquivo.pt foi o projeto Conta-me Histórias, liderado por Ricardo Campos,  investigador do INESC TEC e docente do Instituto Politécnico de Tomar (IPT). A plataforma oferece uma narrativa temporal a partir das notícias publicadas online sobre um determinado tema.

Para Ricardo Campos, vencer a 1ª edição do Prémio Arquivo.pt foi:

“um importante impulso para o projeto e graças a esta distinção poderão decorrer outros trabalhos de investigação ou, inclusivamente, surgir aplicações a nível comercial”.