Análise às pesquisas dos utilizadores no Arquivo.pt

demo-wordcloud-arqu

Os query logs do Arquivo.pt são recursos únicos para investigação

O Arquivo.pt disponibiliza um serviço “tipo Google” (Google-like) que permite pesquisar páginas e imagens recolhidas da web desde a década de 1990. Note-se que a pesquisa do Arquivo.pt complementa os motores de busca da web, uma vez que permite a pesquisa temporal de informação que já não se encontra disponível online nos seus sítios originais.

A análise do comportamento dos utilizadores é um importante tópico de investigação para compreender as suas necessidades de informação e melhorar a qualidade dos resultados de pesquisa. Assim, quando um utilizador interage com um motor de pesquisa, este regista as acções do utilizador num ficheiro denominado query log (registo de pesquisas). Os query logs sobre arquivos da Web são recursos únicos para a investigação porque descrevem as necessidades reais dos utilizadores de arquivos da Web sobre informações históricas que foram publicadas em linha.

Estudo de caso

Flavie Gallois e Adam Jatowt, da Universidade de Innsbruck, e Ricardo Campos, da Universidade da Beira Interior e do INESC TEC, analisaram o comportamento de pesquisa dos utilizadores com base no conjunto de dados de pesquisas do Arquivo.pt recolhidos durante um período de 3 meses, entre junho e setembro de 2021 (Analyzing User Search Behaviour in Temporal Web Repositories through Search Query Log Analysis).

Este estudo analisou as características das pesquisas, como o comprimento, o tipo ou a frequência, e comparou os resultados obtidos com trabalhos anteriores sobre o comportamento de pesquisa dos utilizadores em arquivos da Web e em motores de pesquisa da Web em tempo real.

O estudo revelou tendências e padrões fundamentais sobre o modo como os utilizadores procuram informações nos arquivos da Web, o que motiva a realização de mais trabalhos de investigação.

Como é que os utilizadores de arquivos Web pesquisam?

Figure 1 : Distribution of country origin of users
Figura 1 : Distribuição por país de origem dos utilizadores
Figure 2: Distribution of languages used in queries
Figura 2: Distribuição por língua utilizadas nas pesquisas

Os utilizadores eram de Portugal em 85,7% das pesquisas. No entanto, a língua portuguesa foi identificada através da identificação automática da língua das pesquisas como sendo utilizada em apenas 37% das pesquisas. Isto sugere que os utilizadores utilizam outras línguas que não a sua para pesquisar em arquivos Web.

Os utilizadores do Arquivo.pt tendem a utilizar queries mais longas, com mais palavras e caracteres, em comparação com estudos anteriores, tanto em arquivos da web como em motores de busca live-web. Cerca de 92% das pesquisas tinham 5 ou menos termos (média de 25 caracteres), sendo 3 o número mais comum de termos submetidos. No trabalho anterior sobre o comportamento de pesquisa em arquivos da Web, observou-se que os utilizadores tendiam a submeter de 1 a 3 termos por pesquisa, sendo 1 termo a submissão mais comum.

Os utilizadores tendem a fazer várias consultas numa sessão, em vez de uma única pesquisa, o que pode indicar a necessidade de aperfeiçoar as suas consultas de pesquisa ou de explorar várias opções de pesquisa

87,7% das pesquisas submetidas ao Arquivo.pt utilizaram browsers de desktop (computadores de secretária), apesar de o Arquivo.pt disponibilizar interfaces de utilizador amigáveis para telemóveis, as páginas antigas arquivadas na web não são responsivas e são mal renderizadas em dispositivos móveis. Assim, é expetável que os utilizadores utilizem maioritariamente os arquivos web através dos seus desktops.

Figure 3: Arquivo.pt users can refine the time span of their queries by using the From and To datepickers.
Figura 3: Os utilizadores do Arquivo.pt podem refinar o período de tempo das suas pesquisas utilizando os selectores de data “De” e “Até” (From and To).

Os utilizadores refinaram o período de tempo da pesquisa (utilizando os marcadores de data) em cerca de 50% das pesquisas, o que indica uma consciência das necessidades temporais próprias da utilização de arquivos Web. Curiosamente, os utilizadores modificaram o seletor de data “De” com mais frequência do que o seletor de data “Até”. Note-se que a manutenção do período de tempo predefinido pode corresponder às necessidades de informação do utilizador e não indica necessariamente a falta de conhecimento da existência da função de definição do período de tempo (própria da pesquisa em arquivos Web).

Apenas uma pequena percentagem de utilizadores incluiu anos específicos nos seus termos de pesquisa (4%), o que pode sugerir que a função de intervalo de tempo foi insuficiente ou passou despercebida a alguns utilizadores.

Os resultados obtidos sugerem que os utilizadores estão mais conscientes das suas necessidades de informação e que melhoraram as suas técnicas de pesquisa para serem mais eficazes nos arquivos Web, em vez de os utilizarem apenas por curiosidade, como primeiros utilizadores.

O que é procurado num arquivo Web?

Os autores do estudo aplicaram o reconhecimento automático de entidades (automatic entity recognition) sobre as pesquisas dos utilizadores e obtiveram um conjunto de nuvens de palavras que fornecem graficamente uma ideia das necessidades de informação mais comuns dos utilizadores do Arquivo.pt:

Figure 4: Word cloud of the most frequent query terms submitted to Arquivo.pt.
Figura 4: Nuvem de palavras dos termos de pesquisa mais frequentes submetidos ao Arquivo.pt.
Figure 6: The most frequent Geographical Locations in query terms submitted to Arquivo.pt.
Figura 6: As localizações geográficas mais frequentes nos termos de pesquisa submetidos ao Arquivo.pt.

Figure 6: The most frequent Organizations in query terms submitted to Arquivo.pt

    Figura 6: As organizações mais frequentes nos termos de pesquisa submetidos ao Arquivo.pt.
Figure 7: The most frequent Persons in query terms submitted to Arquivo.pt.
Figura 7: As pessoas mais frequentes nos termos de consulta submetidos ao Arquivo.pt.

Acesso ao dados das pesquisas no Arquivo.pt (query dataset)

O Arquivo.pt lançou um conjunto de recursos para apoiar estudos de investigação sobre as pesquisas dos utilizadores (query dataset):

Métricas de avaliação para pesquisa em arquivos Web

O primeiro passo para compreender o comportamento do utilizador é definir métricas de avaliação. A definição de métricas é uma ferramenta poderosa para estabelecer objectivos a longo e a curto prazo para decidir que novos produtos e funcionalidades devem ser lançados aos utilizadores.

Partilhamos um relatório de trabalho em curso que agrega informações sobre as métricas de avaliação da pesquisa em arquivos da Web: Web Archive Search Evaluation Metrics . Isto contribui para comparar o comportamento de pesquisa dos utilizadores entre os motores de pesquisa da Web em direto e os dos arquivos da Web. Não hesite em comentar diretamente o documento colaborativo ou em contactar-nos.

Este relatório fornece também um resumo de referências sobre trabalhos anteriores, fluxos de pesquisa e estrutura dos correspondentes registos de pesquisa produzidos pelo Arquivo.pt, para facilitar o trabalho dos investigadores no estudo destes conjuntos de dados.

Para saber mais

Crie narrativas automáticas sobre qualquer tema!

thumnail-exemplo-conta-me-historias-q3

O Arquivo.pt disponibiliza uma nova função que permite criar automaticamente narrativas temporais sobre qualquer tema.

A funcionalidade “Narrativa”, integrada no Arquivo.pt em setembro de 2021, é o resultado da colaboração entre o “Conta-me Histórias”, vencedor do Prémio Arquivo.pt 2018 e o Arquivo.pt.

O projeto “Conta-me Histórias” foi desenvolvido por investigadores do Laboratório de Inteligência Artificial e Apoio a Decisão (LIAADINESCTEC) e afiliados às instituições Instituto Politécnico de TomarCentro de Investigação em Cidades Inteligentes (CI2); Universidade do Porto e Universidade de Innsbruck.

Como funciona?

Quando um utilizador insere um conjunto de palavras acerca de um tema na caixa de pesquisa do Arquivo.pt e clica no botão “Narrativa”, é direcionado para o serviço “Conta-me Histórias”, que por sua vez analisa automaticamente as notícias de 25 websites arquivados pelo Arquivo.pt ao longo do tempo e apresenta ao utilizador uma cronologia de notícias relacionadas com o tema pesquisado.

Por exemplo, se pesquisarmos por “Jorge Sampaio” e carregarmos no botão “Narrativa” (Figura 1), seremos direcionados para o “Conta-me Histórias”, onde obteremos automaticamente uma narrativa de notícias arquivadas (Figura 2).

exemplo-conta-me-historias-narrativa

Figura 1: Resultados da pesquisa de páginas sobre “Jorge Sampaio”.

exemplo-conta-me-historias-2

Figura 2: Narrativa de notícias sobre “Jorge Sampaio” gerada pelo serviço “Conta-me Histórias”.

Crie agora a sua narrativa!

O “Conta-me Histórias” pesquisa, analisa e agrega milhares de resultados para gerar cada narrativa acerca de um tema. Recomenda-se a escolha de palavras descritivas sobre temas bem definidos, personalidades ou eventos para obter boas narrativas.

A criação de uma narrativa é útil para investigadores, jornalistas ou cidadãos que pretendam obter rapidamente uma visão geral acerca da evolução de um tema ao longo do tempo, poupando-lhes assim imenso tempo e trabalho.

Aceda ao Arquivo.pt e experimente criar uma narrativa sobre um tema à sua escolha.

Diga-nos como foi a sua experiência para melhorarmos o serviço!

Milhões de imagens sobre o passado!

thumbnail_pesquisa_imagens

Última atualização em 23 de Agosto de 2022 às 16:19

O Arquivo.pt lançou uma nova versão denominada Dionisius, no dia 24 de março de 2021.

1 800 milhões de imagens do passado da Web passaram a estar pesquisáveis no Arquivo.pt!

A pesquisa sobre este volume de imagens arquivadas da Web é uma inovação à escala mundial.

Para assistir a uma apresentação acerca da criação deste sistema inovador, veja a gravação da 21ª sessão do Café com o Arquivo.pt intitulada “Milhões de imagens sobre o passado – como foram indexadas no Arquivo.pt”.

Veja por exemplo, como uma pesquisa de imagens sobre a “Seleção Nacional” apresenta imagens oriundas dos websites arquivados.

print_image_search

Página de resultados de uma pesquisa acerca da “Seleção Nacional” no Arquivo.pt.

A nova API de pesquisa de imagens permite também criar novos trabalhos para se candidatar aos Prémios Arquivo.pt.

Ajude-nos a melhorar!

Se detectar algum problema, por favor contacte-nos!

Lembre-se de enviar sempre o endereço da página onde detectou o problema.

Para saber mais

“Será que quis dizer” – nova versão do Arquivo.pt

Thumnail query_suggest_print

Última atualização em 24 de Março de 2021 às 13:32

O Arquivo.pt lançou uma nova versão, denominada Caronte, no dia 19 de janeiro de 2021.

Nesta versão destaca-se a nova sugestão de pesquisas (Será que quis dizer:).

Sempre que um utilizador introduz uma expressão de pesquisa contendo um potencial erro, o Arquivo.pt apresenta uma sugestão de pesquisa alternativa.

Por exemplo, ao pesquisar “lixboa” recebe a sugestão “Será que quis dizer: lisboa”.

query_suggest_print

Figura 1: Exemplo de funcionamento da sugestão de pesquisas ao utilizar, por exemplo, o termo “lixboa”

A abertura de candidaturas ao Prémio Arquivo.pt 2021 até 4 de maio também passou a estar em destaque no Arquivo.pt!

Ajude-nos a melhorar!

Se detectar algum problema, por favor contacte-nos!

Lembre-se de enviar sempre o endereço da página onde detectou o problema.

Para saber mais

Ver a lista dos 16 problemas resolvidos

Pesquise em 17 milhões de imagens do passado com o Arquivo.pt!

Pesquisa de imagens Arquivo.pt

O Arquivo.pt lançou no final de 2018 um serviço experimental de pesquisa de imagens do passado, em que era possível pesquisar cerca de 4 milhões de imagens do passado, provenientes de algumas recolhas do Arquivo.pt.

A partir de Abril de 2019 passou a ser possível pesquisar imagens provenientes de todas as recolhas do Arquivo.pt.

Pesquisa de imagens do passado utilizando o Arquivo.pt. Pesquisa por "Jorge Saramago"

Pode agora pesquisar mais de 17 milhões de imagens únicas  (com mais de 50 pixels de largura e de altura) desde 1996.

Encontre páginas do passado através do novo serviço de pesquisa de imagens.

Experimente a opção “Visitar página” para encontrar a página Web do passado que continha a imagem que selecionou.

Jorge Sampaio regressa a casa depois de dar entrada nas urgências abola.pt 2010

Experimente já a pesquisa de imagens!

A pesquisa de imagens do Arquivo.pt está disponível em https://arquivo.pt/images.jsp

Arquivo.pt e Projeto CLEOPATRA juntos em financiamento para doutorandos

Última atualização em 31 de Janeiro de 2019 às 10:57

O Projeto CLEOPATRA está com 15 vagas abertas para Early Stage Researcher (PhD) com financiamento integral. Os assuntos vão de Web Semântica, processamento de linguagem natural, humanidades digitais até ciências sociais.

O Arquivo.pt está diretamente envolvido em três dos cursos: Incentives design for hybrid multilingual information processing and analytics, em Southampton; National and transnational media coverage of European parliamentary elections, 2004-2014, Londres (ambos nos Reino Unido); e NLP for under-resourced languages, em Zagreb, na Croácia.

Saiba mais sobre os cursos ou como se candidatar a uma das vagas no website do Projeto CLEOPATRA

Prémio Arquivo.pt estará de volta em 2019!

Última atualização em 7 de Janeiro de 2019 às 16:29

Depois do grande sucesso na 1ª edição, o Prémio Arquivo.pt abrirá novamente caminho para trabalhos que utilizem, de forma útil e inovadora, a informação web do passado.

Serão 15 000€ em prémios:

  • 1º classificado: 10 000 €
  • 2º classificado: 3 000 €
  • 3º classificado: 2 000 €

As propostas distinguidas, individuais ou em grupo, serão as que melhor promovam a utilização da informação web preservada no Arquivo.pt.

As candidaturas podem conter projetos de investigação que utilizem os recursos do Arquivo.pt ou descobertas de aplicações úteis para a sociedade.

O regulamento será divulgado em breve e as candidaturas abrirão no início de 2019.

Vencedores da 1ª edição  (Prémio Arquivo.pt 2018)

O grande vencedor da 1ª edição do Prémio Arquivo.pt foi o projeto Conta-me Histórias, liderado por Ricardo Campos,  investigador do INESC TEC e docente do Instituto Politécnico de Tomar (IPT). A plataforma oferece uma narrativa temporal a partir das notícias publicadas online sobre um determinado tema.

Para Ricardo Campos, vencer a 1ª edição do Prémio Arquivo.pt foi:

“um importante impulso para o projeto e graças a esta distinção poderão decorrer outros trabalhos de investigação ou, inclusivamente, surgir aplicações a nível comercial”.