dados abertos – sobre.arquivo.pt

Coleções temáticas para descobrir nas sessões online “Café com o Arquivo.pt”

Dezembro 4, 2025Novembro 27, 2025 por Ricardo Basílio

Última atualização em 4 de Dezembro de 2025 às 13:12

O “Café com o Arquivo.pt” consiste em sessões online curtas para permitir a qualquer pessoa assistir em horário laboral. Tem por objetivo dar a conhecer o Arquivo.pt e trazer contributos da comunidade sobre temas relacionados com a preservação da Web.

Em dezembro de 2025, iniciou-se uma nova série dedicada às coleções temáticas que o Arquivo.pt publica sob a forma de conjuntos de dados na plataforma Dados.Gov.

Por exemplo, websites relacionados com o teatro, a música, as escolas, as freguesias, as eleições e outros temas, encontram-se preservados no Arquivo.pt. Nas sessões temáticas do Café com o Arquivo.pt vamos dar visibilidade a conjuntos de websites cujo histórico se encontra no arquivo da Web.

Cada sessão é dedicada a um tema e tem um convidado que fala da sua instituição ou do seu projeto e comenta o tema do dia.

Série coleções temáticas

1ª sessão – Eleições Autárquicas: como arquivamos websites e programas eleitorais

Convidados: Mário Rui André e Gonçalo Pereira Costa – Jornal LPP / Lisboa Para Pessoas
Data: 3 de dezembro de 2025
Inscrição (gratuita) Finalizado.

Materiais

Resumo:

Os convidados, Mário Rui André e Gonçalo Pereira Costa, do jornal LPP / Lisboa Para Pessoas, falaram-nos do Portal das Autárquicas da Lisboa Metropolitana que criaram, onde se encontra informação sobre os candidatos e os seus programas eleitorais. O Arquivo.pt recolheu milhares de páginas e websites eleitorais, mais de 3 terabytes de informação, e explicou brevemente a metodologia utilizada.

Ao percorrer o vídeo da sessão vai saber:

Como foram as autárquicas na Área Metropolitana de Lisboa numa perspetiva jornalística;
Qual foi a metodologia seguida para recolher conteúdos eleitorais na Internet;
Como usar o arquivo da web para obter informação do passado.

Temporadas anteriores

Conjunto de dados sobre as Eleições Autárquicas no Arquivo.pt

Dezembro 3, 2025Novembro 3, 2025 por Ricardo Basílio

Última atualização em 3 de Dezembro de 2025 às 12:55

As Eleições Autárquicas realizaram-se, em Portugal, a 12 de outubro de 2025 e o Arquivo.pt fez uma recolha especial de conteúdos eleitorais publicados na Web, de que resultaram 3.5 terabytes de informação para a investigação e a realização de trabalhos.

Foram utilizados 440 termos de pesquisa para obter 45 000 endereços de páginas, juntamente com os websites das freguesias, municípios e partidos.

Aqui se explica os diversos passos desta recolha sobre as eleições:

preparação de lista de termos de pesquisa
pesquisa usando o Google e a extensão Google Rank Checker
gravação usando o Heritrix e o Browsertrix-crawler
integração no Arquivo.pt
disponibilização de conjuntos de dados para investigação

Como se identificam os conteúdos eleitorais na Web

Para identificar conteúdos relacionados com as eleições utilizamos uma lista de termos de pesquisa como, por exemplo, “eleições autárquicas 2025″, “habitação autárquicas 2025″, “promessas “autárquicas 2025”. Depois das eleições completou-se com outros termos como “vitória autárquicas 2025”, “resultados autárquicas 2025”, etc.

Os termos de pesquisa são palavras que pretendem incluir diversos tópicos relacionados com as eleições, tais como política, sociedade, economia, entre outros, meios de comunicação, nomes de candidatos, regiões do país.

Na recolha sobre as Autárquicas, utilizou-se o motor de busca Google para fazer cada uma das pesquisas. Recorreu-se a alguns parâmetros da pesquisa avançada: o número de resultados (&num=100), resultados de nótícias (&tbm=nws), resultados de imagens (&udm=2). Depois das eleições, restringiu-se os resultados com o filtro “última semana”.

Em cada pesquisa extraiu-se os endereços das páginas de resultados do motor de busca (SERP, Search Engine Results Page) utilizando a ferramenta Google Rank Checker,Keyword SERP Ranking Tool. Esta ferramenta funciona como uma extensão do browser que exporta a lista de resultados no formato JSON.

No total, foram realizadas 1400 pesquisas ou queries no Google (800 em pré-eleições, 600 em pós-eleições). No final, os resultados de todas as pesquisas (ficheiros .json) foram reunidos num documento e convertidos em tabela. Cada resultado tem vários dados, tais como a relevância, o domínio de onde foi extraído, o link ou URL, o título da publicação, a data da pesquisa e a query.

Deve ter-se em conta que a lista obtida representa apenas uma pequena parcela de tudo o que foi publicado na Web acerca das eleições. Além disso, a mesma lista contém resultados não relacionados com o objetivo da recolha (falsos positivos) e algumas repetições. Por economia de tempo, nenhuma linha foi eliminada.

Deste processo de identificação resultaram 43 000 páginas (seeds) com notícias, artigos e publicações relacionadas com as eleições para serem usadas no processo de recolha pelo Arquivo.pt. Este conjunto de dados “Eleições Autárquicas 2025” está disponível na plataforma de dados abertos Dados.Gov.

Adicionou-se ainda a lista das Juntas de Freguesia, Câmaras Municipais e Partidos com os seus respectivos websites.

Como foram gravados os conteúdos e limitações a ter em conta

Os endereços obtidos, antes e depois das eleições, foram colocados a gravar em dois web crawlers ou rastreadores da Web, o Heritrix e o Browsertrix-crawler. O que estas ferramentas fazem é gravar páginas a partir de um endereço inicial que é dado (seed), seguindo depois as ligações aí existentes, até um certo limite, neste caso até um máximo de 5 vezes (5 saltos ou hops).

O Heritrix foi utilizado para uma primeira recolha genérica de páginas, pois é capaz de processar listas com milhares de endereços com rapidez: 25 858 URLs antes das eleições e 17 258 URLs depois das eleições. Gerou 541 Gigabytes de informação.

O Browsertix-crawler foi utilizado como segunda ferramenta para melhorar a recolha de conteúdos dinâmicos. Neste crawler a gravação é baseada em browser, ou seja, cada página é lida por um browser e depois é gravada. A gravação é mais demorada, mas captura conteúdos que de outro modo escapariam à recolha.

A recolha correu no Browsertrix-crawler de modo faseado, primeiro com a gravação dos websites das freguesias em agosto e setembro e, depois, entre 9 de outubro e 5 de novembro, com a gravação de notícias sobre as eleições e 8.850 publicações nas redes sociais. Gerou 2.9 Tetabytes de informação.

Quanto aos limites da recolha, identificou-se alguns, tais como: bloqueio do acesso por parte de alguns sites que se defendem contra acessos automáticos, apesar de o agente do Arquivo.pt estar identificado; conteúdos de redes sociais, atrás de login que não se consegue reproduzir no Arquivo.pt; vídeos que pelo seu formato também não se consegue reproduzir.

Como e quando aceder ao dados para investigar e criar de trabalhos

EAWP48 é o nome identificador da coleção que vai reunir os conteúdos sobre as Eleições Autárquicas de 12 de outubro de 2025. Uma descrição, assim como o seu estado (disponível ou não) pode ser consultado na lista de coleções do Arquivo.pt.

Nos próximos meses, o conteúdo será indexado e os índices CDXJ ficarão disponíveis para os investigadores na lista de datasets do Arquivo.pt.

Passado um ano, os conteúdos recolhidos ficarão acessíveis na pesquisa do Arquivo.pt . Qualquer pessoa poderá então pesquisar páginas eleitorais por texto ou por imagem.

Para mais informação contacte-nos.

Dados da recolha Eleições Autárquicas 2025

Saiba mais sobre as recolhas eleitorais de anos anteriores

Conferência RESAW na Alemanha teve presença do Arquivo.pt

Junho 12, 2025Junho 12, 2025 por Ricardo Basílio

O Arquivo.pt esteve presente na 6a Conferência RESAW para investigadores das Humanidades Digitais, Media e Comunicação e outras áreas, subordinado ao tema “The Datafied Web”, que teve lugar na Universidade de Siegen, Alemanha, de 4 a 6 de junho de 2025.

RESAW (Research Infrastructure for the Study of Archived Web Materials) é uma iniciativa informal que reúne investigadores que utilizam arquivos da Web na sua investigação. A primeira conferência do RESAW foi em 2015, passando a realizar-se a cada dois anos.

Inicialmente, o RESAW reunia investigadores europeus, mas agora congrega investigadores de todo o mundo, tendo-se tornado num fórum único no seu género. Em 2025, contou com mais de 100 participantes. Ali se encontra o que de melhor se faz no domínio utilização de arquivos da Web em contexto de investigação.

Niels Brügger, Professor de Media e Comunicação da Universidade de Aahrus, Dinamarca, tem sido o principal impulsionador do RESAW, ao longo de 10 anos.

Destacam-se ainda nomes de investigadores de referência com estudos desenvolvidos no âmbito dos arquivos da Web: : Valerie Schafer, da Universidade do Luxumburgo, Jane Winters, da Universidade de Londres, Anne Helmond, da Universidade de Utrecht, Susan Aasman da Universidade de Groningen, Sophie Gebeil, da Universidade de Aix-Marseille e Ian Millingan da Universidade de Waterloo.

O tema deste ano The Datafied Web abordou a questão da datificação da Web, desde os seus inícios na década de 1990 à atualidade, marcada pelo processamento massivo de dados e pelo uso da Inteligência Artificial.

Porquê a participação de um arquivo da Web num encontro de cariz académico?

O Arquivo.pt participa regulamente no RESAW desde 2019, pois quer dar-se a conhecer cada vez mais como um serviço destinado aos investigadores nacionais e internacionais.

Graças à participação em eventos internacionais como o RESAW, surgiram várias publicações que usam e referem o Arquivo.pt. Qualquer investigador com acesso à Internet pode pesquisar a informação preservada no Arquivo.pt, usar as APIs, processar informação ou treinar os seus modelos.

Convidamos os investigadores portugueses a participarem neste encontro, pois temos sido a única presença portuguesa em várias edições. Temos um arquivo da Web acessível, pronto a utilizar, o que não acontece em outros países. Gostaríamos de ter investigadores de áreas das Humanidades Digitais e Media e Comunicação em Portugal a usarem mais frequentemente o Arquivo.pt e a participarem ativamente em encontros como o RESAW.

Contributo do Arquivo.pt no RESAW 2025

O Arquivo.pt contribuiu com duas apresentações na edição de 2025 de encontro RESAW, realizado na Universidade de Siegen. A primeira acerca das APIs do Arquivo.pt e da sua aplicação em contexto de investigação, por Vasco Rato. A segunda sobre os conjuntos de dados abertos e listas de sites sobre temas e eventos que o Arquivo.pt preparou para ajudar os investigadores a iniciarem uma exploração mais profunda da informação arquivada.

Galeria de imagens

RESAW 2025 na Universidade de Siegen

Eleições Legislativas 2025 tiveram recolha especial do Arquivo.pt

Maio 28, 2025Maio 26, 2025 por Ricardo Basílio

Última atualização em 28 de Maio de 2025 às 8:59

O Arquivo.pt realizou uma recolha especial de conteúdos publicados online, relacionados com as Eleições Legislativas de 18 de maio de 2025.

Foram gravadas mais de 8 mil páginas únicas, antes e depois das eleições, as quais resultaram em cerca de 250 Gigabytes de informação.

Nesta coleção encontram-se notícias nos meios de comunicação social, sites dos Partidos e outras publicações dos cidadãos que documentam este importante evento da vida portuguesa.

Os dados da recolha estão disponíveis para permitir aos investigadores utilizarem nos seus trabalhos e projetos.

Metodologia de recolha do evento eleitoral

A recolha foi realizada usando uma metodologia semi-automática que permite identificar e recolher informação com rapidez e poupar recursos. Os passos foram os seguintes:

preparação de lista com termos de pesquisa;
pesquisa automática com o Bing Search API;
extração de lista de endereços de páginas ou URLs;
gravação (usando o Browsertrix-crawler);
integração no Arquivo.pt;
disponibilização de conjunto de dados para investigação.

O ponto de partida para identificar páginas para este evento eleitoral foi uma lista de termos de pesquisa, incluindo palavras, nomes, datas, endereços de sites e também palavras em outras línguas. Por exemplo, usou-se “eleições” “legislativas”, 2025, nomes de candidatos, sites dos Partidos, sites dos jornais e as palavras “eleições Portugal” em outras línguas europeias para termos páginas de meios estrangeiros que se referiram às eleições portuguesas. Foram utilizados 384 termos de pesquisa.

Desde as Eleições Europeias de 2019, o Arquivo.pt utiliza o serviço Bing Search API para obter de forma automática os resultados mais relevantes. Os endereços ou URLs extraídos são então colocados a gravar, assumindo que há páginas que falham o alvo e privilegiando a rapidez, fator importante neste tipo de evento.

Fez-se uma pesquisa antes das eleições e duas na semana seguinte, com a respetiva gravação, a fim de juntar novos conteúdos à coleção.

Finalmente, publicou-se todos os dados acerca desta recolha especial. Convida-se os investigadores a usar esta informação para projetos ou estudos e para concorrerem ao Prémio anual Arquivo.pt.

Dados da recolha Eleições Legislativas 2025

O conjunto de dados Eleições Legislativas 2025 foi publicado no portal de dados abertos

Saiba mais sobre as recolhas eleitorais de anos anteriores

Desvendando a estrutura oculta da Web: Dataset Links do Arquivo.pt

Setembro 5, 2025Abril 30, 2025 por Ricardo Basílio

Última atualização em 5 de Setembro de 2025 às 9:49

A natureza interligada da World Wide Web há muito que fascina investigadores e tecnólogos. Hoje, temos o prazer de anunciar o lançamento do conjunto de dados Arquivo.pt Links Dataset, uma coleção abrangente que abre novas possibilidades para a compreensão e análise dos padrões de conetividade da Web.

O conjunto de dados engloba mais de 139 milhões de URLs de páginas Web, cada um acompanhado de metadados cruciais sobre as suas ligações de entrada – tanto os URLs de origem como os textos-âncora correspondentes, isto é, o texto visível e clicável nas hiperligações. Esta rica coleção de dados de interligação fornece aos investigadores uma janela única para a estrutura subjacente da Web.

A importância das hiperligações na arquitetura da Web não pode ser sobrestimada. Servem como blocos de construção fundamentais da navegação e descoberta na Web, permitindo aos utilizadores e aos sistemas automatizados percorrer a vasta paisagem de conteúdos em linha.

As hiperligações formaram a base do revolucionário algoritmo PageRank da Google, que transformou a nossa abordagem à recuperação de informações e à pesquisa na Web. A ideia fundamental do PageRank – que a importância de uma página podia ser medida através da análise das suas hiperligações de entrada – revolucionou a tecnologia de pesquisa e continua a ter influência nos sistemas modernos de recuperação de informações.

Ao disponibilizar publicamente este conjunto de dados, o Arquivo.pt permite aos investigadores explorar abordagens inovadoras semelhantes à análise da Web e ao desenvolvimento de motores de busca. O conjunto de dados abre inúmeras possibilidades de investigação em vários domínios:

Os investigadores podem implementar e experimentar vários algoritmos de classificação, desde abordagens clássicas como o PageRank até técnicas modernas baseadas na aprendizagem automática. A inclusão de textos âncora – o texto visível e clicável nas hiperligações – fornece um contexto semântico valioso que pode melhorar a relevância da pesquisa e a classificação dos documentos.
O conjunto de dados permite uma análise profunda da topologia da Web e das estruturas de ligações. Os investigadores podem investigar questões sobre os padrões de conetividade da Web, identificar grupos de conteúdos relacionados e estudar a forma como a informação se espalha pela Web através de redes de ligações.
O texto âncora associado a cada hiperligação oferece uma fonte rica de descrições do conteúdo da Web geradas por humanos. Estes dados podem ser particularmente valiosos para desenvolver e testar algoritmos de resumo de documentos, ferramentas de análise semântica e sistemas de classificação automática.
Para os investigadores de arquivo da Web, este conjunto de dados fornece informações sobre a forma como as páginas da Web são ligadas e referenciadas ao longo do tempo, oferecendo dados valiosos para o estudo de estratégias de preservação da Web e de manutenção do património digital.

Metodologia

O processo começa com um instantâneo temporal de páginas Web de um período de tempo específico (recolha). Durante esta fase inicial, os nossos sistemas analisam cada página capturada, extraindo todas as hiperligações de saída juntamente com os respetivos textos âncora e carimbos de data/hora de captura. Isto cria um mapeamento preliminar de como as páginas se ligam umas às outras dentro do período de tempo capturado.

O que torna este conjunto de dados particularmente valioso é a sua estrutura de links invertida. Em vez de organizar os dados em torno das páginas de origem e dos seus links de saída, criámos um mapa invertido que se centra nas páginas de destino e nos seus links de entrada. Essa abordagem é particularmente útil para analisar a importância ou a autoridade de uma página na estrutura da Web, pois fornece acesso imediato a todas as páginas que fazem referência ou apontam para um determinado URL.

Considere-se uma estrutura de ligações tradicional em que a Página A liga às Páginas B, C e D. Na nossa estrutura invertida, vemos entradas para as Páginas B, C e D, cada uma listando a Página A como uma fonte de ligações de entrada. Esta reorganização dos dados facilita uma análise mais eficiente da autoridade e influência da página, tornando-a particularmente valiosa para investigadores que trabalham em algoritmos de classificação ou que estudam padrões de fluxo de informação na Web.

O conjunto de dados de links do Arquivo.pt combina três colecões web distintas:

PWA9609 (1996-2009): 89 milhões de páginas que captam a evolução inicial da Internet, centradas no domínio .pt. Esta coleção histórica fornece informações sobre os primeiros padrões de ligação na Web.
AWP38 (Out-Nov 2021): 44 milhões de páginas que oferecem um retrato contemporâneo da conetividade da Web, com ênfase no domínio .pt, mas incluindo conteúdos mais vastos da Internet.
FAWP47 (Out-Dez 2021): 8 milhões de páginas de capturas diárias de conteúdo do domínio .pt, concebidas para acompanhar as alterações de curto prazo nos padrões de ligação.

Como começar a utilizar o conjunto de dados

Os investigadores podem aceder ao conjunto completo de dados. Os dados são fornecidos num formato que permite um processamento e análise eficientes, tornando-os adequados tanto para estudos em grande escala como para investigações específicas.

Conclusão

O lançamento do conjunto de dados de links do Arquivo.pt representa uma contribuição significativa para a comunidade de investigação científica da Web. Ao disponibilizar gratuitamente esta rica coleção de dados de conetividade da Web, esperamos facilitar a investigação inovadora e aprofundar a nossa compreensão da complexa estrutura da Web.

Encorajamos os investigadores a explorar este conjunto de dados e esperamos ver as novas perspetivas e aplicações que emergem da sua análise. Quer esteja interessado em desenvolver novos algoritmos de pesquisa, estudar a topologia da Web ou investigar relações de conteúdo, este conjunto de dados fornece uma base sólida para a sua investigação.

Eleições de 2024 em Portugal tiveram recolhas especiais no Arquivo.pt

Dezembro 5, 2025Agosto 31, 2024 por Ricardo Basílio

Última atualização em 5 de Dezembro de 2025 às 14:50

O Arquivo.pt fez recolhas especiais sobre as três eleições que se realizaram este ano: as Legislativas de 10 de março, as eleições na Madeira de 26 de maio e as Europeias de 9 de junho.

Foram identificadas mais de 70 mil páginas com conteúdos relacionados com as eleições e a vida política em Portugal e na Europa e recolhidos cerca de 4 Terabytes de informação.

Agradece-se às pessoas que contribuiram com a seleção de endereços. Desafia-se os professores e estudantes a fazerem trabalhos que utilizem as coleções especiais sobre as eleições que o Arquivo.pt tem feito ao longo dos anos.

Saiba mais detalhes sobre o procedimento da recolha e sobre os resultados obtidos.

Eleições Legislativas 2024

As Eleições Legislativas tiveram lugar no dia 10 de março de 2024 para eleger os membros da Assembleia da República para a 16.ª Legislatura da Terceira República Portuguesa.

Destacamos nesta recolha o contributo da comunidade com uma seleção manual de 827 páginas, o que contribuiu para melhorar a qualidade da coleção.

Utilizou-se cerca de 500 termos compostos ou palavras-chave para procurar conteúdos publicados na Web acerca das eleições. O serviço utilizado para pesquisa automática foi o Bing Search API. Os resultados foram limitados ao top 20.

Por exemplo, o termo composto “frente-a-frente legislativas 2024″ encontrou páginas relativas aos debates entre candidatos. O termo “habitação legislativas 2024″ obteve páginas relativas às propostas partidárias para a habitação. O termo “legislativas 2024 site:expresso.pt” identificou páginas do Expresso sobre as eleições. Foram utilizados também os nomes dos candidatos.

Após as eleições foram usados termos de pesquisa próprios para esse período, tais como “vitória legislativas 2024”, “derrota legislativas 2024” ou “resultados legislativas 2024”, entre outros.

A pesquisa automática no Bing Search API resultou em 34.120 endereços obtidos antes das eleições e em 5.803 após as eleições.

Os sites dos partidos políticos, incluindo os partidos sem assento parlamentar, também foram recolhidos durante o período eleitoral.

Nem todos os conteúdos identificados puderam ser efetivamente gravados, devido às limitações das ferramentas de gravação e às restrições dos próprios sites.

Para a gravação foram utilizadas as ferramentas Heritrix, Brozzler e Browsertrix-cloud (versão beta) cortesia do Webrecorder.net.

A gravação realizou-se entre 6 e 20 de março e resultou em 3.2 Terabytes de informação. Os conteúdos foram incluídos na coleção espeacial EAWP45 e estarão disponíveis passado 1 ano.

Para saber mais, consulte o conjunto de dados:

Lista de termos de pesquisa
Resultados da pesquisa automática antes das eleições
Resultados da pesquisa automática depois das eleições
Lista de endereços identificadas de forma manual pela comunidade
Sites dos partidos políticos
Collection ID: EAWP45 (onde se encontram os conteúdos gravados, disponíveis passado 1 ano)

Eleições para a Assembleia Legislativa da Madeira 2024

As Eleições para a Assembleia Legislativa da Madeira realizaram-se a 26 de maio. O Arquivo.pt fez uma recolha especial de conteúdos publicados na Web.

Começou-se por fazer uma pesquisa automática por notícias, páginas eleitorais e websites relacionados com as eleições na Madeira. Utilizou-se uma lista termos de pesquisa para colocar no Bing Search API.

Pretendeu-se obter o maior número possível endereços de páginas (URLs) relacionados com o evento ou tema em causa, ou seja, as eleições madeirenses. Para isso definiu-se vários limites para os resultados: top 10, top 20, top 50 e top 100. Deixou-se documentado esse processo, o qual mostra que quanto mais alargamos o número de resultados maior é o número de páginas pouco relevantes e por vezes fora do alvo pretendido.

A totalidade dos endereços (12.656) foi colocada a gravar no dia 7 de junho no Heritrix crawler.

Saiba mais consultando o conjunto de dados:

Termos de pesquisa
Lista de endereços obtidos no dia das eleições
Lista de endereços obtidos depois das eleições
Lista final de endereços únicos
Collection ID: EAWP46 (onde se encontram os conteúdos gravados, disponível passado 1 ano)

Eleições Europeias 2024 em recolha multilingue

As Eleições Europeias realizaram-se a 9 de junho em Portugal. Em alguns países, como por exemplo, a Estónia, a Chéquia ou a Itália as eleições foram em outras datas.

O Arquivo.pt recolheu páginas relativas às Eleições Europeias nos 27 países da União Europeia e nas 24 línguas oficiais.

Para isso seguiu-se a mesma metodologia usada para a coleção acerca das Eleições Europeias de 2019, ou seja, uma pesquisa multilingue e semiautomática.

Utilizou-se uma lista de 40 termos compostos que foram traduzidos para as 24 línguas oficiais da UE. A tradução dos termos para as diversas línguas foi feita em 2019 pelo pelo EU Publications Office. Dessa colaboração resultou uma lista multilingue com 960 de termos para colocar no Bing Search API.

Antes das eleições, a 3 de junho, foi realizada a primeira pesquisa da qual resultaram 8.986 endereços únicos, com o número de resultado limitado ao top 20.

Depois das eleições, adicionou-se novos termos de pesquisa com os nomes dos principais candidadatos ao Parlamento Europeu em cada país da União Europeia. Desta segunda pesquisa pós-eleitoral foram obtidos 15.371 endereços únicos.

A ferramenta utilizada para esta recolha foi o Heritrix. A recolha foi limitada a três “saltos” (“hops”). O crawler seguiu ligações, neste caso, até três vezes. Quer isto dizer que se optou por uma certa contenção na profundidade da gravação. Três “saltos” ou “hops” no Heritrix crawler é o suficiente para a recolha de uma página (em outras aplicações também denominada por gravação “page” ou “single page”).

Os conteúdos foram gravados entre 7 e 20 de junho e incluídos na recolha especial EAWP46. Estará disponível passado 1 ano.

Saiba mais consultando o conjunto de dados:

Lista multilingue de termos de pesquisa
Resultados da pesquisa automática antes das eleições
Resultados da pesquisa automática depois das eleições
Collection ID: EAWP46 (onde se encontram os conteúdos gravados, disponível passado 1 ano)

Saiba mais sobre as recolhas eleitorais de anos anteriores

Portugueses nos Jogos Olímpicos e Paralímpicos 2024 em coleção internacional de websites do IIPC

Setembro 11, 2024Agosto 22, 2024 por Ricardo Basílio

Última atualização em 11 de Setembro de 2024 às 16:40

print-noticia-rtp-rececao-atletas-paralimpicos-paris-2021 — Jogos Paralímpicos. Miguel Monteiro, medalha de ouro, regressa a Lisboa (Notícia no site da RTP, dia 2 de setembro, selecionada para coleção internacional)

O Arquivo.pt contribuiu para a coleção internacional de páginas Web sobre os Jogos Olímpicos, que decorreram em Paris de 26 de julho a 11 de agosto de 2024, e os Jogos Paralímpicos que se realizaram de 28 de agosto a 8 de setembro.

A iniciativa de criar a coleção “Jogos Olímpicos e Paralímpicos 2024” é da responsabilidade do International Internet Preservation Consortium (IIPC), a principal entidade mundial no domínio da preservação da Internet, através do seu grupo de trabalho Content Development Working Group.

As coleções colaborativas do IIPC têm por objetivo promover a criação de coleções temáticas e coleções baseadas em eventos internacionais. As páginas da Web são gravadas e depois disponibilizadas no serviço Archive-it.

No Arquivo.pt também ficarão disponíveis, passado um ano, as páginas desta coleção para quem quiser realizar estudos sobre desporto e olimpismo.

Como foram selecionadas as páginas sobre os atletas portugueses

Nos Jogos Olímpícos representaram Portugal 73 atletas em 15 modalidades, e nos Jogos Paralímpicos 27 atletas, em 10 modalidades.

O critério de seleção de páginas para a coleção internacional foram notícias sobre os atletas. Para cada atleta selecionou-se páginas referentes às suas expectativas antes dos jogos, à sua prestação na prova e aos seus comentários durante e após a competição.

Há atletas que têm mais notícias selecionadas do que outros e o mesmo acontece com os sites de onde provêm as notícias. A seleção de páginas não se limitou aos primeiros resultados apresentados pelo motor de busca. Procurou-se variedade de canais e notícias de sites regionais e locais, alguns da região ou cidade de onde vieram os atletas.

Mais de 500 páginas para recordar a presença portuguesa em Paris

O contributo do Arquivo.pt, como poderá ver na tabela, já tem mais de 500 paginas Web.

print-tabela-seeds-ilustrativa-jogosolimpicos — Portuguese Seeds – 2024 Summer Olympics and Paralímpics, International Internet Preservation Consortium – Content Development Working Group (IIPC CDG)

Colabore na coleção através do formulário do IIPC

Helena Byrne, curadora dos arquivos da web na British Library e curadora principal desta coleção, convida todas a pessoas a enviarem páginas interessantes para gravar: And we’re off – Get Involved in Web Archiving the Summer Games – Paris 2024.

Para contribuir está disponível o seguinte formulário público:

2024 Summer Olympics & Paralympics

Análise às pesquisas dos utilizadores no Arquivo.pt

Maio 8, 2024 por Ricardo Basílio

Os query logs do Arquivo.pt são recursos únicos para investigação

O Arquivo.pt disponibiliza um serviço “tipo Google” (Google-like) que permite pesquisar páginas e imagens recolhidas da web desde a década de 1990. Note-se que a pesquisa do Arquivo.pt complementa os motores de busca da web, uma vez que permite a pesquisa temporal de informação que já não se encontra disponível online nos seus sítios originais.

A análise do comportamento dos utilizadores é um importante tópico de investigação para compreender as suas necessidades de informação e melhorar a qualidade dos resultados de pesquisa. Assim, quando um utilizador interage com um motor de pesquisa, este regista as acções do utilizador num ficheiro denominado query log (registo de pesquisas). Os query logs sobre arquivos da Web são recursos únicos para a investigação porque descrevem as necessidades reais dos utilizadores de arquivos da Web sobre informações históricas que foram publicadas em linha.

Estudo de caso

Flavie Gallois e Adam Jatowt, da Universidade de Innsbruck, e Ricardo Campos, da Universidade da Beira Interior e do INESC TEC, analisaram o comportamento de pesquisa dos utilizadores com base no conjunto de dados de pesquisas do Arquivo.pt recolhidos durante um período de 3 meses, entre junho e setembro de 2021 (Analyzing User Search Behaviour in Temporal Web Repositories through Search Query Log Analysis).

Este estudo analisou as características das pesquisas, como o comprimento, o tipo ou a frequência, e comparou os resultados obtidos com trabalhos anteriores sobre o comportamento de pesquisa dos utilizadores em arquivos da Web e em motores de pesquisa da Web em tempo real.

O estudo revelou tendências e padrões fundamentais sobre o modo como os utilizadores procuram informações nos arquivos da Web, o que motiva a realização de mais trabalhos de investigação.

Como é que os utilizadores de arquivos Web pesquisam?

Figure 1 : Distribution of country origin of users — Figura 1 : Distribuição por país de origem dos utilizadores

Figure 2: Distribution of languages used in queries — Figura 2: Distribuição por língua utilizadas nas pesquisas

Os utilizadores eram de Portugal em 85,7% das pesquisas. No entanto, a língua portuguesa foi identificada através da identificação automática da língua das pesquisas como sendo utilizada em apenas 37% das pesquisas. Isto sugere que os utilizadores utilizam outras línguas que não a sua para pesquisar em arquivos Web.

Os utilizadores do Arquivo.pt tendem a utilizar queries mais longas, com mais palavras e caracteres, em comparação com estudos anteriores, tanto em arquivos da web como em motores de busca live-web. Cerca de 92% das pesquisas tinham 5 ou menos termos (média de 25 caracteres), sendo 3 o número mais comum de termos submetidos. No trabalho anterior sobre o comportamento de pesquisa em arquivos da Web, observou-se que os utilizadores tendiam a submeter de 1 a 3 termos por pesquisa, sendo 1 termo a submissão mais comum.

Os utilizadores tendem a fazer várias consultas numa sessão, em vez de uma única pesquisa, o que pode indicar a necessidade de aperfeiçoar as suas consultas de pesquisa ou de explorar várias opções de pesquisa

87,7% das pesquisas submetidas ao Arquivo.pt utilizaram browsers de desktop (computadores de secretária), apesar de o Arquivo.pt disponibilizar interfaces de utilizador amigáveis para telemóveis, as páginas antigas arquivadas na web não são responsivas e são mal renderizadas em dispositivos móveis. Assim, é expetável que os utilizadores utilizem maioritariamente os arquivos web através dos seus desktops.

Figure 3: Arquivo.pt users can refine the time span of their queries by using the From and To datepickers. — Figura 3: Os utilizadores do Arquivo.pt podem refinar o período de tempo das suas pesquisas utilizando os selectores de data “De” e “Até” (*From and To*).

Os utilizadores refinaram o período de tempo da pesquisa (utilizando os marcadores de data) em cerca de 50% das pesquisas, o que indica uma consciência das necessidades temporais próprias da utilização de arquivos Web. Curiosamente, os utilizadores modificaram o seletor de data “De” com mais frequência do que o seletor de data “Até”. Note-se que a manutenção do período de tempo predefinido pode corresponder às necessidades de informação do utilizador e não indica necessariamente a falta de conhecimento da existência da função de definição do período de tempo (própria da pesquisa em arquivos Web).

Apenas uma pequena percentagem de utilizadores incluiu anos específicos nos seus termos de pesquisa (4%), o que pode sugerir que a função de intervalo de tempo foi insuficiente ou passou despercebida a alguns utilizadores.

Os resultados obtidos sugerem que os utilizadores estão mais conscientes das suas necessidades de informação e que melhoraram as suas técnicas de pesquisa para serem mais eficazes nos arquivos Web, em vez de os utilizarem apenas por curiosidade, como primeiros utilizadores.

O que é procurado num arquivo Web?

Os autores do estudo aplicaram o reconhecimento automático de entidades (automatic entity recognition) sobre as pesquisas dos utilizadores e obtiveram um conjunto de nuvens de palavras que fornecem graficamente uma ideia das necessidades de informação mais comuns dos utilizadores do Arquivo.pt:

Figure 4: Word cloud of the most frequent query terms submitted to Arquivo.pt. — Figura 4: Nuvem de palavras dos termos de pesquisa mais frequentes submetidos ao Arquivo.pt.

Figure 6: The most frequent Geographical Locations in query terms submitted to Arquivo.pt. — Figura 6: As localizações geográficas mais frequentes nos termos de pesquisa submetidos ao Arquivo.pt.

Figure 6: The most frequent Organizations in query terms submitted to Arquivo.pt

Figura 6: As organizações mais frequentes nos termos de pesquisa submetidos ao Arquivo.pt.

Figure 7: The most frequent Persons in query terms submitted to Arquivo.pt. — Figura 7: As pessoas mais frequentes nos termos de consulta submetidos ao Arquivo.pt.

Acesso ao dados das pesquisas no Arquivo.pt (query dataset)

O Arquivo.pt lançou um conjunto de recursos para apoiar estudos de investigação sobre as pesquisas dos utilizadores (query dataset):

An Analysis on a Query Dataset from Arquivo.pt Search Engine technical report
Arquivo.pt Query Dataset for Research (cheat sheet)
Query_Log_Page_Search_Log4j_Sample.txt: amostra por seleção aleatória de pesquisas de páginas (page search query log) (Log4j format).
Query_Log_Image_Search_Log4j_Sample.txt: amostra por seleção aleatória de pesquisas de imagens (image query log) (Log4 format).
Query_Log_Apache_HTTPD_Sample.txt: amostra que contém os logs do Apache HTTPd (Apache HTTPd query log).
Query_Dataset_Sample.csv: tabela que contém uma amostra das pesquisas (sample of the dataset query).
Query_Dataset_ArquivoPT.7z (in UTF-8): este ficheiro corresponde ao conjunto completo de dados de pesquisas disponíveis para investigação, recolhidos durante um período de 3 meses, de junho a setembro de 2021. Aconselhamos a ter cuidado ao abrir o ficheiro, porque alguns leitores, como o Microsoft Excel, podem utilizar o conjunto de caracteres errado e danificar o conteúdo, por exemplo, da coluna L “QUERY”.
- Ver How to set character encoding when opening a CSV file in Excel? – Super User
- Gerou o ficheiro Logs file in XLSX format

Métricas de avaliação para pesquisa em arquivos Web

O primeiro passo para compreender o comportamento do utilizador é definir métricas de avaliação. A definição de métricas é uma ferramenta poderosa para estabelecer objectivos a longo e a curto prazo para decidir que novos produtos e funcionalidades devem ser lançados aos utilizadores.

Partilhamos um relatório de trabalho em curso que agrega informações sobre as métricas de avaliação da pesquisa em arquivos da Web: Web Archive Search Evaluation Metrics . Isto contribui para comparar o comportamento de pesquisa dos utilizadores entre os motores de pesquisa da Web em direto e os dos arquivos da Web. Não hesite em comentar diretamente o documento colaborativo ou em contactar-nos.

Este relatório fornece também um resumo de referências sobre trabalhos anteriores, fluxos de pesquisa e estrutura dos correspondentes registos de pesquisa produzidos pelo Arquivo.pt, para facilitar o trabalho dos investigadores no estudo destes conjuntos de dados.

Para saber mais

Comemoração dos 50 anos do 25 de Abril com o Arquivo.pt

Maio 3, 2024Maio 3, 2024 por Ricardo Basílio

O Arquivo.pt associou-se às comemorações dos 50 anos do 25 de Abril no âmbito das iniciativas promovidas pela Fundação para a Ciência e a Tecnologia, I.P. (FCT), em parceria com a Estrutura de Missão – Comissão Comemorativa 50 anos 25 de Abril.

As iniciativas foram as seguintes: uma viagem no tempo, uma recolha especial sobre o tema “25 de Abril”, uma comunicação no Congresso Internacional 50 anos de Abril e a inclusão de uma menção especial na edição de 2025 do Prémio Arquivo.pt.

Exposição “Memórias do 25 de Abril na Internet”

A exposição Memórias do 25 de Abril na Internet apresenta uma seleção de páginas Web sobre as comemorações do 25 de Abril em diversas regiões do país, desde o princípio da Web na década de 1990.

Os critérios para a escolha das páginas da exposição foram os seguintes:

Páginas relativas a comemorações do 25 de Abril;
Páginas encontradas no Arquivo.pt em datas próximas da efeméride, em cada ano;
Diversidade para incluir diversas zonas do país;
Manifestações populares e cerimónias oficiais.

Uma memória histórica sem os arquivos da Web é incompleta. Com esta viagem no tempo pretende-se convidar os cidadãos a viajarem no tempo, percorrendo páginas Web antigas e reavivando episódios recentes da nossa vida em democracia.

Visite a exposição: arquivo.pt/50anos25abril

Recolha especial sobre o 25 de Abril

Para assinalar a efeméride, o Arquivo.pt realizou uma recolha especial sobre o tema “25 de Abril” e disponibilizou os resultados num conjunto de dados abertos, publicado no portal Dados.gov.

O conjunto de dados contém uma lista de palavras-chave colocadas num motor de busca a fim de obter resultados sobre o tópico “25 de Abril”. Na pesquisa considerou-se nomes de pessoas, lugares, aspetos políticos, sociais, culturais e ainda palavras associadas ao acontecimento.

As pesquisas foram realizadas no dia 22 de março de 2024 utilizando o Bing Search API, um serviço de pesquisa automática que devolve resultados de acordo com critérios de relevância do próprio serviço Bing e de outros configurados por nós.

No total foram obtidos 12.650 endereços únicos de páginas Web. Espera-se que a gravação destas páginas seja útil para as organizações que produziram esses conteúdos, para os investigadores que pretendem estudar a nossa história e para os cidadãos que cultivam o sentido da memória e da democracia.

Participação no Congresso Internacional 50 anos de Abril

memorial-congresso-internacional-50anos25abril — João Gomes, Diretor Serviços Avançados, FCCN-FCT apresentando o serviço Memorial do Arquivo.pt no Congresso Internacional 50 anos de Abril

No dia 2 de maio de 2024, João Gomes, Diretor dos Serviços Avançados da FCCN Unidade de Computação Científica da Fundação para a Ciência e a Tecnologia I.P., apresentou o Arquivo.pt aos participantes do Congresso Internacional 50 anos de Abril, como um serviço distinto, aberto aos cidadãos e útil para as organizações.

Este evento organizado pela Comissão Comemorativa 50 anos 25 de Abril e pela Universidade de Lisboa e incluiu uma apresentação de dois serviços da FCT para os cidadãos: o Arquivo.pt e os cursos massivos online da NAU.

O Arquivo.pt é um serviço de preservação da Web disponível para todos os cidadãos que pretendem pesquisar conteúdos antigos publicados na Web.

A utilização do Arquivo.pt contribui para uma melhor compreensão da nossa história. Além disso, fornece serviços úteis para a cibersegurança, como por exemplo o Memorial do Arquivo.pt que é capaz de manter os sites antigos das instituições, prevenindo ataques e poupando-lhes recursos.

Menção especial “O 25 de Abril e a Democracia” no Prémio Arquivo.pt 2025

O Prémio Arquivo.pt realiza-se anualmente e distingue trabalhos que utilizem o Arquivo.pt.

Em 2025, na continuação das comemorações dos 50 anos do 25 de Abril, será incluída uma menção especial a trabalhos sobre o tema “O 25 de Abril e a Democracia”.

Desafia-se pois os investigadores e cidadãos interessados a criarem trabalhos inovadores utilizando o Arquivo.pt.

Para questões relacionadas com o Prémio Arquivo.pt, contacte-nos.

Inteligência Artificial processa dados preservados no Arquivo.pt

Julho 16, 2024Março 1, 2024 por Ricardo Basílio

Última atualização em 16 de Julho de 2024 às 8:37

Inteligência Artificial (IA), conhecida também pela sigla AI, de Artificial Intelligence, abrange várias áreas do conhecimento, tais como a linguística e a computação, e está presente nas novas tecnologias utilizadas no dia-a-dia pelos cidadãos.

Por exemplo, quando procuramos uma informação na Internet e o computador gera uma resposta espantosamente adequada, numa linguagem muito próxima da nossa.

O processamento da linguagem natural (PLN), correspondente em inglês a Natural Language Processing, NLP, é o que permite que as máquinas aperfeiçoem o algoritmo que gera essas respostas à medida dos utilizadores da Internet.

O problema é que os modelos de processamento de linguagem natural foram desenvolvidos mais para a língua inglesa e menos para língua portuguesa e outras com menos representação.

Quanto mais os modelos de processamento forem treinados sobre uma língua mais capazes serão de interpretar as complexidades da linguagem. Mas isso só é possível se tiverem dados de qualidade.

Acervo de texto em português no Arquivo.pt disponível para a investigação

O Arquivo.pt surge aqui como o maior conjunto de dados textuais em língua portuguesa de Portugal, disponível em acesso aberto, para os investigadores treinarem modelos de PLN.

Nos últimos anos foram os próprios investigadores, provenientes de vários grupos e projetos de investigação, que chamaram a atenção para a utilidade dos dados preservados da Web para processamento em larga escala.

O Arquivo.pt tem mais de 1 Petabyte de conteúdos preservados da Web, desde a década de 1990, onde se inclui tudo o que se pode encontrar nas páginas Web. Não se trata apenas de texto, mas também de imagens, ficheiros áudio, vídeo, o código das páginas e diversos metadados.

Os conteúdos estão acessíveis através da interface de pesquisa e das APIs do Arquivo.pt.

Para maior facilidade de descarregamento em massa de recursos arquivados na Web, o Arquivo.pt criou para os investigadores informação já processada em índices no formato CDXJ.

GlórIA, um modelo para a língua portuguesa

Um dos projetos que utilizou o Arquivo.pt para obter grande quantidade de texto denomina-se GlórIA e é um modelo de linguagem em larga escala (LLM, Large Language Model) focado na língua portuguesa europeia.

“Apesar da abundância de LLMs para muitas línguas de recursos elevados, a disponibilidade de tais modelos continua a ser limitada para o português europeu”, como explicam os autores do GlórIA, Ricardo Lopes, João Magalhães, David Semedo, investigadores da Faculdade de Ciência e Tecnologia da Universidade Nova de Lisboa, no seu artigo GlórIA – A Generative and Open Large Language Model for Portuguese.

O modelo utilizou 35 000 milhões de tokens, ou expressões que as máquinas conseguem processar, provenientes de diversas fontes.

O Arquivo.pt contribuiu com uma coleção de 1,4 milhões de notícias e periódicos portugueses europeus arquivados no Arquivo.pt.

Pode experimentar a geração de texto em Português Europeu usando o GlórIA Inference API disponível na plataforma Hugging Face Model card.

Se pretender desenvolver um projeto ou um estudo utilizando o Arquivo.pt pode começar a sua prospeção e, se precisar de ajuda, contacte-nos.