Conjuntos de dados para investigação

Última atualização em 13 de Dezembro de 2024 às 14:08

Índices CDXJ

A comunidade de investigação e educação tem vindo a solicitar o download em massa de dados arquivados na web e ficheiros de índice (CDXJ), por exemplo, para alimentar modelos de treino de IA, otimizar o encaminhamento de pedidos de arquivos da web ou recuperar informação de sites selecionados (ex. notícias). O Arquivo.pt começou a disponibilizar publicamente todos os seus ficheiros de índice CDXJ em tempo real para facilitar o download em massa de dados arquivados na web. Saiba como em:

Crawl reports

O Arquivo.pt disponibiliza os logs de algumas das suas recolhas (web crawling). Estes dados são úteis para a investigação e permitem efetuar vários tipos de análise. Estão também disponíveis exemplos de análise de logs.

2015 general crawl of .PT domain

2015 EU domain crawl

2019 European Elections crawl

2020 Covid special collection

Link graphs

Query logs

Seeds utilizadas em recolhas do Arquivo.pt

As seeds (sementes) são os endereços ou URLs a partir dos quais o crawler inicia a recolha de dados. Uma coleção especial no Arquivo.pt é uma coleção ocasional focada num evento ou tópico específico (por exemplo, eleições, sites de artistas, etc.). O Arquivo.pt disponibiliza uma lista de sementes de colecções especiais, uma vez que estas podem ser um ponto de partida para a análise e estudo de eventos ou temas.

Seeds das coleções especiais (EAWPs)

All available seeds of special collections (EAWPs)

Seeds publicadas no portal Dados.gov

Dados.gov é um sítio web onde entidades da administração pública e cidadãos podem publicar dados abertos. O Arquivo.pt utiliza o Dados.gov para publicar e disseminar os seus dados. Dezenas de listas de sementes utilizadas em colecções especiais (jornais, media, arte, música, eleições, etc) podem ser encontradas no Dados.gov. Foi também disponibilizada uma cópia dessas informações para download no sítio do Arquivo.pt.

Seeds of Público newspaper (over time)

Link curto para esta página: arquivo.pt/opendata