Última atualização em 13 de Dezembro de 2024 às 14:08
Índices CDXJ
A comunidade de investigação e educação tem vindo a solicitar o download em massa de dados arquivados na web e ficheiros de índice (CDXJ), por exemplo, para alimentar modelos de treino de IA, otimizar o encaminhamento de pedidos de arquivos da web ou recuperar informação de sites selecionados (ex. notícias). O Arquivo.pt começou a disponibilizar publicamente todos os seus ficheiros de índice CDXJ em tempo real para facilitar o download em massa de dados arquivados na web. Saiba como em:
- CDXJ indexes (all, available for download)
- Bulk download of web-archived resources (wiki)
- Tutorial: how to explore Arquivo.pt using Python (news)
- Artificial Intelligence processes data from Arquivo.pt (news)
Crawl reports
O Arquivo.pt disponibiliza os logs de algumas das suas recolhas (web crawling). Estes dados são úteis para a investigação e permitem efetuar vários tipos de análise. Estão também disponíveis exemplos de análise de logs.
2015 general crawl of .PT domain
- Heritrix crawl log, 2015 (tar, available for download, 20 GB)
- Heritrix crawl report, 2015 (tar, available for download 21 MB)
2015 EU domain crawl
- Analysing Crawl Heritrix reports (html)
- A first attempt to archive the .EU domain (news)
- A first attempt to archive the .EU domain, technical report, 2015 (pdf)
- Automatic Identification and Preservation of R&D Websites (pdf)
2019 European Elections crawl
- 2019 European Elections crawl (html)
- Cross-lingual collection about the 2019 European Elections is available (html)
- A transnational crawl of the European Parliamentary Elections 2019. Technical report (pdf)
2020 Covid special collection
- Logs of Covid 2020 (zip, available for download, 11 GB)
- Collection about Covid-19 in Portugal (news)
Link graphs
Query logs
- All query logs
- QueryLogs BeforeClean (csv, available for download, 48 GB)
- Querylogs version 1 (zip, available for download, 5 MB)
Seeds utilizadas em recolhas do Arquivo.pt
As seeds (sementes) são os endereços ou URLs a partir dos quais o crawler inicia a recolha de dados. Uma coleção especial no Arquivo.pt é uma coleção ocasional focada num evento ou tópico específico (por exemplo, eleições, sites de artistas, etc.). O Arquivo.pt disponibiliza uma lista de sementes de colecções especiais, uma vez que estas podem ser um ponto de partida para a análise e estudo de eventos ou temas.
Seeds das coleções especiais (EAWPs)
All available seeds of special collections (EAWPs)
- Seeds EAWP40, pos-elections, list of seeds the Portuguese Parlamentary Elections 2022 (txt, download)
- Seeds EAWP40 pre-elections, list of seeds about the Portuguese Parliamentary Elections 2022 (txt, download)
- Seeds EAWP41, about cryptocurrencies (txt, download)
- Seeds EAWP42, external links from Wikipedia, (txt, download)
- Seeds EAWP43, citations in scientific articles from RCAAP, the Portuguese open acess scientific repository (txt, download)
- Seeds EAWP44, URLs presented in scientific CVs from the Ciencia Vitae portal (txt, download)
- Seeds EAWP45 pos-elections, list of seeds about the Portuguese Parliamentary Elections 2024 (download txt, download)
- Seeds EAWP45 pre-elections, list of seeds about the Portuguese Parliamentary Elections 2024 (txt, download)
- Seeds EAWP46, about the European Elections 2024, Madeira Elections 2024 and also from Ciencia Vitae CVs (txt, download)
- Seeds EAWP47, about scientific publications, from Ciencia Vitae, RCAAP and Instituto Superior Tecnico repository (txt, download)
Seeds publicadas no portal Dados.gov
Dados.gov é um sítio web onde entidades da administração pública e cidadãos podem publicar dados abertos. O Arquivo.pt utiliza o Dados.gov para publicar e disseminar os seus dados. Dezenas de listas de sementes utilizadas em colecções especiais (jornais, media, arte, música, eleições, etc) podem ser encontradas no Dados.gov. Foi também disponibilizada uma cópia dessas informações para download no sítio do Arquivo.pt.
- All datasets published on Dados.gov (website)
- Summary of all files published on Dados.gov – list (xlsx, available for download)
- Copy of individual files at the arquivo.pt website – list files (available for download)
- Arquivo.pt certified as an open data provider (news)
Seeds of Público newspaper (over time)
- List of historical domains of Público newspaper
- Transformations of the Websites of Portuguese Newspapers (news)
Link curto para esta página: arquivo.pt/opendata