Acesso em bloco a conteúdos arquivados

Um grupo de investigadores olham para um bastidor de servidores

A comunidade académica e de investigação tem solicitado a possibilidade de descarregar automaticamente seleções de conteúdos arquivados e ficheiros de índice (CDXJ), por exemplo, para alimentar modelos de aprendizagem automática de Inteligência Artificial ou recuperar informação de sítios web selecionados (ex. notícias ou websites que foram atacados).

O Arquivo.pt passou a disponibilizar publicamente os seus ficheiros de índice CDXJ em tempo real, para facilitar o acesso automático a grandes volumes de conteúdos arquivados da web. Saiba como em:

A sua opinião é muito importante para nós, contacte-nos enviando comentários ou sugestões de melhoria!

Agradecemos também que divulgue esta informação por potenciais interessados.

Tutorial: como explorar o Arquivo.pt usando Python

Última atualização em 17 de Julho de 2023 às 13:42

O Programming Historian visa desenvolver competências digitais entre os investigadores de Humanidades através da publicação de aulas práticas em vários idiomas.

A chamada Computational analysis skills for large-scale humanities data originou 7 novas lições.

Uma delas foi o tutorial “Sumarização de narrativas acerca de eventos do passado documentados na web utilizando Python: o caso do Arquivo.pt” desenvolvido por Daniel Gomes e Ricardo Campos.

Este tutorial mostra como explorar as interfaces de utilizador e de Programação de Aplicações (API) disponibilizadas pelo Arquivo.pt para realizar pesquisas avançadas, processar grandes quantidades de dados ou desenvolver novos serviços, tais como o ContaMeHistorias.pt.

Todos os recursos criados estão disponíveis gratuitamente em acesso aberto.

Recursos de acesso aberto do tutorial “Sumarização de narrativas acerca de eventos do passado documentados na web utilizando Python: o caso do Arquivo.pt”

 

Milhões de imagens sobre o passado!

thumbnail_pesquisa_imagens

Última atualização em 23 de Agosto de 2022 às 16:19

O Arquivo.pt lançou uma nova versão denominada Dionisius, no dia 24 de março de 2021.

1 800 milhões de imagens do passado da Web passaram a estar pesquisáveis no Arquivo.pt!

A pesquisa sobre este volume de imagens arquivadas da Web é uma inovação à escala mundial.

Para assistir a uma apresentação acerca da criação deste sistema inovador, veja a gravação da 21ª sessão do Café com o Arquivo.pt intitulada “Milhões de imagens sobre o passado – como foram indexadas no Arquivo.pt”.

Veja por exemplo, como uma pesquisa de imagens sobre a “Seleção Nacional” apresenta imagens oriundas dos websites arquivados.

print_image_search

Página de resultados de uma pesquisa acerca da “Seleção Nacional” no Arquivo.pt.

A nova API de pesquisa de imagens permite também criar novos trabalhos para se candidatar aos Prémios Arquivo.pt.

Ajude-nos a melhorar!

Se detectar algum problema, por favor contacte-nos!

Lembre-se de enviar sempre o endereço da página onde detectou o problema.

Para saber mais