API – sobre.arquivo.pt

Acesso em bloco a conteúdos arquivados

Abril 18, 2023Abril 18, 2023 por admin

Um grupo de investigadores olham para um bastidor de servidores

A comunidade académica e de investigação tem solicitado a possibilidade de descarregar automaticamente seleções de conteúdos arquivados e ficheiros de índice (CDXJ), por exemplo, para alimentar modelos de aprendizagem automática de Inteligência Artificial ou recuperar informação de sítios web selecionados (ex. notícias ou websites que foram atacados).

O Arquivo.pt passou a disponibilizar publicamente os seus ficheiros de índice CDXJ em tempo real, para facilitar o acesso automático a grandes volumes de conteúdos arquivados da web. Saiba como em:

https://arquivo.pt/api#bulk

A sua opinião é muito importante para nós, contacte-nos enviando comentários ou sugestões de melhoria!

Agradecemos também que divulgue esta informação por potenciais interessados.

Tutorial: como explorar o Arquivo.pt usando Python

Agosto 2, 2024Julho 29, 2022 por admin

Última atualização em 2 de Agosto de 2024 às 12:08

O Programming Historian visa desenvolver competências digitais entre os investigadores de Humanidades através da publicação de aulas práticas em vários idiomas.

A chamada Computational analysis skills for large-scale humanities data originou 7 novas lições.

Uma delas foi o tutorial “Sumarização de narrativas acerca de eventos do passado documentados na web utilizando Python: o caso do Arquivo.pt” desenvolvido por Daniel Gomes e Ricardo Campos.

Este tutorial mostra como explorar as interfaces de utilizador e de Programação de Aplicações (API) disponibilizadas pelo Arquivo.pt para realizar pesquisas avançadas, processar grandes quantidades de dados ou desenvolver novos serviços, tais como o ContaMeHistorias.pt.

Todos os recursos criados estão disponíveis gratuitamente em acesso aberto.

Recursos de acesso aberto do tutorial “Sumarização de narrativas acerca de eventos do passado documentados na web utilizando Python: o caso do Arquivo.pt”

Projeto Colab que permite editar e executar diretamente os exemplos de código do tutorial (Português, English)
Página oficial no Programming Historian
Vídeo apresentado em 5 de maio de 2022 como parte dos webinars e tutoriais do Programming Historian “Computational analysis skills for large-scale humanities data”
- Slides

Milhões de imagens sobre o passado!

Agosto 23, 2022Abril 1, 2021 por Ricardo Basílio

Última atualização em 23 de Agosto de 2022 às 16:19

O Arquivo.pt lançou uma nova versão denominada Dionisius, no dia 24 de março de 2021.

1 800 milhões de imagens do passado da Web passaram a estar pesquisáveis no Arquivo.pt!

A pesquisa sobre este volume de imagens arquivadas da Web é uma inovação à escala mundial.

Para assistir a uma apresentação acerca da criação deste sistema inovador, veja a gravação da 21ª sessão do Café com o Arquivo.pt intitulada “Milhões de imagens sobre o passado – como foram indexadas no Arquivo.pt”.

Veja por exemplo, como uma pesquisa de imagens sobre a “Seleção Nacional” apresenta imagens oriundas dos websites arquivados.

Página de resultados de uma pesquisa acerca da “Seleção Nacional” no Arquivo.pt.

A nova API de pesquisa de imagens permite também criar novos trabalhos para se candidatar aos Prémios Arquivo.pt.

Ajude-nos a melhorar!

Se detectar algum problema, por favor contacte-nos!

Lembre-se de enviar sempre o endereço da página onde detectou o problema.

Para saber mais

The Anatomy of a Web Archive Image Search Engine (technical report)
Código-aberto do sistema de pesquisa de imagens
Lista dos 34 problemas resolvidos
ImageSearch API v1.1 (beta)
Premio Arquivo.pt 2021