Inteligência Artificial processa dados preservados no Arquivo.pt

Artificial Intelligence AI

Última atualização em 16 de Julho de 2024 às 8:37

Inteligência Artificial (IA), conhecida também pela sigla AI, de Artificial Intelligence, abrange várias áreas do conhecimento, tais como a linguística e a computação, e está presente nas novas tecnologias utilizadas no dia-a-dia pelos cidadãos.

Por exemplo, quando procuramos uma informação na Internet e o computador gera uma resposta espantosamente adequada, numa linguagem muito próxima da nossa.

O processamento da linguagem natural (PLN), correspondente em inglês a Natural Language Processing, NLP, é o que permite que as máquinas aperfeiçoem o algoritmo que gera essas respostas à medida dos utilizadores da Internet.

O problema é que os modelos de processamento de linguagem natural foram desenvolvidos mais para a língua inglesa e menos para língua portuguesa e outras com menos representação.

Quanto mais os modelos de processamento forem treinados sobre uma língua mais capazes serão de interpretar as complexidades da linguagem. Mas isso só é possível se tiverem dados de qualidade.

Acervo de texto em português no Arquivo.pt  disponível para a investigação

O Arquivo.pt surge aqui como o maior conjunto de dados textuais em língua portuguesa de Portugal, disponível em acesso aberto, para os investigadores treinarem modelos de PLN.

Nos últimos anos foram os próprios investigadores, provenientes de vários grupos e projetos de investigação, que chamaram a atenção para a utilidade dos dados preservados da Web para processamento em larga escala.

O Arquivo.pt tem mais de 1 Petabyte de conteúdos preservados da Web, desde a década de 1990, onde se inclui tudo o que se pode encontrar nas páginas Web. Não se trata apenas de texto, mas também de imagens, ficheiros áudio, vídeo, o código das páginas e diversos metadados.

Os conteúdos estão acessíveis através da interface de pesquisa e das APIs do Arquivo.pt.

Para maior facilidade de descarregamento em massa de recursos arquivados na Web, o Arquivo.pt criou para os investigadores informação já processada em índices no formato CDXJ.

GlórIA, um modelo para a língua portuguesa

Um dos projetos que utilizou o Arquivo.pt para obter grande quantidade de texto denomina-se GlórIA e é um modelo de linguagem em larga escala (LLM, Large Language Model) focado na língua portuguesa europeia.

“Apesar da abundância de LLMs para muitas línguas de recursos elevados, a disponibilidade de tais modelos continua a ser limitada para o português europeu”, como explicam os autores do GlórIA, Ricardo Lopes, João Magalhães, David Semedo, investigadores da Faculdade de Ciência e Tecnologia da Universidade Nova de Lisboa, no seu artigo GlórIA – A Generative and Open Large Language Model for Portuguese.

O modelo utilizou 35 000 milhões de tokens, ou expressões que as máquinas conseguem processar, provenientes de diversas fontes.

O Arquivo.pt contribuiu com uma coleção de 1,4 milhões de notícias e periódicos portugueses europeus arquivados no Arquivo.pt.

Pode experimentar a geração de texto em Português Europeu usando o GlórIA Inference API disponível na plataforma Hugging Face Model card.

Se pretender desenvolver um projeto ou um estudo utilizando o Arquivo.pt pode começar a sua prospeção e, se precisar  de ajuda, contacte-nos.

Para saber mais

 

Completar páginas do passado: sim é possível!

Última atualização em 16 de Outubro de 2023 às 19:04

Existem páginas arquivadas da web que são reproduzidas de forma incompleta devido a problemas ocorridos durante o processo de arquivo (ex. desformatadas ou com falta de imagens embedidas).

Completar a página é uma funcionalidade do Arquivo.pt que permite recuperar os elementos em falta nas páginas arquivadas a partir de outros arquivos da web ou dos websites originais.

Quando um utilizador visualiza uma página arquivada no Arquivo.pt, basta aceder ao menu Opções no canto superior direito e escolher Completar a página.

Este processo é realizado de forma automática e o Arquivo.pt é o único arquivo da web no mundo que o disponibiliza!

Como funciona o Completar a página?

Se abrir uma página arquivada que lhe pareça incompleta, tente a opção Completar a página e aguarde.

O Arquivo.pt efetuará uma busca pelos elementos em falta, na Internet e noutros arquivos da Web utlizando o protocolo Memento. Em caso de sucessso, os elementos obtidos serão imediatamente mostrados na página.

Posteriormente, estes elementos recuperados são integrados no acervo do Arquivo.pt, para que a página apareça sempre mais completa em futuras consultas realizadas por qualquer utilizador.

complete-page-website-cristina-guerra

Completar a página de entrada do website da artista Cristina Guerra encontrou uma imagem em falta.

Por exemplo, o website da artista Cristina Guerra, arquivado em 2005, tinha uma imagem em falta. Mas utilizando o Completar a página, foi possível em 2021 obtê-la a partir de outro arquivo da web que a tinha preservado e passar a presentar a página de forma mais completa.

Participe na curadoria colaborativa para melhorar a qualidade do Arquivo.pt!

Devido ao elevado número de páginas arquivadas não é possível ao Arquivo.pt tentar completar todas automaticamente. Por isso, a colaboração dos utilizadores para identificar páginas importantes com elementos em falta e tentar completá-las é importante.

Ao utilizar o Completar a página a comunidade de utilizadores está  a contribuir para melhorar a qualidade das páginas preservadas no Arquivo.pt!

Experimente sempre completar as páginas arquivadas que lhe pareçam incompletas e se detectar algum problema contacte-nos.

Divulgue o Completar a página do Arquivo.pt!

Apresentações acerca do Arquivo.pt nas Jornadas FCCN 2023

thumbnail jornadas FCCN 2023

Última atualização em 25 de Setembro de 2023 às 14:37

As inscrições para as Jornadas de Computação Científica 2023, que decorreram na Escola Naval em Almada de 27 a 29 de junho de 2023!

Este evento é um encontro para partilha de conhecimento entre as entidades que compõem a comunidade de ensino superior e de investigação nacionais.

O evento conta com a participação de decisores das instituições, responsáveis por serviços técnicos de informática e responsáveis por bibliotecas e serviços de documentação, entre outros.

O Arquivo.pt apresentou duas sessões de 90 minutos, no dia 28 de junho das 14h30 às 18h00, sob o tema “Serviços Arquivo.pt para gerir citações e cibersegurança”.

Agenda da sessões Arquivo.pt

28 de junho 14h30-16h00: Arquivo.pt – serviços disponíveis e arquitetura de sistema

28 de junho 16h30-18h00: Arquivo.pt – uma ferramenta para gerir citações e cibersegurança

Memorial do Arquivo.pt

Milhões de imagens sobre o passado!

thumbnail_pesquisa_imagens

Última atualização em 23 de Agosto de 2022 às 16:19

O Arquivo.pt lançou uma nova versão denominada Dionisius, no dia 24 de março de 2021.

1 800 milhões de imagens do passado da Web passaram a estar pesquisáveis no Arquivo.pt!

A pesquisa sobre este volume de imagens arquivadas da Web é uma inovação à escala mundial.

Para assistir a uma apresentação acerca da criação deste sistema inovador, veja a gravação da 21ª sessão do Café com o Arquivo.pt intitulada “Milhões de imagens sobre o passado – como foram indexadas no Arquivo.pt”.

Veja por exemplo, como uma pesquisa de imagens sobre a “Seleção Nacional” apresenta imagens oriundas dos websites arquivados.

print_image_search

Página de resultados de uma pesquisa acerca da “Seleção Nacional” no Arquivo.pt.

A nova API de pesquisa de imagens permite também criar novos trabalhos para se candidatar aos Prémios Arquivo.pt.

Ajude-nos a melhorar!

Se detectar algum problema, por favor contacte-nos!

Lembre-se de enviar sempre o endereço da página onde detectou o problema.

Para saber mais

“Será que quis dizer” – nova versão do Arquivo.pt

Thumnail query_suggest_print

Última atualização em 24 de Março de 2021 às 13:32

O Arquivo.pt lançou uma nova versão, denominada Caronte, no dia 19 de janeiro de 2021.

Nesta versão destaca-se a nova sugestão de pesquisas (Será que quis dizer:).

Sempre que um utilizador introduz uma expressão de pesquisa contendo um potencial erro, o Arquivo.pt apresenta uma sugestão de pesquisa alternativa.

Por exemplo, ao pesquisar “lixboa” recebe a sugestão “Será que quis dizer: lisboa”.

query_suggest_print

Figura 1: Exemplo de funcionamento da sugestão de pesquisas ao utilizar, por exemplo, o termo “lixboa”

A abertura de candidaturas ao Prémio Arquivo.pt 2021 até 4 de maio também passou a estar em destaque no Arquivo.pt!

Ajude-nos a melhorar!

Se detectar algum problema, por favor contacte-nos!

Lembre-se de enviar sempre o endereço da página onde detectou o problema.

Para saber mais

Ver a lista dos 16 problemas resolvidos

Melhorámos a interface do Arquivo.pt

Thumbnail feature basileus version

Última atualização em 16 de Novembro de 2020 às 16:05

O Arquivo.pt lançou uma nova versão, denominada Basileus, no dia 11 de novembro de 2020.

O objetivo desta versão foi melhorar a experiência do utilizador ao navegar pelas diversas interfaces do Arquivo.pt.

Foram feitos ajustes ao nível do Web design dos quais resultaram uma maior coerência na estrutura do código, nos aspetos gráficos e nas interações, como por exemplo cores, tipo de letra e botões.

Print 2 Arquivo.pt versão Basileus

Figura 1: Interface de pesquisa e reprodução de páginas Web. Na imagem, a reprodução de uma página da coleção histórica Geocities.

Ajude-nos a melhorar!

Se detectar algum problema, por favor contacte-nos!

Lembre-se de enviar sempre o endereço da página onde detectou o problema.

Para saber mais

Nova versão do Arquivo.pt para telemóveis

página inicial do Arquivo.pt - versão mobile

No dia 28 de Novembro de 2017, o Arquivo.pt lançou uma nova versão do seu serviço denominada Afrodite.

Esta nova versão tem como principal novidade a disponibilização de interfaces de utilização adaptadas para dispositivos móveis.

Por outro lado, permite também aceder às versões móveis dos sites preservados.

O Arquivo.pt passou a preservar também a web móvel!

Versão móvel da página de entrada do Arquivo.pt.

É agora mais fácil utilizar o Arquivo.pt em todo o lado

Utilizando o seu telemóvel, experimente pesquisar por todas as versões que o Arquivo.pt preservou do site da organização onde trabalhou ou estudou.

Lista de versões preservadas de um site ao longo do tempo.

pesquisa por texto- versão para telemóveis

Versão móvel da pesquisa textual.

rtp.pt em 2005- versão para telemóveis

As versões móveis dos sites preservados também podem ser acedidas.

E ainda…

Foram também feitas alterações nas interface de utilização para computadores, incluindo um novo rodapé responsivo e uma nova barra de seleção de idioma.

E publicada a versão alfa de uma nova API para melhorar o acesso automático à informação preservada pelo Arquivo.pt.

Para saber mais, consulte os detalhes técnicos  da nova versão do Arquivo.pt.

É muito importante que nos ajude a testar esta nova versão!

Existem numerosos modelos de dispositivos móveis e não conseguimos realizar testes em todos.

Agradecíamos imenso se gastasse 1 minuto para nos ajudar a testar esta nova versão através do seu telemóvel ou tablet.

Se detectar algum problema, agradecemos imenso que nos avise indicando também o modelo do seu dispositivo e browser utilizado.

Este seu contributo é mesmo muito valioso para garantirmos a qualidade do serviço que prestamos à comunidade.