Maio 2025 – sobre.arquivo.pt

Eleições Legislativas 2025 tiveram recolha especial do Arquivo.pt

Maio 28, 2025Maio 26, 2025 por Ricardo Basílio

Última atualização em 28 de Maio de 2025 às 8:59

O Arquivo.pt realizou uma recolha especial de conteúdos publicados online, relacionados com as Eleições Legislativas de 18 de maio de 2025.

Foram gravadas mais de 8 mil páginas únicas, antes e depois das eleições, as quais resultaram em cerca de 250 Gigabytes de informação.

Nesta coleção encontram-se notícias nos meios de comunicação social, sites dos Partidos e outras publicações dos cidadãos que documentam este importante evento da vida portuguesa.

Os dados da recolha estão disponíveis para permitir aos investigadores utilizarem nos seus trabalhos e projetos.

Metodologia de recolha do evento eleitoral

A recolha foi realizada usando uma metodologia semi-automática que permite identificar e recolher informação com rapidez e poupar recursos. Os passos foram os seguintes:

preparação de lista com termos de pesquisa;
pesquisa automática com o Bing Search API;
extração de lista de endereços de páginas ou URLs;
gravação (usando o Browsertrix-crawler);
integração no Arquivo.pt;
disponibilização de conjunto de dados para investigação.

O ponto de partida para identificar páginas para este evento eleitoral foi uma lista de termos de pesquisa, incluindo palavras, nomes, datas, endereços de sites e também palavras em outras línguas. Por exemplo, usou-se “eleições” “legislativas”, 2025, nomes de candidatos, sites dos Partidos, sites dos jornais e as palavras “eleições Portugal” em outras línguas europeias para termos páginas de meios estrangeiros que se referiram às eleições portuguesas. Foram utilizados 384 termos de pesquisa.

Desde as Eleições Europeias de 2019, o Arquivo.pt utiliza o serviço Bing Search API para obter de forma automática os resultados mais relevantes. Os endereços ou URLs extraídos são então colocados a gravar, assumindo que há páginas que falham o alvo e privilegiando a rapidez, fator importante neste tipo de evento.

Fez-se uma pesquisa antes das eleições e duas na semana seguinte, com a respetiva gravação, a fim de juntar novos conteúdos à coleção.

Finalmente, publicou-se todos os dados acerca desta recolha especial. Convida-se os investigadores a usar esta informação para projetos ou estudos e para concorrerem ao Prémio anual Arquivo.pt.

Dados da recolha Eleições Legislativas 2025

O conjunto de dados Eleições Legislativas 2025 foi publicado no portal de dados abertos

Saiba mais sobre as recolhas eleitorais de anos anteriores

Cursos online gratuitos sobre o Arquivo.pt na plataforma NAU

Maio 21, 2025Maio 16, 2025 por Ricardo Basílio

Última atualização em 21 de Maio de 2025 às 11:43

Está lançado o programa de formação online do Arquivo.pt, intitulado A Web do passado: preservação e pesquisa, com inscrição aberta e gratuita na plataforma NAU, para quem quer aprofundar os seus conhecimentos sobre o arquivo da Internet.

Daniel Gomes, Gestor do Arquivo.pt, que desenvolveu este programa de formação, anunciou-o em primeira mão na Faculdade de Letras da Universidade de Coimbra, durante o workshop Preservação digital: ferramentas e práticas, no dia 7 de maio de 2025.

Inscrições abertas na plataforma NAU para o MOOC sobre o Arquivo.pt

NAU – Sempre a Aprender é a plataforma de e-learning da Fundação para a Ciência e a Tecnologia, através da sua unidade FCCN. A iniciativa NAU foca-se no suporte à publicação e dinamização de conteúdos em formato Massive Open Online Courses (MOOC) em língua Portuguesa.

O objetivo deste programa é desenvolver competências ao nível da pesquisa da memória digital da Web, com destaque para a utilização do Arquivo.pt tanto no dia-a-dia como no contexto dos estudos e da investigação.

O programa desenvolve-se em quatro cursos:

Não são necessários requisitos especiais, além de um computador com acesso à Internet e um navegador como, por exemplo, Google, Chrome, Internet Explorer.

Inscreva-se. Divulgue: arquivo.pt/mooc

Saber mais

Entrevista no Dia da Internet, 17 de maio, publicada no site da plataforma NAU

Workshop sobre Preservação digital na Universidade de Coimbra

Maio 22, 2025Maio 10, 2025 por Ricardo Basílio

Última atualização em 22 de Maio de 2025 às 18:45

O Arquivo.pt participou no workshop intitulado “Preservação digital: ferramentas e práticas”, promovido pela Faculdade de Letras da Universidade de Coimbra, na tarde do dia 7 de maio de 2025. Com a moderação de Inês Santos, destacamos o painel inicial com excelentes intervenções de Moisés Rockembach (Universidade de Coimbra), Humberto Innarelli (Unicamp) e Daniel Gomes (Arquivo.pt, serviço digital da FCCN-FCT).

O encontro teve por objetivo oferecer à comunidade uma reflexão crítica acerca das novas tendências nas ferramentas e nas práticas de preservação digital.

A preservação digital é um tema transversal às organizações, pois todas produzem e geram informação em suporte digital. É cada vez maior a oferta de ferramentas, soluções que prometem maior eficiência no processamento de informação. Muitas são colocadas sob a designação de Inteligência Artificial. Tal abundância de produtos e enquadramentos exige uma maior discussão e abordagem crítica. E isso foi alcançado de forma brilhante pelo painel de oradores.

Três abordagens sobre Inteligência Artificial e Preservação Digital

Este encontro reuniu no Anfiteatro III da Faculdade de Letras da Universidade de Coimbra três autores de obras sobre preservação digital e trouxe à discussão abordagens diferentes.

Moisés Rockembach, co-autor com Caterina Pavão de Arquivamento da Web e preservação digital, a primeira obra em português sobre arquivos da Web, centrou a sua apresentação no impacto da Inteligência Artificial nos sistemas de preservação digital, nomeadamente na pesquisa e no acesso à informação, em processos de classificação indexação, por exemplo. A esse propósito do impacto das novas ferramentas que a tecnologia digital nos oferece, fez referência a uma frase de Demi Gretscko: “O processo de busca e captura da informação descrito no texto certamente poderá sofrer aportes futuros, especialmente ao se considerar o aporte de ferramentas novas, como as da Inteligência Artificial”.

Há ferramentas de Inteligência Artificial que permitem um acesso interessante à informação pela novidade e pelo formato. A arquivística deve ter em conta essa realidade e testar até que ponto isso pode transformar o modo como se opera a divulgação e o acesso a muitos conteúdos. Um exemplo para ilustrar esta ideia, foi a apresentação de um Podcast gerado por Inteligência Artificial, baseado no capítulo 2 do livro sobre Arquivos da Web, que versa sobre as políticas de preservação digital.

Link para Podcast gerado por Inteligência Artificial (publicado no Instagram)

Humberto Innarelli, autor de Criptex da preservação digital, autor de Criptex da preservação digital, coordenador do Arquivo Edgard Leuenroth (AEL) e investigador especialista em arquivística na Unicamp, São Paulo e professor Doutor do Centro Paula Souza, São Paulo, colocou a questão do futuro da preservação digital. Até agora, a prática para preservar conteúdos digitais dinâmicos é convertê-los em documentos estáticos. Por outro lado, cada vez a informação é-nos dada de forma dinâmica, a partir de bases de dados ou de algoritmos e Inteligência Artificial. Qual é o próximo passo? A prática arquivística tem de olhar não apenas para os metadados (metadata), como tem feito nos últimos anos, mas também para aquilo que explica como a informação foi gerada (o que podemos chamar paradata). Só assim é possível colocar a arquivística e a preservação digital na perspetiva do longo termo. Daqui a cem ou duzentos anos deveríamos ser capazes de continuar a aceder à informação digital produzida atualmente.

Daniel Gomes, editor principal do livro The Past Web, fundador do Arquivo.pt, discutiu a questão da Inteligência Artificial na sua relação com os conteúdos de produção não artificial e humana. Que valor acrescentado trazem as ferramentas geradoras de texto, imagem, áudio ou vídeo? Se considerarmos por exemplo que um Podcast sobre preservação digital utilizou como base um livro escrito por um autor humano, que conhecimento novo gerou? Pouco ou nenhum. Assim, o que se convencionou chamar Inteligência Artificial pode considerar-se como uma forma de apresentar o conhecimento humano e de modo nenhum dispensa a humanidade de continuar a pensar, a investigar e a produzir novo conhecimento.

O Arquivo.pt preserva conteúdos que foram publicados por pessoas e organizações e nesse sentido é uma fonte única no seu género. A informação publicada na Web é importante para relatar e compreender melhor a história recente, desde a década de 1990. Qualquer ferramenta de Inteligência Artificial terá de voltar ao ponto onde a informação foi criada por pessoas. A origem humana dos conteúdos preservados pelo Arquivo.pt, e o mesmo se pode dizer dos arquivos tradicionais, faz com que estes tenham um enorme valor, até considerando-o do ponto de vista do valor económico. Quanto vale a informação preservada por um arquivo da Web?

Estreia do MOOC ou curso online do Arquivo.pt

Daniel Gomes, Gestor do Arquivo.pt anunciou em primeira mão o curso online na plataforma NAU: A Web do passado: preservação e pesquisa.

O curso online ou MOOC (Massivo Online Open Course) está disponível para quem pretende aprofundar os seus conhecimentos sobre preservação da Web.

O link curto para divulgação é arquivo.pt/mooc

Os dados preservados do Arquivo.pt e o seu processamento automático por APIs

Vasco Rato, desenvolvedor do Arquivo.pt, mostrou como funcionam as interfaces de processamento automático, Application Programming Interfaces (APIs).

Os dados do Arquivo.pt podem ser processados por Inteligência Artificial. Os trabalhos concorrentes ao Prémio Arquivo.pt já o demonstraram, assim como alguns projetos como o GlórIA, um Large Language Model, desenvolvido na NOVA-FCT.

Para terminar, Ricardo Basílio, curador digital do Arquivo.pt, mostrou como qualquer pessoa pode gravar uma página ou um website inteiro no seu próprio computador num formato normalizado, compatível com os arquivos da Web. Usou-se para isso o ArchiveWeb.page e browsertrix-crawler como ferramentas de treino e formação. Esta prática permite que a comunidade seja cada vez mais ativa na preservação de informação institucional publicada na Web.

Agenda do evento

14h30 Painel – Moderadora: Inês Santos, Universidade de Coimbra

Preservação digital e Inteligência Artificial – Moisés Rockembach, Universidade de Coimbra – Slides
Cryptex da Preservação Digital: O próximo passo – Humberto Innarelli, Unicamp – Slides
Arquivo.pt e a preservação da Web – Daniel Gomes, FCCN-FCT – Slides

16h00 Intervalo

Dados Abertos para a Investigação. Processamento automático de informação através de APIs – Vasco Rato, FCCN-FCT – Slides
Demo – Arquivar a Web: faça-você-mesmo – Ricardo Basílio, FCCN-FCT – Slides
- Demo de gravação manual com o ArchiveWeb.page
- Demo de gravação automática com o Browsertrix-crawler

17h00 – Final

Galeria de imagens

Imagens nos canais da Faculdade de Letras da Universidade de Coimbra

Vídeo com momentos do evento (publicado no Facebook)

Workshop na Faculdade de Letras da Universidade de Coimbra

Arquivo.pt em Coimbra nas Jornadas da FCCN

Maio 17, 2025Maio 6, 2025 por Ricardo Basílio

Última atualização em 17 de Maio de 2025 às 12:33

A equipa do Arquivo.pt esteve em Coimbra, entre os dias 6 e 8 de maio, nas Jornadas FCCN para promover a preservação da Internet portuguesa, pois a divulgação e a promoção constituem uma vertente importante da sua missão.

Na terça-feira, de manhã, Pedro Gomes apresentou os destaques na sessão Zapping FCCN e à tarde, das 16h30 às 18 horas, realizou-se a sessão do Arquivo.pt, Mãos na massa para arquivar a Web.

Na quarta-feira, dia 7, às 14h30, a equipa do Arquivo.pt deslocou-se à Universidade de Coimbra para participar no encontro promovido pela Faculdade de Letras (FCUL), intitulado Preservação digital: ferramentas e práticas (Anfiteatro III, Piso 4).

Ao fim da tarde de quarta-feira, Daniel Gomes, participou na sessão Democratizar a IA: tornar a Inteligência Artifícial acessível a todos sobre o contributo do Arquivo.pt para o LLM AMÁLIA.

Destaques do Arquivo.pt na sessão Zapping da FCCN

Pedro Gomes, encarregado das recolhas do Arquivo.pt, mostrou a imagem mais antiga arquivada no Arquivo.pt que se encontra precisamente no antigo site da Universidade de Coimbra. Destacou a nova funcionalidade que permite reproduzir conteúdos em Flash, os dados estatísticos do Arquivo.pt, os prémios e os conjuntos de dados.

Mão na massa para arquivar a Web

Nesta sessão, orientada por Ricardo Basílio, curador digital do Arquivo.pt, mostrou-se como gravar páginas web em formato normalizado utilizando o seu próprio computador.

Esta ação, com o formato “mão na massa” ou “faça-você-mesmo!”, enquadra-se na missão do Arquivo.pt de promoção da preservação da Internet (Decreto-Lei nº 55/2013). Ao mostrar como funciona a gravação de websites estamos a fortalecer também a ligação da comunidade ao Arquivo.pt.

Para quem precisa de guardar cópias de alta qualidade de websites esta sessão é uma ajuda. Os participantes foram desafiados a gravar páginas estáticas e outras com conteúdos interativos, vídeos e redes sociais. A partir das questões que surgiram durante os exercícios práticos, esclarecemos dúvidas e mostrámos que arquivar conteúdos Web é muito fácil.

Usámos a extensão ArchiveWeb.page, ferramenta do Webercorder.net, que os participantes puderam obter gratuitamente e instalar nos próprios computadores.

Se é informático ou utilizador avançado de IT

Para quem tem a expectativa e a necessidade de gravar sites inteiros automaticamente, fizemos uma breve referência ao Browsertrix-crawler, uma ferramenta avançada que corre num Docker, em Linux. Informáticos e utilizadores avançados de IT foram desafiados a tentar a gravação e arquivo de Websites.

As demonstrações e exercícios que propusemos usando o ArchiveWeb.page ou Browsertrix-crawler aplicam-se também a casos de uso avançado e respondem a necessidades de arquivo da Web no dia-a-dia das organizações.

Materiais da sessão “mãos na massa”

Democratizar a IA: tornar a Inteligência Artifícial acessível a todos

No segundo dia das Jornadas da FCCN, 8 de maio de 2025, na sessão dedicada à Inteligência Artificial, Daniel Gomes, por parte da FCNN-FCT, e João Magalhães, por parte da NOVA-FCT, apresentaram o “AMÁLIA: Assistente Multimodal automático de Linguagem com IA”.

Daniel Gomes explicou como o Arquivo.pt é utilizado para processamento em larga escala, concretamente através das Application Programming Interfaces do Arquivo.pt (APIs).

As APIs permitem que os investigadores acedam à informação do Arquivo.pt de forma automática e desenvolvem diversas aplicações em projetos de investigação. Por exemplo, usaram APIs projetos como o Conta-me Histórias, o modelo para língua portuguesa LLM GlórIA e, presentemente, o LLM AMÁLIA.

Slides da apresentação