O Arquivo.pt no Porto nas Jornadas FCCN 2026

thumbnail-jornadas-fccn-porto

Última atualização em 27 de Maio de 2026 às 14:20

A equipa do Arquivo.pt realizou uma sessão aberta à comunidade, no dia 5 de maio, durante as Jornadas FCCN 2026.

A sessão contou com cerca de 80 participantes e incluiu temas que, presentemente, marcam a atividade do Arquivo.pt. Nomeadamente, a utilização do acervo preservado para a investigação, o uso por ferramentas de inteligência artificial (IA) e a participação em projetos de LLMs  para a língua portuguesa.

As Jornadas FCCN tiveram lugar na Faculdade de Economia da Universidade do Porto, entre 5 e 7 de maio de 2026. Estiveram presentes cerca de 1000 participantes. Foi uma oportunidade para encontrar muitas pessoas que interagem connosco durante o ano.

Como o arquivo da Web está a ser usado para a investigação, IA e LLMs

Como é que três décadas de história da Web portuguesa podem ser usadas para investigação, inovação tecnológica e para treinar modelos de Inteligência Artificial? Nesta sessão do Arquivo.pt nas Jornadas da FCCN mostrou, de forma prática e acessível, como o acervo preservado está hoje a ganhar nova vida — desde projetos de IA generativa ao desenvolvimento de ferramentas abertas para toda a comunidade académica.
A sessão foi dividida em cinco momentos, cada um focado em novidades concretas e casos de uso reais.

1. Amália AI: IA treinada com dados do Arquivo.pt – inspiração, métodos e resultados

Pedro Gomes,  mostrou como os dados históricos do Arquivo.pt foram utilizados no desenvolvimento do Amália, um LLM para a língua portuguesa. Explicou o processo de preparação dos dados, os desafios específicos da Web portuguesa e exemplos do que o modelo consegue gerar quando se apoia em décadas de memória digital nacional.

Foi um apresentação inspiradora para quem quer perceber o impacto real de coleções web arquivadas em projetos de IA.

2. Nova pesquisa de texto com Apache Solr: mais rápida, moderna e escalável

Em 2025 redesenhámos o sistema de pesquisa textual do Arquivo.pt. Nesta parte da sessão, Vasco Rato falou desse trabalho em curso:

  • como funciona internamente um motor de pesquisa para páginas antigas;
  • que desafios existem quando se indexam biliões de páginas;
  • e como a nova arquitetura com Apache Solr abre caminho para pesquisas mais completas, rápidas e flexíveis.

3. Uso de IA para geração de código

Ivo Branco mostrou como a utilização de Inteligência Artificial para gerar código está a acelerar significativamente o desenvolvimento do Arquivo.pt. O que antes começava como uma “melhoria incógnita” passa agora rapidamente a uma tarefa concreta no plano de trabalho, graças à capacidade da IA em propor soluções, estruturar código e apoiar a automação de processos.

O gestor do Arquivo.pt mostrou também as melhorias no sistema de reprodução de páginas (replay), agora baseado em ZipNum, tecnologias que reduzem de forma drástica o tempo de acesso a conteúdos arquivados — mesmo quando se tratam de biliões de registos.

O recurso a IA permite-nos implementar estas otimizações mais rapidamente, aumentar a qualidade do código produzido e libertar tempo da equipa para áreas de maior inovação e investigação.

4. Arquive o seu site na hora

Para terminar, Ricardo Basílio fez uma demonstração prática de como arquivar por iniciativa própria:

  • arquivar uma página diretamente para o Arquivo.pt, em segundos com ArchivePageNow;
  • gravar conteúdos no próprio computador em formato WARC com Webrecorder;
  • compreender como estes ficheiros podem ser reutilizados, analisados ou preservados a longo prazo.

5. Coleções temáticas: preservar a sua memória

Do ambiente às eleições, da ciência à cultura digital, o Arquivo.pt produz regularmente coleções temáticas para preservar momentos importantes da sociedade.

Ficou este ponto por apresentar na sessão (em breve será disponibilizado). No entanto, incluímos um comentário na parte final do vídeo da sessão. Quisemos assim explicar como são definidas, curadas e preservadas estas recolhas especiais e como podem ser exploradas para ensino, investigação ou simples curiosidade histórica.

Patrocinador da sessão

Patrício Cachaço apresentou as soluções do Fortinet Secure LAN: Security-Driven Networking with AIOps.

Materiais da sessão

Ler maisO Arquivo.pt no Porto nas Jornadas FCCN 2026

Participação na Web Archiving Conference em Bruxelas

thumbnail-iipc-wac-2026

A equipa do Arquivo.pt participou na Web Archiving Conference (WAC) e na Assembleia Geral do International Internet Preservation Consortium (IIPC), em Bruxelas, entre 20 e 23 de abril de 2026.

A Web Archiving Conference é o maior evento dedicado à preservação da Internet. Tem a participação de iniciativas de todo o mundo, como por exemplo, o Internet Archive, bibliotecas nacionais  e centros de investigação que desenvolvem metodologias para usar conteúdos históricos da Web.

O IIPC (International Internet Preservation Consortium)  é a entidade que procura reunir as diversas iniciativas de arquivo da Web, coordenando esforços para a manutenção e desenvolvimento de normas, ferramentas, coleções e formação.

O estado atual do arquivo da Web belga

A KBR (De Koninklijke Bibliotheek van België), biblioteca nacional belga, situada no coração de Bruxelas, foi a anfitriã da Web Archiving Conference, que teve cerca de 250 participantes. A sessão de abertura da conferência foi a de apresentação de resultados e do fecho do projeto piloto para o arquivo da Web belga.

Em 2017,  a Bélgica iniciou um projeto denominado PROMISE ((PReserving Online Multiple Information: towards a Belgian Strategy) para o arquivo da Web nacional. A partir de 2019, com o financiamento do Belgian Science Policy Office (BELSPO), houve um período de cinco anos de experimentação que terminou com a apresentação de um protótipo de arquivo da Web em 2026. Foram parceiros deste projeto a entidade dos arquivos nacionais, o State Archives of Belgium (AGR) e, da parte da investigação, a Ghent University.

A recolha de conteúdos da Web belga foi feita no quadro do depósito legal existente para materiais impressos, adaptado em dezembro de 2016 para os conteúdos digitais da Web.

O projeto PROMISE utilizou as ferramentas abertas, partilhadas pela comunidade do IIPC (para a recolha, o Browsertrix-crawler, ferramenta do Webrecorder.net; para a reprodução, o software pywb). O acesso aos conteúdos é restrito e limitado ao sistema da biblioteca e a coleção foi enriquecida com metadados e informação no catálogo.

Apresentações do Arquivo.pt

Para mostrar o que o Arquivo.pt tem feito para promover o acesso e demonstrar o valor do seu serviço, contribuímos com três apresentações.

Galeria de imagens

IIPC WAC 2026

Abertura da WAC 2026 na KBR
Equipa do Arquivo.pt no IIPC WAC
Apresentação de Vasco Rato
Apresentação de Pedro Gomes
wac-iipc-memorial-cabon-footprint-1
Abertura da WAC 2026 na KBR Equipa do Arquivo.pt no IIPC WAC Apresentação de Vasco Rato Apresentação de Pedro Gomes wac-iipc-memorial-cabon-footprint-1

Projeto Bridges “Ponte cultural” da Universidade de Évora colabora com o Arquivo.pt

thumbnail-i-seminario-bridges

Última atualização em 27 de Maio de 2026 às 11:37

O Arquivo.pt está a colaborar com o projeto Bridges “Ponte Cultural”, do CIDEHUS – Centro Interdisciplinar de História, Culturas e Sociedades, da Universidade de Évora.

O contributo do Arquivo.pt consiste em apresentar conteúdos formativos acerca da preservação de conteúdos publicados na Internet e realizar coleções especiais no âmbito temático do projeto, como por exemplo, a mulher, a imigração e os conteúdos regionais do Alentejo na blogosfera.

O projeto BRIDGES, dirigido pela Investigadora Principal María Zozaya, é um trabalho resultante do concurso Science for Policy, (PLANAPP-FCT, S4P25-LT 24) “desenvolvido no âmbito do concurso Estudos de Ciência para as Políticas Públicas, uma iniciativa do Centro de Planeamento e de Avaliação de Políticas Públicas em parceria com a Fundação para a Ciência e a Tecnologia, I.P. e financiada pelo Plano de Recuperação e Resiliência”.

I Seminário Internacional “Mulheres em Foco”

Nos dias 17 e 18 de março, realizou-se o primeiro Seminário Internacional do Projeto BRIDGES intitulado “Mulheres em Foco: da narrativa à representação na linguagem, arte, património e mundo digital”.

O Arquivo.pt participou na sessão online com a apresentação “Visibilidade das mulheres na Web: reflexo da nossa sociedade desde a década de 1990”. Mostrou-se como o arquivo contém informação da Web do passado, útil para o estudo da temática da mulher. Destacou-se três trabalhos que utilizaram o Arquivo.pt, nomeadamente:

No âmbito deste tema, o Arquivo.pt está a realizar uma coleção temática sobre as mulheres portuguesas que se evidenciaram no âmbito da cultura, arte e ciência. A lista de URLs ficará acessível no portal Dados.gov.

Materiais da sessão

II Seminário Internacional “I have a dream”

Nos dias 15, 16 e 17 de abril, realizou-se o segundo Seminário Internacional do Projeto BRIDGES intitulado «I have a dream. À luz da diversidade: arte, cultura, políticas públicas e mundo digital».

Erik Bran Marino e Rafael Prezado, alunos doutorandos da Universidade de Évora, apresentaram o “Narrative Monitoring: Análise de Teorias Conspirativas de Substituição Populacional no Arquivo Web Português (1996-2021)“.

No website Narrative Monitor é possível visualizar os resultados e fazer um quiz.

O trabalho Narrative Monitoring, é um dos vencedores do Prémio Arquivo.pt 2025, classificado em 3º lugar. Foi desenvolvido pela equipa de investigadores do CIDEHUS, constituída por Erik Bran Marino, Rafael Prezado, Ana Sofia Ribeiro, Renata Vieira. É um excelente exemplo de utilização do Arquivo.pt em contexto de investigação.

O curador digital do Arquivo.pt, abordou o tema “Os dados da diversidade multiracial no Arquivo.pt” mostrando como a Web tem sido um espaço de liberdade de expressão, de afirmação e reivindicação.

A atividade de arquivar a Web e preservar a memória, por sua vez, é algo que implica iniciativa e participação da comunidade. Foram dados alguns exemplos internacionais e nacionais dessa faceta “ativista” do arquivo da Web:

No âmbito desta sessão o Arquivo.pt está a realizar uma coleção temática acerca da migração e das PRCT, (do inglês Comparative analysis of conspiracy theories in Europe), com base nos 150 termos de pesquisa utilizados na investigação de Erik Bran Marino.

Materiais da sessão

III Seminário Internacional “Limitações invisíveis? Inclusão da diferença”

Nos dias 13, 14 e 15 de maio realizou-se o terceiro seminário Limitações invisíveis? Inclusão da diferença através da arte, cultura e mundo digital, dedicado ao tema da inclusão de grupos intergeracionais, os idosos, as pessoas desfavorecidas, pessoas com deficiência e com neuro divergências (TDAH/ADHD, TEA).

O Arquivo.pt participou na sessão online com um especialista convidado,  José Miguel Nogueira, Professor, membro do CIES-iscte e Investigador Principal do Self-Determination & Inclusion by Theater-Project SDIT.  José Miguel Nogueira falou deste projeto europeu no qual o teatro contribuiu de forma excecional para a integração de pessoas com autismo. Por fim, desafiou a audiência de mentalidade na forma como se relaciona com as pessoas com autismo.

Como contributo especial para esta sessão, curador digital do Arquivo.pt identificou e publicou uma lista de websites das ONGs das pessoas com deficiência com registo no Instituto Nacional para a Reabilitação, onde se pode ver o histórico preservado.

O tema da acessibilidade e os benefícios que traz para toda a sociedade foi especialmente abordado durante a apresentação.

 

FCCN apresenta Arquivo.pt no evento “File Not Found” em Lisboa

 

goethe-institut-file-evento-file-not-found

Lisboa recebeu, entre 23 e 26 de março, o evento File Not Found, organizado pelo Goethe-Institut. Ao longo de quatro dias, a iniciativa reuniu especialistas nacionais e internacionais, promovendo uma reflexão sobre o papel dos arquivos na era digital, nomeadamente sobre o seu valor cultural, social e político, num mundo digital em permanente transformação. Foram destacadas práticas, desafios e responsabilidades associadas à preservação do património informacional, neste contexto de crescente digitalização.

No último dia do encontro, 26 de março, João Gomes, diretor de área da FCCN, unidade de serviços digitais da FCT, participou no painel “Archiving Online: Power, Risk, and Digital Care Practices”. A sua intervenção centrou-se no Arquivo.pt, o serviço público de preservação de conteúdos da web portuguesa, desenvolvido pela FCCN.

João Gomes apresentou a missão e os avanços do Arquivo.pt, sublinhando a importância de garantir que a informação publicada online possa ser preservada e reutilizada por investigadores, jornalistas, entidades públicas e cidadãos. Destacou ainda o papel do serviço na promoção da literacia digital e na defesa do acesso aberto à informação.

Saber mais sobre colaborações do Arquivo.pt

Arquivo.pt participou no IDCC 2026 em Zagreb

IDCC 2026 Zagreb

Última atualização em 16 de Março de 2026 às 12:35

IDCC 2026 Zagreb

O Arquivo.pt participou no evento International Digital Curation Conference com a apresentação intitulada How Arquivo.pt is preserving scientific research project websites and promoting data reuse (Como o Arquivo.pt está a preservar sites de projetos de investigação científica e a promover a reutilização de dados), tendo sido representado por Ricardo Basílio, curador digital.

O IDDC 2026 realizou-se em Zagreb, Croácia, entre os dias 16 e 18 de fevereiro. O organizador deste evento anual é o Digital Curation Center, consórcio de referência no âmbito da gestão e curadoria dos dados para a investigação científica. Este evento teve 219 participantes de 30 países, 5 de Portugal.

No mesmo painel, moderado por Mikala Narclock, da Indiana University, houve as seguintes apresentações: Organizing a community to survive research ecosystem instability, por Lauren Phegley, da University of Pennsylvania, What should be saved? The impact of austerity on data rescue, por Shona Jane Fergusonm do UK Centre for Ecology and Hydrology, e How do you calculate the carbon footprint of your digital preservation activities?, por Jenny Mitcham do Digital Preservation Coalition.

Desafios contemporâneos na curadoria digital

O tema da conferência deste ano foi AI, austerity, and authoritarianism: contemporary challenges in digital curation (IA, austeridade e autoritarismo: desafios contemporâneos na curadoria digital).

Na abertura, a keynote Antica Čulinam, cientista do Instituto Ruder Boskovic, abordou a questão da fiabilidade da Ciência, a qual necessita de processos transparentes, escrutinados, e de dados não falseados, bem documentados.

Em sessões paralelas, foram tratados outros desafios atuais, tais como, a pegada carbónica, o uso de IA, casos bem sucedidos de gestão de dados e de envolvimento da comunidade.

Na sessão de encerramento, o tema da preservação da Web esteve em destaque com a apresentação de Mikala Narclock, da Indiana University, e Linda Kellam, da Universidade de Pennsylvania, sobre a iniciativa Data Rescue Project.

A urgência é um critério determinante na preservação da Web, sobretudo quando estão em causa resultados de investigação científica.

Homenagem a Kevin Ashley

O momento final da conferência foi para homenagear Kevin Ashley, diretor do DCC desde abril de 2010.  Desde a década de 1990, trabalhou no desenvolvimento e provisão de serviços de preservação digital, enquanto chefe de arquivos digitais no Centro de Computação da Universidade de Londres (ULCC). Como líder do DCC e grande comunicador, tem desempenhado um papel carismático no desenvolvimento da planificação da gestão de dados, aconselhamento, orientação e formação.

Em Portugal, temos registo de duas intervenções de Kevin Ashley  na 5ª Conferência Luso-Brasileira sobre Acesso Aberto (CONFOA), na Universidade de Coimbra, em 2014, que aqui recordamos:

Contributo do Arquivo.pt para preservação dos resultados da investigação científica

O Arquivo.pt, serviço digital da FCT, tem entre as suas prioridades a preservação de todos os tipos de informação publicada na Web relacionada com projetos de investigação, tais como Websites de projetos, resumos de publicações científicas, notícias nos meios de comunicação social relacionadas com projetos e, em geral, toda a informação da Web referenciada em publicações científicas.

Por exemplo, e esse foi o caso apresentado aos participantes da conferência, em 2021, o Arquivo.pt identificou e recolheu 17 Terabytes de informação relacionada com projetos financiados pela Comissão Europeia do H2020. Até então, 46% dos projetos H2020 não referiam os seus Websites ou páginas de projeto nos dados publicados no portal europeu Cordis.

A partir desta iniciativa bem sucedida, o Arquivo.pt tem realizado recolhas sistemáticas de conteúdos relacionados com os projetos, em colaboração com o RCAAP, PTCRIS e Ciência Vitae, de onde se obtém URLs de publicações disponíveis na Web.

Uso do Arquivo.pt pelos investigadores

Ao mesmo tempo que o Arquivo.pt tomou a iniciativa de gravar conteúdos Web produzidos pelos investigadores, aumentaram nos últimos anos os casos de uso sobre o seu acervo. Ou seja, temos mais investigadores a fazer uso dos dados e a testar metodologias. Encontramos alguns exemplos nos LLMs para a língua portuguesa, como o GlórIA e o AmálIA, e nos trabalhos trabalhos concorrentes ao Prémio Arquivo.pt.

Por exemplo, um grupo de investigadores do CIDEHUS – Centro Interdisciplinar de História, Culturas e Sociedades da Universidade de Évora, em 2025, usou o Arquivo.pt para criar o trabalho Narrative Monitoring: Análise de Teorias Conspirativas de Substituição Populacional no Arquivo Web Português (1996-2021).

Assim, pretendeu-se mostrar à audiência que a preservação dos resultados da investigação científica tem de ter o envolvimento dos próprios investigadores. A partir do momento em que estes conhecem e usam o Arquivo.pt estão também mais preparados para cuidarem da preservação das suas publicações.

Saber mais

 

Recolha especial de conteúdos Web sobre as Eleições Presidenciais. Precisamos da sua ajuda!

Presidenciais 2026 -logo-PR2026-thumbnail

Última atualização em 13 de Março de 2026 às 11:28

A Eleição para o Presidente da República em 2026 realizou-se entre 18 de janeiro e 15 de fevereiro. O Arquivo.pt recolheu 2.3 Terabytes de conteúdos eleitorais e, agora, disponibiliza os dados relativos a todo o processo, tais como termos de pesquisa, conteúdos identificados e conteúdos arquivados.

As Eleições Presidenciais de 2026 tiveram dois sufrágios, o primeiro a 18 de janeiro, o segundo a 8 de fevereiro, e ainda um turno em 20 freguesias, a 15 de fevereiro, na sequência das tempestades que assolaram o país.  Assim,  é expectável encontrar-se na coleção notícias sobre as zonas afetadas bem como as intervenções políticas dos candidatos presidenciais.

Apelo à participação da comunidade na identificação e arquivo de conteúdos eleitorais

No dia 15 de janeiro o Arquivo.pt convidou a comunidade a participar na recolha acerca das eleições com a seguinte mensagem: “Websites dos candidatos, notícias, colunas de opinião ou publicações nas redes sociais, tudo é útil para uma representação da nossa vida em democracia. Encontrou um conteúdo eleitoral interessante? Participe na identificação e arquivo de conteúdos eleitorais.”

Duas modalidades foram sugeridas:

Metodologia do Arquivo.pt para a cobertura temática das eleições

Seguindo a prática adotada em eleições anteriores, o procedimento teve estes passos:

  • definição de termos de pesquisa
  • identificação de páginas de resultados em motor de busca (SERP)
  • gravação faseada das seeds (endereços de partida para uso do crawler)
  • integração no Arquivo.pt
  • disponibilização de conjunto de dados

Por termo de pesquisa entende-se uma combinação de palavras para usar num motor de busca. Por exemplo: nome_do_candidato+presidenciais 2026+Portugal.

Para identificar conteúdos eleitorais utilizou-se o Google e para extrair os resultados serviu ainda a ferramenta Google Rank Checker,Keyword SERP Ranking Tool. As limitações colocadas recentemente pelo motor de busca à simples pesquisa manual de resultados por um utilizador (10 de cada vez) tornaram menos eficiente o uso deste método.

A gravação foi faseada da seguinte forma: antes e depois da primeira volta, a 12 e 23 de janeiro, antes e depois da segunda volta a 5 e 12 de fevereiro e ainda gravação final de todas as seeds, a 18 de fevereiro.

Resultaram 2.3 Terabytes de informação, 11,4 milhões de ficheiros, obtidos a partir de cerca de 34 mil seeds, usando o Heritrix e o Browsertrix-crawler.

Os conteúdos encontram-se arquivados no coleção EAWP51 e ficarão acessíveis na interface do Arquivo.pt passado 1 ano. Por agora disponibiliza-se informação acerca da pesquisa e identificação de conteúdos.

Conjunto de dados das Eleições Presidenciais 2026

Disponível na plataforma Dados.gov:

Saiba mais sobre as recolhas eleitorais de anos anteriores