2026 – sobre.arquivo.pt

FCCN apresenta Arquivo.pt no evento “File Not Found” em Lisboa

Março 30, 2026Março 30, 2026 por Ricardo Basílio

Lisboa recebeu, entre 23 e 26 de março, o evento File Not Found, organizado pelo Goethe-Institut. Ao longo de quatro dias, a iniciativa reuniu especialistas nacionais e internacionais, promovendo uma reflexão sobre o papel dos arquivos na era digital, nomeadamente sobre o seu valor cultural, social e político, num mundo digital em permanente transformação. Foram destacadas práticas, desafios e responsabilidades associadas à preservação do património informacional, neste contexto de crescente digitalização.

No último dia do encontro, 26 de março, João Gomes, diretor de área da FCCN, unidade de serviços digitais da FCT, participou no painel “Archiving Online: Power, Risk, and Digital Care Practices”. A sua intervenção centrou-se no Arquivo.pt, o serviço público de preservação de conteúdos da web portuguesa, desenvolvido pela FCCN.

João Gomes apresentou a missão e os avanços do Arquivo.pt, sublinhando a importância de garantir que a informação publicada online possa ser preservada e reutilizada por investigadores, jornalistas, entidades públicas e cidadãos. Destacou ainda o papel do serviço na promoção da literacia digital e na defesa do acesso aberto à informação.

Saber mais sobre colaborações do Arquivo.pt

Arquivo.pt participou no IDCC 2026 em Zagreb

Março 16, 2026Março 5, 2026 por Ricardo Basílio

Última atualização em 16 de Março de 2026 às 12:35

O Arquivo.pt participou no evento International Digital Curation Conference com a apresentação intitulada How Arquivo.pt is preserving scientific research project websites and promoting data reuse (Como o Arquivo.pt está a preservar sites de projetos de investigação científica e a promover a reutilização de dados), tendo sido representado por Ricardo Basílio, curador digital.

O IDDC 2026 realizou-se em Zagreb, Croácia, entre os dias 16 e 18 de fevereiro. O organizador deste evento anual é o Digital Curation Center, consórcio de referência no âmbito da gestão e curadoria dos dados para a investigação científica. Este evento teve 219 participantes de 30 países, 5 de Portugal.

No mesmo painel, moderado por Mikala Narclock, da Indiana University, houve as seguintes apresentações: Organizing a community to survive research ecosystem instability, por Lauren Phegley, da University of Pennsylvania, What should be saved? The impact of austerity on data rescue, por Shona Jane Fergusonm do UK Centre for Ecology and Hydrology, e How do you calculate the carbon footprint of your digital preservation activities?, por Jenny Mitcham do Digital Preservation Coalition.

Desafios contemporâneos na curadoria digital

O tema da conferência deste ano foi AI, austerity, and authoritarianism: contemporary challenges in digital curation (IA, austeridade e autoritarismo: desafios contemporâneos na curadoria digital).

Na abertura, a keynote Antica Čulinam, cientista do Instituto Ruder Boskovic, abordou a questão da fiabilidade da Ciência, a qual necessita de processos transparentes, escrutinados, e de dados não falseados, bem documentados.

Em sessões paralelas, foram tratados outros desafios atuais, tais como, a pegada carbónica, o uso de IA, casos bem sucedidos de gestão de dados e de envolvimento da comunidade.

Na sessão de encerramento, o tema da preservação da Web esteve em destaque com a apresentação de Mikala Narclock, da Indiana University, e Linda Kellam, da Universidade de Pennsylvania, sobre a iniciativa Data Rescue Project.

A urgência é um critério determinante na preservação da Web, sobretudo quando estão em causa resultados de investigação científica.

Homenagem a Kevin Ashley

O momento final da conferência foi para homenagear Kevin Ashley, diretor do DCC desde abril de 2010. Desde a década de 1990, trabalhou no desenvolvimento e provisão de serviços de preservação digital, enquanto chefe de arquivos digitais no Centro de Computação da Universidade de Londres (ULCC). Como líder do DCC e grande comunicador, tem desempenhado um papel carismático no desenvolvimento da planificação da gestão de dados, aconselhamento, orientação e formação.

Em Portugal, temos registo de duas intervenções de Kevin Ashley na 5ª Conferência Luso-Brasileira sobre Acesso Aberto (CONFOA), na Universidade de Coimbra, em 2014, que aqui recordamos:

Contributo do Arquivo.pt para preservação dos resultados da investigação científica

O Arquivo.pt, serviço digital da FCT, tem entre as suas prioridades a preservação de todos os tipos de informação publicada na Web relacionada com projetos de investigação, tais como Websites de projetos, resumos de publicações científicas, notícias nos meios de comunicação social relacionadas com projetos e, em geral, toda a informação da Web referenciada em publicações científicas.

Por exemplo, e esse foi o caso apresentado aos participantes da conferência, em 2021, o Arquivo.pt identificou e recolheu 17 Terabytes de informação relacionada com projetos financiados pela Comissão Europeia do H2020. Até então, 46% dos projetos H2020 não referiam os seus Websites ou páginas de projeto nos dados publicados no portal europeu Cordis.

A partir desta iniciativa bem sucedida, o Arquivo.pt tem realizado recolhas sistemáticas de conteúdos relacionados com os projetos, em colaboração com o RCAAP, PTCRIS e Ciência Vitae, de onde se obtém URLs de publicações disponíveis na Web.

Uso do Arquivo.pt pelos investigadores

Ao mesmo tempo que o Arquivo.pt tomou a iniciativa de gravar conteúdos Web produzidos pelos investigadores, aumentaram nos últimos anos os casos de uso sobre o seu acervo. Ou seja, temos mais investigadores a fazer uso dos dados e a testar metodologias. Encontramos alguns exemplos nos LLMs para a língua portuguesa, como o GlórIA e o AmálIA, e nos trabalhos trabalhos concorrentes ao Prémio Arquivo.pt.

Por exemplo, um grupo de investigadores do CIDEHUS – Centro Interdisciplinar de História, Culturas e Sociedades da Universidade de Évora, em 2025, usou o Arquivo.pt para criar o trabalho Narrative Monitoring: Análise de Teorias Conspirativas de Substituição Populacional no Arquivo Web Português (1996-2021).

Assim, pretendeu-se mostrar à audiência que a preservação dos resultados da investigação científica tem de ter o envolvimento dos próprios investigadores. A partir do momento em que estes conhecem e usam o Arquivo.pt estão também mais preparados para cuidarem da preservação das suas publicações.

Saber mais

Recolha especial de conteúdos Web sobre as Eleições Presidenciais. Precisamos da sua ajuda!

Março 13, 2026Janeiro 15, 2026 por Ricardo Basílio

Última atualização em 13 de Março de 2026 às 11:28

A Eleição para o Presidente da República em 2026 realizou-se entre 18 de janeiro e 15 de fevereiro. O Arquivo.pt recolheu 2.3 Terabytes de conteúdos eleitorais e, agora, disponibiliza os dados relativos a todo o processo, tais como termos de pesquisa, conteúdos identificados e conteúdos arquivados.

As Eleições Presidenciais de 2026 tiveram dois sufrágios, o primeiro a 18 de janeiro, o segundo a 8 de fevereiro, e ainda um turno em 20 freguesias, a 15 de fevereiro, na sequência das tempestades que assolaram o país. Assim, é expectável encontrar-se na coleção notícias sobre as zonas afetadas bem como as intervenções políticas dos candidatos presidenciais.

Apelo à participação da comunidade na identificação e arquivo de conteúdos eleitorais

No dia 15 de janeiro o Arquivo.pt convidou a comunidade a participar na recolha acerca das eleições com a seguinte mensagem: “Websites dos candidatos, notícias, colunas de opinião ou publicações nas redes sociais, tudo é útil para uma representação da nossa vida em democracia. Encontrou um conteúdo eleitoral interessante? Participe na identificação e arquivo de conteúdos eleitorais.”

Duas modalidades foram sugeridas:

Metodologia do Arquivo.pt para a cobertura temática das eleições

Seguindo a prática adotada em eleições anteriores, o procedimento teve estes passos:

definição de termos de pesquisa
identificação de páginas de resultados em motor de busca (SERP)
gravação faseada das seeds (endereços de partida para uso do crawler)
integração no Arquivo.pt
disponibilização de conjunto de dados

Por termo de pesquisa entende-se uma combinação de palavras para usar num motor de busca. Por exemplo: nome_do_candidato+presidenciais 2026+Portugal.

Para identificar conteúdos eleitorais utilizou-se o Google e para extrair os resultados serviu ainda a ferramenta Google Rank Checker,Keyword SERP Ranking Tool. As limitações colocadas recentemente pelo motor de busca à simples pesquisa manual de resultados por um utilizador (10 de cada vez) tornaram menos eficiente o uso deste método.

A gravação foi faseada da seguinte forma: antes e depois da primeira volta, a 12 e 23 de janeiro, antes e depois da segunda volta a 5 e 12 de fevereiro e ainda gravação final de todas as seeds, a 18 de fevereiro.

Resultaram 2.3 Terabytes de informação, 11,4 milhões de ficheiros, obtidos a partir de cerca de 34 mil seeds, usando o Heritrix e o Browsertrix-crawler.

Os conteúdos encontram-se arquivados no coleção EAWP51 e ficarão acessíveis na interface do Arquivo.pt passado 1 ano. Por agora disponibiliza-se informação acerca da pesquisa e identificação de conteúdos.

Conjunto de dados das Eleições Presidenciais 2026

Disponível na plataforma Dados.gov: