Coleções temáticas para descobrir nas sessões online “Café com o Arquivo.pt”

imagem quadrada sessoes cafe pt

Última atualização em 4 de Dezembro de 2025 às 13:12

O “Café com o Arquivo.pt” consiste em sessões online curtas para permitir a qualquer pessoa assistir em horário laboral. Tem por objetivo dar a conhecer o Arquivo.pt e trazer contributos da comunidade sobre temas relacionados com a preservação da Web.

Em dezembro de 2025, iniciou-se uma nova série dedicada às coleções temáticas que o Arquivo.pt publica sob a forma de conjuntos de dados na plataforma Dados.Gov.

Por exemplo, websites relacionados com o teatro, a música, as escolas, as freguesias, as eleições e outros temas, encontram-se preservados no Arquivo.pt. Nas sessões temáticas do Café com o Arquivo.pt vamos dar visibilidade a conjuntos de websites cujo histórico se encontra no arquivo da Web.

Cada sessão é dedicada a um tema e tem um convidado que fala da sua instituição ou do seu projeto e comenta o tema do dia.

Série coleções temáticas

1ª sessão – Eleições Autárquicas: como arquivamos websites e programas eleitorais

  • Convidados: Mário Rui André e Gonçalo Pereira Costa – Jornal LPP / Lisboa Para Pessoas
  • Data: 3 de dezembro de 2025
  • Inscrição (gratuita) Finalizado.

Materiais

Resumo:

Os convidados, Mário Rui André e Gonçalo Pereira Costa, do jornal LPP / Lisboa Para Pessoas, falaram-nos do Portal das Autárquicas da Lisboa Metropolitana que criaram, onde se encontra informação sobre os candidatos e os seus programas eleitorais. O Arquivo.pt recolheu milhares de páginas e websites eleitorais, mais de 3 terabytes de informação, e explicou brevemente a metodologia utilizada.

Ao percorrer o vídeo da sessão vai saber:

  • Como foram as autárquicas na Área Metropolitana de Lisboa numa perspetiva jornalística;
  • Qual foi a metodologia seguida para recolher conteúdos eleitorais na Internet;
  • Como usar o arquivo da web para obter informação do passado.

Temporadas anteriores

Ciclo “Arquivos do Saber” realiza sessão presencial sobre o Arquivo.pt na FCCN

Última atualização em 16 de Dezembro de 2025 às 20:12

No dia 19 de novembro realizou-se a última sessão de 2025 do ciclo Arquivos do Saber: Ciência, História e Memória, uma iniciativa do Arquivo de Ciência e Tecnologia da FCT.

O evento decorreu no pequeno auditório das instalações da FCCN, unidade de serviços digitais da FCT, Avenida do Brasil, 101, em Lisboa.

Estiveram presentes mais de 30 participantes e foi ocasião para os mais de 30 participantes conhecerem o Arquivo.pt mais de perto.

Programa do evento

Esta sessão contou na abertura, com as intervenções de Maria Paula Diogo, vogal do Conselho Diretivo da Fundação para a Ciência e a Tecnologia (FCT), Paula Meireles, coordenadora do Arquivo de Ciência e Tecnologia, e João Nuno Ferreira, vice-presidente da FCT e coordenador-geral da unidade de serviços digitais, FCCN.

Os oradores convidados foram Rúben Almeida, do INESC TECFEUP, que fez uma apresentação intitulada Minha Região – O Teu Portal Autárquico, e Joaquim José, do Instituto Politécnico da Guarda, que falou sobre Memor.pt – Explore a Memória Digital Portuguesa, ambos vencedores do Prémio Arquivo.pt 2025, 1.º e 2.º lugares, respetivamente. A sessão foi moderada por João Gomes, diretor de área da FCCN, unidade de serviços digitais da FCT.

Programa_19NOV_Arquivos-do-Saber_2025_page-0001

Programa de 19 de novembro – ciclo “Arquivos do Saber”

O Arquivo de Ciência e Tecnologia da FCT e a divulgação do seu acervo

O ciclo Arquivos do Saber: Ciência, História e Memória, organizado pela FCT, está a decorrer desde fevereiro deste ano, com o objetivo de divulgar o acervo documental do seu Arquivo de Ciência e Tecnologia, bem como outros relevantes para a história e memória da Ciência e da Tecnologia em Portugal. As sessões são de curta duração e decorrem num ambiente informal e de partilha.

O Arquivo de Ciência e Tecnologia (ACT) é único na história da atividade científica em Portugal, com a função de preservar e gerir a memória documental da produção científica nacional, traduzida em milhares de processos de apoio a bolsas, instituições e projetos de investigação. Aberto ao público desde 16 de dezembro de 2011, possui um significativo acervo documental que inclui, além do próprio arquivo da FCT a partir de 1997, o espólio da Junta Nacional de Investigação Científica e Tecnológica (JNICT), de 1967 a 1997, e de outros organismos públicos e privados, essencialmente na área das políticas e financiamento da ciência em Portugal.

Galeria de imagens

5ª sessão do ciclo Arquivos do Saber: Ciência, História e Memória, na FCCN

20251119-sessao-arquivos-do-saber-fccn-11
20251119-sessao-arquivos-do-saber-fccn-10
20251119-sessao-arquivos-do-saber-fccn-1
20251119-sessao-arquivos-do-saber-fccn-8
20251119-sessao-arquivos-do-saber-fccn-12
20251119-sessao-arquivos-do-saber-fccn-13
20251119-sessao-arquivos-do-saber-fccn-14
20251119-sessao-arquivos-do-saber-fccn-18
20251119-sessao-arquivos-do-saber-fccn-17
20251119-sessao-arquivos-do-saber-fccn-21
20251119-sessao-arquivos-do-saber-fccn-20
20251119-sessao-arquivos-do-saber-fccn-19
20251119-sessao-arquivos-do-saber-fccn-22
20251119-sessao-arquivos-do-saber-fccn-11 20251119-sessao-arquivos-do-saber-fccn-10 20251119-sessao-arquivos-do-saber-fccn-1 20251119-sessao-arquivos-do-saber-fccn-8 20251119-sessao-arquivos-do-saber-fccn-12 20251119-sessao-arquivos-do-saber-fccn-13 20251119-sessao-arquivos-do-saber-fccn-14 20251119-sessao-arquivos-do-saber-fccn-18 20251119-sessao-arquivos-do-saber-fccn-17 20251119-sessao-arquivos-do-saber-fccn-21 20251119-sessao-arquivos-do-saber-fccn-20 20251119-sessao-arquivos-do-saber-fccn-19 20251119-sessao-arquivos-do-saber-fccn-22

Fotos por Leonor Arrimar, FCT

Vídeo da sessão

Vídeo com os slides

Anotação de resultados de pesquisa no Arquivo.pt

Anotação de resultados de pesquisa no Arquivo.pt

Última atualização em 7 de Novembro de 2025 às 15:55

Anotação de resultados de pesquisa no Arquivo.pt

No Dia Mundial da Preservação Digital, o Arquivo.pt promoveu uma sessão em linha dedicada à anotação de resultados de pesquisa no Arquivo.pt, no dia 6 de novembro, das 15h às 16 horas.

Foram abordados os seguintes tópicos:

i) O acesso como prioridade – pesquisa por texto como um motor de busca para o passado
ii) Como são processados os conteúdos arquivados
iii) Anotações como verificação de qualidade – demonstração

Importância da anotação de resultados

A equipa do Arquivo.pt tem vindo a reimplementar a pesquisa por texto no Arquivo.pt, mas precisa de medir a qualidade da nova implementação comparando-a com a anterior. Para isso apela à colaboração da comunidade.

Como anotar resultados no Arquivo.pt

1. Ir a: https://anota.arquivo.pt

2. Surgirá uma pesquisa aleatória.

Ex: “cavalo lusitano” “Associação Portuguesa do Cavalo Puro Sangue Lusitano” Entre 6 de agosto de 1991 e 1 de janeiro de 2010

3. Indicar a relevância do resultado escolhendo um dos botões:

Botões de anotação: Muito relevante, Parcialmente relevante, Não relevante, Conteúdo inacessível.

4. Depois de terminar a sua sessão de anotação deverá “Exportar” (no botão para o efeito, irá descarregar um ficheiro annotations.json).

5. Envie, carregando no botão “Enviar”, submetendo o ficheiro annotations.json. Ou, em alternativa, pode enviar pelo mail contacto@arquivo.pt

Poderá consultar o Guia de anotação de resultados de pesquisa para uma lista completa de instruções.

Vídeo tutorial de anotação de resultados

Conjunto de dados sobre as Eleições Autárquicas no Arquivo.pt

autarquicas-2025-thumbnail-

Última atualização em 3 de Dezembro de 2025 às 12:55

As Eleições Autárquicas realizaram-se, em Portugal, a 12 de outubro de 2025 e o Arquivo.pt fez uma recolha especial de conteúdos eleitorais publicados na Web, de que resultaram 3.5 terabytes de informação para a investigação e a realização de trabalhos.

Foram utilizados 440 termos de pesquisa para obter 45 000 endereços de páginas, juntamente com os websites das freguesias, municípios e partidos.

Aqui se explica os diversos passos desta recolha sobre as eleições:

Como se identificam os conteúdos eleitorais na Web

Para identificar conteúdos relacionados com as eleições utilizamos uma lista de termos de pesquisa como, por exemplo, “eleições autárquicas 2025″, “habitação autárquicas 2025″, “promessas “autárquicas 2025”. Depois das eleições completou-se com outros termos como “vitória autárquicas 2025”, “resultados autárquicas 2025”, etc.

Os termos de pesquisa são palavras que pretendem incluir diversos tópicos relacionados com as eleições, tais como política, sociedade, economia, entre outros, meios de comunicação, nomes de candidatos, regiões do país.

Na recolha sobre as Autárquicas, utilizou-se o motor de busca Google para fazer cada uma das pesquisas. Recorreu-se a alguns parâmetros da pesquisa avançada: o número de resultados (&num=100), resultados de nótícias (&tbm=nws), resultados de imagens (&udm=2). Depois das eleições, restringiu-se os resultados com o filtro “última semana”.

Em cada pesquisa extraiu-se os endereços das páginas de resultados do motor de busca (SERP, Search Engine Results Page) utilizando a ferramenta Google Rank Checker,Keyword SERP Ranking Tool. Esta ferramenta funciona como uma extensão do browser que exporta a lista de resultados no formato JSON.

No total, foram realizadas 1400 pesquisas ou queries no Google (800 em pré-eleições, 600 em pós-eleições). No final, os resultados de todas as pesquisas (ficheiros .json) foram reunidos num documento e convertidos em tabela. Cada resultado tem vários dados, tais como a relevância, o domínio de onde foi extraído, o link ou URL, o título da publicação, a data da pesquisa e a query.

Deve ter-se em conta que a lista obtida representa apenas uma pequena parcela de tudo o que foi publicado na Web acerca das eleições. Além disso, a mesma lista contém resultados não relacionados com o objetivo da recolha (falsos positivos) e algumas repetições. Por economia de tempo, nenhuma linha foi eliminada.

Deste processo de identificação resultaram 43 000 páginas (seeds) com notícias, artigos e publicações relacionadas com as eleições para serem usadas no processo de recolha pelo Arquivo.pt. Este conjunto de dados “Eleições Autárquicas 2025” está disponível na plataforma de dados abertos Dados.Gov.

Adicionou-se ainda a lista das Juntas de Freguesia, Câmaras Municipais e Partidos com os seus respectivos websites.

Como foram gravados os conteúdos e limitações a ter em conta

Os endereços obtidos, antes e depois das eleições, foram colocados a gravar em dois web crawlers ou rastreadores da Web, o Heritrix e o Browsertrix-crawler. O que estas ferramentas fazem é gravar páginas a partir de um endereço inicial que é dado (seed), seguindo depois as ligações aí existentes, até um certo limite, neste caso até um máximo de 5 vezes (5 saltos ou hops).

O Heritrix foi utilizado para uma primeira recolha genérica de páginas, pois é capaz de processar listas com milhares de endereços com rapidez: 25 858 URLs antes das eleições e 17 258 URLs depois das eleições. Gerou 541 Gigabytes de informação.

O Browsertix-crawler foi utilizado como segunda ferramenta para melhorar a recolha de conteúdos dinâmicos. Neste crawler a gravação é baseada em browser, ou seja, cada página é lida por um browser e depois é gravada. A gravação é mais demorada, mas captura conteúdos que de outro modo escapariam à recolha.

A recolha correu no Browsertrix-crawler de modo faseado, primeiro com a gravação dos websites das freguesias em agosto e setembro e, depois, entre 9 de outubro e 5 de novembro, com a gravação de notícias sobre as eleições e 8.850 publicações nas redes sociais. Gerou 2.9 Tetabytes de informação.

Quanto aos limites da recolha, identificou-se alguns, tais como: bloqueio do acesso por parte de alguns sites que se defendem contra acessos automáticos, apesar de o agente do Arquivo.pt estar identificado; conteúdos de redes sociais, atrás de login que não se consegue reproduzir no Arquivo.pt; vídeos que pelo seu formato também não se consegue reproduzir.

Como e quando aceder ao dados para investigar e criar de trabalhos

EAWP48 é o nome identificador da coleção que vai reunir os conteúdos sobre as Eleições Autárquicas de 12 de outubro de 2025. Uma descrição, assim como o seu estado (disponível ou não) pode ser consultado na lista de coleções do Arquivo.pt.

Nos próximos meses, o conteúdo será indexado e os índices CDXJ ficarão disponíveis para os investigadores na lista de datasets do Arquivo.pt.

Passado um ano, os conteúdos recolhidos ficarão acessíveis na pesquisa do Arquivo.pt . Qualquer pessoa poderá então pesquisar páginas eleitorais por texto ou por imagem.

Para mais informação contacte-nos.

Dados da recolha Eleições Autárquicas 2025

Saiba mais sobre as recolhas eleitorais de anos anteriores