Notícias – sobre.arquivo.pt

Conheça os vencedores do Prémio Arquivo.pt 2025!

Julho 1, 2025Junho 28, 2025 por Ricardo Basílio

Última atualização em 1 de Julho de 2025 às 9:58

Os vencedores do Prémio Arquivo.pt 2025 foram anunciados pelo Jornal Público, parceiro oficial de comunicação, no dia 28 de junho de 2025.

Foram recebidos e validados 36 trabalhos candidatos.

A cerimónia de entrega de prémios decorrerá na sessão de encerramento do Encontro Ciência, no Campus da NOVA SBE, em Carcavelos, a 11 de julho, a partir das 17 horas.

1º classificado – “Minha Região – O Teu Portal Autárquico”

O vencedor do prémio no valor de 10 000 euros foi o trabalho “Minha Região – O Teu Portal Autárquico” desenvolvido por Rúben Almeida, Ricardo Campos e Sérgio Nunes.

O resultado deste trabalho é uma plataforma disponível na web que reúne informação eleitoral autárquica, entre 1976 e 2021. Através do website minharegiao.pt, qualquer pessoa pode encontrar informação por distrito, município e freguesia.

Por exemplo, uma pesquisa ao distrito de Braga mostra a subida do número de eleitores ao longo do tempo. Permite-nos verificar também que 2013 foi ano em que se registou mais elevada a taxa de abstenção.

2º classificado – “Memor.pt – Explore a Memória Digital Portuguesa”

O 2º prémio no valor de 3 000 euros foi atribuído ao trabalho “Memor.pt – Explore a Memória Digital Portuguesa”, da autoria de Joaquim Matoso.

O memor.pt é uma plataforma interativa que utiliza conteúdos preservados pelo Arquivo.pt para tornar acessível a memória digital de Portugal. Através de uma IA conversacional, um quiz temático e um artigo diário, os utilizadores podem explorar milhares de páginas arquivadas sobre temas como habitação, democracia, cultura e mercado de trabalho.

Por exemplo, se optar por “jogar”, terá cinco temas à escolha para testar os seus conhecimentos através de um quiz. Responda então, qual o ano da aprovação da nova Constituição Democrática após o 25 de Abril?

3º classificado – “Narrative Monitoring”

O 3º classificado recebeu um prémio no valor de 2 000 euros e foi atribuído ao trabalho “Narrative Monitoring: Análise de teorias conspirativas de subsituição populacional”, desenvolvido por Erik Bran Marino, Rafael Prezado, Ana Sofia Ribeiro, Renata Vieira.

O trabalho “Narrative Monitoring” constitui uma análise sistemática e abrangente da emergência e evolução das teorias conspirativas de substituição populacional (PRCT, do inglês Comparative analysis of conspiracy theories in Europe), no espaço digital português, entre 1996 e 2021. Utilizando o Arquivo.pt como fonte primária, desenvolve uma metodologia que combina técnicas de web archiving, processamento de linguagem natural e análise estatística para identificar, classificar e analisar 36.621 documentos relacionados com temáticas migratórias e demográficas.

O website apresenta os resultados através de visualizações interativas, uma linha cronológica dinâmica e um quiz educativo sobre as palavras-chave mais associadas a discursos conspiratórios. Por exemplo, “Multiculturais”, “Plano Kalergi”, “Refugiado”. Qual destas palavras-chave está mais associada a conteúdos de teor conspiratório populacional?

Menção Honrosa AMCC – Aveiro Media Competence Center: “Estudos Arquivados”

O Aveiro Media Competence Center (AMCC), atribuiu a sua Menção Honrosa ao trabalho “Estudos Arquivados”, realizado por Filipe Oliveira João e Paulo Cabrita.

“Estudos Arquivados” é uma plataforma para uso do Arquivo.pt em contexto pedagógico e de ensino. Organiza as pesquisas de um utilizador por disciplina e ano escolar, podendo o utilizador registar-se e guardar as suas próprias pesquisas para uso posterior. Em contextos em que as escolas usam tecnologias para o ensino, o “Estudos Arquivados” por ser baseado num acervo público e aberto, visa promover o estudo e a inclusão digital.

Por exemplo, um pesquisa sobre o “25 de Abril” para alunos do 8º ano, na disciplina de História, devolve páginas web datadas, preservadas no Arquivo.pt, treinando os alunos para a utilização deste novo tipo de material.

Menção Honrosa .PT: “ArchiveChain”

A Associação DNS.PT atribuiu uma Menção Honrosa . PT ao Professor que incentivou a submissão da “ArchiveChain”. Este trabalho foi desenvolvido como parte da dissertação de Mestrado em Engenharia Informática de Bruno Cotrim, pela Faculdade de Ciências da Universidade de Lisboa, com orientação científica dos professores Bernardo Ferreira (Faculdade de Ciências) e Miguel Matos (Instituto Superior Técnico).

O conceito é assim explicado pelos seus autores: “ArchiveChain” é uma blockchain que vem democratizar a missão de arquivar a web histórica portuguesa. Na ArchiveChain, todos os cidadãos são convidados a guardar páginas do Arquivo.pt, e quem guardar mais páginas recebe mais recompensas sobe a forma de cripto-moedas. Simultaneamente, as páginas guardadas pelos participantes são utilizadas como “combustível” no seu funcionamento interno, permitindo implementar contratos inteligentes de forma sustentável e evitando o consumo energético maciço de outras blockchains como o Bitcoin.

Comece a explorar a plataforma ArchiveChain e contribua para a melhor preservação da web portuguesa.

Menção Honrosa 25 de Abril e a Democracia: “Arquivo 25 de Abril”

A Comissão Comemorativa 50 anos 25 de Abril atribuiu uma Menção Honrosa “25 de Abril e a Democracia” ao trabalho intitulado “Arquivo 25 de Abril”, desenvolvido por Miguel Garcia.

O website Arquivo 25 de Abril disponibiliza um arquivo online de artigos jornalísticos sobre várias personalidades, eventos e movimentos que tiveram relevância no antes e durante o 25 de Abril de 1974. Para cada um destes elementos foram recolhidos artigos de vários órgãos de comunicação social de referência, com publicação online, tendo em conta este contexto histórico.

Por exemplo, ao escolher “artistas” relacionados com o 25 de Abril, um utilizador obtém o nome e uma foto do cantor Adriano Correia de Oliveira, o primeiro de uma lista, e em seguida notícias relacionadas, publicadas nos media e preservadas pelo Arquivo.pt.

Imprensa

Notícia Público (anúncio oficial pelo media partner, a 28-06-2025)

Saber mais

Conferência RESAW na Alemanha teve presença do Arquivo.pt

Junho 12, 2025Junho 12, 2025 por Ricardo Basílio

O Arquivo.pt esteve presente na 6a Conferência RESAW para investigadores das Humanidades Digitais, Media e Comunicação e outras áreas, subordinado ao tema “The Datafied Web”, que teve lugar na Universidade de Siegen, Alemanha, de 4 a 6 de junho de 2025.

RESAW (Research Infrastructure for the Study of Archived Web Materials) é uma iniciativa informal que reúne investigadores que utilizam arquivos da Web na sua investigação. A primeira conferência do RESAW foi em 2015, passando a realizar-se a cada dois anos.

Inicialmente, o RESAW reunia investigadores europeus, mas agora congrega investigadores de todo o mundo, tendo-se tornado num fórum único no seu género. Em 2025, contou com mais de 100 participantes. Ali se encontra o que de melhor se faz no domínio utilização de arquivos da Web em contexto de investigação.

Niels Brügger, Professor de Media e Comunicação da Universidade de Aahrus, Dinamarca, tem sido o principal impulsionador do RESAW, ao longo de 10 anos.

Destacam-se ainda nomes de investigadores de referência com estudos desenvolvidos no âmbito dos arquivos da Web: : Valerie Schafer, da Universidade do Luxumburgo, Jane Winters, da Universidade de Londres, Anne Helmond, da Universidade de Utrecht, Susan Aasman da Universidade de Groningen, Sophie Gebeil, da Universidade de Aix-Marseille e Ian Millingan da Universidade de Waterloo.

O tema deste ano The Datafied Web abordou a questão da datificação da Web, desde os seus inícios na década de 1990 à atualidade, marcada pelo processamento massivo de dados e pelo uso da Inteligência Artificial.

Porquê a participação de um arquivo da Web num encontro de cariz académico?

O Arquivo.pt participa regulamente no RESAW desde 2019, pois quer dar-se a conhecer cada vez mais como um serviço destinado aos investigadores nacionais e internacionais.

Graças à participação em eventos internacionais como o RESAW, surgiram várias publicações que usam e referem o Arquivo.pt. Qualquer investigador com acesso à Internet pode pesquisar a informação preservada no Arquivo.pt, usar as APIs, processar informação ou treinar os seus modelos.

Convidamos os investigadores portugueses a participarem neste encontro, pois temos sido a única presença portuguesa em várias edições. Temos um arquivo da Web acessível, pronto a utilizar, o que não acontece em outros países. Gostaríamos de ter investigadores de áreas das Humanidades Digitais e Media e Comunicação em Portugal a usarem mais frequentemente o Arquivo.pt e a participarem ativamente em encontros como o RESAW.

Contributo do Arquivo.pt no RESAW 2025

O Arquivo.pt contribuiu com duas apresentações na edição de 2025 de encontro RESAW, realizado na Universidade de Siegen. A primeira acerca das APIs do Arquivo.pt e da sua aplicação em contexto de investigação, por Vasco Rato. A segunda sobre os conjuntos de dados abertos e listas de sites sobre temas e eventos que o Arquivo.pt preparou para ajudar os investigadores a iniciarem uma exploração mais profunda da informação arquivada.

Galeria de imagens

RESAW 2025 na Universidade de Siegen

Eleições Legislativas 2025 tiveram recolha especial do Arquivo.pt

Maio 28, 2025Maio 26, 2025 por Ricardo Basílio

Última atualização em 28 de Maio de 2025 às 8:59

O Arquivo.pt realizou uma recolha especial de conteúdos publicados online, relacionados com as Eleições Legislativas de 18 de maio de 2025.

Foram gravadas mais de 8 mil páginas únicas, antes e depois das eleições, as quais resultaram em cerca de 250 Gigabytes de informação.

Nesta coleção encontram-se notícias nos meios de comunicação social, sites dos Partidos e outras publicações dos cidadãos que documentam este importante evento da vida portuguesa.

Os dados da recolha estão disponíveis para permitir aos investigadores utilizarem nos seus trabalhos e projetos.

Metodologia de recolha do evento eleitoral

A recolha foi realizada usando uma metodologia semi-automática que permite identificar e recolher informação com rapidez e poupar recursos. Os passos foram os seguintes:

preparação de lista com termos de pesquisa;
pesquisa automática com o Bing Search API;
extração de lista de endereços de páginas ou URLs;
gravação (usando o Browsertrix-crawler);
integração no Arquivo.pt;
disponibilização de conjunto de dados para investigação.

O ponto de partida para identificar páginas para este evento eleitoral foi uma lista de termos de pesquisa, incluindo palavras, nomes, datas, endereços de sites e também palavras em outras línguas. Por exemplo, usou-se “eleições” “legislativas”, 2025, nomes de candidatos, sites dos Partidos, sites dos jornais e as palavras “eleições Portugal” em outras línguas europeias para termos páginas de meios estrangeiros que se referiram às eleições portuguesas. Foram utilizados 384 termos de pesquisa.

Desde as Eleições Europeias de 2019, o Arquivo.pt utiliza o serviço Bing Search API para obter de forma automática os resultados mais relevantes. Os endereços ou URLs extraídos são então colocados a gravar, assumindo que há páginas que falham o alvo e privilegiando a rapidez, fator importante neste tipo de evento.

Fez-se uma pesquisa antes das eleições e duas na semana seguinte, com a respetiva gravação, a fim de juntar novos conteúdos à coleção.

Finalmente, publicou-se todos os dados acerca desta recolha especial. Convida-se os investigadores a usar esta informação para projetos ou estudos e para concorrerem ao Prémio anual Arquivo.pt.

Dados da recolha Eleições Legislativas 2025

O conjunto de dados Eleições Legislativas 2025 foi publicado no portal de dados abertos

Saiba mais sobre as recolhas eleitorais de anos anteriores

Cursos online gratuitos sobre o Arquivo.pt na plataforma NAU

Maio 21, 2025Maio 16, 2025 por Ricardo Basílio

Última atualização em 21 de Maio de 2025 às 11:43

Está lançado o programa de formação online do Arquivo.pt, intitulado A Web do passado: preservação e pesquisa, com inscrição aberta e gratuita na plataforma NAU, para quem quer aprofundar os seus conhecimentos sobre o arquivo da Internet.

Daniel Gomes, Gestor do Arquivo.pt, que desenvolveu este programa de formação, anunciou-o em primeira mão na Faculdade de Letras da Universidade de Coimbra, durante o workshop Preservação digital: ferramentas e práticas, no dia 7 de maio de 2025.

Inscrições abertas na plataforma NAU para o MOOC sobre o Arquivo.pt

NAU – Sempre a Aprender é a plataforma de e-learning da Fundação para a Ciência e a Tecnologia, através da sua unidade FCCN. A iniciativa NAU foca-se no suporte à publicação e dinamização de conteúdos em formato Massive Open Online Courses (MOOC) em língua Portuguesa.

O objetivo deste programa é desenvolver competências ao nível da pesquisa da memória digital da Web, com destaque para a utilização do Arquivo.pt tanto no dia-a-dia como no contexto dos estudos e da investigação.

O programa desenvolve-se em quatro cursos:

Não são necessários requisitos especiais, além de um computador com acesso à Internet e um navegador como, por exemplo, Google, Chrome, Internet Explorer.

Inscreva-se. Divulgue: arquivo.pt/mooc

Saber mais

Entrevista no Dia da Internet, 17 de maio, publicada no site da plataforma NAU

Workshop sobre Preservação digital na Universidade de Coimbra

Maio 22, 2025Maio 10, 2025 por Ricardo Basílio

Última atualização em 22 de Maio de 2025 às 18:45

O Arquivo.pt participou no workshop intitulado “Preservação digital: ferramentas e práticas”, promovido pela Faculdade de Letras da Universidade de Coimbra, na tarde do dia 7 de maio de 2025. Com a moderação de Inês Santos, destacamos o painel inicial com excelentes intervenções de Moisés Rockembach (Universidade de Coimbra), Humberto Innarelli (Unicamp) e Daniel Gomes (Arquivo.pt, serviço digital da FCCN-FCT).

O encontro teve por objetivo oferecer à comunidade uma reflexão crítica acerca das novas tendências nas ferramentas e nas práticas de preservação digital.

A preservação digital é um tema transversal às organizações, pois todas produzem e geram informação em suporte digital. É cada vez maior a oferta de ferramentas, soluções que prometem maior eficiência no processamento de informação. Muitas são colocadas sob a designação de Inteligência Artificial. Tal abundância de produtos e enquadramentos exige uma maior discussão e abordagem crítica. E isso foi alcançado de forma brilhante pelo painel de oradores.

Três abordagens sobre Inteligência Artificial e Preservação Digital

Este encontro reuniu no Anfiteatro III da Faculdade de Letras da Universidade de Coimbra três autores de obras sobre preservação digital e trouxe à discussão abordagens diferentes.

Moisés Rockembach, co-autor com Caterina Pavão de Arquivamento da Web e preservação digital, a primeira obra em português sobre arquivos da Web, centrou a sua apresentação no impacto da Inteligência Artificial nos sistemas de preservação digital, nomeadamente na pesquisa e no acesso à informação, em processos de classificação indexação, por exemplo. A esse propósito do impacto das novas ferramentas que a tecnologia digital nos oferece, fez referência a uma frase de Demi Gretscko: “O processo de busca e captura da informação descrito no texto certamente poderá sofrer aportes futuros, especialmente ao se considerar o aporte de ferramentas novas, como as da Inteligência Artificial”.

Há ferramentas de Inteligência Artificial que permitem um acesso interessante à informação pela novidade e pelo formato. A arquivística deve ter em conta essa realidade e testar até que ponto isso pode transformar o modo como se opera a divulgação e o acesso a muitos conteúdos. Um exemplo para ilustrar esta ideia, foi a apresentação de um Podcast gerado por Inteligência Artificial, baseado no capítulo 2 do livro sobre Arquivos da Web, que versa sobre as políticas de preservação digital.

Link para Podcast gerado por Inteligência Artificial (publicado no Instagram)

Humberto Innarelli, autor de Criptex da preservação digital, autor de Criptex da preservação digital, coordenador do Arquivo Edgard Leuenroth (AEL) e investigador especialista em arquivística na Unicamp, São Paulo e professor Doutor do Centro Paula Souza, São Paulo, colocou a questão do futuro da preservação digital. Até agora, a prática para preservar conteúdos digitais dinâmicos é convertê-los em documentos estáticos. Por outro lado, cada vez a informação é-nos dada de forma dinâmica, a partir de bases de dados ou de algoritmos e Inteligência Artificial. Qual é o próximo passo? A prática arquivística tem de olhar não apenas para os metadados (metadata), como tem feito nos últimos anos, mas também para aquilo que explica como a informação foi gerada (o que podemos chamar paradata). Só assim é possível colocar a arquivística e a preservação digital na perspetiva do longo termo. Daqui a cem ou duzentos anos deveríamos ser capazes de continuar a aceder à informação digital produzida atualmente.

Daniel Gomes, editor principal do livro The Past Web, fundador do Arquivo.pt, discutiu a questão da Inteligência Artificial na sua relação com os conteúdos de produção não artificial e humana. Que valor acrescentado trazem as ferramentas geradoras de texto, imagem, áudio ou vídeo? Se considerarmos por exemplo que um Podcast sobre preservação digital utilizou como base um livro escrito por um autor humano, que conhecimento novo gerou? Pouco ou nenhum. Assim, o que se convencionou chamar Inteligência Artificial pode considerar-se como uma forma de apresentar o conhecimento humano e de modo nenhum dispensa a humanidade de continuar a pensar, a investigar e a produzir novo conhecimento.

O Arquivo.pt preserva conteúdos que foram publicados por pessoas e organizações e nesse sentido é uma fonte única no seu género. A informação publicada na Web é importante para relatar e compreender melhor a história recente, desde a década de 1990. Qualquer ferramenta de Inteligência Artificial terá de voltar ao ponto onde a informação foi criada por pessoas. A origem humana dos conteúdos preservados pelo Arquivo.pt, e o mesmo se pode dizer dos arquivos tradicionais, faz com que estes tenham um enorme valor, até considerando-o do ponto de vista do valor económico. Quanto vale a informação preservada por um arquivo da Web?

Estreia do MOOC ou curso online do Arquivo.pt

Daniel Gomes, Gestor do Arquivo.pt anunciou em primeira mão o curso online na plataforma NAU: A Web do passado: preservação e pesquisa.

O curso online ou MOOC (Massivo Online Open Course) está disponível para quem pretende aprofundar os seus conhecimentos sobre preservação da Web.

O link curto para divulgação é arquivo.pt/mooc

Os dados preservados do Arquivo.pt e o seu processamento automático por APIs

Vasco Rato, desenvolvedor do Arquivo.pt, mostrou como funcionam as interfaces de processamento automático, Application Programming Interfaces (APIs).

Os dados do Arquivo.pt podem ser processados por Inteligência Artificial. Os trabalhos concorrentes ao Prémio Arquivo.pt já o demonstraram, assim como alguns projetos como o GlórIA, um Large Language Model, desenvolvido na NOVA-FCT.

Para terminar, Ricardo Basílio, curador digital do Arquivo.pt, mostrou como qualquer pessoa pode gravar uma página ou um website inteiro no seu próprio computador num formato normalizado, compatível com os arquivos da Web. Usou-se para isso o ArchiveWeb.page e browsertrix-crawler como ferramentas de treino e formação. Esta prática permite que a comunidade seja cada vez mais ativa na preservação de informação institucional publicada na Web.

Agenda do evento

14h30 Painel – Moderadora: Inês Santos, Universidade de Coimbra

Preservação digital e Inteligência Artificial – Moisés Rockembach, Universidade de Coimbra – Slides
Cryptex da Preservação Digital: O próximo passo – Humberto Innarelli, Unicamp – Slides
Arquivo.pt e a preservação da Web – Daniel Gomes, FCCN-FCT – Slides

16h00 Intervalo

Dados Abertos para a Investigação. Processamento automático de informação através de APIs – Vasco Rato, FCCN-FCT – Slides
Demo – Arquivar a Web: faça-você-mesmo – Ricardo Basílio, FCCN-FCT – Slides
- Demo de gravação manual com o ArchiveWeb.page
- Demo de gravação automática com o Browsertrix-crawler

17h00 – Final

Galeria de imagens

Imagens nos canais da Faculdade de Letras da Universidade de Coimbra

Vídeo com momentos do evento (publicado no Facebook)

Workshop na Faculdade de Letras da Universidade de Coimbra

Arquivo.pt em Coimbra nas Jornadas da FCCN

Maio 17, 2025Maio 6, 2025 por Ricardo Basílio

Última atualização em 17 de Maio de 2025 às 12:33

A equipa do Arquivo.pt esteve em Coimbra, entre os dias 6 e 8 de maio, nas Jornadas FCCN para promover a preservação da Internet portuguesa, pois a divulgação e a promoção constituem uma vertente importante da sua missão.

Na terça-feira, de manhã, Pedro Gomes apresentou os destaques na sessão Zapping FCCN e à tarde, das 16h30 às 18 horas, realizou-se a sessão do Arquivo.pt, Mãos na massa para arquivar a Web.

Na quarta-feira, dia 7, às 14h30, a equipa do Arquivo.pt deslocou-se à Universidade de Coimbra para participar no encontro promovido pela Faculdade de Letras (FCUL), intitulado Preservação digital: ferramentas e práticas (Anfiteatro III, Piso 4).

Ao fim da tarde de quarta-feira, Daniel Gomes, participou na sessão Democratizar a IA: tornar a Inteligência Artifícial acessível a todos sobre o contributo do Arquivo.pt para o LLM AMÁLIA.

Destaques do Arquivo.pt na sessão Zapping da FCCN

Pedro Gomes, encarregado das recolhas do Arquivo.pt, mostrou a imagem mais antiga arquivada no Arquivo.pt que se encontra precisamente no antigo site da Universidade de Coimbra. Destacou a nova funcionalidade que permite reproduzir conteúdos em Flash, os dados estatísticos do Arquivo.pt, os prémios e os conjuntos de dados.

Mão na massa para arquivar a Web

Nesta sessão, orientada por Ricardo Basílio, curador digital do Arquivo.pt, mostrou-se como gravar páginas web em formato normalizado utilizando o seu próprio computador.

Esta ação, com o formato “mão na massa” ou “faça-você-mesmo!”, enquadra-se na missão do Arquivo.pt de promoção da preservação da Internet (Decreto-Lei nº 55/2013). Ao mostrar como funciona a gravação de websites estamos a fortalecer também a ligação da comunidade ao Arquivo.pt.

Para quem precisa de guardar cópias de alta qualidade de websites esta sessão é uma ajuda. Os participantes foram desafiados a gravar páginas estáticas e outras com conteúdos interativos, vídeos e redes sociais. A partir das questões que surgiram durante os exercícios práticos, esclarecemos dúvidas e mostrámos que arquivar conteúdos Web é muito fácil.

Usámos a extensão ArchiveWeb.page, ferramenta do Webercorder.net, que os participantes puderam obter gratuitamente e instalar nos próprios computadores.

Se é informático ou utilizador avançado de IT

Para quem tem a expectativa e a necessidade de gravar sites inteiros automaticamente, fizemos uma breve referência ao Browsertrix-crawler, uma ferramenta avançada que corre num Docker, em Linux. Informáticos e utilizadores avançados de IT foram desafiados a tentar a gravação e arquivo de Websites.

As demonstrações e exercícios que propusemos usando o ArchiveWeb.page ou Browsertrix-crawler aplicam-se também a casos de uso avançado e respondem a necessidades de arquivo da Web no dia-a-dia das organizações.

Materiais da sessão “mãos na massa”

Democratizar a IA: tornar a Inteligência Artifícial acessível a todos

No segundo dia das Jornadas da FCCN, 8 de maio de 2025, na sessão dedicada à Inteligência Artificial, Daniel Gomes, por parte da FCNN-FCT, e João Magalhães, por parte da NOVA-FCT, apresentaram o “AMÁLIA: Assistente Multimodal automático de Linguagem com IA”.

Daniel Gomes explicou como o Arquivo.pt é utilizado para processamento em larga escala, concretamente através das Application Programming Interfaces do Arquivo.pt (APIs).

As APIs permitem que os investigadores acedam à informação do Arquivo.pt de forma automática e desenvolvem diversas aplicações em projetos de investigação. Por exemplo, usaram APIs projetos como o Conta-me Histórias, o modelo para língua portuguesa LLM GlórIA e, presentemente, o LLM AMÁLIA.

Slides da apresentação

Galeria de imagens

Jornadas FCCN

Desvendando a estrutura oculta da Web: Dataset Links do Arquivo.pt

Maio 13, 2025Abril 30, 2025 por Ricardo Basílio

Última atualização em 13 de Maio de 2025 às 14:30

A natureza interligada da World Wide Web há muito que fascina investigadores e tecnólogos. Hoje, temos o prazer de anunciar o lançamento do conjunto de dados Arquivo.pt Links Dataset, uma coleção abrangente que abre novas possibilidades para a compreensão e análise dos padrões de conetividade da Web.

O conjunto de dados engloba mais de 139 milhões de URLs de páginas Web, cada um acompanhado de metadados cruciais sobre as suas ligações de entrada – tanto os URLs de origem como os textos-âncora correspondentes, isto é, o texto visível e clicável nas hiperligações. Esta rica coleção de dados de interligação fornece aos investigadores uma janela única para a estrutura subjacente da Web.

A importância das hiperligações na arquitetura da Web não pode ser sobrestimada. Servem como blocos de construção fundamentais da navegação e descoberta na Web, permitindo aos utilizadores e aos sistemas automatizados percorrer a vasta paisagem de conteúdos em linha.

As hiperligações formaram a base do revolucionário algoritmo PageRank da Google, que transformou a nossa abordagem à recuperação de informações e à pesquisa na Web. A ideia fundamental do PageRank – que a importância de uma página podia ser medida através da análise das suas hiperligações de entrada – revolucionou a tecnologia de pesquisa e continua a ter influência nos sistemas modernos de recuperação de informações.

Ao disponibilizar publicamente este conjunto de dados, o Arquivo.pt permite aos investigadores explorar abordagens inovadoras semelhantes à análise da Web e ao desenvolvimento de motores de busca. O conjunto de dados abre inúmeras possibilidades de investigação em vários domínios:

Os investigadores podem implementar e experimentar vários algoritmos de classificação, desde abordagens clássicas como o PageRank até técnicas modernas baseadas na aprendizagem automática. A inclusão de textos âncora – o texto visível e clicável nas hiperligações – fornece um contexto semântico valioso que pode melhorar a relevância da pesquisa e a classificação dos documentos.
O conjunto de dados permite uma análise profunda da topologia da Web e das estruturas de ligações. Os investigadores podem investigar questões sobre os padrões de conetividade da Web, identificar grupos de conteúdos relacionados e estudar a forma como a informação se espalha pela Web através de redes de ligações.
O texto âncora associado a cada hiperligação oferece uma fonte rica de descrições do conteúdo da Web geradas por humanos. Estes dados podem ser particularmente valiosos para desenvolver e testar algoritmos de resumo de documentos, ferramentas de análise semântica e sistemas de classificação automática.
Para os investigadores de arquivo da Web, este conjunto de dados fornece informações sobre a forma como as páginas da Web são ligadas e referenciadas ao longo do tempo, oferecendo dados valiosos para o estudo de estratégias de preservação da Web e de manutenção do património digital.

Metodologia

O processo começa com um instantâneo temporal de páginas Web de um período de tempo específico (recolha). Durante esta fase inicial, os nossos sistemas analisam cada página capturada, extraindo todas as hiperligações de saída juntamente com os respetivos textos âncora e carimbos de data/hora de captura. Isto cria um mapeamento preliminar de como as páginas se ligam umas às outras dentro do período de tempo capturado.

O que torna este conjunto de dados particularmente valioso é a sua estrutura de links invertida. Em vez de organizar os dados em torno das páginas de origem e dos seus links de saída, criámos um mapa invertido que se centra nas páginas de destino e nos seus links de entrada. Essa abordagem é particularmente útil para analisar a importância ou a autoridade de uma página na estrutura da Web, pois fornece acesso imediato a todas as páginas que fazem referência ou apontam para um determinado URL.

Considere-se uma estrutura de ligações tradicional em que a Página A liga às Páginas B, C e D. Na nossa estrutura invertida, vemos entradas para as Páginas B, C e D, cada uma listando a Página A como uma fonte de ligações de entrada. Esta reorganização dos dados facilita uma análise mais eficiente da autoridade e influência da página, tornando-a particularmente valiosa para investigadores que trabalham em algoritmos de classificação ou que estudam padrões de fluxo de informação na Web.

O conjunto de dados de links do Arquivo.pt combina três colecões web distintas:

PWA9609 (1996-2009): 89 milhões de páginas que captam a evolução inicial da Internet, centradas no domínio .pt. Esta coleção histórica fornece informações sobre os primeiros padrões de ligação na Web.
AWP38 (Out-Nov 2021): 44 milhões de páginas que oferecem um retrato contemporâneo da conetividade da Web, com ênfase no domínio .pt, mas incluindo conteúdos mais vastos da Internet.
FAWP47 (Out-Dez 2021): 8 milhões de páginas de capturas diárias de conteúdo do domínio .pt, concebidas para acompanhar as alterações de curto prazo nos padrões de ligação.

Como começar a utilizar o conjunto de dados

Os investigadores podem aceder ao conjunto completo de dados. Os dados são fornecidos num formato que permite um processamento e análise eficientes, tornando-os adequados tanto para estudos em grande escala como para investigações específicas.

Conclusão

O lançamento do conjunto de dados de links do Arquivo.pt representa uma contribuição significativa para a comunidade de investigação científica da Web. Ao disponibilizar gratuitamente esta rica coleção de dados de conetividade da Web, esperamos facilitar a investigação inovadora e aprofundar a nossa compreensão da complexa estrutura da Web.

Encorajamos os investigadores a explorar este conjunto de dados e esperamos ver as novas perspetivas e aplicações que emergem da sua análise. Quer esteja interessado em desenvolver novos algoritmos de pesquisa, estudar a topologia da Web ou investigar relações de conteúdo, este conjunto de dados fornece uma base sólida para a sua investigação.

Arquivo.pt participou na IIPC Web Archiving Conference em Oslo

Julho 4, 2025Abril 15, 2025 por Ricardo Basílio

Última atualização em 4 de Julho de 2025 às 8:32

Quatro membros da equipa do Arquivo.pt estiveram em Oslo, na Noruega, para participar na Assembleia Geral do International Internet Preservation Consortium e na Web Archiving Conference, entre os dias 8 e de abril de 2025.

A Biblioteca Nacional da Noruega foi a instituição de acolhimento deste evento internacional. O Arquivo da Web da Noruega é parte da missão da Biblioteca e é realizado numa segunda localização especializada em preservação digital, na cidade de Mo i Rana, no centro do país.

O IIPC WAC, o maior no domínio da preservação da Internet, foi como sempre uma ocasião excecional para a partilha de conhecimento e para o fortalecimento de colaboração entre os arquivos da Web.

O primeiro dia, 8 de abril, foi dedicado à Assembleia Geral, exclusivo para os membros do consórcio, e aos grupos de trabalho onde o Arquivo.pt tem um papel ativo. O Content Working Group é dedicado à criação de coleções temáticas e tem a participação do Arquivo,pt na coleção “Street Art”. O Training Working Group cria conteúdos formativos e ações de formação, tais como webinars do IIPC e workshops presenciais.

Nos dias 9 e 10 de abril realizou-se a Web Archiving Conference, evento que é aberto a todas as entidades e iniciativas relacionadas com a preservação e arquivo da Web.

Contributo do Arquivo.pt

O Arquivo.pt apresentou os seus serviços e iniciativas de interação com a comunidade, como por exemplo a colaboração com o Arquivo Municipal de Sines na preservação de conteúdos de interesse local. A preocupação com o acesso aos conteúdos, tanto para os investigadores como para os cidadãos em geral, é um aspeto muito apreciado pela comunidade do IIPC.

Arquivo.pt toolkit for web archiving – Lightning talk session 1 – Daniel Gomes – Slides, vídeo
Arquivo.pt Query Logs – Lightning talk session 3 – Pedro Gomes – Slides, vídeo
Collaborative collections at Arquivo.pt: four years of recordings from the city of Sines (Portugal) – Lightning talk session 4 – Ricardo Basílio – Slides, notas, vídeo
API/Bulk access and its usage – Poster slam – Vasco Rato – Poster
Arquivo.pt annual awards: a glimpse since 2018 – Poster slam – Daniel Gomes – Slides

Galeria de imagens

IIPC Web Archiving Conference 2025, Oslo

Formação do Arquivo.pt com a APDSI. Inscreva-se!

Abril 5, 2025Março 13, 2025 por Ricardo Basílio

Ciclo de Webinars do Arquivo.pt com a APSDI

Última atualização em 5 de Abril de 2025 às 13:07

A APDSI – Associação para a Promoção e Desenvolvimento da Sociedade da Informação promoveu um Ciclo de Webinars sobre o Arquivo.pt, realizado entre o dia 20 de março e o dia 1 de abril de 2025

Este Ciclo de Webinars, dedicado à preservação da memória cultural publicada na Web, é uma colaboração entre a APDSI e o Arquivo.pt, FCCN serviços digitais da Fundação para a Ciência e a Tecnologia I.P..

Luís Vidigal, Sócio Fundador da APDSI, Filipa Fixe e João Tavares, Vogais da Direção, introduziram o tema de cada sessão e a equipa do Arquivo.pt mostrou como funciona a preservação de conteúdos Web que permite às organizações e aos cidadãos acederem à web do passado.

As quatro sessões tiveram um total de 121 participantes.

Programa

Webinar 1 – 20 de março – Arquivo.pt: uma nova ferramenta para pesquisar o
passado. Daniel Gomes, Gestor do Arquivo.pt – Vídeo, slides
Webinar 2 – 25 de março – Bem publicar para bem preservar. Pedro Gomes,
Encarregado pelas recolhas do Arquivo.pt – Vídeo, slides
Webinar 3 – 27 de março – Acesso e processamento automático de informação
preservada da Web através de APIs. Vasco Rato, Web developer do Arquivo.pt – Vídeo, slides
Webinar 4 – 1 de abril – Arquivar a Web: faça-você-mesmo!. Ricardo Basílio, Vídeo, slides
Curador digital do Arquivo.pt

Inscrição (gratuita mas necessária)

Saber mais

Iniciativa eArchiving organizou workshop e Arquivo.pt esteve presente

Março 11, 2025Março 3, 2025 por Ricardo Basílio

José Borbinha, workshop eArchiving, a 25 de Fevereiro no IST (Sala José Tribolet)

Última atualização em 11 de Março de 2025 às 16:21

O Arquivo.pt participou no workshop eArchiving Portugal , que se realizou no Instituto Superior Técnico, no dia 25 de fevereiro de 2025, a convite do Professor Doutor José Borbinha, uma das primeiras pessoas a fazer arquivo da web em Portugal quando, na década de 1990, estava na Biblioteca Nacional.

O Professor José Borbinha, melhor que ninguém, sabe contar na primeira pessoa os pequenos episódios, quase épicos, as ações dos primeiros “heróis” que levaram à criação de um arquivo da Web em Portugal. Vê o Arquivo.pt como um serviço imprescindível quando se fala de preservação digital e de salvaguarda do património comunicacional das organizações.

O evento teve um formato hibrido com 50 participantes presencias e 270 online e foi aberto a todas as entidades públicas ou privadas com preocupações ao nível da preservação digital e gestão da informação em qualquer tipo ou formato. Aqui se incluem os conteúdos dos websites e redes sociais!

Os responsáveis dos Municípios, entidades da Administração Local, tiveram uma grande participação, respondendo ao apelo da Direção-Geral do Livro, dos Arquivos e das Bibliotecas (DGLAB). Este convite à participação de pessoas de todo o país foi uma oportunidade para o Arquivo.pt mostrar como pode ajudar na preservação dos sites institucionais e no cumprimento da Portaria n.º 112/2023, de 27 de abril.

eArchiving, uma iniciativa europeia nascida em Portugal

A iniciativa eArchiving ou Iniciativa de Arquivo Eletrónico tem por objetivo principal o património cultural digital e foi criada numa reunião de parceiros europeus em Lisboa.

“Foi precisamente nesta (sala José Tribolet no Instituto Superior Técnico) que teve início o eArchiving há onze atrás, a 29 de maio de 2014” recordou José Borbinha (INESC-ID), anfitrião e organizador do workshop.

A iniciativa eArchiving, é gerida, em nome da Comissão Europeia, pelo Consórcio E-ARK, onde se incluem os parceiros portugueses KEEP Solutions LDA e INESC-ID. No consórcio estão ainda o AIT Austrian Institute of Technology GmbH, parceiro principal, e o DLM Forum MTÜ.

Janet Anderson, gestora do eArchiving, mostrou os progressos alcançados em onze anos no domínio da preservação digital. Os projetos financiados pela União Europeia no âmbito do consórcio resultaram no desenvolvimento de especificações, software, formação e conhecimento sobre preservação digital.

Seguiu-se a apresentação de contributos para a preservação digital em Portugal: DGLAB, por Pedro Penteado, Centro Hospitalar São João, por Fernanda Gonçalves, Ministério da Justiça, por Alexandra Lourenço e Cristina Soares, Arquivo.pt, pelo curador digital Ricardo Basílio.

Para terminar, Miguel Ferreira fez a sua intervenção em representação do DLM Forum MTÜ, comunidade onde a KEEP Solutions LDA participa com o desenvolvimento de software. Numa abordagem mais técnica mostrou como estão estruturados os metadados na especificação de empacotamento E-Ark de modo a cumprirem os requisitos da preservação digital.

Como usar o Arquivo.pt para preservação os websites institucionais

Presentation of Arquivo.pt at the eArchiving Workshop, by Ricardo Basílio, digital curator. Photo by Pedro Penteado — Apresentação do Arquivo.pt no Workshop eArchiving por Ricardo Basílio, curador digital. Foto por Pedro Penteado

A preservação digital exige colaboração, tanto ao nível interno como externo entre organizações, e este workshop serviu esse propósito, pois foi ocasião para partilha de boas práticas, divulgação de ferramentas e serviços e contacto entre pessoas.

Da parte do Arquivo.pt destacou-se três serviços do seu catálogo para a preservação dos conteúdos publicados na web:

Os serviços do Arquivo.pt podem ser utilizados, por exemplo, pelos Municípios para a preservação dos conteúdos publicados nos websites institucionais.

A formação do Arquivo.pt, tais como webinars ou sessões presenciais, são úteis para dar capacidade às entidades para cuidarem dos conteúdos institucionais, incluindo os conteúdos das redes sociais que exigem uma estratégia alternativa.

Slides da apresentação

Saber mais

Vídeos de todas as apresentações, em breve no canal Youtube do E-ARK