Ciclo “Arquivos do Saber” realiza sessão presencial sobre o Arquivo.pt na FCCN

Dezembro 16, 2025Novembro 7, 2025 por Ricardo Basílio

Última atualização em 16 de Dezembro de 2025 às 20:12

No dia 19 de novembro realizou-se a última sessão de 2025 do ciclo Arquivos do Saber: Ciência, História e Memória, uma iniciativa do Arquivo de Ciência e Tecnologia da FCT.

O evento decorreu no pequeno auditório das instalações da FCCN, unidade de serviços digitais da FCT, Avenida do Brasil, 101, em Lisboa.

Estiveram presentes mais de 30 participantes e foi ocasião para os mais de 30 participantes conhecerem o Arquivo.pt mais de perto.

Programa do evento

Esta sessão contou na abertura, com as intervenções de Maria Paula Diogo, vogal do Conselho Diretivo da Fundação para a Ciência e a Tecnologia (FCT), Paula Meireles, coordenadora do Arquivo de Ciência e Tecnologia, e João Nuno Ferreira, vice-presidente da FCT e coordenador-geral da unidade de serviços digitais, FCCN.

Os oradores convidados foram Rúben Almeida, do INESC TEC – FEUP, que fez uma apresentação intitulada Minha Região – O Teu Portal Autárquico, e Joaquim José, do Instituto Politécnico da Guarda, que falou sobre Memor.pt – Explore a Memória Digital Portuguesa, ambos vencedores do Prémio Arquivo.pt 2025, 1.º e 2.º lugares, respetivamente. A sessão foi moderada por João Gomes, diretor de área da FCCN, unidade de serviços digitais da FCT.

Programa de 19 de novembro – ciclo “Arquivos do Saber”

O Arquivo de Ciência e Tecnologia da FCT e a divulgação do seu acervo

O ciclo Arquivos do Saber: Ciência, História e Memória, organizado pela FCT, está a decorrer desde fevereiro deste ano, com o objetivo de divulgar o acervo documental do seu Arquivo de Ciência e Tecnologia, bem como outros relevantes para a história e memória da Ciência e da Tecnologia em Portugal. As sessões são de curta duração e decorrem num ambiente informal e de partilha.

O Arquivo de Ciência e Tecnologia (ACT) é único na história da atividade científica em Portugal, com a função de preservar e gerir a memória documental da produção científica nacional, traduzida em milhares de processos de apoio a bolsas, instituições e projetos de investigação. Aberto ao público desde 16 de dezembro de 2011, possui um significativo acervo documental que inclui, além do próprio arquivo da FCT a partir de 1997, o espólio da Junta Nacional de Investigação Científica e Tecnológica (JNICT), de 1967 a 1997, e de outros organismos públicos e privados, essencialmente na área das políticas e financiamento da ciência em Portugal.

Galeria de imagens

5ª sessão do ciclo Arquivos do Saber: Ciência, História e Memória, na FCCN

20251119-sessao-arquivos-do-saber-fccn-11

20251119-sessao-arquivos-do-saber-fccn-10

20251119-sessao-arquivos-do-saber-fccn-1

20251119-sessao-arquivos-do-saber-fccn-8

20251119-sessao-arquivos-do-saber-fccn-12

20251119-sessao-arquivos-do-saber-fccn-13

20251119-sessao-arquivos-do-saber-fccn-14

20251119-sessao-arquivos-do-saber-fccn-18

20251119-sessao-arquivos-do-saber-fccn-17

20251119-sessao-arquivos-do-saber-fccn-21

20251119-sessao-arquivos-do-saber-fccn-20

20251119-sessao-arquivos-do-saber-fccn-19

20251119-sessao-arquivos-do-saber-fccn-22

Fotos por Leonor Arrimar, FCT

Vídeo da sessão

Vídeo com os slides

Conjunto de dados sobre as Eleições Autárquicas no Arquivo.pt

Dezembro 3, 2025Novembro 3, 2025 por Ricardo Basílio

Última atualização em 3 de Dezembro de 2025 às 12:55

As Eleições Autárquicas realizaram-se, em Portugal, a 12 de outubro de 2025 e o Arquivo.pt fez uma recolha especial de conteúdos eleitorais publicados na Web, de que resultaram 3.5 terabytes de informação para a investigação e a realização de trabalhos.

Foram utilizados 440 termos de pesquisa para obter 45 000 endereços de páginas, juntamente com os websites das freguesias, municípios e partidos.

Aqui se explica os diversos passos desta recolha sobre as eleições:

preparação de lista de termos de pesquisa
pesquisa usando o Google e a extensão Google Rank Checker
gravação usando o Heritrix e o Browsertrix-crawler
integração no Arquivo.pt
disponibilização de conjuntos de dados para investigação

Como se identificam os conteúdos eleitorais na Web

Para identificar conteúdos relacionados com as eleições utilizamos uma lista de termos de pesquisa como, por exemplo, “eleições autárquicas 2025″, “habitação autárquicas 2025″, “promessas “autárquicas 2025”. Depois das eleições completou-se com outros termos como “vitória autárquicas 2025”, “resultados autárquicas 2025”, etc.

Os termos de pesquisa são palavras que pretendem incluir diversos tópicos relacionados com as eleições, tais como política, sociedade, economia, entre outros, meios de comunicação, nomes de candidatos, regiões do país.

Na recolha sobre as Autárquicas, utilizou-se o motor de busca Google para fazer cada uma das pesquisas. Recorreu-se a alguns parâmetros da pesquisa avançada: o número de resultados (&num=100), resultados de nótícias (&tbm=nws), resultados de imagens (&udm=2). Depois das eleições, restringiu-se os resultados com o filtro “última semana”.

Em cada pesquisa extraiu-se os endereços das páginas de resultados do motor de busca (SERP, Search Engine Results Page) utilizando a ferramenta Google Rank Checker,Keyword SERP Ranking Tool. Esta ferramenta funciona como uma extensão do browser que exporta a lista de resultados no formato JSON.

No total, foram realizadas 1400 pesquisas ou queries no Google (800 em pré-eleições, 600 em pós-eleições). No final, os resultados de todas as pesquisas (ficheiros .json) foram reunidos num documento e convertidos em tabela. Cada resultado tem vários dados, tais como a relevância, o domínio de onde foi extraído, o link ou URL, o título da publicação, a data da pesquisa e a query.

Deve ter-se em conta que a lista obtida representa apenas uma pequena parcela de tudo o que foi publicado na Web acerca das eleições. Além disso, a mesma lista contém resultados não relacionados com o objetivo da recolha (falsos positivos) e algumas repetições. Por economia de tempo, nenhuma linha foi eliminada.

Deste processo de identificação resultaram 43 000 páginas (seeds) com notícias, artigos e publicações relacionadas com as eleições para serem usadas no processo de recolha pelo Arquivo.pt. Este conjunto de dados “Eleições Autárquicas 2025” está disponível na plataforma de dados abertos Dados.Gov.

Adicionou-se ainda a lista das Juntas de Freguesia, Câmaras Municipais e Partidos com os seus respectivos websites.

Como foram gravados os conteúdos e limitações a ter em conta

Os endereços obtidos, antes e depois das eleições, foram colocados a gravar em dois web crawlers ou rastreadores da Web, o Heritrix e o Browsertrix-crawler. O que estas ferramentas fazem é gravar páginas a partir de um endereço inicial que é dado (seed), seguindo depois as ligações aí existentes, até um certo limite, neste caso até um máximo de 5 vezes (5 saltos ou hops).

O Heritrix foi utilizado para uma primeira recolha genérica de páginas, pois é capaz de processar listas com milhares de endereços com rapidez: 25 858 URLs antes das eleições e 17 258 URLs depois das eleições. Gerou 541 Gigabytes de informação.

O Browsertix-crawler foi utilizado como segunda ferramenta para melhorar a recolha de conteúdos dinâmicos. Neste crawler a gravação é baseada em browser, ou seja, cada página é lida por um browser e depois é gravada. A gravação é mais demorada, mas captura conteúdos que de outro modo escapariam à recolha.

A recolha correu no Browsertrix-crawler de modo faseado, primeiro com a gravação dos websites das freguesias em agosto e setembro e, depois, entre 9 de outubro e 5 de novembro, com a gravação de notícias sobre as eleições e 8.850 publicações nas redes sociais. Gerou 2.9 Tetabytes de informação.

Quanto aos limites da recolha, identificou-se alguns, tais como: bloqueio do acesso por parte de alguns sites que se defendem contra acessos automáticos, apesar de o agente do Arquivo.pt estar identificado; conteúdos de redes sociais, atrás de login que não se consegue reproduzir no Arquivo.pt; vídeos que pelo seu formato também não se consegue reproduzir.

Como e quando aceder ao dados para investigar e criar de trabalhos

EAWP48 é o nome identificador da coleção que vai reunir os conteúdos sobre as Eleições Autárquicas de 12 de outubro de 2025. Uma descrição, assim como o seu estado (disponível ou não) pode ser consultado na lista de coleções do Arquivo.pt.

Nos próximos meses, o conteúdo será indexado e os índices CDXJ ficarão disponíveis para os investigadores na lista de datasets do Arquivo.pt.

Passado um ano, os conteúdos recolhidos ficarão acessíveis na pesquisa do Arquivo.pt . Qualquer pessoa poderá então pesquisar páginas eleitorais por texto ou por imagem.

Para mais informação contacte-nos.

Dados da recolha Eleições Autárquicas 2025

Saiba mais sobre as recolhas eleitorais de anos anteriores

Workshop sobre Preservação digital na Universidade de Coimbra

Maio 22, 2025Maio 10, 2025 por Ricardo Basílio

Última atualização em 22 de Maio de 2025 às 18:45

O Arquivo.pt participou no workshop intitulado “Preservação digital: ferramentas e práticas”, promovido pela Faculdade de Letras da Universidade de Coimbra, na tarde do dia 7 de maio de 2025. Com a moderação de Inês Santos, destacamos o painel inicial com excelentes intervenções de Moisés Rockembach (Universidade de Coimbra), Humberto Innarelli (Unicamp) e Daniel Gomes (Arquivo.pt, serviço digital da FCCN-FCT).

O encontro teve por objetivo oferecer à comunidade uma reflexão crítica acerca das novas tendências nas ferramentas e nas práticas de preservação digital.

A preservação digital é um tema transversal às organizações, pois todas produzem e geram informação em suporte digital. É cada vez maior a oferta de ferramentas, soluções que prometem maior eficiência no processamento de informação. Muitas são colocadas sob a designação de Inteligência Artificial. Tal abundância de produtos e enquadramentos exige uma maior discussão e abordagem crítica. E isso foi alcançado de forma brilhante pelo painel de oradores.

Três abordagens sobre Inteligência Artificial e Preservação Digital

Este encontro reuniu no Anfiteatro III da Faculdade de Letras da Universidade de Coimbra três autores de obras sobre preservação digital e trouxe à discussão abordagens diferentes.

Moisés Rockembach, co-autor com Caterina Pavão de Arquivamento da Web e preservação digital, a primeira obra em português sobre arquivos da Web, centrou a sua apresentação no impacto da Inteligência Artificial nos sistemas de preservação digital, nomeadamente na pesquisa e no acesso à informação, em processos de classificação indexação, por exemplo. A esse propósito do impacto das novas ferramentas que a tecnologia digital nos oferece, fez referência a uma frase de Demi Gretscko: “O processo de busca e captura da informação descrito no texto certamente poderá sofrer aportes futuros, especialmente ao se considerar o aporte de ferramentas novas, como as da Inteligência Artificial”.

Há ferramentas de Inteligência Artificial que permitem um acesso interessante à informação pela novidade e pelo formato. A arquivística deve ter em conta essa realidade e testar até que ponto isso pode transformar o modo como se opera a divulgação e o acesso a muitos conteúdos. Um exemplo para ilustrar esta ideia, foi a apresentação de um Podcast gerado por Inteligência Artificial, baseado no capítulo 2 do livro sobre Arquivos da Web, que versa sobre as políticas de preservação digital.

Link para Podcast gerado por Inteligência Artificial (publicado no Instagram)

Humberto Innarelli, autor de Criptex da preservação digital, autor de Criptex da preservação digital, coordenador do Arquivo Edgard Leuenroth (AEL) e investigador especialista em arquivística na Unicamp, São Paulo e professor Doutor do Centro Paula Souza, São Paulo, colocou a questão do futuro da preservação digital. Até agora, a prática para preservar conteúdos digitais dinâmicos é convertê-los em documentos estáticos. Por outro lado, cada vez a informação é-nos dada de forma dinâmica, a partir de bases de dados ou de algoritmos e Inteligência Artificial. Qual é o próximo passo? A prática arquivística tem de olhar não apenas para os metadados (metadata), como tem feito nos últimos anos, mas também para aquilo que explica como a informação foi gerada (o que podemos chamar paradata). Só assim é possível colocar a arquivística e a preservação digital na perspetiva do longo termo. Daqui a cem ou duzentos anos deveríamos ser capazes de continuar a aceder à informação digital produzida atualmente.

Daniel Gomes, editor principal do livro The Past Web, fundador do Arquivo.pt, discutiu a questão da Inteligência Artificial na sua relação com os conteúdos de produção não artificial e humana. Que valor acrescentado trazem as ferramentas geradoras de texto, imagem, áudio ou vídeo? Se considerarmos por exemplo que um Podcast sobre preservação digital utilizou como base um livro escrito por um autor humano, que conhecimento novo gerou? Pouco ou nenhum. Assim, o que se convencionou chamar Inteligência Artificial pode considerar-se como uma forma de apresentar o conhecimento humano e de modo nenhum dispensa a humanidade de continuar a pensar, a investigar e a produzir novo conhecimento.

O Arquivo.pt preserva conteúdos que foram publicados por pessoas e organizações e nesse sentido é uma fonte única no seu género. A informação publicada na Web é importante para relatar e compreender melhor a história recente, desde a década de 1990. Qualquer ferramenta de Inteligência Artificial terá de voltar ao ponto onde a informação foi criada por pessoas. A origem humana dos conteúdos preservados pelo Arquivo.pt, e o mesmo se pode dizer dos arquivos tradicionais, faz com que estes tenham um enorme valor, até considerando-o do ponto de vista do valor económico. Quanto vale a informação preservada por um arquivo da Web?

Estreia do MOOC ou curso online do Arquivo.pt

Daniel Gomes, Gestor do Arquivo.pt anunciou em primeira mão o curso online na plataforma NAU: A Web do passado: preservação e pesquisa.

O curso online ou MOOC (Massivo Online Open Course) está disponível para quem pretende aprofundar os seus conhecimentos sobre preservação da Web.

O link curto para divulgação é arquivo.pt/mooc

Os dados preservados do Arquivo.pt e o seu processamento automático por APIs

Vasco Rato, desenvolvedor do Arquivo.pt, mostrou como funcionam as interfaces de processamento automático, Application Programming Interfaces (APIs).

Os dados do Arquivo.pt podem ser processados por Inteligência Artificial. Os trabalhos concorrentes ao Prémio Arquivo.pt já o demonstraram, assim como alguns projetos como o GlórIA, um Large Language Model, desenvolvido na NOVA-FCT.

Para terminar, Ricardo Basílio, curador digital do Arquivo.pt, mostrou como qualquer pessoa pode gravar uma página ou um website inteiro no seu próprio computador num formato normalizado, compatível com os arquivos da Web. Usou-se para isso o ArchiveWeb.page e browsertrix-crawler como ferramentas de treino e formação. Esta prática permite que a comunidade seja cada vez mais ativa na preservação de informação institucional publicada na Web.

Agenda do evento

14h30 Painel – Moderadora: Inês Santos, Universidade de Coimbra

Preservação digital e Inteligência Artificial – Moisés Rockembach, Universidade de Coimbra – Slides
Cryptex da Preservação Digital: O próximo passo – Humberto Innarelli, Unicamp – Slides
Arquivo.pt e a preservação da Web – Daniel Gomes, FCCN-FCT – Slides

16h00 Intervalo

Dados Abertos para a Investigação. Processamento automático de informação através de APIs – Vasco Rato, FCCN-FCT – Slides
Demo – Arquivar a Web: faça-você-mesmo – Ricardo Basílio, FCCN-FCT – Slides
- Demo de gravação manual com o ArchiveWeb.page
- Demo de gravação automática com o Browsertrix-crawler

17h00 – Final

Galeria de imagens

Imagens nos canais da Faculdade de Letras da Universidade de Coimbra

Vídeo com momentos do evento (publicado no Facebook)

Workshop na Faculdade de Letras da Universidade de Coimbra

Análise às pesquisas dos utilizadores no Arquivo.pt

Maio 8, 2024 por Ricardo Basílio

Os query logs do Arquivo.pt são recursos únicos para investigação

O Arquivo.pt disponibiliza um serviço “tipo Google” (Google-like) que permite pesquisar páginas e imagens recolhidas da web desde a década de 1990. Note-se que a pesquisa do Arquivo.pt complementa os motores de busca da web, uma vez que permite a pesquisa temporal de informação que já não se encontra disponível online nos seus sítios originais.

A análise do comportamento dos utilizadores é um importante tópico de investigação para compreender as suas necessidades de informação e melhorar a qualidade dos resultados de pesquisa. Assim, quando um utilizador interage com um motor de pesquisa, este regista as acções do utilizador num ficheiro denominado query log (registo de pesquisas). Os query logs sobre arquivos da Web são recursos únicos para a investigação porque descrevem as necessidades reais dos utilizadores de arquivos da Web sobre informações históricas que foram publicadas em linha.

Estudo de caso

Flavie Gallois e Adam Jatowt, da Universidade de Innsbruck, e Ricardo Campos, da Universidade da Beira Interior e do INESC TEC, analisaram o comportamento de pesquisa dos utilizadores com base no conjunto de dados de pesquisas do Arquivo.pt recolhidos durante um período de 3 meses, entre junho e setembro de 2021 (Analyzing User Search Behaviour in Temporal Web Repositories through Search Query Log Analysis).

Este estudo analisou as características das pesquisas, como o comprimento, o tipo ou a frequência, e comparou os resultados obtidos com trabalhos anteriores sobre o comportamento de pesquisa dos utilizadores em arquivos da Web e em motores de pesquisa da Web em tempo real.

O estudo revelou tendências e padrões fundamentais sobre o modo como os utilizadores procuram informações nos arquivos da Web, o que motiva a realização de mais trabalhos de investigação.

Como é que os utilizadores de arquivos Web pesquisam?

Figure 1 : Distribution of country origin of users — Figura 1 : Distribuição por país de origem dos utilizadores

Figure 2: Distribution of languages used in queries — Figura 2: Distribuição por língua utilizadas nas pesquisas

Os utilizadores eram de Portugal em 85,7% das pesquisas. No entanto, a língua portuguesa foi identificada através da identificação automática da língua das pesquisas como sendo utilizada em apenas 37% das pesquisas. Isto sugere que os utilizadores utilizam outras línguas que não a sua para pesquisar em arquivos Web.

Os utilizadores do Arquivo.pt tendem a utilizar queries mais longas, com mais palavras e caracteres, em comparação com estudos anteriores, tanto em arquivos da web como em motores de busca live-web. Cerca de 92% das pesquisas tinham 5 ou menos termos (média de 25 caracteres), sendo 3 o número mais comum de termos submetidos. No trabalho anterior sobre o comportamento de pesquisa em arquivos da Web, observou-se que os utilizadores tendiam a submeter de 1 a 3 termos por pesquisa, sendo 1 termo a submissão mais comum.

Os utilizadores tendem a fazer várias consultas numa sessão, em vez de uma única pesquisa, o que pode indicar a necessidade de aperfeiçoar as suas consultas de pesquisa ou de explorar várias opções de pesquisa

87,7% das pesquisas submetidas ao Arquivo.pt utilizaram browsers de desktop (computadores de secretária), apesar de o Arquivo.pt disponibilizar interfaces de utilizador amigáveis para telemóveis, as páginas antigas arquivadas na web não são responsivas e são mal renderizadas em dispositivos móveis. Assim, é expetável que os utilizadores utilizem maioritariamente os arquivos web através dos seus desktops.

Figure 3: Arquivo.pt users can refine the time span of their queries by using the From and To datepickers. — Figura 3: Os utilizadores do Arquivo.pt podem refinar o período de tempo das suas pesquisas utilizando os selectores de data “De” e “Até” (*From and To*).

Os utilizadores refinaram o período de tempo da pesquisa (utilizando os marcadores de data) em cerca de 50% das pesquisas, o que indica uma consciência das necessidades temporais próprias da utilização de arquivos Web. Curiosamente, os utilizadores modificaram o seletor de data “De” com mais frequência do que o seletor de data “Até”. Note-se que a manutenção do período de tempo predefinido pode corresponder às necessidades de informação do utilizador e não indica necessariamente a falta de conhecimento da existência da função de definição do período de tempo (própria da pesquisa em arquivos Web).

Apenas uma pequena percentagem de utilizadores incluiu anos específicos nos seus termos de pesquisa (4%), o que pode sugerir que a função de intervalo de tempo foi insuficiente ou passou despercebida a alguns utilizadores.

Os resultados obtidos sugerem que os utilizadores estão mais conscientes das suas necessidades de informação e que melhoraram as suas técnicas de pesquisa para serem mais eficazes nos arquivos Web, em vez de os utilizarem apenas por curiosidade, como primeiros utilizadores.

O que é procurado num arquivo Web?

Os autores do estudo aplicaram o reconhecimento automático de entidades (automatic entity recognition) sobre as pesquisas dos utilizadores e obtiveram um conjunto de nuvens de palavras que fornecem graficamente uma ideia das necessidades de informação mais comuns dos utilizadores do Arquivo.pt:

Figure 4: Word cloud of the most frequent query terms submitted to Arquivo.pt. — Figura 4: Nuvem de palavras dos termos de pesquisa mais frequentes submetidos ao Arquivo.pt.

Figure 6: The most frequent Geographical Locations in query terms submitted to Arquivo.pt. — Figura 6: As localizações geográficas mais frequentes nos termos de pesquisa submetidos ao Arquivo.pt.

Figure 6: The most frequent Organizations in query terms submitted to Arquivo.pt

Figura 6: As organizações mais frequentes nos termos de pesquisa submetidos ao Arquivo.pt.

Figure 7: The most frequent Persons in query terms submitted to Arquivo.pt. — Figura 7: As pessoas mais frequentes nos termos de consulta submetidos ao Arquivo.pt.

Acesso ao dados das pesquisas no Arquivo.pt (query dataset)

O Arquivo.pt lançou um conjunto de recursos para apoiar estudos de investigação sobre as pesquisas dos utilizadores (query dataset):

An Analysis on a Query Dataset from Arquivo.pt Search Engine technical report
Arquivo.pt Query Dataset for Research (cheat sheet)
Query_Log_Page_Search_Log4j_Sample.txt: amostra por seleção aleatória de pesquisas de páginas (page search query log) (Log4j format).
Query_Log_Image_Search_Log4j_Sample.txt: amostra por seleção aleatória de pesquisas de imagens (image query log) (Log4 format).
Query_Log_Apache_HTTPD_Sample.txt: amostra que contém os logs do Apache HTTPd (Apache HTTPd query log).
Query_Dataset_Sample.csv: tabela que contém uma amostra das pesquisas (sample of the dataset query).
Query_Dataset_ArquivoPT.7z (in UTF-8): este ficheiro corresponde ao conjunto completo de dados de pesquisas disponíveis para investigação, recolhidos durante um período de 3 meses, de junho a setembro de 2021. Aconselhamos a ter cuidado ao abrir o ficheiro, porque alguns leitores, como o Microsoft Excel, podem utilizar o conjunto de caracteres errado e danificar o conteúdo, por exemplo, da coluna L “QUERY”.
- Ver How to set character encoding when opening a CSV file in Excel? – Super User
- Gerou o ficheiro Logs file in XLSX format

Métricas de avaliação para pesquisa em arquivos Web

O primeiro passo para compreender o comportamento do utilizador é definir métricas de avaliação. A definição de métricas é uma ferramenta poderosa para estabelecer objectivos a longo e a curto prazo para decidir que novos produtos e funcionalidades devem ser lançados aos utilizadores.

Partilhamos um relatório de trabalho em curso que agrega informações sobre as métricas de avaliação da pesquisa em arquivos da Web: Web Archive Search Evaluation Metrics . Isto contribui para comparar o comportamento de pesquisa dos utilizadores entre os motores de pesquisa da Web em direto e os dos arquivos da Web. Não hesite em comentar diretamente o documento colaborativo ou em contactar-nos.

Este relatório fornece também um resumo de referências sobre trabalhos anteriores, fluxos de pesquisa e estrutura dos correspondentes registos de pesquisa produzidos pelo Arquivo.pt, para facilitar o trabalho dos investigadores no estudo destes conjuntos de dados.

Para saber mais

Dados abertos para Processamento da Linguagem Natural

Dezembro 13, 2024Setembro 18, 2023 por admin

Daniel Gomes e Diego Alves apresentando no evento final do CLEÓPATRA.

Última atualização em 13 de Dezembro de 2024 às 13:56

Arquivo.pt preservou documentos online em várias línguas sobre as Eleições Parlamentares Europeias de 2019

As Eleições Parlamentares Europeias de 2019 foram um evento de relevância internacional. A estratégia para preservar a informação relevante na World Wide Web é delegada às instituições nacionais. No entanto, a preservação de páginas web que documentam eventos internacionais ainda não foi oficialmente atribuída.

A equipa do Arquivo.pt, com o objetivo de preservar o conteúdo online multilingue que documenta este evento, aplicou uma combinação de processos humanos e automáticos de seleção.

O processo de geração da coleção sobre as Eleições Parlamentares Europeias de 2019 foi realizado em duas etapas.

Na primeira etapa, foram identificados 40 termos relevantes em português sobre as Eleições Parlamentares Europeias de 2019, que foram posteriormente traduzidos automaticamente para as 24 línguas oficiais da União Europeia: búlgaro, croata, checo, dinamarquês, holandês, inglês, estónio, finlandês, francês, alemão, grego, húngaro, irlandês, italiano, letão, lituano, maltês, polaco, português, romeno, eslovaco, esloveno, espanhol e sueco.

Estas traduções foram revistas em colaboração com o Publications Office of the European Union. Além disso, paralelamente, foi lançada uma lista colaborativa para reunir contribuições de endereços relevantes oriundos da comunidade internacional.

Na segunda etapa, a equipa do Arquivo.pt executou iterativamente 6 recolhas (99 milhões de ficheiros web, 4,8 TB) utilizando diferentes configurações e software de recolha, para maximizar a qualidade do conteúdo recolhido.

Os dados web obtidos foram agregados numa coleção especial identificada como EAWP23 e tornaram-se pesquisáveis e acessíveis através do Arquivo.pt em julho de 2020 (https://arquivo.pt/ee2019).

Projeto CLEOPATRA: Cross-lingual Event-centric Open Analytics Research Academy

Daniel Gomes e Diego Alves se apresentando no evento final do CLEÓPATRA — Daniel Gomes e Diego Alves apresentando no evento final do CLEÓPATRA.

A CLEOPATRA ITN foi uma Rede de Formação Inovadora Marie Skłodowska-Curie destinada a gerar formas de compreender melhor a cobertura digital massiva de grandes eventos na Europa durante as últimas décadas.

O principal objetivo era facilitar o processamento avançado multilíngue em grande escala de informações textuais e visuais acerca dos principais eventos contemporâneos e desenvolver métodos inovadores para acesso e interação eficientes com informações multilíngue.

No total, 14 pesquisadores em estágio inicial hospedados em 9 universidades europeias desenvolveram suas pesquisas enquanto estavam matriculados como estudantes de doutoramento.

Parceiros associados como o Arquivo.pt contribuíram para o CLEOPATRA acolhendo e formando investigadores em início de carreira como Diego Alves. No âmbito do programa de formação, este investigador realizou um estágio no Arquivo.pt em Lisboa de junho a agosto de 2022.

A ideia era desenvolver parte da sua investigação sobre estruturas sintáticas das línguas da UE utilizando os recursos textuais preservados pelo Arquivo.pt e trocar conhecimentos com os especialistas em preservação da web sobre estratégias de extração e processamento de dados históricos da web.

Diego Alves defendeu a sua tese de doutoramento intitulada Computational typological analysis of syntactic structures in European languages em julho de 2023 na Faculdade de Ciências Humanas e Sociais da Universidade de Zagreb (Croácia).

Gerando conjuntos de dados textuais para processamento de linguagem natural

O trabalho de Diego Alves originou conjuntos de dados multilíngues sobre as Eleições Parlamentares Europeias de 2019 que constituem recursos preciosos para investigação científica.

Este trabalho será detalhado no capítulo “Robustness of Corpus-based Typological Strategies for Dependency Parsing” do livro de acesso aberto CLEOPATRA intitulado “Event Analytics across Languages and Communities”.

Um fluxo de Processamento de Linguagem Natural em 3 etapas foi desenvolvido para gerar conjuntos de dados textuais que podem ser usados em diversos tipos de estudos na área de Humanidades Digitais:

Extrair texto: O conteúdo textual foi extraído de cada URL arquivado usando a biblioteca Python newspaper3k. O idioma de cada texto extraído foi determinado usando a biblioteca langdetect e os textos escritos em diferentes línguas foram armazenados em ficheiros distintos;
Limpar textos extraídos: um script Python foi aplicado para limpar os textos removendo informações desnecessárias (ex.: instâncias repetidas, linhas vazias, etc.);
Dupla verificação de identificação de língua: a língua de cada texto extraído e limpo foi verificada novamente para eliminar possíveis erros originados durante as etapas anteriores.

Dois novos conjuntos de dados para investigação em acesso-aberto!

Um dos resultados obtidos foi um conjunto de dados contendo textos agrupados por língua disponível publicamente. Cada ficheiro contém os textos numa determinada língua sobre as Eleições da União Europeia de 2019. A distribuição dos textos extraídos para cada língua está descrita na figura abaixo:

Número de tokens de cada corpus extraídos da coleção Eleições da União Europeia 2019 preservados pelo Arquivo.pt (EAWP23).

O referido corpus foi anotado automaticamente quanto às relações gramaticais e de dependência para gerar um corpus com informações sintáticas úteis para estudos linguísticos.

Foi aplicado o modelo multilíngue da ferramenta UDify (Kondratyuk e Straka, 2019).

Os textos anotados seguiram a mesma ordem dos respetivos ficheiros de texto originais. Cada frase foi anotada seguindo a Universal Dependencies framework no formato CoNNL-U, que é a referência em termos de anotação sintática em Processamento de Linguagem Natural. Assim, cada ficheiro deste conjunto de dados contém os textos anotados numa determinada língua sobre as Eleições da União Europeia de 2019.

Os textos anotados sintaticamente sobre as Eleições Europeias de 2019 estão disponíveis ao público!

Saber mais

Robustness of Corpus-Based Typological Strategies for Dependency Parsing, Event Analytics across Languages and Communities, 2024
Secondments@Arquivo.pt e novas ferramentas de investigação disponíveis e Robustness of Corpus based Typological Strategies for Dependency Parsing” , apresentação no evento final do CLEOPATRA, 2023
Conjunto de dados de textos limpos e com língua verificada sobre as eleições europeias de 2019 (textos brutos)
Conjunto de dados de textos anotados sintaticamente sobre as Eleições Europeias de 2019 (textos CoNLL-U)
Script Python para extrair textos de línguas específicas do Arquivo.pt através de uma lista de palavras-chave
Análise tipológica computacional de estruturas sintáticas em línguas europeias, Tese de doutorado de Diego Alves, 2023
Diego Alves personal page
API do Arquivo.pt
Robustness of Corpus-based Typological Strategies for Dependency Parsing, Diego Alves and Daniel Gomes, Event Analytics across Languages and Communities book, Springer.

Participação do Arquivo.pt em eventos internacionais sobre arquivos da Web

Agosto 1, 2023Junho 16, 2023 por Ricardo Basílio

Última atualização em 1 de Agosto de 2023 às 12:54

Encontro com a comunidade dos arquivos da Web

O Internacional Internet Preservation Consortium (IIPC), consórcio que reune inicitivas de preservação da Web de todo o mundo, realizou a Assembleia Geral com os seus associados no dia 10 de maio de 2023.

Nos dias seguintes, 11 e 12 de maio, realizou-se a IIPC Web Archiving Conference (IIPC WAC), uma iniciativa aberta à comunidade, onde podem participar pessoas ou entidades não associodas ao IIPC e interessadas no domínio da preservação da Web.

O acolhimento dos dois eventos foi feito conjuntamente pela KB – National Library of the Netherlands, e pelo Beeld & Geluid – Netherlands Institute for Sound & Vision.

Contributos do Arquivo.pt na Web Archiving Conference

O Arquivo.pt participou nas reuniões dos grupos de trabalho do IIPC (Training Working Group e Curators Working Group) e contribuiu com apresentações nas sessões temáticas Collaborations & Outreach e Program infrastructure (sessões 7 e 17).

Arquivo.pt updates 2023 (slides)
Linking web archiving with arts and humanities: the collaboration between ROSSIO and Arquivo.pt (video, slides)
Arquivo.pt behind the curtains (slides)

Encontro com a comunidade dos investigadores RESAW

RESAW (Research Infrastructure for the Study of Archived Web Materials) é uma iniciativa criada em 2012 com o objetivo de promover os estudos baseados em conteúdos Web arquivados, em áreas como Ciências Sociais, Artes e Humanidades Digitais.

A conferência RESAW 2023 foi realizada no MUCEM Lab (Mediterranean Institute of Heritage Crafts), em Marselha, de 5 a 6 de junho de 2023, sob o tema Exploring the Archived Web During a Highly Transformative Age.

Contributos do Arquivo.pt no RESAW 2023

O Arquivo.pt contribuiu com apresentações para as sessões Web Archive in Mediterranean area and its merge(4.A,), From online Tools to Web Archive (6.B.), Towards a participatory approach to collections (9. A.), Digging up the materials for writing web history (9.B.).

How to research governmental web data? (abstract, slides)
Archiving Cryptocurrencies (abstract, slides)
Time to explore, time to learn from the archived web: Arquivo.pt training initiative (abstract, slides)
Exhibiting Web Memories from Arquivo.pt: a call for community participation (abstract, slides)

Encontro do Projeto CLEOPATRA

O Projeto CLEOPATRA, liderado pelo L3S Research Center at the Gottfried Wilhelm Leibniz University of Hannover, desenvolveu desde 2019 um progama de formação para investigadores doutorandos (Early Stage Researcher, PhD).

O Arquivo.pt participou em três cursos: Incentives design for hybrid multilingual information processing and analytics, em Southampton; National and transnational media coverage of European parliamentary elections, 2004-2014, Londres; e NLP for under-resourced languages, em Zagreb, na Croácia.

Em 2022, o Arquivo.pt acolheu dois investigadores nas suas instalações os quais utilizaram os recursos arquivados e tiveram apoio especial da equipa do Arquivo.pt para desenvolverem a sua investigação.

O projeto CLEOPATRA terminou em 2023 com a realização de um encontro a 16 de maio, em Hannover, que reuniu professores, investigadores e representantes de instituições envolvidas.

Daniel Gomes, Gestor do Arquivo.pt, destacou as novas ferramentas que o Arquivo.pt disponibiza e os resultados dos trabalhos realizados pelos investigadores que passaram pelo Arquivo.pt.

Secondments@Arquivo.pt and new research tools available (Slides)

Continuam as sessões online Café com o Arquivo.pt

Agosto 6, 2024Janeiro 17, 2022 por Ricardo Basílio

Última atualização em 6 de Agosto de 2024 às 14:10

Partilhe esta página: arquivo.pt/cafe

Bem vindos à 3ª temporada do Café com o Arquivo.pt

O Arquivo.pt continua a oferecer à comunidade sessões online que endereçam tópicos relacionados com a preservação da informação publicada na web.

Ouça os convidados e converse directamente com a equipa do Arquivo.pt para saber como tirar maior partido do serviço e concorrer a mais uma edição anual do Prémio Arquivo.pt.

Sessões da 3ª temporada

Sessão especial Dia Mundial da Preservação Digital 2021 – 5 de novembro – Major Minors

No mês de novembro comemora-se o Dia Mundial da Preservação Digital e para assinalar esta iniciativa internacional, o Arquivo.pt realizou uma sessão online aberta à comunidade.

O trabalho dos convidados especiais desta sessão, Leandro Costa, Paulo Martins e José Carlos Ramalho (orientador), foi o 1º classificado do Prémio Arquivo.pt 2021.

22ª sessão – 20 de janeiro de 2022 – Politiquices

O Politiquices.pt permite pesquisar relações de apoio ou oposição entre personalidades e partidos políticos expressas em títulos de notícias. Esta aplicação utiliza informação preservada no Arquivo.pt para criar uma ontologia de relações, recorrendo a tecnologia de processamento de linguagem natural.

David Batista, 2º classificado do Prémio Arquivo.pt 2021, explica como desenvolveu o seu trabalho e demonstra as aplicações para os investigadores e cidadãos em geral.

21ª sessão – 17 de fevereiro de 2022 – Primeiras páginas de jornais online portugueses

“Primeiras páginas de jornais online portugueses” apresenta uma análise gráfica interativa das primeiras páginas de jornais online portugueses. Para este estudo foram analisados itens específicos dentro do desenho de jornais, permitindo assim observar tendências ao longo do tempo.

Susana Parreira, explica como desenvolveu este trabalho no âmbito do seu mestrado, com a colaboração e orientação de Ana Boavida (Universidade de Coimbra) Ana Sabino (Instituto Politécnico de Castelo Branco e Penousal Machado.

Temporadas anteriores

Apresentação na IIPC Web Archiving Conference

Arquivo.pt preserva websites de projectos científicos nacionais

Fevereiro 26, 2021Dezembro 31, 2020 por Ricardo Basílio

Última atualização em 26 de Fevereiro de 2021 às 13:06

Preservar os websites de projectos científicos é importante

Os conteúdos dos websites tendem a desaparecer quando os projetos científicos terminam.

A preservação dos websites de projetos científicos é importante porque:

documenta o desenvolvimento dos projetos;
assegura o acesso a conteúdos técnicos e científicos únicos que os investigadores publicaram nos websites dos projetos (ex. apresentações, fotografias, conjuntos de dados);
reforça a visibilidade dos resultados dos projetos financiados pela FCT.

Recolha experimental dos websites dos projetos de científicos em 2016

O Arquivo.pt recolheu websites de projetos financiados pela FCT em 2016 de forma automática.

A informação acerca destes websites estava dispersa pois não era registada durante o processo administrativo.

Durante cerca 20 anos a FCT financiou projetos científicos, por isso o número de sites poderia ser demasiado elevado para serem identificados manualmente.

Foi então adoptada uma metodologia automática de identificação destes websites desenvolvida pelo Arquivo.pt.

A base de dados da FCT tinha um total de 11 996 entradas de projetos mas não incluía referências a endereços web. Aplicando a metodologia automática foram identificados 7 956 URLs relacionados com os projectos científicos financiados.

A recolha dos conteúdos referenciados por estes endereços resultaram na preservação de 600 721 ficheiros (72 GB), incluindo conteúdos tais como páginas da web de grupos de pesquisa, páginas pessoais de investigadores ou blogs relacionados com os projetos.

Referências online em relatórios de projectos científicos passaram a ser preservadas a partir de 2020

A partir de junho de 2020, os endereços dos websites dos projetos financiados pela FCT passaram obrigatoriamente a ser registados nos relatórios de progresso e final submetidos à FCT.

O Arquivo.pt passou a utilizar estes endereços para preservar o conteúdos de websites de projetos científicos nacionais de forma sistemática.

1ª recolha oficial de websites de projectos científicos

Em junho de 2020, o Arquivo.pt obteve 263 endereços relacionados com 100 projetos científicos a partir dos relatórios financiados pela FCT. Grande parte dos endereços (67%) não tinha qualquer versão anteriormente preservada no Arquivo.pt.

Os endereços obtidos apontam para recursos online tais como os websites dos projetos, unidades de I&D, notícias nos media, artigos em revistas científicas ou repositórios, base de dados, vídeos no Youtube ou páginas do Facebook.

Em julho de 2020, lançou-se uma recolha especial a partir deste conjunto de endereços que resultou em 6,9 GB de informação obtidos a partir da visita a 31 606 URLs.

Exposição acerca de projetos de Investigação & Desenvolvimento

A Memória da Investigação Científica é uma exposição online dedicada aos websites de projetos científicos financiados pela Fundação para a Ciência e a Tecnologia (FCT) que o Arquivo.pt tem preservado.

Encontram-se também websites das Unidades de Investigação & Desenvolvimento financiadas pela FCT.

Memorial do Arquivo.pt preserva gratuitamente websites científicos

O serviço Memorial do Arquivo.pt tem preservado websites históricos da FCT que foram desativados. Estes foram criados para eventos ou iniciativas que terminaram e por isso os seus conteúdos deixaram de ser actualizados.

Para incluir um website no Memorial, o Arquivo.pt começa por fazer uma recolha de alta qualidade dos seus conteúdos.

Em seguida, os conteúdos recolhidos são validados em colaboração com os responsáveis pelo website.

Finalmente, o endereço do website é redireccionado para os conteúdos que passaram a ser preservados pelo Arquivo.pt.

Por exemplo, se alguém quiser aceder a qualquer página do site do Encontro Arquivos Científicos realizado em 2014, será redirecionado para o Arquivo.pt.

Assim, os conteúdos permanecem acessíveis ao longo do tempo e os links, as referências em comunicações científicas que possam existir não se quebram.

O serviço de preservação digital Memorial do Arquivo.pt não tem custos para websites da comunidade académica e científica, bastando enviar um pedido para contacto@arquivo.pt.

Para saber mais

Preserving Websites Of Research & Development Projects, International Conference on Digital Preservation, Outubro de 2016 (ppt, bibtex)
O papel do Arquivo.pt na Ciência e Ensino Superior

Arquivos online ou do online?

Dezembro 29, 2020Dezembro 28, 2020 por Ricardo Basílio

No final de 2020, recomendamos alguns textos que colocam o futuro em perspetiva.

Destacamos o tema da preservação dos conteúdos online, apresentado no livro “Tendências 2021”, mais precisamente no capítulo intitulado “Arquivos online ou do online?” da autoria de Daniel Gomes, Gestor do Arquivo.pt.

Fui convidado para escrever acerca dos desafios e ameaças aos arquivos online. A primeira questão que me surgiu foi o que se entende por um “arquivo online”?

A minha preocupação reside nos “arquivos do online” porque ainda nem existe uma consciência instituída acerca da sua necessidade, seja a nível académico, governamental ou individual.

É tecnologicamente impossível preservar toda a informação online. Mas é um absurdo não ter a consciência, e consequentemente a acção, de que temos de preservar alguma da informação online para acesso a curto, médio e longo prazo.

Leia o texto na íntegra nas páginas 23 a 26 do livro em acesso-aberto “Tendências 2021”.

O desafio é cultivar a consciência da importância de preservar conteúdos online aprendendo como fazê-lo na prática.

Votos de Bom Ano!

Coleção histórica do Geocities disponível no Arquivo.pt

Setembro 23, 2021Setembro 29, 2020 por Ricardo Basílio

Última atualização em 23 de Setembro de 2021 às 15:30

O Geocities.com foi a primeira grande “rede social” que permitia a qualquer pessoa criar o seu website e difundir informação através da Internet. Foi criado em 1994, adquirido pela Yahoo! em 1999 e encerrado em 2009.

Surgiram iniciativas para preservar os conteúdos do Geocities, tais como o projecto do Archive Team que reuniu 641 GB de informação em 2009, o oOCities ou o Geocities.ws.

Dada a relevância histórica do Geocities, o Arquivo.pt também integrou os seus conteúdos que prevaleceram até aos dias de hoje.

Agora, qualquer pessoa pode facilmente explorar os conteúdos históricos do Geocities utilizando as ferramentas inovadoras de pesquisa disponibilizadas pelo Arquivo.pt como a pesquisa de páginas, pesquisa de imagens ou via API.

Com esta iniciativa, o Arquivo.pt pretende contribuir para o surgimento de estudos inovadores em áreas como Artes, Humanidades ou Sociologia (ver sumário do projecto).

Pesquise agora o Geocities em: arquivo.pt/searchGeocities