Eleições de 2024 em Portugal tiveram recolhas especiais no Arquivo.pt

Eleicões Europeias

Última atualização em 9 de Outubro de 2024 às 17:33

O Arquivo.pt fez recolhas especiais sobre as três eleições que se realizaram este ano: as Legislativas de 10 de março, as eleições na Madeira de 26 de maio e as Europeias de 9 de junho.

Foram identificadas mais de 70 mil páginas com conteúdos relacionados com as eleições e a vida política em Portugal e na Europa e recolhidos cerca de 4 Terabytes de informação.

Agradece-se às pessoas que contribuiram com a seleção de endereços. Desafia-se os professores e estudantes a fazerem trabalhos que utilizem as coleções especiais sobre as eleições que o Arquivo.pt tem feito ao longo dos anos.

Saiba mais detalhes sobre o procedimento da recolha e sobre os resultados obtidos.

Eleições Legislativas 2024

As Eleições Legislativas tiveram lugar no dia 10 de março de 2024 para eleger os membros da Assembleia da República para a 16.ª Legislatura da Terceira República Portuguesa.

Destacamos nesta recolha o contributo da comunidade com uma seleção manual de 827 páginas, o que contribuiu para melhorar a qualidade da coleção.

Utilizou-se cerca de 500 termos compostos ou palavras-chave para procurar conteúdos publicados na Web acerca das eleições. O serviço utilizado para pesquisa automática foi o Bing Search API. Os resultados foram limitados ao top 20.

Por exemplo, o termo composto “frente-a-frente legislativas 2024″ encontrou páginas relativas aos debates entre candidatos. O termo “habitação legislativas 2024″ obteve páginas relativas às propostas partidárias para a habitação. O termo “legislativas 2024 site:expresso.pt” identificou páginas do Expresso sobre as eleições. Foram utilizados também os nomes dos candidatos.

Após as eleições foram usados termos de pesquisa próprios para esse período, tais como “vitória legislativas 2024”, “derrota legislativas 2024” ou “resultados legislativas 2024”, entre outros.

A pesquisa automática no Bing Search API resultou em 34.120 endereços obtidos antes das eleições e em 5.803 após as eleições.

Os sites dos partidos políticos, incluindo os partidos sem assento parlamentar, também foram recolhidos durante o período eleitoral.

Nem todos os conteúdos identificados puderam ser efetivamente gravados, devido às limitações das ferramentas de gravação e às restrições dos próprios sites.

Para a gravação foram utilizadas as ferramentas Heritrix, Brozzler e Browsertrix-cloud (versão beta) cortesia do Webrecorder.net.

A gravação realizou-se entre 6 e 20 de março e resultou em 3.2 Terabytes de informação. Os conteúdos foram incluídos na coleção espeacial EAWP45 e estarão disponíveis passado 1 ano.

Para saber mais, consulte o conjunto de dados:

Eleições para a Assembleia Legislativa da Madeira 2024

As Eleições para a Assembleia Legislativa da Madeira realizaram-se a 26 de maio. O Arquivo.pt fez uma recolha especial de conteúdos publicados na Web.

Começou-se por fazer uma pesquisa automática por notícias, páginas eleitorais e websites relacionados com as eleições na Madeira. Utilizou-se uma lista termos de pesquisa para colocar no Bing Search API.

Pretendeu-se obter o maior número possível endereços de páginas (URLs) relacionados com o evento ou tema em causa, ou seja, as eleições madeirenses. Para isso definiu-se vários limites para os resultados: top 10, top 20, top 50 e top 100. Deixou-se documentado esse processo, o qual mostra que quanto mais alargamos o número de resultados maior é o número de páginas pouco relevantes e por vezes fora do alvo pretendido.

A totalidade dos endereços (12.656) foi colocada a gravar no dia 7 de junho no Heritrix crawler.

Saiba mais consultando o conjunto de dados:

Eleições Europeias 2024 em recolha multilingue

As Eleições Europeias realizaram-se a 9 de junho em Portugal. Em alguns países, como por exemplo, a Estónia, a Chéquia ou a Itália as eleições foram em outras datas.

O Arquivo.pt recolheu páginas relativas às Eleições Europeias nos 27 países da União Europeia e nas 24 línguas oficiais.

Para isso seguiu-se a mesma metodologia usada para a coleção acerca das Eleições Europeias de 2019, ou seja, uma pesquisa multilingue e semiautomática.

Utilizou-se uma lista de 40 termos compostos que foram traduzidos para as 24 línguas oficiais da UE. A tradução dos termos para as diversas línguas foi feita em 2019 pelo pelo EU Publications Office. Dessa colaboração resultou uma lista multilingue com 960 de termos para colocar no Bing Search API.

Antes das eleições, a 3 de junho, foi realizada a primeira pesquisa da qual resultaram 8.986 endereços únicos, com o número de resultado limitado ao top 20.

Depois das eleições, adicionou-se novos termos de pesquisa com os nomes dos principais candidadatos ao Parlamento Europeu em cada país da União Europeia. Desta segunda pesquisa pós-eleitoral foram obtidos 15.371 endereços únicos.

A ferramenta utilizada para esta recolha foi o Heritrix. A recolha foi limitada a três “saltos” (“hops”). O crawler seguiu ligações, neste caso, até três vezes. Quer isto dizer que se optou por uma certa contenção na profundidade da gravação. Três “saltos” ou “hops” no Heritrix crawler é o suficiente para a recolha de uma página (em outras aplicações também denominada por gravação “page” ou “single page”).

Os conteúdos foram gravados entre 7 e 20 de junho e incluídos na recolha especial EAWP46. Estará disponível passado 1 ano.

Saiba mais consultando o conjunto de dados:

Saiba mais sobre as recolhas eleitorais de anos anteriores

Portugueses nos Jogos Olímpicos e Paralímpicos 2024 em coleção internacional de websites do IIPC

print-replay-comiteolimpicoportugal

Última atualização em 11 de Setembro de 2024 às 16:40

print-noticia-rtp-rececao-atletas-paralimpicos-paris-2021
Jogos Paralímpicos. Miguel Monteiro, medalha de ouro, regressa a Lisboa (Notícia no site da RTP, dia 2 de setembro, selecionada para coleção internacional)

O Arquivo.pt contribuiu para a coleção internacional de páginas Web sobre os Jogos Olímpicos, que decorreram em Paris de 26 de julho a 11 de agosto de 2024, e os Jogos Paralímpicos que se realizaram de 28 de agosto a 8 de setembro.

A iniciativa de criar a coleção “Jogos Olímpicos e Paralímpicos 2024” é da responsabilidade do International Internet Preservation Consortium (IIPC), a principal entidade mundial no domínio da preservação da Internet, através do seu grupo de trabalho Content Development Working Group.

As coleções colaborativas do IIPC têm por objetivo promover a criação de coleções temáticas e coleções baseadas em eventos internacionais. As páginas da Web são gravadas e depois disponibilizadas no serviço Archive-it.

No Arquivo.pt também ficarão disponíveis, passado um ano, as páginas desta coleção para quem quiser realizar estudos sobre desporto e olimpismo.

Como foram selecionadas as páginas sobre os atletas portugueses

Nos Jogos Olímpícos representaram Portugal 73 atletas em 15 modalidades, e nos Jogos Paralímpicos 27 atletas,  em 10 modalidades.

O critério de seleção de páginas para a coleção internacional foram notícias sobre os atletas. Para cada atleta selecionou-se páginas referentes às suas expectativas antes dos jogos, à sua prestação na prova e aos seus comentários durante e após a competição.

Há atletas que têm mais notícias selecionadas do que outros e o mesmo acontece com os sites de onde provêm as notícias. A seleção de páginas não se limitou aos primeiros resultados apresentados pelo motor de busca. Procurou-se variedade de canais e notícias de sites regionais e locais, alguns da região ou cidade de onde vieram os atletas.

Mais de 500 páginas para recordar a presença portuguesa em Paris

O contributo do Arquivo.pt, como poderá ver na tabela, já tem mais de 500 paginas Web.

print-tabela-seeds-ilustrativa-jogosolimpicos
Portuguese Seeds – 2024 Summer Olympics and Paralímpics, International Internet Preservation Consortium – Content Development Working Group (IIPC CDG)

Colabore na coleção através do formulário do IIPC

Helena Byrne, curadora dos arquivos da web na British Library e curadora principal desta coleção, convida todas a pessoas a enviarem páginas interessantes para gravar: And we’re off – Get Involved in Web Archiving the Summer Games – Paris 2024.

Para contribuir está disponível o seguinte formulário público:

2024 Summer Olympics & Paralympics

Análise às pesquisas dos utilizadores no Arquivo.pt

demo-wordcloud-arqu

Os query logs do Arquivo.pt são recursos únicos para investigação

O Arquivo.pt disponibiliza um serviço “tipo Google” (Google-like) que permite pesquisar páginas e imagens recolhidas da web desde a década de 1990. Note-se que a pesquisa do Arquivo.pt complementa os motores de busca da web, uma vez que permite a pesquisa temporal de informação que já não se encontra disponível online nos seus sítios originais.

A análise do comportamento dos utilizadores é um importante tópico de investigação para compreender as suas necessidades de informação e melhorar a qualidade dos resultados de pesquisa. Assim, quando um utilizador interage com um motor de pesquisa, este regista as acções do utilizador num ficheiro denominado query log (registo de pesquisas). Os query logs sobre arquivos da Web são recursos únicos para a investigação porque descrevem as necessidades reais dos utilizadores de arquivos da Web sobre informações históricas que foram publicadas em linha.

Estudo de caso

Flavie Gallois e Adam Jatowt, da Universidade de Innsbruck, e Ricardo Campos, da Universidade da Beira Interior e do INESC TEC, analisaram o comportamento de pesquisa dos utilizadores com base no conjunto de dados de pesquisas do Arquivo.pt recolhidos durante um período de 3 meses, entre junho e setembro de 2021 (Analyzing User Search Behaviour in Temporal Web Repositories through Search Query Log Analysis).

Este estudo analisou as características das pesquisas, como o comprimento, o tipo ou a frequência, e comparou os resultados obtidos com trabalhos anteriores sobre o comportamento de pesquisa dos utilizadores em arquivos da Web e em motores de pesquisa da Web em tempo real.

O estudo revelou tendências e padrões fundamentais sobre o modo como os utilizadores procuram informações nos arquivos da Web, o que motiva a realização de mais trabalhos de investigação.

Como é que os utilizadores de arquivos Web pesquisam?

Figure 1 : Distribution of country origin of users
Figura 1 : Distribuição por país de origem dos utilizadores
Figure 2: Distribution of languages used in queries
Figura 2: Distribuição por língua utilizadas nas pesquisas

Os utilizadores eram de Portugal em 85,7% das pesquisas. No entanto, a língua portuguesa foi identificada através da identificação automática da língua das pesquisas como sendo utilizada em apenas 37% das pesquisas. Isto sugere que os utilizadores utilizam outras línguas que não a sua para pesquisar em arquivos Web.

Os utilizadores do Arquivo.pt tendem a utilizar queries mais longas, com mais palavras e caracteres, em comparação com estudos anteriores, tanto em arquivos da web como em motores de busca live-web. Cerca de 92% das pesquisas tinham 5 ou menos termos (média de 25 caracteres), sendo 3 o número mais comum de termos submetidos. No trabalho anterior sobre o comportamento de pesquisa em arquivos da Web, observou-se que os utilizadores tendiam a submeter de 1 a 3 termos por pesquisa, sendo 1 termo a submissão mais comum.

Os utilizadores tendem a fazer várias consultas numa sessão, em vez de uma única pesquisa, o que pode indicar a necessidade de aperfeiçoar as suas consultas de pesquisa ou de explorar várias opções de pesquisa

87,7% das pesquisas submetidas ao Arquivo.pt utilizaram browsers de desktop (computadores de secretária), apesar de o Arquivo.pt disponibilizar interfaces de utilizador amigáveis para telemóveis, as páginas antigas arquivadas na web não são responsivas e são mal renderizadas em dispositivos móveis. Assim, é expetável que os utilizadores utilizem maioritariamente os arquivos web através dos seus desktops.

Figure 3: Arquivo.pt users can refine the time span of their queries by using the From and To datepickers.
Figura 3: Os utilizadores do Arquivo.pt podem refinar o período de tempo das suas pesquisas utilizando os selectores de data “De” e “Até” (From and To).

Os utilizadores refinaram o período de tempo da pesquisa (utilizando os marcadores de data) em cerca de 50% das pesquisas, o que indica uma consciência das necessidades temporais próprias da utilização de arquivos Web. Curiosamente, os utilizadores modificaram o seletor de data “De” com mais frequência do que o seletor de data “Até”. Note-se que a manutenção do período de tempo predefinido pode corresponder às necessidades de informação do utilizador e não indica necessariamente a falta de conhecimento da existência da função de definição do período de tempo (própria da pesquisa em arquivos Web).

Apenas uma pequena percentagem de utilizadores incluiu anos específicos nos seus termos de pesquisa (4%), o que pode sugerir que a função de intervalo de tempo foi insuficiente ou passou despercebida a alguns utilizadores.

Os resultados obtidos sugerem que os utilizadores estão mais conscientes das suas necessidades de informação e que melhoraram as suas técnicas de pesquisa para serem mais eficazes nos arquivos Web, em vez de os utilizarem apenas por curiosidade, como primeiros utilizadores.

O que é procurado num arquivo Web?

Os autores do estudo aplicaram o reconhecimento automático de entidades (automatic entity recognition) sobre as pesquisas dos utilizadores e obtiveram um conjunto de nuvens de palavras que fornecem graficamente uma ideia das necessidades de informação mais comuns dos utilizadores do Arquivo.pt:

Figure 4: Word cloud of the most frequent query terms submitted to Arquivo.pt.
Figura 4: Nuvem de palavras dos termos de pesquisa mais frequentes submetidos ao Arquivo.pt.
Figure 6: The most frequent Geographical Locations in query terms submitted to Arquivo.pt.
Figura 6: As localizações geográficas mais frequentes nos termos de pesquisa submetidos ao Arquivo.pt.

Figure 6: The most frequent Organizations in query terms submitted to Arquivo.pt

    Figura 6: As organizações mais frequentes nos termos de pesquisa submetidos ao Arquivo.pt.
Figure 7: The most frequent Persons in query terms submitted to Arquivo.pt.
Figura 7: As pessoas mais frequentes nos termos de consulta submetidos ao Arquivo.pt.

Acesso ao dados das pesquisas no Arquivo.pt (query dataset)

O Arquivo.pt lançou um conjunto de recursos para apoiar estudos de investigação sobre as pesquisas dos utilizadores (query dataset):

Métricas de avaliação para pesquisa em arquivos Web

O primeiro passo para compreender o comportamento do utilizador é definir métricas de avaliação. A definição de métricas é uma ferramenta poderosa para estabelecer objectivos a longo e a curto prazo para decidir que novos produtos e funcionalidades devem ser lançados aos utilizadores.

Partilhamos um relatório de trabalho em curso que agrega informações sobre as métricas de avaliação da pesquisa em arquivos da Web: Web Archive Search Evaluation Metrics . Isto contribui para comparar o comportamento de pesquisa dos utilizadores entre os motores de pesquisa da Web em direto e os dos arquivos da Web. Não hesite em comentar diretamente o documento colaborativo ou em contactar-nos.

Este relatório fornece também um resumo de referências sobre trabalhos anteriores, fluxos de pesquisa e estrutura dos correspondentes registos de pesquisa produzidos pelo Arquivo.pt, para facilitar o trabalho dos investigadores no estudo destes conjuntos de dados.

Para saber mais

Comemoração dos 50 anos do 25 de Abril com o Arquivo.pt

50anos25abril-ArquivoPT-IG-Feed-2

O Arquivo.pt associou-se às comemorações dos 50 anos do 25 de Abril no âmbito das iniciativas promovidas pela Fundação para a Ciência e a Tecnologia, I.P. (FCT), em parceria com a Estrutura de Missão – Comissão Comemorativa 50 anos 25 de Abril.

As iniciativas foram as seguintes: uma viagem no tempo, uma recolha especial sobre o tema “25 de Abril”, uma comunicação no Congresso Internacional 50 anos de Abril e a inclusão de uma menção especial na edição de 2025 do Prémio Arquivo.pt.

Exposição “Memórias do 25 de Abril na Internet”

A exposição Memórias do 25 de Abril na Internet apresenta uma seleção de páginas Web sobre as comemorações do 25 de Abril em diversas regiões do país, desde o princípio da Web na década de 1990.

Os critérios para a escolha das páginas da exposição foram os seguintes:

  • Páginas relativas a comemorações do 25 de Abril;
  • Páginas encontradas no Arquivo.pt em datas próximas da efeméride, em cada ano;
  • Diversidade para incluir diversas zonas do país;
  • Manifestações populares e cerimónias oficiais.

Uma memória histórica sem os arquivos da Web é incompleta. Com esta viagem no tempo pretende-se convidar os cidadãos a viajarem no tempo, percorrendo páginas Web antigas e reavivando episódios recentes da nossa vida em democracia.

Visite a exposição: arquivo.pt/50anos25abril

Recolha especial sobre o 25 de Abril

Para assinalar a efeméride, o Arquivo.pt realizou uma recolha especial sobre o tema “25 de Abril” e disponibilizou os resultados num conjunto de dados abertos, publicado no portal Dados.gov.

O conjunto de dados contém uma lista de palavras-chave colocadas num motor de busca a fim de obter resultados sobre o tópico “25 de Abril”.  Na pesquisa considerou-se nomes de pessoas, lugares, aspetos políticos, sociais, culturais e ainda palavras associadas ao acontecimento.

As pesquisas foram realizadas no dia 22 de março de 2024 utilizando o Bing Search API, um serviço de pesquisa automática que devolve resultados de acordo com critérios de relevância do próprio serviço Bing e de outros configurados por nós.

No total foram obtidos 12.650 endereços únicos de páginas Web. Espera-se que a gravação destas páginas seja útil para as organizações que produziram esses conteúdos, para os investigadores que pretendem estudar a nossa história e para os cidadãos que cultivam o sentido da memória e da democracia.

Participação no Congresso Internacional 50 anos de Abril

memorial-congresso-internacional-50anos25abril
João Gomes, Diretor Serviços Avançados, FCCN-FCT apresentando o serviço Memorial do Arquivo.pt no Congresso Internacional 50 anos de Abril

No dia 2 de maio de 2024, João Gomes, Diretor dos Serviços Avançados da FCCN Unidade de Computação Científica da Fundação para a Ciência e a Tecnologia I.P., apresentou o Arquivo.pt aos participantes do Congresso Internacional 50 anos de Abril, como um serviço distinto, aberto aos cidadãos e útil para as organizações.

Este evento organizado pela Comissão Comemorativa 50 anos 25 de Abril e pela Universidade de Lisboa e incluiu uma apresentação de dois serviços da FCT para os cidadãos: o Arquivo.pt e os cursos massivos online da NAU.

O Arquivo.pt é um serviço de preservação da Web disponível para todos os cidadãos que pretendem pesquisar conteúdos antigos publicados na Web.

A utilização do Arquivo.pt contribui para uma melhor compreensão da nossa história. Além disso, fornece serviços úteis para a cibersegurança, como por exemplo o Memorial do Arquivo.pt que é capaz de manter os sites antigos das instituições, prevenindo ataques e poupando-lhes recursos.

Menção especial “O 25 de Abril e a Democracia” no Prémio Arquivo.pt 2025

O Prémio Arquivo.pt realiza-se anualmente e distingue trabalhos que utilizem o Arquivo.pt.

Em 2025, na continuação das comemorações dos 50 anos do 25 de Abril, será incluída uma menção especial a trabalhos sobre o tema “O 25 de Abril e a Democracia”.

Desafia-se pois os investigadores e cidadãos interessados a criarem trabalhos inovadores utilizando o Arquivo.pt.

Para questões relacionadas com o Prémio Arquivo.pt, contacte-nos.

Inteligência Artificial processa dados preservados no Arquivo.pt

Artificial Intelligence AI

Última atualização em 16 de Julho de 2024 às 8:37

Inteligência Artificial (IA), conhecida também pela sigla AI, de Artificial Intelligence, abrange várias áreas do conhecimento, tais como a linguística e a computação, e está presente nas novas tecnologias utilizadas no dia-a-dia pelos cidadãos.

Por exemplo, quando procuramos uma informação na Internet e o computador gera uma resposta espantosamente adequada, numa linguagem muito próxima da nossa.

O processamento da linguagem natural (PLN), correspondente em inglês a Natural Language Processing, NLP, é o que permite que as máquinas aperfeiçoem o algoritmo que gera essas respostas à medida dos utilizadores da Internet.

O problema é que os modelos de processamento de linguagem natural foram desenvolvidos mais para a língua inglesa e menos para língua portuguesa e outras com menos representação.

Quanto mais os modelos de processamento forem treinados sobre uma língua mais capazes serão de interpretar as complexidades da linguagem. Mas isso só é possível se tiverem dados de qualidade.

Acervo de texto em português no Arquivo.pt  disponível para a investigação

O Arquivo.pt surge aqui como o maior conjunto de dados textuais em língua portuguesa de Portugal, disponível em acesso aberto, para os investigadores treinarem modelos de PLN.

Nos últimos anos foram os próprios investigadores, provenientes de vários grupos e projetos de investigação, que chamaram a atenção para a utilidade dos dados preservados da Web para processamento em larga escala.

O Arquivo.pt tem mais de 1 Petabyte de conteúdos preservados da Web, desde a década de 1990, onde se inclui tudo o que se pode encontrar nas páginas Web. Não se trata apenas de texto, mas também de imagens, ficheiros áudio, vídeo, o código das páginas e diversos metadados.

Os conteúdos estão acessíveis através da interface de pesquisa e das APIs do Arquivo.pt.

Para maior facilidade de descarregamento em massa de recursos arquivados na Web, o Arquivo.pt criou para os investigadores informação já processada em índices no formato CDXJ.

GlórIA, um modelo para a língua portuguesa

Um dos projetos que utilizou o Arquivo.pt para obter grande quantidade de texto denomina-se GlórIA e é um modelo de linguagem em larga escala (LLM, Large Language Model) focado na língua portuguesa europeia.

“Apesar da abundância de LLMs para muitas línguas de recursos elevados, a disponibilidade de tais modelos continua a ser limitada para o português europeu”, como explicam os autores do GlórIA, Ricardo Lopes, João Magalhães, David Semedo, investigadores da Faculdade de Ciência e Tecnologia da Universidade Nova de Lisboa, no seu artigo GlórIA – A Generative and Open Large Language Model for Portuguese.

O modelo utilizou 35 000 milhões de tokens, ou expressões que as máquinas conseguem processar, provenientes de diversas fontes.

O Arquivo.pt contribuiu com uma coleção de 1,4 milhões de notícias e periódicos portugueses europeus arquivados no Arquivo.pt.

Pode experimentar a geração de texto em Português Europeu usando o GlórIA Inference API disponível na plataforma Hugging Face Model card.

Se pretender desenvolver um projeto ou um estudo utilizando o Arquivo.pt pode começar a sua prospeção e, se precisar  de ajuda, contacte-nos.

Para saber mais

 

Dados abertos para Processamento da Linguagem Natural

Daniel Gomes e Diego Alves apresentando no evento final do CLEÓPATRA.

Última atualização em 13 de Dezembro de 2024 às 13:56

Arquivo.pt preservou documentos online em várias línguas sobre as Eleições Parlamentares Europeias de 2019

As Eleições Parlamentares Europeias de 2019 foram um evento de relevância internacional. A estratégia para preservar a informação relevante na World Wide Web é delegada às instituições nacionais. No entanto, a preservação de páginas web que documentam eventos internacionais ainda não foi oficialmente atribuída.

A equipa do Arquivo.pt, com o objetivo de preservar o conteúdo online multilingue que documenta este evento, aplicou uma combinação de processos humanos e automáticos de seleção.

O processo de geração da coleção sobre as Eleições Parlamentares Europeias de 2019 foi realizado em duas etapas.

Na primeira etapa, foram identificados 40 termos relevantes em português sobre as Eleições Parlamentares Europeias de 2019, que foram posteriormente traduzidos automaticamente para as 24 línguas oficiais da União Europeia: búlgaro, croata, checo, dinamarquês, holandês, inglês, estónio, finlandês, francês, alemão, grego, húngaro, irlandês, italiano, letão, lituano, maltês, polaco, português, romeno, eslovaco, esloveno, espanhol e sueco.

Estas traduções foram revistas em colaboração com o Publications Office of the European Union. Além disso, paralelamente, foi lançada uma lista colaborativa para reunir contribuições de endereços relevantes oriundos da comunidade internacional.

Na segunda etapa, a equipa do Arquivo.pt executou iterativamente 6 recolhas (99 milhões de ficheiros web, 4,8 TB) utilizando diferentes configurações e software de recolha, para maximizar a qualidade do conteúdo recolhido.

Os dados web obtidos foram agregados numa coleção especial identificada como EAWP23 e tornaram-se pesquisáveis ​​e acessíveis através do Arquivo.pt em julho de 2020 (https://arquivo.pt/ee2019).

Projeto CLEOPATRA: Cross-lingual Event-centric Open Analytics Research Academy

Daniel Gomes e Diego Alves se apresentando no evento final do CLEÓPATRA
Daniel Gomes e Diego Alves apresentando no evento final do CLEÓPATRA.

CLEOPATRA ITN foi uma Rede de Formação Inovadora Marie Skłodowska-Curie destinada a gerar formas de compreender melhor a cobertura digital massiva de grandes eventos na Europa durante as últimas décadas.

O principal objetivo era facilitar o processamento avançado multilíngue em grande escala de informações textuais e visuais acerca dos principais eventos contemporâneos e desenvolver métodos inovadores para acesso e interação eficientes com informações multilíngue.

No total, 14 pesquisadores em estágio inicial hospedados em 9 universidades europeias desenvolveram suas pesquisas enquanto estavam matriculados como estudantes de doutoramento.

Parceiros associados como o Arquivo.pt contribuíram para o CLEOPATRA acolhendo e formando investigadores em início de carreira como Diego Alves. No âmbito do programa de formação,  este investigador realizou um estágio no Arquivo.pt em Lisboa de junho a agosto de 2022.

A ideia era desenvolver parte da sua investigação sobre estruturas sintáticas das línguas da UE utilizando os recursos textuais preservados pelo Arquivo.pt e trocar conhecimentos com os especialistas em preservação da web sobre estratégias de extração e processamento de dados históricos da web.

Diego Alves defendeu a sua tese de doutoramento intitulada Computational typological analysis of syntactic structures in European languages em julho de 2023 na Faculdade de Ciências Humanas e Sociais da Universidade de Zagreb (Croácia).

Gerando conjuntos de dados textuais para processamento de linguagem natural

O trabalho de Diego Alves originou conjuntos de dados multilíngues sobre as Eleições Parlamentares Europeias de 2019 que constituem recursos preciosos para investigação científica.

Este trabalho será detalhado no capítulo “Robustness of Corpus-based Typological Strategies for Dependency Parsing” do livro de acesso aberto CLEOPATRA intitulado “Event Analytics across Languages and Communities”.

Um fluxo de Processamento de Linguagem Natural em 3 etapas foi desenvolvido para gerar conjuntos de dados textuais que podem ser usados ​​em diversos tipos de estudos na área de Humanidades Digitais:

  1. Extrair texto: O conteúdo textual foi extraído de cada URL arquivado usando a biblioteca Python newspaper3k. O idioma de cada texto extraído foi determinado usando a biblioteca langdetect e os textos escritos em diferentes línguas foram armazenados em ficheiros distintos;
  2. Limpar textos extraídos: um script Python foi aplicado para limpar os textos removendo informações desnecessárias (ex.: instâncias repetidas, linhas vazias, etc.);
  3. Dupla verificação de identificação de língua: a língua de cada texto extraído e limpo foi verificada novamente para eliminar possíveis erros originados durante as etapas anteriores.

Dois novos conjuntos de dados para investigação em acesso-aberto!

Um dos resultados obtidos foi um conjunto de dados contendo textos agrupados por língua disponível publicamente. Cada ficheiro contém os textos numa determinada língua sobre as Eleições da União Europeia de 2019. A distribuição dos textos extraídos para cada língua está descrita na figura abaixo:

Número de tokens de cada corpus extraídos da coleção Eleições da União Europeia 2019 preservados pelo Arquivo.pt (EAWP23).
Número de tokens de cada corpus extraídos da coleção Eleições da União Europeia 2019 preservados pelo Arquivo.pt (EAWP23).

O referido corpus foi anotado automaticamente quanto às relações gramaticais e de dependência para gerar um corpus com informações sintáticas úteis para estudos linguísticos.

Foi aplicado  o modelo multilíngue da ferramenta UDify (Kondratyuk e Straka, 2019).

Os textos anotados seguiram a mesma ordem dos respetivos ficheiros de texto originais. Cada frase foi anotada seguindo a Universal Dependencies framework no formato CoNNL-U, que é a referência em termos de anotação sintática em Processamento de Linguagem Natural. Assim, cada ficheiro deste conjunto de dados contém os textos anotados numa determinada língua sobre as Eleições da União Europeia de 2019.

Os textos anotados sintaticamente sobre as Eleições Europeias de 2019 estão disponíveis ao público!

Saber mais

Museu Virtual do Turismo criou coleção de Websites preservados

Coleção registos no Catálogo do MUVITUR com páginas Web preservadas no Arquivo.pt

Última atualização em 25 de Abril de 2023 às 20:14

O MUVITUR, Museu Virtual do Turismo, é um portal agregador de conteúdos digitais sobre o Turismo em Portugal.

A plataforma é mantida pela Biblioteca Celestino Domingues da Escola Superior de Hotelaria e Turismo do Estoril (ESHTE) e tem a participação de instituições de diversas áreas do património que são provedoras de conteúdos.

Entre os conteúdos digitalizados que podem ser consultados no catálogo e acedidos nas instituições provedoras encontravam-se som, imagem, fotografia, material impresso digitalizado. Contudo, faltavam os Websites.

Assim, surgiu a ideia da nova coleção “Páginas Web” do MUVITUR.

Colaboração entre o MUVITUR e o Arquivo.pt

Em 2019, iniciou-se uma colaboração entre o Arquivo.pt e o MUVITUR com o objetivo de identificar sites relacionados com o Turismo em Portugal e de divulgar o histórico de conteúdos publicados na Web, desde 1996.

Em 2022, estabeleceu-se uma lista com cerca de 400 registos de websites de diversas entidades ligadas ao Turismo, hotéis, agências de viagens, páginas dos sites dos municípios com informação turística e outras.

Dessa informação reunida resultou a primeira coleção de websites preservados sobre Turismo em Portugal.

Catálogo do MUVITUR com páginas Web preservadas no Arquivo.pt

Como foi feita a integração

O MUVITUR utiliza o software Nyron, o qual permite agregar conteúdos de diversas proveniências através do protocolo interoperabilidade OAI-PMH (Open Archives Initiative Protocol for Metadata Harvesting), cuja utilização é muito comum entre bibliotecas, arquivos e museus para fornecer conteúdos a portais, como por exemplo o Europeana.

O Arquivo.pt, porém, não disponibiliza informação através do OAI-PMH, pelo que foi necessário encontrar uma forma alternativa de criar um registo no Nyron com informação descritiva de Websites preservados.

O procedimento para a integração foi o seguinte:

  • Exportou-se para uma folha Excel o esquema XML com os campos para os metadados, de acordo com o que funciona no Nyron;
  • A informação foi inserida manualmente na folha Excel, respeitando o formato e a sintaxe, em colaboração com os técnicos responsáveis pelo sistema;
  • O ficheiro XML com os dados inseridos foi validado e importado para o Nyron.

A criação de registos em catálogos é em grande parte manual e exige uma curadoria humana. No entanto, foi possível introduzir informação para ser processada automaticamente nos registos da coleção de Websites. Por exemplo, a miniatura (thumbnail) foi obtida utilizando a API do Arquivo.pt, mais espeicificamento o linkToScreenShot, visível nos detalhes técnicos de uma página preservada (ver em Opções).

Para outros elementos, tais como o título do site, seria possível obtê-los automaticamente através da API do Arquivo.pt, no entanto a qualidade da informação depende do que os produtores do site inseriram e pode não ser a melhor.  As datas para limitar o âmbito temporal também podem ser obtidas de forma automática. Privilegiou-se o método manual para controlar a informação apresentada.

Na continuidade do projeto, a coleção vai ser aumentada com novos registos, pois existem milhares de sites sobre o setor do Turismo.

Descrição de conteúdos Web no catálogo do MUVITUR

Na coleção “Paginas Web” são utilizados os seguintes dados:

  • Denominação – geralmente o título do website
  • Organização – a entidade a quem pertence a publicação
  • Endereço do sítio Web na Internet
  • Endereço para versão no Arquivo.pt
  • Momento(s) para recordar
  • Link para miniatura no Arquivo.pt
  • Descritores
  • Dados geográficos (localização, coordenadas, nome geográfico)

A apresentação da informação foi ajustada para ficar alinhada com a de outros recursos do MUVITUR e contém ligações para o Arquivo.pt.

Por exemplo, no registo do site “Turismo do Algarve”, encontramos uma ligação para um momento a recordar em 2011 e outra a ligação para o histórico no Arquivo.pt em “Consultar objeto”.

Detalhe do registo do site "Turismo do Algarve"
Detalhe do registo do site “Turismo do Algarve”

Organizações podem criar coleções de Websites da sua área

Com este projeto inédito podemos dizer que os Websites preservados ganharam cidadania ou espaço em plataformas digitais dedicadas à memória histórica.

Os Websites raramente são incluídos em catálogos ou expostos em contexto museológico, em Portugal. Em breve, essa realidade pode mudar.

A National Library of Australia, por exemplo, tem registos de Websites preservados no catálogo. Na Tasmania Libraries o catálogo bibliográfico descreve em formato Marc21 mais de 3000 Websites preservados.  Na Library of Congress há coleções de Websites antigos ao lado dos recursos tradicionais.

O MUVITUR abriu caminho para que outras entidades criem coleções de Websites do seu interesse nas suas plataformas.

Outros resultados da colaboração

Websites do Afeganistão e a queda do regime em agosto de 2021

thumbnail_Karima Faryabi

Última atualização em 26 de Setembro de 2022 às 15:55

afghan-ministry-of-economy-17-08-2021

Website do Ministério da Economia do Afeganistão com Karima Faryabi (gravado a 17 de agosto de 2021)

No dia 15 de agosto de 2021 o palácio presidencial em Cabul foi tomado pelos Talibãs, consumando a queda do regime que vigorava há 20 anos, após os atentados do 11 de Setembro nos Estados Unidos.

A comunidade dos arquivistas da Web, através do Content Development Working Group do International Internet Preservation Consortium, lançou o desafio da gravação dos sites afegãos, face ao risco de estes virem a desaparecer com o novo regime.

Não há tempo a perder quando se trata de preservar a Web

O Arquivo.pt reagiu rapidamente lançando uma pesquisa automática de conteúdos focada em sites do domínio .af e em notícias dos media internacionais sobre os eventos em curso.

No dia 17 de agosto os websites começaram a ser gravados.

Foram utilizados 1800 endereços de sites do Afeganistão (terminados em .af) e 500 notícias dos meios de comunicação social de todo o mundo.

Os endereços, URLs ou “seeds” foram obtidos através de pesquisa automática, utilizando o Bing Search API, e colocados imediatamente em gravação.

Conteúdos disponíveis para conhecer a história do Afeganistão

Como resultado da recolha realizada passaram a estar disponíveis no Arquivo.pt mais de 400 Gigabytes de informação que qualquer pessoa pode utilizar para investigação nas mais diversas áreas.

O principal contributo do Arquivo.pt para a comunidade dos arquivistas da Web foi a demonstração da pesquisa automática que permite uma reação rápida na gravação de conteúdos Web em risco iminente de se perderem.

Mais informação

Conjunto de dados abertos do Arquivo.pt (Dados.gov)

Conteúdos recolhidos pelo Content Development Working Group do International Internet Preservation Consortium disponíveis no serviço Archive-it

Dados abertos acerca de criptomoedas

Cryptocurrency chart (Photo: QuoteInspector)

Última atualização em 17 de Agosto de 2022 às 9:20

(Photo: QuoteInspector)

Desde 2008, o mercado de criptomoedas revolucionou o mundo inovando e expandindo para outras áreas (por exemplo, finanças e arte). No entanto, com essa rápida expansão, muitos projetos são criados todos os dias, dando origem a uma ampla e variada gama de sites, tecnologias e fraudes. Os mercados seguem fases de financiamento e é durante uma fase inicial de euforia que mais projetos são criados.

Acreditamos que, à medida que o mercado de criptomoedas se estabiliza, projetos/sites vão desaparecendo porque o financiamento diminui ou acaba.

O Arquivo.pt iniciou uma nova coleção de arquivos web que preserva o conteúdo web que documenta as atividades de Criptomoedas.

Este trabalho produziu um novo conjunto de dados aberto com informação documentando cada projeto de criptomoeda, incluindo os seus URLs originais e links para a versão arquivada na web correspondente no Arquivo.pt. As fontes de informação selecionadas para criar este conjunto de dados foram:

Acreditamos que ao criar este novo conjunto de dados relacionado com criptomoedas e ao preservar todo o conteúdo web correspondente, tem potencial para originar contribuições científicas inovadoras em diversas áreas como Economia ou Humanidades Digitais.

Recursos

Os investigadores que pretendam realizar estudos sobre o conjunto de dados de Criptomoedas e necessitem de acesso antecipado aos conteúdos recolhidos podem contactar o Arquivo.pt.

Apresentação no IIPC Web Archiving Conference 2022

Arquivo.pt certificado como fornecedor de dados abertos

selo-dados-gov

Última atualização em 17 de Agosto de 2022 às 8:40

O Arquivo.pt tem colaborado com a Agência para a Modernização Administrativa (AMA) com o objetivo de melhorar a preservação dos websites da Administração Pública.

A colaboração assenta em 3 pontos de ação:

  • identificação e recolha de todos os websites da Administração Pública;
  • preservação dos dados publicados em websites da Administração Pública que já não são atualizados no Memorial do Arquivo.pt (ex. “Tenho uma criança”);
  • formação em preservação dos dados abertos publicados online.

A AMA é a organização pública responsável pela promoção dos meios digitais na Administração Pública e tem por objetivo modernizar e simplificar o acesso dos cidadãos aos serviços do Estado.

O Arquivo.pt é um serviço operado pela Fundação para a Ciência e a Tecnologia I.P. (unidade FCCN) que preserva dados publicados na Web entre 1996 e a atualidade, tornando-os acessíveis a qualquer cidadão para fins de memória e investigação.

Diretiva da União Europeia para dados abertos inclui documentos nos sítios na Internet

A Diretiva (UE) 2019/1024 do Parlamento Europeu e do Conselho, relativa aos dados abertos e à reutilização de informações do setor público de 20 de junho de 2019, estipula o seguinte:

“(30) A presente diretiva prevê a definição do termo «documento» e essa definição deverá designar também qualquer parte do documento. O termo «documento» deverá abranger qualquer representação de atos, factos ou informações – e qualquer compilação destes –, seja qual for o seu meio (papel, suporte eletrónico, registo sonoro, visual ou audiovisual).

(34) A fim de facilitar a reutilização, os organismos do setor público deverão, se possível e adequado, disponibilizar os documentos, incluindo os que são publicados em sítios na Internet, num formato aberto e compatível com a leitura por máquina, juntamente com os respetivos metadados, ao melhor nível de precisão e granularidade, num formato que garanta a interoperabilidade

(35) Deverá considerar-se que um documento se apresenta em formato legível por máquina se tiver um formato de ficheiro estruturado de modo a ser facilmente possível, por meio de aplicações de software, identificar, reconhecer e extrair dados específicos. Os dados codificados em ficheiros estruturados num formato legível por máquina deverão ser considerados dados legíveis por máquina. Os formatos legíveis por máquina podem ser abertos ou sujeitos a direitos de propriedade; podem ser normas formais ou não.

(60) A Comissão deverá facilitar a cooperação entre Estados-Membros e apoiar a conceção, o ensaio, a aplicação e a implantação de interfaces eletrónicas interoperáveis que permitam dispor de serviços públicos mais eficazes e seguros.

O serviço público Arquivo.pt tem a missão de preservar os documentos publicados nos sítios da Internet para viabilizar o seu acesso aberto a longo prazo e disponibiliza interfaces eletrónicas interoperáveis (APIs) para o seu processamento automático.

A Lei portuguesa n.º 68/2021 de 2021-08-26 aprova os princípios gerais em matéria de dados abertos e transpõe a Diretiva europeia.

Arquivo.pt certificado como fornecedor de dados abertos da Administração Pública

A AMA reconheceu o Arquivo.pt como serviço público e fornecedor de dados abertos e atribuiu o seu selo de certificação no Portal de Dados Abertos.

O Arquivo.pt faz a recolha genérica de informação publicada na Web de interesse para a comunidade portuguesa. Porém, tem a seu cargo a preservação de websites da Administração Pública como o Portal do Governo em colaboração com o Centro de Gestão da Rede Informática do Governo (CEGER).

Qualquer cidadão pode aceder aos dados abertos resultantes destes arquivos históricos, podendo por exemplo, pesquisar informação oficial publicada em websites dos sucessivos Governos.

Em 2021, o Arquivo.pt disponibilizava acesso aberto a mais de 10 000 milhões de ficheiros (721 TB) oriundos de 27 milhões de websites. Os dados abertos preservados pelo Arquivo.pt podem ser explorados através da interface de pesquisa, automaticamente através de API (https://arquivo.pt/api) ou reutilizando os conjuntos de dados derivados.

Conjuntos de dados derivados disponíveis no Portal de Dados Abertos

Além dos artefactos web originais preservados no Arquivo.pt, este serviço tem gerado conjuntos de dados abertos derivados das suas atividades, que estão agora disponíveis em acesso aberto para que possam ser reutilizados:

Lista de recursos

Apresentação no IIPC Web Archiving Conference 2022