Dados abertos para Processamento da Linguagem Natural

Daniel Gomes e Diego Alves apresentando no evento final do CLEÓPATRA.

Última atualização em 3 de Novembro de 2023 às 12:47

Arquivo.pt preservou documentos online em várias línguas sobre as Eleições Parlamentares Europeias de 2019

As Eleições Parlamentares Europeias de 2019 foram um evento de relevância internacional. A estratégia para preservar a informação relevante na World Wide Web é delegada às instituições nacionais. No entanto, a preservação de páginas web que documentam eventos internacionais ainda não foi oficialmente atribuída.

A equipa do Arquivo.pt, com o objetivo de preservar o conteúdo online multilingue que documenta este evento, aplicou uma combinação de processos humanos e automáticos de seleção.

O processo de geração da coleção sobre as Eleições Parlamentares Europeias de 2019 foi realizado em duas etapas.

Na primeira etapa, foram identificados 40 termos relevantes em português sobre as Eleições Parlamentares Europeias de 2019, que foram posteriormente traduzidos automaticamente para as 24 línguas oficiais da União Europeia: búlgaro, croata, checo, dinamarquês, holandês, inglês, estónio, finlandês, francês, alemão, grego, húngaro, irlandês, italiano, letão, lituano, maltês, polaco, português, romeno, eslovaco, esloveno, espanhol e sueco.

Estas traduções foram revistas em colaboração com o Publications Office of the European Union. Além disso, paralelamente, foi lançada uma lista colaborativa para reunir contribuições de endereços relevantes oriundos da comunidade internacional.

Na segunda etapa, a equipa do Arquivo.pt executou iterativamente 6 recolhas (99 milhões de ficheiros web, 4,8 TB) utilizando diferentes configurações e software de recolha, para maximizar a qualidade do conteúdo recolhido.

Os dados web obtidos foram agregados numa coleção especial identificada como EAWP23 e tornaram-se pesquisáveis ​​e acessíveis através do Arquivo.pt em julho de 2020 (https://arquivo.pt/ee2019).

Projeto CLEOPATRA: Cross-lingual Event-centric Open Analytics Research Academy

Daniel Gomes e Diego Alves se apresentando no evento final do CLEÓPATRA
Daniel Gomes e Diego Alves apresentando no evento final do CLEÓPATRA.

CLEOPATRA ITN foi uma Rede de Formação Inovadora Marie Skłodowska-Curie destinada a gerar formas de compreender melhor a cobertura digital massiva de grandes eventos na Europa durante as últimas décadas.

O principal objetivo era facilitar o processamento avançado multilíngue em grande escala de informações textuais e visuais acerca dos principais eventos contemporâneos e desenvolver métodos inovadores para acesso e interação eficientes com informações multilíngue.

No total, 14 pesquisadores em estágio inicial hospedados em 9 universidades europeias desenvolveram suas pesquisas enquanto estavam matriculados como estudantes de doutoramento.

Parceiros associados como o Arquivo.pt contribuíram para o CLEOPATRA acolhendo e formando investigadores em início de carreira como Diego Alves. No âmbito do programa de formação,  este investigador realizou um estágio no Arquivo.pt em Lisboa de junho a agosto de 2022.

A ideia era desenvolver parte da sua investigação sobre estruturas sintáticas das línguas da UE utilizando os recursos textuais preservados pelo Arquivo.pt e trocar conhecimentos com os especialistas em preservação da web sobre estratégias de extração e processamento de dados históricos da web.

Diego Alves defendeu a sua tese de doutoramento intitulada Computational typological analysis of syntactic structures in European languages em julho de 2023 na Faculdade de Ciências Humanas e Sociais da Universidade de Zagreb (Croácia).

Gerando conjuntos de dados textuais para processamento de linguagem natural

O trabalho de Diego Alves originou conjuntos de dados multilíngues sobre as Eleições Parlamentares Europeias de 2019 que constituem recursos preciosos para investigação científica.

Este trabalho será detalhado no capítulo “Robustness of Corpus-based Typological Strategies for Dependency Parsing” do livro de acesso aberto CLEOPATRA intitulado “Event Analytics across Languages and Communities”.

Um fluxo de Processamento de Linguagem Natural em 3 etapas foi desenvolvido para gerar conjuntos de dados textuais que podem ser usados ​​em diversos tipos de estudos na área de Humanidades Digitais:

  1. Extrair texto: O conteúdo textual foi extraído de cada URL arquivado usando a biblioteca Python newspaper3k. O idioma de cada texto extraído foi determinado usando a biblioteca langdetect e os textos escritos em diferentes línguas foram armazenados em ficheiros distintos;
  2. Limpar textos extraídos: um script Python foi aplicado para limpar os textos removendo informações desnecessárias (ex.: instâncias repetidas, linhas vazias, etc.);
  3. Dupla verificação de identificação de língua: a língua de cada texto extraído e limpo foi verificada novamente para eliminar possíveis erros originados durante as etapas anteriores.

Dois novos conjuntos de dados para investigação em acesso-aberto!

Um dos resultados obtidos foi um conjunto de dados contendo textos agrupados por língua disponível publicamente. Cada ficheiro contém os textos numa determinada língua sobre as Eleições da União Europeia de 2019. A distribuição dos textos extraídos para cada língua está descrita na figura abaixo:

Número de tokens de cada corpus extraídos da coleção Eleições da União Europeia 2019 preservados pelo Arquivo.pt (EAWP23).
Número de tokens de cada corpus extraídos da coleção Eleições da União Europeia 2019 preservados pelo Arquivo.pt (EAWP23).

O referido corpus foi anotado automaticamente quanto às relações gramaticais e de dependência para gerar um corpus com informações sintáticas úteis para estudos linguísticos.

Foi aplicado  o modelo multilíngue da ferramenta UDify (Kondratyuk e Straka, 2019).

Os textos anotados seguiram a mesma ordem dos respetivos ficheiros de texto originais. Cada frase foi anotada seguindo a Universal Dependencies framework no formato CoNNL-U, que é a referência em termos de anotação sintática em Processamento de Linguagem Natural. Assim, cada ficheiro deste conjunto de dados contém os textos anotados numa determinada língua sobre as Eleições da União Europeia de 2019.

Os textos anotados sintaticamente sobre as Eleições Europeias de 2019 estão disponíveis ao público!

Saber mais

Eleições Autárquicas 2021 preservadas pelo Arquivo.pt

thumbnail_eleicoes_autarquicas

Última atualização em 8 de Maio de 2023 às 17:09

Milhares páginas eleitorais a preservar antes que desapareçam

No dia 26 de setembro de 2021 realizaram-se as eleições autárquicas em Portugal, evento marcado pela pandemia da Covid-19. A comunicação dos candidatos foi baseada sobretudo nos meios de comunicação social e nas redes sociais.

A informação online que documenta processos eleitorais é de manifesta importância histórica. Contudo, é difícil de identificar porque aparecem e desaparecem rapidamente. No caso das eleições autárquicas, a quantidade de candidatos e a variedade de canais utilizados torna a tarefa ainda mais desafiante.

O Arquivo.pt, tal como em eleições anteriores, lançou uma recolha especial para preservar conteúdos relativos às Autárquicas 2021.

Como foram identificados os conteúdos eleitorais publicados na Web

Começou-se por fazer a identificação manual de conteúdos relacionados com eleições, por concelho e freguesia. Para isso pediu-se ajuda a pessoas e organizações com as seguintes iniciativas:

  • campanha de recolha de endereços Eleições Autárquicas de 2021: precisamos da sua ajuda!
  • pedido de colaboração aos serviços de arquivo dos 308 municípios na identificação de sites eleitorais e candidatos do respetivo concelho
  • pedido aos Partidos para enviarem os nomes dos candidatos cabeças de lista

Destaca-se a utilização do site Eyedata – Social Data Lab que disponibilizou na Web nomes de candidatos de todo o país.  A página da Wikipedia Eleições autárquicas portuguesas de 2021 também foi utilizada como fonte de informação.

Este processo de identificação manual originou uma lista de 255 endereços que documentavam as candidaturas às Eleições Autárquicas de 2021. Note-se que 61% dos endereços identificados apontavam para plataformas privadas de redes sociais: 54% facebook.com, 5% instagram.com e 2% twitter.com).

Grande parte destes conteúdos de interesse nacional não puderam ser preservados porque estas empresas privadas estrangeiras não o permitem.

A lista com nomes de candidatos por concelho, partido ou coligação serviram para criar pesquisas automáticas no Bing que identificaram os conteúdos eleitorais mais relevantes.

Por exemplo, ao combinar o termo “autárquicas 2021” com o nome de um candidato e do respetivo concelho, obtém-se resultados relacionados com esse candidato, tais como notícias, iniciativas da sua campanha ou a página oficial da sua campanha eleitoral.

Esta metodologia foi aplicada nas Eleições Presidenciais 2021 e nas Eleições Europeias de 2019. O relatório técnico A transnational crawl of the European Parliamentary Elections 2019 detalha a metodologia aplicada.

Recolha de conteúdos e disponibilização no Arquivo.pt

Entre 22 de agosto e 8 de outubro de 2021, o Arquivo.pt recolheu de forma exaustiva páginas relacionadas com as Autárquicas 2021.

A coleção resultante denominada Eleições Autárquicas 2021” (EAWP39) reúne 31 milhões de ficheiros que totalizam 2.7 TeraBytes de informação e estará disponível a partir de outubro de 2022, por respeito ao período de embargo de 1 ano.

Investigadores que queiram realizar estudos acerca das Autárquicas 2021 e necessitem de obter acesso mais cedo aos conteúdos recolhidos podem contactar o Arquivo.pt.

Para saber mais

Memória de festivais e eventos de arte: PARA SEMPRE

Thumbnail-projeto-para-sempre

Última atualização em 8 de Fevereiro de 2022 às 10:56

A Exposição Memória de festivais e eventos de arte propõe um percurso pela cena artística portuguesa presente na Web e inclui uma cronologia destes acontecimentos.

Este produto de informação online é uma apresentação dos resultados de forma sistemática e estruturada do projeto PARA SEMPRE.

cartao-expo-memoria-festivais-e-eventos-de-arte
Exposição online “memória de festivais e eventos de arte” (arteparasempre.wordpress.com)

O segundo produto online do projeto será um diretório de referências de artistas, galerias e projetos na área da arte contemporânea portuguesa a ser disponibilizado durante o ano de 2022, em gulbenkian.pt/biblioteca-arte.

Ciclo de Webinars intitulado Arte para sempre na web

Entre abril e julho de 2021, realizou-se o Ciclo de Webinars intitulado Arte para sempre na web, orientados a uma comunidade de artistas, curadores, galeristas e produtores de eventos, entre outros.

A média de participantes foi de 58 por sessão, os quais avaliaram a sua satisfação, numa escala de 1 a 5, com uma pontuação média de 4,6.

As três sessões tiveram por objetivo a difusão do conhecimento sobre a preservação digital de informação na web e requisitos para a publicação de informação preservável.

Identificação de artistas, galerias e projetos

Começou-se por identificar artistas, galerias e projectos relevantes no panorama artístico português contemporâneo. Partiu-se de um conjunto inicial de 63 agentes (artistas, galerias e projetos), aos quais foram adicionados 573 artistas pertencentes à Colecção Moderna da FCG e à Colecção de Livros de Artista e Edição Independente da BAA – FCG.

Ao longo destes meses foram assim identificados 636 elementos (redes sociais e sítios web ativos em 2020), que foram posteriormente analisados.

As conclusões da análise realizada no âmbito do projeto PARA SEMPRE foram apresentadas no webinar realizado a 1 de julho de 2021, intitulado Arquivar a Web: faça-você-mesmo! 

Para mais informações:

Recolha especial sobre websites e blogues de arte

Em Abril de 2021, 0 Arquivo.pt fez uma recolha especial com base na identificação inicial de artistas, galerias e projetos e obteve 2.8 terabytes de informação preservada.

Gravaram-se novos conteúdos sobre websites de arte, utilizando ferramentas que permitem recolhas com maior qualidade, tais como Brozzler e Webrecorder.

Um projeto colaborativo de curadoria digital

PARA SEMPRE é um projeto de curadoria digital aplicada à informação disponibilizada na web pelos diversos agentes da cena artística portuguesa contemporânea (artistas, galerias e locais híbridos).

Este tem como finalidade principal contribuir para a preservação/reutilização das páginas do passado e do futuro, assegurar a preservação da memória digital da arte portuguesa actual disponível no Arquivo.pt e promover o conhecimento sobre esta temática, apresentando-a de forma sistematizada e estruturada.

A sua criação resulta do encontro de missões de duas organizações: uma que pretende assegurar a preservação da web portuguesa, o Arquivo.pt, e outra que se assume como um agente no desenvolvimento do conhecimento e do saber sobre a arte portuguesa contemporânea, a Biblioteca de Arte da Fundação Calouste Gulbenkian. Este inscreve-se no âmbito da plataforma ROSSIO (Infraestrutura de Investigação na área das Ciências Sociais, Artes e Humanidades).

Eleições Presidenciais 2021: precisamos da sua ajuda!

thumbnail_presidenciais
banner_presidenciais_v
Formulário de sugestão de endereços de páginas, sites e outros conteúdos Web

O Arquivo.pt convida todos os cidadãos a sugerirem páginas da Web relacionadas com as Eleições Presidenciais de 2021 para serem preservadas para o futuro.

As Eleições Presidenciais ocorrerão em Portugal no dia 24 de janeiro de 2021.

As suas sugestões são importantes para que o Arquivo.pt consiga guardar uma memória mais completa deste importante evento eleitoral.

Para sugerir páginas utilize este formulário (https://tinyurl.com/presidenciais-sugerir)

 

Coleção internacional acerca das Eleições Europeias 2019 está disponível

thumbnail print_eleicoes-europeias_eu

Última atualização em 30 de Agosto de 2022 às 10:45

Print www.eleicoes.europeias .eu
Excerto de www.european.elections.eu, preservado pelo Arquivo.pt em maio de 2019

A coleção especial de páginas Web acerca das Eleições Europeias de 2019 está disponível para pesquisa no Arquivo.pt.

Para compilar esta coleção, foram identificadas páginas escritas em 24 línguas europeias, através de pesquisas automáticas no motor de busca Bing e sugestões oriundas de 17 países europeus.

Destaca-se a colaboração do Publications Office of the European Union que reviu a lista dos termos de pesquisa nas diversas línguas da União Europeia.

Entre maio e julho de 2019, o Arquivo.pt recolheu de forma exaustiva páginas relacionadas com as Eleições Europeias em vários países.

A coleção resultante denominada “Eleições Europeias 2019” reúne 99 milhões de ficheiros que totalizam 4,8 TeraBytes de informação.

O relatório técnico “A transnational crawl of the European Parliamentary Elections 2019” detalha a metodologia aplicada. Esta metodologia tem sido aplicada para gerar outras coleções temáticas como por exemplo acerca do Covid-19.

Convidam-se todos os cidadãos, especialmente os investigadores, a explorarem os conteúdos da Web do passado e a incluí-los nos seus trabalhos através deste serviço criado especialmente para pesquisar a coleção multi-lingue Eleições Europeias de 2019: https://arquivo.pt/ee2019

Vídeo “A transnational and cross-lingual crawl of the European Parliamentary Elections 2019”

A transnational and cross-lingual crawl of the European Parliamentary Elections 2019, Ivo Branco, IIPC Web Archiving Conference and RESAW 2021 (slides)

Para saber mais

Recolhemos os sites das Eleições Autárquicas 2017

Última atualização em 8 de Maio de 2023 às 17:08

O Arquivo.pt realizou 2 recolhas de sites relacionados com as Eleições Autárquicas de 2017.
Apelámos à comunidade para contribuir sugerindo sites relacionados com as eleições Autárquicas de 2017, para que os preservássemos para acesso futuro.

Foram realizadas 2 recolhas, durante e após o período de campanha eleitoral, que partiram da lista de 410 sites sugeridos pela comunidade, e de 13 887 sites relacionados com as eleições encontrados automaticamente através de motores de busca.

O processo de identificação manual originou uma lista de 337 endereços que documentavam as candidaturas às Eleições Autárquicas de 2017. Note-se que 46% destes endereços apontavam para a rede social Facebook.com e que grande parte destes conteúdos de interesse nacional não puderam ser preservados porque esta empresa privada estrangeira não o permite.

O resultado final foi um arquivo de 2 265 887 ficheiros recolhidos da Web (360 GB).

Nos sites recolhidos encontram-se por exemplo os sites oficiais das campanhas dos candidatos aos vários concelhos e freguesias, notícias na comunicação social, blogs e artigos de opinião.

O Arquivo.pt respeita um período de embargo de 1 ano, pelo que esta colecção só estará disponível para consulta no final de 2018.

Contudo, pode consultar já alguns sites das Eleições Autárquicas anteriores, tais como:

Agradecemos sinceramente a todos os voluntários que colaboraram com esta iniciativa.

Eleições Autárquicas de 2017: precisamos da sua ajuda!

Última atualização em 24 de Agosto de 2017 às 10:39

Temos destacado durante as nossas apresentações que o Arquivo.pt precisa muito da SUA ajuda para conseguir preservar a informação publicada na Web relacionada com as Eleições.

Os sites eleitorais são de manifesta importância histórica. Contudo, são difíceis de identificar porque aparecem e desaparecem rapidamente, e muitas vezes são apenas referenciados em meios impressos (ex. cartazes).

Por isso, a sua colaboração é fundamental!

Para ajudar, basta adicionar endereços de páginas ou sites relacionados com as Eleições Autárquicas de 2017 através do seguinte link:

Se sugerir apenas 1 endereço relacionado com a sua localidade prestará um valioso contributo.

Consegue ajudar?

Se tiver alguma questão, por favor contacte-nos.