Inteligência Artificial processa dados preservados no Arquivo.pt

Artificial Intelligence AI

Última atualização em 12 de Março de 2024 às 18:45

Inteligência Artificial (IA), conhecida também pela sigla AI, de Artificial Intelligence, abrange várias áreas do conhecimento, tais como a linguística e a computação, e está presente nas novas tecnologias utilizadas no dia-a-dia pelos cidadãos.

Por exemplo, quando procuramos uma informação na Internet e o computador gera uma resposta espantosamente adequada, numa linguagem muito próxima da nossa.

O processamento da linguagem natural (PLN), correspondente em inglês a Natural Language Processing, NLP, é o que permite que as máquinas aperfeiçoem o algoritmo que gera essas respostas à medida dos utilizadores da Internet.

O problema é que os modelos de processamento de linguagem natural foram desenvolvidos mais para a língua inglesa e menos para língua portuguesa e outras com menos representação.

Quanto mais os modelos de processamento forem treinados sobre uma língua mais capazes serão de interpretar as complexidades da linguagem. Mas isso só é possível se tiverem dados de qualidade.

Acervo de texto em português no Arquivo.pt  disponível para a investigação

O Arquivo.pt surge aqui como o maior conjunto de dados textuais em língua portuguesa de Portugal, disponível em acesso aberto, para os investigadores treinarem modelos de PLN.

Nos últimos anos foram os próprios investigadores, provenientes de vários grupos e projetos de investigação, que chamaram a atenção para a utilidade dos dados preservados da Web para processamento em larga escala.

O Arquivo.pt tem mais de 1 Petabyte de conteúdos preservados da Web, desde a década de 1990, onde se inclui tudo o que se pode encontrar nas páginas Web. Não se trata apenas de texto, mas também de imagens, ficheiros áudio, vídeo, o código das páginas e diversos metadados.

Os conteúdos estão acessíveis através da interface de pesquisa e das APIs do Arquivo.pt.

Para maior facilidade de descarregamento em massa de recursos arquivados na Web, o Arquivo.pt criou para os investigadores informação já processada em índices no formato CDXJ.

GlórIA, um modelo para a língua portuguesa

Um dos projetos que utilizou o Arquivo.pt para obter grande quantidade de texto denomina-se GlórIA e é um modelo de linguagem em larga escala (LLM, Large Language Model) focado na língua portuguesa europeia.

“Apesar da abundância de LLMs para muitas línguas de recursos elevados, a disponibilidade de tais modelos continua a ser limitada para o português europeu”, como explicam os autores do GlórIA, Ricardo Lopes, João Magalhães, David Semedo, investigadores da Faculdade de Ciência e Tecnologia da Universidade Nova de Lisboa, no seu artigo GlórIA – A Generative and Open Large Language Model for Portuguese.

O modelo utilizou 35 milhões de tokens, ou expressões que as máquinas conseguem processar, provenientes de diversas fontes.

O Arquivo.pt contribuiu com uma coleção de 1,4 milhões de notícias e periódicos portugueses europeus arquivados no Arquivo.pt.

Pode experimentar a geração de texto em Português Europeu usando o GlórIA Inference API disponível na plataforma Hugging Face Model card.

Se pretender desenvolver um projeto ou um estudo utilizando o Arquivo.pt pode começar a sua prospeção e, se precisar  de ajuda, contacte-nos.

Para saber mais

 

FCUL preservou mais de 100 websites históricos no Memorial

thumb-memorial-fcul

Última atualização em 27 de Março de 2024 às 11:16

Mais de 100 websites históricos da Faculdade de Ciências da Universidade de Lisboa (FCUL) passaram a estar acessíveis através do serviço Memorial do Arquivo.pt.

O Departamento de Informática da FCUL enviou ao Arquivo.pt uma lista de websites antigos alojados nos seus servidores que já não eram atualizados, mas cujo conteúdo histórico continua a ser interessante para a comunidade (ex. websites de projetos de investigação ou eventos científicos).

O Arquivo.pt preservou estes websites em colaboração com os seus responsáveis, procurando manter para o futuro uma representação fiel dos conteúdos publicados.

A FCUL redirecionou o endereço de cada website para o Arquivo.pt, e pôde então desligar os servidores respetivos e passar a poupar os recursos que dispendia na sua manutenção (ex. eletricidade, espaço, recursos humanos).

O caso exemplar do MiNEMA

print-memorial-minema

Página de aterragem do www.minema.di.fc.ul.pt no Memorial do Arquivo.pt.

O website do programa científico MiNEMA foi o primeiro que a FCUL integrou no Memorial do Arquivo.pt. Este website deixou de ser atualizado em 2009 quando o projeto terminou. A FCUL investiu recursos na manutenção do website por mais 10 anos até ser necessário desligá-lo por motivos de cibersegurança.

O Memorial do Arquivo.pt surgiu então como uma opção e a partir de 2020, a FCUL passou a ter de manter apenas o domínio www.minema.di.fc.ul.pt enquanto que o Arquivo.pt passou a preservar a informação contida no website.

Note-se que os conteúdos do website continuam a ser apresentados nos resultados dos motores de busca.

Faça como a FCUL e preserve os seus websites históricos no Memorial!

Cada vez mais as instituições recorrem ao Memorial do Arquivo.pt para preservar de forma segura os conteúdos dos seus websites históricos. Por exemplo, a FCUL preservou 116 websites, o Centro de Gestão da Rede Informática do Governo preservou 23 e a Fundação para a Ciência e a Tecnologia preservou 40.

As instituições públicas têm prioridade para beneficiar deste serviço. No entanto, outras entidades também o podem solicitar desde que sejam detentoras do domínio do website.

Identifique os seus websites históricos que podem ser integrados no Memorial do Arquivo.pt e contacte-nos!

Saber mais

Participação do Arquivo.pt em eventos internacionais sobre arquivos da Web

logo-IIPC

Última atualização em 1 de Agosto de 2023 às 12:54

Encontro com a comunidade dos arquivos da Web

O Internacional Internet Preservation Consortium (IIPC), consórcio que reune inicitivas de preservação da Web de todo o mundo, realizou a Assembleia Geral com os seus associados no dia 10 de maio de 2023.

Nos dias seguintes, 11 e 12 de maio, realizou-se a IIPC Web Archiving Conference (IIPC WAC), uma iniciativa aberta à comunidade, onde podem participar pessoas ou entidades não associodas ao IIPC e interessadas no domínio da preservação da Web.

O acolhimento dos dois eventos foi feito conjuntamente pela KB – National Library of the Netherlands, e pelo Beeld &  Geluid – Netherlands Institute for Sound & Vision.

Contributos do Arquivo.pt na Web Archiving Conference

O Arquivo.pt participou nas reuniões dos grupos de trabalho do IIPC (Training Working Group e Curators Working Group) e contribuiu com apresentações nas sessões temáticas  Collaborations & Outreach e Program infrastructure (sessões 7 e 17).

  • Arquivo.pt updates 2023 (slides)
  • Linking web archiving with arts and humanities: the collaboration between ROSSIO and Arquivo.pt (video, slides)
  • Arquivo.pt behind the curtains (slides)

Encontro com a comunidade dos investigadores RESAW

RESAW (Research Infrastructure for the Study of Archived Web Materials) é uma iniciativa criada em 2012 com o objetivo de promover os estudos baseados em conteúdos Web arquivados, em áreas como Ciências Sociais, Artes e Humanidades Digitais.

A conferência RESAW 2023 foi realizada no MUCEM Lab (Mediterranean Institute of Heritage Crafts), em Marselha, de 5 a 6 de junho de 2023, sob o tema Exploring the Archived Web During a Highly Transformative Age.

Contributos do Arquivo.pt no RESAW 2023

O Arquivo.pt contribuiu com apresentações para as sessões Web Archive in Mediterranean area and its merge(4.A,), From online Tools to Web Archive (6.B.), Towards a participatory approach to collections (9. A.), Digging up the materials for writing web history (9.B.).

  • How to research governmental web data? (abstract, slides)
  • Archiving Cryptocurrencies (abstract, slides)
  • Time to explore, time to learn from the archived web: Arquivo.pt training initiative (abstract, slides)
  • Exhibiting Web Memories from Arquivo.pt: a call for community participation (abstract, slides)

Encontro do Projeto CLEOPATRA

O Projeto CLEOPATRA, liderado pelo L3S Research Center at the Gottfried Wilhelm Leibniz University of Hannover, desenvolveu desde 2019 um progama de formação para investigadores doutorandos (Early Stage Researcher, PhD).

O Arquivo.pt participou em três cursos: Incentives design for hybrid multilingual information processing and analytics, em Southampton; National and transnational media coverage of European parliamentary elections, 2004-2014, Londres; e NLP for under-resourced languages, em Zagreb, na Croácia.

Em 2022, o Arquivo.pt acolheu dois investigadores nas suas instalações os quais utilizaram os recursos arquivados e tiveram apoio especial da equipa do Arquivo.pt para desenvolverem a sua investigação.

O projeto CLEOPATRA terminou em 2023 com a realização de um encontro a 16 de maio, em Hannover, que reuniu professores, investigadores e representantes de instituições envolvidas.

Daniel Gomes, Gestor do Arquivo.pt, destacou as novas ferramentas que o Arquivo.pt disponibiza e os resultados dos trabalhos realizados pelos investigadores que passaram pelo Arquivo.pt.

  • Secondments@Arquivo.pt and new research tools available (Slides)

Museu Virtual do Turismo criou coleção de Websites preservados

Coleção registos no Catálogo do MUVITUR com páginas Web preservadas no Arquivo.pt

Última atualização em 25 de Abril de 2023 às 20:14

O MUVITUR, Museu Virtual do Turismo, é um portal agregador de conteúdos digitais sobre o Turismo em Portugal.

A plataforma é mantida pela Biblioteca Celestino Domingues da Escola Superior de Hotelaria e Turismo do Estoril (ESHTE) e tem a participação de instituições de diversas áreas do património que são provedoras de conteúdos.

Entre os conteúdos digitalizados que podem ser consultados no catálogo e acedidos nas instituições provedoras encontravam-se som, imagem, fotografia, material impresso digitalizado. Contudo, faltavam os Websites.

Assim, surgiu a ideia da nova coleção “Páginas Web” do MUVITUR.

Colaboração entre o MUVITUR e o Arquivo.pt

Em 2019, iniciou-se uma colaboração entre o Arquivo.pt e o MUVITUR com o objetivo de identificar sites relacionados com o Turismo em Portugal e de divulgar o histórico de conteúdos publicados na Web, desde 1996.

Em 2022, estabeleceu-se uma lista com cerca de 400 registos de websites de diversas entidades ligadas ao Turismo, hotéis, agências de viagens, páginas dos sites dos municípios com informação turística e outras.

Dessa informação reunida resultou a primeira coleção de websites preservados sobre Turismo em Portugal.

Catálogo do MUVITUR com páginas Web preservadas no Arquivo.pt

Como foi feita a integração

O MUVITUR utiliza o software Nyron, o qual permite agregar conteúdos de diversas proveniências através do protocolo interoperabilidade OAI-PMH (Open Archives Initiative Protocol for Metadata Harvesting), cuja utilização é muito comum entre bibliotecas, arquivos e museus para fornecer conteúdos a portais, como por exemplo o Europeana.

O Arquivo.pt, porém, não disponibiliza informação através do OAI-PMH, pelo que foi necessário encontrar uma forma alternativa de criar um registo no Nyron com informação descritiva de Websites preservados.

O procedimento para a integração foi o seguinte:

  • Exportou-se para uma folha Excel o esquema XML com os campos para os metadados, de acordo com o que funciona no Nyron;
  • A informação foi inserida manualmente na folha Excel, respeitando o formato e a sintaxe, em colaboração com os técnicos responsáveis pelo sistema;
  • O ficheiro XML com os dados inseridos foi validado e importado para o Nyron.

A criação de registos em catálogos é em grande parte manual e exige uma curadoria humana. No entanto, foi possível introduzir informação para ser processada automaticamente nos registos da coleção de Websites. Por exemplo, a miniatura (thumbnail) foi obtida utilizando a API do Arquivo.pt, mais espeicificamento o linkToScreenShot, visível nos detalhes técnicos de uma página preservada (ver em Opções).

Para outros elementos, tais como o título do site, seria possível obtê-los automaticamente através da API do Arquivo.pt, no entanto a qualidade da informação depende do que os produtores do site inseriram e pode não ser a melhor.  As datas para limitar o âmbito temporal também podem ser obtidas de forma automática. Privilegiou-se o método manual para controlar a informação apresentada.

Na continuidade do projeto, a coleção vai ser aumentada com novos registos, pois existem milhares de sites sobre o setor do Turismo.

Descrição de conteúdos Web no catálogo do MUVITUR

Na coleção “Paginas Web” são utilizados os seguintes dados:

  • Denominação – geralmente o título do website
  • Organização – a entidade a quem pertence a publicação
  • Endereço do sítio Web na Internet
  • Endereço para versão no Arquivo.pt
  • Momento(s) para recordar
  • Link para miniatura no Arquivo.pt
  • Descritores
  • Dados geográficos (localização, coordenadas, nome geográfico)

A apresentação da informação foi ajustada para ficar alinhada com a de outros recursos do MUVITUR e contém ligações para o Arquivo.pt.

Por exemplo, no registo do site “Turismo do Algarve”, encontramos uma ligação para um momento a recordar em 2011 e outra a ligação para o histórico no Arquivo.pt em “Consultar objeto”.

Detalhe do registo do site "Turismo do Algarve"
Detalhe do registo do site “Turismo do Algarve”

Organizações podem criar coleções de Websites da sua área

Com este projeto inédito podemos dizer que os Websites preservados ganharam cidadania ou espaço em plataformas digitais dedicadas à memória histórica.

Os Websites raramente são incluídos em catálogos ou expostos em contexto museológico, em Portugal. Em breve, essa realidade pode mudar.

A National Library of Australia, por exemplo, tem registos de Websites preservados no catálogo. Na Tasmania Libraries o catálogo bibliográfico descreve em formato Marc21 mais de 3000 Websites preservados.  Na Library of Congress há coleções de Websites antigos ao lado dos recursos tradicionais.

O MUVITUR abriu caminho para que outras entidades criem coleções de Websites do seu interesse nas suas plataformas.

Outros resultados da colaboração

Formação gratuita em media digital – ciclo de webinars AMCC

thumbnail-ciclo-webinars-amcc

Última atualização em 2 de Junho de 2023 às 5:35

O Aveiro Media Competence Center (AMCC) é uma plataforma de apoio e promoção ao setor dos News Media Locais da União Europeia (UE) na implementação de projetos de transição digital. Do consórcio fazem parte o PCI Creative Science Park da Região de Aveiro, a Associação Portuguesa de Imprensa  e a Universidade de Aveiro.

O Arquivo.pt é um serviço público e gratuito que permite pesquisar e aceder a páginas da Web preservadas desde a década de 1990, como por exemplo, ver uma notícia antiga ou aceder a uma versão antiga de um website.

A colaboração entre o AMCC e o Arquivo.pt concretiza-se num programa de formação intitulado Arquivo.pt: Competências Digitais para os Media, desenvolvido em quatro webinars, e na atribuição da Menção Honrosa AMCC a trabalhos realizados sobre jornais centenários portugueses para o Prémio Arquivo.pt 2023.

Ciclo de webinars “Arquivo.pt: Competências Digitais para os Media”

O ciclo de webinars visa dotar os formandos de competências digitais que lhes permitam resolver problemas originados pelo desaparecimento de informação digital e ganhar vantagem competitiva na produção de conteúdos únicos e exclusivos.

  • Webinar 1: Arquivo.pt: uma ferramenta para pesquisar rapidamente o passado
    • Data: 24 de março de 2023 Hora: 14h00-15h30 (PT), Língua: Portuguesa
  • Webinar 2: Bem publicar para bem preservar 
    • Data: 06 de abril de 2023, Hora: 14h00-15h30 (PT), Língua: Portuguesa
  • Webinar 3: Acesso e processamento automático de informação preservada da Web através de APIs
    • Data: 04 de maio de 2023, Hora: 14h00-15h30 (PT), Língua: Portuguesa
  • Webinar 4: Arquivar a Web: faça-você-mesmo!
    • Data: 01 de junho de 2023, Hora: 14h00-15h30 (PT), Língua: Portuguesa

Websites do Afeganistão e a queda do regime em agosto de 2021

thumbnail_Karima Faryabi

Última atualização em 26 de Setembro de 2022 às 15:55

afghan-ministry-of-economy-17-08-2021

Website do Ministério da Economia do Afeganistão com Karima Faryabi (gravado a 17 de agosto de 2021)

No dia 15 de agosto de 2021 o palácio presidencial em Cabul foi tomado pelos Talibãs, consumando a queda do regime que vigorava há 20 anos, após os atentados do 11 de Setembro nos Estados Unidos.

A comunidade dos arquivistas da Web, através do Content Development Working Group do International Internet Preservation Consortium, lançou o desafio da gravação dos sites afegãos, face ao risco de estes virem a desaparecer com o novo regime.

Não há tempo a perder quando se trata de preservar a Web

O Arquivo.pt reagiu rapidamente lançando uma pesquisa automática de conteúdos focada em sites do domínio .af e em notícias dos media internacionais sobre os eventos em curso.

No dia 17 de agosto os websites começaram a ser gravados.

Foram utilizados 1800 endereços de sites do Afeganistão (terminados em .af) e 500 notícias dos meios de comunicação social de todo o mundo.

Os endereços, URLs ou “seeds” foram obtidos através de pesquisa automática, utilizando o Bing Search API, e colocados imediatamente em gravação.

Conteúdos disponíveis para conhecer a história do Afeganistão

Como resultado da recolha realizada passaram a estar disponíveis no Arquivo.pt mais de 400 Gigabytes de informação que qualquer pessoa pode utilizar para investigação nas mais diversas áreas.

O principal contributo do Arquivo.pt para a comunidade dos arquivistas da Web foi a demonstração da pesquisa automática que permite uma reação rápida na gravação de conteúdos Web em risco iminente de se perderem.

Mais informação

Conjunto de dados abertos do Arquivo.pt (Dados.gov)

Conteúdos recolhidos pelo Content Development Working Group do International Internet Preservation Consortium disponíveis no serviço Archive-it

Presença online dos museus em ciclo de webinars para a Rede Portuguesa de Museus

Última atualização em 7 de Julho de 2022 às 21:25

A Rede Portuguesa de Museus é a comunidade convidada a participar no ciclo de três webinars intitulado “Património cultural da Web: presença online dos museus”.

Pretende-se sensibilizar os responsáveis e os profissionais dos museus para a importância da preservação dos conteúdos publicados na Web e dar conhecer o Arquivo.pt.

Esta iniciativa é promovida pela Direção Geral do Património Cultural, através do Departamento de Museus, Conservação e Credenciação e da Divisão de Museus e Credenciação, que acolheu e integrou na sua oferta formativa a proposta do Arquivo.pt (FCT, I.P.).

Informação e materiais

21 de junho de 2022 – O Arquivo.pt e a preservação da memória digital (1º webinar)

Nesta sessão, apresenta-se o Arquivo.pt destacando a sua utilidade para os museus, uma vez que este serviço tem por missão a preservação do património cultural digital, especificamente conteúdos Web.

  • Orador: Ricardo Basílio, curador digital (em subsituição de Daniel Gomes, gestor do Arquivo.pt)
  • Duração: 15h30 -17h00
  • Slides (PDF)
  • Vídeo

22 de junho de 2022 – Bem publicar para bem preservar (2º Webinar)

Esta sessão trata dos aspetos a ter em conta, por uma pessoa ou instituição, para criar e manter websites preserváveis.

  • Orador: Pedro Gomes, responsável pelas recolhas do Arquivo.pt
  • Duração: 15h30 -17h00
  • Slides
  • Vídeo

27 de junho de 2022 – Arquivar a Web: faça-você-mesmo! (3º Webinar)

Esta sessão oferece um tutorial para a criação de um arquivo da Web local, gravando os conteúdos num formato normalizado e servindo-se de ferramentas abertas que qualquer pessoa não especializada em tecnologia pode utilizar.

  • Orador: Ricardo Basílio, curador digital
  • Duração: 15h30 -17h00
  • Vídeo
  • Slides

28 de junho de 2022 – Repetição da primeira sessão (sessão extra)

Sessão aberta para quem não teve a possibilidade de participar na 1ª sessão.

  • Orador: Ricardo Basílio, curador digital
  • Duração: 15h30 -17h00
  • Vídeo
  • Slides

Exposição online: descobrir a presença online dos museus ao longo do tempo

 

Arquivo Municipal de Sines e Arquivo.pt juntos no Dia Internacional dos Arquivos

thumbnail-sines-dia-internacional-dos-arquivos

Última atualização em 27 de Junho de 2022 às 8:38

O Arquivo Municipal da Câmara Municipal de Sines e o Arquivo.pt assinalaram o Dia Internacional dos Arquivos, 9 de junho, no Salão Nobre dos Paços do Concelho, com uma Oficina de preservação da memória digital de Sines.

O encontro foi transmitido online com o objetivo de partilhar com a comunidade dos arquivistas o que tem sido uma experiência de curadoria colaborativa dos conteúdos da Web.

Colaboração entre um arquivo municipal e um arquivo da Web

Este encontro deu-se na continuidade de uma colaboração entre as duas equipas, desenvolvida durante o período da pandemia.

O Arquivo Municipal de Sines fez uma recolha seletiva e sistemática de conteúdos Web relacionados com o Concelho de Sines, com a colaboração de meios de comunicação local, como por exemplo a Rádio Miróbriga e a Rádio Sines.

Por sua vez, o Arquivo.pt contribuiu com formação sobre as ferramentas de gravação da Web em formato normalizado (Webrecorder.net) e preparou serviços úteis, como por exemplo o SavePageNow que permite gravar páginas na hora diretamente no Arquivo.pt.

A memória local ficou mais rica com páginas Web preservadas

Desta colaboração resultou a preservação de milhares de páginas Web (cerca de 200 Gigabytes de informação) acerca da vivência da pandemia na área geográfica de Sines e de Santiago do Cacém.

As cópias dos ficheiros de arquivo da Web (WARCs) enviadas ao Arquivo.pt foram integradas para ficarem disponíveis.

Materiais do evento

Galeria de imagens

Oficina da Preservação da Memória Digital de Sines

Oficina da Preservação da Memória Digital de Sines
Oficina da Preservação da Memória Digital de Sines
Oficina da Preservação da Memória Digital de Sines
Oficina da Preservação da Memória Digital de Sines
Oficina da Preservação da Memória Digital de Sines Oficina da Preservação da Memória Digital de Sines Oficina da Preservação da Memória Digital de Sines Oficina da Preservação da Memória Digital de Sines

Como preservar as referências na Wikipédia?

Wikimedia Portugal e Arquivo.pt

Última atualização em 19 de Maio de 2022 às 19:05

A Wikimedia Portugal iniciou uma colaboração com o Arquivo.pt que visa captar a atenção da comunidade para a preservação dos conteúdos publicados na Wikipédia.

Oitenta por cento das páginas publicadas na Web desaparecem ou são alteradas, apenas 1 ano após a sua publicação. Simultaneamente, a informação na Wikipédia baseia-se em informação maioritariamente publicada na Web. O desaparecimento da informação de referência prejudica a confiabilidade dos artigos da Wikipédia.

Ciclo de webinars “Património Cultural na Web: como preservar as referências na Wikipédia?”

O ciclo de Webinars promovido pela Wikimedia Portugal inclui conteúdos pedagógicos que enriquecem a formação dos profissionais da informação e comunicação mas também a literacia digital de qualquer cidadão.

O Arquivo.pt e a preservação da memória digital (1º Webinar)

Gonçalo Themudo, Presidente da Wikimedia Portugal, introduziu o 1º webinar do ciclo intitulado “Património cultural na Web: como preservar as referências na Wikipédia?”. Salientou a importância de preservar as referências (URLs) utilizadas pelos autores, quando publicam artigos na Wikipédia. Daniel Gomes, Gestor do Arquivo.pt, mostrou como o Arquivo.pt preserva os conteúdos Web e como a comunidade de autores da Wikipédia pode contribuir para que esses conteúdos fiquem efetivamente preservados.

  • Data: Realizado em 22 de fevereiro de 2022
  • Formador: Daniel Gomes, Arquivo.pt
  • Slides
  • Vídeo

Acesso e processamento automático de informação preservada da Web através de APIs (2º Webinar)

Webinar que apresenta as APIs (Application Programming Interface) do Arquivo.pt que possibilitam o processamento automático da informação histórica preservada da Web para desenvolver aplicações inovadores e úteis às organizações. Este Webinar destina-se principalmente a profissionais de informática (ex. Web developers, Web designers, Web marketers).

  • Data: 22 Mar. 2022 15:00 – 16:30
  • Formador: Vasco Rato, Arquivo.pt/ROSSIO
  • Slides
  • Vídeo

Arquivar a Web: faça-você-mesmo! (3º Webinar)

Webinar que apresenta como é preservada a informação cultural de índole municipal e nacional publicada na Web. Demonstra através de casos práticos como qualquer pessoa pode arquivar informação publicada na web num formato adequado que permitirá a sua preservação para o futuro utilizando ferramentas gratuitas. Este Webinar destina-se a qualquer utilizador da Internet mas é particularmente útil para responsáveis pela comunicação e gestão de informação em organizações.

  • Data: 19 Abr. 2022 15:00 – 16:30
  • Formador: Daniel Gomes, Arquivo.pt
  • Slides
  • Vídeo

Eleições Autárquicas 2021 preservadas pelo Arquivo.pt

thumbnail_eleicoes_autarquicas

Última atualização em 8 de Maio de 2023 às 17:09

Milhares páginas eleitorais a preservar antes que desapareçam

No dia 26 de setembro de 2021 realizaram-se as eleições autárquicas em Portugal, evento marcado pela pandemia da Covid-19. A comunicação dos candidatos foi baseada sobretudo nos meios de comunicação social e nas redes sociais.

A informação online que documenta processos eleitorais é de manifesta importância histórica. Contudo, é difícil de identificar porque aparecem e desaparecem rapidamente. No caso das eleições autárquicas, a quantidade de candidatos e a variedade de canais utilizados torna a tarefa ainda mais desafiante.

O Arquivo.pt, tal como em eleições anteriores, lançou uma recolha especial para preservar conteúdos relativos às Autárquicas 2021.

Como foram identificados os conteúdos eleitorais publicados na Web

Começou-se por fazer a identificação manual de conteúdos relacionados com eleições, por concelho e freguesia. Para isso pediu-se ajuda a pessoas e organizações com as seguintes iniciativas:

  • campanha de recolha de endereços Eleições Autárquicas de 2021: precisamos da sua ajuda!
  • pedido de colaboração aos serviços de arquivo dos 308 municípios na identificação de sites eleitorais e candidatos do respetivo concelho
  • pedido aos Partidos para enviarem os nomes dos candidatos cabeças de lista

Destaca-se a utilização do site Eyedata – Social Data Lab que disponibilizou na Web nomes de candidatos de todo o país.  A página da Wikipedia Eleições autárquicas portuguesas de 2021 também foi utilizada como fonte de informação.

Este processo de identificação manual originou uma lista de 255 endereços que documentavam as candidaturas às Eleições Autárquicas de 2021. Note-se que 61% dos endereços identificados apontavam para plataformas privadas de redes sociais: 54% facebook.com, 5% instagram.com e 2% twitter.com).

Grande parte destes conteúdos de interesse nacional não puderam ser preservados porque estas empresas privadas estrangeiras não o permitem.

A lista com nomes de candidatos por concelho, partido ou coligação serviram para criar pesquisas automáticas no Bing que identificaram os conteúdos eleitorais mais relevantes.

Por exemplo, ao combinar o termo “autárquicas 2021” com o nome de um candidato e do respetivo concelho, obtém-se resultados relacionados com esse candidato, tais como notícias, iniciativas da sua campanha ou a página oficial da sua campanha eleitoral.

Esta metodologia foi aplicada nas Eleições Presidenciais 2021 e nas Eleições Europeias de 2019. O relatório técnico A transnational crawl of the European Parliamentary Elections 2019 detalha a metodologia aplicada.

Recolha de conteúdos e disponibilização no Arquivo.pt

Entre 22 de agosto e 8 de outubro de 2021, o Arquivo.pt recolheu de forma exaustiva páginas relacionadas com as Autárquicas 2021.

A coleção resultante denominada Eleições Autárquicas 2021” (EAWP39) reúne 31 milhões de ficheiros que totalizam 2.7 TeraBytes de informação e estará disponível a partir de outubro de 2022, por respeito ao período de embargo de 1 ano.

Investigadores que queiram realizar estudos acerca das Autárquicas 2021 e necessitem de obter acesso mais cedo aos conteúdos recolhidos podem contactar o Arquivo.pt.

Para saber mais