O Instituto Politécnico de Lisboa (IPL), através do Grupo de Ensino à Distância (EaD@IPL), promoveu um ciclo de webinars para a sua comunidade dedicado ao Arquivo.pt e à preservação dos conteúdos publicados na Internet.
Esta iniciativa teve a participação de docentes e investigadores do IPL, bem como pessoas ligadas à comunicação da mesma instituição.
O ciclo de webinars realizou-se em três sessões, entre maio e julho de 2024, e seguiu o programa de formação que o Arquivo.pt disponibiliza há vários anos.
Materiais das apresentações
1º webinar – Arquivo.pt: uma nova ferramenta para pesquisar o passado. Bem publicar, para bem preservar. 5 de junho.
Porque é importante fazer ações de formação acerca da preservação da Web
Arquivar conteúdos publicados na web e usar um arquivo da Web no dia-a-dia é uma prática pouco habitual, em grande parte devido ao desconhecimento por parte da comunidade da existência e do funcionamento do Arquivo.pt.
As sessões de formação do Arquivo.pt são um espaço de motivação para que as pessoas e as instituições passem a cuidar melhor dos seus websites e dos conteúdos que publicam na Web.
Como resultado deste ciclo de webinars reforçou-se a colaboração entre o Instituto Politécnico de Lisboa e o Arquivo.pt, tendo em vista a preservação dos seus sítios web institucionais e de outros conteúdos de interesse que estão em diversos meios on-line (notícias, eventos, referências a docentes investigadores e alunos).
No dia 24 de maio, a FCCN recebeu pela primeira vez profissionais de Bibliotecas do Ensino Superior (BES) no âmbito do programa dinamizado pelo Grupo Trabalho das Bibliotecas do Ensino Superior (GT-BES) da Associação Portuguesa de Bibliotecários, Arquivistas, Documentalistas e Profissionais da Informação (BAD), A minha biblioteca é a tua biblioteca.
Trata-se de um programa de mobilidade que tem como objetivo a realização de visitas de curta duração tendo em vista a troca de experiências e o contacto, in loco e hands on, com boas práticas, fomentando a colaboração e o conhecimento das BES portuguesas entre os profissionais da área.
Serviços avançados para o conhecimento
Nesta primeira edição do programa na FCCN, foi proposto às colegas participantes (3 profissionais da Universidade de Lisboa e 1 da Universidade Católica do Porto) um percurso pelos serviços digitais de apoio às instituições do ensino superior que são operados pela FCCN- FCT
Alguns serviços são conhecidos dos profissionais da informação, como por exemplo, a B-On e o RCAAP. Outros são serviços de backoffice e, por isso, menos visíveis, mas fundamentais para as instituições de ensino superior. Por exemplo, o Eduroam que garante o acesso à Internet, o RCTSaai para a autenticação ou o RCTS CERT para responder a incidentes de segurança.
Destaque para os serviços Arquivo.pt e NAU
No decorrer dia, estiveram em destaque o Arquivo.pt e a Plataforma NAU, dois serviços da área do conhecimento que estão disponíveis para as Instituições do Ensino Superior e também para a sociedade.
A equipa do Arquivo.pt mostrou o backoffice deste serviço de preservação da Internet em Portugal e realizou um exercício prático de gravação e integração de conteúdos no arquivo da Web.
A Plataforma NAU, é uma plataforma de MOOCs (Massive Open Online Courses) criada com o propósito de democratizar o conhecimento, promover a literacia digital, possibilitar o ensino e formação a comunidades alargadas de utilizadores, em particular à população portuguesa e lusófona.
Mais recentemente, com a sua integração na plataforma norte-americana edx.org, também a todos os potenciais formandos falantes de língua portuguesa dispersos pelo mundo. Às participantes no programa foi explicado e exemplificado como construir cum curso MOOC na plataforma edx.
Por: Marie Haškovcová and Luboš Svoboda, Webarchiv, National Library of the Czech Republic, 13 a 17 de maio de 2024.
Visita no âmbito do Erasmus+
Graças ao programa europeu Erasmus+ da UE, centrado na educação de adultos – mobilidade de pessoal, tivemos a oportunidade de passar uma semana a acompanhar o Arquivo.pt e comparar as estratégias do arquivo Web checo – Webarchiv – com as abordagens dos nossos colegas portugueses.
Em ambos os casos, trata-se de arquivos centrados em conteúdos nacionais (checos e portugueses) na Internet.
A FCT presta serviços de IT ao sistema de ensino superior e de Investigação português, bem como conetividade de alta velocidade à Internet. O contexto institucional de ambos os arquivos reflecte-se também nas especificidades dos seus conceitos.
A visita incluiu uma apresentação da equipa e dos espaços do campus e dos departamentos, uma apresentação das actividades de ambos os arquivos e uma discussão sobre os diferentes aspectos do nosso trabalho – ferramentas técnicas e curatoriais, tecnologias e processos, ambiente legislativo e questões éticas, armazenamento de dados, alguns serviços, actividades de investigação, perspectivas e planos futuros.
O arquivo da Web checo
O arquivo web checo foi fundado em 2000, as cópias de arquivo mais antigas datam de 2001 e tem atualmente mais de 580 TB de dados. Tal como o Arquivo.pt, recolhe conteúdos num domínio nacional com base numa lista de endereços URL obtida junto do seu fornecedor. Na sua estratégia de aquisição, complementa estas recolhas, ditas abrangentes, com recolhas temáticas e selectivas.
As colecções temáticas referem-se a um tópico ou evento específico, podem ser pontuais ou de construção contínua, e combinam recursos seleccionados manualmente e recursos extraídos automaticamente. As colecções selectivas destinam-se a ser recolhidas a longo prazo, têm registos de catalogação detalhados que fazem parte da bibliografia nacional checa e são licenciadas – as cópias de arquivo estão, portanto, disponíveis gratuitamente através do catálogo.
No âmbito das actividades de investigação em arquivos da Web, apresentámos o nosso projeto destinado a detetar as chamada web morta através da aplicação Extinct Websites e a criar uma base de dados que sirva de base para monitorizar mudanças mais amplas na web checa, bem como o projeto WACloud destinado a extrair grandes volumes de dados do arquivo da web.
Troca de conhecimentos e experiências
Entre os projectos portugueses, interessou-nos, por exemplo, o CitationSaver, e também discutimos o projeto Memorial, a recolha da Wikipédia portuguesa, e as actividades do arquivo português relacionadas com a formação sobre a preservação da Web (módulos de formação).
A reunião foi enriquecida pela discussão de colecções temáticas específicas.
A coleção de Net Art checa documenta a arte digital e a sua transformação no espaço em linha, proporcionando uma perspetiva histórica da arte única.
Outra coleção importante é a coleção “Redes sociais dos Membros do Parlamento da República Checa 2021-2025”, que preserva as comunicações e interacções em linha dos deputados checos, de valor inestimável para o estudo do marketing político e da vida política pública.
A coleção GitHub arquiva repositórios importantes desta popular plataforma para programadores, preservando os principais projectos de software nacionais e o seu código para as gerações futuras.
Por último, a coleção Crypto, NFT, Blockchain, Web3, Metaverse traça o crescimento e o impacto da tecnologia no espaço dos bens digitais. Estas colecções são recursos fundamentais para a investigação e análise da cultura, política e tecnologia digitais, e a discussão destas colecções em reuniões de arquivistas da Web contribui para o desenvolvimento de métodos de arquivo e inovação tecnológica.
Concentrámo-nos na troca de conhecimentos e experiências na identificação de endereços para gravar (seeds), na otimização do fluxo de trabalho e na partilha de dicas e aspectos técnicos.
Partilha de boas práticas
Discutimos as melhores práticas para identificar e recolher os principais recursos da Web, um passo fundamental para garantir um arquivo abrangente e representativo. Partilhámos várias estratégias para automatizar e simplificar os fluxos de trabalho, incluindo a utilização de ferramentas de raspagem da Web e filtragem avançada de conteúdos.
As conversas técnicas incluíram soluções para problemas comuns, como a recolha de páginas Web dinâmicas e a superação de restrições de acesso. A reunião constituiu uma plataforma valiosa para a partilha de métodos inovadores e para a promoção da colaboração entre peritos, promovendo o desenvolvimento de um arquivo digital eficaz e sustentável.
A sessão realizada durante as Jornadas FCCN intitulou-se “Arquivo.pt ao serviço da cultura” e teve por objetivo destacar duas colaborações do Arquivo.pt no domínio da cultura e do conhecimento, nomeadamente, com a Wikimédia Portugal e com o Museu Virtual do Turismo (MUVITUR).
Na sessão Zapping FCCN o Arquivo.pt apresentou o serviço Arquivo404 que permite aos sites oferecerem conteúdos históricos em vez da negativa “Página não encontrada”.
O Workshop pós-Jornadas, promovido pela ARDITI, foi aberto às instituições regionais e aos cidadãos em geral. Intitulou-se “O Arquivo.pt e a preservação da memória da Internet”.
Os conteúdos foram estruturados seguindo o programa de formação que o Arquivo.pt e precedidos pelo enquadramento entre os outros serviços da FCCN – Computação Científica da FCT.
Tão importante como os conteúdos foi o diálogo que se estabeleceu durante as sessões entre os participantes e a equipa do Arquivo.pt para esclarecer dúvidas ou para colocar questões.
A preservação da Web é cada vez mais importante para as organizações que pretendem conservar parte da memória institucional e desenvolver políticas de segurança.
A ARDITI deu um sinal importante acerca da preservação da memória Web das instituições madeirenses ao acolher e promover as ações formativas do Arquivo.pt.
Se pretende promover a preservação de conteúdos Web na sua organização consulte a formação do Arquivo.pt e contacte-nos.
Neste evento, realizado no auditório da Polícia Judiciária, em Lisboa, estiveram presentes representantes da área governativa da Justiça e profissionais no âmbito dos arquivos, da comunicação e dos departamentos de informática.
Como usar o Arquivo.pt para preservar os websites institucionais
O Arquivo.pt participou com a apresentação “Preserve o seu website” na qual se abordou a questão da preservação dos websites institucionais e aspetos cada vez mais importantes como a cibersegurança.
As entidades da área da Justiça podem beneficiar do Arquivo.pt e dos seus diversos serviços para assegurar uma boa preservação dos seus websites, mitigar ameaças à cibersegurança e fornecer conteúdos históricos aos cidadãos.
Como conclusão desta apresentação ficaram as seguintes recomendações:
Faça o inventário e dê a conhecer os seus Websites atuais e históricos
Use colaborativamente os serviços do Arquivo.pt
Grave no formato normalizado os conteúdos com o ArchiveWeb.page
Última atualização em 3 de Novembro de 2023 às 12:47
Arquivo.pt preservou documentos online em várias línguas sobre as Eleições Parlamentares Europeias de 2019
As Eleições Parlamentares Europeias de 2019 foram um evento de relevância internacional. A estratégia para preservar a informação relevante na World Wide Web é delegada às instituições nacionais. No entanto, a preservação de páginas web que documentam eventos internacionais ainda não foi oficialmente atribuída.
A equipa do Arquivo.pt, com o objetivo de preservar o conteúdo online multilingue que documenta este evento, aplicou uma combinação de processos humanos e automáticos de seleção.
Na primeira etapa, foram identificados 40 termos relevantes em português sobre as Eleições Parlamentares Europeias de 2019, que foram posteriormente traduzidos automaticamente para as 24 línguas oficiais da União Europeia: búlgaro, croata, checo, dinamarquês, holandês, inglês, estónio, finlandês, francês, alemão, grego, húngaro, irlandês, italiano, letão, lituano, maltês, polaco, português, romeno, eslovaco, esloveno, espanhol e sueco.
Estas traduções foram revistas em colaboração com o Publications Office of the European Union. Além disso, paralelamente, foi lançada uma lista colaborativa para reunir contribuições de endereços relevantes oriundos da comunidade internacional.
Na segunda etapa, a equipa do Arquivo.pt executou iterativamente 6 recolhas (99 milhões de ficheiros web, 4,8 TB) utilizando diferentes configurações e software de recolha, para maximizar a qualidade do conteúdo recolhido.
Os dados web obtidos foram agregados numa coleção especial identificada como EAWP23 e tornaram-se pesquisáveis e acessíveis através do Arquivo.pt em julho de 2020 (https://arquivo.pt/ee2019).
Projeto CLEOPATRA: Cross-lingual Event-centric Open Analytics Research Academy
A CLEOPATRA ITN foi uma Rede de Formação Inovadora Marie Skłodowska-Curie destinada a gerar formas de compreender melhor a cobertura digital massiva de grandes eventos na Europa durante as últimas décadas.
O principal objetivo era facilitar o processamento avançado multilíngue em grande escala de informações textuais e visuais acerca dos principais eventos contemporâneos e desenvolver métodos inovadores para acesso e interação eficientes com informações multilíngue.
No total, 14 pesquisadores em estágio inicial hospedados em 9 universidades europeias desenvolveram suas pesquisas enquanto estavam matriculados como estudantes de doutoramento.
Parceiros associados como o Arquivo.pt contribuíram para o CLEOPATRA acolhendo e formando investigadores em início de carreira como Diego Alves. No âmbito do programa de formação, este investigador realizou um estágio no Arquivo.pt em Lisboa de junho a agosto de 2022.
A ideia era desenvolver parte da sua investigação sobre estruturas sintáticas das línguas da UE utilizando os recursos textuais preservados pelo Arquivo.pt e trocar conhecimentos com os especialistas em preservação da web sobre estratégias de extração e processamento de dados históricos da web.
Gerando conjuntos de dados textuais para processamento de linguagem natural
O trabalho de Diego Alves originou conjuntos de dados multilíngues sobre as Eleições Parlamentares Europeias de 2019 que constituem recursos preciosos para investigação científica.
Este trabalho será detalhado no capítulo “Robustness of Corpus-based Typological Strategies for Dependency Parsing” do livro de acesso aberto CLEOPATRA intitulado “Event Analytics across Languages and Communities”.
Um fluxo de Processamento de Linguagem Natural em 3 etapas foi desenvolvido para gerar conjuntos de dados textuais que podem ser usados em diversos tipos de estudos na área de Humanidades Digitais:
Extrair texto: O conteúdo textual foi extraído de cada URL arquivado usando a biblioteca Python newspaper3k. O idioma de cada texto extraído foi determinado usando a biblioteca langdetect e os textos escritos em diferentes línguas foram armazenados em ficheiros distintos;
Limpar textos extraídos: um script Python foi aplicado para limpar os textos removendo informações desnecessárias (ex.: instâncias repetidas, linhas vazias, etc.);
Dupla verificação de identificação de língua: a língua de cada texto extraído e limpo foi verificada novamente para eliminar possíveis erros originados durante as etapas anteriores.
Dois novos conjuntos de dados para investigação em acesso-aberto!
O referido corpus foi anotado automaticamente quanto às relações gramaticais e de dependência para gerar um corpus com informações sintáticas úteis para estudos linguísticos.
Os textos anotados seguiram a mesma ordem dos respetivos ficheiros de texto originais. Cada frase foi anotada seguindo a Universal Dependencies framework no formato CoNNL-U, que é a referência em termos de anotação sintática em Processamento de Linguagem Natural. Assim, cada ficheiro deste conjunto de dados contém os textos anotados numa determinada língua sobre as Eleições da União Europeia de 2019.
“Robustness of Corpus-based Typological Strategies for Dependency Parsing”, Diego Alves e Daniel Gomes, livro “Event Analytics across Languages and Communities”, Springer (a ser publicado).
Nos dias seguintes, 11 e 12 de maio, realizou-se a IIPC Web Archiving Conference (IIPC WAC), uma iniciativa aberta à comunidade, onde podem participar pessoas ou entidades não associodas ao IIPC e interessadas no domínio da preservação da Web.
Contributos do Arquivo.pt na Web Archiving Conference
O Arquivo.pt participou nas reuniões dos grupos de trabalho do IIPC (Training Working Group e Curators Working Group) e contribuiu com apresentações nas sessões temáticas Collaborations & Outreach e Program infrastructure (sessões 7 e 17).
O Arquivo.pt contribuiu com apresentações para as sessões Web Archive in Mediterranean area and its merge(4.A,), From online Tools to Web Archive (6.B.), Towards a participatory approach to collections (9. A.), Digging up the materials for writing web history (9.B.).
How to research governmental web data? (abstract, slides)
O Arquivo.pt participou em três cursos: Incentives design for hybrid multilingual information processing and analytics, em Southampton; National and transnational media coverage of European parliamentary elections, 2004-2014, Londres; e NLP for under-resourced languages, em Zagreb, na Croácia.
Em 2022, o Arquivo.pt acolheu dois investigadores nas suas instalações os quais utilizaram os recursos arquivados e tiveram apoio especial da equipa do Arquivo.pt para desenvolverem a sua investigação.
O projeto CLEOPATRA terminou em 2023 com a realização de um encontro a 16 de maio, em Hannover, que reuniu professores, investigadores e representantes de instituições envolvidas.
Daniel Gomes, Gestor do Arquivo.pt, destacou as novas ferramentas que o Arquivo.pt disponibiza e os resultados dos trabalhos realizados pelos investigadores que passaram pelo Arquivo.pt.
Secondments@Arquivo.pt and new research tools available (Slides)
Este evento é um encontro para partilha de conhecimento entre as entidades que compõem a comunidade de ensino superior e de investigação nacionais.
O evento conta com a participação de decisores das instituições, responsáveis por serviços técnicos de informática e responsáveis por bibliotecas e serviços de documentação, entre outros.
O Arquivo.pt apresentou duas sessões de 90 minutos, no dia 28 de junho das 14h30 às 18h00, sob o tema “Serviços Arquivo.pt para gerir citações e cibersegurança”.
Agenda da sessões Arquivo.pt
28 de junho 14h30-16h00: Arquivo.pt – serviços disponíveis e arquitetura de sistema
O Arquivo.pt é um serviço público e gratuito que permite pesquisar e aceder a páginas da Web preservadas desde a década de 1990, como por exemplo, ver uma notícia antiga ou aceder a uma versão antiga de um website.
A colaboração entre o AMCC e o Arquivo.pt concretiza-se num programa de formação intitulado Arquivo.pt: Competências Digitais para os Media, desenvolvido em quatro webinars, e na atribuição da Menção Honrosa AMCC a trabalhos realizados sobre jornais centenários portugueses para o Prémio Arquivo.pt 2023.
Ciclo de webinars “Arquivo.pt: Competências Digitais para os Media”
O ciclo de webinars visa dotar os formandos de competências digitais que lhes permitam resolver problemas originados pelo desaparecimento de informação digital e ganhar vantagem competitiva na produção de conteúdos únicos e exclusivos.
Webinar 1: Arquivo.pt: uma ferramenta para pesquisar rapidamente o passado
Data: 24 de março de 2023 Hora: 14h00-15h30 (PT), Língua: Portuguesa
Uma delas foi o tutorial “Sumarização de narrativas acerca de eventos do passado documentados na web utilizando Python: o caso do Arquivo.pt” desenvolvido por Daniel Gomes e Ricardo Campos.
Todos os recursos criados estão disponíveis gratuitamente em acesso aberto.
Recursos de acesso aberto do tutorial “Sumarização de narrativas acerca de eventos do passado documentados na web utilizando Python: o caso do Arquivo.pt”
Projeto Colab que permite editar e executar diretamente os exemplos de código do tutorial (Português, English)
Vídeo apresentado em 5 de maio de 2022 como parte dos webinars e tutoriais do Programming Historian “Computational analysis skills for large-scale humanities data”