Neste evento, realizado no auditório da Polícia Judiciária, em Lisboa, estiveram presentes representantes da área governativa da Justiça e profissionais no âmbito dos arquivos, da comunicação e dos departamentos de informática.
Como usar o Arquivo.pt para preservar os websites institucionais
O Arquivo.pt participou com a apresentação “Preserve o seu website” na qual se abordou a questão da preservação dos websites institucionais e aspetos cada vez mais importantes como a cibersegurança.
As entidades da área da Justiça podem beneficiar do Arquivo.pt e dos seus diversos serviços para assegurar uma boa preservação dos seus websites, mitigar ameaças à cibersegurança e fornecer conteúdos históricos aos cidadãos.
Como conclusão desta apresentação ficaram as seguintes recomendações:
Faça o inventário e dê a conhecer os seus Websites atuais e históricos
Use colaborativamente os serviços do Arquivo.pt
Grave no formato normalizado os conteúdos com o ArchiveWeb.page
Última atualização em 3 de Novembro de 2023 às 12:47
Arquivo.pt preservou documentos online em várias línguas sobre as Eleições Parlamentares Europeias de 2019
As Eleições Parlamentares Europeias de 2019 foram um evento de relevância internacional. A estratégia para preservar a informação relevante na World Wide Web é delegada às instituições nacionais. No entanto, a preservação de páginas web que documentam eventos internacionais ainda não foi oficialmente atribuída.
A equipa do Arquivo.pt, com o objetivo de preservar o conteúdo online multilingue que documenta este evento, aplicou uma combinação de processos humanos e automáticos de seleção.
Na primeira etapa, foram identificados 40 termos relevantes em português sobre as Eleições Parlamentares Europeias de 2019, que foram posteriormente traduzidos automaticamente para as 24 línguas oficiais da União Europeia: búlgaro, croata, checo, dinamarquês, holandês, inglês, estónio, finlandês, francês, alemão, grego, húngaro, irlandês, italiano, letão, lituano, maltês, polaco, português, romeno, eslovaco, esloveno, espanhol e sueco.
Estas traduções foram revistas em colaboração com o Publications Office of the European Union. Além disso, paralelamente, foi lançada uma lista colaborativa para reunir contribuições de endereços relevantes oriundos da comunidade internacional.
Na segunda etapa, a equipa do Arquivo.pt executou iterativamente 6 recolhas (99 milhões de ficheiros web, 4,8 TB) utilizando diferentes configurações e software de recolha, para maximizar a qualidade do conteúdo recolhido.
Os dados web obtidos foram agregados numa coleção especial identificada como EAWP23 e tornaram-se pesquisáveis e acessíveis através do Arquivo.pt em julho de 2020 (https://arquivo.pt/ee2019).
Projeto CLEOPATRA: Cross-lingual Event-centric Open Analytics Research Academy
A CLEOPATRA ITN foi uma Rede de Formação Inovadora Marie Skłodowska-Curie destinada a gerar formas de compreender melhor a cobertura digital massiva de grandes eventos na Europa durante as últimas décadas.
O principal objetivo era facilitar o processamento avançado multilíngue em grande escala de informações textuais e visuais acerca dos principais eventos contemporâneos e desenvolver métodos inovadores para acesso e interação eficientes com informações multilíngue.
No total, 14 pesquisadores em estágio inicial hospedados em 9 universidades europeias desenvolveram suas pesquisas enquanto estavam matriculados como estudantes de doutoramento.
Parceiros associados como o Arquivo.pt contribuíram para o CLEOPATRA acolhendo e formando investigadores em início de carreira como Diego Alves. No âmbito do programa de formação, este investigador realizou um estágio no Arquivo.pt em Lisboa de junho a agosto de 2022.
A ideia era desenvolver parte da sua investigação sobre estruturas sintáticas das línguas da UE utilizando os recursos textuais preservados pelo Arquivo.pt e trocar conhecimentos com os especialistas em preservação da web sobre estratégias de extração e processamento de dados históricos da web.
Gerando conjuntos de dados textuais para processamento de linguagem natural
O trabalho de Diego Alves originou conjuntos de dados multilíngues sobre as Eleições Parlamentares Europeias de 2019 que constituem recursos preciosos para investigação científica.
Este trabalho será detalhado no capítulo “Robustness of Corpus-based Typological Strategies for Dependency Parsing” do livro de acesso aberto CLEOPATRA intitulado “Event Analytics across Languages and Communities”.
Um fluxo de Processamento de Linguagem Natural em 3 etapas foi desenvolvido para gerar conjuntos de dados textuais que podem ser usados em diversos tipos de estudos na área de Humanidades Digitais:
Extrair texto: O conteúdo textual foi extraído de cada URL arquivado usando a biblioteca Python newspaper3k. O idioma de cada texto extraído foi determinado usando a biblioteca langdetect e os textos escritos em diferentes línguas foram armazenados em ficheiros distintos;
Limpar textos extraídos: um script Python foi aplicado para limpar os textos removendo informações desnecessárias (ex.: instâncias repetidas, linhas vazias, etc.);
Dupla verificação de identificação de língua: a língua de cada texto extraído e limpo foi verificada novamente para eliminar possíveis erros originados durante as etapas anteriores.
Dois novos conjuntos de dados para investigação em acesso-aberto!
O referido corpus foi anotado automaticamente quanto às relações gramaticais e de dependência para gerar um corpus com informações sintáticas úteis para estudos linguísticos.
Os textos anotados seguiram a mesma ordem dos respetivos ficheiros de texto originais. Cada frase foi anotada seguindo a Universal Dependencies framework no formato CoNNL-U, que é a referência em termos de anotação sintática em Processamento de Linguagem Natural. Assim, cada ficheiro deste conjunto de dados contém os textos anotados numa determinada língua sobre as Eleições da União Europeia de 2019.
“Robustness of Corpus-based Typological Strategies for Dependency Parsing”, Diego Alves e Daniel Gomes, livro “Event Analytics across Languages and Communities”, Springer (a ser publicado).
Nos dias seguintes, 11 e 12 de maio, realizou-se a IIPC Web Archiving Conference (IIPC WAC), uma iniciativa aberta à comunidade, onde podem participar pessoas ou entidades não associodas ao IIPC e interessadas no domínio da preservação da Web.
Contributos do Arquivo.pt na Web Archiving Conference
O Arquivo.pt participou nas reuniões dos grupos de trabalho do IIPC (Training Working Group e Curators Working Group) e contribuiu com apresentações nas sessões temáticas Collaborations & Outreach e Program infrastructure (sessões 7 e 17).
O Arquivo.pt contribuiu com apresentações para as sessões Web Archive in Mediterranean area and its merge(4.A,), From online Tools to Web Archive (6.B.), Towards a participatory approach to collections (9. A.), Digging up the materials for writing web history (9.B.).
How to research governmental web data? (abstract, slides)
O Arquivo.pt participou em três cursos: Incentives design for hybrid multilingual information processing and analytics, em Southampton; National and transnational media coverage of European parliamentary elections, 2004-2014, Londres; e NLP for under-resourced languages, em Zagreb, na Croácia.
Em 2022, o Arquivo.pt acolheu dois investigadores nas suas instalações os quais utilizaram os recursos arquivados e tiveram apoio especial da equipa do Arquivo.pt para desenvolverem a sua investigação.
O projeto CLEOPATRA terminou em 2023 com a realização de um encontro a 16 de maio, em Hannover, que reuniu professores, investigadores e representantes de instituições envolvidas.
Daniel Gomes, Gestor do Arquivo.pt, destacou as novas ferramentas que o Arquivo.pt disponibiza e os resultados dos trabalhos realizados pelos investigadores que passaram pelo Arquivo.pt.
Secondments@Arquivo.pt and new research tools available (Slides)
Este evento é um encontro para partilha de conhecimento entre as entidades que compõem a comunidade de ensino superior e de investigação nacionais.
O evento conta com a participação de decisores das instituições, responsáveis por serviços técnicos de informática e responsáveis por bibliotecas e serviços de documentação, entre outros.
O Arquivo.pt apresentou duas sessões de 90 minutos, no dia 28 de junho das 14h30 às 18h00, sob o tema “Serviços Arquivo.pt para gerir citações e cibersegurança”.
Agenda da sessões Arquivo.pt
28 de junho 14h30-16h00: Arquivo.pt – serviços disponíveis e arquitetura de sistema
O Arquivo.pt é um serviço público e gratuito que permite pesquisar e aceder a páginas da Web preservadas desde a década de 1990, como por exemplo, ver uma notícia antiga ou aceder a uma versão antiga de um website.
A colaboração entre o AMCC e o Arquivo.pt concretiza-se num programa de formação intitulado Arquivo.pt: Competências Digitais para os Media, desenvolvido em quatro webinars, e na atribuição da Menção Honrosa AMCC a trabalhos realizados sobre jornais centenários portugueses para o Prémio Arquivo.pt 2023.
Ciclo de webinars “Arquivo.pt: Competências Digitais para os Media”
O ciclo de webinars visa dotar os formandos de competências digitais que lhes permitam resolver problemas originados pelo desaparecimento de informação digital e ganhar vantagem competitiva na produção de conteúdos únicos e exclusivos.
Webinar 1: Arquivo.pt: uma ferramenta para pesquisar rapidamente o passado
Data: 24 de março de 2023 Hora: 14h00-15h30 (PT), Língua: Portuguesa
Uma delas foi o tutorial “Sumarização de narrativas acerca de eventos do passado documentados na web utilizando Python: o caso do Arquivo.pt” desenvolvido por Daniel Gomes e Ricardo Campos.
Todos os recursos criados estão disponíveis gratuitamente em acesso aberto.
Recursos de acesso aberto do tutorial “Sumarização de narrativas acerca de eventos do passado documentados na web utilizando Python: o caso do Arquivo.pt”
Projeto Colab que permite editar e executar diretamente os exemplos de código do tutorial (Português, English)
Vídeo apresentado em 5 de maio de 2022 como parte dos webinars e tutoriais do Programming Historian “Computational analysis skills for large-scale humanities data”
A Rede Portuguesa de Museus é a comunidade convidada a participar no ciclo de três webinars intitulado “Património cultural da Web: presença online dos museus”.
Pretende-se sensibilizar os responsáveis e os profissionais dos museus para a importância da preservação dos conteúdos publicados na Web e dar conhecer o Arquivo.pt.
Esta iniciativa é promovida pela Direção Geral do Património Cultural, através do Departamento de Museus, Conservação e Credenciação e da Divisão de Museus e Credenciação, que acolheu e integrou na sua oferta formativa a proposta do Arquivo.pt (FCT, I.P.).
Informação e materiais
21 de junho de 2022 – O Arquivo.pt e a preservação da memória digital (1º webinar)
Nesta sessão, apresenta-se o Arquivo.pt destacando a sua utilidade para os museus, uma vez que este serviço tem por missão a preservação do património cultural digital, especificamente conteúdos Web.
Orador: Ricardo Basílio, curador digital (em subsituição de Daniel Gomes, gestor do Arquivo.pt)
27 de junho de 2022 – Arquivar a Web: faça-você-mesmo! (3º Webinar)
Esta sessão oferece um tutorial para a criação de um arquivo da Web local, gravando os conteúdos num formato normalizado e servindo-se de ferramentas abertas que qualquer pessoa não especializada em tecnologia pode utilizar.
O Arquivo Municipal da Câmara Municipal de Sines e o Arquivo.pt assinalaram o Dia Internacional dos Arquivos, 9 de junho, no Salão Nobre dos Paços do Concelho, com uma Oficina de preservação da memória digital de Sines.
O encontro foi transmitido online com o objetivo de partilhar com a comunidade dos arquivistas o que tem sido uma experiência de curadoria colaborativa dos conteúdos da Web.
Colaboração entre um arquivo municipal e um arquivo da Web
Este encontro deu-se na continuidade de uma colaboração entre as duas equipas, desenvolvida durante o período da pandemia.
O Arquivo Municipal de Sines fez uma recolha seletiva e sistemática de conteúdos Web relacionados com o Concelho de Sines, com a colaboração de meios de comunicação local, como por exemplo a Rádio Miróbriga e a Rádio Sines.
Por sua vez, o Arquivo.pt contribuiu com formação sobre as ferramentas de gravação da Web em formato normalizado (Webrecorder.net) e preparou serviços úteis, como por exemplo o SavePageNow que permite gravar páginas na hora diretamente no Arquivo.pt.
A memória local ficou mais rica com páginas Web preservadas
Desta colaboração resultou a preservação de milhares de páginas Web (cerca de 200 Gigabytes de informação) acerca da vivência da pandemia na área geográfica de Sines e de Santiago do Cacém.
As cópias dos ficheiros de arquivo da Web (WARCs) enviadas ao Arquivo.pt foram integradas para ficarem disponíveis.
Cryptomoedas e curadoria foi o mote para o Arquivo.pt partilhar as novidades do serviço e falar do trabalho desenvolvido desde a última edição das Jornadas.
Na sessão Zapping nas Jornadas, dedicada a apresentações breves dos serviços da Unidade FCCN, o Arquivo.pt destacou as novidades e teve o aplauso pela sua longa atividade na preservação da Web.
O Arquivo.pt foi criado em 2007 com o objetivo de recolher a Web portuguesa. Passados 15 anos continua a sua missão, recolhendo e dando acesso a conteúdos preservados, quer para o investigador quer para o cidadão comum.
Formação com a Biblioteca da Escola Superior de Tecnologia e Gestão
A equipa do Arquivo.pt esteve na Biblioteca da Escola Superior de Tecnologia e Gestão (ESTGV) numa sessão dedicada à preservação digital, principalmente aos conteúdos institucionais publicados na Web.
A formação foi promovida pela equipa da Biblioteca, em especial a Dra. Rosa Silva, Coordenadora do serviço, e teve a participação da comunidade. Além das apresentações, houve oportunidade para partilhar ideias e apontar futuras colaborações.
O responsável do serviço de Cultura Comunicação e Documentação, Dr. Paulo Medeiros, deu a conhecer os canais institucionais do Instituto Politécnico de Viseu. Estes estão cada vez mais presentes na Web, como por exemplo, a revista Polistécnica que passou ao formato digital em 2012, a revista científica Millenium e o canal de vídeos Politécnico TV.
Nesta sessão, mostrou-se como o Arquivo.pt funciona e como qualquer pessoa ou instituição pode preservar conteúdos Web num formato adequado, utilizando a ferramenta ArchiveWeb.page – Webrecorder.net para arquivar localmente ou o SavePageNow para gravar diretamente no Arquivo.pt.
APIs do Arquivo.pt apresentada aos estudantes de tecnologias da Internet
A equipa do Arquivo esteve em sala de aula, graças ao excelente acolhimento do Prof. Doutor Valter Alves, Diretor do Curso de Tecnologia Design e Multimédia. O Arquivo.pt apresentou as suas APIs (Aplications Programming Interfaces) para o processamento automático de informação preservada.
Ao utilizarem as APIs do Arquivo.pt os alunos podem fazer trabalhos para as cadeiras de tecnologia e concorrer ao Prémio Arquivo.pt.
Daniel Gomes na sessão do Arquivo.pt nas Jornadas FCCN 2022 em Viseu
Daniel Gomes na sessão do Arquivo.pt nas Jornadas FCCN 2022 em Viseu
Sessão do Arquivo.pt nas Jornadas FCCN 2022 em Viseu
Pedro Gomes na sessão do Arquivo.pt nas Jornadas FCCN 2022 em Viseu
Pedro Gomes na sessão do Arquivo.pt nas Jornadas FCCN 2022 em Viseu
Ricardo Basílio na sessão do Arquivo.pt nas Jornadas FCCN 2022 em Viseu
Ricardo Basílio na sessão do Arquivo.pt nas Jornadas FCCN 2022 em Viseu
Sessão de formação na Biblioteca da ESTGV
Sessão de formação na Biblioteca da ESTGV
Sessão de formação na Biblioteca da ESTGV
Sessão de formação na Biblioteca da ESTGV
Sessão de formação na Biblioteca da ESTGV
Sessão de formação na Biblioteca da ESTGV
Sessão de formação na Biblioteca da ESTGV
Aula no curso de Tecnologia Design e Multimédia da ESTGV
Aula no curso de Tecnologia Design e Multimédia da ESTGV
Aula no curso de Tecnologia Design e Multimédia da ESTGV
Aula no curso de Tecnologia Design e Multimédia da ESTGV
Aula no curso de Tecnologia Design e Multimédia da ESTGV
Páginas Web para a história do Instituto Politécnico de Viseu
Em 2018, a equipa da biblioteca desenvolveu um projeto com a participação de jovens estudantes que resultou numa curta metragem documental.
Este projeto começou pela pesquisa exaustiva de conteúdos Web preservados no Arquivo.pt, material indispensável para uma narrativa identitária do Instituto Politécnico de Viseu e do estudante.
Última atualização em 14 de Novembro de 2023 às 14:45
O seu website apresenta mensagens de “Erro 404 – Página não encontrada” aos seus utilizadores?
O Arquivo.pt oferece uma solução para este problema através do Arquivo404.
Basta inserir uma única linha de código na página que gera a mensagem de erro 404 no seu website e serão apresentadas páginas preservadas aos seus utilizadores em vez de páginas não encontradas.
Quando um utilizador tenta aceder a uma página que já não se encontra disponível num website, o arquivo404 verifica automaticamente se existe uma versão dessa página preservada no Arquivo.pt.
Se a página existir no Arquivo.pt, é apresentado um link para que o utilizador para que possa visitar esta versão.
Se não existir, é apresentada a página de erro normal.
A implementação mais simples do Arquivo404 consiste em inserir a seguinte linha de código Javascript no HTML que gera a mensagem de “Página não encontrada” (dentro do <body>):
O código do Arquivo404 pode ser adaptado facilmente. Pode por exemplo, criar uma mensagem de erro personalizada.
Dica para sites WordPress: Ao editar a página de erro 404 e ao inserir o script arquivo404 dentro do <body>, deve colocar no princípio a tag <!– wp:html –> e no fim <!– /wp:html –>, caso contrário o script é apagado.
Se tive qualquer dúvida ou dificuldade, por favor contacte-nos!