preservação digital – sobre.arquivo.pt

Workshop sobre Preservação digital na Universidade de Coimbra

Maio 22, 2025Maio 10, 2025 por Ricardo Basílio

Última atualização em 22 de Maio de 2025 às 18:45

O Arquivo.pt participou no workshop intitulado “Preservação digital: ferramentas e práticas”, promovido pela Faculdade de Letras da Universidade de Coimbra, na tarde do dia 7 de maio de 2025. Com a moderação de Inês Santos, destacamos o painel inicial com excelentes intervenções de Moisés Rockembach (Universidade de Coimbra), Humberto Innarelli (Unicamp) e Daniel Gomes (Arquivo.pt, serviço digital da FCCN-FCT).

O encontro teve por objetivo oferecer à comunidade uma reflexão crítica acerca das novas tendências nas ferramentas e nas práticas de preservação digital.

A preservação digital é um tema transversal às organizações, pois todas produzem e geram informação em suporte digital. É cada vez maior a oferta de ferramentas, soluções que prometem maior eficiência no processamento de informação. Muitas são colocadas sob a designação de Inteligência Artificial. Tal abundância de produtos e enquadramentos exige uma maior discussão e abordagem crítica. E isso foi alcançado de forma brilhante pelo painel de oradores.

Três abordagens sobre Inteligência Artificial e Preservação Digital

Este encontro reuniu no Anfiteatro III da Faculdade de Letras da Universidade de Coimbra três autores de obras sobre preservação digital e trouxe à discussão abordagens diferentes.

Moisés Rockembach, co-autor com Caterina Pavão de Arquivamento da Web e preservação digital, a primeira obra em português sobre arquivos da Web, centrou a sua apresentação no impacto da Inteligência Artificial nos sistemas de preservação digital, nomeadamente na pesquisa e no acesso à informação, em processos de classificação indexação, por exemplo. A esse propósito do impacto das novas ferramentas que a tecnologia digital nos oferece, fez referência a uma frase de Demi Gretscko: “O processo de busca e captura da informação descrito no texto certamente poderá sofrer aportes futuros, especialmente ao se considerar o aporte de ferramentas novas, como as da Inteligência Artificial”.

Há ferramentas de Inteligência Artificial que permitem um acesso interessante à informação pela novidade e pelo formato. A arquivística deve ter em conta essa realidade e testar até que ponto isso pode transformar o modo como se opera a divulgação e o acesso a muitos conteúdos. Um exemplo para ilustrar esta ideia, foi a apresentação de um Podcast gerado por Inteligência Artificial, baseado no capítulo 2 do livro sobre Arquivos da Web, que versa sobre as políticas de preservação digital.

Link para Podcast gerado por Inteligência Artificial (publicado no Instagram)

Humberto Innarelli, autor de Criptex da preservação digital, autor de Criptex da preservação digital, coordenador do Arquivo Edgard Leuenroth (AEL) e investigador especialista em arquivística na Unicamp, São Paulo e professor Doutor do Centro Paula Souza, São Paulo, colocou a questão do futuro da preservação digital. Até agora, a prática para preservar conteúdos digitais dinâmicos é convertê-los em documentos estáticos. Por outro lado, cada vez a informação é-nos dada de forma dinâmica, a partir de bases de dados ou de algoritmos e Inteligência Artificial. Qual é o próximo passo? A prática arquivística tem de olhar não apenas para os metadados (metadata), como tem feito nos últimos anos, mas também para aquilo que explica como a informação foi gerada (o que podemos chamar paradata). Só assim é possível colocar a arquivística e a preservação digital na perspetiva do longo termo. Daqui a cem ou duzentos anos deveríamos ser capazes de continuar a aceder à informação digital produzida atualmente.

Daniel Gomes, editor principal do livro The Past Web, fundador do Arquivo.pt, discutiu a questão da Inteligência Artificial na sua relação com os conteúdos de produção não artificial e humana. Que valor acrescentado trazem as ferramentas geradoras de texto, imagem, áudio ou vídeo? Se considerarmos por exemplo que um Podcast sobre preservação digital utilizou como base um livro escrito por um autor humano, que conhecimento novo gerou? Pouco ou nenhum. Assim, o que se convencionou chamar Inteligência Artificial pode considerar-se como uma forma de apresentar o conhecimento humano e de modo nenhum dispensa a humanidade de continuar a pensar, a investigar e a produzir novo conhecimento.

O Arquivo.pt preserva conteúdos que foram publicados por pessoas e organizações e nesse sentido é uma fonte única no seu género. A informação publicada na Web é importante para relatar e compreender melhor a história recente, desde a década de 1990. Qualquer ferramenta de Inteligência Artificial terá de voltar ao ponto onde a informação foi criada por pessoas. A origem humana dos conteúdos preservados pelo Arquivo.pt, e o mesmo se pode dizer dos arquivos tradicionais, faz com que estes tenham um enorme valor, até considerando-o do ponto de vista do valor económico. Quanto vale a informação preservada por um arquivo da Web?

Estreia do MOOC ou curso online do Arquivo.pt

Daniel Gomes, Gestor do Arquivo.pt anunciou em primeira mão o curso online na plataforma NAU: A Web do passado: preservação e pesquisa.

O curso online ou MOOC (Massivo Online Open Course) está disponível para quem pretende aprofundar os seus conhecimentos sobre preservação da Web.

O link curto para divulgação é arquivo.pt/mooc

Os dados preservados do Arquivo.pt e o seu processamento automático por APIs

Vasco Rato, desenvolvedor do Arquivo.pt, mostrou como funcionam as interfaces de processamento automático, Application Programming Interfaces (APIs).

Os dados do Arquivo.pt podem ser processados por Inteligência Artificial. Os trabalhos concorrentes ao Prémio Arquivo.pt já o demonstraram, assim como alguns projetos como o GlórIA, um Large Language Model, desenvolvido na NOVA-FCT.

Para terminar, Ricardo Basílio, curador digital do Arquivo.pt, mostrou como qualquer pessoa pode gravar uma página ou um website inteiro no seu próprio computador num formato normalizado, compatível com os arquivos da Web. Usou-se para isso o ArchiveWeb.page e browsertrix-crawler como ferramentas de treino e formação. Esta prática permite que a comunidade seja cada vez mais ativa na preservação de informação institucional publicada na Web.

Agenda do evento

14h30 Painel – Moderadora: Inês Santos, Universidade de Coimbra

Preservação digital e Inteligência Artificial – Moisés Rockembach, Universidade de Coimbra – Slides
Cryptex da Preservação Digital: O próximo passo – Humberto Innarelli, Unicamp – Slides
Arquivo.pt e a preservação da Web – Daniel Gomes, FCCN-FCT – Slides

16h00 Intervalo

Dados Abertos para a Investigação. Processamento automático de informação através de APIs – Vasco Rato, FCCN-FCT – Slides
Demo – Arquivar a Web: faça-você-mesmo – Ricardo Basílio, FCCN-FCT – Slides
- Demo de gravação manual com o ArchiveWeb.page
- Demo de gravação automática com o Browsertrix-crawler

17h00 – Final

Galeria de imagens

Imagens nos canais da Faculdade de Letras da Universidade de Coimbra

Vídeo com momentos do evento (publicado no Facebook)

Workshop na Faculdade de Letras da Universidade de Coimbra

Arquivo.pt em Coimbra nas Jornadas da FCCN

Maio 17, 2025Maio 6, 2025 por Ricardo Basílio

Última atualização em 17 de Maio de 2025 às 12:33

A equipa do Arquivo.pt esteve em Coimbra, entre os dias 6 e 8 de maio, nas Jornadas FCCN para promover a preservação da Internet portuguesa, pois a divulgação e a promoção constituem uma vertente importante da sua missão.

Na terça-feira, de manhã, Pedro Gomes apresentou os destaques na sessão Zapping FCCN e à tarde, das 16h30 às 18 horas, realizou-se a sessão do Arquivo.pt, Mãos na massa para arquivar a Web.

Na quarta-feira, dia 7, às 14h30, a equipa do Arquivo.pt deslocou-se à Universidade de Coimbra para participar no encontro promovido pela Faculdade de Letras (FCUL), intitulado Preservação digital: ferramentas e práticas (Anfiteatro III, Piso 4).

Ao fim da tarde de quarta-feira, Daniel Gomes, participou na sessão Democratizar a IA: tornar a Inteligência Artifícial acessível a todos sobre o contributo do Arquivo.pt para o LLM AMÁLIA.

Destaques do Arquivo.pt na sessão Zapping da FCCN

Pedro Gomes, encarregado das recolhas do Arquivo.pt, mostrou a imagem mais antiga arquivada no Arquivo.pt que se encontra precisamente no antigo site da Universidade de Coimbra. Destacou a nova funcionalidade que permite reproduzir conteúdos em Flash, os dados estatísticos do Arquivo.pt, os prémios e os conjuntos de dados.

Mão na massa para arquivar a Web

Nesta sessão, orientada por Ricardo Basílio, curador digital do Arquivo.pt, mostrou-se como gravar páginas web em formato normalizado utilizando o seu próprio computador.

Esta ação, com o formato “mão na massa” ou “faça-você-mesmo!”, enquadra-se na missão do Arquivo.pt de promoção da preservação da Internet (Decreto-Lei nº 55/2013). Ao mostrar como funciona a gravação de websites estamos a fortalecer também a ligação da comunidade ao Arquivo.pt.

Para quem precisa de guardar cópias de alta qualidade de websites esta sessão é uma ajuda. Os participantes foram desafiados a gravar páginas estáticas e outras com conteúdos interativos, vídeos e redes sociais. A partir das questões que surgiram durante os exercícios práticos, esclarecemos dúvidas e mostrámos que arquivar conteúdos Web é muito fácil.

Usámos a extensão ArchiveWeb.page, ferramenta do Webercorder.net, que os participantes puderam obter gratuitamente e instalar nos próprios computadores.

Se é informático ou utilizador avançado de IT

Para quem tem a expectativa e a necessidade de gravar sites inteiros automaticamente, fizemos uma breve referência ao Browsertrix-crawler, uma ferramenta avançada que corre num Docker, em Linux. Informáticos e utilizadores avançados de IT foram desafiados a tentar a gravação e arquivo de Websites.

As demonstrações e exercícios que propusemos usando o ArchiveWeb.page ou Browsertrix-crawler aplicam-se também a casos de uso avançado e respondem a necessidades de arquivo da Web no dia-a-dia das organizações.

Materiais da sessão “mãos na massa”

Democratizar a IA: tornar a Inteligência Artifícial acessível a todos

No segundo dia das Jornadas da FCCN, 8 de maio de 2025, na sessão dedicada à Inteligência Artificial, Daniel Gomes, por parte da FCNN-FCT, e João Magalhães, por parte da NOVA-FCT, apresentaram o “AMÁLIA: Assistente Multimodal automático de Linguagem com IA”.

Daniel Gomes explicou como o Arquivo.pt é utilizado para processamento em larga escala, concretamente através das Application Programming Interfaces do Arquivo.pt (APIs).

As APIs permitem que os investigadores acedam à informação do Arquivo.pt de forma automática e desenvolvem diversas aplicações em projetos de investigação. Por exemplo, usaram APIs projetos como o Conta-me Histórias, o modelo para língua portuguesa LLM GlórIA e, presentemente, o LLM AMÁLIA.

Slides da apresentação

Galeria de imagens

Jornadas FCCN

Iniciativa eArchiving organizou workshop e Arquivo.pt esteve presente

Março 11, 2025Março 3, 2025 por Ricardo Basílio

José Borbinha, workshop eArchiving, a 25 de Fevereiro no IST (Sala José Tribolet)

Última atualização em 11 de Março de 2025 às 16:21

O Arquivo.pt participou no workshop eArchiving Portugal , que se realizou no Instituto Superior Técnico, no dia 25 de fevereiro de 2025, a convite do Professor Doutor José Borbinha, uma das primeiras pessoas a fazer arquivo da web em Portugal quando, na década de 1990, estava na Biblioteca Nacional.

O Professor José Borbinha, melhor que ninguém, sabe contar na primeira pessoa os pequenos episódios, quase épicos, as ações dos primeiros “heróis” que levaram à criação de um arquivo da Web em Portugal. Vê o Arquivo.pt como um serviço imprescindível quando se fala de preservação digital e de salvaguarda do património comunicacional das organizações.

O evento teve um formato hibrido com 50 participantes presencias e 270 online e foi aberto a todas as entidades públicas ou privadas com preocupações ao nível da preservação digital e gestão da informação em qualquer tipo ou formato. Aqui se incluem os conteúdos dos websites e redes sociais!

Os responsáveis dos Municípios, entidades da Administração Local, tiveram uma grande participação, respondendo ao apelo da Direção-Geral do Livro, dos Arquivos e das Bibliotecas (DGLAB). Este convite à participação de pessoas de todo o país foi uma oportunidade para o Arquivo.pt mostrar como pode ajudar na preservação dos sites institucionais e no cumprimento da Portaria n.º 112/2023, de 27 de abril.

eArchiving, uma iniciativa europeia nascida em Portugal

A iniciativa eArchiving ou Iniciativa de Arquivo Eletrónico tem por objetivo principal o património cultural digital e foi criada numa reunião de parceiros europeus em Lisboa.

“Foi precisamente nesta (sala José Tribolet no Instituto Superior Técnico) que teve início o eArchiving há onze atrás, a 29 de maio de 2014” recordou José Borbinha (INESC-ID), anfitrião e organizador do workshop.

A iniciativa eArchiving, é gerida, em nome da Comissão Europeia, pelo Consórcio E-ARK, onde se incluem os parceiros portugueses KEEP Solutions LDA e INESC-ID. No consórcio estão ainda o AIT Austrian Institute of Technology GmbH, parceiro principal, e o DLM Forum MTÜ.

Janet Anderson, gestora do eArchiving, mostrou os progressos alcançados em onze anos no domínio da preservação digital. Os projetos financiados pela União Europeia no âmbito do consórcio resultaram no desenvolvimento de especificações, software, formação e conhecimento sobre preservação digital.

Seguiu-se a apresentação de contributos para a preservação digital em Portugal: DGLAB, por Pedro Penteado, Centro Hospitalar São João, por Fernanda Gonçalves, Ministério da Justiça, por Alexandra Lourenço e Cristina Soares, Arquivo.pt, pelo curador digital Ricardo Basílio.

Para terminar, Miguel Ferreira fez a sua intervenção em representação do DLM Forum MTÜ, comunidade onde a KEEP Solutions LDA participa com o desenvolvimento de software. Numa abordagem mais técnica mostrou como estão estruturados os metadados na especificação de empacotamento E-Ark de modo a cumprirem os requisitos da preservação digital.

Como usar o Arquivo.pt para preservação os websites institucionais

Presentation of Arquivo.pt at the eArchiving Workshop, by Ricardo Basílio, digital curator. Photo by Pedro Penteado — Apresentação do Arquivo.pt no Workshop eArchiving por Ricardo Basílio, curador digital. Foto por Pedro Penteado

A preservação digital exige colaboração, tanto ao nível interno como externo entre organizações, e este workshop serviu esse propósito, pois foi ocasião para partilha de boas práticas, divulgação de ferramentas e serviços e contacto entre pessoas.

Da parte do Arquivo.pt destacou-se três serviços do seu catálogo para a preservação dos conteúdos publicados na web:

Os serviços do Arquivo.pt podem ser utilizados, por exemplo, pelos Municípios para a preservação dos conteúdos publicados nos websites institucionais.

A formação do Arquivo.pt, tais como webinars ou sessões presenciais, são úteis para dar capacidade às entidades para cuidarem dos conteúdos institucionais, incluindo os conteúdos das redes sociais que exigem uma estratégia alternativa.

Slides da apresentação

Saber mais

Vídeos de todas as apresentações, em breve no canal Youtube do E-ARK

Dia Mundial da Preservação Digital celebrado em encontro na Torre do Tombo

Dezembro 11, 2024Novembro 8, 2024 por Ricardo Basílio

Última atualização em 11 de Dezembro de 2024 às 17:29

Vamos falar de preservação e acesso!

No passado dia 7 de novembro de 2024, realizou-se o Encontro Novos Caminhos para a Preservação e o Acesso à Informação, organizado conjuntamente pelo Arquivo.pt e pelo Arquivo de Ciência e Tecnologia, o primeiro situado na Avenida do Brasil e o segundo na Avenida D. Carlos I, em Lisboa, ambos serviços da Fundação para a Ciência e a Tecnologia (FCT).

O objetivo desta equipa conjunta da FCT foi precisamente provocar o encontro e a partilha de experiências entre diversas instituições que têm inevitavelmente de gerir informação, quer em formatos tradicionais como o papel, quer em formatos digitais.

O encontro teve 243 participantes e 29 oradores. Nove das 27 apresentações foram submetidas para uma a sessão denominada “Espaço comunidade”.

A sessão de encerramento teve a intervenção de Maria Inácia Rezola, Comissária Executiva da Estrutura de Missão para as Comemorações do 50º aniversário da Revolução de 25 de Abril de 1974.

A BAD – Associação de Portuguesa de Bibliotecários, Arquivistas, Profissionais da Informação e Documentação, deu um contributo importante na divulgação do evento pela comunidade e marcou presença com um stand informativo.

Um dia internacional dedicado à preservação digital

Neste dia, celebrou-se o Dia Mundial da Preservação Digital, uma iniciativa do Digital Preservation Coalition (DPC) a que o Arquivo.pt se associou desde a primeira edição em 2017. Jane Winters, Presidente do DPC, enviou uma mensagem vídeo para associar-se a esta iniciativa em Portugal.

A informação digital foi o fio condutor das intervenções. Na abertura, o Diretor da Direção Geral do Livro, dos Arquivos e das Bibliotecas, Silvestre Lacerda, lembrou que a DGLAB foi pioneira entre as entidades públicas na abordagem à questão da preservação digital. O vice-presidente da FCT, Francisco Santos, sublinhou o valor económico que representam os dados para a investigação científica.

Preservação digital não se trata apenas de tecnologia, como referiu Henrique São Mamede, Professor da Universidade Aberta, INESC TEC na conferência de abertura. Trata-se também das pessoas, do fator humano, do ambiente exterior às organizações e das novas sensibilidades, como a sustentabilidade e a ecologia. Daí a importância de criar pontes, de usar por exemplo, a Inteligência Artificial articulando-a com a ética. Slides.

Ao longo do dia, quatro painéis agregaram apresentações sobre diversos contextos da preservação tais como a digitalização de som, imagem e vídeo, dados de investigação, quadros normativos, sistemas de gestão de informação digitalizada ou nascida digital, divulgação e acesso, uso na investigação académica.

Imagem e montagem: Leonor Arrimar (FCT)

Painel 1: Iniciativas e realidades de preservação digital

O primeiro painel foi moderado por João Gomes, Diretor de Serviços Avançados da FCT, e trouxe para a mesa a diversidade de contextos em que se coloca a questão da preservação e do acesso. Destaca-se, aqui, um aspeto de cada apresentação e deixa-se o convite para seguir as ligações e conhecer melhor essas iniciativas.

Moisés Rockemback, Professor da Universidade de Coimbra e co-autor do livro Arquivamento da web e preservação digital, falou das primeiras iniciativas realizadas no Brasil para preservar conteúdos publicados na Web. Os websites dos candaditatos às eleições brasileiras, por exemplo, são por natureza efémeros mas tornaram-se material para a pesquisa historiográfica ao serem preservados num arquivo da Web. Numa perspetiva mais teórica abordou a questão da memória. A preservação da web permite-nos trazer à luz acontecimentos que foram veiculados unicamente em meios digitais como a Web e, nesse sentido, adia o fim da História expresso na metáfora da “Dark Age”, tempo da escuridão, vazio de informação. Slides.

Pedro Penteado, Diretor de Serviços de Arquivística e Normalização, apresentou um conjunto de instrumentos que a DGLAB tem desenvolvido, como por exemplo a Macro Estrutura Funcional (MEF), o projeto Avaliação Suprainstitucional da Informação Arquivística (ASIA) e ainda a Lista Consolidada na Plataforma CLAV, que permite às diferentes entidades da Administração Pública cumprir a legislação e normalizar práticas de classificação e avaliação. Recordou que estes intrumentos são flexíveis para atender às especificidades das organizações. Slides.

Pedro Príncipe, Chefe da Divisão de Serviços de Documentação da Universidade do Minho, abordou os dados de investigação. A preservação e o acesso aos dados é fundamental para a produção de ciência. Para isso é necessário conjugar iniciativas e trabalhar em rede e criar comunidades de prática. O Fórum GDI é um exemplo de que o encontro entre profissionais é útil. A certificação é altamente recomendável, como o tem demonstrado a Universidade do Minho que certificou o seu repositório, pois é um motivo extra para criar robustez e para atingir os objetivos FAIR (Findable, Acessible, Interoperable, and Reusable). Slides.

Hilário Lopes, Diretor adjunto das Relações Institucionais e Arquivo da RTP, descreveu o caminho para o digital que mudou completamente a forma de acesso ao Arquivo da RTP. Se até de 2001 a digitalização se fazia a pedido, a partir desse ano os conteúdos foram massivamente digitalizados. Desde 2007, os conteúdos são acessíveis em formato digital, o que facilitou o acesso e o uso. A RTP Memória e o Portal RTP são dois exemplos de acesso ao património audiovisual da rádio e televisão pública. Slides.

Painel 2: Preservar e reutilizar a informação da Web

O tema do arquivo da Web esteve em destaque no segundo painel, moderado por Daniel Gomes, Gestor do Arquivo.pt e seu iniciador em 8 de de novembro de 2007.

Ricardo Basílio, curador digital do Arquivo.pt, apresentou a exposição online “Memórias do 25 de Abril na Internet, realizada em colaboração com a Comissão Comemorativa 50 Anos 25 de Abril, com base em páginas web preservadas. Destacou páginas sobre as comemorações do 25 de Abril em todo o país atrvés de uma visita guiada à exposição. Slides.

Joana Paulino, historiadora e investigadora da Faculdade de Ciências Sociais e Humanas da Universidade Nova de Lisboa, mostrou como as tecnologias contribuem para o desenvolvimento de estudos em áreas tradicionalmente afastadas das tecnologias, a partir da sua experiência no Laboratório de Humanidades Digitais. Slides.

António Campos e Hélder Mestre, do Arquivo da Câmara Municipal de Sines, mostraram como, desde 2020, preservam conteúdos da Web de interesse local em colaboração com o Arquivo.pt. Gravam páginas Web com o ArchiveWeb.page, ferramenta do Webrecorder, enviam uma cópia dos ficheiros para o Arquivo.pt, fazem transcrição textual de imagens e vídeos, e usam também o PDF como formato mais tradicional para arquivar notícias. A questão da acessibilidade aos conteúdos para pessoas com necessidades especiais é fundamental no processo de preservação. Slides.

António Ramiro e Carmen Fonseca, vencedores do Prémio Arquivo.pt 2024, apresentaram o seu trabalho Noticioso.pt. É um projeto que reutiliza a informação do Arquivo.pt para desafiar a capacidade crítica dos cidadãos. Slides.

Para finalizar, Daniel Gomes, destacou o muito que foi feito nos últimos 17 anos no domínio da preservação da Web, a ponto de termos atualmente um serviço funcional que toda a gente pode usar. Fomos encontrar, como testemunho desses primeiros tempos, uma página do Diário Digital, de novembro de 2006.

Painel 3: Preservar a atualidade e salvaguardar o futuro

O terceiro painel foi moderado por Paula Meireles, Coordenadora do serviço Arquivo, Documentação e InformaçãoFundação para a Ciência e a Tecnologia (FCT) e trouxe à mesa outras quatro realidades.

Filipe Guimarães Silva, Diretor Executivo da Fundação Mário Soares e Maria Barroso e António Coelho, Coordenador de reprodução digital, aprofundaram as questões técnicas relacionadas com a digitalização, a partir do caso do acervo, que também está acessível no portal Casa Comum. O controlo de qualidade é o fator mais importante para obter uma versão digital preservável. Nem sempre são necessárias tecnologias caras para obter bons resultados. É fundamental seguir os standards e cuidar para que sejam gerados metadados de qualidade.

Fernanda Gonçalves, Diretora do Arquivo da Unidade Local de Saúde São João, mostrou como o Repositório Clínico Digital São João está a transformar o acesso aos processos clínicos com vantagens tanto na rapidez como na qualidade da informação. O modelo de gestão da informação nesta enorme instituição traz imensos desafios para a preservação e o acesso continuado, pois trata-se criar interoperabilidade entre múltiplos sistemas. Acresce que se tratam de dados sensíveis com diferentes níveis de acesso. É aqui que surge o arquivo como uma mais valia. O serviço de arquivo deve estar à altura dos desafios em qualquer organização para servir todos os seus “clientes”.

Augusto Ribeiro, responsável pelo Serviço de Gestão da Documentação e Informação na UPdigital, Universidade do Porto, explicou como está ser feita a preservação do acervo universitário. Desde o tratamento dos documentos em papel, à sua digitalização e à inserção no repositório digital, é importante garantir a robustez. Este trabalho tem sido progressivo e sistemático, ou seja, segue um plano onde todas as peças se encaixam, à medida que o trabalho é desenvolvido.

Pedro Penteado (DGLAB) apresentou o projeto “Guía de Preservación Digital” que está a ser desenvolvido em colaboração com a Asociación Latinoamericana de Archivos (ALA). Esta iniciativa vai estruturar conteúdos sobre a preservação digital de forma pragmática. Em breve, os profissionais terão à mão uma base de conhecimento para consultar, sempre que desenvolverem atividades de preservação digital.

Painel 4: Espaço comunidade

O quarto painel, moderado por Paula Carvalho, do Arquivo de Ciência e Tecnologia da FCT, incluiu 9 apresentações breves submetidas pela comunidade. Em seguida, apresentamos os resumos enviados pelos autores:

Justiça do Futuro: + Digital – Alexandra Lourenço, Albertina Catrola, Alexandra Henriques, António Dias, Cristina Ferreira, Inês Nunes, Rute Ramos | SGMJ
PARA SEMPRE: preservar a memória digital da arte portuguesa contemporânea na web – Rita Cêpa | IHA-NOVA FCSH/IN2PAST
Arquivo Audiovisual da Universidade Aberta: Preservar e disponibilizar o acervo para todos – Madalena Carvalho | Universidade Aberta
CitationSaver preserva citações para conteúdos online – Pedro Gomes | FCCN/FCT
Entre a Memória e o Esquecimento: Desafios na preservação digital de movimentos sociais – João Pedro Oliveira | NOVA-FCSH
Um Arquivo Digital na FCT – os primeiros passos – Suzana Oliveira, Paula Meireles | Fundação para a Ciência e a Tecnologia
Ciência 74/24 – Série multimédia sobre a evolução da ciência em 50 anos de democracia – Pedro Cavaco Horta, Susana Torrão | NOVA FCSH
Sistemas de gestão documental legados: Migrar para preservar – Paula Fernandes, Cláudia Pinto | Banco de Portugal
O desafio da preservação digital na justiça – Cristina Soares | Instituto de Gestão Financeira e Equipamentos da Justiça-MJ

Celebrando os 50 anos do 25 de Abril na sessão de encerramento

Maria Inácia Rezola, Comissária Executiva da Estrutura de Missão para as Comemorações do 50º aniversário da Revolução de 25 de Abril de 1974, apresentou uma perspetiva histórica do impacto do 25 de Abril na sociedade portuguesa, nomeadamente através da forma como este é comemorado por todo o país.

Deu a conhecer o trabalho que a Comissão Comemorativa 50 Anos 25 de Abril tem realizado para identificar arquivos, centros de documentação e acervos das mais variadas espécies com material acerca do 25 de Abril. Há acervos públicos praticamente desconhecidos, outros que se encontram-se em acervos privados. A inventariação e a divulgação é, portanto, o primeiro passo para promover o estudo e o conhecimento sobre o 25 de Abril.

Para terminar, Maria Inácia Rezola, anunciou a atribuição da Menção Honrosa “O 25 de Abril e a Democracia”, juntamente com um prémio de 5.000 euros, na edição Prémio Arquivo.pt 2025, ao melhor trabalho sobre o 25 de Abril que utilize o Arquivo.pt.

Galeria de imagens

Encontro Dia Mundial da Preservação Digital 2024 #WDPD2024

Hélder Mestre e António Campos, Arquivo Municipal de Sines

2º Painel - António Ramiro e Carmen Fonseca, Noticioso.pt

António Ramiro e Carmen Fonseca, Noticioso.pt

Encontro Novos Caminhos para a Preservação e o Acesso à Informação

2º painel - Encontro Novos Caminhos para a Preservação e o Acesso à Informação

Encontro Novos Caminhos para a preservação e o aEncontro Novos Caminhos para a Preservação e o Acesso à Informaçãoesso à informação

1º Painel - Encontro Novos Caminhos para a Preservação e o Acesso à Informação

Moisés Rockemback, Universidade de Coimbra

Stand do Arquivo.pt - Encontro Novos Caminhos para a Preservação e o Acesso à Informação

Moisés Rockemback, Univ. Coimbra, Ricardo Basílio, Arquivo.pt

Henrique São Mamede, Universidade Aberta, INESC TEC

Sessão de Abertura - Silvestre Lacerda, Diretor da DGLAB e Francisco Santos, Vice-Presidente da FCT

Sessão de Abertura - João Gomes, Diretor Serviços Avançados da FCT

Sessão de Abertura - Jane Winters, Digital Preservation Coalition (DPC)

Augusto Ribeiro, Universidade do Porto, UPDigital

3º painel - Encontro Novos Caminhos para a Preservação e o Acesso à Informação

wdpd_encontro-preservacao-vasco-rato-arquivo-pt

wdpd_encontro-preservacao-pedro-gomes-citationsaver-fccn-1

wdpd_encontro-preservacao-rita-cepa-nova-fcsh

wdpd_encontro-preservacao-pedro-gomes-citationsaver-fccn

wdpd_encontro-preservacao-joao-pedro-oliveira-nova-fcsh

wdpd_encontro-preservacao-uab-madalena-carvalho

wdpd_encontro-preservacao-suzana-oliveira-act-fct-1

wdpd_encontro-preservacao-susana-torrao-pedro-cavaco-nova-fcsh

wdpd_encontro-preservacao-inacia-rezola-1

paula-meireles-inacia-rezola-sessao-de-encerramento

Créditos: fotografias por Leonor Arrimar (FCT). Incluídas algumas imagens de dispositivos móveis enviadas por participantes.

Saber mais

Edições anteriores do Dia Mundial da Preservação Digital com o Arquivo.pt

Grave sites antes que desapareçam com a ferramenta Browsertrix Crawler

Dezembro 11, 2024Setembro 13, 2024 por Ricardo Basílio

Última atualização em 11 de Dezembro de 2024 às 12:16

O mês de setembro marca o início de um ano de trabalho e também o fim de muitos sites que se perdem sem remédio. Remodelados ou desligados sem se ter feito uma boa cópia dos seus conteúdos, é assim que se perdem muitos sites sem necessidade.

Há ferramentas que permitem a gravação imediata dos sites pelas próprias organizações que os gerem. Além disso, há o serviço arquivo a-pedido em alta qualidade que o Arquivo.pt presta a entidades parceiras ou no contexto de colaborações pontuais.

Neste artigo pretende-se destacar o Browsertrix Crawler que é utilizado pelo Arquivo.pt, sem excluir outras ferramentas, e que pode ser útil aos gestores de informação e departamentos de informática.

Uso do Browsertrix-crawler pelo Arquivo.pt para recolhas de alta qualidade

O Browsertrix Crawler é uma ferramenta que permite gravar websites inteiros e listas de páginas web de forma automática e num formato compatível com os arquivos da Web.

O Arquivo.pt utiliza o Browsertrix Crawler para fazer recolhas de alta qualidade de sites (RAQs), a pedido da comunidade. Por exemplo, quando um site está para ser desligado, quando vai sofrer uma remodelação ou, periodicamente, para manter um bom histórico de sites importantes.

Um caso ilustrativo é o site da Câmara Municipal de Almada, gravado em abril de 2021, a pedido do Arquivo Municipal. Outro caso é o site do jornal Notícias de Leiria que foi gravado antes do seu encerramento, em dezembro de 2023.

Os pedidos de recolha de alta qualidade (RAQs) ao Arquivo.pt são cada vez vez mais frequentes: 77 pedidos, de janeiro a setembro de 2024. É sinal de que há uma maior preocupação com a preservação dos conteúdos Web.

O que é preciso para usar locamente o Browsertrix-crawler

O grupo que o desenvolveu o Browsertrix Crawler, o Webrecorder.net liderado por Ilya Kreymer, tem como mote “web archiving for all”. As suas ferramentas permitem a gravação da Internet de forma descentralizada e em pequena escala.

O Browsertrix Crawler está disponível e pode ser instalado no próprio computador para pequenas recolhas.

A versão linha de comandos aqui recomendada é a mesma que o Arquivo.pt está a utilizar.

Pela experiência da equipa do Arquivo.pt, pode dizer-se que usar o Browsertrix Crawler é fácil em equipas multidisciplinares, onde há sempre alguém com conhecimentos mínimos para usar comandos Linux e dar algum apoio pontual.

Demonstração de gravação de sites inteiros no próprio computador

Neste vídeo apresenta-se um caso de utilização do Browsertrix Crawler num simples computador de secretária. É útil para quem quer aprofundar conhecimentos e práticas de gravação de sites em ambiente local e destina-se a não especialistas.

Outras ferramenta utilizadas pelo Arquivo.pt para gravar conteúdos

Brozzler: ferramenta para uma melhorar o histórico dos sites de recolha diária e mensal

O Brozzler é uma ferramenta semelhante ao Browsertrix Crawler, pois também baseia a sua gravação num browser. É utilizado e mantido pelo Internet Archive.

O Arquivo.pt utiliza o Brozzler, pelo menos desde 2018, para gravar páginas web com conteúdos interativos presentes nas páginas web e para recolhas de alta qualidade (RAQs).

Listas até 200 sites são gravadas com sucesso pelo Brozzler. Por exemplo, os 125 sites de recolha diária (FAWPs) são gravados com o Brozzler no início de cada mês. Ao longo do mês, outros 75 sites de recolha mensal (MAWPs) são gravados usando o Brozzler.

No final de 2023, o Arquivo.pt comparou o Brozzler e o Browsertrix Crawler e optou por manter estas duas ferramentas.

Heritrix, pywb e ArchiveWeb.page: ferramentas para milhares de sites ou para uma página

O Heritrix crawler é a principal ferramenta de gravação do Arquivo.pt. É utilizado em enormes listas de websites, como por exemplo os sites do domínio .PT a que se juntam outros sites portugueses, ultrapassando meio milhão de endereços.

No lado oposto, está a extensão ArchiveWeb.page que o Arquivo.pt utiliza para pequenas gravações página a página e também para a formação Arquivar a Web: faça-você-mesmo!.

Para completar a lista de ferramentas de gravação utilizadas pelo Arquivo.pt, deve referir-se o pywb que entra em ação, por exemplo, quando um utilizador do Arquivo.pt usa a funcionalidade “Completar a página” ou o serviço de gravação na hora ArchivePageNow.

Portugueses nos Jogos Olímpicos e Paralímpicos 2024 em coleção internacional de websites do IIPC

Setembro 11, 2024Agosto 22, 2024 por Ricardo Basílio

Última atualização em 11 de Setembro de 2024 às 16:40

print-noticia-rtp-rececao-atletas-paralimpicos-paris-2021 — Jogos Paralímpicos. Miguel Monteiro, medalha de ouro, regressa a Lisboa (Notícia no site da RTP, dia 2 de setembro, selecionada para coleção internacional)

O Arquivo.pt contribuiu para a coleção internacional de páginas Web sobre os Jogos Olímpicos, que decorreram em Paris de 26 de julho a 11 de agosto de 2024, e os Jogos Paralímpicos que se realizaram de 28 de agosto a 8 de setembro.

A iniciativa de criar a coleção “Jogos Olímpicos e Paralímpicos 2024” é da responsabilidade do International Internet Preservation Consortium (IIPC), a principal entidade mundial no domínio da preservação da Internet, através do seu grupo de trabalho Content Development Working Group.

As coleções colaborativas do IIPC têm por objetivo promover a criação de coleções temáticas e coleções baseadas em eventos internacionais. As páginas da Web são gravadas e depois disponibilizadas no serviço Archive-it.

No Arquivo.pt também ficarão disponíveis, passado um ano, as páginas desta coleção para quem quiser realizar estudos sobre desporto e olimpismo.

Como foram selecionadas as páginas sobre os atletas portugueses

Nos Jogos Olímpícos representaram Portugal 73 atletas em 15 modalidades, e nos Jogos Paralímpicos 27 atletas, em 10 modalidades.

O critério de seleção de páginas para a coleção internacional foram notícias sobre os atletas. Para cada atleta selecionou-se páginas referentes às suas expectativas antes dos jogos, à sua prestação na prova e aos seus comentários durante e após a competição.

Há atletas que têm mais notícias selecionadas do que outros e o mesmo acontece com os sites de onde provêm as notícias. A seleção de páginas não se limitou aos primeiros resultados apresentados pelo motor de busca. Procurou-se variedade de canais e notícias de sites regionais e locais, alguns da região ou cidade de onde vieram os atletas.

Mais de 500 páginas para recordar a presença portuguesa em Paris

O contributo do Arquivo.pt, como poderá ver na tabela, já tem mais de 500 paginas Web.

print-tabela-seeds-ilustrativa-jogosolimpicos — Portuguese Seeds – 2024 Summer Olympics and Paralímpics, International Internet Preservation Consortium – Content Development Working Group (IIPC CDG)

Colabore na coleção através do formulário do IIPC

Helena Byrne, curadora dos arquivos da web na British Library e curadora principal desta coleção, convida todas a pessoas a enviarem páginas interessantes para gravar: And we’re off – Get Involved in Web Archiving the Summer Games – Paris 2024.

Para contribuir está disponível o seguinte formulário público:

2024 Summer Olympics & Paralympics

Instituto Politécnico de Lisboa promoveu ciclo de webinars com o Arquivo.pt

Julho 16, 2024Julho 15, 2024 por Ricardo Basílio

O Instituto Politécnico de Lisboa (IPL), através do Grupo de Ensino à Distância (EaD@IPL), promoveu um ciclo de webinars para a sua comunidade dedicado ao Arquivo.pt e à preservação dos conteúdos publicados na Internet.

Esta iniciativa teve a participação de docentes e investigadores do IPL, bem como pessoas ligadas à comunicação da mesma instituição.

O ciclo de webinars realizou-se em três sessões, entre maio e julho de 2024, e seguiu o programa de formação que o Arquivo.pt disponibiliza há vários anos.

Materiais das apresentações

1º webinar – Arquivo.pt: uma nova ferramenta para pesquisar o passado. Bem publicar, para bem preservar. 5 de junho.
- Vídeo
- Slides da 1.a parte; slides da 2.a parte
2º webinar – Acesso e processamento automático de informação preservada da Web através de APIs. 19 de julho.
- Vídeo
- Slides
3º webinar – Arquivar a Web: faça-você-mesmo!. 3 de julho
- Vídeo
- Slides

Porque é importante fazer ações de formação acerca da preservação da Web

Arquivar conteúdos publicados na web e usar um arquivo da Web no dia-a-dia é uma prática pouco habitual, em grande parte devido ao desconhecimento por parte da comunidade da existência e do funcionamento do Arquivo.pt.

As sessões de formação do Arquivo.pt são um espaço de motivação para que as pessoas e as instituições passem a cuidar melhor dos seus websites e dos conteúdos que publicam na Web.

Por exemplo, neste ciclo de webinars com o IPL foram dadas ferramentas que permitem aos participantes uma utilização imediata e criativa do arquivo da Web, tais como o serviço de gravação na hora SavePageNow, o serviço de pesquisa de conteúdos históricos e, para uso em equipas interdisciplinares, as Application Programming Interfaces (APIs).

Como resultado deste ciclo de webinars reforçou-se a colaboração entre o Instituto Politécnico de Lisboa e o Arquivo.pt, tendo em vista a preservação dos seus sítios web institucionais e de outros conteúdos de interesse que estão em diversos meios on-line (notícias, eventos, referências a docentes investigadores e alunos).

Semana de estágio Erasmus+ no Arquivo.pt de Praga a Lisboa

Maio 28, 2024Maio 27, 2024 por Ricardo Basílio

Por: Marie Haškovcová and Luboš Svoboda, Webarchiv, National Library of the Czech Republic, 13 a 17 de maio de 2024.

Visita no âmbito do Erasmus+

Graças ao programa europeu Erasmus+ da UE, centrado na educação de adultos – mobilidade de pessoal, tivemos a oportunidade de passar uma semana a acompanhar o Arquivo.pt e comparar as estratégias do arquivo Web checo – Webarchiv – com as abordagens dos nossos colegas portugueses.

Em ambos os casos, trata-se de arquivos centrados em conteúdos nacionais (checos e portugueses) na Internet.

O Arquivo.pt

Enquanto o arquivo web checo faz parte da Biblioteca Nacional da República Checa, o arquivo português faz parte da FCCN, no âmbito da FCT – Fundação para a Ciência e a Tecnologia, que tem como objetivo contribuir para o desenvolvimento da ciência, da tecnologia e do conhecimento.

A FCT presta serviços de IT ao sistema de ensino superior e de Investigação português, bem como conetividade de alta velocidade à Internet. O contexto institucional de ambos os arquivos reflecte-se também nas especificidades dos seus conceitos.

A visita incluiu uma apresentação da equipa e dos espaços do campus e dos departamentos, uma apresentação das actividades de ambos os arquivos e uma discussão sobre os diferentes aspectos do nosso trabalho – ferramentas técnicas e curatoriais, tecnologias e processos, ambiente legislativo e questões éticas, armazenamento de dados, alguns serviços, actividades de investigação, perspectivas e planos futuros.

O arquivo da Web checo

O arquivo web checo foi fundado em 2000, as cópias de arquivo mais antigas datam de 2001 e tem atualmente mais de 580 TB de dados. Tal como o Arquivo.pt, recolhe conteúdos num domínio nacional com base numa lista de endereços URL obtida junto do seu fornecedor. Na sua estratégia de aquisição, complementa estas recolhas, ditas abrangentes, com recolhas temáticas e selectivas.

As colecções temáticas referem-se a um tópico ou evento específico, podem ser pontuais ou de construção contínua, e combinam recursos seleccionados manualmente e recursos extraídos automaticamente. As colecções selectivas destinam-se a ser recolhidas a longo prazo, têm registos de catalogação detalhados que fazem parte da bibliografia nacional checa e são licenciadas – as cópias de arquivo estão, portanto, disponíveis gratuitamente através do catálogo.

No âmbito das actividades de investigação em arquivos da Web, apresentámos o nosso projeto destinado a detetar as chamada web morta através da aplicação Extinct Websites e a criar uma base de dados que sirva de base para monitorizar mudanças mais amplas na web checa, bem como o projeto WACloud destinado a extrair grandes volumes de dados do arquivo da web.

Troca de conhecimentos e experiências

Entre os projectos portugueses, interessou-nos, por exemplo, o CitationSaver, e também discutimos o projeto Memorial, a recolha da Wikipédia portuguesa, e as actividades do arquivo português relacionadas com a formação sobre a preservação da Web (módulos de formação).

A reunião foi enriquecida pela discussão de colecções temáticas específicas.

A coleção de Net Art checa documenta a arte digital e a sua transformação no espaço em linha, proporcionando uma perspetiva histórica da arte única.
Outra coleção importante é a coleção “Redes sociais dos Membros do Parlamento da República Checa 2021-2025”, que preserva as comunicações e interacções em linha dos deputados checos, de valor inestimável para o estudo do marketing político e da vida política pública.
A coleção GitHub arquiva repositórios importantes desta popular plataforma para programadores, preservando os principais projectos de software nacionais e o seu código para as gerações futuras.
Por último, a coleção Crypto, NFT, Blockchain, Web3, Metaverse traça o crescimento e o impacto da tecnologia no espaço dos bens digitais. Estas colecções são recursos fundamentais para a investigação e análise da cultura, política e tecnologia digitais, e a discussão destas colecções em reuniões de arquivistas da Web contribui para o desenvolvimento de métodos de arquivo e inovação tecnológica.

Concentrámo-nos na troca de conhecimentos e experiências na identificação de endereços para gravar (seeds), na otimização do fluxo de trabalho e na partilha de dicas e aspectos técnicos.

Partilha de boas práticas

Discutimos as melhores práticas para identificar e recolher os principais recursos da Web, um passo fundamental para garantir um arquivo abrangente e representativo. Partilhámos várias estratégias para automatizar e simplificar os fluxos de trabalho, incluindo a utilização de ferramentas de raspagem da Web e filtragem avançada de conteúdos.

As conversas técnicas incluíram soluções para problemas comuns, como a recolha de páginas Web dinâmicas e a superação de restrições de acesso. A reunião constituiu uma plataforma valiosa para a partilha de métodos inovadores e para a promoção da colaboração entre peritos, promovendo o desenvolvimento de um arquivo digital eficaz e sustentável.

Erasmus+ visti to FCCN TV studio — Luboš Svoboda, curador digital, Marie Haškovcová,coordenadora do Webarchiv e Ricardo Basílio, curador digital do Arquivo.pt em visita ao Estúdio da FCCN, FCT.

Heritales e Crowd-Recycling mostram websites antigos do Alentejo no Dia Internacional dos Museus

Maio 20, 2024Maio 20, 2024 por Ricardo Basílio

Heritales Crowd-Recycling e Arquivo.pt no Dia Internacional dos Museus

O dia 18 de maio, Dia Internacional dos Museus, foi assinalado por todo o país com entradas gratuitas, visitas guiadas, animação de espaços e exposições relacionadas com a memória e o património.

O Arquivo.pt contribuiu com uma exposição de páginas antigas, intitulada “Memória Digital através da Internet do Passado”, que esteve patente num dos stands no Museu dos Coches, em Lisboa.

As páginas foram selecionadas para mostrar diversos aspetos do Alentejo ao longo do tempo. A partir de 2016, selecionou-se páginas relativas ao projeto Heritales.

Heritales e Crowd-Recycling chamaram a atenção para a preservação da memória da Internet

Heritales é um projeto sediado em Évora que tem por objetivo estudar e divulgar o património em todas as suas manifestações. É conhecido pelo seu evento principal criado em 2016, o HERITALES – International Heritage Film Festival.

Crowd-Recycling é um projeto focado nas boas práticas para a sustentabilidade.

O Heritales, o Crowd-Recycling e o Arquivo.pt concretizaram esta ação em colaboração com o objetivo de dar visibilidade aos conteúdos publicados na Web ao longo do tempo. Preservar e dar acesso aos conteúdos digitais é fundamental para valorizar o património.

Porque é que fazer uma exposição de websites antigos é um boa ideia

Fazer uma exposição de websites ao longo do tempo é relativamente fácil, bastando ter um tema que pode ser também a história de uma instituição e escolher páginas conservadas no Arquivo.pt.

Uma exposição de sites antigos é uma ideia original para o público-alvo. Muitas vezes apresenta textos e imagens que só existiram na Web.

Ao chamar a atenção para os websites damo-nos conta que muitas coisas ficaram por gravar e isso muda a nossa visão sobre os conteúdos que publicamos hoje. Passados a cuidar mais da gravação de páginas importantes, por exemplo, tomando medidas ou gravando-as na hora com o SavePageNow.

Dia Mundial da Internet foi a 17 de maio

No dia anterior ao Dia Internacional do Museus assinalou-se o Dia Mundial da Internet (17 de maio). A proximidade das duas comemorações vem mesmo a propósito do tema da preservação da memória.

Portugal ligou-se à Internet, pela primeira vez, em 1991, com o projeto da FCCN “Serviço IP da RCCN”.

Para relembrar como tudo aconteceu, deixamos-lhe as três sugestões que a FCCN publicou nas redes sociais para este dia:

Arquivo.pt é finalista dos prémios do Digital Preservation Coalition

Agosto 6, 2024Maio 13, 2024 por Ricardo Basílio

Última atualização em 6 de Agosto de 2024 às 17:21

Os prémios do Digital Preservation Coalition

O Digital Preservation Coalition (DPC) é um consórcio internacional dedicado à promoção da preservação digital e das suas boas práticas.

Os DPC Awards são uma forma de divulgar e promover casos de uso exemplares e inovadores, provenientes de candidaturas de todo o mundo.

Por essa razão, o Arquivo.pt aceitou o desafio para dar a conhecer os seus serviços à comunidade internacional.

A equipa do Arquivo.pt apresentou duas candidaturas aos DPC Awards 2024 nas categorias de “Award for Safeguarding the Digital Legacy” (prémio para a salvaguarda da herança digital) e “Award for Research and Innovation” (prémio para investigação e inovação).

Candidaturas do Arquivo.pt aos Prémios DPC

#1 Catálogo de ferramentas do Arquivo.pt para preservação digital

A informação que rege a vida atual nasce digital e é divulgada online. No entanto, objetos digitais de valor incalculável publicados em linha têm vindo a perder-se irremediavelmente.

O Arquivo.pt é uma infraestrutura pública que preserva objetos digitais publicados em linha para salvaguardar este legado digital para as gerações futuras.

Em outubro de 2023, após 15 anos de investigação e desenvolvimento, o Arquivo.pt lançou um Catálogo de 13 ferramentas inovadoras para apoiar a preservação de conteúdos online em risco, desde a sua aquisição até à sua disseminação (ex. pesquisa e acesso, APIs, formação, conjuntos de dados abertos ou exposições).

O Catálogo de ferramentas do Arquivo.pt para preservação digital foi selecionado como finalista do Award for Safeguarding the Digital Legacy.

Ver a documentação da candidatura

#2 Pesquisa de imagens preservadas da Web

As imagens publicadas online são artefactos digitais preciosos que documentam a época contemporânea para as gerações futuras.

Esta iniciativa descreve a investigação e o desenvolvimento de um sistema inovador de pesquisa de imagens que permite a descoberta e acesso a milhares de milhões de imagens preservadas da web desde a década de 1990.

Esta investigação foi aplicada para potenciar o Arquivo.pt com um serviço de pesquisa de imagens único no mundo e disponível publicamente a qualquer utilizador da Internet.

As publicações científicas resultantes estão disponíveis em acesso aberto e o software desenvolvido está disponível através de projetos livres de código aberto para serem reutilizados e melhorados pela comunidade.

Ver a documentação da candidatura

Um serviço de Portugal para o mundo

O Arquivo.pt é um serviço de preservação acessível na Internet e são cada vez mais os casos de uso do Arquivo.pt em estudos científicos por investigadores de outros países.

Os motivos para esse uso internacional do Arquivo.pt são o facto de preservar conteúdos em várias línguas, como por exemplo acerca das Eleições Europeias de 2019, e por ser inovador nos serviços que disponibiliza para pesquisa e acesso à informação preservada.

Assim sendo, um investigador de qualquer parte do mundo pode pesquisar textos, imagens ou treinar modelos de Inteligência Artificial com base na informação histórica preservada pelo Arquivo.pt.

Para saber mais

3 minute pitch (video, slides)
DPC Awards Nomination Pack
Finalists of the Digital Preservation Awards 2024
Arquivo.pt catalog of services
Daniel Gomes, Web archives as research infrastructure for digital societies: the case study of Arquivo.pt, Archeion 123, 2022 (pre-print version, video, slides)
André Mourão, Daniel Gomes, Searching images in a web archive, 10th IEEE International Conference on Data Science and Advanced Analytics 2023 (ppt).
Milhões de imagens sobre o passado. Café com o Arquivo.pt