Semana de estágio Erasmus+ no Arquivo.pt de Praga a Lisboa

Visit to FCCN tv studio

Por: Marie Haškovcová and Luboš Svoboda, Webarchiv, National Library of the Czech Republic, 13 a  17 de maio de 2024.

Visita no âmbito do Erasmus+

Graças ao programa europeu Erasmus+ da UE, centrado na educação de adultos – mobilidade de pessoal, tivemos a oportunidade de passar uma semana a acompanhar o Arquivo.pt e comparar as estratégias do arquivo Web checo – Webarchiv – com as abordagens dos nossos colegas portugueses.

Em ambos os casos, trata-se de arquivos centrados em conteúdos nacionais (checos e portugueses) na Internet.

O Arquivo.pt

Enquanto o arquivo web checo faz parte da Biblioteca Nacional da República Checa, o arquivo português faz parte da FCCN, no âmbito da FCT – Fundação para a Ciência e a Tecnologia, que tem como objetivo contribuir para o desenvolvimento da ciência, da tecnologia e do conhecimento.

A FCT presta serviços de IT ao sistema de ensino superior e de Investigação português, bem como conetividade de alta velocidade à Internet. O contexto institucional de ambos os arquivos reflecte-se também nas especificidades dos seus conceitos.

A visita incluiu uma apresentação da equipa e dos espaços do campus e dos departamentos, uma apresentação das actividades de ambos os arquivos e uma discussão sobre os diferentes aspectos do nosso trabalho – ferramentas técnicas e curatoriais, tecnologias e processos, ambiente legislativo e questões éticas, armazenamento de dados, alguns serviços, actividades de investigação, perspectivas e planos futuros.

O arquivo da Web checo

O arquivo web checo foi fundado em 2000, as cópias de arquivo mais antigas datam de 2001 e tem atualmente mais de 580 TB de dados. Tal como o Arquivo.pt, recolhe conteúdos num domínio nacional com base numa lista de endereços URL obtida junto do seu fornecedor. Na sua estratégia de aquisição, complementa estas recolhas, ditas abrangentes, com recolhas temáticas e selectivas.

As colecções temáticas referem-se a um tópico ou evento específico, podem ser pontuais ou de construção contínua, e combinam recursos seleccionados manualmente e recursos extraídos automaticamente. As colecções selectivas destinam-se a ser recolhidas a longo prazo, têm registos de catalogação detalhados que fazem parte da bibliografia nacional checa e são licenciadas – as cópias de arquivo estão, portanto, disponíveis gratuitamente através do catálogo.

No âmbito das actividades de investigação em arquivos da Web, apresentámos o nosso projeto destinado a detetar as chamada web morta através da aplicação Extinct Websites e a criar uma base de dados que sirva de base para monitorizar mudanças mais amplas na web checa, bem como o projeto WACloud destinado a extrair grandes volumes de dados do arquivo da web.

Troca de conhecimentos e experiências

Entre os projectos portugueses, interessou-nos, por exemplo, o CitationSaver, e também discutimos o projeto Memorial, a recolha da Wikipédia portuguesa, e as actividades do arquivo português relacionadas com a formação sobre a preservação da Web (módulos de formação).

A reunião foi enriquecida pela discussão de colecções temáticas específicas.

  • A coleção de Net Art checa documenta a arte digital e a sua transformação no espaço em linha, proporcionando uma perspetiva histórica da arte única.
  • Outra coleção importante é a coleção “Redes sociais dos Membros do Parlamento da República Checa 2021-2025”, que preserva as comunicações e interacções em linha dos deputados checos, de valor inestimável para o estudo do marketing político e da vida política pública.
  • A coleção GitHub arquiva repositórios importantes desta popular plataforma para programadores, preservando os principais projectos de software nacionais e o seu código para as gerações futuras.
  • Por último, a coleção Crypto, NFT, Blockchain, Web3, Metaverse traça o crescimento e o impacto da tecnologia no espaço dos bens digitais. Estas colecções são recursos fundamentais para a investigação e análise da cultura, política e tecnologia digitais, e a discussão destas colecções em reuniões de arquivistas da Web contribui para o desenvolvimento de métodos de arquivo e inovação tecnológica.

Concentrámo-nos na troca de conhecimentos e experiências na identificação de endereços para gravar (seeds), na otimização do fluxo de trabalho e na partilha de dicas e aspectos técnicos.

Partilha de boas práticas

Discutimos as melhores práticas para identificar e recolher os principais recursos da Web, um passo fundamental para garantir um arquivo abrangente e representativo. Partilhámos várias estratégias para automatizar e simplificar os fluxos de trabalho, incluindo a utilização de ferramentas de raspagem da Web e filtragem avançada de conteúdos.

As conversas técnicas incluíram soluções para problemas comuns, como a recolha de páginas Web dinâmicas e a superação de restrições de acesso. A reunião constituiu uma plataforma valiosa para a partilha de métodos inovadores e para a promoção da colaboração entre peritos, promovendo o desenvolvimento de um arquivo digital eficaz e sustentável.

Erasmus+ visti to FCCN TV studio
Luboš Svoboda, curador digital, Marie Haškovcová,coordenadora do Webarchiv e Ricardo Basílio, curador digital do Arquivo.pt em visita ao Estúdio da FCCN, FCT.

 

Participação do Arquivo.pt em eventos internacionais sobre arquivos da Web

logo-IIPC

Última atualização em 1 de Agosto de 2023 às 12:54

Encontro com a comunidade dos arquivos da Web

O Internacional Internet Preservation Consortium (IIPC), consórcio que reune inicitivas de preservação da Web de todo o mundo, realizou a Assembleia Geral com os seus associados no dia 10 de maio de 2023.

Nos dias seguintes, 11 e 12 de maio, realizou-se a IIPC Web Archiving Conference (IIPC WAC), uma iniciativa aberta à comunidade, onde podem participar pessoas ou entidades não associodas ao IIPC e interessadas no domínio da preservação da Web.

O acolhimento dos dois eventos foi feito conjuntamente pela KB – National Library of the Netherlands, e pelo Beeld &  Geluid – Netherlands Institute for Sound & Vision.

Contributos do Arquivo.pt na Web Archiving Conference

O Arquivo.pt participou nas reuniões dos grupos de trabalho do IIPC (Training Working Group e Curators Working Group) e contribuiu com apresentações nas sessões temáticas  Collaborations & Outreach e Program infrastructure (sessões 7 e 17).

  • Arquivo.pt updates 2023 (slides)
  • Linking web archiving with arts and humanities: the collaboration between ROSSIO and Arquivo.pt (video, slides)
  • Arquivo.pt behind the curtains (slides)

Encontro com a comunidade dos investigadores RESAW

RESAW (Research Infrastructure for the Study of Archived Web Materials) é uma iniciativa criada em 2012 com o objetivo de promover os estudos baseados em conteúdos Web arquivados, em áreas como Ciências Sociais, Artes e Humanidades Digitais.

A conferência RESAW 2023 foi realizada no MUCEM Lab (Mediterranean Institute of Heritage Crafts), em Marselha, de 5 a 6 de junho de 2023, sob o tema Exploring the Archived Web During a Highly Transformative Age.

Contributos do Arquivo.pt no RESAW 2023

O Arquivo.pt contribuiu com apresentações para as sessões Web Archive in Mediterranean area and its merge(4.A,), From online Tools to Web Archive (6.B.), Towards a participatory approach to collections (9. A.), Digging up the materials for writing web history (9.B.).

  • How to research governmental web data? (abstract, slides)
  • Archiving Cryptocurrencies (abstract, slides)
  • Time to explore, time to learn from the archived web: Arquivo.pt training initiative (abstract, slides)
  • Exhibiting Web Memories from Arquivo.pt: a call for community participation (abstract, slides)

Encontro do Projeto CLEOPATRA

O Projeto CLEOPATRA, liderado pelo L3S Research Center at the Gottfried Wilhelm Leibniz University of Hannover, desenvolveu desde 2019 um progama de formação para investigadores doutorandos (Early Stage Researcher, PhD).

O Arquivo.pt participou em três cursos: Incentives design for hybrid multilingual information processing and analytics, em Southampton; National and transnational media coverage of European parliamentary elections, 2004-2014, Londres; e NLP for under-resourced languages, em Zagreb, na Croácia.

Em 2022, o Arquivo.pt acolheu dois investigadores nas suas instalações os quais utilizaram os recursos arquivados e tiveram apoio especial da equipa do Arquivo.pt para desenvolverem a sua investigação.

O projeto CLEOPATRA terminou em 2023 com a realização de um encontro a 16 de maio, em Hannover, que reuniu professores, investigadores e representantes de instituições envolvidas.

Daniel Gomes, Gestor do Arquivo.pt, destacou as novas ferramentas que o Arquivo.pt disponibiza e os resultados dos trabalhos realizados pelos investigadores que passaram pelo Arquivo.pt.

  • Secondments@Arquivo.pt and new research tools available (Slides)

CitationSaver preserva citações para conteúdos online

Última atualização em 21 de Novembro de 2023 às 16:03

Os documentos citam conteúdos da Web referenciando os seus endereços (URL) para que o leitores possa vir a aceder-lhes.

No caso dos artigos científicos, a importância destas citações é ainda maior para manter a integridade de uma investigação porque muitas vezes referenciam informação fundamental para permitir a reprodutibilidade de uma experiência ou análise.

Por exemplo, as ligações num artigo científico podem citar os conjuntos de dados, software ou notícias da web que suportaram a investigação e que não estão incluídos no texto do artigo científico.

Para responder à necessidade de preservar a integridade dos documentos, o Arquivo.pt criou o CitationSaver.

O CitationSaver automaticamente extrai as ligações citadas num documento e preserva o seu conteúdo (ex. páginas web citadas num livro) para que possam ser recuperadas mais tarde a partir do Arquivo.pt.

infografia-citationsaver-pt

Use o CitationSaver para preservar a integridade dos seus documentos

Carregue um documento e o CitationSaver extrairá os endereços citados, gravando os seus conteúdos e disponibilizando-os no Arquivo.pt passado pouco tempo. Existem 3 métodos para carregar um documento:

  • insira o endereço (URL) do ficheiro PDF ou TXT, se este estiver publicado online
  • carregue o ficheiro em formato PDF ou TXT
  • cole o texto que contem os endereços que pretende preservar (ex. secção de Referências de um artigo ou Bibliografia de um livro)

Mais informação

Projeto Renascer traz de volta websites antigos

Última atualização em 26 de Junho de 2023 às 17:33

As organizações mantêm domínios em sua posse que referenciavam websites apesar de já não os utilizarem, para evitar que sejam comprados ou apenas por esquecimento.

O objetivo do projeto Renascer é trazer de volta websites históricos cujo conteúdo deixou de estar disponível online e cujo domínio continua a ser detido pelos seus autores.

Domínios “esquecidos” podem causar problemas de cibersegurança

Em maio de 2023, o domínio hmsportugal.pt do projeto Harvard Medical School-Portugal apontava apenas para uma página pré-definida de um servidor web ativo e o domínio continuava a ser detido pelo seu autor.

Nesta situação, o conteúdo original do website estava inacessível apesar do domínio continuar a ser detido pelo autor do website.

Além disso, uma vez que o domínio continuava a apontar para um servidor web ativo, se este não estiver a ser atualizado poderão ocorrer problemas de cibersegurança.

O domínio hmsportugal.pt poderia passar a apontar para os conteúdos do website preservados no Arquivo.pt.

Como se dá o Renascer dos websites?

O dono do domínio apenas tem de o redirecionar para o Arquivo.pt, através do serviço Memorial.

Por exemplo, o domínio mctes.pt passou a apontar para os seus conteúdos originais preservados no Arquivo.pt, fazendo assim Renascer este website.

Exemplos de domínios Renascidos

O projeto Renascer identificou domínios ativos geridos pela FCCN que não referenciavam conteúdo, e passou a dar-lhes nova vida com os conteúdos históricos preservados no Arquivo.pt.

Contacte o Arquivo.pt para fazer Renascer os websites históricos da sua organização.

Veja os seguintes exemplos de websites Renascidos:

 

 

Link curto para esta página: arquivo.pt/renascer

Websites do Afeganistão e a queda do regime em agosto de 2021

thumbnail_Karima Faryabi

Última atualização em 26 de Setembro de 2022 às 15:55

afghan-ministry-of-economy-17-08-2021

Website do Ministério da Economia do Afeganistão com Karima Faryabi (gravado a 17 de agosto de 2021)

No dia 15 de agosto de 2021 o palácio presidencial em Cabul foi tomado pelos Talibãs, consumando a queda do regime que vigorava há 20 anos, após os atentados do 11 de Setembro nos Estados Unidos.

A comunidade dos arquivistas da Web, através do Content Development Working Group do International Internet Preservation Consortium, lançou o desafio da gravação dos sites afegãos, face ao risco de estes virem a desaparecer com o novo regime.

Não há tempo a perder quando se trata de preservar a Web

O Arquivo.pt reagiu rapidamente lançando uma pesquisa automática de conteúdos focada em sites do domínio .af e em notícias dos media internacionais sobre os eventos em curso.

No dia 17 de agosto os websites começaram a ser gravados.

Foram utilizados 1800 endereços de sites do Afeganistão (terminados em .af) e 500 notícias dos meios de comunicação social de todo o mundo.

Os endereços, URLs ou “seeds” foram obtidos através de pesquisa automática, utilizando o Bing Search API, e colocados imediatamente em gravação.

Conteúdos disponíveis para conhecer a história do Afeganistão

Como resultado da recolha realizada passaram a estar disponíveis no Arquivo.pt mais de 400 Gigabytes de informação que qualquer pessoa pode utilizar para investigação nas mais diversas áreas.

O principal contributo do Arquivo.pt para a comunidade dos arquivistas da Web foi a demonstração da pesquisa automática que permite uma reação rápida na gravação de conteúdos Web em risco iminente de se perderem.

Mais informação

Conjunto de dados abertos do Arquivo.pt (Dados.gov)

Conteúdos recolhidos pelo Content Development Working Group do International Internet Preservation Consortium disponíveis no serviço Archive-it

Participação do Arquivo.pt no encontro do International Internet Preservation Consortium

thumbnail_GA_WAC2022

Última atualização em 29 de Julho de 2022 às 12:34

Encontro com a comunidade dos arquivos da Web

O Internacional Internet Preservation Consortium (IIPC), consórcio que reune inicitivas de preservação da Web de todo o mundo, realizou a Assembleia Geral com os seus associados entre os dias 17 e 19 de maio de 2022.

Na semana seguinte, nos dias 24 e 25 de maio, realizou-se a IIPC Web Archiving Conference (IIPC WAC), via online tal como no ano anterior devido às contingências da pandemia da Covid-19.

O acolhimento dos dois eventos foi feito pela Library of Congress.

Recursos e iniciativas do Arquivo.pt na Web Archiving Conference

A IIPC Web Archiving Conference (IIPC WAC) é uma iniciativa aberta à comunidade, onde podem participar pessoas ou entidades não associodas ao IIPC e interessadas no domínio da preservação da Web.

O Arquivo.pt contribuiu em duas sessões Ligthtning Talks  (sessão 5 e sessão 13).

As apresentações do Arquivo.pt centraram-se nos recursos e iniciativas que este serviço tem ultimamente oferecido à comunidade.

Livro “The Past Web: Exploring Web Archives”: versão em acesso aberto

thumb-the-past-web

Última atualização em 13 de Setembro de 2022 às 16:15

Desde 2006 que não era publicado um livro que refletisse o estado-da-arte na área da preservação da web e da investigação que tem sido conduzida sobre os arquivos da web.

O principal objetivo do novo livro The Past Web: exploring web archives foi criar um novo recurso atualizado que permitisse formar mais pessoas na área de preservação da web e dar a conhecer os arquivos da web aos investigadores e académicos.

Assim sendo, o livro dirige-se principalmente à comunidade académica e científica, e apresenta os métodos mais inovadores para a exploração de informação do passado preservada pelos arquivos da web.

Daniel Gomes, gestor do Arquivo.pt liderou a equipa de editores do livro, composta também pelos especialistas Elena Demidova, Jane Winters e Thomas Risse. No total, o livro contou com as contribuições de 40 autores especialistas na área de arquivo da web, oriundos de todo o mundo.

A obra divide-se em 6 partes onde encontramos variados recursos para explorar páginas arquivadas da Internet desde a década de 1990.

Podemos também aprender como preservar a nossa memória coletiva na Era Digital, que estratégias utilizar na seleção de conteúdos online e qual o impacto dos arquivos web na preservação de informação histórica.

O livro pretende apoiar os professores na sua missão de transmitir conhecimento inovador e adequado para a literacia digital necessária para formar profissionais para o século XXI.

O gestor do Arquivo.pt alerta para a necessidade de incluir os arquivos da web nos planos letivos e destaca que este conhecimento traz uma grande vantagem competitiva principalmente para os estudantes de Ciências Sociais e Humanidades.

Um detalhe inovador deste livro é que todos os links citados foram preservados pelo Arquivo.pt por forma a assegurar que as referências se mantenham válidas ao longo do tempo.

O livro esteve disponível gratuitamente para ser descarregado a partir de instituições do ensino superior (entidades aderentes à b-On) até dia 6 de março de 2022.

Porém, pode descarregar uma versão não final do livro (pre-print).

Ligações

Apresentação do livro “The Past Web” no Museu de Leiria durante as Jornadas FCCN

Apresentação do livro
Apresentação do livro
Apresentação do livro
Apresentação do livro
Apresentação do livro
Apresentação do livro
Apresentação do livro
Apresentação do livro
Apresentação do livro Apresentação do livro Apresentação do livro Apresentação do livro Apresentação do livro Apresentação do livro Apresentação do livro Apresentação do livro

Arquivo.pt nos eventos internacionais de 2021

Thumbnail IIPC WAC 2021

Última atualização em 17 de Novembro de 2022 às 17:38

Em junho de 2021, ocorreram 3 eventos internacionais relacionados com arquivos da web que contaram com os contributos do Arquivo.pt:

Contributos do Arquivo.pt para a comunidade internacional

O Arquivo.pt apresentou resultados do trabalho desenvolvido durante o último ano, com destaque para as funcionalidades que melhoraram a reprodução dos conteúdos arquivados, como é o caso da função “Completar a página”.

Foram apresentadas as novas coleções históricas do Geocities e do Internet Memory Foundation, que foram integradas no Arquivo.pt e as recolhas especiais sobre as Eleições Europeias de 2019 e Covid-19.

O Arquivo.pt é uma infraestrutura de investigação de âmbito internacional porque os seus serviços e conteúdos históricos preservados estão acessíveis a qualquer investigador do mundo.

Apresentações realizadas

  • “Arquivo.pt updates 2021”: presentation at the IIPC – General Assembly, Daniel Gomes (Vídeo)
  • “Complete the page!”. 1 minute drop in (demonstração da funcionalidade “completar a página”), Daniel Gomes (Slide, Video)
  • “A transnational and cross-lingual crawl of the European Parliamentary Elections 2019, Ivo Branco (Slides, Vídeo)
  • “Enhancing access to research the Geocities historical collection”, Pedro Gomes (Slides, Vídeo)

 

Complete the page - demo
Complete the page – demo. Slide used in the IIPC 1 minute presentation, at the IIPC General Assembly 2021

Coleção do 1º arquivo da web europeu pesquisável no Arquivo.pt

logo Internet Memory Foundation - website

Última atualização em 1 de Outubro de 2021 às 9:10

A coleção histórica de conteúdos da Web gerada ao longo da atividade da Internet Memory Foundation (IMF) foi doada ao Arquivo.pt e pode agora ser pesquisada!

A IMF foi uma organização europeia dedicada a preservar conteúdos da web que foi extinta em 2018.

O 1º projeto de arquivo da Web na Europa (2004-2010) foi liderado por Julien Masanès (que foi convidado de honra na celebração dos 10 anos do Arquivo.pt) e denominava-se European Archive Foundation.

Em 2010, Julien Masanès, o “pai” dos arquivos da Web na Europa criou a IMF.

Exemplos de páginas da coleção doada pelo IMF

A coleção doada pelo IMF foi agora integrada no acervo do Arquivo.pt para ser preservada para a posteridade.

Esta coleção é composta por 142 milhões de ficheiros que totalizam 6,3 TB de informação histórica cujos textos ou imagens podem agora ser pesquisados através do Arquivo.pt.

print homepage www.limes.fp6-limes.eu

Página do projeto LIMES (Land and Sea Monitoring for Environment and Security), 2009.

print homepage intelligence-territoriale.eu

Página do projeto Intelligence-territoriale, 2009.

Página sobre as Eleições Europeias de 2009 (www.elections2009-results.eu).

Página da agência noticiosa Reuters acerda do WikiLeaks, 2011

Print da página do Internet Memory Research em 2014

Página do Internet Memory Foundation, 2014.

Pesquise esta nova coleção!

Esta nova coleção recebeu foi nomeada “InternetMemory” na lista de coleções do Arquivo.pt.

Podem ser realizadas pesquisas sobre esta coleção utilizando o parâmetro de pesquisa collection ou através da página de pesquisa customizada disponível em arquivo.pt/InternetMemory.

printscreen da custom-search para a coleção InternetMemory

 

 

 

 

Eleições Presidenciais 2021: precisamos da sua ajuda!

thumbnail_presidenciais
banner_presidenciais_v
Formulário de sugestão de endereços de páginas, sites e outros conteúdos Web

O Arquivo.pt convida todos os cidadãos a sugerirem páginas da Web relacionadas com as Eleições Presidenciais de 2021 para serem preservadas para o futuro.

As Eleições Presidenciais ocorrerão em Portugal no dia 24 de janeiro de 2021.

As suas sugestões são importantes para que o Arquivo.pt consiga guardar uma memória mais completa deste importante evento eleitoral.

Para sugerir páginas utilize este formulário (https://tinyurl.com/presidenciais-sugerir)