Websites do Afeganistão e a queda do regime em agosto de 2021

thumbnail_Karima Faryabi

Última atualização em 26 de Setembro de 2022 às 15:55

afghan-ministry-of-economy-17-08-2021

Website do Ministério da Economia do Afeganistão com Karima Faryabi (gravado a 17 de agosto de 2021)

No dia 15 de agosto de 2021 o palácio presidencial em Cabul foi tomado pelos Talibãs, consumando a queda do regime que vigorava há 20 anos, após os atentados do 11 de Setembro nos Estados Unidos.

A comunidade dos arquivistas da Web, através do Content Development Working Group do International Internet Preservation Consortium, lançou o desafio da gravação dos sites afegãos, face ao risco de estes virem a desaparecer com o novo regime.

Não há tempo a perder quando se trata de preservar a Web

O Arquivo.pt reagiu rapidamente lançando uma pesquisa automática de conteúdos focada em sites do domínio .af e em notícias dos media internacionais sobre os eventos em curso.

No dia 17 de agosto os websites começaram a ser gravados.

Foram utilizados 1800 endereços de sites do Afeganistão (terminados em .af) e 500 notícias dos meios de comunicação social de todo o mundo.

Os endereços, URLs ou “seeds” foram obtidos através de pesquisa automática, utilizando o Bing Search API, e colocados imediatamente em gravação.

Conteúdos disponíveis para conhecer a história do Afeganistão

Como resultado da recolha realizada passaram a estar disponíveis no Arquivo.pt mais de 400 Gigabytes de informação que qualquer pessoa pode utilizar para investigação nas mais diversas áreas.

O principal contributo do Arquivo.pt para a comunidade dos arquivistas da Web foi a demonstração da pesquisa automática que permite uma reação rápida na gravação de conteúdos Web em risco iminente de se perderem.

Mais informação

Conjunto de dados abertos do Arquivo.pt (Dados.gov)

Conteúdos recolhidos pelo Content Development Working Group do International Internet Preservation Consortium disponíveis no serviço Archive-it

Participação do Arquivo.pt no encontro do International Internet Preservation Consortium

thumbnail_GA_WAC2022

Última atualização em 29 de Julho de 2022 às 12:34

Encontro com a comunidade dos arquivos da Web

O Internacional Internet Preservation Consortium (IIPC), consórcio que reune inicitivas de preservação da Web de todo o mundo, realizou a Assembleia Geral com os seus associados entre os dias 17 e 19 de maio de 2022.

Na semana seguinte, nos dias 24 e 25 de maio, realizou-se a IIPC Web Archiving Conference (IIPC WAC), via online tal como no ano anterior devido às contingências da pandemia da Covid-19.

O acolhimento dos dois eventos foi feito pela Library of Congress.

Recursos e iniciativas do Arquivo.pt na Web Archiving Conference

A IIPC Web Archiving Conference (IIPC WAC) é uma iniciativa aberta à comunidade, onde podem participar pessoas ou entidades não associodas ao IIPC e interessadas no domínio da preservação da Web.

O Arquivo.pt contribuiu em duas sessões Ligthtning Talks  (sessão 5 e sessão 13).

As apresentações do Arquivo.pt centraram-se nos recursos e iniciativas que este serviço tem ultimamente oferecido à comunidade.

Arquivo Municipal de Sines e Arquivo.pt juntos no Dia Internacional dos Arquivos

thumbnail-sines-dia-internacional-dos-arquivos

Última atualização em 27 de Junho de 2022 às 8:38

O Arquivo Municipal da Câmara Municipal de Sines e o Arquivo.pt assinalaram o Dia Internacional dos Arquivos, 9 de junho, no Salão Nobre dos Paços do Concelho, com uma Oficina de preservação da memória digital de Sines.

O encontro foi transmitido online com o objetivo de partilhar com a comunidade dos arquivistas o que tem sido uma experiência de curadoria colaborativa dos conteúdos da Web.

Colaboração entre um arquivo municipal e um arquivo da Web

Este encontro deu-se na continuidade de uma colaboração entre as duas equipas, desenvolvida durante o período da pandemia.

O Arquivo Municipal de Sines fez uma recolha seletiva e sistemática de conteúdos Web relacionados com o Concelho de Sines, com a colaboração de meios de comunicação local, como por exemplo a Rádio Miróbriga e a Rádio Sines.

Por sua vez, o Arquivo.pt contribuiu com formação sobre as ferramentas de gravação da Web em formato normalizado (Webrecorder.net) e preparou serviços úteis, como por exemplo o SavePageNow que permite gravar páginas na hora diretamente no Arquivo.pt.

A memória local ficou mais rica com páginas Web preservadas

Desta colaboração resultou a preservação de milhares de páginas Web (cerca de 200 Gigabytes de informação) acerca da vivência da pandemia na área geográfica de Sines e de Santiago do Cacém.

As cópias dos ficheiros de arquivo da Web (WARCs) enviadas ao Arquivo.pt foram integradas para ficarem disponíveis.

Materiais do evento

Galeria de imagens

Oficina da Preservação da Memória Digital de Sines

Oficina da Preservação da Memória Digital de Sines
Oficina da Preservação da Memória Digital de Sines
Oficina da Preservação da Memória Digital de Sines
Oficina da Preservação da Memória Digital de Sines
Oficina da Preservação da Memória Digital de Sines Oficina da Preservação da Memória Digital de Sines Oficina da Preservação da Memória Digital de Sines Oficina da Preservação da Memória Digital de Sines

Como preservar as referências na Wikipédia?

thumbnail-wikimedia

Última atualização em 19 de Maio de 2022 às 19:05

A Wikimedia Portugal iniciou uma colaboração com o Arquivo.pt que visa captar a atenção da comunidade para a preservação dos conteúdos publicados na Wikipédia.

Oitenta por cento das páginas publicadas na Web desaparecem ou são alteradas, apenas 1 ano após a sua publicação. Simultaneamente, a informação na Wikipédia baseia-se em informação maioritariamente publicada na Web. O desaparecimento da informação de referência prejudica a confiabilidade dos artigos da Wikipédia.

Ciclo de webinars “Património Cultural na Web: como preservar as referências na Wikipédia?”

O ciclo de Webinars promovido pela Wikimedia Portugal inclui conteúdos pedagógicos que enriquecem a formação dos profissionais da informação e comunicação mas também a literacia digital de qualquer cidadão.

O Arquivo.pt e a preservação da memória digital (1º Webinar)

Gonçalo Themudo, Presidente da Wikimedia Portugal, introduziu o 1º webinar do ciclo intitulado “Património cultural na Web: como preservar as referências na Wikipédia?”. Salientou a importância de preservar as referências (URLs) utilizadas pelos autores, quando publicam artigos na Wikipédia. Daniel Gomes, Gestor do Arquivo.pt, mostrou como o Arquivo.pt preserva os conteúdos Web e como a comunidade de autores da Wikipédia pode contribuir para que esses conteúdos fiquem efetivamente preservados.

  • Data: Realizado em 22 de fevereiro de 2022
  • Formador: Daniel Gomes, Arquivo.pt
  • Slides
  • Vídeo

Acesso e processamento automático de informação preservada da Web através de APIs (2º Webinar)

Webinar que apresenta as APIs (Application Programming Interface) do Arquivo.pt que possibilitam o processamento automático da informação histórica preservada da Web para desenvolver aplicações inovadores e úteis às organizações. Este Webinar destina-se principalmente a profissionais de informática (ex. Web developers, Web designers, Web marketers).

  • Data: 22 Mar. 2022 15:00 – 16:30
  • Formador: Vasco Rato, Arquivo.pt/ROSSIO
  • Slides
  • Vídeo

Arquivar a Web: faça-você-mesmo! (3º Webinar)

Webinar que apresenta como é preservada a informação cultural de índole municipal e nacional publicada na Web. Demonstra através de casos práticos como qualquer pessoa pode arquivar informação publicada na web num formato adequado que permitirá a sua preservação para o futuro utilizando ferramentas gratuitas. Este Webinar destina-se a qualquer utilizador da Internet mas é particularmente útil para responsáveis pela comunicação e gestão de informação em organizações.

  • Data: 19 Abr. 2022 15:00 – 16:30
  • Formador: Daniel Gomes, Arquivo.pt
  • Slides
  • Vídeo

Continuam as sessões online Café com o Arquivo.pt

banner-cafe-com-o-arquivo-pt

Última atualização em 17 de Agosto de 2022 às 9:36

banner-cafe-com-o-arquivo-pt

Partilhe esta página: arquivo.pt/cafe

Bem vindos à 3ª temporada do Café com o Arquivo.pt

O Arquivo.pt continua a oferecer à comunidade sessões online que endereçam tópicos relacionados com a preservação da informação publicada na web.

Ouça os convidados e converse directamente com a equipa do Arquivo.pt para saber como tirar maior partido do serviço e concorrer a mais uma edição anual do Prémio Arquivo.pt.

Sessões da 3ª temporada

Sessão especial Dia Mundial da Preservação Digital 2021 – 5 de novembro – Major Minors

No mês de novembro comemora-se o Dia Mundial da Preservação Digital e para assinalar esta iniciativa internacional, o Arquivo.pt realizou uma sessão online aberta à comunidade.

O trabalho dos convidados especiais desta sessão, Leandro Costa, Paulo Martins e José Carlos Ramalho (orientador), foi o 1º classificado do Prémio Arquivo.pt 2021.

22ª sessão – 20 de janeiro de 2022 – Politiquices

O Politiquices.pt permite pesquisar relações de apoio ou oposição entre personalidades e partidos políticos expressas em títulos de notícias. Esta aplicação utiliza informação preservada no Arquivo.pt para criar uma ontologia de relações, recorrendo a tecnologia de processamento de linguagem natural.

David Batista, 2º classificado do Prémio Arquivo.pt 2021, explica como desenvolveu o seu trabalho e demonstra as aplicações para os investigadores e cidadãos em geral.

21ª sessão – 17 de fevereiro de 2022 – Primeiras páginas de jornais online portugueses

Primeiras páginas de jornais online portugueses” apresenta uma análise gráfica interativa das primeiras páginas de jornais online portugueses. Para este estudo foram analisados itens específicos dentro do desenho de jornais, permitindo assim observar tendências ao longo do tempo.

Susana Parreira, explica como desenvolveu este trabalho no âmbito do seu mestrado, com a colaboração e orientação de Ana Boavida (Universidade de Coimbra) Ana Sabino (Instituto Politécnico de Castelo Branco e Penousal Machado.

Temporadas anteriores

Apresentação na IIPC Web Archiving Conference

Eleições Autárquicas 2021 preservadas pelo Arquivo.pt

thumbnail_eleicoes_autarquicas

Última atualização em 14 de Julho de 2022 às 17:10

Milhares páginas eleitorais a preservar antes que desapareçam

No dia 26 de setembro de 2021 realizaram-se as eleições autárquicas em Portugal, evento marcado pela pandemia da Covid-19. A comunicação dos candidatos foi baseada sobretudo nos meios de comunicação social e nas redes sociais.

A informação online que documenta processos eleitorais é de manifesta importância histórica. Contudo, é difícil de identificar porque aparecem e desaparecem rapidamente. No caso das eleições autárquicas, a quantidade de candidatos e a variedade de canais utilizados torna a tarefa ainda mais desafiante.

O Arquivo.pt, tal como em eleições anteriores, lançou uma recolha especial para preservar conteúdos relativos às Autárquicas 2021.

Como foram identificados os conteúdos eleitorais publicados na Web

Começou-se por fazer a identificação manual de conteúdos relacionados com eleições, por concelho e freguesia. Para isso pediu-se ajuda a pessoas e organizações com as seguintes iniciativas:

  • campanha de recolha de endereços Eleições Autárquicas de 2021: precisamos da sua ajuda!
  • pedido de colaboração aos serviços de arquivo dos 308 municípios na identificação de sites eleitorais e candidatos do respetivo concelho
  • pedido aos Partidos para enviarem os nomes dos candidatos cabeças de lista

Destaca-se a utilização do site Eyedata – Social Data Lab que disponibilizou na Web nomes de candidatos de todo o país.  A página da Wikipedia Eleições autárquicas portuguesas de 2021 também foi utilizada como fonte de informação.

A lista com nomes de candidatos por concelho, partido ou coligação serviram para criar pesquisas automáticas no Bing que identificaram os conteúdos eleitorais mais relevantes.

Por exemplo, ao combinar o termo “autárquicas 2021” com o nome de um candidato e do respetivo concelho, obtém-se resultados relacionados com esse candidato, tais como notícias, iniciativas da sua campanha ou a página oficial da sua campanha eleitoral.

Esta metodologia foi aplicada nas Eleições Presidenciais 2021 e nas Eleições Europeias de 2019. O relatório técnico A transnational crawl of the European Parliamentary Elections 2019 detalha a metodologia aplicada.

Recolha de conteúdos e disponibilização no Arquivo.pt

Entre 22 de agosto e 8 de outubro de 2021, o Arquivo.pt recolheu de forma exaustiva páginas relacionadas com as Autárquicas 2021.

A coleção resultante denominada Eleições Autárquicas 2021” (EAWP39) reúne 31 milhões de ficheiros que totalizam 2.7 TeraBytes de informação e estará disponível a partir de outubro de 2022, por respeito ao período de embargo de 1 ano.

Investigadores que queiram realizar estudos acerca das Autárquicas 2021 e necessitem de obter acesso mais cedo aos conteúdos recolhidos podem contactar o Arquivo.pt.

Para saber mais

Arquivo.pt preservou informação online acerca de projectos europeus financiados pelo H2020

Thumbnail H2020 projectos

A principal missão do Arquivo.pt é preservar informação online para fins de investigação e educação.

Anteriormente, o Arquivo.pt identificou e preservou websites de projectos de investigação e desenvolvimento financiados pela União Europeia durante os programas FP4, FP5, FP6 e FP7 (1994-2013).

Agora, o Arquivo.pt contribuiu para a preservação da informação científica publicada online que documenta projetos de investigação e desenvolvimento financiados pela União Europeia durante o programa Horizonte 2020 (2014-2021). Foram preservados 197 milhões de ficheiros (17 TB) relacionados com ciência para acesso futuro.

Projectos H2020 publicam informação online valiosa que está a ser perdida

O recurso a websites para documentar as atividades de projetos de investigação e desenvolvimento tem vindo sempre a aumentar, sendo utilizados para disponibilizar informação científica relevante que completa a literatura publicada, como por exemplo conjuntos de dados abertos, apresentações em eventos ou software desenvolvido.

Contudo, após o fim dos projetos, os respetivos websites normalmente desaparecem causando uma perda irrecuperável de informação científica única e valiosa.

Arquivo.pt identificou automaticamente os endereços que documentam projetos de investigação e desenvolvimento H2020

O portal de dados abertos da União Europeia publicou um conjunto de dados do Community Research and Development Information Service (CORDIS) que documenta projetos de investigação financiados durante o programa H2020. Porém, dos 31 129 projetos listados, apenas 46% apresentavam o URL do projecto (coluna projectURL).

O Arquivo.pt desenvolveu uma metodologia de baixo custo que identifica automaticamente os URLs relacionados com projetos de investigação e desenvolvimento para serem preservados de forma sistemática. Esta identificação automática é alcançada através da combinação do recurso a conjuntos de dados abertos com serviços de pesquisa na web. Esta metodologia é detalhada no artigo científico publicado na conferência International Conference on Digital Preservation 2016.

Em suma, extraímos 270 650 URLs únicos dos seguintes conjuntos de dados abertos:

Em seguida, extraímos o acrónimo e o título dos projetos documentados nos conjuntos de dados e pesquisámos automaticamente na web usando a API do Bing para encontrar URLs adicionais.

Todos os conjuntos de dados e ferramentas desenvolvidas foram disponibilizados publicamente em acesso aberto para que possam ser reutilizados e complementados de forma colaborativa, incluindo o software desenvolvido para identificar automaticamente URLs adicionais sobre os projetos H2020.

197 milhões de ficheiros da web acerca de Ciência foram preservados

O Arquivo.pt identificou e preservou 197 milhões de ficheiros da web (17 TB) de informação que documentam projetos de investigação e desenvolvimento financiados pelo programa europeu Horizonte 2020.

Em 2021, podemos testemunhar que alguns sites dos projetos já não estão disponíveis online, como o website do projeto Extended Model of Organic Semiconductors (EXTMOS) (http://extmos.eu/). No entanto, a informação deste website foi preservada e pode ser acedida no Arquivo.pt:

Archived version at Arquivo.pt (https://arquivo.pt/wayback/20170427182603/http://extmos.eu/) of the home page of the EXTMOS Research and Development project (http://extmos.eu/)funded by H2020.

Versão arquivada no Arquivo.pt da página inicial do projeto EXTMOS de Investigação e Desenvolvimento financiado pelo H2020.

Contribuições para complementar os conjuntos de dados abertos da União Europeia

Todos os conjuntos de dados resultantes foram tornados públicos para que possam ser melhorados e reutilizados por outras organizações também interessadas na preservação deste património digital:

Se quiser saber mais informações sobre esta coleção, assista ao vídeo Preservation of web content related to Horizon 2020.

Referências

É investigador?

Sites de 2019 disponíveis e o Arquivo.pt ultrapassa os 10 000 milhões de ficheiros

thumb_notre-dame-paris

Última atualização em 21 de Setembro de 2021 às 10:52

A informação recolhida da Web durante 2019 está acessível através do Arquivo.pt, depois do embargo de 1 ano que precede a disponibilização de conteúdos.

As imagens do incêndio na Catedral de Notre Dame, printscreen de página do Jornal I, 17-04-29, preservada pelo Arquivo.pt
As imagens do incêndio na Catedral de Notre Dame, printscreen de página do Jornal I, 17-04-29, preservada pelo Arquivo.pt

Relembre e investigue os acontecimentos históricos de 2019, tais com:

O Arquivo.pt recolheu 1700 milhões de ficheiros, a partir de 2 milhões de sites visitados, num total de 131 terabytes que agora estão disponíveis para que possa aceder a eventos passados.

Em 2021, o Arquivo.pt disponibiliza acesso aberto a mais de 10 000 milhões de ficheiros (721 terabytes) oriundos de 27 milhões de websites.

Arquivo.pt certificado como fornecedor de dados abertos

selo-dados-gov

Última atualização em 17 de Agosto de 2022 às 8:40

O Arquivo.pt tem colaborado com a Agência para a Modernização Administrativa (AMA) com o objetivo de melhorar a preservação dos websites da Administração Pública.

A colaboração assenta em 3 pontos de ação:

  • identificação e recolha de todos os websites da Administração Pública;
  • preservação dos dados publicados em websites da Administração Pública que já não são atualizados no Memorial do Arquivo.pt (ex. “Tenho uma criança”);
  • formação em preservação dos dados abertos publicados online.

A AMA é a organização pública responsável pela promoção dos meios digitais na Administração Pública e tem por objetivo modernizar e simplificar o acesso dos cidadãos aos serviços do Estado.

O Arquivo.pt é um serviço operado pela Fundação para a Ciência e a Tecnologia I.P. (unidade FCCN) que preserva dados publicados na Web entre 1996 e a atualidade, tornando-os acessíveis a qualquer cidadão para fins de memória e investigação.

Diretiva da União Europeia para dados abertos inclui documentos nos sítios na Internet

A Diretiva (UE) 2019/1024 do Parlamento Europeu e do Conselho, relativa aos dados abertos e à reutilização de informações do setor público de 20 de junho de 2019, estipula o seguinte:

“(30) A presente diretiva prevê a definição do termo «documento» e essa definição deverá designar também qualquer parte do documento. O termo «documento» deverá abranger qualquer representação de atos, factos ou informações – e qualquer compilação destes –, seja qual for o seu meio (papel, suporte eletrónico, registo sonoro, visual ou audiovisual).

(34) A fim de facilitar a reutilização, os organismos do setor público deverão, se possível e adequado, disponibilizar os documentos, incluindo os que são publicados em sítios na Internet, num formato aberto e compatível com a leitura por máquina, juntamente com os respetivos metadados, ao melhor nível de precisão e granularidade, num formato que garanta a interoperabilidade

(35) Deverá considerar-se que um documento se apresenta em formato legível por máquina se tiver um formato de ficheiro estruturado de modo a ser facilmente possível, por meio de aplicações de software, identificar, reconhecer e extrair dados específicos. Os dados codificados em ficheiros estruturados num formato legível por máquina deverão ser considerados dados legíveis por máquina. Os formatos legíveis por máquina podem ser abertos ou sujeitos a direitos de propriedade; podem ser normas formais ou não.

(60) A Comissão deverá facilitar a cooperação entre Estados-Membros e apoiar a conceção, o ensaio, a aplicação e a implantação de interfaces eletrónicas interoperáveis que permitam dispor de serviços públicos mais eficazes e seguros.

O serviço público Arquivo.pt tem a missão de preservar os documentos publicados nos sítios da Internet para viabilizar o seu acesso aberto a longo prazo e disponibiliza interfaces eletrónicas interoperáveis (APIs) para o seu processamento automático.

A Lei portuguesa n.º 68/2021 de 2021-08-26 aprova os princípios gerais em matéria de dados abertos e transpõe a Diretiva europeia.

Arquivo.pt certificado como fornecedor de dados abertos da Administração Pública

A AMA reconheceu o Arquivo.pt como serviço público e fornecedor de dados abertos e atribuiu o seu selo de certificação no Portal de Dados Abertos.

O Arquivo.pt faz a recolha genérica de informação publicada na Web de interesse para a comunidade portuguesa. Porém, tem a seu cargo a preservação de websites da Administração Pública como o Portal do Governo em colaboração com o Centro de Gestão da Rede Informática do Governo (CEGER).

Qualquer cidadão pode aceder aos dados abertos resultantes destes arquivos históricos, podendo por exemplo, pesquisar informação oficial publicada em websites dos sucessivos Governos.

Em 2021, o Arquivo.pt disponibilizava acesso aberto a mais de 10 000 milhões de ficheiros (721 TB) oriundos de 27 milhões de websites. Os dados abertos preservados pelo Arquivo.pt podem ser explorados através da interface de pesquisa, automaticamente através de API (https://arquivo.pt/api) ou reutilizando os conjuntos de dados derivados.

Conjuntos de dados derivados disponíveis no Portal de Dados Abertos

Além dos artefactos web originais preservados no Arquivo.pt, este serviço tem gerado conjuntos de dados abertos derivados das suas atividades, que estão agora disponíveis em acesso aberto para que possam ser reutilizados:

Lista de recursos

Apresentação no IIPC Web Archiving Conference 2022

Coleção do 1º arquivo da web europeu pesquisável no Arquivo.pt

logo Internet Memory Foundation - website

Última atualização em 1 de Outubro de 2021 às 9:10

A coleção histórica de conteúdos da Web gerada ao longo da atividade da Internet Memory Foundation (IMF) foi doada ao Arquivo.pt e pode agora ser pesquisada!

A IMF foi uma organização europeia dedicada a preservar conteúdos da web que foi extinta em 2018.

O 1º projeto de arquivo da Web na Europa (2004-2010) foi liderado por Julien Masanès (que foi convidado de honra na celebração dos 10 anos do Arquivo.pt) e denominava-se European Archive Foundation.

Em 2010, Julien Masanès, o “pai” dos arquivos da Web na Europa criou a IMF.

Exemplos de páginas da coleção doada pelo IMF

A coleção doada pelo IMF foi agora integrada no acervo do Arquivo.pt para ser preservada para a posteridade.

Esta coleção é composta por 142 milhões de ficheiros que totalizam 6,3 TB de informação histórica cujos textos ou imagens podem agora ser pesquisados através do Arquivo.pt.

print homepage www.limes.fp6-limes.eu

Página do projeto LIMES (Land and Sea Monitoring for Environment and Security), 2009.

print homepage intelligence-territoriale.eu

Página do projeto Intelligence-territoriale, 2009.

Página sobre as Eleições Europeias de 2009 (www.elections2009-results.eu).

Página da agência noticiosa Reuters acerda do WikiLeaks, 2011

Print da página do Internet Memory Research em 2014

Página do Internet Memory Foundation, 2014.

Pesquise esta nova coleção!

Esta nova coleção recebeu foi nomeada “InternetMemory” na lista de coleções do Arquivo.pt.

Podem ser realizadas pesquisas sobre esta coleção utilizando o parâmetro de pesquisa collection ou através da página de pesquisa customizada disponível em arquivo.pt/InternetMemory.

printscreen da custom-search para a coleção InternetMemory