Sites de 2019 disponíveis e o Arquivo.pt ultrapassa os 10 000 milhões de ficheiros

thumb_notre-dame-paris

Última atualização em 21 de Setembro de 2021 às 10:52

A informação recolhida da Web durante 2019 está acessível através do Arquivo.pt, depois do embargo de 1 ano que precede a disponibilização de conteúdos.

As imagens do incêndio na Catedral de Notre Dame, printscreen de página do Jornal I, 17-04-29, preservada pelo Arquivo.pt
As imagens do incêndio na Catedral de Notre Dame, printscreen de página do Jornal I, 17-04-29, preservada pelo Arquivo.pt

Relembre e investigue os acontecimentos históricos de 2019, tais com:

O Arquivo.pt recolheu 1700 milhões de ficheiros, a partir de 2 milhões de sites visitados, num total de 131 terabytes que agora estão disponíveis para que possa aceder a eventos passados.

Em 2021, o Arquivo.pt disponibiliza acesso aberto a mais de 10 000 milhões de ficheiros (721 terabytes) oriundos de 27 milhões de websites.

Arquivo.pt certificado como fornecedor de dados abertos

selo-dados-gov

Última atualização em 17 de Agosto de 2022 às 8:40

O Arquivo.pt tem colaborado com a Agência para a Modernização Administrativa (AMA) com o objetivo de melhorar a preservação dos websites da Administração Pública.

A colaboração assenta em 3 pontos de ação:

  • identificação e recolha de todos os websites da Administração Pública;
  • preservação dos dados publicados em websites da Administração Pública que já não são atualizados no Memorial do Arquivo.pt (ex. “Tenho uma criança”);
  • formação em preservação dos dados abertos publicados online.

A AMA é a organização pública responsável pela promoção dos meios digitais na Administração Pública e tem por objetivo modernizar e simplificar o acesso dos cidadãos aos serviços do Estado.

O Arquivo.pt é um serviço operado pela Fundação para a Ciência e a Tecnologia I.P. (unidade FCCN) que preserva dados publicados na Web entre 1996 e a atualidade, tornando-os acessíveis a qualquer cidadão para fins de memória e investigação.

Diretiva da União Europeia para dados abertos inclui documentos nos sítios na Internet

A Diretiva (UE) 2019/1024 do Parlamento Europeu e do Conselho, relativa aos dados abertos e à reutilização de informações do setor público de 20 de junho de 2019, estipula o seguinte:

“(30) A presente diretiva prevê a definição do termo «documento» e essa definição deverá designar também qualquer parte do documento. O termo «documento» deverá abranger qualquer representação de atos, factos ou informações – e qualquer compilação destes –, seja qual for o seu meio (papel, suporte eletrónico, registo sonoro, visual ou audiovisual).

(34) A fim de facilitar a reutilização, os organismos do setor público deverão, se possível e adequado, disponibilizar os documentos, incluindo os que são publicados em sítios na Internet, num formato aberto e compatível com a leitura por máquina, juntamente com os respetivos metadados, ao melhor nível de precisão e granularidade, num formato que garanta a interoperabilidade

(35) Deverá considerar-se que um documento se apresenta em formato legível por máquina se tiver um formato de ficheiro estruturado de modo a ser facilmente possível, por meio de aplicações de software, identificar, reconhecer e extrair dados específicos. Os dados codificados em ficheiros estruturados num formato legível por máquina deverão ser considerados dados legíveis por máquina. Os formatos legíveis por máquina podem ser abertos ou sujeitos a direitos de propriedade; podem ser normas formais ou não.

(60) A Comissão deverá facilitar a cooperação entre Estados-Membros e apoiar a conceção, o ensaio, a aplicação e a implantação de interfaces eletrónicas interoperáveis que permitam dispor de serviços públicos mais eficazes e seguros.

O serviço público Arquivo.pt tem a missão de preservar os documentos publicados nos sítios da Internet para viabilizar o seu acesso aberto a longo prazo e disponibiliza interfaces eletrónicas interoperáveis (APIs) para o seu processamento automático.

A Lei portuguesa n.º 68/2021 de 2021-08-26 aprova os princípios gerais em matéria de dados abertos e transpõe a Diretiva europeia.

Arquivo.pt certificado como fornecedor de dados abertos da Administração Pública

A AMA reconheceu o Arquivo.pt como serviço público e fornecedor de dados abertos e atribuiu o seu selo de certificação no Portal de Dados Abertos.

O Arquivo.pt faz a recolha genérica de informação publicada na Web de interesse para a comunidade portuguesa. Porém, tem a seu cargo a preservação de websites da Administração Pública como o Portal do Governo em colaboração com o Centro de Gestão da Rede Informática do Governo (CEGER).

Qualquer cidadão pode aceder aos dados abertos resultantes destes arquivos históricos, podendo por exemplo, pesquisar informação oficial publicada em websites dos sucessivos Governos.

Em 2021, o Arquivo.pt disponibilizava acesso aberto a mais de 10 000 milhões de ficheiros (721 TB) oriundos de 27 milhões de websites. Os dados abertos preservados pelo Arquivo.pt podem ser explorados através da interface de pesquisa, automaticamente através de API (https://arquivo.pt/api) ou reutilizando os conjuntos de dados derivados.

Conjuntos de dados derivados disponíveis no Portal de Dados Abertos

Além dos artefactos web originais preservados no Arquivo.pt, este serviço tem gerado conjuntos de dados abertos derivados das suas atividades, que estão agora disponíveis em acesso aberto para que possam ser reutilizados:

Lista de recursos

Apresentação no IIPC Web Archiving Conference 2022