No dia 15 de agosto de 2021 o palácio presidencial em Cabul foi tomado pelos Talibãs, consumando a queda do regime que vigorava há 20 anos, após os atentados do 11 de Setembro nos Estados Unidos.
Não há tempo a perder quando se trata de preservar a Web
O Arquivo.pt reagiu rapidamente lançando uma pesquisa automática de conteúdos focada em sites do domínio .af e em notícias dos media internacionais sobre os eventos em curso.
No dia 17 de agosto os websites começaram a ser gravados.
Foram utilizados 1800 endereços de sites do Afeganistão (terminados em .af) e 500 notícias dos meios de comunicação social de todo o mundo.
Os endereços, URLs ou “seeds” foram obtidos através de pesquisa automática, utilizando o Bing Search API, e colocados imediatamente em gravação.
Conteúdos disponíveis para conhecer a história do Afeganistão
Como resultado da recolha realizada passaram a estar disponíveis no Arquivo.pt mais de 400 Gigabytes de informação que qualquer pessoa pode utilizar para investigação nas mais diversas áreas.
O principal contributo do Arquivo.pt para a comunidade dos arquivistas da Web foi a demonstração da pesquisa automática que permite uma reação rápida na gravação de conteúdos Web em risco iminente de se perderem.
Desde 2008, o mercado de criptomoedas revolucionou o mundo inovando e expandindo para outras áreas (por exemplo, finanças e arte). No entanto, com essa rápida expansão, muitos projetos são criados todos os dias, dando origem a uma ampla e variada gama de sites, tecnologias e fraudes. Os mercados seguem fases de financiamento e é durante uma fase inicial de euforia que mais projetos são criados.
Acreditamos que, à medida que o mercado de criptomoedas se estabiliza, projetos/sites vão desaparecendo porque o financiamento diminui ou acaba.
O Arquivo.pt iniciou uma nova coleção de arquivos web que preserva o conteúdo web que documenta as atividades de Criptomoedas.
Este trabalho produziu um novo conjunto de dados aberto com informação documentando cada projeto de criptomoeda, incluindo os seus URLs originais e links para a versão arquivada na web correspondente no Arquivo.pt. As fontes de informação selecionadas para criar este conjunto de dados foram:
Acreditamos que ao criar este novo conjunto de dados relacionado com criptomoedas e ao preservar todo o conteúdo web correspondente, tem potencial para originar contribuições científicas inovadoras em diversas áreas como Economia ou Humanidades Digitais.
Os investigadores que pretendam realizar estudos sobre o conjunto de dados de Criptomoedas e necessitem de acesso antecipado aos conteúdos recolhidos podem contactar o Arquivo.pt.
Apresentação no IIPC Web Archiving Conference 2022
formação em preservação dos dados abertos publicados online.
A AMA é a organização pública responsável pela promoção dos meios digitais na Administração Pública e tem por objetivo modernizar e simplificar o acesso dos cidadãos aos serviços do Estado.
O Arquivo.pt é um serviço operado pela Fundação para a Ciência e a Tecnologia I.P. (unidade FCCN) que preserva dados publicados na Web entre 1996 e a atualidade, tornando-os acessíveis a qualquer cidadão para fins de memória e investigação.
Diretiva da União Europeia para dados abertos inclui documentos nos sítios na Internet
“(30) A presente diretiva prevê a definição do termo «documento» e essa definição deverá designar também qualquer parte do documento. O termo «documento» deverá abranger qualquer representação de atos, factos ou informações – e qualquer compilação destes –, seja qual for o seu meio (papel, suporte eletrónico, registo sonoro, visual ou audiovisual).
…
(34) A fim de facilitar a reutilização, os organismos do setor público deverão, se possível e adequado, disponibilizar os documentos, incluindo os que são publicados em sítios na Internet, num formato aberto e compatível com a leitura por máquina, juntamente com os respetivos metadados, ao melhor nível de precisão e granularidade, num formato que garanta a interoperabilidade
…
(35) Deverá considerar-se que um documento se apresenta em formato legível por máquina se tiver um formato de ficheiro estruturado de modo a ser facilmente possível, por meio de aplicações de software, identificar, reconhecer e extrair dados específicos. Os dados codificados em ficheiros estruturados num formato legível por máquina deverão ser considerados dados legíveis por máquina. Os formatos legíveis por máquina podem ser abertos ou sujeitos a direitos de propriedade; podem ser normas formais ou não.
…
(60) A Comissão deverá facilitar a cooperação entre Estados-Membros e apoiar a conceção, o ensaio, a aplicação e a implantação de interfaces eletrónicas interoperáveis que permitam dispor de serviços públicos mais eficazes e seguros.”
O serviço público Arquivo.pt tem a missão de preservar os documentos publicados nos sítios da Internet para viabilizar o seu acesso aberto a longo prazo e disponibiliza interfaces eletrónicas interoperáveis (APIs) para o seu processamento automático.
Qualquer cidadão pode aceder aos dados abertos resultantes destes arquivos históricos, podendo por exemplo, pesquisar informação oficial publicada em websites dos sucessivos Governos.
Em 2021, o Arquivo.pt disponibilizava acesso aberto a mais de 10 000 milhões de ficheiros (721 TB) oriundos de 27 milhões de websites. Os dados abertos preservados pelo Arquivo.pt podem ser explorados através da interface de pesquisa, automaticamente através de API (https://arquivo.pt/api) ou reutilizando os conjuntos de dados derivados.
Conjuntos de dados derivados disponíveis no Portal de Dados Abertos
Além dos artefactos web originais preservados no Arquivo.pt, este serviço tem gerado conjuntos de dados abertos derivados das suas atividades, que estão agora disponíveis em acesso aberto para que possam ser reutilizados:
Última atualização em 1 de Outubro de 2021 às 9:12
O Arquivo.pt identificou automaticamente sites de projetos de I&D para preservar o seu conteúdo. Já preservou mais de 52 milhões de ficheiros (7 TB) relacionados com ciência para acesso futuro.
Os sites de I&D são valiosos e estão a ser perdidos
Distribuição de URLs de projetos que referenciavam conteúdo relevante por Programa-Quadro desde o FP4 (1994), oriundos do EU Open Data Portal e validados em novembro de 2015.
Distribuição de URLs de projetos que referenciavam conteúdo relevante por Programa-Quadro desde o FP4 (1994), oriundos do EU Open Data Portal e validados em novembro de 2015.
Arquivo.pt identificou sites de I&D automaticamente
O foco do Arquivo.pt é a preservação de informação publicada na Web para fins científicos e académicos. Assim sendo, desenvolveu um projeto para a identificação automática de endereços relacionados com projetos de I&D para que o seu conteúdo seja preservado de forma sistemática.
Todos os dados e ferramentas desenvolvidas durante esta investigação foram disponibilizados em acesso aberto de modo a que possam ser reutilizados e colaborativamente melhorados.
Já foram preservados 52 milhões de ficheiros da web relacionados com Ciência
A aplicação da metodologia desenvolvida pelo Arquivo.pt já permitiu preservar mais de 52 milhões de ficheiros (7 TB) oriundos de 53 993 sites de projetos de I&D financiados desde o FP4 (1994), tais como o projeto europeu WEZARD financiado com o objetivo de “preparar a futura comunidade de investigação na área da robustez dos sistemas de transporte aéreos quando for deparada com incidentes climáticos”. O site para este projeto (www.wezard.eu) já não se encontra disponível online.Contudo, foi preservado e pode ser acedido no Arquivo.pt.
Todos os sites identificados e preservados no âmbito deste projeto podem ser acedidos através do Arquivo.pt desde março de 2017.
Site do projeto europeu WEZARD (www.wezard.eu), financiado pelo 7º Programa-Quadro da União Europeia entre 2011 e 2013, disponível no Arquivo.pt.
Contributos para complementar os dados do European Open Data Portal
O processo desenvolvido foi aplicado aos conjuntos de dados publicados através do EU Open Data Portal para tentar complementar as informações em falta acerca dos URLs dos projetos. Os resultados obtidos mostraram que a integridade do conjunto de dados do FP7 foi melhorada em 86,6%.
Todos os conjuntos de dados resultantes foram disponibilizados ao público para que possam ser melhorados e reutilizados por outras organizações interessadas na preservação deste património digital (FP4, FP5, FP6, FP7).
Bases de dados do European Open Data Portal completadas pelo Arquivo.pt através da metodologia desenvolvida. Os novos URLs de projeto estão disponíveis na coluna “Identified Websites” dos ficheiros: FP4, FP5, FP6, FP7.