Arquivo.pt preservou sites sobre projetos de Investigação & Desenvolvimento financiados pela Comissão Europeia

EuropeanCommission

O Arquivo.pt identificou automaticamente sites de projetos de I&D para preservar o seu conteúdo. Já preservou mais de 52 milhões de ficheiros (7 TB) relacionados com ciência para acesso futuro.

Os sites de I&D são valiosos e estão a ser perdidos

Os sites dos projetos de Investigação & Desenvolvimento (I&D) são cada vez mais usados para disponibilizar importante informação científica que complementa a literatura publicada (ex. conjuntos de dados ou documentação, software). Contudo, após o término dos projetos, os sites normalmente desaparecem causando uma perda permanente de informação científica única e valiosa.

Distribuição de URLs de projetos que referenciavam conteúdo relevante por Programa-Quadro desde o FP4 (1994), oriundos do EU Open Data Portal e validados em novembro de 2015.

Distribuição de URLs de projetos que referenciavam conteúdo relevante por Programa-Quadro desde o FP4 (1994), oriundos do EU Open Data Portal e validados em novembro de 2015.
Distribuição de URLs de projetos que referenciavam conteúdo relevante por Programa-Quadro desde o FP4 (1994), oriundos do EU Open Data Portal e validados em novembro de 2015.

A informação online relativa a projetos de I&D não está a ser exaustivamente documentada. Por exemplo, a informação referente aos endereços dos sites dos projetos financiados no programa 7º Programa-Quadro (FP7) disponibilizada através do Portal de Dados Abertos da União Europeia (EU Open Data Portal) está omissa para 92% dos projetos.

Arquivo.pt identificou sites de I&D automaticamente

O foco do Arquivo.pt é a preservação de informação publicada na Web para fins científicos e académicos. Assim sendo, desenvolveu um projeto para a identificação automática de endereços relacionados com projetos de I&D para que o seu conteúdo seja preservado de forma sistemática.

A identificação automática é realizada através da combinação de conjuntos de dados abertos com serviços de busca gratuitos, de modo a que possa ser aplicada mesmo em contextos com recursos limitados. Este trabalho está detalhado num artigo publicado na conferência científica International Conference on Digital Preservation 2016.

Todos os dados e ferramentas desenvolvidas durante esta investigação foram disponibilizados em acesso aberto de modo a que possam ser reutilizados e colaborativamente melhorados.

Já foram preservados 52 milhões de ficheiros da web relacionados com Ciência

A aplicação da metodologia desenvolvida pelo Arquivo.pt já permitiu preservar mais de 52 milhões de ficheiros (7 TB) oriundos de 53 993 sites de projetos de I&D financiados desde o FP4 (1994), tais como o projeto europeu WEZARD financiado com o objetivo de “preparar a futura comunidade de investigação na área da robustez dos sistemas de transporte aéreos quando for deparada com incidentes climáticos”. O site para este projeto (www.wezard.eu) já não se encontra disponível online.Contudo, foi preservado e pode ser acedido no Arquivo.pt.

Todos os sites identificados e preservados no âmbito deste projeto podem ser acedidos através do Arquivo.pt desde março de 2017.

Site do projeto europeu WEZARD (www.wezard.eu), financiado pelo 7º Programa-Quadro da União Europeia entre 2011 e 2013, disponível no Arquivo.pt.
Site do projeto europeu WEZARD (www.wezard.eu), financiado pelo 7º Programa-Quadro da União Europeia entre 2011 e 2013, disponível no Arquivo.pt.

 

 

Contributos para complementar os dados do European Open Data Portal

O processo desenvolvido foi aplicado aos conjuntos de dados publicados através do EU Open Data Portal para tentar complementar as informações em falta acerca dos URLs dos projetos. Os resultados obtidos mostraram que a integridade do conjunto de dados do FP7 foi melhorada em 86,6%.

Todos os conjuntos de dados resultantes foram disponibilizados ao público para que possam ser melhorados e reutilizados por outras organizações interessadas na preservação deste património digital (FP4FP5FP6FP7).

Referências

É investigador?

Blogs que ficam para a História: formação oferecida pelo Arquivo.pt

blogs que ficam para a história - Arquivo.pt formação

“Como pode o meu blog ficar na História digital de Portugal?” é a pergunta de partida para este encontro dedicado à preservação digital.

blogs que ficam para a história - Arquivo.pt formação
blogs que ficam para a história -formação do Arquivo.pt

 

No dia 23 de Fevereiro de 2017, a unidade FCCN da Fundação para a Ciência e Tecnologia, em Lisboa, responsável pelo Arquivo.pt, foi palco de uma ação de formação gratuita para bloggers das áreas de tecnologia, lifestyle e moda. Sob o mote de trabalhar para deixar os seus blogs para a história da web portuguesa, este conjunto de bloggers uniu-se à infraestrutura de investigação Arquivo.pt assistindo a sessões sobre técnicas de preservação digital.

Objetivos da formação

No final da formação os participantes terão ganho conhecimentos na utilização do Arquivo.pt que lhes permitirão:

  • Pesquisar e recuperar informação do passado que se julgava perdida
  • Analisar a evolução de um site ao longo do tempo
  • Publicar informação online para que possa ser preservada para o futuro
  • Criar conteúdos inovadores e originais com base em informação preservada da Web
  • Aumentar a produtividade e eficiência do seu trabalho

Citações e slides do evento

“Ao longo do tempo muita da informação que vai sendo colocada na Web desaparece e ninguém gosta de ser confrontado com o conhecido Erro 404.”

“60% dos sites desaparecem após apenas 2 anos”

“O Arquivo.pt, um serviço que permite pesquisar páginas web portuguesas arquivadas desde 1996. É também uma plataforma em constante atualização, que acompanha as alterações que as páginas web vão sofrendo ao longo dos anos.”

“Recentemente foi apresentada uma nova versão do serviço, que permite a reprodução das páginas preservadas de forma mais completa com o carregamento de imagens e outros conteúdos Web que anteriormente não eram reproduzidos.”

“Conseguirmos chegar aos profissionais da comunicação é um desafio, mas temos total disponibilidade para colaborar não só com a comunidade de bloggers e jornalistas, mas também com alunos, professores, investigadores ou simples curiosos”.

“A informação é Património. A informação publicada nos sites é valiosa e tem de ser preservada”

Gostaria de participar numa ação de formação futura?

Esta ação foi o primeiro passo para um projeto de ações de formação gratuitas relacionadas com o Arquivo.pt e Preservação Digital. Estas ações serão ministradas na FCCN ou em organizações externas que o solicitem desde que garantam uma presença mínima de 10 pessoas.

Contacte-nos ou adira à nossa mailing list para se manter atualizado.

Formação Arquivo.pt em abril na UTAD, Vila Real

Esta formação terá lugar durante as Jornadas FCCN 2017 na UTAD de 19 a 21 de abril.

Agenda formação Arquivo.pt

Universidade de Trás-os-Montes e Alto Douro (UTAD), 20 de abril, 14:30-16:00.

  • Arquivo.pt: um serviço inovador ao seu dispor
  • Como publicar informação preservável para o futuro
  • Acesso automático ao Arquivo.pt (APIs)

Não perca o Zapping de outros serviços ao seu dispor!

Destacamos também a “sessão Zapping de projetos e serviços FCCN” (20 de abril, 9:30). Durante apenas 1 hora qualquer pessoa poderá ficar a conhecer todos os serviços disponibilizados pela FCCN, gratuitos ou sem custos para a comunidade académica.

Inscrições

As inscrições são gratuitas e incluem eventos sociais.

Contudo, o número de inscrições é limitado e aceitamos as inscrições por ordem de submissão.

O principal objectivo das Jornadas FCCN serem um evento móvel pelo país é interagir com as comunidades locais.

Agradecemos a divulgação por potenciais interessados.

Links relacionados

Sites de 2015 já disponíveis no Arquivo.pt!

A informação recolhida da Web durante 2015 já está acessível através do Arquivo.pt!

Relembre e investigue os acontecimentos históricos de 2015 tais como os ataques terroristas no Charlie Hebdo e Bataclan, a Crise Grega, ou a tomada de posse do Governo de António Costa!

 

charlie hebdo

 

Foram disponibilizados 835 milhões de ficheiros preservados (35 TB) oriundos de 2 milhões de sites visitados.

Saber mais

Nova versão do Arquivo.pt com melhoria da reprodução de páginas preservadas!

Antes e Depois site preservado aeropaixão

O Arquivo.pt lançou no dia 25 de Janeiro de 2017, uma nova versão do seu serviço.

A nova versão denominada PyCDX introduz melhorias significativas na qualidade da reprodução das páginas preservadas.

Esta melhoria foi devida à adopção da tecnologia PyWb desenvolvida por Ilya Kreymer.

A reprodução das páginas preservadas é agora mais completa, com o carregamento de mais imagens, PDF, CSS, entre outros conteúdos Web que anteriormente não eram reproduzidos.

Exemplos de melhorias

Antes e Depois site preservado aeropaixão
Antes e Depois site preservado aeropaixão

Reprodução da página preservada http://aero-paixao.planetaclix.pt/A320.htm antes e depois da nova versão do Arquivo.pt

healthy workplaces antes e depois

Reprodução da página preservada healthy-workplaces.eu antes e depois da nova versão do Arquivo.pt

europa.eu antes e depois

Reprodução da página preservada http://europa.eu/ antes e depois da nova versão do Arquivo.pt

Saber mais

Arquivo.pt – nova versão lançada

Imagem exemplo versão Hércules Arquivo.pt

O Arquivo.pt lançou no dia 7 de Novembro de 2016, uma nova versão do seu serviço.

A nova versão denominada Hércules, introduz principalmente melhorias na interface de reprodução de páginas preservadas, tais como:

  • Opção de minimizar a barra de ferramentas usando o ícone do canto superior direito para permitir visualizar a página preservada em écran completo;
  • Nova funcionalidade para ‘Completar a página’ que tenta obter elementos em falta na página preservada (ex. imagens) a partir de arquivos da web externos recorrendo ao Portal Memento Time Travel;
  • Resolução de obstáculos de usabilidade detectados na versão anterior, por exemplo, os ícones das funcionalidades estão maiores e com maior contraste para serem mais visíveis.
Arquivo.pt nova versão

Bolsas para colaborar com Arquivo.pt

Bolsas Arquivo.pt 2017

Ofertas de bolsas para incentivo à investigação utilizando o Arquivo.pt: candidaturas até 31 de outubro de 2016.

Bolsas Investiga XXI –  Arquivo.pt

O Arquivo.pt é uma infraestrutura de investigação inovadora que permite pesquisar e aceder a páginas da web preservadas desde 1996 representando uma referência mundial com uma significativa produção científica.

Os principais objectivos da atribuição de bolsas no âmbito do projecto Investiga XXI são:

  • proporcionar formação em tecnologias de informação inovadoras que permitirão tornar mais eficiente e eficaz a investigação sobre dados da Era Digital;
  • estabelecer relações entre o Arquivo.pt e os investigadores que potenciem a produção de resultados científicos pós-bolsa;
  • incentivar investigadores de várias áreas científicas a conhecerem e tirarem partido do Arquivo.pt como fonte principal ou complementar de informação temporal;
  • promover a investigação sobre dados do século XXI.
Estão abertas as candidaturas para 3 bolsas de 3 meses até dia 31 de outubro de 2016.

Nova versão do Arquivo.pt

Lançámos uma nova versão do Arquivo.pt no dia 6 de junho de 2016!

Arquivo.pt nova verssão 2016 – reprodução do sapo.pt em 1997

Melhorámos a navegação entre páginas arquivadas, com a criação de um menu lateral nas páginas de reprodução.

Foram também incluídas novas funcionalidades na reprodução de páginas arquivadas tais como:

  • partilha nas redes sociais facebook e Twitter;
  • partilha por email;
  • guardar a página arquivada como imagem;
  • imprimir a página arquivada;