- Tese “Information Search in Web Archives”
- Vídeo da apresentação
- Projeções da apresentação
- Edital
- Referência bibliográfica em formato bibtex
Parabéns e obrigado por este importante contributo científico!
Parabéns e obrigado por este importante contributo científico!
Última atualização em 1 de Outubro de 2021 às 9:10
Apresentação na Quinta 17:15 (13 Novembro) em Lisboa no DLM Forum – Making the Information Governance Landscape in Europe.
O evento terá lugar no Instituto Superior Técnico.
@dlmforum2014 #DLM2014
Última atualização em 28 de Setembro de 2017 às 13:18
O administrador de sistemas que agora procuramos para integrar a nossa equipa terá como responsabilidade desenvolver e manter a qualidade dos resultados fornecidos por um sistema de recolha, pesquisa e acesso distribuído por mais de 60 servidores.
Agradecemos ajuda na divulgação desta oferta.
Última atualização em 28 de Setembro de 2017 às 13:16
O software desenvolvido para criar o Arquivo da Web Portuguesa está disponível como um projecto gratuito de código aberto alojado no Google Code denominado pwa-technologies.
Com o objectivo de facilitar a disseminação e preservação deste software foram gerados ficheiros de exportação (dumps) que estão disponíveis nas seguintes localizações alternativas:
Sintam-se livres de replicar e melhorar este código-fonte para que no futuro exista acesso à nossa memória digital.
Última atualização em 28 de Setembro de 2017 às 13:10
O International Internet Preservation Consortium (IIPC) é um consórcio mundial composto por 44 organizações de 25 países que tem como missão obter, preservar e manter acessível o conhecimento disponível na Internet para as gerações futuras.
Este consórcio tem desenvolvido ferramentas, normas e boas práticas para arquivar a web e promovido os serviços disponibilizados pelos arquivos da web como recursos para investigação científica e preservação de herança cultural.
O Arquivo da Web Portuguesa é um serviço inovador baseado em tecnologia de ponta que requer investimento permanente em Investigação e Desenvolvimento.
A adesão ao IIPC é fundamental para estabelecer parcerias internacionais e permitir o desenvolvimento colaborativo de ferramentas usadas pelo Arquivo da Web Portuguesa, melhorando assim a qualidade do serviço prestado.
Para saber mais:
Última atualização em 20 de Dezembro de 2019 às 17:21
Comunicações acerca do Arquivo da Web Portuguesa realizadas durante o Ipres’2013:
Veja todos os detalhes na página das publicações acerca do Arquivo da Web Portuguesa.
Última atualização em 28 de Setembro de 2017 às 13:25
Diversas organizações em todo o mundo lutam pela preservação da informação recolhida da Web antes que ela desapareça. Contudo, os utilizadores esperam que os mecanismos de acesso às já vastas coleções de informação histórica detidas pelos arquivos da Web sejam eficientes e eficazes. O Arquivo da Web Portuguesa é o maior arquivo da Web com pesquisa por texto integral disponível ao público. Permite pesquisar em mais de 1,2 mil milhões de conteúdos arquivados da Web desde 1996.
O artigo Creating a Billion-Scale Searchable Web Archive foi apresentado na Temporal Web Analytics Workshop 2013, no Rio de Janeiro, no Brasil.
Última atualização em 28 de Setembro de 2017 às 13:28
A sessão de demonstração na WWW 2013 apresenta o AWP, que permite pesquisar mais de 1,2 mil milhões de ficheiros arquivados entre 1996 e 2012.
Última atualização em 28 de Setembro de 2017 às 14:44
Leia o artigo completo na página 25 da revista GÉANT CONNECT (em inglês).
Última atualização em 20 de Dezembro de 2019 às 17:28
A Internet assumiu o papel de meio de comunicação fundamental nas sociedades modernas. Em particular, as páginas da Web têm vindo a substituir a imprensa porque permitem publicar informação de uma forma simples, rápida e económica.
Não é de admirar que a Web seja cada vez mais usada como principal meio de comunicação. Desde os jornais que migram para versões exclusivamente online, às pessoas que partilham as suas fotografias acabadas de tirar directamente na Web.
Porém, a Web foi originalmente concebida para ser um meio de comunicação entre cientistas e não o principal meio de publicação das sociedades. Ou seja, foi desenhada para substituir meios de comunicação temporária como o telefone e acabou por ser usada para substituir livros, jornais ou revistas.
O problema é que a informação publicada na Web é pouco duradoura. Após apenas 1 ano, mais de 80% dos conteúdos publicados já desapareceram ou foram alterados.
A Humanidade nunca produziu e teve acesso a tanta informação. E no entanto, retém tão pouca.
Os arquivos da Web recolhem, arquivam e preservam informação publicada na Web. No futuro, a informação neles arquivada fará a diferença entre a continuação da História e a ocorrência de uma Idade das Trevas, durante a qual, a maioria da informação passou a ser digital, mas a sua preservação manteve-se seguindo as práticas instituídas centenas de anos atrás.
A título de exemplo, em 2003 o estado português extinguiu a versão em papel do Diário da República, passando a existir apenas a versão online. Esta decisão poupou recursos e facilitou o acesso dos cidadãos à legislação. Contudo, são impressas 4 versões em papel exclusivamente para serem entregues na Biblioteca da Assembleia da República e na Biblioteca Nacional. As leis são escritas em formato digital, publicadas em formato digital e impressas em papel para depósito.
Em Portugal, o Arquivo da Web Portuguesa visa arquivar e preservar conteúdos da Web relevantes para a comunidade portuguesa. Este projecto destaca-se por ter desenvolvido um serviço de pesquisa textual sobre conteúdos do passado, disponível experimentalmente em http://www.arquivo.pt.
Existe alguma controvérsia acerca do facto de os arquivos da Web reproduzirem informação publicada sem o consentimento expresso dos seus autores. A interpretação legal desta questão varia consoante as fronteiras dos países. Fronteiras estas que não existem na Internet. Contudo, os arquivos da Web têm respeito pelos interesses dos autores. Por exemplo, através da introdução de períodos de embargo de acesso para que não ocorra competição de visitas com os sites originais ou bloqueio de acesso a conteúdos arquivados a pedido dos autores.
Na realidade, os arquivos da Web nacionais ou sem fins lucrativos prestam um serviço gratuito, complexo e de grande utilidade para os autores. São raríssimos os casos de autores que se sentiram lesados pela acção dos arquivos da Web.
Os arquivos da Web apenas poderão ser úteis ao cidadão comum se mantiverem o nível de acesso original da informação publicada. Ou seja, se uma página estava publicamente acessível na Web, a sua cópia arquivada deverá também continuar publicamente acessível na Web.
A pergunta que surge é se o cidadão comum alguma vez teve acesso ao passado?
No máximo, o cidadão comum teve acesso à informação escrita nos documentos oficiais que relatam a História.
Como qualquer historiador sabe, a História oficial é escrita e reescrita de acordo com as conjunturas sociais e políticas.
O passado está relatado nos documentos escritos na primeira pessoa. Documentos não controlados, não revistos, não preservados. Serão as cartas, os blocos de notas, os blogs, os fóruns.
Arrisco-me a dizer que pela primeira vez na História da Humanidade, os arquivos da Web concedem ao cidadão comum o acesso ao passado. Não apenas à História acerca dos grandes acontecimentos da Humanidade ou de uma cultura, mas do seu próprio passado enquanto indivíduo.
As pequenas coisas que fazem parte do passado e das memórias de uma pessoa, raramente são relatadas nos livros de História. Perguntaram-me: “Qual a importância de preservar um classificado com uma imagem de uma bicicleta para venda?”. Respondi: “Se tiver sido a primeira bicicleta de alguém, será uma memória valiosa para essa pessoa”.
E destas pequenas coisas sem importância os nossos descendentes poderão descobrir quem nós realmente fomos.
Daniel Gomes
Coordenador do Arquivo da Web Portuguesa