Artigo apresentado na conferência EPIA 2009

Última atualização em 4 de Agosto de 2024 às 17:01

Artigo “An Updated Portrait of the Portuguese Web” apresentado na conferência EPIA 2009

O artigo An Updated Portrait of the Portuguese Web, de João Miranda e Daniel Gomes, foi apresentado na 14th Portuguese Conference on Artificial Intelligence (EPIA 2009) em Aveiro.

Este artigo apresenta uma caracterização da Web Portuguesa com base numa recolha efectuada pelo Arquivo da Web Portuguesa em Março de 2008, com 48 milhões de documentos recolhidos em 2,5 TB de volume de dados.

Apresentação de artigo na conferência LA-Web 2009, no dia 11/11/2009

Última atualização em 5 de Agosto de 2024 às 12:19

O artigo “Trends in Web characteristics” será apresentado na conferência LA-Web 2009, no dia 11/11/2009.

O artigo Trends in Web Characteristics, de João Miranda e Daniel Gomes, será apresentado no 7th Latin American Web Congress (LA-WEB 2009) em Mérida, no México.

Este artigo apresenta tendências de evolução da Web com base em três caracterizações da Web portuguesa realizadas num intervalo de cinco anos. Foram analisadas diversas métricas relativas às características de conteúdos e sítios da Web.

Sessão no ISCTE: “O Arquivo.pt como infraestrutura para investigação nas Ciências Sociais e Humanas.”

Última atualização em 4 de Agosto de 2024 às 16:53

Sessão exploratória das Jornadas FCCN no ISCTE (Lisboa) no dia 12 de Fevereiro 9:30-11:00.

Perdeu as Jornadas FCCN 2015?

Apresentações relacionadas com o Arquivo.pt:

Público-alvo

•    Professores, investigadores e alunos de Ciências Sociais e Humanas.
•    Bibliotecários, arquivistas e documentalistas.
•    Responsáveis por infraestruturas de investigação.

Âmbito/Objetivos

O Arquivo.pt detém informação arquivada da Internet desde 1996 e disponibiliza um serviço público que permite pesquisar páginas do passado. Esta infraestrutura constitui já um valioso recurso para investigação acerca do passado recente e ganhará cada vez mais importância à medida que a Internet vai penetrando na sociedade e na vida dos seres humanos.

Contudo, é essencial dar a conhecer esta infraestrutura e criar uma comunidade de investigadores com competências científicas que permitam transformar esta vasta fonte de informação em Conhecimento.

O objetivo desta sessão exploratória é partilhar e debater casos de uso para a utilização do Arquivo.pt como infraestrutura de investigação na área das Ciências Sociais e Humanas.

Agenda

•    Arquivo.pt como recurso para a investigação em Ciências Sociais, Rita Espanha – CIES, ISCTE.
•    ROSSIO: Artes, Ciências Sociais e Humanidades, Maria Fernanda Rollo – IHC, FCSH.
•    O Arquivo da web portuguesa e seu papel num futuro museu do web design português, Sandra Valente Antunes  –  Universidade de Aveiro, Universidade do Porto.

Doutoramento “Information Search in Web Archives”: video e slides

O nosso antigo colega Miguel Costa defendeu a sua tese de doutoramento na Universidade de Lisboa no dia 4 de Novembro de 2014. O video e as projeções estão disponíveis!

Portuguese Web Archive: a Memory Infrastructure @DLM2014

Última atualização em 1 de Outubro de 2021 às 9:10

Apresentação acerca do serviço Arquivo.pt e da importância de arquivar a Web para memória futura da Humanidade.

Apresentação na Quinta 17:15 (13 Novembro) em Lisboa no DLM Forum – Making the Information Governance Landscape in Europe.

O evento terá lugar no Instituto Superior Técnico.

@dlmforum2014 #DLM2014

Vaga para administrador de sistemas do Arquivo da Web Portuguesa

Última atualização em 28 de Setembro de 2017 às 13:18

O Arquivo da Web Portuguesa (www.arquivo.pt) necessita de contratar um administrador de sistemas distribuídos de larga escala.

O administrador de sistemas que agora procuramos para integrar a nossa equipa terá como responsabilidade desenvolver e manter a qualidade dos resultados fornecidos por um sistema de recolha, pesquisa e acesso distribuído por mais de 60 servidores.

Requisitos

  • Licenciatura pré-Bolonha ou Mestrado em Engenharia Informática.
  • Experiência em desenho, operação e administração de sistemas distribuídos de larga-escala em produção e expostos na Internet.
  • Conhecimentos das tecnologias Apache HTTP Server, Apache Tomcat, Java e Linux.
  • Experiência em tecnologias de monitorização e gestão de sistemas distribuídos (ex. Nagios, Cacti, Ganglia, Rex, Puppet, Chef, SpaceWalk, Jenkins).

Preferências

  • Experiência em tecnologias de processamento distribuído (ex. Hadoop, HBase).
  • Experiência em tecnologias de pesquisa de informação (ex. Apache Solr, Lucene);
  • Experiência em tecnologias de arquivo da web (ex. Heritrix, Wayback Machine, NutchWAX);
  • Experiência em plataformas de gestão de software (ex. Selenium, SonarCube, Ant, Maven, Git, SVN).
  • Sistemas de balanceamento de carga e redundância (ex. LVS).

Agradecemos ajuda na divulgação desta oferta.

É agora mais fácil descarregar todo o software do AWP.

Última atualização em 5 de Agosto de 2024 às 11:30

Todo o código-fonte, binários e documentação podem ser descarregados em ficheiros comprimidos.

O software desenvolvido para criar o Arquivo da Web Portuguesa está disponível como um projecto gratuito de código aberto alojado no Google Code denominado pwa-technologies.

Com o objectivo de facilitar a disseminação e preservação deste software foram gerados ficheiros de exportação (dumps) que estão disponíveis nas seguintes localizações alternativas:

Sintam-se livres de replicar e melhorar este código-fonte para que no futuro exista acesso à nossa memória digital.

O Arquivo da Web Portuguesa aderiu ao International Internet Preservation Consortium

Última atualização em 5 de Agosto de 2024 às 11:14

A Fundação para a Computação Científica Nacional, como mentora do Arquivo da Web Portuguesa, aderiu ao IIPC.

O International Internet Preservation Consortium (IIPC) é um consórcio mundial composto por 44 organizações de 25 países que tem como missão obter, preservar e manter acessível o conhecimento disponível na Internet para as gerações futuras.

Este consórcio tem desenvolvido ferramentas, normas e boas práticas para arquivar a web e promovido os  serviços disponibilizados pelos arquivos da web como recursos para investigação científica e preservação de herança cultural.

O Arquivo da Web Portuguesa é um serviço inovador baseado em tecnologia de ponta que requer investimento permanente em Investigação e Desenvolvimento.

A adesão ao IIPC é fundamental para estabelecer parcerias internacionais e permitir o desenvolvimento colaborativo de ferramentas usadas pelo Arquivo da Web Portuguesa, melhorando assim a qualidade do serviço prestado.

Para saber mais:

Ipres’2013: Cinco novas comunicações acerca do Arquivo da Web Portuguesa

Última atualização em 20 de Dezembro de 2019 às 17:21

O Arquivo da Web Portuguesa (AWP) foi divulgado durante a conferência científica internacional na área de preservação digital “Ipres’2013 – 10th International Conference on Preservation of Digital Objects” que decorreu em Lisboa de 2 a 6 de Setembro.

Como criar um arquivo da web pesquisável com mais de mil milhões de conteúdos

Última atualização em 28 de Setembro de 2017 às 13:25

O Arquivo da Web Portuguesa publicou um estudo onde apresenta uma visão geral das aprendizagens obtidas no desenvolvimento do Arquivo da Web Portuguesa, com ênfase na aquisição de dados da Web, ordenação de resultados de pesquisa e desenho de interfaces de utilizador.

Diversas organizações em todo o mundo lutam pela preservação da informação recolhida da Web antes que ela desapareça. Contudo, os utilizadores esperam que os mecanismos de acesso às já vastas coleções de informação histórica detidas pelos arquivos da Web sejam eficientes e eficazes. O Arquivo da Web Portuguesa é o maior arquivo da Web com pesquisa por texto integral disponível ao público. Permite pesquisar em mais de 1,2 mil milhões de conteúdos arquivados da Web desde 1996.

O artigo Creating a Billion-Scale Searchable Web Archive foi apresentado na Temporal Web Analytics Workshop 2013, no Rio de Janeiro, no Brasil.