Arquivo.pt em Coimbra nas Jornadas da FCCN e na Faculdade de Letras

A equipa do Arquivo.pt encontra-se em Coimbra, nos dias 6 de 7 de maio para promover a preservação da Internet portuguesa, pois a divulgação e a promoção constituem uma vertente importante da sua missão.

Na terça-feira, às 16h30, nas Jornadas FCCN, apresenta a sessão Mão na massa para arquivar a Web.

Na quarta-feira, dia 7, às 14h30, o Arquivo.pt participa no encontro promovido pela Faculdade de Letras da Universidade de Coimbra: Preservação digital: ferramentas e práticas (Anfiteatro III, Piso 4).

Mão na massa para arquivar a Web

Nesta sessão mostramos como gravar páginas web em formato normalizado utilizando o seu próprio computador. Para quem precisa de guardar cópias de alta qualidade de websites esta sessão é um grande passo. Os participantes serão desafiados a gravar páginas estáticas e outras com conteúdos interativos, vídeos e redes sociais. A partir das questões que surgirem durante os exercícios práticos, esclarecemos dúvidas e mostraremos que arquivar conteúdos Web é muito fácil.

Usamos a extensão ArchiveWeb.page, ferramenta do Webercorder.net, que os participantes podem obter gratuitamente e instalar nos próprios computadores.

Se é informático ou utilizador avançado de IT

Para quem tem a expectativa e a necessidade de gravar sites inteiros automaticamente, faremos uma breve referência ao Browsertrix-crawler, uma ferramenta avançada que corre num Docker, em Linux. Informáticos e utilizadores avançados de IT  todos são convidados a tentar a gravação e arquivo de Websites.

As demonstrações e exercícios que propomos usando o ArchiveWeb.page ou Browsertrix-crawler aplicam-se também a casos de uso avançado e respondem a necessidades de arquivo da Web no dia-a-dia das organizações.

Materiais da sessão “mãos na massa”

Galeria de imagens

Jornadas FCCN

imagem-01
imagem-02
imagem-3
imagem-01 imagem-02 imagem-3

Desvendando a estrutura oculta da Web: Dataset Links do Arquivo.pt

thumb-wikipedia_link-graph_cluster

Última atualização em 5 de Maio de 2025 às 14:50

A natureza interligada da World Wide Web há muito que fascina investigadores e tecnólogos. Hoje, temos o prazer de anunciar o lançamento do conjunto de dados Arquivo.pt Links Dataset, uma coleção abrangente que abre novas possibilidades para a compreensão e análise dos padrões de conetividade da Web.

O conjunto de dados engloba mais de 139 milhões de URLs de páginas Web, cada um acompanhado de metadados cruciais sobre as suas ligações de entrada – tanto os URLs de origem como os textos-âncora correspondentes, isto é, o texto visível e clicável nas hiperligações. Esta rica coleção de dados de interligação fornece aos investigadores uma janela única para a estrutura subjacente da Web.

A importância das hiperligações na arquitetura da Web não pode ser sobrestimada. Servem como blocos de construção fundamentais da navegação e descoberta na Web, permitindo aos utilizadores e aos sistemas automatizados percorrer a vasta paisagem de conteúdos em linha.

As hiperligações formaram a base do revolucionário algoritmo PageRank da Google, que transformou a nossa abordagem à recuperação de informações e à pesquisa na Web. A ideia fundamental do PageRank – que a importância de uma página podia ser medida através da análise das suas hiperligações de entrada – revolucionou a tecnologia de pesquisa e continua a ter influência nos sistemas modernos de recuperação de informações.

Ao disponibilizar publicamente este conjunto de dados, o Arquivo.pt permite aos investigadores explorar abordagens inovadoras semelhantes à análise da Web e ao desenvolvimento de motores de busca. O conjunto de dados abre inúmeras possibilidades de investigação em vários domínios:

  • Os investigadores podem implementar e experimentar vários algoritmos de classificação, desde abordagens clássicas como o PageRank até técnicas modernas baseadas na aprendizagem automática. A inclusão de textos âncora – o texto visível e clicável nas hiperligações – fornece um contexto semântico valioso que pode melhorar a relevância da pesquisa e a classificação dos documentos.
  • O conjunto de dados permite uma análise profunda da topologia da Web e das estruturas de ligações. Os investigadores podem investigar questões sobre os padrões de conetividade da Web, identificar grupos de conteúdos relacionados e estudar a forma como a informação se espalha pela Web através de redes de ligações.
  • O texto âncora associado a cada hiperligação oferece uma fonte rica de descrições do conteúdo da Web geradas por humanos. Estes dados podem ser particularmente valiosos para desenvolver e testar algoritmos de resumo de documentos, ferramentas de análise semântica e sistemas de classificação automática.
  • Para os investigadores de arquivo da Web, este conjunto de dados fornece informações sobre a forma como as páginas da Web são ligadas e referenciadas ao longo do tempo, oferecendo dados valiosos para o estudo de estratégias de preservação da Web e de manutenção do património digital.

Metodologia

O processo começa com um instantâneo temporal de páginas Web de um período de tempo específico (recolha). Durante esta fase inicial, os nossos sistemas analisam cada página capturada, extraindo todas as hiperligações de saída juntamente com os respetivos textos âncora e carimbos de data/hora de captura. Isto cria um mapeamento preliminar de como as páginas se ligam umas às outras dentro do período de tempo capturado.

O que torna este conjunto de dados particularmente valioso é a sua estrutura de links invertida. Em vez de organizar os dados em torno das páginas de origem e dos seus links de saída, criámos um mapa invertido que se centra nas páginas de destino e nos seus links de entrada. Essa abordagem é particularmente útil para analisar a importância ou a autoridade de uma página na estrutura da Web, pois fornece acesso imediato a todas as páginas que fazem referência ou apontam para um determinado URL.

Considere-se uma estrutura de ligações tradicional em que a Página A liga às Páginas B, C e D. Na nossa estrutura invertida, vemos entradas para as Páginas B, C e D, cada uma listando a Página A como uma fonte de ligações de entrada. Esta reorganização dos dados facilita uma análise mais eficiente da autoridade e influência da página, tornando-a particularmente valiosa para investigadores que trabalham em algoritmos de classificação ou que estudam padrões de fluxo de informação na Web.

O conjunto de dados de links do Arquivo.pt combina três colecões web distintas:

  1. PWA9609 (1996-2009): 89 milhões de páginas que captam a evolução inicial da Internet, centradas no domínio .pt. Esta coleção histórica fornece informações sobre os primeiros padrões de ligação na Web.
  2. AWP38 (Out-Nov 2021): 44 milhões de páginas que oferecem um retrato contemporâneo da conetividade da Web, com ênfase no domínio .pt, mas incluindo conteúdos mais vastos da Internet.
  3. FAWP47 (Out-Dez 2021): 8 milhões de páginas de capturas diárias de conteúdo do domínio .pt, concebidas para acompanhar as alterações de curto prazo nos padrões de ligação.

Como começar a utilizar o conjunto de dados

Os investigadores podem aceder ao conjunto completo de dados. Os dados são fornecidos num formato que permite um processamento e análise eficientes, tornando-os adequados tanto para estudos em grande escala como para investigações específicas.

Conclusão

O lançamento do conjunto de dados de links do Arquivo.pt representa uma contribuição significativa para a comunidade de investigação científica da Web. Ao disponibilizar gratuitamente esta rica coleção de dados de conetividade da Web, esperamos facilitar a investigação inovadora e aprofundar a nossa compreensão da complexa estrutura da Web.

Encorajamos os investigadores a explorar este conjunto de dados e esperamos ver as novas perspetivas e aplicações que emergem da sua análise. Quer esteja interessado em desenvolver novos algoritmos de pesquisa, estudar a topologia da Web ou investigar relações de conteúdo, este conjunto de dados fornece uma base sólida para a sua investigação.

Arquivo.pt participou na IIPC Web Archiving Conference em Oslo

Última atualização em 23 de Abril de 2025 às 14:48

Quatro membros da equipa do Arquivo.pt estiveram em Oslo, na Noruega, para participar na Assembleia Geral do International Internet Preservation Consortium e na Web Archiving Conference, entre os dias 8 e de abril de 2025.

A Biblioteca Nacional da Noruega foi a instituição de acolhimento deste evento internacional. O Arquivo da Web da Noruega é parte da missão da Biblioteca e é realizado numa segunda localização especializada em preservação digital, na cidade de Mo i Rana, no centro do país.

O IIPC WAC, o maior no domínio da preservação da Internet, foi como sempre uma ocasião excecional para a partilha de conhecimento e  para o fortalecimento de colaboração entre os arquivos da Web.

O primeiro dia, 8 de abril, foi dedicado à Assembleia Geral, exclusivo para os membros do consórcio, e aos grupos de trabalho onde o Arquivo.pt tem um papel ativo. O Content Working Group é dedicado à criação de coleções temáticas e tem a participação do Arquivo,pt na coleção “Street Art”. O Training Working Group cria conteúdos formativos e ações de formação, tais como webinars do IIPC e workshops presenciais.

Nos dias  9 e 10 de abril realizou-se a Web Archiving Conference, evento que é aberto a todas as entidades e iniciativas relacionadas com a preservação e arquivo da Web.

Contributo do Arquivo.pt

O Arquivo.pt apresentou os seus serviços e iniciativas de interação com a comunidade, como por exemplo a colaboração com o Arquivo Municipal de Sines na preservação de conteúdos de interesse local. A preocupação com o acesso aos conteúdos, tanto para os investigadores como para os cidadãos em geral, é um aspeto muito apreciado pela comunidade do IIPC.

  • Arquivo.pt toolkit for web archiving – Lightning talk session 1 – Daniel Gomes – Slides
  • Arquivo.pt Query Logs – Lightning talk session 3 – Pedro Gomes – Slides
  • Collaborative collections at Arquivo.pt: four years of recordings from the city of Sines (Portugal) – Lightning talk session 4 – Ricardo Basílio – Slides, notas
  • API/Bulk access and its usage – Poster slam – Vasco Rato – Poster
  • Arquivo.pt annual awards: a glimpse since 2018 – Poster slam – Daniel Gomes – Slides

 

Galeria de imagens

IIPC Web Archiving Conference 2025, Oslo

oslo4
oslo3
oslo6
oslo2
oslo1
oslo8
oslo5
oslo9
oslo10
oslo11
oslo12
oslo4 oslo3 oslo6 oslo2 oslo1 oslo8 oslo5 oslo9 oslo10 oslo11 oslo12

Formação do Arquivo.pt com a APDSI. Inscreva-se!

Ciclo de Webinars do Arquivo.pt com a APSDI

Última atualização em 5 de Abril de 2025 às 13:07

Ciclo de Webinars do Arquivo.pt com a APSDI

A APDSI – Associação para a Promoção e Desenvolvimento da Sociedade da Informação promoveu um Ciclo de Webinars sobre o Arquivo.pt, realizado entre o dia 20 de março e o dia 1 de abril de 2025

Este Ciclo de Webinars, dedicado à preservação da memória cultural publicada na Web, é uma colaboração entre a APDSI e o Arquivo.pt, FCCN serviços digitais da Fundação para a Ciência e a Tecnologia I.P..

Luís Vidigal, Sócio Fundador da APDSI, Filipa Fixe e João Tavares, Vogais da Direção,  introduziram o tema de cada sessão e a equipa do Arquivo.pt mostrou como funciona a preservação de conteúdos Web que permite às organizações e aos cidadãos acederem à web do passado.

As quatro sessões tiveram um total de 121 participantes.

Programa

  • Webinar 1 – 20 de março – Arquivo.pt: uma nova ferramenta para pesquisar o
    passado. Daniel Gomes, Gestor do Arquivo.pt – Vídeo, slides
  • Webinar 2 – 25 de março – Bem publicar para bem preservar. Pedro Gomes,
    Encarregado pelas recolhas do Arquivo.pt – Vídeo, slides
  • Webinar 3 – 27 de março – Acesso e processamento automático de informação
    preservada da Web através de APIs. Vasco Rato, Web developer do Arquivo.pt – Vídeo, slides
  • Webinar 4 – 1 de abril – Arquivar a Web: faça-você-mesmo!. Ricardo Basílio, Vídeo, slides
    Curador digital do Arquivo.pt

Inscrição (gratuita mas necessária)

Saber mais

Iniciativa eArchiving organizou workshop e Arquivo.pt esteve presente

José Borbinha, workshop eArchiving, a 25 de Fevereiro no IST (Sala José Tribolet)

Última atualização em 11 de Março de 2025 às 16:21

José Borbinha, Workshop eArchiving, a 25 de Fevereiro no IST (Sala José Tribolet)
Professor Doutor José Borbinha, workshop eArchiving, a 25 de Fevereiro  de 2025, no Instituto Superior Técnico em Lisboa (Sala José Tribolet)

O Arquivo.pt participou no workshop eArchiving Portugal , que se realizou no Instituto Superior Técnico, no dia 25 de fevereiro de 2025, a convite do Professor Doutor José Borbinha, uma das primeiras pessoas a fazer arquivo da web em Portugal quando, na década de 1990, estava na Biblioteca Nacional.

O Professor José Borbinha, melhor que ninguém, sabe contar na primeira pessoa os pequenos episódios, quase épicos, as ações dos primeiros “heróis” que levaram à criação de um arquivo da Web em Portugal. Vê o Arquivo.pt como um serviço imprescindível quando se fala de preservação digital e de salvaguarda do património comunicacional das organizações.

O evento teve um formato hibrido com 50 participantes presencias e 270 online e foi aberto a todas as entidades públicas ou privadas com preocupações ao nível da preservação digital e gestão da informação em qualquer tipo ou formato. Aqui se incluem os conteúdos dos websites e redes sociais!

Os responsáveis dos Municípios, entidades da Administração Local,  tiveram uma grande participação, respondendo ao apelo da Direção-Geral do Livro, dos Arquivos e das Bibliotecas (DGLAB). Este convite à participação de pessoas de todo o país foi uma oportunidade para o Arquivo.pt mostrar como pode ajudar na preservação dos sites institucionais e no cumprimento da Portaria n.º 112/2023, de 27 de abril.

eArchiving, uma iniciativa europeia nascida em Portugal

A iniciativa eArchiving ou Iniciativa de Arquivo Eletrónico tem por objetivo principal o património cultural digital e foi criada numa reunião de parceiros europeus em Lisboa.

“Foi precisamente nesta (sala José Tribolet no Instituto Superior Técnico) que teve início o eArchiving há onze atrás, a 29 de maio de 2014” recordou  José Borbinha (INESC-ID), anfitrião e organizador do workshop.

A iniciativa eArchiving, é gerida, em nome da Comissão Europeia, pelo Consórcio E-ARK, onde se incluem os parceiros portugueses KEEP Solutions LDA e INESC-ID. No consórcio estão ainda o AIT Austrian Institute of Technology GmbH, parceiro principal, e o DLM Forum MTÜ.

Janet Anderson, gestora do eArchiving, mostrou os progressos alcançados em onze anos no domínio da preservação digital. Os projetos financiados pela União Europeia no âmbito do consórcio resultaram no desenvolvimento de especificações, software, formação e conhecimento sobre preservação digital.

Seguiu-se a apresentação de contributos para a preservação digital em Portugal: DGLAB, por Pedro Penteado, Centro Hospitalar São João, por Fernanda Gonçalves, Ministério da Justiça, por Alexandra Lourenço e Cristina Soares, Arquivo.pt, pelo curador digital Ricardo Basílio.

Para terminar, Miguel Ferreira fez a sua intervenção em representação do DLM Forum MTÜ, comunidade onde a KEEP Solutions LDA participa com o desenvolvimento de software. Numa abordagem mais técnica mostrou como estão estruturados os metadados na especificação de empacotamento E-Ark de modo a cumprirem os requisitos da preservação digital.

Como usar o Arquivo.pt para preservação os websites institucionais

Presentation of Arquivo.pt at the eArchiving Workshop, by Ricardo Basílio, digital curator. Photo by Pedro Penteado
Apresentação do Arquivo.pt no Workshop eArchiving por Ricardo Basílio, curador digital. Foto por Pedro Penteado

A preservação digital exige colaboração, tanto ao nível interno como externo entre organizações, e este workshop serviu esse propósito, pois foi ocasião para  partilha de boas práticas, divulgação de ferramentas e serviços e contacto entre pessoas.

Da parte do Arquivo.pt destacou-se três serviços do seu catálogo para a preservação dos conteúdos publicados na web:

Os serviços do Arquivo.pt podem ser utilizados, por exemplo, pelos Municípios para a preservação dos conteúdos publicados nos websites institucionais.

A formação do Arquivo.pt, tais como webinars ou sessões presenciais, são úteis para dar capacidade às entidades para cuidarem dos conteúdos institucionais, incluindo os conteúdos das redes sociais que exigem uma estratégia alternativa.

Slides da apresentação

Saber mais

Vídeos de todas as apresentações, em breve no canal Youtube do E-ARK

Conteúdos em Flash arquivados já podem ser reproduzidos no Arquivo.pt

Última atualização em 25 de Fevereiro de 2025 às 15:06

Download MP4

O Arquivo.pt lançou uma nova versão denominada Isis, no dia 7 de janeiro de 2025.

Suporte ao Flash utilizando o emulador Ruffle

Na nova versão do Arquivo.pt, destaca-se a funcionalidade que permite agora reproduzir animações e conteúdos interativos em Flash.

A tecnologia Flash foi utilizada em websites nos primeiros anos da Web.

Porém, tornou-se obsoleta e os navegadores atuais, tais como o Google ou o Edge, deixaram de lhe dar suporte, impedindo a visualização desses conteúdos. A emulação por software é uma forma de dar acesso a conteúdos produzidos por tecnologias obsoletas.

Assim, o Arquivo.pt incluiu o Ruffle, um emulador de Flash Player que permite visualizar conteúdos em Flash, anteriormente inacessíveis ao utilizador.

Animações em Flash preservados no Arquivo.pt: antes e depois

Aceda aos sites em Flash no Arquivo.pt, antes e depois do uso do Ruffle, tendo em conta que muitos deles foram criados para serem vistos em computadores de secretária e podem ter limitações em dispositivos móveis.

Site da Faculdade de Ciências Sociais e Humanas da Universidade Nova de Lisboa, 2009

print-pagina-fcsh-unl-replay-antes-2

demo-flash-novafcsh-homepage-small

Site da Presidência da República, 2013

demo-flash-site-presidencia-pt-2

Site do Hotel Palácio Estoril, 2008

print-pagina-hotel-estoril-palace-replay-antes-2

demo-flash-hotel-palacio-estoril-small

Site do Casino Estoril, 2003

demo-flash-casino-estoril-small

Site de jogos online www.albinoblacksheep.com, 2009

Como implementar o Ruffle para ler conteúdos Flash

print-ruffle-script

Outras melhorias na nova versão do Arquivo.pt

O desenvolvimento do serviço concretizou-se, além do suporte ao Flash, nas seguintes ações:

  • Implementação de middleware para emitir pedidos à API Solr (ambiente de desenvolvimento)
  • Implementação de camada Javascript de feedback de relevância
  • Melhorias na API: responde ao erro 400 Bad request quando o parâmetro “q” contém um URL

Saber mais

Isis release: problemas resolvidos

Vídeo com vários exemplos (download, MP4)

 

Caso encontre algum erro no Arquivo.pt ou tenha alguma sugestão, por favor, contacte-nos.

Prepare um trabalho e concorra ao Prémio Arquivo.pt 2025!

arquivo-pt-premio-viaje-no-tempo-sq

Última atualização em 9 de Janeiro de 2025 às 11:08

premio-arquivo-pt-2025-PT

Até dia 6 de maio de 2025, o Arquivo.pt lança o desafio de criar um trabalho baseado em informação histórica preservada da Web.

Nesta 8ª edição do Prémio Arquivo.pt serão atribuídos 15 000 € aos três melhores trabalhos (10 mil para o 1º classificado) e quatro Menções Honrosas.

Todos os detalhes em: arquivo.pt/premio

Menções honrosas para autores e professores

Para promover a utilização do acervo do Arquivo.pt, no contexto do ensino e investigação ou no contexto profissional, quatro parceiros do prémio criaram  menções honrosas com um prémio associado.

  • O jornal Público atribuirá uma Menção Honrosa para os trabalhos realizados com base nos conteúdos do Público online guardados no Arquivo.pt. Esta distinção inclui dois anos de assinatura do Público online.
  • O Aveiro Media Competence Center (AMCC) atribuirá uma Menção Honrosa ao melhor trabalho sobre o arquivo da web de um ou vários media online portugueses (500 €).
  • A Associação DNS.PT atribuirá uma Menção Honrosa a um professor que tenha incentivado a submissão de trabalhos (1900 € para aquisição de um computador portátil).
  • A Comissão Comemorativa 50 Anos 25 de Abril atribuirá uma Menção Honrosa acompanhada de um prémio de 5.000 € a um dos trabalhos submetidos que use o Arquivo.pt para tratar o tema “25 de Abril e a Democracia”.

A iniciativa conta com o Alto Patrocínio do Presidente da República Portuguesa.

Partilhe e divulgue

Ajude-nos a divulgar o Prémio Arquivo.pt 2025 por potenciais candidatos.