Arquivo.pt atinge 1 PetaByte de informação preservada!

Dezembro 5, 2023Novembro 22, 2023 por Ricardo Basílio

Última atualização em 5 de Dezembro de 2023 às 20:12

O Arquivo.pt acabou de acumular 1 PetaByte de conteúdos no seu acervo no mês em que completou 16 anos de existência.

Esta informação está acessível tanto para os investigadores como para o cidadão comum.

No Arquivo.pt é possível pesquisar informação publicada na Web no passado, como por exemplo:

Descubra mais páginas através das paginas selecionadas nas Exposições Online do Arquivo.pt.

Notícias do jornal Público no dia da final do Campeonato Europeu de Futebol de 2016

Exposição Online “Memória da Imprensa Portuguesa. Páginas Web antigas de jornais e revistas (1996-2018)”

Objetivo e missão do arquivo da Web de Portugal

O Arquivo.pt foi criado a 8 de novembro de 2007 com o objetivo de preservar conteúdos da Web portuguesa.

Em 2013, enquanto serviço operado pela Fundação para a Ciência e a Tecnologia, a sua missão foi formulada nestes termos: “Promover a preservação de conteúdos disponíveis na Internet nacional, garantindo a disponibilização deste à comunidade científica e ao público em geral” (Decreto Lei nº55/2013).

Nos anos mais recentes, o Arquivo.pt tem criado novos serviços tais como o CitationSaver que permite aos investigadores gravarem as referências a conteúdos Web que constam nos seus artigos científicos. O Memorial e o Completar a Página facilitam o acesso aos conteúdos dispersos no enorme bloco de 1 PetaByte de dados.

De onde veio tanta informação?

Para atingir o volume de 1 PetaByte, o Arquivo.pt gravou periodicamente conteúdos dos sites do domínio .PT e de sites portugueses noutros domínios.

Além disso, foram feitas recolhas frequentes, diárias e mensais, a um pequeno conjunto de sites governamentais e aos principais sites noticiosos em Portugal.

No âmbito de colaborações internacionais, foram recolhidos conteúdos de sites em diversas línguas, como por exemplo sobre as Eleições Europeias de 2019.

Os conteúdos anteriores a 2008 vieram do Internet Archive e de doações, como é o caso de uma coleção feita pela Biblioteca Nacional e pelo INESC sobre as Eleições Legislativas de 2005.

O maior conjunto de dados em língua portuguesa em acesso aberto para os investigadores

Ao disponibilizar 1 PetaByte de informação, em acesso aberto e através do uso de APIs (Application Programming Interfaces), o Arquivo.pt é uma ferramenta útil para a investigação.

Por exemplo, um investigador que pretender fazer um estudo sobre as eleições em Portugal pode utilizar todo o acervo do Arquivo.pt. Melhor ainda, pode focar-se apenas em algumas recolhas especiais dedicadas às eleições, escolhendo as que lhe interessam e descarregando apenas alguns Terabytes para processar automaticamente com as APIs.

Contributo de diversas equipas e dos amigos do Arquivo.pt

O desenvolvimento do Arquivo.pt vai para além da questão tecnológica e deve-se à dedicação e persistência das diversas pessoas que nele trabalharam, desde 2007.

Deve-se também ao contributo de muitos amigos do Arquivo.pt, sempre atentos para ajudar a melhorar, e à resposta da comunidade de utilizadores.

“Parabéns campeões! Obrigado”

Arquivo404 mais poderoso!

Agosto 9, 2024Novembro 20, 2023 por Ricardo Basílio

Última atualização em 9 de Agosto de 2024 às 12:58

O Arquivo.pt tem lançado serviços complementares inovadores úteis para as organizações optimizarem o seu funcionamento.

A nova versão do Arquivo.pt denominada Helios foi lançada no dia 13 de novembro de 2023 e inclui desenvolvimentos no Arquivo404 e CitationSaver.

Arquivo404 com novos métodos para definir intervalos temporais

O Arquivo404 é um serviço que apresenta aos utilizadores de um website, ligações para versões arquivadas, em vez de lacónicas mensagens de erro “Página não encontrada”.

Porém, por vezes é necessário especificar qual é a versão correcta de uma página arquivada que deve ser apresentada. Por exemplo, o domínio de um website pode ter pertencido a outra entidade no passado e pretende-se que sejam mostradas apenas as versões arquivadas desde que o website passou a pertencer aos seus donos actuais.

Para este efeito, foram lançados 3 novos métodos para configurar o Arquivo404:

setMinimumDate(minDate : Date) – especifica a data mais antiga da versão arquivada do URL que pode ser apresentada.
setMaximumDate(maxDate : Date) – especifica a data mais recente da versão arquivada do URL que pode ser apresentada.
setMostRelevantMemento(criterion : ‘oldest’ | ‘most-recent’) – especifica a ordem dos resultados das versões arquivadas que foram recuperadas do arquivo da web. Por omissão, é apresentada a mais antiga (‘oldest’).

Em suma, o Arquivo404 passou a permitir definir se apresenta ao utilizador a página arquivada mais antiga ou a mais recente, dentro de um determinado intervalo de tempo.

CitationSaver processa documentos HTML

O CitationSaver é um serviço que extrai citações em documentos para recursos online e arquiva-os. Este serviço é particularmente útil para manter a integridade dos artigos científicos e a reproducibilidade das experiências e estudos neles descritos.

Muitos artigos em acesso-aberto são publicados em formato de hipertexto (HMTL). O CitationSaver passou a processar documentos em formato HTML, além dos formatos PDF e TXT.

Por exemplo, se um utilizador encontrar um artigo na Web que contenha citações para recursos online, apenas terá de inserir o endereço da página do artigo no CitationSaver. Os endereços (URLs) serão extraídos e arquivados para que não se percam.

Exemplo de artigo da Revista de Gestão Costeira Integrada, disponiblizado no SciELO

Saber mais

Use os serviços do Arquivo.pt e se detetar algum problema, por favor contacte-nos.

Dia Mundial da Preservação Digital dedicado à Justiça

Novembro 13, 2023Novembro 7, 2023 por Ricardo Basílio

Última atualização em 13 de Novembro de 2023 às 8:59

O Instituto de Gestão Financeira e Equipamentos da Justiça (IGFEJ) e a Secretaria Geral do Ministério da Justiça (SGMJ), em colaboração com a BAD, organizaram o evento “Preservação Digital na Justiça” para assinalar o Dia Mundial da Preservação Digital, a 2 de novembro de 2023.

Neste evento, realizado no auditório da Polícia Judiciária, em Lisboa, estiveram presentes representantes da área governativa da Justiça e profissionais no âmbito dos arquivos, da comunicação e dos departamentos de informática.

Como usar o Arquivo.pt para preservar os websites institucionais

O Arquivo.pt participou com a apresentação “Preserve o seu website” na qual se abordou a questão da preservação dos websites institucionais e aspetos cada vez mais importantes como a cibersegurança.

As entidades da área da Justiça podem beneficiar do Arquivo.pt e dos seus diversos serviços para assegurar uma boa preservação dos seus websites, mitigar ameaças à cibersegurança e fornecer conteúdos históricos aos cidadãos.

Como conclusão desta apresentação ficaram as seguintes recomendações:

Faça o inventário e dê a conhecer os seus Websites atuais e históricos
Use colaborativamente os serviços do Arquivo.pt
Grave no formato normalizado os conteúdos com o ArchiveWeb.page

Materiais

Prepare um trabalho e concorra ao Prémio Arquivo.pt 2024!

Agosto 6, 2024Outubro 27, 2023 por Ricardo Basílio

Última atualização em 6 de Agosto de 2024 às 17:23

Até dia 6 de maio de 2024, o Arquivo.pt lança o desafio de criar um trabalho baseado em informação histórica preservada da Web.

Nesta 7ª edição do Prémio Arquivo.pt serão atribuídos 15 000 € aos três melhores trabalhos (10 mil para o 1º classificado) e três Menções Honrosas.

Todos os detalhes em: arquivo.pt/premio

Menções honrosas para autores e professores

Para promover ainda mais a utilização do acervo do Arquivo.pt no contexto do ensino e da investigação ou no contexto profissional, três parceiros do prémio criaram menções honrosas com um prémio associado.

O jornal Público atribuirá uma Menção Honrosa para os trabalhos realizados com base nos conteúdos do Público online guardados no Arquivo.pt.
O Aveiro Media Competence Center (AMCC) atribuirá uma Menção Honrosa ao melhor trabalho sobre o arquivo da web de um ou vários media online portugueses.
A Associação DNS.PT atribuirá uma Menção Honrosa a um professor que tenha incentivado a submissão de trabalhos.

Partilhe e divulgue

Ajude-nos a divulgar o Prémio Arquivo.pt 2024 por potenciais candidatos.

FCUL preservou mais de 100 websites históricos no Memorial

Março 27, 2024Outubro 24, 2023 por Ricardo Basílio

Última atualização em 27 de Março de 2024 às 11:16

Mais de 100 websites históricos da Faculdade de Ciências da Universidade de Lisboa (FCUL) passaram a estar acessíveis através do serviço Memorial do Arquivo.pt.

O Departamento de Informática da FCUL enviou ao Arquivo.pt uma lista de websites antigos alojados nos seus servidores que já não eram atualizados, mas cujo conteúdo histórico continua a ser interessante para a comunidade (ex. websites de projetos de investigação ou eventos científicos).

O Arquivo.pt preservou estes websites em colaboração com os seus responsáveis, procurando manter para o futuro uma representação fiel dos conteúdos publicados.

A FCUL redirecionou o endereço de cada website para o Arquivo.pt, e pôde então desligar os servidores respetivos e passar a poupar os recursos que dispendia na sua manutenção (ex. eletricidade, espaço, recursos humanos).

O caso exemplar do MiNEMA

Página de aterragem do www.minema.di.fc.ul.pt no Memorial do Arquivo.pt.

O website do programa científico MiNEMA foi o primeiro que a FCUL integrou no Memorial do Arquivo.pt. Este website deixou de ser atualizado em 2009 quando o projeto terminou. A FCUL investiu recursos na manutenção do website por mais 10 anos até ser necessário desligá-lo por motivos de cibersegurança.

O Memorial do Arquivo.pt surgiu então como uma opção e a partir de 2020, a FCUL passou a ter de manter apenas o domínio www.minema.di.fc.ul.pt enquanto que o Arquivo.pt passou a preservar a informação contida no website.

Note-se que os conteúdos do website continuam a ser apresentados nos resultados dos motores de busca.

Faça como a FCUL e preserve os seus websites históricos no Memorial!

Cada vez mais as instituições recorrem ao Memorial do Arquivo.pt para preservar de forma segura os conteúdos dos seus websites históricos. Por exemplo, a FCUL preservou 116 websites, o Centro de Gestão da Rede Informática do Governo preservou 23 e a Fundação para a Ciência e a Tecnologia preservou 40.

As instituições públicas têm prioridade para beneficiar deste serviço. No entanto, outras entidades também o podem solicitar desde que sejam detentoras do domínio do website.

Identifique os seus websites históricos que podem ser integrados no Memorial do Arquivo.pt e contacte-nos!

Saber mais

Completar páginas do passado: sim é possível!

Outubro 16, 2023Outubro 12, 2023 por Ricardo Basílio

Última atualização em 16 de Outubro de 2023 às 19:04

Existem páginas arquivadas da web que são reproduzidas de forma incompleta devido a problemas ocorridos durante o processo de arquivo (ex. desformatadas ou com falta de imagens embedidas).

Completar a página é uma funcionalidade do Arquivo.pt que permite recuperar os elementos em falta nas páginas arquivadas a partir de outros arquivos da web ou dos websites originais.

Quando um utilizador visualiza uma página arquivada no Arquivo.pt, basta aceder ao menu Opções no canto superior direito e escolher Completar a página.

Este processo é realizado de forma automática e o Arquivo.pt é o único arquivo da web no mundo que o disponibiliza!

Como funciona o Completar a página?

Se abrir uma página arquivada que lhe pareça incompleta, tente a opção Completar a página e aguarde.

O Arquivo.pt efetuará uma busca pelos elementos em falta, na Internet e noutros arquivos da Web utlizando o protocolo Memento. Em caso de sucessso, os elementos obtidos serão imediatamente mostrados na página.

Posteriormente, estes elementos recuperados são integrados no acervo do Arquivo.pt, para que a página apareça sempre mais completa em futuras consultas realizadas por qualquer utilizador.

Completar a página de entrada do website da artista Cristina Guerra encontrou uma imagem em falta.

Por exemplo, o website da artista Cristina Guerra, arquivado em 2005, tinha uma imagem em falta. Mas utilizando o Completar a página, foi possível em 2021 obtê-la a partir de outro arquivo da web que a tinha preservado e passar a presentar a página de forma mais completa.

Participe na curadoria colaborativa para melhorar a qualidade do Arquivo.pt!

Devido ao elevado número de páginas arquivadas não é possível ao Arquivo.pt tentar completar todas automaticamente. Por isso, a colaboração dos utilizadores para identificar páginas importantes com elementos em falta e tentar completá-las é importante.

Ao utilizar o Completar a página a comunidade de utilizadores está a contribuir para melhorar a qualidade das páginas preservadas no Arquivo.pt!

Experimente sempre completar as páginas arquivadas que lhe pareçam incompletas e se detectar algum problema contacte-nos.

Divulgue o Completar a página do Arquivo.pt!

Dados abertos para Processamento da Linguagem Natural

Dezembro 13, 2024Setembro 18, 2023 por admin

Daniel Gomes e Diego Alves apresentando no evento final do CLEÓPATRA.

Última atualização em 13 de Dezembro de 2024 às 13:56

Arquivo.pt preservou documentos online em várias línguas sobre as Eleições Parlamentares Europeias de 2019

As Eleições Parlamentares Europeias de 2019 foram um evento de relevância internacional. A estratégia para preservar a informação relevante na World Wide Web é delegada às instituições nacionais. No entanto, a preservação de páginas web que documentam eventos internacionais ainda não foi oficialmente atribuída.

A equipa do Arquivo.pt, com o objetivo de preservar o conteúdo online multilingue que documenta este evento, aplicou uma combinação de processos humanos e automáticos de seleção.

O processo de geração da coleção sobre as Eleições Parlamentares Europeias de 2019 foi realizado em duas etapas.

Na primeira etapa, foram identificados 40 termos relevantes em português sobre as Eleições Parlamentares Europeias de 2019, que foram posteriormente traduzidos automaticamente para as 24 línguas oficiais da União Europeia: búlgaro, croata, checo, dinamarquês, holandês, inglês, estónio, finlandês, francês, alemão, grego, húngaro, irlandês, italiano, letão, lituano, maltês, polaco, português, romeno, eslovaco, esloveno, espanhol e sueco.

Estas traduções foram revistas em colaboração com o Publications Office of the European Union. Além disso, paralelamente, foi lançada uma lista colaborativa para reunir contribuições de endereços relevantes oriundos da comunidade internacional.

Na segunda etapa, a equipa do Arquivo.pt executou iterativamente 6 recolhas (99 milhões de ficheiros web, 4,8 TB) utilizando diferentes configurações e software de recolha, para maximizar a qualidade do conteúdo recolhido.

Os dados web obtidos foram agregados numa coleção especial identificada como EAWP23 e tornaram-se pesquisáveis e acessíveis através do Arquivo.pt em julho de 2020 (https://arquivo.pt/ee2019).

Projeto CLEOPATRA: Cross-lingual Event-centric Open Analytics Research Academy

Daniel Gomes e Diego Alves se apresentando no evento final do CLEÓPATRA — Daniel Gomes e Diego Alves apresentando no evento final do CLEÓPATRA.

A CLEOPATRA ITN foi uma Rede de Formação Inovadora Marie Skłodowska-Curie destinada a gerar formas de compreender melhor a cobertura digital massiva de grandes eventos na Europa durante as últimas décadas.

O principal objetivo era facilitar o processamento avançado multilíngue em grande escala de informações textuais e visuais acerca dos principais eventos contemporâneos e desenvolver métodos inovadores para acesso e interação eficientes com informações multilíngue.

No total, 14 pesquisadores em estágio inicial hospedados em 9 universidades europeias desenvolveram suas pesquisas enquanto estavam matriculados como estudantes de doutoramento.

Parceiros associados como o Arquivo.pt contribuíram para o CLEOPATRA acolhendo e formando investigadores em início de carreira como Diego Alves. No âmbito do programa de formação, este investigador realizou um estágio no Arquivo.pt em Lisboa de junho a agosto de 2022.

A ideia era desenvolver parte da sua investigação sobre estruturas sintáticas das línguas da UE utilizando os recursos textuais preservados pelo Arquivo.pt e trocar conhecimentos com os especialistas em preservação da web sobre estratégias de extração e processamento de dados históricos da web.

Diego Alves defendeu a sua tese de doutoramento intitulada Computational typological analysis of syntactic structures in European languages em julho de 2023 na Faculdade de Ciências Humanas e Sociais da Universidade de Zagreb (Croácia).

Gerando conjuntos de dados textuais para processamento de linguagem natural

O trabalho de Diego Alves originou conjuntos de dados multilíngues sobre as Eleições Parlamentares Europeias de 2019 que constituem recursos preciosos para investigação científica.

Este trabalho será detalhado no capítulo “Robustness of Corpus-based Typological Strategies for Dependency Parsing” do livro de acesso aberto CLEOPATRA intitulado “Event Analytics across Languages and Communities”.

Um fluxo de Processamento de Linguagem Natural em 3 etapas foi desenvolvido para gerar conjuntos de dados textuais que podem ser usados em diversos tipos de estudos na área de Humanidades Digitais:

Extrair texto: O conteúdo textual foi extraído de cada URL arquivado usando a biblioteca Python newspaper3k. O idioma de cada texto extraído foi determinado usando a biblioteca langdetect e os textos escritos em diferentes línguas foram armazenados em ficheiros distintos;
Limpar textos extraídos: um script Python foi aplicado para limpar os textos removendo informações desnecessárias (ex.: instâncias repetidas, linhas vazias, etc.);
Dupla verificação de identificação de língua: a língua de cada texto extraído e limpo foi verificada novamente para eliminar possíveis erros originados durante as etapas anteriores.

Dois novos conjuntos de dados para investigação em acesso-aberto!

Um dos resultados obtidos foi um conjunto de dados contendo textos agrupados por língua disponível publicamente. Cada ficheiro contém os textos numa determinada língua sobre as Eleições da União Europeia de 2019. A distribuição dos textos extraídos para cada língua está descrita na figura abaixo:

Número de tokens de cada corpus extraídos da coleção Eleições da União Europeia 2019 preservados pelo Arquivo.pt (EAWP23).

O referido corpus foi anotado automaticamente quanto às relações gramaticais e de dependência para gerar um corpus com informações sintáticas úteis para estudos linguísticos.

Foi aplicado o modelo multilíngue da ferramenta UDify (Kondratyuk e Straka, 2019).

Os textos anotados seguiram a mesma ordem dos respetivos ficheiros de texto originais. Cada frase foi anotada seguindo a Universal Dependencies framework no formato CoNNL-U, que é a referência em termos de anotação sintática em Processamento de Linguagem Natural. Assim, cada ficheiro deste conjunto de dados contém os textos anotados numa determinada língua sobre as Eleições da União Europeia de 2019.

Os textos anotados sintaticamente sobre as Eleições Europeias de 2019 estão disponíveis ao público!

Saber mais

Robustness of Corpus-Based Typological Strategies for Dependency Parsing, Event Analytics across Languages and Communities, 2024
Secondments@Arquivo.pt e novas ferramentas de investigação disponíveis e Robustness of Corpus based Typological Strategies for Dependency Parsing” , apresentação no evento final do CLEOPATRA, 2023
Conjunto de dados de textos limpos e com língua verificada sobre as eleições europeias de 2019 (textos brutos)
Conjunto de dados de textos anotados sintaticamente sobre as Eleições Europeias de 2019 (textos CoNLL-U)
Script Python para extrair textos de línguas específicas do Arquivo.pt através de uma lista de palavras-chave
Análise tipológica computacional de estruturas sintáticas em línguas europeias, Tese de doutorado de Diego Alves, 2023
Diego Alves personal page
API do Arquivo.pt
Robustness of Corpus-based Typological Strategies for Dependency Parsing, Diego Alves and Daniel Gomes, Event Analytics across Languages and Communities book, Springer.

Arquivo.pt preserva referências da Wikipedia

Dezembro 11, 2024Agosto 18, 2023 por admin

Última atualização em 11 de Dezembro de 2024 às 10:34

A Wikipedia é um recurso educativo degradado por links quebrados

O Arquivo.pt preserva informação publicada online para que possa vir a ser utilizada para fins de investigação e educação. Por exemplo, o Arquivo.pt preservou informação online acerca de projectos europeus financiados pelo H2020.

Os artigos da Wikipedia referenciam páginas externas com importante informação complementar que entretanto ficou indisponível.

Um dos recursos online mais usados para fins de educação são os artigos da Wikipedia. Porém, por vezes os artigos da Wikipedia referenciam páginas externas com importante informação complementar que entretanto ficou indisponível nos seus websites de origem. Este problema degrada a qualidade da Wikipedia como fonte credível e verificável de informação.

Em agosto de 2023, a equipa do Arquivo.pt realizou uma experiência para medir a percentagem de links externos (fora do domínio wikipedia.org) que estavam quebrados em artigos da Wikipedia portuguesa. Os resultados obtidos mostraram que 25% dos links externos referenciados na Wikipedia portuguesa estavam quebrados.

Acresce o problema de que uma ligação pode referenciar um conteúdo ainda disponível, mas este pode já não ser o que se pretendia referenciar no artigo da Wikipedia, porque o domínio pode ter sido entretanto comprado por terceiros, por exemplo para fins maliciosos (problema de Content Drift).

Para mitigar estes problemas, o Arquivo.pt lançou um projecto para preservar as referências online contidas nos artigos da Wikipedia Portuguesa em colaboração com a Wikimedia Portugal. O objetivo foi alterar as referências para ligações quebradas em artigos na Wikipedia, para passarem a referenciar conteúdos preservados no Arquivo.pt, mantendo assim a informação referenciada acessível aos utilizadores da Wikipedia.

Arquivo.pt preservou as páginas referenciadas nos artigos da Wikipedia Portuguesa

A Wikipedia portuguesa contém cerca de 1 milhão de artigos e em média são editadas 140 páginas por dia.

O Arquivo.pt extraiu automaticamente 14 milhões de ligações a partir das referências em todos os artigos da Wikipedia portuguesa. Destas ligações, observou-se que apenas 620 referenciavam o Arquivo.pt e 744 553 o Internet Archive (5,3%). Note-se que o guia da Wikipedia para criar referências recomenda a publicação de citações para arquivos da web (parâmetro arquivourl/archive-url).

No dia 15 de fevereiro de 2023, o Arquivo.pt recolheu todas as páginas referenciadas em artigos da Wikipedia portuguesa, o que resultou numa nova coleção nomeada EAWP42: Collection of external links from wikipedia using the wikimedia dumps que contém 12 milhões de ficheiros (856 GB).

O principal resultado deste projeto foi a criação de um novo processo automático para extrair e recolher os links externos citados em páginas da Wikipedia portuguesa. Este processo passou a fazer parte da operação das recolhas do Arquivo.pt, sendo realizada uma recolha anual das citações da Wikipedia.

Tentativa de consertar automaticamente os links quebrados nos artigos da Wikipedia

O InternetArchiveBot oferece poderosas ferramentas de operação e monitorização (ex. Dashboard e Insights)

Existem robôs de software que adicionam automaticamente ligações para versões arquivadas em artigos da Wikipedia quando encontram ligações quebradas (ex. Pywikibot, Wayback Medic e InternetArchiveBot).

Foi realizada uma experiência para criar um ArquivoPTBot baseado no InternetArchiveBot porque é oferece poderosas ferramentas de operação e monitorização (ex. Dashboard e Insights) e é mantido pelo Internet Archive: o maior arquivo da web do mundo.

Porém, não foi possível lançar este serviço em produção porque implica alterações no sistema para utilizar o Arquivo.pt como fonte de informação arquivada. Se quiser colaborar para conseguirmos retomar este projeto contacte-nos!

Preservar as referências da Wikipedia está ao seu alcance!

O Arquivo.pt continua comprometido em contribuir para preservar os links das referências da Wikipedia e oferece os seguintes serviços que lhe podem ser úteis.

Arquivo.pt CitationSaver: preserva citações a conteúdos online (https://arquivo.pt/citationsaver).

O CitationSaver permite-lhe submeter o código do artigo da Wikipedia e o Arquivo.pt irá automaticamente extrair os links contidos e, arquivar os conteúdos respectivos.

Arquivo.pt SavePageNow: grava páginas no Arquivo.pt (https://arquivo.pt/savepagenow). — Arquivo.pt ArchivePageNow: grava páginas no Arquivo.pt (https://arquivo.pt/archivepagenow).

O ArchivePageNow permite-lhe arquivar imediatamente uma página no Arquivo.pt, por exemplo, que esteja a ser referenciada num artigo da Wikipedia para que não se perca.

Formações Arquivo.pt/Wikimedia

A Wikimedia Portugal em colaboração com o Arquivo.pt promoveu um conjunto de webinars que visou captar a atenção da comunidade para a preservação dos conteúdos publicados e citados na Wikipedia. Os vídeos e slides destes webinars estão disponíveis:

Conheça os vencedores do Prémio Arquivo.pt 2023!

Agosto 6, 2024Junho 27, 2023 por Ricardo Basílio

Última atualização em 6 de Agosto de 2024 às 17:24

Os vencedores do Prémio Arquivo.pt 2023 foram anunciados pelo Jornal Público, parceiro oficial de comunicação desta edição, no dia 26 de junho.

Foram recebidos 40 trabalhos candidatos.

A cerimónia de entrega de prémios decorreu na sessão de encerramento do Encontro Ciência, a 7 de julho, na Universidade de Aveiro.

1º classificado – “Viajar no tempo sobre carris”

O vencedor do prémio no valor de 10 000 euros foi o trabalho “Viajar no tempo sobre carris” desenvolvido por Antero Pires, Carlos Cipriano, Diogo Ferreira Nunes e Ruben Martins.

“Viajar no tempo sobre carris” é uma plataforma online que analisa e apresenta a evolução dos tempos de viagens de comboio em Portugal, com base nos horários preservados no Arquivo.pt.

Por exemplo, permite ver a duração da viagem Lisboa-Porto no Alfa Pendular desde o ano 2000.

2º classificado – “Representatividade das mulheres artistas na imprensa nacional”

O 2º prémio no valor de 3 000 euros foi atribuído ao trabalho “Representatividade das mulheres artistas na imprensa nacional”, da autoria de Cláudia Sevivas e Miguel Boavida.

Este trabalho resultou no website Existo que disponibiliza informação sobre as artistas portuguesas, refere as páginas Web em que foram mencionadas ao longo do tempo. O trabalho baseia-se numa análise da sua representação e visibilidade que permite várias leituras.

Por exemplo, podemos encontrar informação sobre a artista plástica Joana Vasconcelos, notícias de outras artistas em determinado ano ou ainda obter uma visualização gráfica das mulheres artistas em comparação com os homens.

3º classificado – “Memória Política”

O 3º classificado recebeu um prémio no valor de 2 000 euros e foi atribuído ao trabalho “Memória Política”, desenvolvido por Miguel Lopes, Maria Carneiro e João Andrade.

“Memória Política” é uma aplicação Web que processa e apresenta informação retirada das páginas web dos partidos políticos representados na Assembleia da República, arquivadas pelo Arquivo.pt.

Por exemplo, permite pesquisar o termo “democracia” e obter páginas dos sites dos Partidos relacionadas com a pesquisa, podendo os resultados ser agrupados por Partido e por ano.

Menção Honrosa do Público

O jornal Público, parceiro oficial da 6ª edição do Prémio Arquivo.pt, atribuiu a sua Menção Honrosa ao trabalho “Fábrica do Jornal”, realizado por Miguel Almeida.

“Fábrica do Jornal” é uma aplicação Web que permite ao utilizador gerar um jornal personalizado a partir de notícias preservadas no Arquivo.pt, podendo obter uma versão que pode imprimir ou guardar em formato digital.

Menção Honrosa AMCC – Aveiro Media Competence Center

O Aveiro Media Competence Center (AMCC), atribuiu a sua Menção Honrosa ao trabalho “Imaginarium”, realizado por Diogo Sousa.

“Imaginarium” é uma aplicação Web que faz pesquisa de imagens a partir de semelhanças com outras imagens.

Por exemplo, a partir da sugestão de uma imagem de um automóvel, o “Imaginarium” procura imagens no Arquivo.pt que tenham alguma afinidade com a imagem sugerida.

Entrevista rápida ao Diretor Executivo da AMCC

Cerimónia de entrega

A entrega de prémios realizou-se na sessão de encerramento do Encontro Ciência 2023, na Universidade de Aveiro, a 7 de julho de 2023.

Os prémios foram entregues pela Ministra da Ciência, Tecnologia e Ensino Superior, Elvira Fortunato, pela Presidente do Conselho Diretivo da FCT, Madalena Alves e pelo Diretor Executivo do Aveiro Media Competence Center, João Moraes Palmeiro.

Galeria de imagens

Cerimónia de Entrega Prémio Arquivo.pt 2023

Entrevistas rápidas

Vídeo da entrega

Encontro Ciência 2023 – Sessão Plenária 6 (sessão de encerramento)

Materiais de divulgação

Imprensa

Os horários de comboio mostram que as viagens não estão mais rápidas, pelo contrário. Notícia do Público, 26/06/2023.

Saber mais

Link curto para esta página: arquivo.pt/vencedores2023

Participação do Arquivo.pt em eventos internacionais sobre arquivos da Web

Agosto 1, 2023Junho 16, 2023 por Ricardo Basílio

Última atualização em 1 de Agosto de 2023 às 12:54

Encontro com a comunidade dos arquivos da Web

O Internacional Internet Preservation Consortium (IIPC), consórcio que reune inicitivas de preservação da Web de todo o mundo, realizou a Assembleia Geral com os seus associados no dia 10 de maio de 2023.

Nos dias seguintes, 11 e 12 de maio, realizou-se a IIPC Web Archiving Conference (IIPC WAC), uma iniciativa aberta à comunidade, onde podem participar pessoas ou entidades não associodas ao IIPC e interessadas no domínio da preservação da Web.

O acolhimento dos dois eventos foi feito conjuntamente pela KB – National Library of the Netherlands, e pelo Beeld & Geluid – Netherlands Institute for Sound & Vision.

Contributos do Arquivo.pt na Web Archiving Conference

O Arquivo.pt participou nas reuniões dos grupos de trabalho do IIPC (Training Working Group e Curators Working Group) e contribuiu com apresentações nas sessões temáticas Collaborations & Outreach e Program infrastructure (sessões 7 e 17).

Arquivo.pt updates 2023 (slides)
Linking web archiving with arts and humanities: the collaboration between ROSSIO and Arquivo.pt (video, slides)
Arquivo.pt behind the curtains (slides)

Encontro com a comunidade dos investigadores RESAW

RESAW (Research Infrastructure for the Study of Archived Web Materials) é uma iniciativa criada em 2012 com o objetivo de promover os estudos baseados em conteúdos Web arquivados, em áreas como Ciências Sociais, Artes e Humanidades Digitais.

A conferência RESAW 2023 foi realizada no MUCEM Lab (Mediterranean Institute of Heritage Crafts), em Marselha, de 5 a 6 de junho de 2023, sob o tema Exploring the Archived Web During a Highly Transformative Age.

Contributos do Arquivo.pt no RESAW 2023

O Arquivo.pt contribuiu com apresentações para as sessões Web Archive in Mediterranean area and its merge(4.A,), From online Tools to Web Archive (6.B.), Towards a participatory approach to collections (9. A.), Digging up the materials for writing web history (9.B.).

How to research governmental web data? (abstract, slides)
Archiving Cryptocurrencies (abstract, slides)
Time to explore, time to learn from the archived web: Arquivo.pt training initiative (abstract, slides)
Exhibiting Web Memories from Arquivo.pt: a call for community participation (abstract, slides)

Encontro do Projeto CLEOPATRA

O Projeto CLEOPATRA, liderado pelo L3S Research Center at the Gottfried Wilhelm Leibniz University of Hannover, desenvolveu desde 2019 um progama de formação para investigadores doutorandos (Early Stage Researcher, PhD).

O Arquivo.pt participou em três cursos: Incentives design for hybrid multilingual information processing and analytics, em Southampton; National and transnational media coverage of European parliamentary elections, 2004-2014, Londres; e NLP for under-resourced languages, em Zagreb, na Croácia.

Em 2022, o Arquivo.pt acolheu dois investigadores nas suas instalações os quais utilizaram os recursos arquivados e tiveram apoio especial da equipa do Arquivo.pt para desenvolverem a sua investigação.

O projeto CLEOPATRA terminou em 2023 com a realização de um encontro a 16 de maio, em Hannover, que reuniu professores, investigadores e representantes de instituições envolvidas.

Daniel Gomes, Gestor do Arquivo.pt, destacou as novas ferramentas que o Arquivo.pt disponibiza e os resultados dos trabalhos realizados pelos investigadores que passaram pelo Arquivo.pt.

Secondments@Arquivo.pt and new research tools available (Slides)