Programa de mobilidade das Bibliotecas do Ensino Superior levou profissionais ao Arquivo.pt

FCCN_A Minha Biblioteca_24 maio 2024_2

Última atualização em 30 de Maio de 2024 às 14:02

Arquivo.pt operado pela FCCN FCT e localizado no Campus do LNEC
Arquivo.pt operado pela FCCN FCT, localizado no Campus do LNEC, na Avenida do Brasil, em Lisboa.

No dia 24 de maio, a FCCN recebeu pela primeira vez profissionais de Bibliotecas do Ensino Superior (BES) no âmbito do programa dinamizado pelo Grupo Trabalho das Bibliotecas do Ensino Superior (GT-BES) da Associação Portuguesa de Bibliotecários, Arquivistas, Documentalistas e Profissionais da Informação (BAD), A minha biblioteca é a tua biblioteca.

Trata-se de um programa de mobilidade que tem como objetivo a realização de visitas de curta duração tendo em vista a troca de experiências e o contacto, in loco e hands on, com boas práticas, fomentando a colaboração e o conhecimento das BES portuguesas entre os profissionais da área.

Serviços avançados para o conhecimento

Nesta primeira edição do programa na FCCN, foi proposto às colegas participantes (3 profissionais da Universidade de Lisboa e 1 da Universidade Católica do Porto) um percurso pelos serviços digitais de apoio às instituições do ensino superior que são operados pela FCCN- FCT

Alguns serviços são conhecidos dos profissionais da informação, como por exemplo, a B-On e o RCAAP. Outros são serviços de backoffice e, por isso,  menos visíveis, mas fundamentais para as instituições de ensino superior. Por exemplo, o Eduroam que garante o acesso à Internet, o RCTSaai para a autenticação ou o RCTS CERT para responder a incidentes de segurança.

Destaque para os serviços Arquivo.pt e NAU

No decorrer dia, estiveram em destaque o Arquivo.pt e a Plataforma NAU, dois serviços da área do conhecimento que estão disponíveis para as Instituições do Ensino Superior e também para a sociedade.

A equipa do Arquivo.pt mostrou o backoffice deste serviço de preservação da Internet em Portugal e realizou um exercício prático de gravação e integração de conteúdos no arquivo da Web.

A Plataforma NAU,  é uma plataforma de MOOCs (Massive Open Online Courses) criada com o propósito de democratizar o conhecimento, promover a literacia digital, possibilitar o ensino e formação a comunidades alargadas de utilizadores, em particular à população portuguesa e lusófona.

Mais recentemente, com a sua integração na plataforma norte-americana edx.org, também a todos os potenciais formandos falantes de língua portuguesa dispersos pelo mundo. Às participantes no programa foi explicado e exemplificado como construir cum curso MOOC na plataforma edx.

O programa incluiu, ainda, uma visita ao Data Center e ao Estúdio de televisão profissional existente na FCCN.

Visita dos participantes no programa de mobilidade das Bibliotecas do Ensino Superior ao Estúdio da FCCN
Visita dos participantes no programa de mobilidade das Bibliotecas do Ensino Superior, da BAD, ao Estúdio da FCCN.

Para saber mais

Semana de estágio Erasmus+ no Arquivo.pt de Praga a Lisboa

Visit to FCCN tv studio

Por: Marie Haškovcová and Luboš Svoboda, Webarchiv, National Library of the Czech Republic, 13 a  17 de maio de 2024.

Visita no âmbito do Erasmus+

Graças ao programa europeu Erasmus+ da UE, centrado na educação de adultos – mobilidade de pessoal, tivemos a oportunidade de passar uma semana a acompanhar o Arquivo.pt e comparar as estratégias do arquivo Web checo – Webarchiv – com as abordagens dos nossos colegas portugueses.

Em ambos os casos, trata-se de arquivos centrados em conteúdos nacionais (checos e portugueses) na Internet.

O Arquivo.pt

Enquanto o arquivo web checo faz parte da Biblioteca Nacional da República Checa, o arquivo português faz parte da FCCN, no âmbito da FCT – Fundação para a Ciência e a Tecnologia, que tem como objetivo contribuir para o desenvolvimento da ciência, da tecnologia e do conhecimento.

A FCT presta serviços de IT ao sistema de ensino superior e de Investigação português, bem como conetividade de alta velocidade à Internet. O contexto institucional de ambos os arquivos reflecte-se também nas especificidades dos seus conceitos.

A visita incluiu uma apresentação da equipa e dos espaços do campus e dos departamentos, uma apresentação das actividades de ambos os arquivos e uma discussão sobre os diferentes aspectos do nosso trabalho – ferramentas técnicas e curatoriais, tecnologias e processos, ambiente legislativo e questões éticas, armazenamento de dados, alguns serviços, actividades de investigação, perspectivas e planos futuros.

O arquivo da Web checo

O arquivo web checo foi fundado em 2000, as cópias de arquivo mais antigas datam de 2001 e tem atualmente mais de 580 TB de dados. Tal como o Arquivo.pt, recolhe conteúdos num domínio nacional com base numa lista de endereços URL obtida junto do seu fornecedor. Na sua estratégia de aquisição, complementa estas recolhas, ditas abrangentes, com recolhas temáticas e selectivas.

As colecções temáticas referem-se a um tópico ou evento específico, podem ser pontuais ou de construção contínua, e combinam recursos seleccionados manualmente e recursos extraídos automaticamente. As colecções selectivas destinam-se a ser recolhidas a longo prazo, têm registos de catalogação detalhados que fazem parte da bibliografia nacional checa e são licenciadas – as cópias de arquivo estão, portanto, disponíveis gratuitamente através do catálogo.

No âmbito das actividades de investigação em arquivos da Web, apresentámos o nosso projeto destinado a detetar as chamada web morta através da aplicação Extinct Websites e a criar uma base de dados que sirva de base para monitorizar mudanças mais amplas na web checa, bem como o projeto WACloud destinado a extrair grandes volumes de dados do arquivo da web.

Troca de conhecimentos e experiências

Entre os projectos portugueses, interessou-nos, por exemplo, o CitationSaver, e também discutimos o projeto Memorial, a recolha da Wikipédia portuguesa, e as actividades do arquivo português relacionadas com a formação sobre a preservação da Web (módulos de formação).

A reunião foi enriquecida pela discussão de colecções temáticas específicas.

  • A coleção de Net Art checa documenta a arte digital e a sua transformação no espaço em linha, proporcionando uma perspetiva histórica da arte única.
  • Outra coleção importante é a coleção “Redes sociais dos Membros do Parlamento da República Checa 2021-2025”, que preserva as comunicações e interacções em linha dos deputados checos, de valor inestimável para o estudo do marketing político e da vida política pública.
  • A coleção GitHub arquiva repositórios importantes desta popular plataforma para programadores, preservando os principais projectos de software nacionais e o seu código para as gerações futuras.
  • Por último, a coleção Crypto, NFT, Blockchain, Web3, Metaverse traça o crescimento e o impacto da tecnologia no espaço dos bens digitais. Estas colecções são recursos fundamentais para a investigação e análise da cultura, política e tecnologia digitais, e a discussão destas colecções em reuniões de arquivistas da Web contribui para o desenvolvimento de métodos de arquivo e inovação tecnológica.

Concentrámo-nos na troca de conhecimentos e experiências na identificação de endereços para gravar (seeds), na otimização do fluxo de trabalho e na partilha de dicas e aspectos técnicos.

Partilha de boas práticas

Discutimos as melhores práticas para identificar e recolher os principais recursos da Web, um passo fundamental para garantir um arquivo abrangente e representativo. Partilhámos várias estratégias para automatizar e simplificar os fluxos de trabalho, incluindo a utilização de ferramentas de raspagem da Web e filtragem avançada de conteúdos.

As conversas técnicas incluíram soluções para problemas comuns, como a recolha de páginas Web dinâmicas e a superação de restrições de acesso. A reunião constituiu uma plataforma valiosa para a partilha de métodos inovadores e para a promoção da colaboração entre peritos, promovendo o desenvolvimento de um arquivo digital eficaz e sustentável.

Erasmus+ visti to FCCN TV studio
Luboš Svoboda, curador digital, Marie Haškovcová,coordenadora do Webarchiv e Ricardo Basílio, curador digital do Arquivo.pt em visita ao Estúdio da FCCN, FCT.

 

Heritales e Crowd-Recycling mostram websites antigos do Alentejo no Dia Internacional dos Museus

Heritales Crowd-Recycling e Arquivo.pt no Dia Internacional dos Museus

O dia 18 de maio, Dia Internacional dos Museus, foi assinalado por todo o país com entradas gratuitas, visitas guiadas, animação de espaços e exposições relacionadas com a memória e o património.

O Arquivo.pt contribuiu com uma exposição de páginas antigas, intitulada “Memória Digital através da Internet do Passado”, que esteve patente num dos stands no Museu dos Coches, em Lisboa.

As páginas foram selecionadas para mostrar diversos aspetos do Alentejo ao longo do tempo. A partir de 2016, selecionou-se páginas relativas ao projeto Heritales.

Heritales e Crowd-Recycling chamaram a atenção para a preservação da memória da Internet

Heritales é um projeto sediado em Évora que tem por objetivo estudar e divulgar o património em todas as suas manifestações. É conhecido pelo seu evento principal criado em 2016, o HERITALES – International Heritage Film Festival.

Crowd-Recycling é um projeto focado nas boas práticas para a sustentabilidade.

O Heritales, o Crowd-Recycling e o Arquivo.pt concretizaram esta ação em colaboração com o objetivo de dar visibilidade aos conteúdos publicados na Web ao longo do tempo. Preservar e dar acesso aos conteúdos digitais é fundamental para valorizar o património.

Porque é que fazer uma exposição de websites antigos é um boa ideia

Fazer uma exposição de websites ao longo do tempo é relativamente fácil, bastando ter um tema que pode ser também a história de uma instituição e escolher páginas conservadas no Arquivo.pt.

Uma exposição de sites antigos é uma ideia original para o público-alvo. Muitas vezes apresenta textos e imagens que só existiram na Web.

Ao chamar a atenção para os websites damo-nos conta que muitas coisas ficaram por gravar e isso muda a nossa visão sobre os conteúdos que publicamos hoje. Passados a cuidar mais da gravação de páginas importantes, por exemplo, tomando medidas ou gravando-as na hora com o SavePageNow.

Heritales Crowd-Recycling e Arquivo.pt no Dia Internacional dos Museus
Heritales, Crowd-Recycling e Arquivo.pt presentes no Dia Internacional dos Museus no Museu dos Coches

Dia Mundial da Internet foi a 17 de maio

No dia anterior ao Dia Internacional do Museus assinalou-se o Dia Mundial da Internet (17 de maio). A proximidade das duas comemorações vem mesmo a propósito do tema da preservação da memória.

Portugal ligou-se à Internet, pela primeira vez, em 1991, com o projeto da FCCN “Serviço IP da RCCN”.

Para relembrar como tudo aconteceu, deixamos-lhe as três sugestões que a FCCN publicou nas redes sociais para este dia:

Arquivo.pt concorreu aos prémios do Digital Preservation Coalition

dpc-award-thumb

Os prémios do Digital Preservation Coalition

O Digital Preservation Coalition (DPC) é o consórcio britânico dedicado à promoção da preservação digital e das boas práticas associadas.

Os DPC Awards são uma forma de divulgar e promover casos de uso exemplares e inovadores, provenientes de candidaturas de todo o mundo.

Por essa razão, o Arquivo.pt aceitou o desafio e pretende dar a conhecer os seus serviços à comunidade internacional.

Um serviço de Portugal para o mundo

O Arquivo.pt é um serviço de preservação acessível na Internet e são cada vez mais os casos de uso do Arquivo.pt em estudos científicos por investigadores de outros países.

Os motivos para esse uso internacional do Arquivo.pt são, em primeiro lugar, o facto de no seu acervo ter conteúdos em várias línguas, como por exemplo acerca das Eleições Europeias de 2019, e em segundo lugar por ser extremamente inovador na pesquisa e no acesso à informação preservada em arquivos da Web.

Um investigador quer estiver na Alemanha, em Hong Kong, nos Estados Unidos ou no Brasil, pode pesquisar conteúdos por texto e por imagem, assim como treinar modelos de processamente automático de informação histórica através das Application Programming Interfaces (APIs) do Arquivo.pt.

Em 2024, o Arquivo.pt concorreu a duas categorias e apresentou os seus argumentos ao Júri do DPC Awards. Veja a apresentação resumida ou completa das candidaturas.

Catálogo de ferramentas do Arquivo.pt para preservação digital: The Award for Safeguarding the Digital Legacy

A informação que rege a vida atual nasce digital e é divulgada online. No entanto, objectos digitais de valor incalculável publicados em linha têm vindo a perder-se continuamente.

O Arquivo.pt é uma infraestrutura pública que apoia a preservação de objectos digitais publicados em linha para salvaguardar este legado digital para as gerações futuras.

Assim, em outubro de 2023, após 15 anos de investigação e desenvolvimento, o Arquivo.pt lançou um Catálogo de 13 ferramentas inovadoras para apoiar a preservação de conteúdos online em risco, desde a aquisição até à disseminação (por exemplo, pesquisa e acesso, APIs, formação, conjuntos de dados abertos, exposições).

O Arquivo.pt salvaguarda objectos digitais online de interesse mundial para a investigação e educação.

Pesquisa de imagens preservadas da Web: The Award for Research and Innovation

As imagens publicadas online são bens digitais preciosos que documentam a época contemporânea para as gerações futuras.

Esta iniciativa descreve a investigação e o desenvolvimento de um sistema inovador de pesquisa de imagens que permite a descoberta e o acesso a milhares de milhões de imagens preservadas, adquiridas na web desde a década de 1990.

Esta investigação foi aplicada para potenciar o arquivo web Arquivo.pt com um serviço de pesquisa de imagens disponível publicamente a qualquer utilizador da Internet, lançado oficialmente em agosto de 2022.

As publicações científicas e técnicas resultantes estão disponíveis em acesso aberto e o software desenvolvido está disponível como software livre de código aberto para ser reutilizado e melhorado pela comunidade.

Para saber mais

Análise às pesquisas dos utilizadores no Arquivo.pt

demo-wordcloud-arqu

Os query logs do Arquivo.pt são recursos únicos para investigação

O Arquivo.pt disponibiliza um serviço “tipo Google” (Google-like) que permite pesquisar páginas e imagens recolhidas da web desde a década de 1990. Note-se que a pesquisa do Arquivo.pt complementa os motores de busca da web, uma vez que permite a pesquisa temporal de informação que já não se encontra disponível online nos seus sítios originais.

A análise do comportamento dos utilizadores é um importante tópico de investigação para compreender as suas necessidades de informação e melhorar a qualidade dos resultados de pesquisa. Assim, quando um utilizador interage com um motor de pesquisa, este regista as acções do utilizador num ficheiro denominado query log (registo de pesquisas). Os query logs sobre arquivos da Web são recursos únicos para a investigação porque descrevem as necessidades reais dos utilizadores de arquivos da Web sobre informações históricas que foram publicadas em linha.

Estudo de caso

Flavie Gallois e Adam Jatowt, da Universidade de Innsbruck, e Ricardo Campos, da Universidade da Beira Interior e do INESC TEC, analisaram o comportamento de pesquisa dos utilizadores com base no conjunto de dados de pesquisas do Arquivo.pt recolhidos durante um período de 3 meses, entre junho e setembro de 2021 (Analyzing User Search Behaviour in Temporal Web Repositories through Search Query Log Analysis).

Este estudo analisou as características das pesquisas, como o comprimento, o tipo ou a frequência, e comparou os resultados obtidos com trabalhos anteriores sobre o comportamento de pesquisa dos utilizadores em arquivos da Web e em motores de pesquisa da Web em tempo real.

O estudo revelou tendências e padrões fundamentais sobre o modo como os utilizadores procuram informações nos arquivos da Web, o que motiva a realização de mais trabalhos de investigação.

Como é que os utilizadores de arquivos Web pesquisam?

Figure 1 : Distribution of country origin of users
Figura 1 : Distribuição por país de origem dos utilizadores
Figure 2: Distribution of languages used in queries
Figura 2: Distribuição por língua utilizadas nas pesquisas

Os utilizadores eram de Portugal em 85,7% das pesquisas. No entanto, a língua portuguesa foi identificada através da identificação automática da língua das pesquisas como sendo utilizada em apenas 37% das pesquisas. Isto sugere que os utilizadores utilizam outras línguas que não a sua para pesquisar em arquivos Web.

Os utilizadores do Arquivo.pt tendem a utilizar queries mais longas, com mais palavras e caracteres, em comparação com estudos anteriores, tanto em arquivos da web como em motores de busca live-web. Cerca de 92% das pesquisas tinham 5 ou menos termos (média de 25 caracteres), sendo 3 o número mais comum de termos submetidos. No trabalho anterior sobre o comportamento de pesquisa em arquivos da Web, observou-se que os utilizadores tendiam a submeter de 1 a 3 termos por pesquisa, sendo 1 termo a submissão mais comum.

Os utilizadores tendem a fazer várias consultas numa sessão, em vez de uma única pesquisa, o que pode indicar a necessidade de aperfeiçoar as suas consultas de pesquisa ou de explorar várias opções de pesquisa

87,7% das pesquisas submetidas ao Arquivo.pt utilizaram browsers de desktop (computadores de secretária), apesar de o Arquivo.pt disponibilizar interfaces de utilizador amigáveis para telemóveis, as páginas antigas arquivadas na web não são responsivas e são mal renderizadas em dispositivos móveis. Assim, é expetável que os utilizadores utilizem maioritariamente os arquivos web através dos seus desktops.

Figure 3: Arquivo.pt users can refine the time span of their queries by using the From and To datepickers.
Figura 3: Os utilizadores do Arquivo.pt podem refinar o período de tempo das suas pesquisas utilizando os selectores de data “De” e “Até” (From and To).

Os utilizadores refinaram o período de tempo da pesquisa (utilizando os marcadores de data) em cerca de 50% das pesquisas, o que indica uma consciência das necessidades temporais próprias da utilização de arquivos Web. Curiosamente, os utilizadores modificaram o seletor de data “De” com mais frequência do que o seletor de data “Até”. Note-se que a manutenção do período de tempo predefinido pode corresponder às necessidades de informação do utilizador e não indica necessariamente a falta de conhecimento da existência da função de definição do período de tempo (própria da pesquisa em arquivos Web).

Apenas uma pequena percentagem de utilizadores incluiu anos específicos nos seus termos de pesquisa (4%), o que pode sugerir que a função de intervalo de tempo foi insuficiente ou passou despercebida a alguns utilizadores.

Os resultados obtidos sugerem que os utilizadores estão mais conscientes das suas necessidades de informação e que melhoraram as suas técnicas de pesquisa para serem mais eficazes nos arquivos Web, em vez de os utilizarem apenas por curiosidade, como primeiros utilizadores.

O que é procurado num arquivo Web?

Os autores do estudo aplicaram o reconhecimento automático de entidades (automatic entity recognition) sobre as pesquisas dos utilizadores e obtiveram um conjunto de nuvens de palavras que fornecem graficamente uma ideia das necessidades de informação mais comuns dos utilizadores do Arquivo.pt:

Figure 4: Word cloud of the most frequent query terms submitted to Arquivo.pt.
Figura 4: Nuvem de palavras dos termos de pesquisa mais frequentes submetidos ao Arquivo.pt.
Figure 6: The most frequent Geographical Locations in query terms submitted to Arquivo.pt.
Figura 6: As localizações geográficas mais frequentes nos termos de pesquisa submetidos ao Arquivo.pt.

Figure 6: The most frequent Organizations in query terms submitted to Arquivo.pt

    Figura 6: As organizações mais frequentes nos termos de pesquisa submetidos ao Arquivo.pt.
Figure 7: The most frequent Persons in query terms submitted to Arquivo.pt.
Figura 7: As pessoas mais frequentes nos termos de consulta submetidos ao Arquivo.pt.

Acesso ao dados das pesquisas no Arquivo.pt (query dataset)

O Arquivo.pt lançou um conjunto de recursos para apoiar estudos de investigação sobre as pesquisas dos utilizadores (query dataset):

Métricas de avaliação para pesquisa em arquivos Web

O primeiro passo para compreender o comportamento do utilizador é definir métricas de avaliação. A definição de métricas é uma ferramenta poderosa para estabelecer objectivos a longo e a curto prazo para decidir que novos produtos e funcionalidades devem ser lançados aos utilizadores.

Partilhamos um relatório de trabalho em curso que agrega informações sobre as métricas de avaliação da pesquisa em arquivos da Web: Web Archive Search Evaluation Metrics . Isto contribui para comparar o comportamento de pesquisa dos utilizadores entre os motores de pesquisa da Web em direto e os dos arquivos da Web. Não hesite em comentar diretamente o documento colaborativo ou em contactar-nos.

Este relatório fornece também um resumo de referências sobre trabalhos anteriores, fluxos de pesquisa e estrutura dos correspondentes registos de pesquisa produzidos pelo Arquivo.pt, para facilitar o trabalho dos investigadores no estudo destes conjuntos de dados.

Para saber mais

Comemoração dos 50 anos do 25 de Abril com o Arquivo.pt

50anos25abril-ArquivoPT-IG-Feed-2

O Arquivo.pt associou-se às comemorações dos 50 anos do 25 de Abril no âmbito das iniciativas promovidas pela Fundação para a Ciência e a Tecnologia, I.P. (FCT), em parceria com a Estrutura de Missão – Comissão Comemorativa 50 anos 25 de Abril.

As iniciativas foram as seguintes: uma viagem no tempo, uma recolha especial sobre o tema “25 de Abril”, uma comunicação no Congresso Internacional 50 anos de Abril e a inclusão de uma menção especial na edição de 2025 do Prémio Arquivo.pt.

Exposição “Memórias do 25 de Abril na Internet”

A exposição Memórias do 25 de Abril na Internet apresenta uma seleção de páginas Web sobre as comemorações do 25 de Abril em diversas regiões do país, desde o princípio da Web na década de 1990.

Os critérios para a escolha das páginas da exposição foram os seguintes:

  • Páginas relativas a comemorações do 25 de Abril;
  • Páginas encontradas no Arquivo.pt em datas próximas da efeméride, em cada ano;
  • Diversidade para incluir diversas zonas do país;
  • Manifestações populares e cerimónias oficiais.

Uma memória histórica sem os arquivos da Web é incompleta. Com esta viagem no tempo pretende-se convidar os cidadãos a viajarem no tempo, percorrendo páginas Web antigas e reavivando episódios recentes da nossa vida em democracia.

Visite a exposição: arquivo.pt/50anos25abril

Recolha especial sobre o 25 de Abril

Para assinalar a efeméride, o Arquivo.pt realizou uma recolha especial sobre o tema “25 de Abril” e disponibilizou os resultados num conjunto de dados abertos, publicado no portal Dados.gov.

O conjunto de dados contém uma lista de palavras-chave colocadas num motor de busca a fim de obter resultados sobre o tópico “25 de Abril”.  Na pesquisa considerou-se nomes de pessoas, lugares, aspetos políticos, sociais, culturais e ainda palavras associadas ao acontecimento.

As pesquisas foram realizadas no dia 22 de março de 2024 utilizando o Bing Search API, um serviço de pesquisa automática que devolve resultados de acordo com critérios de relevância do próprio serviço Bing e de outros configurados por nós.

No total foram obtidos 12.650 endereços únicos de páginas Web. Espera-se que a gravação destas páginas seja útil para as organizações que produziram esses conteúdos, para os investigadores que pretendem estudar a nossa história e para os cidadãos que cultivam o sentido da memória e da democracia.

Participação no Congresso Internacional 50 anos de Abril

memorial-congresso-internacional-50anos25abril
João Gomes, Diretor Serviços Avançados, FCCN-FCT apresentando o serviço Memorial do Arquivo.pt no Congresso Internacional 50 anos de Abril

No dia 2 de maio de 2024, João Gomes, Diretor dos Serviços Avançados da FCCN Unidade de Computação Científica da Fundação para a Ciência e a Tecnologia I.P., apresentou o Arquivo.pt aos participantes do Congresso Internacional 50 anos de Abril, como um serviço distinto, aberto aos cidadãos e útil para as organizações.

Este evento organizado pela Comissão Comemorativa 50 anos 25 de Abril e pela Universidade de Lisboa e incluiu uma apresentação de dois serviços da FCT para os cidadãos: o Arquivo.pt e os cursos massivos online da NAU.

O Arquivo.pt é um serviço de preservação da Web disponível para todos os cidadãos que pretendem pesquisar conteúdos antigos publicados na Web.

A utilização do Arquivo.pt contribui para uma melhor compreensão da nossa história. Além disso, fornece serviços úteis para a cibersegurança, como por exemplo o Memorial do Arquivo.pt que é capaz de manter os sites antigos das instituições, prevenindo ataques e poupando-lhes recursos.

Menção especial “O 25 de Abril e a Democracia” no Prémio Arquivo.pt 2025

O Prémio Arquivo.pt realiza-se anualmente e distingue trabalhos que utilizem o Arquivo.pt.

Em 2025, na continuação das comemorações dos 50 anos do 25 de Abril, será incluída uma menção especial a trabalhos sobre o tema “O 25 de Abril e a Democracia”.

Desafia-se pois os investigadores e cidadãos interessados a criarem trabalhos inovadores utilizando o Arquivo.pt.

Para questões relacionadas com o Prémio Arquivo.pt, contacte-nos.

Arquivo.pt em Paris em evento internacional

GAWAC2024-website-banner

Última atualização em 8 de Maio de 2024 às 19:13

A equipa do Arquivo.pt participou na Web Archiving Conference e na Assembleia Geral do International Internet Preservation Consortium (GA&WAC 2024), evento que reúne anualmente iniciativas de arquivo da Web de todo o mundo.

A Bibliothèque Nacional de France (BNF), em parceria com o Institut Nationale de l’Audiovisuelle (INA), foi a anfitriã deste encontro que teve lugar de 24 a 25 de abril de 2024, no icónico edifício François Mitterrand, em Paris.

Durante três dias, mais de 200 participantes puderam partilhar conhecimento e experiência sobre a preservação da informação publicada na Web.

O Arquivo.pt contribuiu com as seguintes apresentações:

  • Training the Trainers – Helping Web Archiving Professionals become Confident Trainers (Pre-Conference Workshop, Training Working Group) – Ricardo Basílio (Abstract, slides)
  • 80 Thousand Pages On Street Art : Exploring Techniques To Build Thematic Collections (Session#02: unique content) – Ricardo Basílio (Abstract, slides)
  • Renascer Project Brings Back Old Websites at Arquivo.pt – Ricardo Basílio, Daniel Gomes  e Vasco Rato (Session#04: Delivery & Access (Abstract, slides)
  • Arquivo.pt CitationSaver: Preserving Citations for Online Documents (Session#09: Digital Preservation) – Pedro Gomes, Daniel Gomes (Abstract, slides)
  • Fixing Broken Links with Arquivo404 (Poster session 2) – Vasco Rato, Daniel Gomes (Abstract, slides)

Formação sobre a preservação da Internet na Madeira

jornadas-fccn-2024-funchal-thumb

Última atualização em 8 de Maio de 2024 às 19:31

A equipa do Arquivo.pt esteve no Funchal, entre os dias 15 e 19 de abril de 2024, e  apresentou duas sessões distintas acerca da preservação da Web. A primeira teve lugar durante as Jornadas FCCN 2024 e a segunda foi um workshop, depois de terminado o evento, na sede da Agência Regional para o Desenvolvimento da Investigação, Tecnologia e Inovação (ARDITI).

Arquivo.pt nas Jornadas FCCN 2024

A sessão realizada durante as Jornadas FCCN intitulou-se “Arquivo.pt ao serviço da cultura” e teve por objetivo destacar duas colaborações do Arquivo.pt no domínio da cultura e do conhecimento, nomeadamente, com a Wikimédia Portugal e com o Museu Virtual do Turismo (MUVITUR).

Na sessão Zapping FCCN o Arquivo.pt apresentou o serviço Arquivo404 que permite aos sites oferecerem conteúdos históricos em vez da negativa “Página não encontrada”.

Workshop com a ARDITI

O Workshop pós-Jornadas, promovido pela ARDITI, foi aberto às instituições regionais e aos cidadãos em geral. Intitulou-se “O Arquivo.pt e a preservação da memória da Internet”.

Os conteúdos foram estruturados seguindo o programa de formação que o Arquivo.pt e precedidos pelo enquadramento entre os outros serviços da FCCN – Computação Científica da FCT.

Tão importante como os conteúdos foi o diálogo que se estabeleceu durante as sessões entre os participantes e a equipa do Arquivo.pt para esclarecer dúvidas ou para colocar questões.

A preservação da Web é cada vez mais importante para as organizações que pretendem conservar parte da memória institucional e desenvolver políticas de segurança.

A ARDITI deu um sinal importante acerca da preservação da memória Web das instituições madeirenses ao acolher e promover as ações formativas do Arquivo.pt.

Se pretende promover a preservação de conteúdos Web na sua organização consulte a formação do Arquivo.pt e contacte-nos.

Mais informação

Inteligência Artificial processa dados preservados no Arquivo.pt

Artificial Intelligence AI

Última atualização em 9 de Maio de 2024 às 11:55

Inteligência Artificial (IA), conhecida também pela sigla AI, de Artificial Intelligence, abrange várias áreas do conhecimento, tais como a linguística e a computação, e está presente nas novas tecnologias utilizadas no dia-a-dia pelos cidadãos.

Por exemplo, quando procuramos uma informação na Internet e o computador gera uma resposta espantosamente adequada, numa linguagem muito próxima da nossa.

O processamento da linguagem natural (PLN), correspondente em inglês a Natural Language Processing, NLP, é o que permite que as máquinas aperfeiçoem o algoritmo que gera essas respostas à medida dos utilizadores da Internet.

O problema é que os modelos de processamento de linguagem natural foram desenvolvidos mais para a língua inglesa e menos para língua portuguesa e outras com menos representação.

Quanto mais os modelos de processamento forem treinados sobre uma língua mais capazes serão de interpretar as complexidades da linguagem. Mas isso só é possível se tiverem dados de qualidade.

Acervo de texto em português no Arquivo.pt  disponível para a investigação

O Arquivo.pt surge aqui como o maior conjunto de dados textuais em língua portuguesa de Portugal, disponível em acesso aberto, para os investigadores treinarem modelos de PLN.

Nos últimos anos foram os próprios investigadores, provenientes de vários grupos e projetos de investigação, que chamaram a atenção para a utilidade dos dados preservados da Web para processamento em larga escala.

O Arquivo.pt tem mais de 1 Petabyte de conteúdos preservados da Web, desde a década de 1990, onde se inclui tudo o que se pode encontrar nas páginas Web. Não se trata apenas de texto, mas também de imagens, ficheiros áudio, vídeo, o código das páginas e diversos metadados.

Os conteúdos estão acessíveis através da interface de pesquisa e das APIs do Arquivo.pt.

Para maior facilidade de descarregamento em massa de recursos arquivados na Web, o Arquivo.pt criou para os investigadores informação já processada em índices no formato CDXJ.

GlórIA, um modelo para a língua portuguesa

Um dos projetos que utilizou o Arquivo.pt para obter grande quantidade de texto denomina-se GlórIA e é um modelo de linguagem em larga escala (LLM, Large Language Model) focado na língua portuguesa europeia.

“Apesar da abundância de LLMs para muitas línguas de recursos elevados, a disponibilidade de tais modelos continua a ser limitada para o português europeu”, como explicam os autores do GlórIA, Ricardo Lopes, João Magalhães, David Semedo, investigadores da Faculdade de Ciência e Tecnologia da Universidade Nova de Lisboa, no seu artigo GlórIA – A Generative and Open Large Language Model for Portuguese.

O modelo utilizou 35 milhões de tokens, ou expressões que as máquinas conseguem processar, provenientes de diversas fontes.

O Arquivo.pt contribuiu com uma coleção de 1,4 milhões de notícias e periódicos portugueses europeus arquivados no Arquivo.pt.

Pode experimentar a geração de texto em Português Europeu usando o GlórIA Inference API disponível na plataforma Hugging Face Model card.

Se pretender desenvolver um projeto ou um estudo utilizando o Arquivo.pt pode começar a sua prospeção e, se precisar  de ajuda, contacte-nos.

Para saber mais

 

Arquivo.pt no top 3 dos serviços governamentais em Portugal

portugal-digital-awards-2023

Última atualização em 17 de Janeiro de 2024 às 12:15

O Arquivo.pt, serviço nacional de preservação da Web, conquistou uma posição de destaque ao ser considerado um dos top 3 serviços governamentais nos Portugal Digital Awards de 2023. Este reconhecimento é um testemunho do papel crucial desempenhado pelo Arquivo.pt na preservação e acessibilidade do património digital de Portugal.

Os três finalistas na categoria Best Government Project (melhor projeto de transformação digital no setor da Administração Pública) foram o Arquivo.pt, a Associação Porto Digital e o Banco de Portugal que recebeu o galardão vencedor.

Missão e reconhecimento

O Arquivo.pt, desenvolvido pela FCCN, destaca-se como uma iniciativa inovadora no âmbito da preservação digital. A sua missão é recolher e arquivar conteúdos da Web, permitindo que os utilizadores acedam a versões passadas de páginas da Internet, documentos e outros recursos online.

portugal-digital-awards-2023

O reconhecimento nos Portugal Digital Awards destaca não apenas a importância da preservação digital, mas também a eficácia e relevância do Arquivo.pt como serviço governamental. Ao proporcionar uma viagem no tempo através da Internet, este recurso torna-se uma ferramenta valiosa para investigadores, académicos e o público em geral.

Compromisso com a preservação digital

A participação no prémio sublinha o compromisso do Arquivo.pt em melhorar o registo histórico da evolução da Web em Portugal. Este serviço não só contribui para a memória digital do país, mas também facilita a investigação, promovendo a compreensão da evolução digital ao longo do tempo.

Além disso, a distinção do Arquivo.pt reflete o esforço contínuo da FCCN em desenvolver e aprimorar serviços inovadores que beneficiam a sociedade. A preservação digital é uma componente crucial para garantir que a herança digital de Portugal seja transmitida às gerações futuras, e o Arquivo.pt cumpre esse papel de forma única.

Em conclusão, o reconhecimento nos Portugal Digital Awards 2023, concurso que recebeu mais de 300 serviços candidatos, solidifica a posição do Arquivo.pt como um dos principais serviços governamentais na vanguarda da preservação digital. Este feito destaca a importância crescente da preservação digital na era digital em que vivemos.

Saber mais