O Instituto Politécnico de Lisboa (IPL), através do Grupo de Ensino à Distância (EaD@IPL), promoveu um ciclo de webinars para a sua comunidade dedicado ao Arquivo.pt e à preservação dos conteúdos publicados na Internet.
Esta iniciativa teve a participação de docentes e investigadores do IPL, bem como pessoas ligadas à comunicação da mesma instituição.
O ciclo de webinars realizou-se em três sessões, entre maio e julho de 2024, e seguiu o programa de formação que o Arquivo.pt disponibiliza há vários anos.
Materiais das apresentações
1º webinar – Arquivo.pt: uma nova ferramenta para pesquisar o passado. Bem publicar, para bem preservar (5 de junho)
Porque é importante fazer ações de formação acerca da preservação da Web
Os benefícios da formação com o Arquivo.pt vão muito para além da divulgação deste serviço.
As sessões de formação do Arquivo.pt são um espaço de motivação para que as pessoas e as instituições passem a cuidar melhor dos seus websites e dos conteúdos que publicam na Web. São dadas ferramentas que permitem uma utilização imediata e criativa do arquivo da Web.
Como resultado deste ciclo de Webinars reforçou-se a colaboração entre o Instituto Politécnico de Lisboa e o Arquivo.pt, tendo em vista a preservação dos sítios web institucionais e de outros conteúdos de interesse para comunidade do IPL que estão em diversos meios on-line.
Arquivo.pt operado pela FCCN FCT, localizado no Campus do LNEC, na Avenida do Brasil, em Lisboa.
No dia 24 de maio, a FCCN recebeu pela primeira vez profissionais de Bibliotecas do Ensino Superior (BES) no âmbito do programa dinamizado pelo Grupo Trabalho das Bibliotecas do Ensino Superior (GT-BES) da Associação Portuguesa de Bibliotecários, Arquivistas, Documentalistas e Profissionais da Informação (BAD), A minha biblioteca é a tua biblioteca.
Trata-se de um programa de mobilidade que tem como objetivo a realização de visitas de curta duração tendo em vista a troca de experiências e o contacto, in loco e hands on, com boas práticas, fomentando a colaboração e o conhecimento das BES portuguesas entre os profissionais da área.
Serviços avançados para o conhecimento
Nesta primeira edição do programa na FCCN, foi proposto às colegas participantes (3 profissionais da Universidade de Lisboa e 1 da Universidade Católica do Porto) um percurso pelos serviços digitais de apoio às instituições do ensino superior que são operados pela FCCN- FCT
Alguns serviços são conhecidos dos profissionais da informação, como por exemplo, a B-On e o RCAAP. Outros são serviços de backoffice e, por isso, menos visíveis, mas fundamentais para as instituições de ensino superior. Por exemplo, o Eduroam que garante o acesso à Internet, o RCTSaai para a autenticação ou o RCTS CERT para responder a incidentes de segurança.
Destaque para os serviços Arquivo.pt e NAU
No decorrer dia, estiveram em destaque o Arquivo.pt e a Plataforma NAU, dois serviços da área do conhecimento que estão disponíveis para as Instituições do Ensino Superior e também para a sociedade.
A equipa do Arquivo.pt mostrou o backoffice deste serviço de preservação da Internet em Portugal e realizou um exercício prático de gravação e integração de conteúdos no arquivo da Web.
A Plataforma NAU, é uma plataforma de MOOCs (Massive Open Online Courses) criada com o propósito de democratizar o conhecimento, promover a literacia digital, possibilitar o ensino e formação a comunidades alargadas de utilizadores, em particular à população portuguesa e lusófona.
Mais recentemente, com a sua integração na plataforma norte-americana edx.org, também a todos os potenciais formandos falantes de língua portuguesa dispersos pelo mundo. Às participantes no programa foi explicado e exemplificado como construir cum curso MOOC na plataforma edx.
O dia 18 de maio, Dia Internacional dos Museus, foi assinalado por todo o país com entradas gratuitas, visitas guiadas, animação de espaços e exposições relacionadas com a memória e o património.
O Arquivo.pt contribuiu com uma exposição de páginas antigas, intitulada “Memória Digital através da Internet do Passado”, que esteve patente num dos stands no Museu dos Coches, em Lisboa.
As páginas foram selecionadas para mostrar diversos aspetos do Alentejo ao longo do tempo. A partir de 2016, selecionou-se páginas relativas ao projeto Heritales.
Heritales e Crowd-Recycling chamaram a atenção para a preservação da memória da Internet
Heritales é um projeto sediado em Évora que tem por objetivo estudar e divulgar o património em todas as suas manifestações. É conhecido pelo seu evento principal criado em 2016, o HERITALES – International Heritage Film Festival.
Crowd-Recycling é um projeto focado nas boas práticas para a sustentabilidade.
O Heritales, o Crowd-Recycling e o Arquivo.pt concretizaram esta ação em colaboração com o objetivo de dar visibilidade aos conteúdos publicados na Web ao longo do tempo. Preservar e dar acesso aos conteúdos digitais é fundamental para valorizar o património.
Porque é que fazer uma exposição de websites antigos é um boa ideia
Fazer uma exposição de websites ao longo do tempo é relativamente fácil, bastando ter um tema que pode ser também a história de uma instituição e escolher páginas conservadas no Arquivo.pt.
Uma exposição de sites antigos é uma ideia original para o público-alvo. Muitas vezes apresenta textos e imagens que só existiram na Web.
Ao chamar a atenção para os websites damo-nos conta que muitas coisas ficaram por gravar e isso muda a nossa visão sobre os conteúdos que publicamos hoje. Passados a cuidar mais da gravação de páginas importantes, por exemplo, tomando medidas ou gravando-as na hora com o SavePageNow.
Heritales, Crowd-Recycling e Arquivo.pt presentes no Dia Internacional dos Museus no Museu dos Coches
Dia Mundial da Internet foi a 17 de maio
No dia anterior ao Dia Internacional do Museus assinalou-se o Dia Mundial da Internet (17 de maio). A proximidade das duas comemorações vem mesmo a propósito do tema da preservação da memória.
Portugal ligou-se à Internet, pela primeira vez, em 1991, com o projeto da FCCN “Serviço IP da RCCN”.
Para relembrar como tudo aconteceu, deixamos-lhe as três sugestões que a FCCN publicou nas redes sociais para este dia:
Os DPC Awards são uma forma de divulgar e promover casos de uso exemplares e inovadores, provenientes de candidaturas de todo o mundo.
Por essa razão, o Arquivo.pt aceitou o desafio para dar a conhecer os seus serviços à comunidade internacional.
A equipa do Arquivo.pt apresentou duas candidaturas aos DPC Awards 2024 nas categorias de “Award for Safeguarding the Digital Legacy” (prémio para a salvaguarda da herança digital) e “Award for Research and Innovation” (prémio para investigação e inovação).
Candidaturas do Arquivo.pt aos Prémios DPC
#1 Catálogo de ferramentas do Arquivo.pt para preservação digital
A informação que rege a vida atual nasce digital e é divulgada online. No entanto, objetos digitais de valor incalculável publicados em linha têm vindo a perder-se irremediavelmente.
O Arquivo.pt é uma infraestrutura pública que preserva objetos digitais publicados em linha para salvaguardar este legado digital para as gerações futuras.
As imagens publicadas online são artefactos digitais preciosos que documentam a época contemporânea para as gerações futuras.
Esta iniciativa descreve a investigação e o desenvolvimento de um sistema inovador de pesquisa de imagens que permite a descoberta e acesso a milhares de milhões de imagens preservadas da web desde a década de 1990.
Esta investigação foi aplicada para potenciar o Arquivo.pt com um serviço de pesquisa de imagens único no mundo e disponível publicamente a qualquer utilizador da Internet.
O Arquivo.pt é um serviço de preservação acessível na Internet e são cada vez mais os casos de uso do Arquivo.pt em estudos científicos por investigadores de outros países.
Os motivos para esse uso internacional do Arquivo.pt são o facto de preservar conteúdos em várias línguas, como por exemplo acerca das Eleições Europeias de 2019, e por ser inovador nos serviços que disponibiliza para pesquisa e acesso à informação preservada.
Assim sendo, um investigador de qualquer parte do mundo pode pesquisar textos, imagens ou treinar modelos de Inteligência Artificial com base na informação histórica preservada pelo Arquivo.pt.
As iniciativas foram as seguintes: uma viagem no tempo, uma recolha especial sobre o tema “25 de Abril”, uma comunicação no Congresso Internacional 50 anos de Abril e a inclusão de uma menção especial na edição de 2025 do Prémio Arquivo.pt.
Exposição “Memórias do 25 de Abril na Internet”
A exposição Memórias do 25 de Abril na Internet apresenta uma seleção de páginas Web sobre as comemorações do 25 de Abril em diversas regiões do país, desde o princípio da Web na década de 1990.
Os critérios para a escolha das páginas da exposição foram os seguintes:
Páginas relativas a comemorações do 25 de Abril;
Páginas encontradas no Arquivo.pt em datas próximas da efeméride, em cada ano;
Diversidade para incluir diversas zonas do país;
Manifestações populares e cerimónias oficiais.
Uma memória histórica sem os arquivos da Web é incompleta. Com esta viagem no tempo pretende-se convidar os cidadãos a viajarem no tempo, percorrendo páginas Web antigas e reavivando episódios recentes da nossa vida em democracia.
O conjunto de dados contém uma lista de palavras-chave colocadas num motor de busca a fim de obter resultados sobre o tópico “25 de Abril”. Na pesquisa considerou-se nomes de pessoas, lugares, aspetos políticos, sociais, culturais e ainda palavras associadas ao acontecimento.
As pesquisas foram realizadas no dia 22 de março de 2024 utilizando o Bing Search API, um serviço de pesquisa automática que devolve resultados de acordo com critérios de relevância do próprio serviço Bing e de outros configurados por nós.
No total foram obtidos 12.650 endereços únicos de páginas Web. Espera-se que a gravação destas páginas seja útil para as organizações que produziram esses conteúdos, para os investigadores que pretendem estudar a nossa história e para os cidadãos que cultivam o sentido da memória e da democracia.
Participação no Congresso Internacional 50 anos de Abril
João Gomes, Diretor Serviços Avançados, FCCN-FCT apresentando o serviço Memorial do Arquivo.pt no Congresso Internacional 50 anos de Abril
No dia 2 de maio de 2024, João Gomes, Diretor dos Serviços Avançados da FCCN Unidade de Computação Científica da Fundação para a Ciência e a Tecnologia I.P., apresentou o Arquivo.pt aos participantes do Congresso Internacional 50 anos de Abril, como um serviço distinto, aberto aos cidadãos e útil para as organizações.
O Arquivo.pt é um serviço de preservação da Web disponível para todos os cidadãos que pretendem pesquisar conteúdos antigos publicados na Web.
A utilização do Arquivo.pt contribui para uma melhor compreensão da nossa história. Além disso, fornece serviços úteis para a cibersegurança, como por exemplo o Memorial do Arquivo.pt que é capaz de manter os sites antigos das instituições, prevenindo ataques e poupando-lhes recursos.
Menção especial “O 25 de Abril e a Democracia” no Prémio Arquivo.pt 2025
O Prémio Arquivo.pt realiza-se anualmente e distingue trabalhos que utilizem o Arquivo.pt.
Em 2025, na continuação das comemorações dos 50 anos do 25 de Abril, será incluída uma menção especial a trabalhos sobre o tema “O 25 de Abril e a Democracia”.
Desafia-se pois os investigadores e cidadãos interessados a criarem trabalhos inovadores utilizando o Arquivo.pt.
Para questões relacionadas com o Prémio Arquivo.pt, contacte-nos.
A sessão realizada durante as Jornadas FCCN intitulou-se “Arquivo.pt ao serviço da cultura” e teve por objetivo destacar duas colaborações do Arquivo.pt no domínio da cultura e do conhecimento, nomeadamente, com a Wikimédia Portugal e com o Museu Virtual do Turismo (MUVITUR).
Na sessão Zapping FCCN o Arquivo.pt apresentou o serviço Arquivo404 que permite aos sites oferecerem conteúdos históricos em vez da negativa “Página não encontrada”.
O Workshop pós-Jornadas, promovido pela ARDITI, foi aberto às instituições regionais e aos cidadãos em geral. Intitulou-se “O Arquivo.pt e a preservação da memória da Internet”.
Os conteúdos foram estruturados seguindo o programa de formação que o Arquivo.pt e precedidos pelo enquadramento entre os outros serviços da FCCN – Computação Científica da FCT.
Tão importante como os conteúdos foi o diálogo que se estabeleceu durante as sessões entre os participantes e a equipa do Arquivo.pt para esclarecer dúvidas ou para colocar questões.
A preservação da Web é cada vez mais importante para as organizações que pretendem conservar parte da memória institucional e desenvolver políticas de segurança.
A ARDITI deu um sinal importante acerca da preservação da memória Web das instituições madeirenses ao acolher e promover as ações formativas do Arquivo.pt.
Se pretende promover a preservação de conteúdos Web na sua organização consulte a formação do Arquivo.pt e contacte-nos.
Inteligência Artificial (IA), conhecida também pela sigla AI, de Artificial Intelligence, abrange várias áreas do conhecimento, tais como a linguística e a computação, e está presente nas novas tecnologias utilizadas no dia-a-dia pelos cidadãos.
Por exemplo, quando procuramos uma informação na Internet e o computador gera uma resposta espantosamente adequada, numa linguagem muito próxima da nossa.
O processamento da linguagem natural (PLN), correspondente em inglês a Natural Language Processing, NLP, é o que permite que as máquinas aperfeiçoem o algoritmo que gera essas respostas à medida dos utilizadores da Internet.
O problema é que os modelos de processamento de linguagem natural foram desenvolvidos mais para a língua inglesa e menos para língua portuguesa e outras com menos representação.
Quanto mais os modelos de processamento forem treinados sobre uma língua mais capazes serão de interpretar as complexidades da linguagem. Mas isso só é possível se tiverem dados de qualidade.
Acervo de texto em português no Arquivo.pt disponível para a investigação
O Arquivo.pt surge aqui como o maior conjunto de dados textuais em língua portuguesa de Portugal, disponível em acesso aberto, para os investigadores treinarem modelos de PLN.
Nos últimos anos foram os próprios investigadores, provenientes de vários grupos e projetos de investigação, que chamaram a atenção para a utilidade dos dados preservados da Web para processamento em larga escala.
O Arquivo.pt tem mais de 1 Petabyte de conteúdos preservados da Web, desde a década de 1990, onde se inclui tudo o que se pode encontrar nas páginas Web. Não se trata apenas de texto, mas também de imagens, ficheiros áudio, vídeo, o código das páginas e diversos metadados.
Os conteúdos estão acessíveis através da interface de pesquisa e das APIs do Arquivo.pt.
Um dos projetos que utilizou o Arquivo.pt para obter grande quantidade de texto denomina-se GlórIA e é um modelo de linguagem em larga escala (LLM, Large Language Model) focado na língua portuguesa europeia.
Última atualização em 17 de Janeiro de 2024 às 12:15
O Arquivo.pt, serviço nacional de preservação da Web, conquistou uma posição de destaque ao ser considerado um dos top 3 serviços governamentais nos Portugal Digital Awards de 2023. Este reconhecimento é um testemunho do papel crucial desempenhado pelo Arquivo.pt na preservação e acessibilidade do património digital de Portugal.
Os três finalistas na categoria Best Government Project (melhor projeto de transformação digital no setor da Administração Pública) foram o Arquivo.pt, a Associação Porto Digital e o Banco de Portugal que recebeu o galardão vencedor.
Missão e reconhecimento
O Arquivo.pt, desenvolvido pela FCCN, destaca-se como uma iniciativa inovadora no âmbito da preservação digital. A sua missão é recolher e arquivar conteúdos da Web, permitindo que os utilizadores acedam a versões passadas de páginas da Internet, documentos e outros recursos online.
O reconhecimento nos Portugal Digital Awards destaca não apenas a importância da preservação digital, mas também a eficácia e relevância do Arquivo.pt como serviço governamental. Ao proporcionar uma viagem no tempo através da Internet, este recurso torna-se uma ferramenta valiosa para investigadores, académicos e o público em geral.
Compromisso com a preservação digital
A participação no prémio sublinha o compromisso do Arquivo.pt em melhorar o registo histórico da evolução da Web em Portugal. Este serviço não só contribui para a memória digital do país, mas também facilita a investigação, promovendo a compreensão da evolução digital ao longo do tempo.
Além disso, a distinção do Arquivo.pt reflete o esforço contínuo da FCCN em desenvolver e aprimorar serviços inovadores que beneficiam a sociedade. A preservação digital é uma componente crucial para garantir que a herança digital de Portugal seja transmitida às gerações futuras, e o Arquivo.pt cumpre esse papel de forma única.
Em conclusão, o reconhecimento nos Portugal Digital Awards 2023, concurso que recebeu mais de 300 serviços candidatos, solidifica a posição do Arquivo.pt como um dos principais serviços governamentais na vanguarda da preservação digital. Este feito destaca a importância crescente da preservação digital na era digital em que vivemos.
O Arquivo.pt foi criado a 8 de novembro de 2007 com o objetivo de preservar conteúdos da Web portuguesa.
Em 2013, enquanto serviço operado pela Fundação para a Ciência e a Tecnologia, a sua missão foi formulada nestes termos: “Promover a preservação de conteúdos disponíveis na Internet nacional, garantindo a disponibilização deste à comunidade científica e ao público em geral” (Decreto Lei nº55/2013).
Nos anos mais recentes, o Arquivo.pt tem criado novos serviços tais como o CitationSaver que permite aos investigadores gravarem as referências a conteúdos Web que constam nos seus artigos científicos. O Memorial e o Completar a Página facilitam o acesso aos conteúdos dispersos no enorme bloco de 1 PetaByte de dados.
De onde veio tanta informação?
Para atingir o volume de 1 PetaByte, o Arquivo.pt gravou periodicamente conteúdos dos sites do domínio .PT e de sites portugueses noutros domínios.
Além disso, foram feitas recolhas frequentes, diárias e mensais, a um pequeno conjunto de sites governamentais e aos principais sites noticiosos em Portugal.
No âmbito de colaborações internacionais, foram recolhidos conteúdos de sites em diversas línguas, como por exemplo sobre as Eleições Europeias de 2019.
Os conteúdos anteriores a 2008 vieram do Internet Archive e de doações, como é o caso de uma coleção feita pela Biblioteca Nacional e pelo INESC sobre as Eleições Legislativas de 2005.
O maior conjunto de dados em língua portuguesa em acesso aberto para os investigadores
Ao disponibilizar 1 PetaByte de informação, em acesso aberto e através do uso de APIs (Application Programming Interfaces), o Arquivo.pt é uma ferramenta útil para a investigação.
Por exemplo, um investigador que pretender fazer um estudo sobre as eleições em Portugal pode utilizar todo o acervo do Arquivo.pt. Melhor ainda, pode focar-se apenas em algumas recolhas especiais dedicadas às eleições, escolhendo as que lhe interessam e descarregando apenas alguns Terabytes para processar automaticamente com as APIs.
Contributo de diversas equipas e dos amigos do Arquivo.pt
Neste evento, realizado no auditório da Polícia Judiciária, em Lisboa, estiveram presentes representantes da área governativa da Justiça e profissionais no âmbito dos arquivos, da comunicação e dos departamentos de informática.
Como usar o Arquivo.pt para preservar os websites institucionais
O Arquivo.pt participou com a apresentação “Preserve o seu website” na qual se abordou a questão da preservação dos websites institucionais e aspetos cada vez mais importantes como a cibersegurança.
As entidades da área da Justiça podem beneficiar do Arquivo.pt e dos seus diversos serviços para assegurar uma boa preservação dos seus websites, mitigar ameaças à cibersegurança e fornecer conteúdos históricos aos cidadãos.
Como conclusão desta apresentação ficaram as seguintes recomendações:
Faça o inventário e dê a conhecer os seus Websites atuais e históricos
Use colaborativamente os serviços do Arquivo.pt
Grave no formato normalizado os conteúdos com o ArchiveWeb.page