Última atualização em 11 de Setembro de 2024 às 16:40
O Arquivo.pt contribuiu para a coleção internacional de páginas Web sobre os Jogos Olímpicos, que decorreram em Paris de 26 de julho a 11 de agosto de 2024, e os Jogos Paralímpicos que se realizaram de 28 de agosto a 8 de setembro.
No Arquivo.pt também ficarão disponíveis, passado um ano, as páginas desta coleção para quem quiser realizar estudos sobre desporto e olimpismo.
Como foram selecionadas as páginas sobre os atletas portugueses
Nos Jogos Olímpícos representaram Portugal 73 atletas em 15 modalidades, e nos Jogos Paralímpicos 27 atletas, em 10 modalidades.
O critério de seleção de páginas para a coleção internacional foram notícias sobre os atletas. Para cada atleta selecionou-se páginas referentes às suas expectativas antes dos jogos, à sua prestação na prova e aos seus comentários durante e após a competição.
Há atletas que têm mais notícias selecionadas do que outros e o mesmo acontece com os sites de onde provêm as notícias. A seleção de páginas não se limitou aos primeiros resultados apresentados pelo motor de busca. Procurou-se variedade de canais e notícias de sites regionais e locais, alguns da região ou cidade de onde vieram os atletas.
Mais de 500 páginas para recordar a presença portuguesa em Paris
O contributo do Arquivo.pt, como poderá ver na tabela, já tem mais de 500 paginas Web.
No dia 24 de maio, a FCCN recebeu pela primeira vez profissionais de Bibliotecas do Ensino Superior (BES) no âmbito do programa dinamizado pelo Grupo Trabalho das Bibliotecas do Ensino Superior (GT-BES) da Associação Portuguesa de Bibliotecários, Arquivistas, Documentalistas e Profissionais da Informação (BAD), A minha biblioteca é a tua biblioteca.
Trata-se de um programa de mobilidade que tem como objetivo a realização de visitas de curta duração tendo em vista a troca de experiências e o contacto, in loco e hands on, com boas práticas, fomentando a colaboração e o conhecimento das BES portuguesas entre os profissionais da área.
Serviços avançados para o conhecimento
Nesta primeira edição do programa na FCCN, foi proposto às colegas participantes (3 profissionais da Universidade de Lisboa e 1 da Universidade Católica do Porto) um percurso pelos serviços digitais de apoio às instituições do ensino superior que são operados pela FCCN- FCT
Alguns serviços são conhecidos dos profissionais da informação, como por exemplo, a B-On e o RCAAP. Outros são serviços de backoffice e, por isso, menos visíveis, mas fundamentais para as instituições de ensino superior. Por exemplo, o Eduroam que garante o acesso à Internet, o RCTSaai para a autenticação ou o RCTS CERT para responder a incidentes de segurança.
Destaque para os serviços Arquivo.pt e NAU
No decorrer dia, estiveram em destaque o Arquivo.pt e a Plataforma NAU, dois serviços da área do conhecimento que estão disponíveis para as Instituições do Ensino Superior e também para a sociedade.
A equipa do Arquivo.pt mostrou o backoffice deste serviço de preservação da Internet em Portugal e realizou um exercício prático de gravação e integração de conteúdos no arquivo da Web.
A Plataforma NAU, é uma plataforma de MOOCs (Massive Open Online Courses) criada com o propósito de democratizar o conhecimento, promover a literacia digital, possibilitar o ensino e formação a comunidades alargadas de utilizadores, em particular à população portuguesa e lusófona.
Mais recentemente, com a sua integração na plataforma norte-americana edx.org, também a todos os potenciais formandos falantes de língua portuguesa dispersos pelo mundo. Às participantes no programa foi explicado e exemplificado como construir cum curso MOOC na plataforma edx.
Por: Marie Haškovcová and Luboš Svoboda, Webarchiv, National Library of the Czech Republic, 13 a 17 de maio de 2024.
Visita no âmbito do Erasmus+
Graças ao programa europeu Erasmus+ da UE, centrado na educação de adultos – mobilidade de pessoal, tivemos a oportunidade de passar uma semana a acompanhar o Arquivo.pt e comparar as estratégias do arquivo Web checo – Webarchiv – com as abordagens dos nossos colegas portugueses.
Em ambos os casos, trata-se de arquivos centrados em conteúdos nacionais (checos e portugueses) na Internet.
A FCT presta serviços de IT ao sistema de ensino superior e de Investigação português, bem como conetividade de alta velocidade à Internet. O contexto institucional de ambos os arquivos reflecte-se também nas especificidades dos seus conceitos.
A visita incluiu uma apresentação da equipa e dos espaços do campus e dos departamentos, uma apresentação das actividades de ambos os arquivos e uma discussão sobre os diferentes aspectos do nosso trabalho – ferramentas técnicas e curatoriais, tecnologias e processos, ambiente legislativo e questões éticas, armazenamento de dados, alguns serviços, actividades de investigação, perspectivas e planos futuros.
O arquivo da Web checo
O arquivo web checo foi fundado em 2000, as cópias de arquivo mais antigas datam de 2001 e tem atualmente mais de 580 TB de dados. Tal como o Arquivo.pt, recolhe conteúdos num domínio nacional com base numa lista de endereços URL obtida junto do seu fornecedor. Na sua estratégia de aquisição, complementa estas recolhas, ditas abrangentes, com recolhas temáticas e selectivas.
As colecções temáticas referem-se a um tópico ou evento específico, podem ser pontuais ou de construção contínua, e combinam recursos seleccionados manualmente e recursos extraídos automaticamente. As colecções selectivas destinam-se a ser recolhidas a longo prazo, têm registos de catalogação detalhados que fazem parte da bibliografia nacional checa e são licenciadas – as cópias de arquivo estão, portanto, disponíveis gratuitamente através do catálogo.
No âmbito das actividades de investigação em arquivos da Web, apresentámos o nosso projeto destinado a detetar as chamada web morta através da aplicação Extinct Websites e a criar uma base de dados que sirva de base para monitorizar mudanças mais amplas na web checa, bem como o projeto WACloud destinado a extrair grandes volumes de dados do arquivo da web.
Troca de conhecimentos e experiências
Entre os projectos portugueses, interessou-nos, por exemplo, o CitationSaver, e também discutimos o projeto Memorial, a recolha da Wikipédia portuguesa, e as actividades do arquivo português relacionadas com a formação sobre a preservação da Web (módulos de formação).
A reunião foi enriquecida pela discussão de colecções temáticas específicas.
A coleção de Net Art checa documenta a arte digital e a sua transformação no espaço em linha, proporcionando uma perspetiva histórica da arte única.
Outra coleção importante é a coleção “Redes sociais dos Membros do Parlamento da República Checa 2021-2025”, que preserva as comunicações e interacções em linha dos deputados checos, de valor inestimável para o estudo do marketing político e da vida política pública.
A coleção GitHub arquiva repositórios importantes desta popular plataforma para programadores, preservando os principais projectos de software nacionais e o seu código para as gerações futuras.
Por último, a coleção Crypto, NFT, Blockchain, Web3, Metaverse traça o crescimento e o impacto da tecnologia no espaço dos bens digitais. Estas colecções são recursos fundamentais para a investigação e análise da cultura, política e tecnologia digitais, e a discussão destas colecções em reuniões de arquivistas da Web contribui para o desenvolvimento de métodos de arquivo e inovação tecnológica.
Concentrámo-nos na troca de conhecimentos e experiências na identificação de endereços para gravar (seeds), na otimização do fluxo de trabalho e na partilha de dicas e aspectos técnicos.
Partilha de boas práticas
Discutimos as melhores práticas para identificar e recolher os principais recursos da Web, um passo fundamental para garantir um arquivo abrangente e representativo. Partilhámos várias estratégias para automatizar e simplificar os fluxos de trabalho, incluindo a utilização de ferramentas de raspagem da Web e filtragem avançada de conteúdos.
As conversas técnicas incluíram soluções para problemas comuns, como a recolha de páginas Web dinâmicas e a superação de restrições de acesso. A reunião constituiu uma plataforma valiosa para a partilha de métodos inovadores e para a promoção da colaboração entre peritos, promovendo o desenvolvimento de um arquivo digital eficaz e sustentável.
O dia 18 de maio, Dia Internacional dos Museus, foi assinalado por todo o país com entradas gratuitas, visitas guiadas, animação de espaços e exposições relacionadas com a memória e o património.
O Arquivo.pt contribuiu com uma exposição de páginas antigas, intitulada “Memória Digital através da Internet do Passado”, que esteve patente num dos stands no Museu dos Coches, em Lisboa.
As páginas foram selecionadas para mostrar diversos aspetos do Alentejo ao longo do tempo. A partir de 2016, selecionou-se páginas relativas ao projeto Heritales.
Heritales e Crowd-Recycling chamaram a atenção para a preservação da memória da Internet
Heritales é um projeto sediado em Évora que tem por objetivo estudar e divulgar o património em todas as suas manifestações. É conhecido pelo seu evento principal criado em 2016, o HERITALES – International Heritage Film Festival.
Crowd-Recycling é um projeto focado nas boas práticas para a sustentabilidade.
O Heritales, o Crowd-Recycling e o Arquivo.pt concretizaram esta ação em colaboração com o objetivo de dar visibilidade aos conteúdos publicados na Web ao longo do tempo. Preservar e dar acesso aos conteúdos digitais é fundamental para valorizar o património.
Porque é que fazer uma exposição de websites antigos é um boa ideia
Fazer uma exposição de websites ao longo do tempo é relativamente fácil, bastando ter um tema que pode ser também a história de uma instituição e escolher páginas conservadas no Arquivo.pt.
Uma exposição de sites antigos é uma ideia original para o público-alvo. Muitas vezes apresenta textos e imagens que só existiram na Web.
Ao chamar a atenção para os websites damo-nos conta que muitas coisas ficaram por gravar e isso muda a nossa visão sobre os conteúdos que publicamos hoje. Passados a cuidar mais da gravação de páginas importantes, por exemplo, tomando medidas ou gravando-as na hora com o SavePageNow.
Dia Mundial da Internet foi a 17 de maio
No dia anterior ao Dia Internacional do Museus assinalou-se o Dia Mundial da Internet (17 de maio). A proximidade das duas comemorações vem mesmo a propósito do tema da preservação da memória.
Portugal ligou-se à Internet, pela primeira vez, em 1991, com o projeto da FCCN “Serviço IP da RCCN”.
Para relembrar como tudo aconteceu, deixamos-lhe as três sugestões que a FCCN publicou nas redes sociais para este dia:
As iniciativas foram as seguintes: uma viagem no tempo, uma recolha especial sobre o tema “25 de Abril”, uma comunicação no Congresso Internacional 50 anos de Abril e a inclusão de uma menção especial na edição de 2025 do Prémio Arquivo.pt.
Exposição “Memórias do 25 de Abril na Internet”
A exposição Memórias do 25 de Abril na Internet apresenta uma seleção de páginas Web sobre as comemorações do 25 de Abril em diversas regiões do país, desde o princípio da Web na década de 1990.
Os critérios para a escolha das páginas da exposição foram os seguintes:
Páginas relativas a comemorações do 25 de Abril;
Páginas encontradas no Arquivo.pt em datas próximas da efeméride, em cada ano;
Diversidade para incluir diversas zonas do país;
Manifestações populares e cerimónias oficiais.
Uma memória histórica sem os arquivos da Web é incompleta. Com esta viagem no tempo pretende-se convidar os cidadãos a viajarem no tempo, percorrendo páginas Web antigas e reavivando episódios recentes da nossa vida em democracia.
O conjunto de dados contém uma lista de palavras-chave colocadas num motor de busca a fim de obter resultados sobre o tópico “25 de Abril”. Na pesquisa considerou-se nomes de pessoas, lugares, aspetos políticos, sociais, culturais e ainda palavras associadas ao acontecimento.
As pesquisas foram realizadas no dia 22 de março de 2024 utilizando o Bing Search API, um serviço de pesquisa automática que devolve resultados de acordo com critérios de relevância do próprio serviço Bing e de outros configurados por nós.
No total foram obtidos 12.650 endereços únicos de páginas Web. Espera-se que a gravação destas páginas seja útil para as organizações que produziram esses conteúdos, para os investigadores que pretendem estudar a nossa história e para os cidadãos que cultivam o sentido da memória e da democracia.
Participação no Congresso Internacional 50 anos de Abril
No dia 2 de maio de 2024, João Gomes, Diretor dos Serviços Avançados da FCCN Unidade de Computação Científica da Fundação para a Ciência e a Tecnologia I.P., apresentou o Arquivo.pt aos participantes do Congresso Internacional 50 anos de Abril, como um serviço distinto, aberto aos cidadãos e útil para as organizações.
O Arquivo.pt é um serviço de preservação da Web disponível para todos os cidadãos que pretendem pesquisar conteúdos antigos publicados na Web.
A utilização do Arquivo.pt contribui para uma melhor compreensão da nossa história. Além disso, fornece serviços úteis para a cibersegurança, como por exemplo o Memorial do Arquivo.pt que é capaz de manter os sites antigos das instituições, prevenindo ataques e poupando-lhes recursos.
Menção especial “O 25 de Abril e a Democracia” no Prémio Arquivo.pt 2025
O Prémio Arquivo.pt realiza-se anualmente e distingue trabalhos que utilizem o Arquivo.pt.
Em 2025, na continuação das comemorações dos 50 anos do 25 de Abril, será incluída uma menção especial a trabalhos sobre o tema “O 25 de Abril e a Democracia”.
Desafia-se pois os investigadores e cidadãos interessados a criarem trabalhos inovadores utilizando o Arquivo.pt.
Para questões relacionadas com o Prémio Arquivo.pt, contacte-nos.
Inteligência Artificial (IA), conhecida também pela sigla AI, de Artificial Intelligence, abrange várias áreas do conhecimento, tais como a linguística e a computação, e está presente nas novas tecnologias utilizadas no dia-a-dia pelos cidadãos.
Por exemplo, quando procuramos uma informação na Internet e o computador gera uma resposta espantosamente adequada, numa linguagem muito próxima da nossa.
O processamento da linguagem natural (PLN), correspondente em inglês a Natural Language Processing, NLP, é o que permite que as máquinas aperfeiçoem o algoritmo que gera essas respostas à medida dos utilizadores da Internet.
O problema é que os modelos de processamento de linguagem natural foram desenvolvidos mais para a língua inglesa e menos para língua portuguesa e outras com menos representação.
Quanto mais os modelos de processamento forem treinados sobre uma língua mais capazes serão de interpretar as complexidades da linguagem. Mas isso só é possível se tiverem dados de qualidade.
Acervo de texto em português no Arquivo.pt disponível para a investigação
O Arquivo.pt surge aqui como o maior conjunto de dados textuais em língua portuguesa de Portugal, disponível em acesso aberto, para os investigadores treinarem modelos de PLN.
Nos últimos anos foram os próprios investigadores, provenientes de vários grupos e projetos de investigação, que chamaram a atenção para a utilidade dos dados preservados da Web para processamento em larga escala.
O Arquivo.pt tem mais de 1 Petabyte de conteúdos preservados da Web, desde a década de 1990, onde se inclui tudo o que se pode encontrar nas páginas Web. Não se trata apenas de texto, mas também de imagens, ficheiros áudio, vídeo, o código das páginas e diversos metadados.
Os conteúdos estão acessíveis através da interface de pesquisa e das APIs do Arquivo.pt.
Um dos projetos que utilizou o Arquivo.pt para obter grande quantidade de texto denomina-se GlórIA e é um modelo de linguagem em larga escala (LLM, Large Language Model) focado na língua portuguesa europeia.
Última atualização em 27 de Março de 2024 às 11:16
Mais de 100 websites históricos da Faculdade de Ciências da Universidade de Lisboa (FCUL) passaram a estar acessíveis através do serviço Memorial do Arquivo.pt.
O Departamento de Informática da FCUL enviou ao Arquivo.pt uma lista de websites antigos alojados nos seus servidores que já não eram atualizados, mas cujo conteúdo histórico continua a ser interessante para a comunidade (ex. websites de projetos de investigação ou eventos científicos).
O Arquivo.pt preservou estes websites em colaboração com os seus responsáveis, procurando manter para o futuro uma representação fiel dos conteúdos publicados.
A FCUL redirecionou o endereço de cada website para o Arquivo.pt, e pôde então desligar os servidores respetivos e passar a poupar os recursos que dispendia na sua manutenção (ex. eletricidade, espaço, recursos humanos).
O website do programa científico MiNEMA foi o primeiro que a FCUL integrou no Memorial do Arquivo.pt. Este website deixou de ser atualizado em 2009 quando o projeto terminou. A FCUL investiu recursos na manutenção do website por mais 10 anos até ser necessário desligá-lo por motivos de cibersegurança.
O Memorial do Arquivo.pt surgiu então como uma opção e a partir de 2020, a FCUL passou a ter de manter apenas o domínio www.minema.di.fc.ul.pt enquanto que o Arquivo.pt passou a preservar a informação contida no website.
Faça como a FCUL e preserve os seus websites históricos no Memorial!
Cada vez mais as instituições recorrem ao Memorial do Arquivo.pt para preservar de forma segura os conteúdos dos seus websites históricos. Por exemplo, a FCUL preservou 116 websites, o Centro de Gestão da Rede Informática do Governo preservou 23 e a Fundação para a Ciência e a Tecnologia preservou 40.
As instituições públicas têm prioridade para beneficiar deste serviço. No entanto, outras entidades também o podem solicitar desde que sejam detentoras do domínio do website.
Identifique os seus websites históricos que podem ser integrados no Memorial do Arquivo.pt e contacte-nos!
Nos dias seguintes, 11 e 12 de maio, realizou-se a IIPC Web Archiving Conference (IIPC WAC), uma iniciativa aberta à comunidade, onde podem participar pessoas ou entidades não associodas ao IIPC e interessadas no domínio da preservação da Web.
Contributos do Arquivo.pt na Web Archiving Conference
O Arquivo.pt participou nas reuniões dos grupos de trabalho do IIPC (Training Working Group e Curators Working Group) e contribuiu com apresentações nas sessões temáticas Collaborations & Outreach e Program infrastructure (sessões 7 e 17).
O Arquivo.pt contribuiu com apresentações para as sessões Web Archive in Mediterranean area and its merge(4.A,), From online Tools to Web Archive (6.B.), Towards a participatory approach to collections (9. A.), Digging up the materials for writing web history (9.B.).
How to research governmental web data? (abstract, slides)
O Arquivo.pt participou em três cursos: Incentives design for hybrid multilingual information processing and analytics, em Southampton; National and transnational media coverage of European parliamentary elections, 2004-2014, Londres; e NLP for under-resourced languages, em Zagreb, na Croácia.
Em 2022, o Arquivo.pt acolheu dois investigadores nas suas instalações os quais utilizaram os recursos arquivados e tiveram apoio especial da equipa do Arquivo.pt para desenvolverem a sua investigação.
O projeto CLEOPATRA terminou em 2023 com a realização de um encontro a 16 de maio, em Hannover, que reuniu professores, investigadores e representantes de instituições envolvidas.
Daniel Gomes, Gestor do Arquivo.pt, destacou as novas ferramentas que o Arquivo.pt disponibiza e os resultados dos trabalhos realizados pelos investigadores que passaram pelo Arquivo.pt.
Secondments@Arquivo.pt and new research tools available (Slides)
Entre os conteúdos digitalizados que podem ser consultados no catálogo e acedidos nas instituições provedoras encontravam-se som, imagem, fotografia, material impresso digitalizado. Contudo, faltavam os Websites.
Assim, surgiu a ideia da nova coleção “Páginas Web” do MUVITUR.
Colaboração entre o MUVITUR e o Arquivo.pt
Em 2019, iniciou-se uma colaboração entre o Arquivo.pt e o MUVITUR com o objetivo de identificar sites relacionados com o Turismo em Portugal e de divulgar o histórico de conteúdos publicados na Web, desde 1996.
Em 2022, estabeleceu-se uma lista com cerca de 400 registos de websites de diversas entidades ligadas ao Turismo, hotéis, agências de viagens, páginas dos sites dos municípios com informação turística e outras.
O MUVITUR utiliza o software Nyron, o qual permite agregar conteúdos de diversas proveniências através do protocolo interoperabilidade OAI-PMH (Open Archives Initiative Protocol for Metadata Harvesting), cuja utilização é muito comum entre bibliotecas, arquivos e museus para fornecer conteúdos a portais, como por exemplo o Europeana.
O Arquivo.pt, porém, não disponibiliza informação através do OAI-PMH, pelo que foi necessário encontrar uma forma alternativa de criar um registo no Nyron com informação descritiva de Websites preservados.
O procedimento para a integração foi o seguinte:
Exportou-se para uma folha Excel o esquema XML com os campos para os metadados, de acordo com o que funciona no Nyron;
A informação foi inserida manualmente na folha Excel, respeitando o formato e a sintaxe, em colaboração com os técnicos responsáveis pelo sistema;
O ficheiro XML com os dados inseridos foi validado e importado para o Nyron.
A criação de registos em catálogos é em grande parte manual e exige uma curadoria humana. No entanto, foi possível introduzir informação para ser processada automaticamente nos registos da coleção de Websites. Por exemplo, a miniatura (thumbnail) foi obtida utilizando a API do Arquivo.pt, mais espeicificamento o linkToScreenShot, visível nos detalhes técnicos de uma página preservada (ver em Opções).
Para outros elementos, tais como o título do site, seria possível obtê-los automaticamente através da API do Arquivo.pt, no entanto a qualidade da informação depende do que os produtores do site inseriram e pode não ser a melhor. As datas para limitar o âmbito temporal também podem ser obtidas de forma automática. Privilegiou-se o método manual para controlar a informação apresentada.
Na continuidade do projeto, a coleção vai ser aumentada com novos registos, pois existem milhares de sites sobre o setor do Turismo.
Descrição de conteúdos Web no catálogo do MUVITUR
Na coleção “Paginas Web” são utilizados os seguintes dados:
Denominação – geralmente o título do website
Organização – a entidade a quem pertence a publicação
Endereço do sítio Web na Internet
Endereço para versão no Arquivo.pt
Momento(s) para recordar
Link para miniatura no Arquivo.pt
Descritores
Dados geográficos (localização, coordenadas, nome geográfico)
A apresentação da informação foi ajustada para ficar alinhada com a de outros recursos do MUVITUR e contém ligações para o Arquivo.pt.
Por exemplo, no registo do site “Turismo do Algarve”, encontramos uma ligação para um momento a recordar em 2011 e outra a ligação para o histórico no Arquivo.pt em “Consultar objeto”.
Organizações podem criar coleções de Websites da sua área
Com este projeto inédito podemos dizer que os Websites preservados ganharam cidadania ou espaço em plataformas digitais dedicadas à memória histórica.
Os Websites raramente são incluídos em catálogos ou expostos em contexto museológico, em Portugal. Em breve, essa realidade pode mudar.
A National Library of Australia, por exemplo, tem registos de Websites preservados no catálogo. Na Tasmania Libraries o catálogo bibliográfico descreve em formato Marc21 mais de 3000 Websites preservados. Na Library of Congress há coleções de Websites antigos ao lado dos recursos tradicionais.
O MUVITUR abriu caminho para que outras entidades criem coleções de Websites do seu interesse nas suas plataformas.
O Arquivo.pt é um serviço público e gratuito que permite pesquisar e aceder a páginas da Web preservadas desde a década de 1990, como por exemplo, ver uma notícia antiga ou aceder a uma versão antiga de um website.
A colaboração entre o AMCC e o Arquivo.pt concretiza-se num programa de formação intitulado Arquivo.pt: Competências Digitais para os Media, desenvolvido em quatro webinars, e na atribuição da Menção Honrosa AMCC a trabalhos realizados sobre jornais centenários portugueses para o Prémio Arquivo.pt 2023.
Ciclo de webinars “Arquivo.pt: Competências Digitais para os Media”
O ciclo de webinars visa dotar os formandos de competências digitais que lhes permitam resolver problemas originados pelo desaparecimento de informação digital e ganhar vantagem competitiva na produção de conteúdos únicos e exclusivos.
Webinar 1: Arquivo.pt: uma ferramenta para pesquisar rapidamente o passado
Data: 24 de março de 2023 Hora: 14h00-15h30 (PT), Língua: Portuguesa