Última atualização em 2 de Novembro de 2020 às 17:23
Sugira páginas Web acerca da Covid-19
O Arquivo.pt convida todas as pessoas a sugerirem páginas Web que documentem a pandemia da Covid-19 para serem preservadas para acesso futuro.
Colabore para que o Arquivo.pt guarde uma memória completa da realidade portuguesa durante este período.
Envie endereços através deste formulário: https://tinyurl.com/arquivopt-covid19
Milhares de páginas Web para contar a história da pandemia em Portugal
Desde março de 2020, o Arquivo.pt tem feito recolhas especiais de páginas Web relacionadas com a pandemia da Covid-19.
“Futuros académicos, cientistas e jornalistas que estejam a estudar a resposta portuguesa à pandemia da Covid-19 vão querer ler testemunhos em primeira mão de quem foi afectado, registos oficiais do número de vítimas, e recomendações dos médicos, políticos e cientistas da época”, Jornal Público, edição de 1 de maio de 2020.
Diariamente, foram recolhidos conteúdos de um conjunto de 106 sites sobre o tema da Covid-19. Neste conjunto incluem-se, por exemplo, websites da comunicação social, Governo, associações e iniciativas de universidades.
Num outro conjunto estão páginas do Twitter (108 identificadas em maio), vídeos do Youtube (815 identificados em maio) e ainda páginas do Reddit e do Git Hub.
Foram incluídas sugestões da comunidade, tais com as do arquivo municipal de Sines que contribuiu com uma recolha de notícias relacionadas com a Covid-19 no Município de Sines (9 GB), páginas identificadas pelo projeto “Revisionista.pt” e sugestões enviadas através do formulário público.
Colaboração do Arquivo.pt com o IIPC para coleção internacional
Em fevereiro de 2020, o International Internet Preservation Consortium (IIPC), organismo principal no âmbito da preservação da Web, propôs aos associados a realização de uma coleção dedicada ao Novel Coronavirus (COVID-19), a qual se encontra acessível através do Internet Archive Archive-it.
O Arquivo.pt foi dos primeiros serviços a responder, tendo contribuído com 1 237 endereços selecionados, principalmente em Língua Portuguesa.
Com os sucessivos contributos de outros países a coleção do IIPC cresceu. Em julho, as sugestões de websites a preservar superaram as 7 000 linhas e em agosto as 8000. Continua disponível um formulário de participação nesta coleção colaborativa.
O Arquivo.pt realizou 3 recolhas à coleção do IIPC, a primeira a 23 de março, a segunda a 15 de junho e a terceira no final de agosto, acrescentando ao seu acervo conteúdos internacionais para servirem a investigadores de todo o mundo.
Metodologia para a seleção de páginas para a coleção Covid-19
Começou-se por identificar termos relacionados com a temática do Coronavírus que incluíram aspetos sanitários, económicos, políticos, geográficos ou organizacionais.
Em seguida, utilizou-se o serviço Bing Azure, para obter automaticamente através de um script, a seguinte informação para os primeiros 10 resultados para cada termo: o endereço da página, o título e a posição na lista de resultados.
Sobre o conjunto de endereços obtido, averiguou-se qual seria o software de recolha a utilizar e respectivas configurações para recolher as páginas com a melhor qualidade possível.
Por exemplo, no caso de uma secção de jornal dedicada à Covid-19, há que decidir se gravamos apenas uma página ou se faz sentido recolher todo o site exaustivamente.
Foram utilizados diversos tipos de software para recolher as páginas. Por exemplo, para as recolhas diárias sobre 106 sites utilizou-se o Heritrix. Para a captura de 108 páginas do Twitter optou-se pelo Brozzler e para os vídeos a captura manual com o Webrecorder e Browsertrix.
Para saber mais
- Termos de pesquisa sobre o Coronavírus (Covid-19)
- Resultados obtidos através do serviço de pesquisa Bing Azure
- Contributo do Arquivo.pt para a 1ª recolha internacional (1 235 endereços) – 20 de fevereiro
- Contributo do Arquivo.pt para a 2ª recolha internacional (75 endereços) – 16 de março
- Todos os endereços da coleção internacional recolhidos pelo Arquivo.pt – 15 de junho
- Lista de websites sobre a Covid-19 em Portugal de recolha diária com o Heritrix
- Lista de páginas do Twitter para a coleção nacional com o Brozzler
- Lista de vídeos do Youtube para a coleção nacional com o Webrecorder
- Crawl logs da recolha sobre a Covid-19 (10 GB)