Recolha de conteúdos

Última atualização em 14 de Fevereiro de 2023 às 14:51

Recolha e arquivo de conteúdos da Web portuguesa

1. Com que periodicidade recolhem a Web portuguesa e quanto tempo levam?

Estamos a fazer 3 a 4 recolhas por ano. Cerca de 90% dos conteúdos são recolhidos ao fim de 7 dias. No entanto, a recolha continua para os sítios mais lentos ou com maior número de conteúdos. Diariamente recolhemos um conjunto selecionado de publicações online portuguesas.

Quando ocorrem eventos relevantes, tais como eleições, realizamos recolhas extraordinárias de sites selecionados.

2. O que se entende por Web Portuguesa?

A Web portuguesa é composta por todos os conteúdos alojados sob o domínio .PT e outros alojados fora deste domínio que sejam de interesse para a comunidade portuguesa.

Sugestões de sites para serem arquivados são muito bem-vindas.

3. As páginas arquivadas estão imediatamente disponíveis?

Não. Elas só estão disponíveis para consulta após um ano de embargo.

4. Como é feita a recolha de sites protegidos por passwords?

O responsável por um site de acesso restrito terá de fornecer informações como login e password para que o Arquivo.pt possa recolher o conteúdo.

5. Recolhem a Web portuguesa toda?

Não.

São impostas algumas restrições, por exemplo, ao:

  • tamanho máximo dos conteúdos descarregados da Web
  • número de conteúdos por sítio
  • número de ligações que o batedor percorre desde um endereço inicial até chegar a um conteúdo

Por outro lado, a fronteira da Web portuguesa é difícil de definir. Existem muitos conteúdos alojados fora de .PT e esses requerem particular esforço na sua identificação. Se desejar, pode sugerir um sítio para arquivo.

6. Que tipo de ficheiros são arquivados?

Todos os tipos de ficheiros.

7. E as páginas geradas dinamicamente?

As páginas geradas dinamicamente por exemplo através de tecnologia PHP são recolhidas da mesma forma que as estáticas, desde que exista pelo menos uma ligação para o seu endereço.

8. Arquivam informação de acesso restrito?

Não.

O Arquivo.pt apenas arquiva a Web pública. Todas as páginas protegidas por palavra-passe ou outros mecanismos de restrição de acesso não são recolhidas.

9. O que é o batedor do Arquivo.pt?

O batedor do Arquivo.pt é o sistema informático que recolhe automaticamente conteúdos da web de Portugal para serem arquivados. Em inglês estes sistemas são denominados crawlersspiders ou harvesters.

10. Como funciona?

O batedor automaticamente recolhe páginas da Web e segue as ligações nelas contidas para descobrir novas páginas.

11. Fui visitado?

Os administradores dos sítios web ao analisarem os registos de acessos aos seus servidores, podem detectar se foram visitados pelo nossos batedores verificando se existem pedidos efetuados por clientes identificados como:

Arquivo-web-crawler (compatible; heritrix/3.4.0-20200304 +https://arquivo.pt/faq-crawling) 
Arquivo-web-crawler (compatible; brozzler/1.5 +https://arquivo.pt/faq-crawling)
Arquivo-web-crawler (compatible; browsertrix/0.8 +https://arquivo.pt/faq-crawling) 

Caso detectem alguma anomalia por favor contacte-nos, indicando a versão do batedor que o visitou (indicada a seguir ao User-Agent, separada por uma barra).

12. Qual a frequência dos acessos feitos ao meu sítio web?

O intervalo usado atualmente é de 10 segundos entre cada pedido HTTP a um mesmo sítio web, o que representa uma carga menor do que a imposta por um browser ao descarregar por exemplo, uma página HTML e as imagens correspondentes.

Se detetar algum comportamento prejudicial executado pelo nosso batedor agradecemos que nos informe.

13. O batedor do Arquivo.pt preenche formulários?

Não.
Caso detecte uma situação destas por favor informe-nos.

14. Posso permitir visitas exaustivas ao meu sítio web?

Sim.

Certifique-se de que todos os conteúdos necessários para preservar uma página web podem ser arquivados.

15. Posso restringir os acessos ao meu sítio web?

Sim.

O batedor do Arquivo.pt obedece ao protocolo de exclusão de robots (Robots Exclusion Protocol). Se pretender que o seu sítio não seja visitado total ou parcialmente pelo nosso batedor e consequentemente não seja preservado, siga as instruções para o cumprimento do protocolo.

16. Como posso criar um sítio web que seja preservável ao longo do tempo?

Siga as nossas recomendações para publicar conteúdos que possam ser preservados para o futuro.

17. Qual é a diferença entre a Internet e a Web?

Internet é a infraestrutura de comunicação que liga computadores do mundo entre si. Sobre a Internet existem vários serviços, sendo a Web um deles. Outros serviços são, por exemplo:

Web é composta por páginas e conteúdos ligados entre si através de hiperligações. Pode-se dizer que a Internet é o equivalente às estradas, e a Web, correio eletrónico e outros serviços são os diferentes veículos que nela circulam.

18. Uma página deixou de ser recolhida ou não é recolhida com a frequência necessária?

Caso descubra uma página nestas condições, por favor envie-nos o link para a mesma, de forma a pudermos aumentar a frequência de recolha da mesma.