Recolha e arquivo de conteúdos

Recolha e arquivo de conteúdos da Web portuguesa

1. Com que periodicidade recolhem a Web portuguesa e quanto tempo levam?

Estamos a fazer 3 a 4 recolhas por ano. Cerca de 90% dos conteúdos são recolhidos ao fim de 7 dias. No entanto, a recolha continua para os sítios mais lentos ou com maior número de conteúdos. Diariamente recolhemos um conjunto selecionado de cerca de 400 publicações online portuguesas.

Quando ocorrem eventos relevantes, tais como eleições, realizamos recolhas extraordinárias de sites selecionados.

2. O que se entende por Web Portuguesa?

A Web portuguesa é composta por todos os conteúdos alojados sob o domínio .PT e outros alojados fora deste domínio que sejam de interesse para a comunidade portuguesa.

Sugestões de sites para serem arquivados são muito bem-vindas.

3. Recolhem a Web portuguesa toda?

Não.

São impostas algumas restrições, por exemplo, ao:

  • tamanho máximo dos conteúdos descarregados da Web
  • número de conteúdos por sítio
  • número de ligações que o batedor percorre desde um endereço inicial até chegar a um conteúdo

Por outro lado, a fronteira da Web portuguesa é difícil de definir. Existem muitos conteúdos alojados fora de .PT e esses requerem particular esforço na sua identificação. Se desejar, pode sugerir um sítio para arquivo.

4. Que tipo de ficheiros são arquivados?

Todos os tipos de ficheiros.

5. E as páginas geradas dinamicamente?

As páginas geradas dinamicamente por exemplo através de tecnologia PHP são recolhidas da mesma forma que as estáticas, desde que exista pelo menos uma ligação para o seu endereço.

6. Arquivam informação de acesso restrito?

Não.

O Arquivo.ptapenas arquiva a Web pública. Todas as páginas protegidas por palavra-passe ou outros mecanismos de restrição de acesso não são recolhidas.

7. O que é o batedor do Arquivo?

O batedor do Arquivo.pt é o sistema informático que recolhe automaticamente conteúdos da web de Portugal para serem arquivados. Em inglês estes sistemas são denominados crawlersspiders ou harvesters.

8. Como funciona?

O batedor automaticamente recolhe páginas da Web e segue as ligações nelas contidas para descobrir novas páginas.

9. Fui visitado?

Os administradores dos sítios web ao analisarem os registos de acessos aos seus servidores, podem detectar se foram visitados pelo nosso batedor verificando se existem pedidos efetuados por clientes identificados como:

Arquivo-web-crawler  (compatible; heritrix/1.14.3 +http://arquivo.pt)

Caso detectem alguma anomalia por favor contacte-nos, indicando a versão do batedor que o visitou (indicada a seguir ao User-Agent, separada por uma barra).

10. Qual a frequência dos acessos feitos ao meu sítio web?

O intervalo usado atualmente é de 10 segundos entre cada pedido HTTP a um mesmo sítio web, o que representa uma carga menor do que a imposta por um browser ao descarregar por exemplo, uma página HTML e as imagens correspondentes.

Se detetar algum comportamento prejudicial executado pelo nosso batedor agradecemos que nos informe.

11. O batedor do Arquivo preenche formulários?

Não.
Caso detecte uma situação destas por favor informe-nos.

12. Posso permitir visitas exaustivas ao meu sítio web?

Sim.

Certifique-se de que todos os conteúdos necessários para preservar uma página web podem ser arquivados.

13. Posso restringir os acessos ao meu sítio web?

Sim.

O batedor do Arquivo da Web obedece ao protocolo de exclusão de robots (Robots Exclusion Protocol). Se pretender que o seu sítio não seja visitado total ou parcialmente pelo nosso batedor e consequentemente não seja preservado, siga as instruções para o cumprimento do protocolo.

14. Como posso criar um sítio web que seja preservável ao longo do tempo?

Siga as nossas recomendações para publicar conteúdos que possam ser preservados para o futuro.

15. Qual é a diferença entre a Internet e a Web?

Internet é a infraestrutura de comunicação que liga computadores do mundo entre si. Sobre a Internet existem vários serviços, sendo a Web um deles. Outros serviços são, por exemplo:

Web é composta por páginas e conteúdos ligados entre si através de hiperligações. Pode-se dizer que a Internet é o equivalente às estradas, e a Web, correio eletrónico e outros serviços são os diferentes veículos que nela circulam.