Robots Exclusion Protocol autorizando a recolha de conteúdos importantes

Última atualização em 22 de Setembro de 2023 às 14:36

O Arquivo.pt respeita as restrições de acesso impostas pelos autores através do Robots Exclusion Protocol (REP). É importante que os autores autorizem a recolha de conteúdos importantes dos seus sites, tais como imagens ou folhas de estilo CSS para que possam ser preservados.

O Robots Exclusion Protocol (REP) permite descriminar conteúdos que não deverão ser arquivados pelo Arquivo.pt. Este mecanismo é útil para comunicar restrições de acesso impostas pelos autores.

Todas as restrições de acesso podem ser especificadas num único ficheiro denominado robots.txt que deverá estar na raiz do sítio web (ex. http://arquivo.pt/robots.txt).

Permita que os robots dos arquivos da web recolham toda a informação necessária para reproduzir as páginas

  • Os motores de busca necessitam apenas de recolher conteúdos textuais para apresentarem resultados de um sítio web. Contudo, em 2014 a Google começou a usar o aspeto do site como parâmetro para decidir a posição de uma página nos resultados do Google, uma vez que a Google acredita que se existirem páginas pouco cuidadas não devem estar nos primeiros resultados de uma pesquisa (ver mais).
  • Os arquivos da web necessitam de todos os ficheiros que compõem uma página para que a possam reproduzir corretamente mais tarde (ex. ficheiros de imagens, CSS ou JavaScript).
  • Verifique as regras de exclusão impostas no seu site. As regras pré-definidas para alguns Sistemas de Gestão de Conteúdos necessitam de ser alteradas para permitirem o arquivo eficiente do sítio web (ex.  WordPress, Joomla, Mambo).

Permitir o arquivo pelo Arquivo.pt

Basta colocar as seguintes linhas no início do ficheiro robots.txt:

User-agent: Arquivo-web-crawler 
Disallow:

Proíba a recolha de conteúdos prejudiciais

O REP permite facilitar o arquivo da web, dando indicações ao robot para que não desperdice recursos a tentar recolher determinados conteúdos, como por exemplo:

  • Páginas que geram informação infinita como calendários online ou protegidas por palavra-passe.

Note-se que ao evitar a recolha de conteúdos desnecessários, evita-se também o desperdício de recursos do seu servidor que aloja o sítio web.

Proibir acesso a diretoria usando o robots.txt

Ficheiro robots.txt que proíbe a recolha pelo Arquivo.pt  de todos os conteúdos abaixo da pasta /calendar/:

User-agent: Arquivo-web-crawler 
Disallow: /calendar/

Proibir a recolha e indexação usando a meta tag ROBOTS

Alternativamente, poderá definir restrições de acesso para cada página, incluindo a meta tag ROBOTS no seu código.

Exemplo de meta tag ROBOTS que proíbe o acesso e indexação para todos os robots:

<meta name="ROBOTS" content="NOINDEX, NOFOLLOW" />

Note que as exclusões definidas através da meta tag ROBOTS se aplicam para todos os robots, incluindo os dos motores de busca como o Google.