Página de entrada “amiga” dos batedores

Para que os conteúdos de um sítio web possam ser arquivados pelo Arquivo.pt, é fundamental que exista uma de página de entrada no sítio web “amiga” dos batedores (crawler-friendly).

O batedor do Arquivo.pt (crawler) inicia cada recolha da web portuguesa a partir de uma lista de endereços de páginas de entrada de sítios web (ex. http://www.fccn.pt/) e depois segue as ligações para os restantes conteúdos.

Se o batedor não conseguir processar corretamente a página de entrada de um sítio web, não poderá encontrar e arquivar os restantes conteúdos do sítio web.

Para criar uma página de entrada “amiga” dos batedores (crawler-friendly):

  • Use preferencialmente o formato HTML;
  • Assegure-se que seguindo ligações a partir da página de entrada é possível descobrir todas as páginas de um sítio web. Por exemplo, crie um mapa do sítio web contendo ligações para todas as suas páginas.
  • Não devem ser usadas páginas de entrada contendo apenas imagens ou animações (ex. Flash). Caso sejam usadas páginas deste tipo, recomenda-se a criação de uma versão alternativa em HTML que permita que os restantes conteúdos do sítio web sejam arquivados.