Uma ligação para o endereço de cada conteúdo

Para que os conteúdos de um sítio web possam ser arquivados, é fundamental que exista uma ligação para o endereço de cada um deles.

Todos os conteúdos de um sítio têm de poder ser referidos direta e individualmente através de um endereço (URL), quer sejam imagens, vídeos ou páginas. Por exemplo, o endereço http://arquivo.pt/img/logo-home-pt.png, referencia o logótipo do Arquivo.pt.

O sistema de recolha do Arquivo.pt apenas poderá encontrar e arquivar os conteúdos que recebam pelo menos uma ligação a partir de uma página de um sítio web.

Existem dois casos que necessitam de particular atenção:

  • Vídeos fornecidos em streaming: estes conteúdos são descarregados faseadamente por aplicações específicas como o Flash Player, Windows Movie Player ou Real Player. Os batedores têm capacidade de recolher apenas conteúdos disponíveis através do protocolo HTTP. Assim sendo, é necessário que exista uma ligação para um endereço começado por http:// que permita o acesso directo ao ficheiro de vídeo.
  • Conteúdos escondidos atrás de formulários: os batedores não têm capacidade de preencher formulários. Assim sendo, todos os conteúdos que ficam disponíveis exclusivamente após autenticação, aceitação de condições ou preenchimento de outro tipo de formulários, não poderão ser recolhidos e arquivados. A não ser que existam outras ligações diretas para os seus endereços.

Remendo para sítios web existentes

Embora existam muitas vantagens em ter cada conteúdo referenciado por um endereço, por vezes é inviável alterar a estrutura de um sítio web existente para cumprir com esta recomendação.

Uma possível solução para mitigar este problema é fornecer informação adicional acerca da localização dos conteúdos no sítio web através de:

  • Mapa de navegação para utilizadores (exemplo): a disponibilização de mapa para o site  melhora a usabilidade e permite que o batedor encontre todas as páginas.
  • Arquivo de RSS feeds (exemplo): os RSS feeds são usados para divulgar novidades acerca de um sítio web. Um arquivo de RSS Feeds poderá ajudar os batedores a encontrar conteúdos.
  • Sitemap: é um ficheiro XML contendo informação acerca de cada endereço (ex. data de última atualização, importância relativa, frequência de atualização). Embora o Arquivo.pt ainda não suporte sitemaps, este protocolo conta com o apoio da Google, Yahoo! e Microsoft.

É essencial manter estes ficheiros atualizados.