
07/12/2003 - Tipos de dados no SQL Server
09/01/2003 - Sessões em ASP.NET
25/04/2004 - A cultura erronea dos bits
09/01/2003 - Letras transparentes
09/01/2003 - Criando um sistema de login
13/03/2003 - Não basta falar só a língua do micro
08/12/2003 - Passe as variaveis por valor sem ByVal
22/03/2006 - Quebrar Texto de Parágrafo
07/04/2006 - Google continua a liderar o mercado de pesquisa
08/12/2003 - Links de um site
05/05/2005 - CSS para tabelas e listas de seleção HTML
28/01/2003 - IIS no WinXP Home
07/12/2003 - Action Script 2.0 ( Primeira Parte )
09/01/2003 - Paginando registros com o Dreamweaver MX
Leituras: 5430 -
Indexação de Sites: robots.txt
A maioria de nós deseja que o conteúdo de seu site seja indexado pelo Google, Altavista e outros mecanismos de busca.Entretanto, para determinadas seções de nossos sites, isto pode não ser desejável. Como fazer para impedir que conteúdo reservado seja indexado?
A maioria dos softwares de indexação obedece a algumas convenções, entre elas a de respeitar as informações sobre o que pode ou não ser indexado, contidas em um arquivo chamado robots.txt e localizado no diretório raiz do servidor Web.
Este arquivo é bem simples (mas pode ficar complexo, dependendo das suas necessidades.
Um pequeno exemplo:
User-agent: *
Disallow: /cgi-bin/
Disallow: /fotos/O arquivo acima indica que nenhum indexador pode indexar o conteúdo dos diretórios /cgi-bin e /fotos.
A opção User-agent pode indicar apenas um determinado indexador. O indexador do Google, por exemplo, chama-se googlebot. Se o googlebot estiver visitando o seu site e ver algo como
User-agent: googlebot
Disallow: /nada será indexado.
Caso você crie um arquivo como este para o seu site e quiser ver se fez tudo corretamente, existe um serviço de validação de arquivos robots.txt em http://www.searchengineworld.com/cgi-bin/robotcheck.cgi
Neste mesmo local, caso você queira saber mais, existem diversas informações adicionais sobre este protocolo e também alguns exemplos interessantes.
Enviado por: Gustavo Fonseca Junior