Um guia rápido para escrever um arquivo Robots.txt

Como você consulta um livro enorme? Examinando o índice. Bom: existe um elemento que é o verdadeiro resumo do seu site…

Robots.txt: os códigos de programação devem ficar cada vez mais sofisticados
Os códigos de programação estão definidos para se tornarem cada vez mais sofisticados

A única maneira de entrar em contato com o spider do mecanismo de pesquisa ou o rastreador, é através de um arquivo chamado Robots.txt. Ou melhor. Quando você envia sua proposta de site para o Google, ele se depara com uma quantidade colossal de informações.

Como você consulta um livro tão grande que sente que nunca encontrará tudo o que precisa? você consulta a pista. Bem: o arquivo robots.txt é o índice do seu site.

Este é um documento fácil de preencher que informa ao rastreador do mecanismo de pesquisa o que procurar. Resumindo: você o ajudará a entender do que é feito o seu site, para que o algoritmo possa lhe dar uma classificação adequada ao trabalho que você realizou.

Alguém pode escrever um arquivo robots.txt?

A resposta curta é sim. A resposta honesta é não. Embora a gramática de um arquivo robots.txt seja extremamente simples e sua composição consista em poucas linhas, é melhor contar com os cuidados de um webmaster experiente que sabe onde colocar as mãos. Afinal, basta um pequeno erro para comprometer o posicionamento do seu site e, assim, interromper todas as operações de SEO antes mesmo de começar.

Antes de começar, saiba de uma coisa: qualquer pessoa pode consultar o arquivo robots.txt de qualquer site escrevendo /robots.txt após o domínio. Você pode até consultar o Google!

Você pode gravar esse arquivo sem baixar um software especial. Na verdade, basta usar o bloco de notas e salvar, adivinhem, no formato .txt.

Vamos escrever juntos um robots.txt: o cabeçalho

Vamos começar do começo, como é sempre lógico fazer. A abertura do arquivo, ou melhor, do cabeçalho, é inteiramente dedicada ao nome do spider, precedido de uma pequena redação sempre a mesma. Vamos supor que você queira ser notado pelo Google. Então a primeira linha será:

Agente do usuário: Googlebot

Essa string muito curta informa ao Google que tudo o que se segue certamente será do seu interesse. Caso você queira que todos os rastreadores que leem este tipo de arquivo possam consultar o documento, substitua o Googlebot por um simples *, um asterisco.

Agora que você indicou qual aranha, ou seja, QUEM, você precisará indicar também O QUE ele terá que ler.

Cada linha de código, por definição, corresponde a uma ação da máquina. Escusado será dizer que cada comando no arquivo robots.txt corresponde ao que a máquina não deve fazer. E esta é a chave que permite escrever um realmente eficaz. Estamos falando sobre o comando DISALLOW.

O que é o comando DISALLOW?

Il comando de proibição permite raciocinar por exclusão. Em outras palavras, quando se diz que é primeiro dizer o que não deve ser feito – bem, você está raciocinando por exclusão. Além do disallow existe também o allow, que é a exceção ao bloqueio.

Se você quiser escrever um bom arquivo de robôs, terá que pensar ao contrário, então terá que dizer ao Google o que ele não deve ler. Se você escrever:

Disallow:

A aranha lerá todo o seu site, sem nenhum freio.

Se depois de “Proibir:” você inserir uma barra (portanto, Proibir: /), o site não será inserido nos mecanismos de busca, ponto final.

Não permitir: /diretórios/

Substitua a palavra diretório pela pasta que você deseja que seja negada na exibição do spider. Você pode fazer o mesmo com um arquivo específico.

Não permitir: /meuarquivo.html

Atenção a pontuação e letras, maiúsculas ou minúsculas. Esse tipo de arquivo tem grande consideração por esses tipos de "ninharias", mas eles fazem uma grande diferença.

Por que você impediria o Google de ler uma grande parte do seu site? Ao escrever um arquivo desse tipo, é importante entender quais arquivos não devem aparecer no mecanismo de busca, mas sem abusar deles. No entanto, saiba que qualquer pessoa que saiba o endereço exato desse arquivo específico poderá acessá-lo em qualquer caso.

O que é o comando PERMITIR?

No arquivo você pode adicionar uma exceção com o comando PERMITIR. A gramática é idêntica, mas criará algumas exceções ao DISALLOW que permitirão abrir margens de exploração interessantes para a aranha.

Um pequeno arquivo de amostra:

Agente do usuário: Googlebot

Não permitir: /imagens/

Permitir: /images/holidays.jpg

Basicamente, dissemos ao Googlebot para não considerar a pasta de imagens, exceto por uma foto específica dentro dela, ou seja, a das férias.

E é isso galera. Escrevemos nosso primeiro arquivo robots.txt. Claro, o que vamos fazer para o site real pode ser um pouco diferente, mas não muito. Em caso de dúvida, aconselhe-se sempre com um webmaster especializado. Aconselhamos que você tente escrevê-lo, antes de tudo, e enviá-lo para verificação, para dominar os rudimentos e entender melhor como funciona o seu site.

Qual é a correlação entre robots.txt e sitemaps?

O mapa do site é um arquivo gerado por plugins especiais que contém todos os links do site. Quando o spider entra no site, ele primeiro lê os robôs e depois rastreia o site. Se durante o rastreamento o robô encontrar o endereço do mapa do site, todo o processo ficará muito mais fácil.

Adicione o seguinte ao código acima:

Mapa do Site: http://www.ilnomedeltuositobellissimo.com/sitemap.xml

Em conclusão

Todos os arquivos de robôs são os mesmos. Isso significa que um arquivo Robots escrito para o Google também funcionará bem para o Bing e seguirá a mesma gramática.

Um arquivo robots.txt bem organizado permite que você economizar tempo do rastreador. Não desanime: esse é o primeiro passo para o sucesso!

Robots.txt: o Google é o mecanismo de busca mais poderoso da Internet
O Google é o motor de busca mais poderoso da Internet