Um guia rápido para escrever um arquivo Robots.txt
Como você consulta um livro enorme? Examinando o índice. Bom: existe um elemento que é o verdadeiro resumo do seu site…
A única maneira de entrar em contato com o spider do mecanismo de pesquisa ou o rastreador, é através de um arquivo chamado Robots.txt. Ou melhor. Quando você envia sua proposta de site para o Google, ele se depara com uma quantidade colossal de informações.
Como você consulta um livro tão grande que sente que nunca encontrará tudo o que precisa? você consulta a pista. Bem: o arquivo robots.txt é o índice do seu site.
Este é um documento fácil de preencher que informa ao rastreador do mecanismo de pesquisa o que procurar. Resumindo: você o ajudará a entender do que é feito o seu site, para que o algoritmo possa lhe dar uma classificação adequada ao trabalho que você realizou.
Alguém pode escrever um arquivo robots.txt?
A resposta curta é sim. A resposta honesta é não. Embora a gramática de um arquivo robots.txt seja extremamente simples e sua composição consista em poucas linhas, é melhor contar com os cuidados de um webmaster experiente que sabe onde colocar as mãos. Afinal, basta um pequeno erro para comprometer o posicionamento do seu site e, assim, interromper todas as operações de SEO antes mesmo de começar.
Antes de começar, saiba de uma coisa: qualquer pessoa pode consultar o arquivo robots.txt de qualquer site escrevendo /robots.txt após o domínio. Você pode até consultar o Google!
Você pode gravar esse arquivo sem baixar um software especial. Na verdade, basta usar o bloco de notas e salvar, adivinhem, no formato .txt.
Vamos escrever juntos um robots.txt: o cabeçalho
Vamos começar do começo, como é sempre lógico fazer. A abertura do arquivo, ou melhor, do cabeçalho, é inteiramente dedicada ao nome do spider, precedido de uma pequena redação sempre a mesma. Vamos supor que você queira ser notado pelo Google. Então a primeira linha será:
Agente do usuário: Googlebot
Essa string muito curta informa ao Google que tudo o que se segue certamente será do seu interesse. Caso você queira que todos os rastreadores que leem este tipo de arquivo possam consultar o documento, substitua o Googlebot por um simples *, um asterisco.
Agora que você indicou qual aranha, ou seja, QUEM, você precisará indicar também O QUE ele terá que ler.
Cada linha de código, por definição, corresponde a uma ação da máquina. Escusado será dizer que cada comando no arquivo robots.txt corresponde ao que a máquina não deve fazer. E esta é a chave que permite escrever um realmente eficaz. Estamos falando sobre o comando DISALLOW.
O que é o comando DISALLOW?
Il comando de proibição permite raciocinar por exclusão. Em outras palavras, quando se diz que é primeiro dizer o que não deve ser feito – bem, você está raciocinando por exclusão. Além do disallow existe também o allow, que é a exceção ao bloqueio.
Se você quiser escrever um bom arquivo de robôs, terá que pensar ao contrário, então terá que dizer ao Google o que ele não deve ler. Se você escrever:
Disallow:
A aranha lerá todo o seu site, sem nenhum freio.
Se depois de “Proibir:” você inserir uma barra (portanto, Proibir: /), o site não será inserido nos mecanismos de busca, ponto final.
Não permitir: /diretórios/
Substitua a palavra diretório pela pasta que você deseja que seja negada na exibição do spider. Você pode fazer o mesmo com um arquivo específico.
Não permitir: /meuarquivo.html
Atenção a pontuação e letras, maiúsculas ou minúsculas. Esse tipo de arquivo tem grande consideração por esses tipos de "ninharias", mas eles fazem uma grande diferença.
Por que você impediria o Google de ler uma grande parte do seu site? Ao escrever um arquivo desse tipo, é importante entender quais arquivos não devem aparecer no mecanismo de busca, mas sem abusar deles. No entanto, saiba que qualquer pessoa que saiba o endereço exato desse arquivo específico poderá acessá-lo em qualquer caso.
O que é o comando PERMITIR?
No arquivo você pode adicionar uma exceção com o comando PERMITIR. A gramática é idêntica, mas criará algumas exceções ao DISALLOW que permitirão abrir margens de exploração interessantes para a aranha.
Um pequeno arquivo de amostra:
Agente do usuário: Googlebot
Não permitir: /imagens/
Permitir: /images/holidays.jpg
Basicamente, dissemos ao Googlebot para não considerar a pasta de imagens, exceto por uma foto específica dentro dela, ou seja, a das férias.
E é isso galera. Escrevemos nosso primeiro arquivo robots.txt. Claro, o que vamos fazer para o site real pode ser um pouco diferente, mas não muito. Em caso de dúvida, aconselhe-se sempre com um webmaster especializado. Aconselhamos que você tente escrevê-lo, antes de tudo, e enviá-lo para verificação, para dominar os rudimentos e entender melhor como funciona o seu site.
Qual é a correlação entre robots.txt e sitemaps?
O mapa do site é um arquivo gerado por plugins especiais que contém todos os links do site. Quando o spider entra no site, ele primeiro lê os robôs e depois rastreia o site. Se durante o rastreamento o robô encontrar o endereço do mapa do site, todo o processo ficará muito mais fácil.
Adicione o seguinte ao código acima:
Mapa do Site: http://www.ilnomedeltuositobellissimo.com/sitemap.xml
Em conclusão
Todos os arquivos de robôs são os mesmos. Isso significa que um arquivo Robots escrito para o Google também funcionará bem para o Bing e seguirá a mesma gramática.
Um arquivo robots.txt bem organizado permite que você economizar tempo do rastreador. Não desanime: esse é o primeiro passo para o sucesso!
Você também pode estar interessado em:
Persuasão ou manipulação? Gênese e impacto histórico das relações públicas
É assim que as Relações Públicas, desde o diálogo sofístico da Grécia antiga até à atual era digital, continuam a oferecer inovação contínua
Jovens e criptomoedas: como saber mais sobre Bitcoin…
Apresentar às crianças as moedas digitais e o Blockchain pode ser um empreendimento emocionante, dada a sua afinidade com a tecnologia e a inovação
“O paciente no centro”: uma grande esperança e uma reunião no Senado
O tema da importância da inovação em dispositivos médicos para os cuidados de saúde europeus será explorado no dia 15 de maio, em Roma, por especialistas e políticos
por Alberto NicoliniEditor de districtbiomedicale.it, BioMed News e Radio Pico
Quatro países, um oceano gigantesco: o caso CMAR
É o corredor marinho do Pacífico tropical oriental: Panamá, Equador, Colômbia e Costa Rica aliados para a proteção dos mares e das espécies marinhas...