Robots.txt: ¿qué es y en qué ha cambiado recientemente?

29/07/2019
  • Este mismo mes se han producido cambios en el robots.txt, un recurso básico en el SEO. Hoy repasamos qué es y en qué ha cambiado recientemente.

  • Tú que nos sigues sabes que nos gusta estar a la última en el tema del posicionamiento orgánico. Los cambios se producen a una velocidad vertiginosa, y lo que ayer era positivo hoy pasa a suponer un problema (y viceversa). En esta ocasión, es el archivo robots.txt el que sufre cambios, y son bastante importantes, así que te conviene informarte.

  • ¿Qué es el robots.txt?

  • Es curioso que muchos de los que se inician en el mundo del SEO on page y off page se preocupen desde el principio por conceptos como las meta etiquetas, la construcción de URLs, el copywriting para optimizar contenidos, el linkbuilding… pero no le presten atención a este pequeño archivo de texto tan importante.

    Como decíamos, el robots.txt es básicamente eso: un archivo de texto plano que contiene una serie de instrucciones orientadas a dirigir y a gestionar la indexación y el rastreo de las páginas de un sitio web.

    Antes de colocarlo en el directorio raíz de tu web, hay que recalcar que hablamos de instrucciones y, como tales, los motores de búsqueda como Google pueden respetarlas o no.

  • Su nombre hace referencia a los llamados robots o bots de los buscadores. Esto son, en realidad, pequeños programas que rastrean las webs para descubrir contenido que introducir en sus índices.

    Los bots, que también reciben el nombre de crawlers o arañas, pueden pertenecer a un motor de búsqueda comercial como Google o Bing, pero también a una herramienta SEO.

  • ¿Cómo funciona el robots.txt?

  • Cuando el crawler entra en nuestra página, lo primero que hace es consultar el robots.txt. Si no existe, interpretará que todo es potencialmente rastreable e indexable. Cuando existe y lo puede encontrar, consulta esas instrucciones y queda a la arbitrariedad del software si las sigue o no.

    El archivo no puede ser más sencillo. En esencia, todo se reduce a dos comandos: allow y disallow. El primero recomienda el acceso, mientras que el segundo se utiliza para denegarlo. En ambos casos se utiliza igual: escribiendo la instrucción seguida de dos puntos y la URL o directorio afectado (Allow: o Disallow:)

    Además de esto, debes saber que hay muchos robots. Los más habituales son los que comentábamos anteriormente, como los de Google o Bing, o los de las herramientas –como puedan ser Sistrix, Screaming Frog, Semrush o cualquiera de ellas–. Como ocurre en todo lo online, existen motores maliciosos; si los bloqueamos evitamos problemas. A efectos de robots.txt, todos los robots se llaman user agent.

  • Construyendo el robots.txt

  • Con lo que acabamos de ver, tenemos básicamente las normas para gestionar la indexación y el rastreo. Vamos a ver un par de ejemplos para que se entienda de la mejor manera posible:

  • Supongamos que queremos bloquear el acceso a la página de login (nuestra-tienda.com/login) a nuestra tienda por parte del bot de Google. 

    EJEMPLO:

    User-agent: Googlebot

    Disallow: /login

    Si en lugar de una página concreta queremos bloquear un directorio –supongamos que es la categoría relojes–, haremos esto (nuestra-tienda.com/relojes):

    EJEMPLO:

    User-agent: Googlebot

    Disallow: /relojes/

    Ahora imaginemos que queremos denegar el acceso al directorio relojes de nuestra tienda, pero no a la subcategoría de relojes para mujer. Por defecto todo es rastreable, pero si bloqueamos un directorio, debemos desbloquear los subdirectorios explícitamente.

    EJEMPLO:

    User agent: Googlebot

    Disallow: /relojes/

    Allow: /relojes/mujer

    Incluso podría darse el caso de querer bloquear el sitio completo a todos los user agents, por ejemplo en el caso de tener una página en desarrollo que aún no es definitiva. En esa circunstancia, utilizaríamos el asterisco a modo de comodín.

    EJEMPLO:

    User-agent: *

    Disallow: /

    Mucho cuidado con esta instrucción: muchas veces está detrás de páginas que no rankean por ninguna palabra clave pese a que están perfectamente optimizadas. Es una de las primeras cosas que debes descartar.

  • El robots.txt es una herramienta muy potente aunque parezca sencilla. De hecho, el propio Google permite que pruebes el archivo para ver si estás bloqueando indebidamente determinados recursos. 

    Es un tema en el que hay que ser muy escrupuloso con la sintaxis y el uso de los comandos. Por eso, te recomendaríamos que leyeses a fondo las recomendaciones que publicó en su momento Google y que mantiene actualizadas.

  • TIP PRO: Aunque en el robots.txt no se debe introducir más información que la comentada, hay una salvedad muy interesante que es incluir un enlace a la dirección donde esté el sitemap.xml del sitio, un pequeño mapa de enlaces que recorre el buscador y que acelera la indexación de las páginas.

  • ¿Qué ha cambiado en el robots.txt?

  • Todo lo que hemos comentado era necesario para llegar a este punto. En el mes de julio de 2019 se anunciaron algunos cambios muy importantes al respecto. 

    Aunque hemos dejado claro que solo hay dos comandos (Allow y Disallow), muchos usuarios llevan años utilizando un tercer comando: Noindex. De este modo, el robot podría acceder a una página o directorio determinado, pero no lo incluiría en el índice. Pues bien, a partir del próximo mes de septiembre, esto dejará de tener ningún tipo de efecto.

    Aunque hay una cierta tendencia a pensar que Google hace las cosas “por molestar”, en este caso la excusa es otra. Pretenden estandarizar el uso de robots.txt a través del REP (Robot Exclusion Protocol), y este uso simplemente no está contemplado.

    Si queremos evitar la indexación, seguimos teniendo alternativas como el uso de las meta etiquetas. Basta con poner:  <meta name="robots" content="noindex"> en el código de las páginas que no quieres que acaben en el índice de Google. Puedes hacer cosas algo más radicales, como meter esas páginas detrás de una contraseña.

  • Directamente puedes no permitir el acceso a ellas desde robots.txt usando un disallow, pero que el robot no entre no significa necesariamente que no se indexe puesto que puede estar enlazada desde algún otro lugar que Googlebot sí pueda seguir.

  • Ha sido un post un poco denso, pero es muy importante para el SEO de tu eCommerce. ¿Tienes alguna duda? ¿Podemos ayudarte? No te cortes y dínoslo en los comentarios.

  • Imágenes | Unsplash.

Jordi Ordoñez


Jordi Ordóñez és consultor eCommerce i SEO amb 16 anys d'experiència en projectes online. Ha assessorat a clients com Castañer, Textura, Acumbamail, Kartox o Casa Ametller. Escriu al blog oficial de Prestashop, BrainSINS, Marketing4ecommerce, Fotografía eCommerce, Socialancer, eCommerce-news.es i SEMRush entre d'altres. És redactor al blog d'Oleoshop.
comments powered by Disqus

Buscar entradas

Últimas entradas

Utilizamos cookies propias y de terceros para realizar la medición de nuestra web. Al continuar con la navegación entendemos que se acepta nuestra política de cookies

Acepto