Robots.txt: què és i en què ha canviat recentment?

29/07/2019
  • Aquest mateix mes s'han produït canvis en el robots.txt, un recurs bàsic en el SEO. Avui repassem què és i en què ha canviat recentment.

  • Tu que ens segueixes saps que ens agrada estar a l'última en el tema del posicionament orgànic. Els canvis es produeixen a una velocitat vertiginosa, i el que ahir era positiu avui passa a suposar un problema (i viceversa). En aquesta ocasió, és el fitxer robots.txt el que pateix canvis, i són bastant importants, així que et convé informar-te.

  • Què és el robots.txt?

  • És curiós que molts dels que s'inicien en el món del SEO on page i off page es preocupin des del començament per conceptes com ara les meta etiquetes, la construcció de URLs, el copywriting per optimitzar continguts, el linkbuilding... però no parin prou atenció a aquest petit arxiu de text tan important.

    Com dèiem, el robots.txt és bàsicament això: un arxiu de text pla que conté una sèrie d'instruccions orientades a dirigir i a gestionar la indexació i el rastreig de les pàgines d'un site web.

    Abans de col·locar-lo en el directori arrel de la teva web, cal recalcar que parlem d'instruccions i, com a tals, els motors de cerca com Google poden respectar-les o no.

  • El seu nom fa referència als anomenats robots o bots dels cercadors. Això són, en realitat, petits programes que rastregen les webs per descobrir-hi contingut per a introduir en els seus índexs.

    Els bots, que també reben el nom de crawlers o aranyes, poden pertànyer a un motor de cerca comercial com Google o Bing, però també a una eina SEO.

  • Com funciona el robots.txt?

  • Quan el crawler entra a la nostra pàgina, el primer que fa és consultar el robots.txt. Si no existeix, interpretarà que tot és potencialment rastrejable i indexable. Quan existeix i el pot trobar, consulta aquestes instruccions i queda a l'arbitrarietat del software si les segueix o no.

    L'arxiu no pot ser més senzill. En essència, tot es redueix a dos comandaments: allow i disallow. El primer recomana l'accés, mentre que el segon s'utilitza per denegar-lo. En ambdós casos s'utilitza igual: escrivint la instrucció seguida de dos punts i la URL o directori afectat (Allow: o Disallow:)

    A més d'això, has de saber que hi ha molts robots. Els més habituals són els que comentàvem anteriorment, com els de Google o Bing, o els de les eines –com poden ser Sistrix, Screaming Frog, Semrush o qualsevol altre–. Com passa en tot el que és online, existeixen motors maliciosos; si els bloquegem evitem problemes. A efectes del robots.txt, tots els robots es diuen user agent.
  • Construint el robots.txt

  • Amb el que acabem de veure, tenim bàsicament les normes per gestionar la indexació i el rastreig. Vegem un parell d'exemples perquè s'entengui de la millor manera possible:

  • Suposem que volem bloquejar l'accés a la pàgina de login (nuestra-tienda.com/login) a la nostra botiga per part del bot de Google.

     

    EXEMPLE:

    User-agent: Googlebot

    Disallow: / login

     

    Si en lloc d'una pàgina concreta volem bloquejar un directori –suposem que és la categoria rellotges–, farem això (nuestra-tienda.com/relojes):

     

    EXEMPLE:

    User-agent: Googlebot

    Disallow: / rellotges /

     

    Ara imaginem que volem denegar l'accés al directori rellotges de la nostra botiga, però no a la subcategoria de rellotges per a dona. Per defecte tot és rastrejable, però si bloquegem un directori, hem de desbloquejar els subdirectoris explícitament.

     

    EXEMPLE:

    User agent: Googlebot

    Disallow: / rellotges /

    Allow: / rellotges / dona

     

    Fins i tot podria donar-se el cas de voler bloquejar el site complet a tots els user agents, per exemple en el cas de tenir una pàgina en desenvolupament que encara no és definitiva. En aquesta circumstància, utilitzaríem l'asterisc a manera de comodí.

     

    EXEMPLE:

    User-agent: *

    Disallow: /

     

    Molt de compte amb aquesta instrucció: sovint és darrere de pàgines que no rankegen per cap paraula clau malgrat que estan perfectament optimitzades. És una de les primeres coses que has de descartar

  •  El robots.txt és una eina molt potent encara que sembli senzilla. De fet, el mateix Google permet que provis l'arxiu per tal de veure si estàs bloquejant indegudament determinats recursos.

    És un tema en el qual cal ser molt escrupolós amb la sintaxi i l'ús de les ordres. Per això, et recomanaríem que llegíssis a fons les recomanacions que va publicar en el seu moment Google i que manté actualitzades.
  • TIP PRO: Tot i que al robots.txt no s'hi ha d'introduir més informació que la comentada, hi ha una excepció molt interessant que és incloure un enllaç a l'adreça on estigui el sitemap.xml del site, un petit mapa d'enllaços que recorre el cercador i que accelera la indexació de les pàgines.

  • Què ha canviat en el robots.txt?

  • Tot el que hem comentat calia per arribar a aquest punt. Al mes de juliol de 2019 es van anunciar alguns canvis molt importants al respecte.

    Tot i que hem deixat clar que només hi ha dues ordres (Allow i Disallow), molts usuaris porten anys utilitzant una tercera ordre: noindex. D'aquesta manera, el robot podria accedir a una pàgina o directori determinat, però no l’inclouria a l'índex. Doncs bé, a partir del proper mes de setembre, això deixarà de tenir cap tipus d'efecte.

    Encara que hi ha una certa tendència a pensar que Google fa les coses "per molestar", en aquest cas l'excusa és una altra. Pretenen estandaritzar l'ús del robots.txt a través del REP (Robot Exclusion Protocol), i aquest ús simplement no està contemplat.

    Si volem evitar la indexació, seguim tenint alternatives com ara l'ús de les meta etiquetes. Només cal posar: <meta name = "robots" content = "noindex"> en el codi de les pàgines que no vols que acabin a l'índex de Google. Pots fer coses una mica més radicals, com ficar aquestes pàgines darrere d'una contrasenya.
  • Directament pots no permetre’n l'accés des del robots.txt fent servir un disallow, però que el robot no hi entri no vol dir necessàriament que no s’indexi ja que pot estar enllaçada des d'algun altre site que Googlebot sí que pugui seguir.

  • Ha estat un post una mica dens, però és molt important per al SEO del teu eCommerce. Tens algun dubte? Podem ajudar-te? No et tallis i digue’ns-ho en els comentaris.

  • Imatges | Unsplash.

Jordi Ordóñez


Jordi Ordóñez es consultor eCommerce y SEO con 16 años de experiencia en proyectos online. Ha asesorado a clientes como Castañer, Textura, Acumbamail, Kartox o Casa Ametller. Escribe en el blog oficial de Prestashop, BrainSINS, Marketing4ecommerce, Fotografía eCommerce, Socialancer, eCommerce-news.es y SEMRush entre otros. Es redactor en el blog de Oleoshop.
comments powered by Disqus

Buscar

Últimes entrades

Utilitzem cookies pròpies i de tercers per realitzar anàlisis d'ús de la nostra web. En continuar amb la navegació entenem que s'accepta la nostra política de cookies

Accepto