Tot el que necessiteu saber sobre la capçalera HTTP X-Robots-Tag


L’optimització de motors de cerca, en el seu sentit més bàsic, es basa en una cosa per sobre de totes les altres: les aranyes dels motors de cerca rastreig i indexació el vostre lloc.

Però gairebé tots els llocs web tindran pàgines que no voleu incloure en aquesta exploració.

Per exemple, realment voleu que la vostra política de privadesa o les pàgines de cerca internes apareguin als resultats de Google?

En el millor dels casos, aquests no fan res per atraure trànsit al vostre lloc de manera activa i, en el pitjor dels casos, podrien estar desviant el trànsit de pàgines més importants.

Afortunadament, Google permet als administradors web indicar als robots dels motors de cerca quines pàgines i contingut han de rastrejar i què han d’ignorar. Hi ha diverses maneres de fer-ho, la més habitual és utilitzar un fitxer robots.txt o l’etiqueta meta robots.

Tenim una explicació excel·lent i detallada dels detalls de robots.txt, que definitivament hauríeu de llegir.

Però en termes d’alt nivell, és un fitxer de text senzill que viu a l’arrel del vostre lloc web i segueix el Protocol d’exclusió de robots (REP).

Robots.txt proporciona als rastrejadors instruccions sobre el lloc en conjunt, mentre que les etiquetes de meta robots inclouen indicacions per a pàgines específiques.

Algunes etiquetes de meta robots que podeu utilitzar inclouen índexque indica als motors de cerca que afegeixin la pàgina al seu índex; no indexque li indica que no afegeixi una pàgina a l’índex ni l’inclogui als resultats de la cerca; segueixque indica a un motor de cerca que segueixi els enllaços d’una pàgina; no seguirque li diu que no segueixi enllaços, i tota una sèrie d’altres.

Tant les etiquetes robots.txt com els meta robots són eines útils per guardar a la vostra caixa d’eines, però també hi ha una altra manera d’indicar als robots dels motors de cerca que no indexin o no segueixin: X-Robots-Tag.

Què és l’etiqueta X-Robots?

L’etiqueta X-Robots és una altra manera de controlar com les aranyes rastregen i indexen les vostres pàgines web. Com a part de la resposta de la capçalera HTTP a un URL, controla la indexació d’una pàgina sencera, així com els elements específics d’aquesta pàgina.

I mentre que utilitzar etiquetes de meta robots és bastant senzill, l’etiqueta X-Robots és una mica més complicat.

Però això, per descomptat, planteja la pregunta:

Quan hauríeu d’utilitzar l’etiqueta X-Robots?

Segons Google“Qualsevol directiva que es pugui utilitzar en una metaetiqueta de robots també es pot especificar com a X-Robots-Tag”.

Tot i que podeu establir directives relacionades amb robots.txt a les capçaleres d’una resposta HTTP tant amb l’etiqueta meta robots com amb l’etiqueta X-Robots, hi ha certes situacions en què voleu utilitzar l’etiqueta X-Robots, les dues més comunes. essent quan:

  • Voleu controlar com es rastregen i indexen els vostres fitxers que no són HTML.
  • Voleu publicar directives a tot el lloc en lloc de fer-ho a nivell de pàgina.

Per exemple, si voleu bloquejar el rastreig d’una imatge o un vídeo específics, el mètode de resposta HTTP ho facilita.

La capçalera X-Robots-Tag també és útil perquè us permet combinar diverses etiquetes dins d’una resposta HTTP o utilitzar una llista de directives separades per comes per especificar directives.

Potser no voleu que una pàgina determinada quedi a la memòria cau i voleu que no estigui disponible després d’una data determinada. Podeu utilitzar una combinació d’etiquetes “noarchive” i “unavailable_after” per indicar als robots del motor de cerca que segueixin aquestes instruccions.

Essencialment, el poder de l’etiqueta X-Robots-Tag és que és molt més flexible que l’etiqueta meta robots.

L’avantatge d’utilitzar un X-Robots-Tag amb les respostes HTTP és que us permet utilitzar expressions regulars per executar directives de rastreig en no HTML, així com aplicar paràmetres a un nivell global més gran.

Per ajudar-vos a entendre la diferència entre aquestes directives, és útil classificar-les per tipus. És a dir, són directives de rastrejador o directives d’indexador?

Aquí teniu un full de trucs pràctic per explicar:

Directives sobre rastrejadorsDirectives d’indexadors
Robots.txt – utilitza les directives d’agent d’usuari, permet, no permet i mapa del lloc per especificar on es permet rastrejar els robots del motor de cerca del lloc i on no es permet rastrejar.Etiqueta Meta Robots – us permet especificar i evitar que els motors de cerca mostrin pàgines particulars d’un lloc als resultats de la cerca.

Nofollow – us permet especificar enllaços que no haurien de transmetre autoritat o PageRank.

X-Robots-etiqueta – us permet controlar com s’indexen els tipus de fitxer especificats.

On poseu l’etiqueta X-Robots?

Suposem que voleu bloquejar tipus de fitxer específics. Un enfocament ideal seria afegir l’etiqueta X-Robots a una configuració d’Apache o un fitxer .htaccess.

L’etiqueta X-Robots es pot afegir a les respostes HTTP d’un lloc en una configuració de servidor Apache mitjançant un fitxer .htaccess.

Exemples i usos del món real de l’etiqueta X-Robots

Així que sona molt bé en teoria, però com es veu al món real? Fem una ullada.

Suposem que volíem que els motors de cerca no indexessin els tipus de fitxers .pdf. Aquesta configuració als servidors Apache semblaria a la següent:

<Files ~ ".pdf$">
  Header set X-Robots-Tag "noindex, nofollow"
</Files>

A Nginx, es veuria com el següent:

location ~* .pdf$ {
  add_header X-Robots-Tag "noindex, nofollow";
}

Ara, mirem un escenari diferent. Suposem que volem utilitzar l’etiqueta X-Robots per bloquejar la indexació de fitxers d’imatge, com ara .jpg, .gif, .png, etc. Podeu fer-ho amb un X-Robots-Tag que es veuria com el següent:

<Files ~ ".(png|jpe?g|gif)$">
Header set X-Robots-Tag "noindex"
</Files>

Tingueu en compte que entendre com funcionen aquestes directives i l’impacte que tenen les unes sobre les altres és crucial.

Per exemple, què passa si tant l’etiqueta X-Robots-Tag com una etiqueta meta robots es troben quan els robots rastrejadors descobreixen un URL?

Si aquest URL està bloquejat a robots.txt, no es podran descobrir certes directives d’indexació i publicació i no es seguiran.

Si s’han de seguir les directrius, els URL que els contenen no es poden desactivar per rastrejar.

Comproveu si hi ha una etiqueta X-Robots

Hi ha alguns mètodes diferents que es poden utilitzar per comprovar si hi ha una etiqueta X-Robots al lloc.

La manera més senzilla de comprovar-ho és instal·lar un extensió del navegador això us indicarà informació sobre X-Robots-Tag sobre l’URL.

Verificador d'exclusió de robotsCaptura de pantalla de Robots Exclusion Checker, desembre de 2022

Un altre connector que podeu utilitzar per determinar si s’està utilitzant un X-Robots-Tag, per exemple, és el Complement de desenvolupador web.

Si feu clic al connector del vostre navegador i navegueu a “Mostra les capçaleres de resposta”, podeu veure les diferents capçaleres HTTP que s’utilitzen.

connector per a desenvolupadors web

Un altre mètode que es pot utilitzar per escalar per identificar problemes en llocs web amb un milió de pàgines és Screaming Frog.

Després d’executar un lloc a través de Screaming Frog, podeu navegar a la columna “X-Robots-Tag”.

Això us mostrarà quines seccions del lloc utilitzen l’etiqueta, juntament amb quines directives específiques.

Informe de la granota cridant.  X-Robot-TagCaptura de pantalla de l’informe Screaming Frog. X-Robot-Tag, desembre de 2022

Ús de X-Robots-Tags al vostre lloc

Entendre i controlar com els motors de cerca interactuen amb el vostre lloc web és la pedra angular de l’optimització de motors de cerca. I l’X-Robots-Tag és una eina poderosa que podeu utilitzar per fer-ho.

Només tingueu en compte: no està exempt de perills. És molt fàcil cometre un error i desindexar tot el vostre lloc.

Dit això, si esteu llegint aquest article, probablement no sou un principiant en SEO. Sempre que l’utilitzeu amb prudència, preneu-vos el temps i comproveu el vostre treball, trobareu que l’etiqueta X-Robots és una addició útil al vostre arsenal.

Més recursos:


Imatge destacada: Song_about_summer/Shutterstock





Source link

Tot el que necessiteu saber sobre la capçalera HTTP X-Robots-Tag