Com i per què evitar que els robots rastregin el vostre lloc


En la seva majoria, els robots i les aranyes són relativament inofensius.

Voleu que el bot de Google, per exemple, rastregi i indexi el vostre lloc web.

Tanmateix, els robots i les aranyes de vegades poden ser un problema i proporcionar trànsit no desitjat.

Aquest tipus de trànsit no desitjat pot provocar:

  • Ofuscament d’on prové el trànsit.
  • Informes confusos i difícils d’entendre.
  • Mala atribució en anàlisis de Google.
  • Augment dels costos d’ample de banda que pagueu.
  • Altres molèsties.

Hi ha robots bons i robots dolents.

Els bons robots s’executen en segon pla, rarament ataquen un altre usuari o lloc web.

Els robots dolents trenquen la seguretat que hi ha darrere d’un lloc web o s’utilitzen com una xarxa de bots àmplia i a gran escala per oferir atacs DDOS contra una gran organització (cosa que una única màquina no pot eliminar).

Això és el que hauríeu de saber sobre els robots i com evitar que els dolents rastregin el vostre lloc.

Què és un bot?

Mirar exactament què és un bot pot ajudar a identificar per què hem de bloquejar-lo i evitar que rastregi el nostre lloc.

Un bot, abreviatura de “robot”, és una aplicació de programari dissenyada per repetir una tasca específica repetidament.

Per a molts professionals de SEO, l’ús de robots va juntament amb l’escalada d’una campanya de SEO.

“Escalar” vol dir que automatitzeu el màxim de treball possible per obtenir millors resultats més ràpidament.

Concepcions errònies habituals sobre els bots

Potser us heu trobat amb la idea errònia que tots els robots són dolents i s’han de prohibir de manera inequívoca del vostre lloc.

Però això no podria estar més lluny de la realitat.

Google és un bot.

Si bloquegeu Google, podeu endevinar què passarà amb el vostre rànquing en cercadors?

Alguns robots poden ser maliciosos, dissenyats per crear contingut fals o fer-se passar per llocs web legítims per robar les vostres dades.

Tanmateix, els robots no sempre són scripts maliciosos executats per actors dolents.

Algunes poden ser eines excel·lents que ajuden a facilitar la feina dels professionals del SEO, com ara automatitzar tasques repetitives habituals o esborrar informació útil dels motors de cerca.

Alguns robots habituals que utilitzen els professionals del SEO són ​​Semrush i Ahrefs.

Aquests robots treuen dades útils dels motors de cerca, ajuden els professionals de SEO a automatitzar i completar tasques i poden ajudar-vos a facilitar la vostra feina quan es tracta de tasques de SEO.

Per què hauríeu d’impedir que els robots rastregin el vostre lloc?

Tot i que hi ha molts robots bons, també hi ha robots dolents.

Els robots dolents poden ajudar a robar les vostres dades privades o eliminar un lloc web que funcionaria d’una altra manera.

Volem bloquejar els robots dolents que puguem descobrir.

No és fàcil descobrir tots els bots que poden rastrejar el vostre lloc, però amb una mica d’excavació, podeu trobar-ne de maliciosos que ja no voleu visitar.

Aleshores, per què hauríeu d’impedir que els robots rastregin el vostre lloc web?

Alguns dels motius habituals pels quals és possible que vulgueu bloquejar que els robots rastregin el vostre lloc poden incloure:

Protecció de les vostres dades valuoses

Potser heu trobat que un connector està atraient una sèrie de robots maliciosos que volen robar les vostres valuoses dades de consumidors.

O bé, heu trobat que un bot va aprofitar una vulnerabilitat de seguretat per afegir enllaços dolents a tot el vostre lloc.

O, algú ho continua intentant envia brossa al teu formulari de contacte amb un bot.

Aquí és on heu de prendre determinades mesures per protegir les vostres dades valuoses de ser compromeses per un bot.

Excés d’ample de banda

Si rebeu una afluència de trànsit de bot, és probable que el vostre ample de banda també es dispari, provocant excés i càrrecs imprevistos que preferiu no tenir.

En aquests casos, voleu evitar que els robots ofensius rastregin el vostre lloc.

No voleu una situació en què pagueu milers de dòlars per una amplada de banda que no mereixeu que us cobrin.

Què és l’ample de banda?

L’ample de banda és la transferència de dades del vostre servidor al costat del client (navegador web).

Cada vegada que s’envien dades mitjançant un intent de connexió, feu servir l’ample de banda.

Quan els robots accedeixen al vostre lloc i malgasteu l’ample de banda, podríeu incórrer en càrrecs excessius per sobrepassar l’amplada de banda assignada mensualment.

Us hauríeu d’haver donat almenys una mica d’informació detallada del vostre amfitrió quan us vau registrar al vostre paquet d’allotjament.

Limitar el mal comportament

Si d’alguna manera un bot maliciós començava a orientar-se al vostre lloc, seria apropiat prendre mesures per controlar-ho.

Per exemple, voldríeu assegurar-vos que aquest bot no pugui accedir als vostres formularis de contacte. Voleu assegurar-vos que el bot no pugui accedir al vostre lloc.

Feu-ho abans que el bot pugui comprometre els vostres fitxers més crítics.

En assegurar-vos que el vostre lloc estigui correctament bloquejat i segur, és possible bloquejar aquests robots perquè no causin massa danys.

Com bloquejar els bots del vostre lloc de manera eficaç

Podeu utilitzar dos mètodes per bloquejar els robots del vostre lloc de manera eficaç.

El primer és a través de robots.txt.

Aquest és un fitxer que es troba a l’arrel del vostre servidor web. Normalment, és possible que no en tingueu cap per defecte i n’haurieu de crear-ne un.

Aquests són alguns codis robots.txt molt útils que podeu utilitzar per bloquejar la majoria d’aranyes i robots del vostre lloc:

No permeteu Googlebot des del vostre servidor

Si, per algun motiu, voleu impedir que Googlebot rastregi el vostre servidor, el codi que utilitzareu és el següent:

Agent d’usuari: Googlebot
No permetre: /

Només voleu utilitzar aquest codi per evitar que el vostre lloc s’indexi en absolut.

No ho feu servir per caprici!

Teniu un motiu específic per assegurar-vos que no voleu que els robots rastregin el vostre lloc.

Per exemple, un problema comú és voler mantenir el vostre lloc de prova fora de l’índex.

No voleu que Google rastregi el lloc de prova i el vostre lloc real perquè esteu duplicant el vostre contingut i creant problemes de contingut duplicat com a resultat.

No permetre tots els bots del vostre servidor

Si voleu evitar que tots els robots rastregin el vostre lloc, el codi següent és el que voldreu utilitzar:

Agent d’usuari: *
No permetre: /

Aquest és el codi per no permetre tots els robots. Recordeu el nostre exemple de lloc de muntatge de dalt?

Potser voleu excloure el lloc de prova de tots els robots abans de desplegar completament el vostre lloc a tots ells.

O potser voleu mantenir el vostre lloc privat durant un temps abans de llançar-lo al món.

De qualsevol manera, això mantindrà el vostre lloc ocult de mirades indiscretes.

Evitar que els robots rastregin una carpeta específica

Si per algun motiu, voleu evitar que els robots rastregin una carpeta específica que voleu designar, també ho podeu fer.

El següent és el codi que utilitzaríeu:

Agent d’usuari: *
No permetre: /nom-carpeta/

Hi ha moltes raons per les quals algú vol excloure robots d’una carpeta. Potser voleu assegurar-vos que determinat contingut del vostre lloc no estigui indexat.

O potser aquesta carpeta en particular provocarà certs tipus de problemes de contingut duplicat i voleu excloure-la del rastreig completament.

De qualsevol manera, això t’ajudarà a fer-ho.

Errors comuns amb Robots.txt

Hi ha diversos errors que cometen els professionals del SEO amb robots.txt. Els errors més comuns inclouen:

  • Utilitzant tant disallow a robots.txt com noindex.
  • Utilitzant la barra inclinada / (totes les carpetes des de l’arrel), quan realment et refereixes a un URL específic.
  • No inclou el camí correcte.
  • No s’està provant el fitxer robots.txt.
  • No saber el nom correcte de l’agent d’usuari que voleu bloquejar.

Utilitzant tant Disallow a Robots.txt com Noindex a la pàgina

John Mueller de Google ha afirmat que no hauríeu d’utilitzar tant disallow a robots.txt com noindex a la pròpia pàgina.

Si feu les dues coses, Google no pot rastrejar la pàgina per veure el noindex, de manera que encara podria indexar la pàgina de totes maneres.

Per això només hauríeu d’utilitzar un o l’altre, i no tots dos.

Utilitzar la barra inclinada quan realment es refereix a un URL específic

La barra inclinada després de Disallow significa “des d’aquesta carpeta arrel cap avall, completament i completament per a l’eternitat”.

Cada pàgina del vostre lloc es bloquejarà per sempre fins que la canvieu.

Un dels problemes més habituals que trobo a les auditories de llocs web és que algú va afegir accidentalment una barra inclinada a “No permetre:” i va bloquejar Google per rastrejar tot el seu lloc.

No inclou el camí correcte

Nosaltres entenem. De vegades, codificar robots.txt pot ser una feina difícil.

Al principi no podríeu recordar el camí correcte exacte, així que vau recórrer el fitxer i l’heu volat.

El problema és que tots aquests camins similars donen lloc a 404 perquè estan a un caràcter.

És per això que és important comprovar sempre els camins que utilitzeu en URL específics.

No voleu córrer el risc d’afegir un URL a robots.txt que no funcioni a robots.txt.

No saber el nom correcte de l’agent d’usuari

Si voleu bloquejar un agent d’usuari concret però no coneixeu el nom d’aquest agent d’usuari, és un problema.

En lloc d’utilitzar el nom que creieu recordar, feu una mica de recerca i esbrineu el nom exacte de l’agent d’usuari que necessiteu.

Si esteu intentant bloquejar robots específics, aquest nom esdevé extremadament important en els vostres esforços.

Per què més bloquejaries els robots i les aranyes?

Hi ha altres motius pels quals els professionals del SEO volen impedir que els robots rastregin el seu lloc.

Potser estan endinsats en els PBN de barret gris (o barret negre) i volen ocultar la seva xarxa de blocs privats de mirades indiscretes (especialment dels seus competidors).

Ho poden fer utilitzant robots.txt per bloquejar els robots comuns que els professionals de SEO utilitzen per avaluar la seva competència.

Per exemple Semrush i Ahrefs.

Si voleu bloquejar Ahrefs, aquest és el codi per fer-ho:

Agent d’usuari: AhrefsBot
No permetre: /

Això impedirà que AhrefsBot rastregi tot el vostre lloc.

Si voleu bloquejar Semrush, aquest és el codi per fer-ho.

També hi ha altres instruccions aquí.

Hi ha moltes línies de codi per afegir, així que aneu amb compte en afegir-les:

Per bloquejar SemrushBot de rastrejar el vostre lloc per diferents problemes tècnics i de SEO:

Agent d’usuari: SiteAuditBot
No permetre: /

Per bloquejar SemrushBot de rastrejar el vostre lloc per a l’eina d’auditoria d’enllaços d’entrada:

Agent d’usuari: SemrushBot-BA
No permetre: /

Per bloquejar SemrushBot de rastrejar el vostre lloc per a l’eina On Page SEO Checker i eines similars:

Agent d’usuari: SemrushBot-SI
No permetre: /

Per bloquejar SemrushBot de comprovar els URL del vostre lloc per a l’eina SWA:

Agent d’usuari: SemrushBot-SWA
No permetre: /

Per bloquejar SemrushBot de rastrejar el vostre lloc per a les eines d’anàlisi de contingut i de seguiment de publicacions:

Agent d’usuari: SemrushBot-CT
No permetre: /

Per impedir que SemrushBot rastregi el vostre lloc per al seguiment de la marca:

Agent d’usuari: SemrushBot-BM
No permetre: /

Per bloquejar SplitSignalBot de rastrejar el vostre lloc per a l’eina SplitSignal:

Agent d’usuari: SplitSignalBot
No permetre: /

Per bloquejar SemrushBot-COUB de rastrejar el vostre lloc per a l’eina Content Outline Builder:

Agent d’usuari: SemrushBot-COUB
No permetre: /

Ús del vostre fitxer HTACCESS per bloquejar bots

Si esteu en un servidor web APACHE, podeu utilitzar el fitxer htaccess del vostre lloc per bloquejar robots específics.

Per exemple, aquí és com utilitzaríeu el codi a htaccess per bloquejar ahrefsbot.

Tingueu en compte: aneu amb compte amb aquest codi.

Si no saps què estàs fent, pots baixar el teu servidor.

Només proporcionem aquest codi aquí amb finalitats d’exemple.

Assegureu-vos que feu la vostra investigació i practiqueu pel vostre compte abans d’afegir-lo a un servidor de producció.

Comanda Permetre, Denegar
Denegació del 51.222.152.133
Denegació del 54.36.148.1
Denegar des del 195.154.122
Permetre de tots

Perquè això funcioni correctament, assegureu-vos de bloquejar tots els intervals d’IP enumerats a Aquest article al blog d’Ahrefs.

Si voleu una introducció completa a .htaccess, no busqueu més aquest tutorial a Apache.org.

Si necessiteu ajuda per utilitzar el vostre fitxer htaccess per bloquejar tipus específics de bots, podeu seguir el tutorial aquí.

Bloquejar bots i aranyes pot requerir una mica de treball

Però al final val molt la pena.

Si us assegureu de bloquejar els robots i les aranyes per rastrejar el vostre lloc, no caureu en la mateixa trampa que els altres.

Podeu estar tranquil sabent que el vostre lloc és immune a determinats processos automatitzats.

Quan podeu controlar aquests robots particulars, les coses són molt millors per a vosaltres, el professional del SEO.

Si heu de fer-ho, assegureu-vos sempre que els robots i les aranyes necessaris no rastregin el vostre lloc.

Això donarà lloc a una seguretat millorada, una millor reputació en línia en general i un lloc molt millor que hi haurà en els propers anys.

Més recursos:


Imatge destacada: Roman Samborskyi/Shutterstock





Source link

Com i per què evitar que els robots rastregin el vostre lloc