Recuperació d’informació: una introducció per als SEO


Quan parlem de recuperació d’informació, com a professionals del SEO, tendim a centrar-nos molt en l’etapa de recollida d’informació: el rastreig.

Durant aquesta fase, un motor de cerca descobriria i rastrejarà els URL als quals té accés (el volum i l’amplitud depenen d’altres factors als quals ens referim col·loquialment com a pressupost de rastreig).

La fase de rastreig no és una cosa en què ens centrarem en aquest article, ni aprofundiré en com funciona la indexació.

Si voleu llegir més sobre el rastreig i la indexació, podeu fer-ho aquí.

En aquest article, tractaré alguns dels conceptes bàsics de la recuperació d’informació que, quan s’entenguin, us poden ajudar a optimitzar millor les pàgines web per al rendiment de la classificació.

També us pot ajudar a analitzar millor canvis d’algorisme i actualitzacions de la pàgina de resultats del motor de cerca (SERP).

Per entendre i apreciar com els motors de cerca actuals processen la recuperació d’informació pràctica, hem d’entendre la història de la recuperació d’informació a Internet, especialment com es relaciona amb els processos dels motors de cerca.

Pel que fa a la recuperació d’informació digital i les tecnologies fonamentals adoptades pels motors de cerca, podem remuntar-nos als anys 60 i a la Universitat de Cornell, on Gerard Salton va dirigir un equip que va desenvolupar el sistema SMART de recuperació d’informació.

A Salton se li atribueix el desenvolupament i l’ús del modelatge de l’espai vectorial per a la recuperació d’informació.

Models espacials vectorials

Models espacials vectorials són acceptat a la comunitat de ciències de dades com a mecanisme clau en com els motors de cerca “cerquen” i plataformes com Amazon ofereixen recomanacions.

Aquest mètode permet a un processador, com ara Google, comparar diferents documents amb consultes quan les consultes es representen com a vectors.

Google s’ha referit a això en els seus documents com a cerca de similitud vectorial, o “cerca de veí més proper”, definida per Donald Knuth el 1973.

En una cerca tradicional de paraules clau, el processador utilitzaria paraules clau, etiquetes, etiquetes, etc., dins de la base de dades per trobar contingut rellevant.

Això és força limitat, ja que redueix el camp de cerca dins de la base de dades perquè la resposta és un sí o un no binari. Aquest mètode també es pot limitar durant el processament sinònims i entitats relacionades.

Com més properes estiguin les dues entitats en termes de proximitat, menys espai entre els vectors i més semblança/precisió es considera que tenen.

Per combatre-ho i proporcionar resultats per a consultes amb múltiples interpretacions comunes, Google utilitza la similitud vectorial per unir diversos significats, sinònims i entitats.

Un bon exemple d’això és quan busqueu el meu nom a Google.

A Google, [dan taylor] pot ser:

  • Jo, la persona SEO.
  • Periodista esportiu britànic.
  • Un periodista local.
  • El tinent Dan Taylor de Forrest Gump.
  • Un fotògraf.
  • Un modelista.

Si utilitzeu la cerca tradicional de paraules clau amb criteris binaris sí/no, no obtindreu aquesta difusió de resultats a la primera pàgina.

Amb la cerca vectorial, el processador pot produir una pàgina de resultats de cerca basada en la similitud i les relacions entre diferents entitats i vectors dins de la base de dades.

Podeu llegir el blog de l’empresa aquí per obtenir més informació sobre com ho utilitza Google en diversos productes.

Coincidència de semblança

Quan es comparen documents d’aquesta manera, els motors de cerca probablement utilitzin una combinació de la ponderació de termes de consulta (QTW) i el coeficient de semblança.

QTW aplica una ponderació a termes específics de la consulta, que després s’utilitza per calcular un coeficient de semblança mitjançant el model d’espai vectorial i es calcula mitjançant el coeficient del cosinus.

La similitud del cosinus mesura la similitud entre dos vectors i, en l’anàlisi del text, s’utilitza per mesurar la similitud del document.

Aquest és un mecanisme probable en com els motors de cerca determinen contingut duplicat i propostes de valor en un lloc web.

El cosinus es mesura entre -1 i 1.

Tradicionalment, en un gràfic de similitud de cosinus, es mesurarà entre 0 i 1, sent 0 la màxima dissimilaritat, o ortogonal, i 1 la màxima similitud.

El paper d’un índex

En SEO, parlem molt dels problemes d’índex, indexació i indexació, però no parlem activament del paper de l’índex als motors de cerca.

L’objectiu d’un índex és emmagatzemar informació, cosa que Google fa mitjançant sistemes d’indexació per nivells i fragments, per actuar com a dipòsit de dades.

Això es deu al fet que no és realista, no és rendible i és una experiència deficient per a l’usuari final accedir (rastrejar) a pàgines web, analitzar-ne el contingut, puntuar-lo i presentar una SERP en temps real.

Normalment, un índex de motor de cerca modern no contindria una còpia completa de cada document, sinó que és més una base de dades de punts clau i dades que s’han tokenitzat. Aleshores, el document en si viurà en una memòria cau diferent.

Tot i que no sabem exactament els processos pels quals passaran els motors de cerca com Google com a part del seu sistema de recuperació d’informació, és probable que tinguin etapes de:

  • Anàlisi estructural – Format i estructura del text, llistes, taules, imatges, etc.
  • Sortida – Reduir les variacions d’una paraula a la seva arrel. Per exemple, “cerca” i “cerca” es reduirien a “cerca”.
  • Anàlisi lèxica – Conversió del document en una llista de paraules i després anàlisi per identificar factors importants com ara dates, autors i freqüència de termes. Cal tenir en compte que això no és el mateix que TF*IDF.

També esperem que durant aquesta fase es tinguin en compte altres consideracions i punts de dades, com ara enllaços d’entrada, tipus d’origen, si el document compleix o no el llindar de qualitat, enllaços interns, contingut principal/contingut de suport, etc.

Precisió i post-recuperació

El 2016, Paul Haahr va donar una gran visió de com mesura Google l'”èxit” del seu procés i també de com aplica els ajustos posteriors a la recuperació.

Podeu veure la seva presentació aquí.

A la majoria de sistemes de recuperació d’informació, hi ha dues mesures principals de l’èxit del sistema a l’hora de retornar un bon conjunt de resultats.

Aquests són la precisió i el record.

Precisió

El nombre de documents retornats que són rellevants en comparació amb el nombre total de documents retornats.

Molts llocs web han vist caigudes en el nombre total de paraules clau per a les quals classifiquen durant els darrers mesos (com ara paraules clau estranyes i avantguardistes per a les quals probablement no tenien dret a classificar-se). Podem especular que els motors de cerca estan perfeccionant el sistema de recuperació d’informació per a una major precisió.

Recorda

El nombre de documents rellevants en comparació amb el nombre total de documents rellevants retornats.

Els motors de cerca s’orienten més a la precisió que al record, ja que la precisió condueix a millors pàgines de resultats de cerca i una major satisfacció dels usuaris. També és menys intensiu en el sistema per retornar més documents i processar més dades de les necessàries.

Conclusió

La pràctica de la recuperació d’informació pot ser complexa a causa de les diferents fórmules i mecanismes utilitzats.

Per exemple:

Com que no sabem ni entenem completament com funciona aquest procés als motors de cerca, hauríem de centrar-nos més en els conceptes bàsics i les directrius que es proporcionen en lloc d’intentar mètriques de joc com TF*IDF que es poden utilitzar o no (i variar en el seu pes). en el resultat global).

Més recursos:


Imatge destacada: BRO.vector/Shutterstock





Source link

Recuperació d’informació: una introducció per als SEO