Google Ranking Algorithm Research presenta TW-BERT


Google va anunciar un marc de classificació notable anomenat Term Weighting BERT (TW-BERT) que millora els resultats de la cerca i és fàcil d’implementar als sistemes de classificació existents.

Tot i que Google no ha confirmat que utilitzi TW-BERT, aquest nou marc és un avenç que millora els processos de classificació a tots els nivells, inclosa l’expansió de consultes. També és fàcil de desplegar, cosa que, al meu entendre, fa que sigui més probable que estigui en ús.

TW-BERT té molts coautors, entre ells Marc Najorkun científic de recerca distingit de Google DeepMind i antic director sènior d’enginyeria de recerca de Google Research.

Ha estat coautor de molts treballs de recerca sobre temes relacionats amb els processos de classificació i molts altres camps.

Entre els articles Marc Najork figura com a coautor:

  • Sobre l’optimització de les mètriques Top-K per a models de classificació neuronal – 2022
  • Models de llenguatge dinàmic per a continguts en evolució contínua – 2021
  • Repensar la cerca: fer experts en dominis amb diletants – 2021
  • Transformació de funcions per a models de classificació neuronal – – 2020
  • Aprenent a classificar amb BERT al rànquing TF – 2020
  • Concordança de text semàntic per a documents de format llarg – 2019
  • TF-Ranking: biblioteca escalable de TensorFlow per aprendre a classificar – 2018
  • El marc LambdaLoss per a l’optimització de mètriques de classificació – 2018
  • Aprendre a classificar amb biaix de selecció a la cerca personal – 2016

Què és TW-BERT?

TW-BERT és un marc de classificació que assigna puntuacions (anomenades pesos) a les paraules dins d’una consulta de cerca per tal de determinar amb més precisió quins documents són rellevants per a aquesta consulta de cerca.

TW-BERT també és útil a l’expansió de consultes.

L’expansió de la consulta és un procés que reafirma una consulta de cerca o afegeix més paraules a ella (com ara afegir la paraula “recepta” a la consulta “sopa de pollastre”) per fer coincidir millor la consulta de cerca amb els documents.

Afegir puntuacions a la consulta l’ajuda a determinar millor de què tracta la consulta.

TW-BERT Bridges Two Information Retrieval Paradigmes

El document de recerca tracta dos mètodes diferents de cerca. Un que es basa en estadístiques i l’altre són models d’aprenentatge profund.

Segueix una discussió sobre els beneficis i les deficiències d’aquests diferents mètodes i suggereix que TW-BERT és una manera de superar els dos enfocaments sense cap de les mancances.

Ells escriuen:

“Aquests mètodes de recuperació basats en estadístiques proporcionen una cerca eficient que augmenta amb la mida del corpus i es generalitza a nous dominis.

Tanmateix, els termes es ponderen de manera independent i no tenen en compte el context de tota la consulta”.

Aleshores, els investigadors observen que els models d’aprenentatge profund poden esbrinar el context de les consultes de cerca.

S’explica:

“Per a aquest problema, els models d’aprenentatge profund poden realitzar aquesta contextualització sobre la consulta per proporcionar millors representacions per a termes individuals”.

El que proposen els investigadors és l’ús de TW-Bert per unir els dos mètodes.

L’avenç es descriu:

“Unem aquests dos paradigmes per determinar quins són els termes de cerca més rellevants o no rellevants a la consulta…

Aleshores, aquests termes es poden ponderar a l’alça o a la baixa per permetre que el nostre sistema de recuperació produeixi resultats més rellevants”.

Exemple de ponderació de termes de cerca TW-BERT

El document de recerca ofereix l’exemple de la consulta de cerca, “Sabatilles de running Nike”.

En termes senzills, les paraules “Sabatilles de running Nike” són tres paraules que un algorisme de classificació ha d’entendre de la manera en què el cercador vol que s’entengui.

Expliquen que posar èmfasi en la part “en execució” de la consulta farà que apareguin resultats de cerca irrellevants que continguin marques diferents de Nike.

En aquest exemple, la marca Nike és important i, per això, el procés de classificació hauria d’exigir que les pàgines web candidates continguin la paraula Nike.

Les pàgines web candidates són pàgines que es tenen en compte per als resultats de la cerca.

El que fa TW-BERT és proporcionar una puntuació (anomenada ponderació) per a cada part de la consulta de cerca perquè tingui sentit de la mateixa manera que ho fa amb la persona que ha introduït la consulta de cerca.

En aquest exemple, la paraula Nike es considera important, per la qual cosa se li hauria de donar una puntuació més alta (ponderació).

Els investigadors escriuen:

“Per tant, el repte és que ens hem d’assegurar que Nike” tingui un pes suficientment alt alhora que proporcionem sabatilles de running en els resultats finals retornats”.

L’altre repte és entendre el context de les paraules “córrer” i “sabates” i això vol dir que la ponderació hauria de ser més alta per unir les dues paraules com a frase, “sabates de córrer”, en lloc de ponderar les dues paraules de manera independent.

Aquest problema i la solució s’explica:

“El segon aspecte és com aprofitar termes més significatius de n-gram durant la puntuació.

A la nostra consulta, els termes “córrer” i “sabates” es gestionen de manera independent, que poden coincidir igualment amb “mitjons de running” o “sabates de patinatge”.

En aquest cas, volem que el nostre retriever treballi en un nivell de terme de n grams per indicar que les “sabatilles de córrer” haurien de ser ponderades a l’hora de puntuar”.

Resolució de limitacions en els marcs actuals

El document de recerca resumeix la ponderació tradicional com a limitada en les variacions de les consultes i esmenta que aquests mètodes de ponderació basats en estadístiques funcionen menys bé per als escenaris zero-shot.

L’aprenentatge zero és una referència a la capacitat d’un model per resoldre un problema per al qual no ha estat entrenat.

També hi ha un resum de les limitacions inherents als mètodes actuals d’expansió del terme.

L’expansió del terme és quan s’utilitzen sinònims per trobar més respostes a les consultes de cerca o quan s’infereix una altra paraula.

Per exemple, quan algú cerca “sopa de pollastre”, es dedueix que significa “sopa de pollastre”. recepta.”

Escriuen sobre les mancances dels mètodes actuals:

“… aquestes funcions auxiliars de puntuació no tenen en compte els passos de ponderació addicionals realitzats per les funcions de puntuació utilitzades en els recuperadors existents, com ara les estadístiques de consulta, les estadístiques de documents i els valors dels hiperparàmetres.

Això pot alterar la distribució original dels pesos dels termes assignats durant la puntuació final i la recuperació”.

A continuació, els investigadors afirmen que l’aprenentatge profund té el seu propi bagatge en forma de complexitat de desplegament i de comportament impredictible quan es troben amb noves àrees per a les quals no estaven entrenats prèviament.

Aquí, doncs, és on entra en escena TW-BERT.

TW-BERT Bridges Two Approaches

La solució proposada és com un enfocament híbrid.

A la cita següent, el terme IR significa Recuperació d’informació.

Ells escriuen:

“Per salvar el buit, aprofitem la robustesa dels recuperadors lèxics existents amb les representacions de text contextuals proporcionades pels models profunds.

Els recuperadors lèxics ja ofereixen la capacitat d’assignar pesos per consultar termes de n-grames quan es realitzen la recuperació.

Aprofitem un model de llenguatge en aquesta etapa del pipeline per proporcionar pesos adequats als termes de n-gram de consulta.

Aquest BERT de ponderació de termes (TW-BERT) s’optimitza d’extrem a extrem utilitzant les mateixes funcions de puntuació que s’utilitzen al pipeline de recuperació per garantir la coherència entre l’entrenament i la recuperació.

Això condueix a millores de recuperació quan s’utilitzen els pesos de termes produïts per TW-BERT mentre es manté la infraestructura IR similar a la seva contrapart de producció existent”.

L’algoritme TW-BERT assigna pesos a les consultes per proporcionar una puntuació de rellevància més precisa amb la qual pot treballar la resta del procés de classificació.

Recuperació lèxica estàndard

Diagrama que mostra el flux de dades dins d'un sistema estàndard de recuperació lèxica

Recuperació ponderada de termes (TW-BERT)

Diagrama que mostra on encaixa TW-BERT en un marc de recuperació

TW-BERT és fàcil de desplegar

Un dels avantatges de TW-BERT és que es pot inserir directament al procés de classificació de recuperació d’informació actual, com un component incorporat.

“Això ens permet desplegar directament els nostres pesos de termini dins d’un sistema IR durant la recuperació.

Això difereix dels mètodes de ponderació anteriors que necessiten ajustar encara més els paràmetres d’un recuperador per obtenir un rendiment de recuperació òptim, ja que optimitzen els pesos de termes obtinguts per heurístiques en lloc d’optimitzar d’extrem a extrem”.

El que és important d’aquesta facilitat de desplegament és que no requereix programari especialitzat ni actualitzacions del maquinari per afegir TW-BERT a un procés d’algorisme de classificació.

Google utilitza TW-BERT al seu algorisme de classificació?

Com s’ha esmentat anteriorment, desplegar TW-BERT és relativament fàcil.

Al meu entendre, és raonable suposar que la facilitat de desplegament augmenta les probabilitats que aquest marc es pugui afegir a l’algorisme de Google.

Això vol dir que Google podria afegir TW-BERT a la part de classificació de l’algorisme sense haver de fer una actualització de l’algoritme bàsic a escala completa.

A part de la facilitat de desplegament, una altra qualitat a buscar per endevinar si un algorisme podria estar en ús és l’èxit que té l’algoritme a l’hora de millorar l’estat actual de la tècnica.

Hi ha molts treballs de recerca que només tenen un èxit limitat o cap millora. Aquests algorismes són interessants, però és raonable suposar que no entraran a l’algoritme de Google.

Els que tenen interès són els que tenen molt d’èxit i és el cas de TW-BERT.

TW-BERT té molt d’èxit. Van dir que és fàcil introduir-lo en un algorisme de classificació existent i que funciona tan bé com a “rankers neuronals densos”

Els investigadors van explicar com millora els sistemes de classificació actuals:

“Utilitzant aquests marcs de recuperació, mostrem que el nostre mètode de ponderació de termes supera les estratègies de ponderació de termes de referència per a tasques dins del domini.

En tasques fora del domini, TW-BERT millora les estratègies de ponderació de la línia de base, així com els densos classificadors neuronals.

Mostrem a més la utilitat del nostre model integrant-lo amb els models d’expansió de consultes existents, la qual cosa millora el rendiment respecte a la cerca estàndard i la recuperació densa en els casos zero-shot.

Això motiva que el nostre treball pugui aportar millores als sistemes de recuperació existents amb una fricció d’incorporació mínima”.

Per tant, aquestes són dues bones raons per les quals TW-BERT ja podria formar part de l’algoritme de classificació de Google.

  1. És una millora general dels marcs de classificació actuals
  2. És fàcil de desplegar

Si Google ha desplegat TW-BERT, això podria explicar les fluctuacions de classificació que les eines de seguiment de SEO i els membres de la comunitat de màrqueting de cerca han estat informant durant l’últim mes.

En general, Google només anuncia alguns canvis de classificació, sobretot quan produeixen un efecte notable, com quan Google va anunciar l’algoritme BERT.

En absència de confirmació oficial, només podem especular sobre la probabilitat que TW-BERT sigui part de l’algorisme de classificació de cerca de Google.

No obstant això, TW-BERT és un marc notable que sembla millorar la precisió dels sistemes de recuperació d’informació i que Google podria utilitzar.

Llegeix el document de recerca original:

Ponderació del terme de consulta d’extrem a extrem (PDF)

Pàgina web de Google Research:

Ponderació del terme de consulta d’extrem a extrem

Imatge destacada de Shutterstock/TPYXA Illustration





Source link

Google Ranking Algorithm Research presenta TW-BERT