La cadena de pensament de Google pot impulsar els millors algorismes d’avui


Google va anunciar una investigació innovadora en processament del llenguatge natural anomenada Chain of Thought Prompting que eleva l’estat de l’art de tecnologies avançades com PaLM i LaMDA fins al que els investigadors anomenen un nivell notable.

El fet que Chain of Thought Prompting pugui millorar PaLM i LaMDA a aquests ritmes significatius és molt important.

LaMDA i PaLM

La investigació va dur a terme experiments utilitzant dos models lingüístics, el model de llenguatge per a aplicacions de diàleg (LaMDA) i el model de llenguatge de camins (PaLM).

LaMDA és un model centrat en la conversa, com un chatbot, però també es pot utilitzar per a moltes altres aplicacions que requereixen parlar, diàleg.

PaLM és un model que segueix el que Google anomena l’arquitectura d’IA de Pathways on s’entrena un model de llenguatge per aprendre a resoldre problemes.

Anteriorment, els models d’aprenentatge automàtic s’entrenaven per resoldre un tipus de problema i es deixaven anar essencialment per fer aquesta cosa molt bé. Però per fer una altra cosa Google hauria d’entrenar un nou model.

L’arquitectura Pathways AI és una manera de crear un model que pugui resoldre problemes que no necessàriament ha vist abans.

Tal com es cita a la Google PaLM explicador:

“… ens agradaria entrenar un model que no només pugui gestionar moltes tasques separades, sinó que també aprofitar i combinar les seves habilitats existents per aprendre noves tasques de manera més ràpida i eficaç”.

Què fa

El document de recerca enumera tres avenços importants per al raonament en cadena de pensament:

  1. Permet als models lingüístics desglossar problemes complexos de diversos passos en una seqüència de passos
  2. La cadena del procés de pensament permet als enginyers mirar el procés i quan les coses van malament, això els permet identificar on va fallar i solucionar-ho.
  3. Pot resoldre problemes de paraules matemàtiques, pot aconseguir raonaments de sentit comú i, segons el document d’investigació, pot (en principi) resoldre qualsevol problema basat en paraules que un humà pugui.

Tasques de raonament en diversos passos

La investigació ofereix un exemple d’una tasca de raonament de diversos passos en què es posen a prova els models lingüístics:

“P: La cafeteria tenia 23 pomes. Si n’han fet servir 20 per fer el dinar i n’han comprat 6 més, quantes pomes tenen?

R: La cafeteria tenia originàriament 23 pomes. Van fer servir 20 per fer el dinar. Així que tenien 23 – 20 = 3. Van comprar 6 pomes més, de manera que en tenen 3 + 6 = 9. La resposta és 9.”

PaLM és un model de llenguatge d’última generació que forma part de l’arquitectura d’IA de Pathways. És tan avançat que pot explicar per què una broma és divertida.

No obstant això, tan avançat com és PaLM, els investigadors afirmen que la Chain of Thought Prompting millora significativament aquests models, i això és el que fa que aquesta nova investigació sigui tan digna de tenir en compte.
Google ho explica així:

“El raonament en cadena de pensament permet als models descompondre problemes complexos en passos intermedis que es resolen individualment.

A més, la naturalesa basada en el llenguatge de la cadena de pensament fa que sigui aplicable a qualsevol tasca que una persona pugui resoldre mitjançant el llenguatge”.

A continuació, el document de recerca continua assenyalant que la indicació estàndard no millora realment quan s’augmenta l’escala del model.

Tanmateix, amb aquest nou enfocament, l’escala té un impacte positiu significatiu i notable en el rendiment del model.

Resultats

La Chain of Thought Prompting es va provar tant a LaMDA com a PaLM, utilitzant dos conjunts de dades de problemes de paraules matemàtiques.

Aquests conjunts de dades són utilitzats pels investigadors com una manera de comparar resultats sobre problemes similars per a diferents models lingüístics.

A continuació es mostren imatges de gràfics que mostren els resultats de l’ús de Chain of Thought Prompting a LaMDA.

Chain of Thought Prompting i LaMDA

Els resultats de l’escala de LaMDA al conjunt de dades MultiArith mostren que va provocar una millora modesta. Però LaMDA puntua significativament més quan s’escala amb Chain of Thought Prompting.

Els resultats del conjunt de dades GSM8K mostren una modesta millora.

És una història diferent amb el model de llenguatge PaLM.

Chain of Thought Prompting i PaLM

Com es pot veure al gràfic anterior, els guanys de l’escala de PaLM amb Chain of Thought Prompting són enormes i són enormes per als dos conjunts de dades (MultiArith i GSM8K).

Els investigadors diuen que els resultats són notables i un nou estat de l’art:

“Al conjunt de dades GSM8K de problemes de paraules matemàtiques, PaLM mostra un rendiment notable quan s’escala a paràmetres de 540B.

… la combinació de la cadena de pensaments amb el model PaLM de paràmetres 540B condueix a un nou rendiment d’última generació del 58%, superant l’estat de l’art anterior del 55% assolit per ajustar GPT-3 175B en una gran formació. establir i classificar possibles solucions mitjançant un verificador especialment entrenat.

A més, el treball de seguiment sobre l’autoconsistència mostra que el rendiment de la cadena de pensament es pot millorar encara més si es pren el vot majoritari d’un ampli conjunt de processos de raonament generats, que es tradueix en un 74% de precisió en GSM8K.

Conclusions

La conclusió d’un treball de recerca és una de les parts més importants per comprovar si la investigació avança en l’estat de l’art o és un camí sense sortida o necessita més investigació.

La secció de conclusions del document de recerca de Google té una nota molt positiva.

Es nota:

“Hem explorat la cadena de pensament com a mètode senzill i àmpliament aplicable per millorar el raonament en els models lingüístics.

Mitjançant experiments sobre raonament aritmètic, simbòlic i de sentit comú, trobem que el processament de la cadena de pensament és una propietat emergent de l’escala del model que permet que models de llenguatge prou grans realitzin tasques de raonament que, d’altra manera, tenen corbes d’escala planes.

Ampliar la gamma de tasques de raonament que poden realitzar els models lingüístics, s’espera que inspiri més treballs sobre enfocaments de raonament basats en el llenguatge”.

Això vol dir que Chain of Thought Prompting pot tenir el potencial de proporcionar a Google la capacitat de millorar significativament els seus diferents models d’idioma, cosa que al seu torn pot comportar millores significatives en el tipus de coses que Google pot fer.

Citacions

Llegiu l’article de Google AI

Els models lingüístics realitzen el raonament mitjançant una cadena de pensament

Descarregar i llegir el document de recerca

La cadena de pensament provoca el raonament en grans models de llenguatge (PDF)





Source link

La cadena de pensament de Google pot impulsar els millors algorismes d’avui