Què és Google LaMDA i per què algú va creure que era Sentient?

LaMDA ha estat a les notícies després d’un enginyer de Google va afirmar que era sensible perquè les seves respostes suposadament insinuen que entén què és.

L’enginyer també va suggerir que LaMDA comunica que té pors, com ho fa un humà.

Què és LaMDA i per què alguns tenen la impressió que pot aconseguir la consciència?

Models lingüístics

LaMDA és un model de llenguatge. En el processament del llenguatge natural, un model de llenguatge analitza l’ús del llenguatge.

Bàsicament, és una funció matemàtica (o una eina estadística) que descriu un possible resultat relacionat amb predir quines són les paraules següents en una seqüència.

També pot predir l’aparició de la següent paraula, i fins i tot quina pot ser la següent seqüència de paràgrafs.

GPT-3 d’OpenAI El generador de llenguatge és un exemple de model de llenguatge.

Amb GPT-3, podeu introduir el tema i les instruccions per escriure a l’estil d’un autor determinat, i generarà una història breu o un assaig, per exemple.

LaMDA és diferent d’altres models lingüístics perquè es va formar en el diàleg, no en el text.

Com que GPT-3 se centra a generar text en llengua, LaMDA se centra a generar diàleg.

Per què és un gran problema

El que fa que LaMDA sigui un avenç notable és que pot generar converses d’una manera lliure que els paràmetres de les respostes basades en tasques no limiten.

Un model de llenguatge conversacional ha d’entendre coses com ara la intenció multimodal de l’usuari, l’aprenentatge de reforç i les recomanacions perquè la conversa pugui saltar entre temes no relacionats.

Basat en tecnologia de transformadors

De manera similar a altres models d’idioma (com MUM i GPT-3), LaMDA es construeix a sobre Xarxa neuronal transformadora arquitectura per a la comprensió del llenguatge.

Google Escriu sobre Transformer:

“Aquesta arquitectura produeix un model que es pot entrenar per llegir moltes paraules (una frase o un paràgraf, per exemple), prestar atenció a com es relacionen aquestes paraules i després predir quines paraules creu que vindran després”.

Per què sembla que LaMDA entén la conversa

BERT és un model que s’entrena per entendre què volen dir frases vagues.

LaMDA és un model format per entendre el context del diàleg.

Aquesta qualitat d’entendre el context permet a LaMDA mantenir-se al dia amb el flux de la conversa i donar la sensació que està escoltant i responent amb precisió al que es diu.

Està entrenat per entendre si una resposta té sentit per al context, o si la resposta és específica per a aquest context.

Google ho explica així:

“…a diferència de la majoria dels altres models lingüístics, LaMDA es va formar en el diàleg. Durant la seva formació, va recollir diversos dels matisos que distingeixen la conversa oberta d’altres formes de llenguatge. Un d’aquests matisos és la sensatesa. Bàsicament: té sentit la resposta a un context conversacional determinat?
Les respostes satisfactòries també solen ser específiques, ja que es relacionen clarament amb el context de la conversa”.

LaMDA es basa en algorismes

Google va publicar el seu anunci de LaMDA el maig de 2021.

El document de recerca oficial es va publicar més tard, el febrer de 2022 (LaMDA: Models de llenguatge per a aplicacions de diàleg PDF).

El document de recerca documenta com es va formar LaMDA per aprendre a produir diàleg mitjançant tres mètriques:

Qualitat
Seguretat
Fonamentació

Qualitat

La mètrica de qualitat s’obté en si mateixa mitjançant tres mètriques:

Sensibilitat
Especificitat
Interessat

El document de recerca diu:

“Recollim dades anotades que descriuen com de sensible, específica i interessant és una resposta per a un context de múltiples voltes. A continuació, fem servir aquestes anotacions per afinar un discriminador per tornar a classificar les respostes dels candidats”.

Seguretat

Els investigadors de Google van utilitzar treballadors multitudinaris de diversos orígens per ajudar a etiquetar les respostes quan eren insegurs.

Aquestes dades etiquetades es van utilitzar per entrenar LaMDA:

“A continuació, fem servir aquestes etiquetes per ajustar un discriminador per detectar i eliminar respostes insegures”.

Fonamentació

La fonamentació va ser un procés d’entrenament per ensenyar a LaMDA a investigar la validesa dels fets, el que significa que les respostes es poden verificar a través de “fonts conegudes”.

Això és important perquè, segons el document de recerca, els models de llenguatge neuronal produeixen afirmacions que semblen correctes, però que en realitat són incorrectes i no tenen suport dels fets de fonts d’informació conegudes.

Els treballadors de la multitud humana van utilitzar eines com un motor de cerca (sistema de recuperació d’informació) per comprovar les respostes de manera que l’IA també pogués aprendre a fer-ho.

Els investigadors escriuen:

“Ens trobem que augmentar els resultats del model amb la capacitat d’utilitzar eines externes, com ara un sistema de recuperació d’informació, és un enfocament prometedor per aconseguir aquest objectiu.
Per tant, recopilem dades d’un entorn on els treballadors col·lectius poden utilitzar eines externes per investigar afirmacions de fets i entrenar el model per imitar el seu comportament”.

LaMDA es va formar utilitzant exemples humans i evaluadors

La secció 3 del document d’investigació descriu com es va entrenar LaMDA mitjançant un conjunt de documents, diàlegs i enunciats que sumen milers de milions, formats per 1,56 bilions de paraules.

La secció 4.2 documenta com els humans van valorar les respostes de LaMDA. Les valoracions són comentaris que ensenyen a LaMDA quan va bé i quan no.

Els evaluadors humans utilitzen un sistema de recuperació d’informació (motor de cerca) per verificar les respostes, classificant-les com a útils, correctes i reals.

La formació LaMDA va utilitzar un motor de cerca

La secció 6.2 descriu com LaMDA rep una pregunta i després genera una resposta. Després de generar la resposta, realitza una consulta de cerca per verificar la precisió i revisa la resposta si és incorrecta.

El document de recerca esmentat anteriorment il·lustra el procés de rebre una pregunta, generar un esborrany de resposta, investigar la resposta i, després, actualitzar-la amb fets correctes:

“USUARI: Què en penseu de les escultures de Rosalie Gascoigne?
LAMDA-BASE: Són genials i m’encanta com va canviar la seva feina al llarg de la seva vida. M’agraden més els seus treballs posteriors que els anteriors. La seva influència també és molt interessant: sabíeu que va ser una de les artistes que va inspirar Miró?

El problema amb la resposta és que és incorrecta. Així, LaMDA realitza una consulta de cerca i selecciona fets dels millors resultats.

Aleshores respon amb la resposta actualitzada de fets:

“Oh, vaja, el seu curs de vida és molt inspirador. Sabíeu que era una practicant de l’arranjament floral japonès abans de dedicar-se a l’escultura?

Tingueu en compte el “Oh Wow” part de la resposta; aquesta és una forma de parlar après com parlen els humans.

Sembla que un humà està parlant, però només imita un patró de parla.

Els models lingüístics emulen les respostes humanes

vaig preguntar Jeff Coylecofundador de MarketMuse i un expert en IA, per la seva opinió sobre l’afirmació que LaMDA és sensible.

Jeff ha compartit:

“Els models lingüístics més avançats continuaran millorant per emular la sensibilitat.
Els operadors amb talent poden impulsar la tecnologia de chatbot per mantenir una conversa que modeli el text que podria enviar un individu viu.
Això crea una situació confusa on alguna cosa se sent humana i el model pot “mentir” i dir coses que emulen la sensibilitat.
Pot dir mentides. Es pot dir de manera creïble: em sento trist, feliç. O sento dolor.
Però és copiar, imitar”.

LaMDA està dissenyat per fer una cosa: proporcionar respostes conversacionals que tinguin sentit i siguin específiques del context del diàleg. Això pot donar-li l’aparença de ser sensible, però com diu Jeff, és essencialment mentida.

Per tant, tot i que les respostes que ofereix LaMDA semblen una conversa amb un ésser sensible, LaMDA només està fent el que va ser entrenat: donar respostes a respostes que siguin sensibles al context del diàleg i molt específiques per a aquest context.

La secció 9.6 del document de recerca, “Suplantació d’identitat i antropomorfització”, afirma explícitament que LaMDA està suplantant la identitat d’un ésser humà.

Aquest nivell de suplantació pot portar a algunes persones a antropomorfitzar LaMDA.

Ells escriuen:

“Finalment, és important reconèixer que l’aprenentatge de LaMDA es basa en imitar el rendiment humà en la conversa, de manera similar a molts altres sistemes de diàleg… Un camí cap a una conversa d’alta qualitat i atractiu amb sistemes artificials que eventualment poden ser indistinguibles en alguns aspectes de la conversa amb un humà és ara força probable.
Els humans poden interactuar amb sistemes sense saber que són artificials, o antropomorfitzar el sistema atribuint-li alguna forma de personalitat”.

La qüestió de la consciència

Google pretén crear un model d’IA que pugui entendre text i idiomes, identificar imatges i generar converses, històries o imatges.

Google està treballant cap a aquest model d’IA, anomenat Pathways AI Architecture, que descriu a “La paraula clau“:

“Els sistemes d’IA d’avui sovint s’entrenen des de zero per a cada problema nou… En lloc d’ampliar els models existents per aprendre noves tasques, entrenem cada model nou des del no res per fer una cosa i només una cosa…
El resultat és que acabem desenvolupant milers de models per a milers de tasques individuals.
En canvi, ens agradaria entrenar un model que no només pugui gestionar moltes tasques separades, sinó que també aprofita i combina les seves habilitats existents per aprendre noves tasques de manera més ràpida i eficaç.
D’aquesta manera, el que un model aprèn entrenant-se en una tasca, per exemple, aprendre com les imatges aèries poden predir l’elevació d’un paisatge, podria ajudar-lo a aprendre una altra tasca, per exemple, predir com les aigües de la inundació fluiran per aquest terreny”.

Pathways AI té com a objectiu aprendre conceptes i tasques en què no s’ha entrenat prèviament, tal com pot fer un humà, independentment de la modalitat (visió, àudio, text, diàleg, etc.).

Els models de llenguatge, les xarxes neuronals i els generadors de models de llenguatge normalment s’especialitzen en una cosa, com ara traduir text, generar text o identificar què hi ha a les imatges.

Un sistema com BERT pot identificar el significat en una frase vaga.

De la mateixa manera, GPT-3 només fa una cosa, que és generar text. Pot crear una història a l’estil de Stephen King o Ernest Hemingway, i pot crear una història com una combinació dels dos estils d’autor.

Alguns models poden fer dues coses, com processar text i imatges simultàniament (LIMoE). També hi ha models multimodals com MUM que poden proporcionar respostes a partir de diferents tipus d’informació en diferents idiomes.

Però cap d’ells està al nivell de Pathways.

LaMDA suplanta el diàleg humà

L’enginyer que va afirmar que LaMDA és sensible ho ha fet va dir en un tuit que no pot donar suport a aquestes afirmacions i que les seves declaracions sobre la personalitat i la sensibilitat es basen en creences religioses.

En altres paraules: aquestes afirmacions no estan recolzades per cap prova.

La prova que tenim s’indica clarament al document de recerca, que afirma explícitament que l’habilitat de suplantació d’identitat és tan alta que la gent la pot antropomorfitzar.

Els investigadors també escriuen que els actors dolents podrien utilitzar aquest sistema per suplantar un ésser humà real i enganyar algú perquè cregui que parlen amb un individu específic.

“… els adversaris podrien intentar embrutar la reputació d’una altra persona, aprofitar el seu estat o sembrar desinformació mitjançant l’ús d’aquesta tecnologia per suplantar l’estil de conversa d’individus específics”.

Com deixa clar el document d’investigació: LaMDA està entrenat per suplantar el diàleg humà, i això és gairebé tot.