Model d’idioma de codi obert anomenat Dolly 2.0 entrenat de manera semblant a ChatGPT


Databricks va anunciar el llançament del primer model de llenguatge de codi obert ajustat a les instruccions, anomenat Dolly 2.0. Es va entrenar utilitzant una metodologia semblant a la d’InstructGPT, però amb un conjunt de dades de qualitat més alta que és 100% de codi obert.

Aquest model és d’ús gratuït, fins i tot amb finalitats comercials, perquè cada part del model és 100% de codi obert.

Formació d’instrucció de codi obert

El que fa que ChatGPT sigui capaç de seguir les instruccions és la formació que rep utilitzant les tècniques descrites a Document de recerca InstructGPT.

L’avenç descobert amb InstructGPT és que els models de llenguatge no necessiten conjunts d’entrenament cada cop més grans.

Mitjançant l’entrenament de preguntes i respostes avaluades per humans, OpenAI va poder entrenar un millor model d’idioma utilitzant cent vegades menys paràmetres que el model anterior, GPT-3.

Databricks va utilitzar un enfocament similar per crear un conjunt de dades d’avís i resposta anomenat criden databricks-dolly-15k.

El seu conjunt de dades d’avís/resposta es va crear sense esborrar fòrums web o Reddit.

databricks-dolly-15k és un conjunt de dades creat pels empleats de Databricks, un 100% original, generat per humans, 15.000 parells de missatges i respostes dissenyats per entrenar el model d’idioma Dolly 2.0 de la mateixa manera que el model ChatGPT es va crear amb InstructGPT.

El Pàgina de GitHub per al conjunt de dades explica com ho van fer:

“databricks-dolly-15k és un conjunt de dades de codi obert de registres de seguiment d’instruccions utilitzats en l’entrenament de databricks/dolly-v2-12b que van ser generats per milers d’empleats de Databricks en diverses de les categories de comportament descrites al document InstructGPT, inclosa la pluja d’idees i la classificació. , control de qualitat tancat, generació, extracció d’informació, control de qualitat obert i resum.

… Es va convidar als empleats de Databricks a crear parells d’indicacions/respostes en cadascuna de les vuit categories d’instruccions diferents, incloses les set descrites al document InstructGPT, així com una categoria de forma lliure oberta.

Els col·laboradors van rebre instruccions per evitar l’ús d’informació de qualsevol font del web amb l’excepció de la Viquipèdia (per a subconjunts particulars de categories d’instruccions), i se’ls va instruir explícitament que evitessin l’ús d’IA generativa per formular instruccions o respostes. Es van oferir exemples de cada comportament per motivar els tipus de preguntes i instruccions adequades a cada categoria.

A la meitat del procés de generació de dades, els col·laboradors tenien l’opció de respondre preguntes formulades per altres col·laboradors. Se’ls va demanar que reformulessin la pregunta original i només seleccionessin preguntes que es podria esperar raonablement que responguessin correctament”.

Databricks afirma que aquest pot ser el primer conjunt de dades d’instruccions generat per humans creat per entrenar un model d’idioma per seguir instruccions, tal com fa ChatGPT.

El repte era crear un conjunt de dades 100% original que tingués zero vincles amb ChatGPT o qualsevol altra font amb una llicència restrictiva.

Un concurs va incentivar els empleats per contribuir a generar les 15.000 sol·licituds/respostes al llarg de set categories de tasques com ara pluja d’idees, classificació i escriptura creativa.

Databricks afirma que el conjunt d’entrenament databricks-dolly-15k pot ser superior al conjunt de dades utilitzat per entrenar ChatGPT.

Observen que, tot i que el seu conjunt de dades és més petit que el que s’utilitza per entrenar el model d’Alpaca de Stanford, el seu model va funcionar millor perquè les seves dades són de més qualitat.

Ells escriuen:

“El model Dolly 2.0, basat en el pythia-12b d’EleutherAI, va mostrar instruccions d’alta qualitat després del comportament. En retrospectiva, això no és sorprenent.

Molts dels conjunts de dades d’ajustament d’instruccions publicats en els últims mesos contenen dades sintetitzades, que sovint contenen al·lucinacions i errors de fet.

databricks-dolly-15k, en canvi, està generat per professionals, és d’alta qualitat i conté respostes llargues per a la majoria de tasques.

…no esperem que la Dolly sigui l’última en termes d’eficàcia.

Tanmateix, esperem que Dolly i el conjunt de dades de codi obert actuaran com a llavor per a una multitud de treballs posteriors, que poden servir per iniciar models de llenguatge encara més potents”.

Limitacions al conjunt de dades

La pàgina de GitHub per al conjunt de dades reconeix que hi pot haver algunes deficiències en el conjunt de dades.

Les dades de la Viquipèdia es van utilitzar per a part de la formació en el context de la creació de sol·licituds i respostes. Per tant, és possible que qualsevol biaix contingut a la Viquipèdia s’acabi reflectit en el conjunt de dades resultant.

Alguns dels empleats que van treballar per crear el conjunt de dades no eren parlants nadius d’anglès, cosa que podria introduir algunes anomalies en el conjunt de dades.

La composició demogràfica dels empleats que van crear el conjunt de dades pot influir en el mateix perquè contingui biaixos propis d’aquests empleats.

Malgrat aquestes possibles deficiències en el conjunt de dades, Databricks va expressar que la seva és de més qualitat.

A més, Dolly 2.0 està pensat per servir com a punt de partida perquè altres creïn i innovin versions encara millors.

Databricks insisteix que la IA de codi obert és millor

Una de les motivacions darrere de la creació de Dolly 2.0 és que els usuaris de les dades poden ser propietaris dels models que han creat i poden protegir millor les seves dades en no haver de compartir-les amb un tercer.

També creuen que la seguretat de la IA no s’ha de concentrar en mans de tres grans corporacions sinó repartir-se entre totes les parts interessades.

El codi obert està agafant impuls i serà interessant veure on es troba aquesta indústria en els propers dos anys.

Podeu trobar més informació sobre on descarregar el model Dolly 2.0 i com utilitzar-lo al seu anunci.

Free Dolly: Presentació del primer LLM realment obert del món

Imatge destacada de Shutterstock/Kamil Macniak





Source link

Model d’idioma de codi obert anomenat Dolly 2.0 entrenat de manera semblant a ChatGPT