Hugging Face publica el xat gratuït GPT Clone: ​​HuggingChat


Hugging Face, la comunitat d’aprenentatge automàtic i la plataforma d’eines d’IA, va anunciar el llançament d’HuggingChat, un clon de ChatGPT de codi obert que qualsevol pot utilitzar o descarregar per si mateix.

Cara abraçada

Hugging Face és una empresa i una comunitat d’IA. Proporciona accés a eines gratuïtes de codi obert per desenvolupar aplicacions d’aprenentatge automàtic i IA.

Un dels projectes acabats recentment d’Hugging Face és un model de llenguatge gran de 176.000 milions de paràmetres anomenat Floreixque està disponible per a qualsevol persona que accepti complir la seva llicència d’IA responsable.

Hi ha accés a models de codi obert en diverses categories com ara multimodal, visió, àudio, processament del llenguatge natural i aprenentatge de reforç.

Hugging Face també allotja conjunts de dades i biblioteques de codi obert i serveix com a forma de col·laboració dels equips, inclòs un dipòsit, similar a GitHub.

Molts dels serveis estan disponibles a nivell gratuït, professional i empresarial.

HuggingChat

El clon HuggingChat ChatGPT es basa en el model d’IA conversacional d’Open Assistant.

El mateix Open Assistant és un projecte de la xarxa oberta d’intel·ligència artificial a gran escala sense ànim de lucre (LAION).

LAION és una organització global sense ànim de lucre dedicada a proporcionar accés a tecnologia d’avantguarda com a codi obert.

Ells escriuen:

“LA NOSTRA CREENÇA
Creiem que la investigació sobre l’aprenentatge automàtic i les seves aplicacions tenen el potencial de tenir grans impactes positius en el nostre món i, per tant, s’han de democratitzar.

ELS NOSTRES OBJECTIUS PRINCIPALS
Alliberament de conjunts de dades oberts, codi i models d’aprenentatge automàtic.

Volem ensenyar els fonaments bàsics de la recerca d’ML a gran escala i la gestió de dades.

En fer que els models, els conjunts de dades i el codi siguin reutilitzables sense necessitat d’entrenar des de zero tot el temps, volem promoure un ús eficient de l’energia i els recursos informàtics per afrontar els reptes del canvi climàtic”.

La pàgina de GitHub per al model de xat d’Open Assistant diu:

“Open Assistant és un projecte destinat a donar accés a tothom a un gran model de llenguatge basat en xat.

Creiem que fent això crearem una revolució en la innovació lingüística.

De la mateixa manera que la difusió estable va ajudar el món a crear art i imatges de noves maneres, esperem que Open Assistant pugui ajudar a millorar el món millorant el propi llenguatge”.

Conjunt de dades d’entrenament HuggingChat

HuggingChat es va entrenar amb el conjunt de dades de converses d’OpenAssistant (OASST1)que és molt nou, que conté dades que es van recollir fins al 12 d’abril de 2023.

El document de recerca del conjunt de dades data de l’abril de 2023 (OpenAssistant Conversations: democratització de l’alineació de models lingüístics gransPDF).

Aquest model utilitza la mateixa metodologia d’entrenament creada per OpenAI que s’anomena aprenentatge de reforç a partir de la retroalimentació humana (RLHF).

RLHF és una tècnica per crear un conjunt de dades de preguntes i respostes anotades i de qualitat humana d’alta qualitat que es poden utilitzar per entrenar una IA per seguir instruccions.

Amb aquest llançament van aconseguir el seu objectiu de posar la tècnica RLHF a l’abast de qualsevol persona que vulgui entrenar una IA.

El document de recerca deia:

“En un esforç per democratitzar la investigació sobre l’alineació a gran escala, publiquem OpenAssistant Conversations, un corpus de converses d’estil assistent amb anotació humana generat per humans que consta de 161.443 missatges distribuïts en 66.497 arbres de conversa, en 35 idiomes diferents, anotats amb 461.292 de qualitat. qualificacions.”

El conjunt de dades és el producte d’un esforç de crowdsourcing a tot el món de més de 13.000 voluntaris.

El crowdsourcing era una bona manera de generar dades de formació multilingües que contribuïen a un conjunt de dades d’alta qualitat.

Tanmateix, segons els investigadors, l’enfocament de crowdsourcing també va introduir limitacions en la qualitat del conjunt de dades en forma de biaixos culturals i subjectius dels individus que van crear i van valorar les dades de formació.

També van advertir que els participants que estaven més compromesos tendien a contribuir més, creant així una distribució desigual dels seus valors i biaixos.

Els investigadors conclouen que el conjunt de dades pot no representar la diversitat de punts de vista de tots els col·laboradors.

Per exemple, van enviar una enquesta al seu canal de Discord (només en anglès) fent preguntes als seus col·laboradors de codi obert relacionades amb la seva demografia (però no amb l’ètnia).

Deixant de banda el biaix lingüístic, els resultats de l’enquesta van revelar que dels 226 enquestats, 201 eren homes, 10 dones, cinc identificats com a no binaris/altres i 10 es van negar a respondre.

No obstant això, tot i que no garanteixen al 100% que el conjunt de dades estigui lliure de contingut nociu, segueixen recolzant-lo perquè es va crear amb estrictes directrius de qualitat.

Els investigadors escriuen:

“Per garantir la qualitat del nostre conjunt de dades, hem establert directrius estrictes per a col·laboradors que tots els usuaris han de seguir.

Aquestes directrius estan dissenyades per evitar que s’afegeixi contingut nociu al nostre conjunt de dades i per animar els col·laboradors a generar respostes d’alta qualitat”.

HuggingChat està disponible

HuggingChat està obert per als usuaris ara mateix. El registre per crear un compte d’inici de sessió no és necessari per utilitzar-lo.

No esperis el nivell de sortida de ChatGPT, el servei encara no està a aquest nivell. La pàgina de l’aplicació l’enumera com a versió 0.0, la qual cosa hauria de donar una idea de com de madur és en aquest moment.

No obstant això, és un assoliment notable i un primer pas per a la comunitat de codi obert i no hi ha cap càrrec per utilitzar-lo.

Visiteu la pàgina web de HuggingChat aquí:

Pàgina web i interfície d’usuari HuggingChat





Source link

Hugging Face publica el xat gratuït GPT Clone: ​​HuggingChat