S’han publicat set models GPT gratuïts de codi obert


L’empresa d’IA de Silicon Valley, Cerebras, va llançar set models GPT de codi obert per oferir una alternativa als sistemes propietaris i estretament controlats disponibles actualment.

Els models GPT de codi obert lliure de drets d’autor, inclosos els pesos i la recepta d’entrenament, s’han publicat sota la llicència Apache 2.0 altament permissiva per Cerebras, una infraestructura d’IA basada en Silicon Valley per a l’empresa d’aplicacions d’IA.

Fins a cert punt, els set models GPT són una prova de concepte per al superordinador Cerebras Andromeda AI.

La infraestructura de Cerebras permet als seus clients, com ara Jasper AI Copywriter, entrenar ràpidament els seus propis models d’idioma personalitzats.

A Entrada al blog de Cerebras sobre la tecnologia de maquinari assenyalada:

“Hem entrenat tots els models Cerebras-GPT en un clúster a escala d’hòsties Cerebras 16x CS-2 anomenat Andròmeda.

El clúster va permetre que tots els experiments es completessin ràpidament, sense l’enginyeria tradicional de sistemes distribuïts i l’ajustament paral·lel de models necessaris als clústers de GPU.

El més important, va permetre als nostres investigadors centrar-se en el disseny del ML en lloc del sistema distribuït. Creiem que la capacitat d’entrenar fàcilment models grans és un factor clau per a l’amplia comunitat, de manera que hem fet que el Clúster Cerebras Wafer-Scale estigui disponible al núvol a través del Cerebras AI Model Studio.”

Models Cerebras GPT i Transparència

Cerebras cita la concentració de la propietat de la tecnologia d’IA a unes poques empreses com a motiu per crear set models GPT de codi obert.

OpenAI, Meta i Deepmind mantenen una gran quantitat d’informació sobre els seus sistemes privada i estretament controlada, cosa que limita la innovació a allò que les tres corporacions decideixen que altres poden fer amb les seves dades.

Un sistema de codi tancat és el millor per a la innovació en IA? O el codi obert és el futur?

Cerebras escriu:

“Perquè els LLM siguin una tecnologia oberta i accessible, creiem que és important tenir accés a models d’última generació que siguin oberts, reproduïbles i lliures de drets tant per a aplicacions de recerca com comercials.

Amb aquesta finalitat, hem format una família de models de transformadors utilitzant les últimes tècniques i conjunts de dades oberts que anomenem Cerebras-GPT.

Aquests models són la primera família de models GPT entrenats amb la fórmula Chinchilla i llançats mitjançant la llicència Apache 2.0.

Així, aquests set models s’estrenen Cara abraçada i GitHub per fomentar més investigació mitjançant l’accés obert a la tecnologia d’IA.

Aquests models es van entrenar amb el superordinador Andromeda AI de Cerebras, un procés que només va trigar setmanes a realitzar-se.

Cerebras-GPT és totalment obert i transparent, a diferència dels últims models GPT d’OpenAI (GPT-4), Deepmind i Meta OPT.

OpenAI i Deepmind Chinchilla no ofereixen llicències per utilitzar els models. Meta OPT només ofereix una llicència no comercial.

El GPT-4 d’OpenAI no té absolutament cap transparència sobre les seves dades d’entrenament. Han utilitzat dades de Common Crawl? Han raspat Internet i han creat el seu propi conjunt de dades?

OpenAI manté aquesta informació (i més) en secret, cosa que contrasta amb l’enfocament Cerebras-GPT que és totalment transparent.

Tot això és obert i transparent:

  • Model d’arquitectura
  • Dades de formació
  • Model de pesos
  • Punts de control
  • Estat d’entrenament òptim per al càlcul (sí)
  • Llicència d’ús: Llicència Apache 2.0

Les set versions vénen en models 111M, 256M, 590M, 1.3B, 2.7B, 6.7B i 13B.

Ho era anunciat:

“En una primera entre les empreses de maquinari d’IA, els investigadors de Cerebras van entrenar, al superordinador Andromeda AI, una sèrie de set models GPT amb paràmetres 111M, 256M, 590M, 1.3B, 2.7B, 6.7B i 13B.

Normalment, una empresa de diversos mesos, aquest treball es va completar en poques setmanes gràcies a la increïble velocitat dels sistemes Cerebras CS-2 que componen Andromeda i la capacitat de l’arquitectura de transmissió de pes de Cerebras per eliminar el dolor de la computació distribuïda.

Aquests resultats demostren que els sistemes de Cerebras poden entrenar les càrregues de treball d’IA més grans i complexes actuals.

Aquesta és la primera vegada que es fa públic un conjunt de models GPT, entrenats amb tècniques d’eficiència de formació d’última generació.

Aquests models s’entrenen amb la màxima precisió per a un pressupost de càlcul determinat (és a dir, una formació eficient amb la recepta de Chinchilla), de manera que tenen un temps d’entrenament més baix, un cost d’entrenament més baix i utilitzen menys energia que qualsevol model públic existent.

IA de codi obert

La fundació Mozilla, fabricants del programari de codi obert Firefox, ho han fet va crear una empresa anomenada Mozilla.ai per crear sistemes de recomanació i GPT de codi obert que siguin fiables i respectin la privadesa.

Databricks també va llançar recentment un codi obert Clon GPT anomenat Dolly que pretén democratitzar “la màgia de ChatGPT”.

A més d’aquests set models Cerebras GPT, una altra empresa, anomenada Nomic AI, va llançar GPT4All, un GPT de codi obert que es pot executar en un ordinador portàtil.

El moviment d’IA de codi obert es troba en una etapa incipient, però està guanyant impuls.

La tecnologia GPT està donant lloc a canvis massius entre les indústries i és possible, potser inevitable, que les contribucions de codi obert puguin canviar la cara de les indústries que impulsen aquest canvi.

Si el moviment de codi obert continua avançant a aquest ritme, potser estarem a punt d’assistir a un canvi en la innovació en IA que impedeix que es concentri en mans d’unes poques corporacions.

Llegeix l’anunci oficial:

Cerebras Systems llança set nous models GPT formats en sistemes a escala CS-2

Imatge destacada de Shutterstock/Merkushev Vasiliy





Source link

S’han publicat set models GPT gratuïts de codi obert
A %d bloguers els agrada això: