No s’està entrenant GPT-4 a les dades del client de l’API


En una diferència significativa de les seves pràctiques anteriors, OpenAI ha anunciat que deixarà d’utilitzar les dades dels clients enviades a través de les seves API per entrenar els seus models de llenguatge expansius, com ara GPT-4.

El canvi va ser confirmat recentment per Sam Altman, CEO d’OpenAI entrevista amb CNBC.

El nou enfocament d’OpenAI a les dades d’usuari

El canvi de política d’OpenAI es va implementar l’1 de març de 2023, quan l’empresa va actualitzar en silenci les seves condicions de servei per reflectir aquest nou compromís amb la privadesa dels usuaris.

Altman va aclarir: “Els clients clarament volen que no ens entrenem amb les seves dades, així que hem canviat els nostres plans: no ho farem”.

Les API, o interfícies de programació d’aplicacions, són marcs tecnològics que permeten als clients connectar-se directament al programari d’OpenAI.

Altman va declarar que OpenAI no ha estat utilitzant dades de l’API per a la formació de models “des de fa temps”, cosa que suggereix que aquest anunci oficial formalitza una pràctica existent.

Implicacions per als clients empresarials

El moviment d’OpenAI té implicacions de gran abast, especialment per als seus clients empresarials, que inclouen gegants com Microsoft, Salesforce i Snapchat.

És més probable que aquestes empreses utilitzin les capacitats d’API d’OpenAI per a les seves operacions, de manera que el canvi de privadesa i protecció de dades és especialment rellevant per a elles.

Tanmateix, les noves mesures de protecció de dades s’apliquen únicament als clients que utilitzen els serveis API de l’empresa. Les condicions de servei actualitzades d’OpenAI apunten: “Podem utilitzar contingut de serveis diferents de la nostra API”.

Com a tal, OpenAI encara pot utilitzar altres formes d’entrada de dades, com ara el text introduït al popular chatbot ChatGPT, tret que les dades es comparteixin mitjançant l’API.

Impacte més ampli en la indústria

El canvi de política d’OpenAI arriba quan les indústries s’enfronten als impactes potencials dels grans models de llenguatge, com ara el ChatGPT d’OpenAI, que substitueix el material creat tradicionalment per humans.

Per exemple, el Gremi d’Escriptors d’Amèrica va començar recentment la vaga després que les negociacions entre el Gremi i els estudis de cinema es van trencar. El Gremi havia defensat les restriccions a l’ús del ChatGPT d’OpenAI per a la generació o reescriptura d’scripts.

La decisió d’OpenAI de no utilitzar les dades dels clients per a la formació marca un moment clau en la conversa en curs sobre privadesa de dades i IA. A mesura que les empreses continuen explorant i superant els límits de la tecnologia d’IA, garantir la privadesa dels usuaris i mantenir la confiança probablement seguiran sent fonamentals per a aquestes discussions.

L’evolució de ChatGPT: GPT-3 a GPT-4

És important tenir en compte que el compromís d’OpenAI de no utilitzar les dades dels clients per a la formació s’aplica al seu darrer model d’idioma, GPT-4, publicat el 14 de març de 2023.

GPT-4 va introduir diverses millores respecte al seu predecessor, GPT-3, incloent un augment significatiu de la mida del límit de paraules (25.000 en comparació amb el límit de 3.000 paraules de ChatGPT), una mida de finestra de context més gran i capacitats de raonament i comprensió millorades.

Una altra característica notable de GPT-4 és la seva multimodalitat, o la capacitat d’entendre i inferir informació d’imatges a més del text. Aquest últim model genera textos més semblants als humans, utilitzant funcions com els emojis per a una sensació més personalitzada.

No obstant això, la mida i l’arquitectura exactes de GPT-4 romanen sense revelar-se, la qual cosa condueix a especulacions sobre els detalls del model.

Malgrat aquests rumors, el CEO d’OpenAI ha negat afirmacions específiques sobre la mida del model.

Pel que fa al rendiment, GPT-4 té fortaleses demostrades en la generació de textos però també algunes limitacions. Per exemple, es va puntuar al percentil 54 a l’escriptura de l’examen de registre de postgrau (GRE) i es va realitzar al percentil 43 al 59 a l’examen AP Calculus BC.

A més, va funcionar bé en tasques fàcils de codificació de Leetcode, però el seu rendiment va disminuir amb l’augment de la dificultat de la tasca.

Tot i que els detalls del procés d’entrenament de GPT-4 no estan documentats oficialment, se sap que els models GPT generalment impliquen aprenentatge automàtic a gran escala amb una àmplia gamma de text a Internet.

Mirant endavant

Com a resultat dels canvis a la política d’ús de dades d’OpenAI, les dades utilitzades per a l’entrenament dels seus models lingüístics no inclouen informació compartida mitjançant l’API tret que els usuaris acceptin explícitament aportar-la amb aquest propòsit.

Tot i que aquesta tecnologia millora i té un paper més important a les nostres vides, és interessant com les empreses pivoten i responen a les preocupacions sobre mantenir les dades privades i guanyar-se la confiança de la gent.


Imatge destacada generada per l’autor mitjançant Midjourney.





Source link

No s’està entrenant GPT-4 a les dades del client de l’API