ChatGPT, Bard i Dolly 2.0 estan entrenats en contingut piratejat?


Els models de llenguatge grans (LLM) com ChatGPT, Bard i fins i tot versions de codi obert s’entrenen en contingut públic d’Internet. Però també hi ha indicis que les IA populars també es podrien entrenar en conjunts de dades creats a partir de llibres piratejats.

Dolly 2.0 està entrenat en contingut piratejat?

Dolly 2.0 és una IA de codi obert que es va llançar recentment. La intenció de Dolly és democratitzar la IA posant-la a disposició de tothom que vulgui crear alguna cosa amb ella, fins i tot productes comercials.

Però també hi ha un problema de privadesa amb concentrar la tecnologia d’IA en mans de tres grans corporacions i confiar-les amb dades privades.

Tenint una opció, moltes empreses preferirien no lliurar dades privades a tercers com Google, OpenAI i Meta.

Fins i tot Mozilla, l’empresa de navegadors i aplicacions de codi obert, està invertint en fer créixer l’ecosistema d’IA de codi obert.

La intenció de la IA de codi obert és sens dubte bona.

Però hi ha un problema amb les dades que s’utilitzen per entrenar aquests grans models de llenguatge perquè una part consisteix en contingut piratejat.

El clon de ChatGPT de codi obert, Dolly 2.0, va ser creat per una empresa anomenada DataBricks (més informació sobre Dolly 2.0)

Dolly 2.0 es basa en un model de llenguatge gran de codi obert (LLM) anomenat Pythia (que va ser creat per un grup de codi obert anomenat, EleutherAI).

EleutherAI va crear vuit versions de LLM de diferents mides dins de la família de LLM Pythia.

Una versió de Pythia, una versió de 12.000 milions de paràmetres, és la utilitzada per DataBricks per crear Dolly 2.0, així com amb un conjunt de dades que DataBricks va crear ells mateixos (un conjunt de dades de preguntes i respostes que es va utilitzar per entrenar la IA Dolly 2.0 per prendre instruccions)

El que passa amb EleutherAI Pythia LLM és que es va entrenar mitjançant un conjunt de dades anomenat Pile.

El conjunt de dades Pile està format per diversos conjunts de textos en anglès, un dels quals és un conjunt de dades anomenat Books3. El conjunt de dades de Books3 conté el text dels llibres que van ser piratejats i allotjats en un lloc pirata anomenat bibliotik.

Això és el que els DataBricks anunci diu:

“Dolly 2.0 és un model de llenguatge de paràmetres 12B basat en la família de models pythia d’EleutherAI i ajustat exclusivament en una instrucció nova i d’alta qualitat generada per humans seguint un conjunt de dades, col·lectivament entre els empleats de Databricks”.

Pythia LLM es va crear amb el conjunt de dades Pile

El Document de recerca Pythia per EleutherAI que esmenta que Pythia es va entrenar mitjançant el conjunt de dades Pile.

Aquesta és una cita del document de recerca de Pythia:

“Entrenem 8 mides de model cadascuna tant a la pila… com a la pila després de la desduplicació, proporcionant 2 còpies de la suite que es poden comparar”.

La desduplicació significa que van eliminar dades redundants, és un procés per crear un conjunt de dades més net.

Aleshores, què hi ha a Pile? Hi ha un document de recerca de Pile que explica què hi ha en aquest conjunt de dades.

Aquí teniu una cita de la document de recerca per a Pile on diu que utilitzen el conjunt de dades Books3:

“A més, incorporem diversos conjunts de dades d’alta qualitat existents: Books3 (Premsador2020)…”

El document de recerca del conjunt de dades Pile enllaça amb un tuit de Shawn Presser, que diu què hi ha al conjunt de dades de Books3:

“Suposem que voleu entrenar un model GPT de classe mundial, igual que OpenAI. Com? No tens dades.

Ara sí. Ara tothom ho fa.

Presentació de “books3”, també conegut com “tota la bibliotik”

– 196.640 llibres
– en format .txt senzill
– Descàrrega directa i fiable durant anys: https://the-eye.eu/public/AI/pile_preliminary_components/books3.tar.gz”

Així doncs… la cita anterior indica clarament que el conjunt de dades Pile es va utilitzar per entrenar el Pythia LLM que, al seu torn, va servir de base per a l’IA de codi obert Dolly 2.0.

Google Bard està format en contingut piratejat?

El Washington Post va publicar recentment una revisió del conjunt de dades Colossal Clean Crawled Corpus de Google (també conegut com C4 – Document de recerca en PDF aquí) en què van descobrir que el conjunt de dades de Google també conté contingut piratejat.

El conjunt de dades C4 és important perquè és un dels conjunts de dades que s’utilitzen per entrenar LaMDA LLM de Google, una versió del qual és en què es basa Bard.

El conjunt de dades real s’anomena Infiniset i el conjunt de dades C4 representa aproximadament el 12,5% del text total utilitzat per entrenar LaMDA. Les citacions d’aquests fets sobre Bard es poden trobar aquí.

Article de notícies publicat al Washington Post:

“Els tres llocs més grans eren patents.google.com No. 1, que conté text de patents emeses arreu del món; wikipedia.org núm. 2, l’enciclopèdia gratuïta en línia; i scribd.com núm. 3, una biblioteca digital només per subscripció.

També destaca a la llista: b-ok.org núm. 190, un famós mercat de llibres electrònics pirates que des d’aleshores ha estat capturat pel Departament de Justícia dels EUA.

Al conjunt de dades hi havia almenys 27 llocs més identificats pel govern dels EUA com a mercats de pirateria i falsificacions”.

El defecte de l’anàlisi del Washington Post és que estan mirant una versió del C4, però no necessàriament la que LaMDA es va formar.

El document de recerca del conjunt de dades C4 es va publicar el juliol de 2020. Un any després de la publicació es va publicar un altre document de recerca que va descobrir que el conjunt de dades C4 estava esbiaixat contra les persones de color i la comunitat LGBT.

El treball de recerca es titula, Documentació de grans corpus de text web: un estudi de cas sobre el corpus colossal rastrejat net (Document de recerca en PDF aquí).

Els investigadors van descobrir que el conjunt de dades contenia sentiments negatius contra persones d’identitat àrab i excloïa documents associats a negres, hispans i documents que mencionen l’orientació sexual.

Els investigadors van escriure:

“El nostre examen de les dades excloses suggereix que els documents associats amb autors negres i hispans i documents que mencionen orientacions sexuals tenen més probabilitats de ser exclosos pel filtratge de la llista de bloqueig de C4.EN i que molts documents exclosos contenien contingut no ofensiu o no sexual ( ex., discussions legislatives sobre el matrimoni entre persones del mateix sexe, contingut científic i mèdic).

Aquesta exclusió és una forma de danys d’assignació… i agreuja la desigualtat racial existent (basada en la llengua), així com l’estigmatització de les identitats LGBTQ+…

A més, una conseqüència directa de l’eliminació d’aquest text dels conjunts de dades utilitzats per entrenar els models lingüístics és que els models tindran un mal rendiment quan s’apliquen al text de i sobre persones amb identitats minoritàries, excloent-los efectivament dels beneficis de la tecnologia com la traducció automàtica o la cerca. ”

Es va concloure que el filtratge de “males paraules” i altres intents de “netejar” el conjunt de dades era massa simplista i es justificava un enfocament més matisat.

Aquestes conclusions són importants perquè mostren que era ben sabut que el conjunt de dades C4 era defectuós.

LaMDA es va desenvolupar el 2022 (dos anys després del conjunt de dades C4) i l’associat Document de recerca LaMDA diu que es va entrenar amb C4.

Però això és només un treball de recerca. El que passa a la vida real en un model de producció pot ser molt diferent del que hi ha al document de recerca.

Quan es parla d’un document d’investigació, és important recordar que Google diu constantment que el que hi ha en una patent o en un document d’investigació no és necessàriament el que s’utilitza en l’algorisme de Google.

És molt probable que Google sigui conscient d’aquestes conclusions i no és raonable suposar que Google va desenvolupar una nova versió de C4 per al model de producció, no només per abordar les desigualtats en el conjunt de dades, sinó per actualitzar-lo.

Google no diu què hi ha al seu algorisme, és una caixa negra. Per tant, no podem dir amb certesa que la tecnologia subjacent a Google Bard s’ha entrenat en contingut piratejat.

Per fer-ho encara més clar, Bard es va llançar el 2023, utilitzant una versió lleugera de LaMDA. Google no ha definit què és una versió lleugera de LaMDA.

Per tant, no hi ha manera de saber quin contingut hi havia als conjunts de dades utilitzats per entrenar la versió lleugera de LaMDA que alimenta Bard.

Només es pot especular sobre quin contingut es va utilitzar per entrenar en Bard.

GPT-4 utilitza contingut piratejat?

OpenAI és extremadament privat sobre els conjunts de dades utilitzats per entrenar GPT-4. L’última vegada que OpenAI va mencionar conjunts de dades és a Document de recerca en PDF per a GPT-3 publicat el 2020 i fins i tot allà és una mica vague i imprecís sobre el que hi ha als conjunts de dades.

El lloc web TowardsDataScience el 2021 va publicar una revisió interessant de la informació disponible en la qual conclouen que, efectivament, es va utilitzar algun contingut piratejat per entrenar les primeres versions de GPT.

Ells escriure:

“… Trobem proves que BookCorpus va violar directament les restriccions de drets d’autor per a centenars de llibres que no haurien d’haver estat redistribuïts mitjançant un conjunt de dades gratuït.

Per exemple, més de 200 llibres de BookCorpus indiquen explícitament que “no es poden reproduir, copiar ni distribuir amb finalitats comercials o no comercials”.

És difícil concloure si GPT-4 va utilitzar contingut piratejat.

Hi ha algun problema amb l’ús de contingut piratejat?

Es podria pensar que pot ser poc ètic utilitzar contingut piratejat per formar un gran model de llenguatge i treure profit de l’ús d’aquest contingut.

Però les lleis poden permetre aquest tipus d’ús.

Vaig preguntar a Kenton J. Hutcherson, advocat d’Internet a Llei de Hutcherson què va pensar sobre l’ús de continguts pirates en el context de la formació de grans models lingüístics.

Concretament, vaig preguntar si algú utilitza Dolly 2.0, que es pot crear parcialment amb llibres pirates, les entitats comercials que creen aplicacions amb Dolly 2.0 estarien exposades a reclamacions d’infracció dels drets d’autor?

Kenton va respondre:

“Una reclamació per infracció dels drets d’autor dels titulars dels drets d’autor dels llibres piratejats probablement fallaria a causa de l’ús legítim.

L’ús legítim protegeix els usos transformadors de les obres amb drets d’autor.

Aquí, els llibres piratejats no s’utilitzen com a llibres perquè la gent els llegeixi, sinó com a inputs per a un conjunt de dades d’entrenament en intel·ligència artificial.

Un exemple similar va entrar en joc amb l’ús de miniatures a les pàgines de resultats de cerca. Les miniatures no estan allà per substituir les pàgines web que previsualitzen. Tenen una funció completament diferent: previsualitzen la pàgina.

Això és un ús transformador”.

Karen J. Bernstein de IP de Bernstein va oferir una opinió semblant.

“L’ús del contingut piratejat és un ús legítim? L’ús legítim és una defensa que s’utilitza habitualment en aquests casos.

El concepte de defensa d’ús legítim només existeix sota la llei dels drets d’autor dels EUA.

L’ús raonable s’analitza sota una anàlisi multifactorial que el Tribunal Suprem va exposar en un cas històric de 1994.

En aquest escenari, hi haurà preguntes sobre quina part del contingut piratejat es va treure dels llibres i què es va fer amb el contingut (va ser “transformador”), i si aquest contingut està allunyant el mercat al creador dels drets d’autor”.

La tecnologia d’IA avança a un ritme sense precedents, aparentment evolucionant setmana a setmana. Potser com a reflex de la competència i dels beneficis financers que s’obtenen de l’èxit, Google i OpenAI són cada cop més privats sobre com s’entrenen els seus models d’IA.

Haurien de ser més oberts sobre aquesta informació? Es pot confiar que els seus conjunts de dades són justos i no esbiaixats?

L’ús de contingut piratejat per crear aquests models d’IA pot estar protegit legalment com a ús legítim, però només perquè es pugui, vol dir que ho hauria de fer?

Imatge destacada de Shutterstock/Roman Samborskyi





Source link

ChatGPT, Bard i Dolly 2.0 estan entrenats en contingut piratejat?