Google Bard AI: quins llocs es van utilitzar per entrenar-lo?

El Bard de Google es basa en el model de llenguatge LaMDA, format en conjunts de dades basats en contingut d’Internet anomenat Infiniset del qual se sap molt poc d’on provenen les dades i com les van obtenir.

El document de recerca de LaMDA de 2022 enumera els percentatges de diferents tipus de dades que s’utilitzen per entrenar LaMDA, però només el 12,5% prové d’un conjunt de dades públiques de contingut rastrejat del web i un altre 12,5% prové de la Viquipèdia.

Google és intencionadament vaga sobre d’on prové la resta de dades rascades, però hi ha pistes de quins llocs hi ha en aquests conjunts de dades.

Conjunt de dades Infiniset de Google

Google Bard es basa en un model de llenguatge anomenat LaMDA, que és l’acrònim de Model lingüístic per a aplicacions de diàleg.

LaMDA es va formar en un conjunt de dades anomenat Infiniset.

Infiniset és una combinació de contingut d’Internet que es va escollir deliberadament per millorar la capacitat del model per dialogar.

El document de recerca de LaMDA (PDF) explica per què van triar aquesta composició de contingut:

“… aquesta composició es va escollir per aconseguir un rendiment més sòlid en les tasques de diàleg… tot mantenint la seva capacitat per realitzar altres tasques com la generació de codi.
Com a treball futur, podem estudiar com l’elecció d’aquesta composició pot afectar la qualitat d’algunes de les altres tasques de PNL realitzades pel model”.

El treball de recerca fa referència a diàleg i diàlegsque és l’ortografia de les paraules utilitzades en aquest context, dins l’àmbit de la informàtica.

En total, LaMDA es va entrenar prèviament amb 1,56 bilions de paraules de “dades de diàleg públic i text web”.

El conjunt de dades està format per la combinació següent:

12,5% de dades basades en C4
12,5% Viquipèdia en anglès
Un 12,5% codi documents de llocs web de programació de preguntes i respostes, tutorials i altres
6,25% Documents web en anglès
6,25% Documents web no anglesos
50% de dades de diàlegs de fòrums públics

Les dues primeres parts d’Infiniset (C4 i Viquipèdia) estan formades per dades conegudes.

El conjunt de dades C4, que s’explorarà en breu, és una versió especialment filtrada del conjunt de dades Common Crawl.

Només el 25% de les dades provenen d’una font anomenada (el C4 conjunt de dades i Viquipèdia).

La resta de dades que constitueixen la major part del conjunt de dades d’Infiniset, el 75%, consisteixen en paraules que es van treure d’Internet.

El document de recerca no diu com es van obtenir les dades dels llocs web, de quins llocs web es van obtenir ni cap altre detall sobre el contingut raspat.

Google només utilitza descripcions generalitzades com ara “Documents web que no són en anglès”.

La paraula “enfosquit” significa quan alguna cosa no s’explica i s’amaga majoritàriament.

Murky és la millor paraula per descriure el 75% de les dades que Google va utilitzar per entrenar LaMDA.

Hi ha algunes pistes que pot donar una idea general de quins llocs es troben dins del 75% del contingut web, però no ho podem saber amb certesa.

Conjunt de dades C4

C4 és un conjunt de dades desenvolupat per Google el 2020. C4 significa “Corpus arrossegat net colossal”.

Aquest conjunt de dades es basa en les dades de Common Crawl, que és un conjunt de dades de codi obert.

Sobre Common Crawl

Common Crawl és una organització sense ànim de lucre registrada que rastreja Internet mensualment per crear conjunts de dades gratuïts que qualsevol pugui utilitzar.

Actualment, l’organització Common Crawl està dirigida per persones que han treballat per a la Fundació Wikimedia, antics Googlers, fundador de Blekko i compten com a assessors com Peter Norvig, director d’investigació de Google i Danny Sullivan (també de Google).

Com es desenvolupa C4 a partir de Common Crawl

Les dades brutes de Common Crawl es netegen eliminant coses com ara contingut prim, paraules obscenes, lorem ipsum, menús de navegació, desduplicació, etc. per limitar el conjunt de dades al contingut principal.

L’objectiu de filtrar les dades innecessàries era eliminar el galimatisme i conservar exemples d’anglès natural.

Això és el que van escriure els investigadors que van crear C4:

“Per reunir el nostre conjunt de dades base, vam descarregar el text extret del web des d’abril de 2019 i vam aplicar el filtrat esmentat anteriorment.
Això produeix una col·lecció de text que no només és ordres de magnitud més gran que la majoria de conjunts de dades utilitzats per a la formació prèvia (uns 750 GB), sinó que també inclou text en anglès raonablement net i natural.
Anomenem aquest conjunt de dades el “Colossal Clean Crawled Corpus” (o C4 per abreujar-lo) i el publiquem com a part de TensorFlow Datasets…”

També hi ha altres versions sense filtres de C4.

El document de recerca que descriu el conjunt de dades C4 es titula, Explorant els límits de l’aprenentatge de transferència amb un transformador de text a text unificat (PDF).

Un altre treball de recerca del 2021, (Documentació de grans corpus de text web: un estudi de cas sobre el corpus colossal rastrejat net – PDF) va examinar la composició dels llocs inclosos al conjunt de dades C4.

Curiosament, el segon treball de recerca va descobrir anomalies en el conjunt de dades C4 original que van donar lloc a l’eliminació de pàgines web que estaven alineades hispans i afroamericans.

Les pàgines web alineades amb hispans s’han eliminat pel filtre de llista de bloqueig (malaries, etc.) a un ritme del 32% de les pàgines.

Les pàgines web alineades afroamericanes es van eliminar a un ritme del 42%.

És de suposar que aquestes mancances s’han solucionat…

Una altra troballa va ser que el 51,3% del conjunt de dades C4 consistia en pàgines web allotjades als Estats Units.

Finalment, l’anàlisi de 2021 del conjunt de dades C4 original reconeix que el conjunt de dades representa només una fracció del total d’Internet.

L’anàlisi diu:

“La nostra anàlisi mostra que, tot i que aquest conjunt de dades representa una fracció significativa d’una retallada d’Internet pública, no és en cap cas representatiu del món de parla anglesa i abasta una àmplia gamma d’anys.
Quan es construeix un conjunt de dades a partir d’un fragment del web, informar dels dominis dels quals s’extreu el text és integral per entendre el conjunt de dades; el procés de recollida de dades pot conduir a una distribució de dominis d’Internet significativament diferent de la que es podria esperar”.

Les estadístiques següents sobre el conjunt de dades C4 són del segon treball de recerca que s’enllaça més amunt.

Els 25 llocs web principals (per nombre de fitxes) a C4 són:

patents.google.com
en.wikipedia.org
en.m.wikipedia.org
www.nytimes.com
www.latimes.com
www.theguardian.com
journals.plos.org
www.forbes.com
www.huffpost.com
patents.com
www.scribd.com
www.washingtonpost.com
www.fool.com
ipfs.io
www.frontiersin.org
www.businessinsider.com
www.chicagotribune.com
www.booking.com
www.theatlantic.com
link.springer.com
www.aljazeera.com
www.kickstarter.com
caselaw.findlaw.com
www.ncbi.nlm.nih.gov
www.npr.org

Aquests són els 25 dominis de nivell superior representats al conjunt de dades C4:

Captura de pantalla de Documentació de grans corpus de text web: un estudi de cas sobre el corpus colossal rastrejat net

Si esteu interessats a obtenir més informació sobre el conjunt de dades C4, us recomano llegir Documentació de grans corpus de text web: un estudi de cas sobre el corpus rastrejat net colossal (PDF) així com el document de recerca original de 2020 (PDF) per al qual es va crear C4.

Què podrien ser les dades dels diàlegs dels fòrums públics?

El 50% de les dades de formació prové de “dades de diàlegs de fòrums públics”.

Això és tot el que diu el document d’investigació LaMDA de Google sobre aquestes dades d’entrenament.

Si ho endevinés, Reddit i altres comunitats principals com StackOverflow són apostes segures.

Reddit s’utilitza en molts conjunts de dades importants, com ara desenvolupat per OpenAI anomenat WebText2 (PDF)una aproximació de codi obert de WebText2 anomenada OpenWebText2 i la pròpia de Google WebText (PDF) conjunt de dades del 2020.

Google també va publicar detalls d’un altre conjunt de dades de llocs de diàleg públics un mes abans de la publicació del document LaMDA.

Aquest conjunt de dades que conté llocs de diàleg públic s’anomena MassiveWeb.

No especulem que el conjunt de dades MassiveWeb es va utilitzar per entrenar LaMDA.

Però conté un bon exemple del que Google va triar per a un altre model d’idioma centrat en el diàleg.

MassiveWeb va ser creat per DeepMind, propietat de Google.

Va ser dissenyat per ser utilitzat per un gran model de llenguatge anomenat Gopher (enllaç al PDF del treball de recerca).

MassiveWeb utilitza fonts web de diàleg que van més enllà de Reddit per evitar crear un biaix cap a les dades influïdes per Reddit.

Encara utilitza Reddit. Però també conté dades extretes de molts altres llocs.

Els llocs de diàleg públic inclosos a MassiveWeb són:

Reddit
Facebook
Quora
YouTube
Mitjana
Desbordament de pila

De nou, això no suggereix que LaMDA hagi estat entrenat amb els llocs anteriors.

Només pretén mostrar què podria haver utilitzat Google, mostrant un conjunt de dades en què Google treballava al mateix temps que LaMDA, un que conté llocs de tipus fòrum.

El 37,5% restant

L’últim grup de fonts de dades són:

un 12,5% codi documents de llocs relacionats amb la programació, com ara llocs de preguntes i respostes, tutorials, etc.;
12,5% Viquipèdia (anglès)
6,25% Documents web en anglès
6,25% Documents web no anglesos.

Google no especifica quins llocs hi ha Programació de llocs de preguntes i respostes categoria que representa el 12,5% del conjunt de dades en què s’ha entrenat LaMDA.

Així que només podem especular.

Stack Overflow i Reddit semblen opcions òbvies, sobretot perquè es van incloure al conjunt de dades MassiveWeb.

Què “tutorials” es van rastrejar els llocs? Només podem especular quins poden ser aquests llocs de “tutorials”.

Això deixa les tres categories finals de contingut, dues de les quals són molt vagues.

La Viquipèdia en anglès no necessita discussió, tots coneixem la Viquipèdia.

Però els dos següents no s’expliquen:

Anglès i no anglès les pàgines web d’idiomes són una descripció general del 13% dels llocs inclosos a la base de dades.

Aquesta és tota la informació que Google dóna sobre aquesta part de les dades d’entrenament.

Google hauria de ser transparent sobre els conjunts de dades utilitzats per a Bard?

Alguns editors se senten incòmodes perquè els seus llocs s’utilitzen per entrenar sistemes d’IA perquè, segons la seva opinió, aquests sistemes podrien en el futur fer que els seus llocs web estiguin obsolets i desapareguin.

Queda per veure si això és cert o no, però és una preocupació genuïna expressada pels editors i els membres de la comunitat de màrqueting de cerca.

Google és frustrantment vague sobre els llocs web utilitzats per entrenar LaMDA, així com sobre quina tecnologia es va utilitzar per buscar dades als llocs web.

Com es va veure en l’anàlisi del conjunt de dades C4, la metodologia per triar quin contingut del lloc web s’utilitza per a la formació de grans models lingüístics pot afectar la qualitat del model lingüístic en excloure determinades poblacions.

Google hauria de ser més transparent sobre quins llocs s’utilitzen per entrenar la seva IA o, almenys, publicar un informe de transparència fàcil de trobar sobre les dades que s’han utilitzat?