Google LIMoE: un pas cap a l’objectiu d’una IA única


Google va anunciar una nova tecnologia anomenada LIMoE que, segons diu, representa un pas cap a assolir l’objectiu de Google d’una arquitectura d’IA anomenada Pathways.

Pathways és una arquitectura d’IA que és un únic model que pot aprendre a fer diverses tasques que s’aconsegueixen actualment utilitzant diversos algorismes.

LIMoE és un acrònim que significa Aprenentatge de múltiples modalitats amb un model escàs de barreja d’experts. És un model que processa visió i text conjuntament.

Tot i que hi ha altres arquitectures que fan coses semblants, l’avenç està en la forma en què el nou model realitza aquestes tasques, utilitzant una tècnica de xarxa neuronal anomenada model dispers.

El model escàs es descriu en un document de recerca del 2017 que va introduir l’enfocament de la capa de mescla d’experts (MoE), en un document de recerca titulat, Xarxes neuronals escandalosament grans: la capa de mescla d’experts poc tancada.

El model escàs és diferent dels models “densos” perquè en lloc de dedicar totes les parts del model a la realització d’una tasca, el model escàs assigna la tasca a diversos “experts” especialitzats en una part de la tasca.

El que fa és reduir el cost computacional, fent que el model sigui més eficient.

Així doncs, de manera similar a com un cervell veu un gos i sap que és un gos, que és un carlin i que el carlin mostra un abric de color lous platejat, aquest model també pot veure una imatge i realitzar la tasca d’una manera similar, mitjançant l’assignació computacional. tasques a diferents experts especialitzats en la tasca de reconèixer un gos, la seva raça, el seu color, etc.

El model LIMoE dirigeix ​​els problemes als “experts” especialitzats en una tasca concreta, aconseguint resultats similars o millors que els enfocaments actuals per resoldre problemes.

Una característica interessant del model és com alguns dels experts s’especialitzen principalment en el processament d’imatges, d’altres s’especialitzen principalment en el processament de text i alguns experts s’especialitzen en fer les dues coses.

La descripció de Google de com funciona LIMoE mostra com hi ha un expert en ulls, un altre en rodes, un expert en textures ratllades, textures sòlides, paraules, manetes de portes, aliments i fruites, mar i cel i un expert en imatges de plantes.

L’anunci sobre el nou algorisme descriu aquests experts:

“També hi ha alguns patrons qualitatius clars entre els experts en imatges; per exemple, en la majoria de models LIMoE, hi ha un expert que processa tots els pegats d’imatge que contenen text. … un expert processa la fauna i la vegetació, i un altre processa les mans humanes”.

Els experts especialitzats en diferents parts dels problemes ofereixen la capacitat d’escalar i realitzar amb precisió moltes tasques diferents, però a un cost computacional més baix.

El document de recerca resumeix les seves conclusions:

  • “Proposem LIMoE, la primera barreja multimodal a gran escala de models experts.
  • Demostrem en detall com els enfocaments anteriors per regularitzar la barreja de models d’experts són curts per a l’aprenentatge multimodal i proposem un nou esquema de regularització basat en entropia per estabilitzar la formació.
  • Mostrem que LIMoE es generalitza a les escales d’arquitectura, amb millores relatives en la precisió d’ImageNet de tir zero que oscil·len entre el 7% i el 13% respecte als models densos equivalents.
  • Ampliat encara més, LIMoE-H/14 aconsegueix un 84,1% de precisió d’ImageNet de tir zero, comparable als models contrastius SOTA amb troncals per modalitat i entrenament previ”.

Partits Estat de l’art

Hi ha molts articles de recerca publicats cada mes. Però només uns quants són destacats per Google.

Normalment, Google destaca la investigació perquè aconsegueix alguna cosa nova, a més d’aconseguir un estat de l’art.

LIMoE aconsegueix aquesta proesa d’aconseguir resultats comparables als millors algorismes actuals, però ho fa de manera més eficient.

Els investigadors destaquen aquest avantatge:

“En la classificació d’imatges zero-shot, LIMoE supera tant els models multimodals densos comparables com els enfocaments de dues torres.

El LIMoE més gran aconsegueix una precisió ImageNet de tir zero del 84,1%, comparable als models d’última generació més cars.

La dispersió permet que LIMoE s’ampliï amb gràcia i aprengui a manejar inputs molt diferents, abordant la tensió entre ser un generalista de tots els oficis i un especialista en mestre d’un”.

Els resultats reeixits de LIMoE van fer que els investigadors observessin que LIMoE podria ser un camí a seguir per aconseguir un model generalista multimodal.

Els investigadors van observar:

“Creiem que la capacitat de construir un model generalista amb components especialitzats, que puguin decidir com han d’interaccionar diferents modalitats o tasques, serà clau per crear models de multitasca veritablement multimodals que destaquin en tot el que fan.

LIMoE és un primer pas prometedor en aquesta direcció”.

Deficiències potencials, biaixos i altres problemes ètics

Hi ha deficiències en aquesta arquitectura que no es comenten a l’anunci de Google, però que s’esmenten al mateix document de recerca.

El document de recerca assenyala que, de manera similar a altres models a gran escala, LIMoE també pot introduir biaixos en els resultats.

Els investigadors afirmen que encara no han abordat “de manera explícita” els problemes inherents als models a gran escala.

Ells escriuen:

“Els danys potencials dels models a gran escala…, els models contrastius… i les dades multimodals a escala web… també es mantenen aquí, ja que LIMoE no els aborda explícitament”.

La declaració anterior fa una referència (en un enllaç de nota a peu de pàgina) a un document de recerca de 2021 anomenat, Sobre les oportunitats i els riscos dels models de fundació (PDF aquí).

Aquest document de recerca del 2021 adverteix com les tecnologies d’IA emergents poden causar un impacte social negatiu, com ara:

“… desigualtat, mal ús, impacte econòmic i ambiental, consideracions legals i ètiques”.

Segons l’article citat, els problemes ètics també poden sorgir de la tendència a l’homogeneïtzació de les tasques, que pot introduir un punt de fracàs que després es reprodueix a altres tasques que segueixen aigües avall.

El document de recerca d’advertència diu:

“La importància dels models de fundació es pot resumir amb dues paraules: aparició i homogeneïtzació.

L’emergència vol dir que el comportament d’un sistema s’indueix implícitament més que no es construeix explícitament; és alhora la font d’emoció científica i d’ansietat per les conseqüències imprevistes.

L’homogeneïtzació indica la consolidació de metodologies per construir sistemes d’aprenentatge automàtic en una àmplia gamma d’aplicacions; proporciona una forta influència per a moltes tasques, però també crea punts únics de fracàs”.

Una àrea de precaució és la IA relacionada amb la visió.

El document de 2021 afirma que la ubiqüitat de les càmeres significa que qualsevol avenç en IA relacionat amb la visió podria comportar un risc concomitant cap a la tecnologia que s’aplica d’una manera imprevista que pot tenir un “impacte pertorbador”, inclòs pel que fa a la privadesa i la vigilància.

Una altra advertència relacionada amb els avenços en la IA relacionada amb la visió són els problemes de precisió i biaix.

Noten:

“Hi ha un historial ben documentat de biaix après en els models de visió per ordinador, que resulta en precisions més baixes i errors correlacionats per a grups poc representats, amb la consegüent implementació inadequada i prematura a alguns entorns del món real”.

La resta del document documenta com les tecnologies d’IA poden aprendre els biaixos existents i perpetuar les desigualtats.

“Els models de fundació tenen el potencial de produir resultats desiguals: el tracte a les persones que és injust, especialment a causa de la distribució desigual en línies que agreugen la discriminació històrica… Com qualsevol sistema d’IA, els models de fonamentació poden agreujar les desigualtats existents produint resultats injustos, consolidant sistemes de poder i distribuint de manera desproporcionada les conseqüències negatives de la tecnologia als que ja estan marginats…

Els investigadors de LIMoE van assenyalar que aquest model en particular pot ser capaç d’evitar alguns dels biaixos contra els grups poc representats a causa de la naturalesa de com s’especialitzen els experts en determinades coses.

Aquest tipus de resultats negatius no són teories, són realitats i ja han afectat negativament les vides en aplicacions del món real com ara biaixos racials injustos introduïts pels algorismes de contractació laboral.

Els autors del document LIMoE reconeixen aquestes possibles mancances en un breu paràgraf que serveix com a advertència.

Però també assenyalen que pot haver-hi la possibilitat d’abordar alguns dels biaixos amb aquest nou enfocament.

Van escriure:

“… la capacitat de fer models a escala amb experts que poden especialitzar-se profundament pot donar lloc a un millor rendiment en grups poc representats”.

Finalment, un atribut clau d’aquesta nova tecnologia que cal destacar és que no hi ha un ús explícit.

És simplement una tecnologia que pot processar imatges i text d’una manera eficient.

Com es pot aplicar, si alguna vegada s’aplica en aquest formulari o en un futur, mai s’aborda.

I aquest és un factor important que planteja el document d’advertència (Oportunitats i Riscos dels Models de Fundació)crida l’atenció perquè els investigadors creen capacitats per a la IA sense tenir en compte com es poden utilitzar i l’impacte que poden tenir en qüestions com la privadesa i la seguretat.

“Els models de fundació són actius intermediaris sense finalitat especificada abans de ser adaptats; entendre els seus danys requereix raonament tant sobre les seves propietats com sobre el paper que tenen en la construcció de models específics per a tasques”.

Totes aquestes advertències queden fora de l’article d’anunci de Google, però es fan referència a la versió PDF del mateix document de recerca.

Pathways AI Architecture i LIMoE

Text, imatges, dades d’àudio s’anomenen modalitats, diferents tipus de dades o especialització de tasques, per dir-ho d’alguna manera. Les modalitats també poden significar llenguatge parlat i símbols.

Així, quan veus l’expressió “multimodal” o “modalitats” en articles científics i articles de recerca, generalment parlen de diferents tipus de dades.

L’objectiu final de Google per a la IA és el que anomena Pathways Next-Generation AI Architecture.

Pathways representa un pas dels models d’aprenentatge automàtic que fan una cosa molt bé (per tant, en requereixen milers) a un únic model que ho fa tot molt bé.

Pathways (i LIMoE) és un enfocament multimodal per resoldre problemes.

És descrit així:

“La gent confia en múltiples sentits per percebre el món. Això és molt diferent de com els sistemes d’IA contemporanis digereixen la informació.

La majoria dels models actuals processen només una modalitat d’informació alhora. Poden prendre text, imatges o veu, però normalment no els tres alhora.

Les vies podrien permetre models multimodals que incloguin la comprensió visual, auditiva i del llenguatge simultàniament”.

El que fa que LIMoE sigui important és que es tracta d’una arquitectura multimodal a la qual els investigadors denominen “… pas important cap a la visió de Pathways…

Els investigadors descriuen LIMoE com a “pas” perquè hi ha més feina per fer, que inclou explorar com aquest enfocament pot funcionar amb modalitats més enllà de les imatges i el text.

Aquest document d’investigació i l’article resum que l’acompanya mostren en quina direcció va la investigació de Google en IA i com hi va.


Citacions

Llegiu l’article de resum de Google sobre LIMoE

LIMoE: aprenentatge de múltiples modalitats amb un model de barreja d’experts escassa

Baixeu i llegiu el document de recerca LIMoE

Aprenentatge contrastiu multimodal amb LIMoE: la barreja llenguatge-imatge d’experts (PDF)

Imatge de Shutterstock/SvetaZi





Source link

Google LIMoE: un pas cap a l’objectiu d’una IA única