El CTO de Microsoft Alemanya, Andreas Braun, va confirmar que el GPT-4 arribarà dins d’una setmana del 9 de març de 2023 i que serà multimodal. La IA multimodal significa que podrà operar amb diversos tipus d’entrada, com ara vídeo, imatges i so.
Models multimodals de grans llenguatges
La gran conclusió de l’anunci és que GPT-4 és multimodal (va predir SEJ GPT-4 és multimodal el gener de 2023).
La modalitat és una referència al tipus d’entrada que (en aquest cas) tracta un gran model de llenguatge.
El multimodal pot incloure text, veu, imatges i vídeo.
GPT-3 i GPT-3.5 només funcionen en una modalitat, text.
Segons l’informe de notícies alemany, el GPT-4 pot funcionar en almenys quatre modalitats, imatges, so (auditiu), text i vídeo.
El Dr. Andreas Braun, CTO de Microsoft Alemanya es cita:
“La setmana vinent presentarem GPT-4, allà tindrem models multimodals que oferiran possibilitats completament diferents, per exemple vídeos…”
Els informes no tenien especificitats per a GPT-4, de manera que no està clar si el que es va compartir sobre la multimodalitat era específic de GPT-4 o només en general.
Microsoft Director d’Estratègia Empresarial Holger Kenn va explicar les multimodalitats, però l’informe no estava clar si es referia a la multimodalitat GPT-4 o a la multimodalitat en gèneres.
Crec que les seves referències a la multimodalitat eren específiques de GPT-4.
La notícia compartia:
“Kenn va explicar de què es tracta la IA multimodal, que pot traduir el text no només en conseqüència en imatges, sinó també en música i vídeo”.
Un altre fet interessant és que Microsoft està treballant en “mètriques de confiança” per fonamentar la seva IA amb fets per fer-la més fiable.
Microsoft Kosmos-1
Una cosa que aparentment no es va informar als Estats Units és que Microsoft va llançar un model de llenguatge multimodal anomenat Kosmos-1 a principis de març de 2023.
Segons el reportatge del lloc de notícies alemany, Heise.de:
“…l’equip va sotmetre el model pre-entrenat a diverses proves, amb bons resultats en classificació d’imatges, resposta a preguntes sobre contingut d’imatges, etiquetatge automatitzat d’imatges, reconeixement òptic de text i tasques de generació de veu.
… El raonament visual, és a dir, extreure conclusions sobre imatges sense utilitzar el llenguatge com a pas intermedi, sembla ser una clau aquí…”
Kosmos-1 és un modal multimodal que integra les modalitats de text i imatges.
GPT-4 va més enllà que Kosmos-1 perquè afegeix una tercera modalitat, el vídeo, i també sembla incloure la modalitat de so.
Funciona en diversos idiomes
Sembla que GPT-4 funciona en tots els idiomes. Es descriu com poder rebre una pregunta en alemany i respondre en italià.
És un exemple estrany perquè, qui faria una pregunta en alemany i voldrà rebre una resposta en italià?
Això és el que es va confirmar:
“…la tecnologia ha arribat tan lluny que bàsicament “funciona en tots els idiomes”: pots fer una pregunta en alemany i obtenir una resposta en italià.
Amb la multimodalitat, Microsoft (-OpenAI) “farà que els models siguin complets”.
Crec que el punt de l’avenç és que el model transcendeix el llenguatge amb la seva capacitat d’apropar el coneixement a través de diferents idiomes. Així, si la resposta és en italià, la sabrà i podrà proporcionar la resposta en l’idioma en què es va fer la pregunta.
Això ho faria semblant a l’objectiu de l’IA multimodal de Google anomenada MUM. Es diu que la mare és capaç de donar respostes en anglès per a les quals les dades només existeixen en un altre idioma, com el japonès.
Aplicacions GPT-4
No hi ha cap anunci actual sobre on es mostrarà GPT-4. Però Azure-OpenAI es va esmentar específicament.
Google està lluitant per posar-se al dia amb Microsoft integrant una tecnologia competidora al seu propi motor de cerca. Aquest desenvolupament agreuja encara més la percepció que Google s’està quedant enrere i no té lideratge en IA orientada al consumidor.
Google ja integra la IA en diversos productes com Google Lens, Google Maps i altres àrees amb les quals els consumidors interactuen amb Google.
És que la manera com Microsoft l’està implementant és més visible.
Llegeix l’informe original alemany aquí:
GPT-4 arribarà la setmana que ve i serà multimodal, diu Microsoft Alemanya
Imatge destacada de Shutterstock/Master1305