OpenAI GPT-4 arriba a mitjans de març de 2023 i és enorme


El CTO de Microsoft Alemanya, Andreas Braun, va confirmar que el GPT-4 arribarà dins d’una setmana del 9 de març de 2023 i que serà multimodal. La IA multimodal significa que podrà operar amb diversos tipus d’entrada, com ara vídeo, imatges i so.

Models multimodals de grans llenguatges

La gran conclusió de l’anunci és que GPT-4 és multimodal (va predir SEJ GPT-4 és multimodal el gener de 2023).

La modalitat és una referència al tipus d’entrada que (en aquest cas) tracta un gran model de llenguatge.

El multimodal pot incloure text, veu, imatges i vídeo.

GPT-3 i GPT-3.5 només funcionen en una modalitat, text.

Segons l’informe de notícies alemany, el GPT-4 pot funcionar en almenys quatre modalitats, imatges, so (auditiu), text i vídeo.

El Dr. Andreas Braun, CTO de Microsoft Alemanya es cita:

“La setmana vinent presentarem GPT-4, allà tindrem models multimodals que oferiran possibilitats completament diferents, per exemple vídeos…”

Els informes no tenien especificitats per a GPT-4, de manera que no està clar si el que es va compartir sobre la multimodalitat era específic de GPT-4 o només en general.

Microsoft Director d’Estratègia Empresarial Holger Kenn va explicar les multimodalitats, però l’informe no estava clar si es referia a la multimodalitat GPT-4 o a la multimodalitat en gèneres.

Crec que les seves referències a la multimodalitat eren específiques de GPT-4.

La notícia compartia:

“Kenn va explicar de què es tracta la IA multimodal, que pot traduir el text no només en conseqüència en imatges, sinó també en música i vídeo”.

Un altre fet interessant és que Microsoft està treballant en “mètriques de confiança” per fonamentar la seva IA amb fets per fer-la més fiable.

Microsoft Kosmos-1

Una cosa que aparentment no es va informar als Estats Units és que Microsoft va llançar un model de llenguatge multimodal anomenat Kosmos-1 a principis de març de 2023.

Segons el reportatge del lloc de notícies alemany, Heise.de:

“…l’equip va sotmetre el model pre-entrenat a diverses proves, amb bons resultats en classificació d’imatges, resposta a preguntes sobre contingut d’imatges, etiquetatge automatitzat d’imatges, reconeixement òptic de text i tasques de generació de veu.

… El raonament visual, és a dir, extreure conclusions sobre imatges sense utilitzar el llenguatge com a pas intermedi, sembla ser una clau aquí…”

Kosmos-1 és un modal multimodal que integra les modalitats de text i imatges.

GPT-4 va més enllà que Kosmos-1 perquè afegeix una tercera modalitat, el vídeo, i també sembla incloure la modalitat de so.

Funciona en diversos idiomes

Sembla que GPT-4 funciona en tots els idiomes. Es descriu com poder rebre una pregunta en alemany i respondre en italià.

És un exemple estrany perquè, qui faria una pregunta en alemany i voldrà rebre una resposta en italià?

Això és el que es va confirmar:

“…la tecnologia ha arribat tan lluny que bàsicament “funciona en tots els idiomes”: pots fer una pregunta en alemany i obtenir una resposta en italià.

Amb la multimodalitat, Microsoft (-OpenAI) “farà que els models siguin complets”.

Crec que el punt de l’avenç és que el model transcendeix el llenguatge amb la seva capacitat d’apropar el coneixement a través de diferents idiomes. Així, si la resposta és en italià, la sabrà i podrà proporcionar la resposta en l’idioma en què es va fer la pregunta.

Això ho faria semblant a l’objectiu de l’IA multimodal de Google anomenada MUM. Es diu que la mare és capaç de donar respostes en anglès per a les quals les dades només existeixen en un altre idioma, com el japonès.

Aplicacions GPT-4

No hi ha cap anunci actual sobre on es mostrarà GPT-4. Però Azure-OpenAI es va esmentar específicament.

Google està lluitant per posar-se al dia amb Microsoft integrant una tecnologia competidora al seu propi motor de cerca. Aquest desenvolupament agreuja encara més la percepció que Google s’està quedant enrere i no té lideratge en IA orientada al consumidor.

Google ja integra la IA en diversos productes com Google Lens, Google Maps i altres àrees amb les quals els consumidors interactuen amb Google.

És que la manera com Microsoft l’està implementant és més visible.

Llegeix l’informe original alemany aquí:

GPT-4 arribarà la setmana que ve i serà multimodal, diu Microsoft Alemanya

Imatge destacada de Shutterstock/Master1305





Source link

OpenAI GPT-4 arriba a mitjans de març de 2023 i és enorme