Com funciona la marca d’aigua ChatGPT i per què es podria derrotar


El ChatGPT d’OpenAI va introduir una manera de crear contingut automàticament, però els plans per introduir una funció de marca d’aigua per facilitar la seva detecció estan posant nerviosos a algunes persones. Així és com funciona la marca d’aigua de ChatGPT i per què pot haver-hi una manera de derrotar-la.

ChatGPT és una eina increïble que els editors en línia, els afiliats i els SEO simultàniament estimen i temen.

Alguns venedors els encanta perquè estan descobrint noves maneres d’utilitzar-lo per generar resums de contingut, esquemes i articles complexos.

Els editors en línia tenen por que el contingut d’IA inundi els resultats de la cerca, substituint els articles d’experts escrits per humans.

En conseqüència, les notícies d’una funció de marca d’aigua que desbloqueja la detecció de contingut escrit per ChatGPT també es preveu amb ansietat i esperança.

Marca d’aigua criptogràfica

Una marca d’aigua és una marca semitransparent (un logotip o text) que s’incrusta a una imatge. La marca d’aigua indica qui és l’autor original de l’obra.

Es veu en gran mesura en fotografies i cada cop més en vídeos.

El text de marca d’aigua a ChatGPT implica la criptografia en forma d’incrustar un patró de paraules, lletres i signes de puntuació en forma de codi secret.

Scott Aaronson i ChatGPT Watermarking

Un científic informàtic influent anomenat Scott Aaronson va ser contractat per OpenAI el juny de 2022 per treballar en la seguretat i l’alineació de la IA.

La seguretat de la IA és un camp d’investigació que s’ocupa d’estudiar maneres en què la IA podria suposar un dany per als humans i crear maneres d’evitar aquest tipus d’interrupcions negatives.

La revista científica Distill, amb autors afiliats a OpenAI, defineix la seguretat de la IA com això:

“L’objectiu de la seguretat de la intel·ligència artificial (IA) a llarg termini és garantir que els sistemes d’IA avançats estiguin alineats de manera fiable amb els valors humans, que facin de manera fiable les coses que la gent vol que facin”.

L’alineació de la IA és el camp de la intel·ligència artificial que s’encarrega d’assegurar-se que l’IA està alineada amb els objectius previstos.

Un model de llenguatge gran (LLM) com ChatGPT es pot utilitzar d’una manera que pot anar contrària als objectius de Alineació de l’IA tal com la defineix OpenAIque és crear IA que beneficiï la humanitat.

En conseqüència, el motiu de la marca d’aigua és evitar l’ús indegut de la IA d’una manera que perjudiqui la humanitat.

Aaronson va explicar el motiu de la marca d’aigua de la sortida de ChatGPT:

“Això podria ser útil per prevenir el plagi acadèmic, òbviament, però també, per exemple, la generació massiva de propaganda…”

Com funciona la marca d’aigua de ChatGPT?

La marca d’aigua de ChatGPT és un sistema que incorpora un patró estadístic, un codi, a les opcions de paraules i fins i tot signes de puntuació.

El contingut creat per intel·ligència artificial es genera amb un patró d’elecció de paraules força previsible.

Les paraules escrites per humans i IA segueixen un patró estadístic.

Canviar el patró de les paraules utilitzades en el contingut generat és una manera de “filigrana” el text per facilitar que un sistema detecti si era el producte d’un generador de text d’IA.

El truc que fa que la marca d’aigua del contingut d’IA sigui indetectable és que la distribució de les paraules encara té una aparença aleatòria similar al text generat amb IA normal.

Això es coneix com una distribució pseudoaleatoria de paraules.

La pseudoaleatorietat és una sèrie estadísticament aleatòria de paraules o nombres que en realitat no són aleatoris.

La marca d’aigua de ChatGPT no s’utilitza actualment. No obstant això, Scott Aaronson d’OpenAI consta que està previst.

Ara mateix, ChatGPT es troba en previsualitzacions, cosa que permet a OpenAI descobrir “desalineació” mitjançant l’ús del món real.

És de suposar que la marca d’aigua es pot introduir en una versió final de ChatGPT o abans.

Scott Aaronson va escriure sobre com funciona la marca d’aigua:

“El meu projecte principal fins ara ha estat una eina per marcar estadísticament les sortides d’un model de text com GPT.

Bàsicament, sempre que GPT genera un text llarg, volem que hi hagi un senyal secret d’una altra manera imperceptible en les seves opcions de paraules, que podeu utilitzar per demostrar més tard que, sí, això prové de GPT”.

Aaronson va explicar més com funciona la marca d’aigua de ChatGPT. Però primer, és important entendre el concepte de tokenització.

La tokenització és un pas que passa en el processament del llenguatge natural on la màquina agafa les paraules d’un document i les descompone en unitats semàntiques com ara paraules i frases.

La tokenització canvia el text en una forma estructurada que es pot utilitzar en l’aprenentatge automàtic.

El procés de generació de text és la màquina que endevina quin testimoni ve a continuació basant-se en el testimoni anterior.

Això es fa amb una funció matemàtica que determina la probabilitat de quin serà el següent testimoni, el que s’anomena distribució de probabilitat.

La paraula següent es preveu però és aleatòria.

La marca d’aigua en si és el que Aaron descriu com a pseudoaleatori, ja que hi ha una raó matemàtica perquè hi hagi una paraula o signe de puntuació en particular, però encara és aleatori estadísticament.

Aquí teniu l’explicació tècnica de la marca d’aigua GPT:

“Per a GPT, cada entrada i sortida és una cadena de fitxes, que poden ser paraules, però també signes de puntuació, parts de paraules o més; hi ha uns 100.000 fitxes en total.

En el seu nucli, GPT genera constantment una distribució de probabilitat sobre el següent testimoni a generar, condicionada a la cadena de fitxes anteriors.

Després que la xarxa neuronal generi la distribució, el servidor OpenAI mostra realment un testimoni segons aquesta distribució, o alguna versió modificada de la distribució, depenent d’un paràmetre anomenat “temperatura”.

Tanmateix, sempre que la temperatura sigui diferent de zero, normalment hi haurà una certa aleatorietat en l’elecció del següent testimoni: podeu córrer una i altra vegada amb el mateix indicador i obtenir una finalització diferent (és a dir, una cadena de fitxes de sortida) cada vegada. .

Aleshores, per marcar l’aigua, en comptes de seleccionar el següent testimoni aleatòriament, la idea serà seleccionar-lo de manera pseudoaleatòria, utilitzant una funció criptogràfica pseudoaleatòria, la clau només és coneguda per OpenAI.

La marca d’aigua sembla completament natural per a qui llegeix el text perquè l’elecció de les paraules està imitant l’atzar de totes les altres paraules.

Però aquesta aleatorietat conté un biaix que només pot ser detectat per algú amb la clau per descodificar-lo.

Aquesta és l’explicació tècnica:

“Per il·lustrar, en el cas especial que GPT tingués un munt de fitxes possibles que considerava igualment probables, simplement podríeu triar el testimoni que maximitzés g. L’elecció semblaria uniformement aleatòria per a algú que no coneixia la clau, però algú que la conegués podria sumar g a tots els n-grams i veure que era anormalment gran”.

La marca d’aigua és una solució que prioritza la privadesa

He vist discussions a les xarxes socials on algunes persones van suggerir que OpenAI podria mantenir un registre de cada sortida que genera i utilitzar-la per a la detecció.

Scott Aaronson confirma que OpenAI podria fer-ho, però que fer-ho suposa un problema de privadesa. La possible excepció és per a la situació de l’aplicació de la llei, que no va detallar.

Com detectar ChatGPT o marca d’aigua GPT

Una cosa interessant que sembla no ser ben coneguda encara és que Scott Aaronson va assenyalar que hi ha una manera de derrotar la marca d’aigua.

No va dir que ho sigui possible per derrotar la marca d’aigua, ho va dir llauna ser vençut.

“Ara, tot això es pot vèncer amb prou esforç.

Per exemple, si heu utilitzat una altra IA per parafrasejar la sortida de GPT, bé, no ho podrem detectar”.

Sembla que la marca d’aigua es pot derrotar, almenys a partir del novembre, quan es van fer les declaracions anteriors.

No hi ha cap indicació que la marca d’aigua estigui en ús actualment. Però quan entri en ús, pot ser que es desconegui si aquesta llacuna es va tancar.

Citació

Llegeix el de Scott Aaronson entrada al blog aquí.

Imatge destacada de Shutterstock/RealPeopleStudio





Source link

Com funciona la marca d’aigua ChatGPT i per què es podria derrotar