La investigació mostra que l’arbre del pensament és millor que la cadena de pensament


Els investigadors van descobrir una manera de derrotar les baranes de seguretat a GPT4 i GPT4-Turbo, desbloquejant la capacitat de generar contingut nociu i tòxic, bàsicament superant un model d’idioma gran amb un altre model de llenguatge gran.

Els investigadors van descobrir que l’ús del raonament de l’arbre del pensament (ToT) per repetir i perfeccionar una línia d’atac era útil per trencar amb un altre gran model de llenguatge.

El que van trobar és que l’enfocament ToT va tenir èxit contra GPT4, GPT4-Turbo i PaLM-2, utilitzant un nombre notablement baix de consultes per obtenir un jailbreak, de mitjana menys de trenta consultes.

Arbre dels pensaments raonament

Es va descobrir un document d’investigació de Google al voltant de maig de 2022 Cadena d’impuls del pensament.

La cadena de pensament (CoT) és una estratègia d’incitació utilitzada en una IA generativa per fer-la seguir una seqüència de passos per resoldre un problema i completar una tasca. El mètode CoT sovint s’acompanya d’exemples per mostrar al LLM com funcionen els passos en una tasca de raonament.

Per tant, en lloc de demanar a una IA generativa com Midjourney o ChatGPT que faci una tasca, el mètode de la cadena de pensament indica a la IA com seguir un camí de raonament que es compon d’una sèrie de passos.

El raonament de l’arbre del pensament (ToT), de vegades conegut com a Tree of Thought (singular) és essencialment una variació i una millora del CoT, però són dues coses diferents.

El raonament de l’arbre dels pensaments és similar al CoT. La diferència és que, en lloc d’entrenar una IA generativa per seguir un únic camí de raonament, ToT es basa en un procés que permet múltiples camins perquè la IA pugui aturar-se i autoavaluar-se i després proposar passos alternatius.

El raonament de l’arbre dels pensaments es va desenvolupar el maig de 2023 en un document de recerca titulat Tree of Thoughts: Deliberate Problem Solving with Large Language Models.PDF)

El document de recerca descriu l’arbre del pensament:

“…introduïm un nou marc per a la inferència de models lingüístics, Tree of Thoughts (ToT), que es generalitza sobre el popular enfocament de la cadena de pensament per impulsar models de llenguatge i permet l’exploració d’unitats coherents de text (pensaments) que serveixen com a passos intermedis cap a solucionar problemes.

ToT permet als LM dur a terme una presa de decisions deliberada tenint en compte múltiples camins de raonament diferents i opcions d’autoavaluació per decidir el següent curs d’acció, així com mirar endavant o retrocedir quan sigui necessari per prendre decisions globals.

Els nostres experiments mostren que ToT millora significativament les capacitats de resolució de problemes dels models lingüístics…

Arbre d’atacs amb poda (TAP)

Aquest nou mètode per fer jailbreak de grans models de llenguatge s’anomena Tree of Attacks with Pruning, TAP. TAP utilitza dos LLM, un per atacar i l’altre per avaluar.

TAP és capaç de superar altres mètodes de jailbreaking per marges significatius, només requereix un accés de caixa negra al LLM.

Una caixa negra, en informàtica, és on es pot veure què entra en un algorisme i què surt. Però el que passa al mig es desconeix, així que es diu que està en una caixa negra.

El raonament de l’arbre de pensaments (TAP) s’utilitza contra un LLM dirigit com GPT-4 per provar repetidament diferents indicacions, avaluar els resultats i, si cal, canviar de rumb si aquest intent no és prometedor.

Això s’anomena procés d’iteració i poda. Cada intent d’incitació s’analitza per determinar la probabilitat d’èxit. Si es considera que el camí d’atac és un carreró sense sortida, el LLM “podarà” aquest camí d’atac i començarà una altra i millor sèrie d’atacs d’impuls.

Per això s’anomena “arbre“En lloc d’utilitzar un procés lineal de raonament que és el segell distintiu de la cadena de pensament (CoT), la indicació de l’arbre del pensament no és lineal perquè el procés de raonament es ramifica a altres àrees del raonament, com ho podria fer un humà. .

L’atacant emet una sèrie d’indicacions, l’avaluador avalua les respostes a aquestes indicacions i després pren una decisió sobre quina serà la següent ruta d’atac fent una trucada per saber si la ruta d’atac actual és irrellevant o no, a més d’això. també avalua els resultats per determinar l’èxit probable de les indicacions que encara no s’han provat.

El que és notable d’aquest enfocament és que aquest procés redueix el nombre de sol·licituds necessàries per fer jailbreak GPT-4. A més, es descobreixen un nombre més gran d’indicacions de jailbreaking amb TAP que amb qualsevol altre mètode de jailbreaking.

Els investigadors observen:

“En aquest treball, presentem Tree of Attacks with Pruning (TAP), un mètode automatitzat per generar jailbreaks que només requereix accés de caixa negra al LLM objectiu.

TAP utilitza un LLM per refinar de manera iterativa les indicacions del candidat (atac) utilitzant el raonament de l’arbre de pensaments fins que una de les indicacions generades fa jailbreak l’objectiu.

De manera crucial, abans d’enviar sol·licituds a l’objectiu, TAP les avalua i elimina les que és poc probable que generin jailbreaks.

L’ús del raonament de l’arbre del pensament permet a TAP navegar per un gran espai de cerca de sol·licituds i la poda redueix el nombre total de consultes enviades a l’objectiu.

En avaluacions empíriques, observem que TAP genera sol·licituds que fan jailbreak LLM d’última generació (inclosos GPT4 i GPT4-Turbo) per a més del 80% de les sol·licituds utilitzant només un petit nombre de consultes. Això millora significativament el mètode de caixa negra d’última generació per generar jailbreaks”.

L’arbre del pensament (ToT) supera el raonament de la cadena de pensament (CoT).

Una altra conclusió interessant a què s’arriba a l’article de recerca és que, per a aquesta tasca en particular, el raonament ToT supera el raonament CoT, fins i tot quan s’afegeix la poda al mètode CoT, on es poda i es descarta la indicació fora del tema.

Tot té un rendiment inferior amb GPT 3.5 Turbo

Els investigadors van descobrir que ChatGPT 3.5 Turbo no funcionava bé amb CoT, revelant les limitacions de GPT 3.5 Turbo. De fet, GPT 3.5 va tenir un rendiment extremadament baix, passant de la taxa d’èxit del 84% a només una taxa d’èxit del 4,2%.

Aquesta és la seva observació sobre per què GPT 3.5 té un rendiment inferior:

“Observem que l’elecció de l’avaluador pot afectar el rendiment de TAP: canviar l’atacant de GPT4 a GPT3.5-Turbo redueix la taxa d’èxit del 84% al 4,2%.

El motiu de la reducció de la taxa d’èxit és que GPT3.5-Turbo determina incorrectament que el model objectiu està jailbreak (per a l’objectiu proporcionat) i, per tant, atura preventivament el mètode.

Com a conseqüència, la variant envia molt menys consultes que el mètode original…

Què significa això per a tu

Tot i que és divertit que els investigadors utilitzin el mètode ToT per superar un LLM amb un altre LLM, també destaca la utilitat del ToT per generar noves direccions sorprenents per tal d’aconseguir nivells més alts de producció.

  • Menjar TL/DR:
  • L’impuls de l’arbre del pensament va superar els mètodes de la cadena de pensament
  • GPT 3.5 va funcionar molt malament en comparació amb GPT 4 a ToT
  • La poda és una part útil d’una estratègia d’incitació
  • La investigació va demostrar que ToT és superior a CoT en una tasca de raonament intensiva com ara el jailbreak d’un LLM

Llegeix el document de recerca original:

Arbre d’atacs: Jailbreaking Black-Box LLMs automàticament (PDF)

Imatge destacada de Shutterstock/THE.STUDIO



Source link

La investigació mostra que l’arbre del pensament és millor que la cadena de pensament