OpenAI llança GPTBot amb detalls sobre com restringir l’accés


OpenAI ha llançat GPTBot, un nou rastrejador web per millorar futurs models d’intel·ligència artificial com GPT-4 i el futur GPT-5.

Com funciona GPTBot

Reconeixible pel següent testimoni d’agent d’usuari i per tota la cadena d’agent d’usuari, aquest sistema recorre el web a la recerca de dades que puguin millorar la precisió, les capacitats i la seguretat de la tecnologia d’IA.

User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

Segons s’informa, hauria de filtrar estrictament les fonts restringides pel mur de pagament, les fonts que infringeixin les polítiques d’OpenAI o les fonts que recullin informació d’identificació personal.

La utilització de GPTBot pot proporcionar un impuls significatiu als models d’IA.

En permetre-li accedir al vostre lloc, contribuïu a aquest conjunt de dades, millorant així l’ecosistema global d’IA.

Tanmateix, no és un escenari únic. OpenAI ha donat als administradors web el poder d’escollir si concedeixen o no accés a GPTBot als seus llocs web.

Restringint l’accés a GPTBot

Si els propietaris de llocs web volen restringir GPTBot del seu lloc, poden modificar el seu fitxer robots.txt.

En incloure el següent, poden impedir que GPTBot accedeixi a la totalitat del seu lloc web.

User-agent: GPTBot
Disallow: /

En canvi, aquells que vulguin concedir accés parcial poden personalitzar els directoris als quals pot accedir GPTBot. Per fer-ho, afegiu el següent al fitxer robots.txt.

User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

Pel que fa a les operacions tècniques de GPTBot, qualsevol trucada feta a llocs web s’originen a partir d’intervals d’adreces IP documentats a OpenAI. lloc web. Aquest detall proporciona transparència i claredat addicionals als administradors web sobre la font de trànsit als seus llocs.

Permetre o no permetre el GPTBot el rastrejador web podria afectar significativament la privadesa de les dades, la seguretat i la contribució al progrés de la IA.

Preocupacions legals i ètiques

Les últimes notícies d’OpenAI han provocat un debat Notícies de pirates informàtics al voltant de l’ètica i la legalitat de l’ús de dades web rascades per entrenar sistemes d’IA propietaris.

GPTBot s’identifica perquè els administradors web puguin bloquejar-lo mitjançant robots.txt, però alguns argumenten que no hi ha cap benefici per permetre-ho, a diferència dels rastrejadors dels motors de cerca que generen trànsit. Una preocupació important és el contingut amb drets d’autor que s’utilitza sense atribució. ChatGPT actualment no cita fonts.

També hi ha preguntes sobre com gestiona GPTBot imatges, vídeos, música i altres mitjans amb llicència que es troben als llocs web. Si aquest mitjà acaba en un model d’entrenament, podria constituir una infracció dels drets d’autor. Alguns experts pensen que les dades generades per rastrejadors podrien degradar els models si el contingut escrit amb IA es torna a alimentar a la formació.

Per contra, alguns creuen que OpenAI té el dret d’utilitzar les dades de la web pública lliurement, comparant-les amb una persona que aprèn del contingut en línia. Tanmateix, altres argumenten que OpenAI hauria de compartir els beneficis si monetitza les dades web per obtenir beneficis comercials.

En general, GPTBot ha obert debats complexos sobre la propietat, l’ús just i els incentius dels creadors de contingut web. Tot i que seguir robots.txt és un bon pas, encara falta transparència. La comunitat tecnològica es pregunta com s’utilitzaran les seves dades a mesura que els productes d’IA avancen ràpidament.


Imatge destacada: Vitor Miranda/Shutterstock





Source link

OpenAI llança GPTBot amb detalls sobre com restringir l’accés