Com bloquejar ChatGPT perquè utilitzi el contingut del vostre lloc web


Hi ha preocupació per la manca d’una manera fàcil de desactivar que el contingut s’utilitzi per entrenar grans models de llenguatge (LLM) com ChatGPT. Hi ha una manera de fer-ho, però no és ni senzill ni segur que funcioni.

Com les IA aprenen del vostre contingut

Els grans models de llenguatge (LLM) s’entrenen amb dades que provenen de diverses fonts. Molts d’aquests conjunts de dades són de codi obert i s’utilitzen lliurement per entrenar IA.

Algunes de les fonts utilitzades són:

  • Viquipèdia
  • Expedients judicials del govern
  • Llibres
  • Correus electrònics
  • Llocs web rastrejats

En realitat, hi ha portals, llocs web que ofereixen conjunts de dades, que ofereixen grans quantitats d’informació.

Un dels portals està allotjat per Amazon, que ofereix milers de conjunts de dades al Registre de dades obertes a AWS.

Com bloquejar ChatGPT perquè utilitzi el contingut del vostre lloc web

El portal d’Amazon amb milers de conjunts de dades és només un dels molts altres que contenen més conjunts de dades.

Viquipèdia enumera 28 portals per descarregar conjunts de dades, com ara el conjunt de dades de Google i els portals Hugging Face per trobar milers de conjunts de dades.

Conjunts de dades de contingut web

OpenWebText

Un conjunt de dades popular de contingut web s’anomena OpenWebText. OpenWebText consta d’URL que es troben a les publicacions de Reddit que tenien almenys tres vots a favor.

La idea és que aquests URL siguin fiables i continguin contingut de qualitat. No he pogut trobar informació sobre un agent d’usuari per al seu rastrejador, potser només s’identifica com a Python, no n’estic segur.

No obstant això, sabem que si el vostre lloc està enllaçat des de Reddit amb almenys tres vots positius, hi ha moltes possibilitats que el vostre lloc estigui al conjunt de dades d’OpenWebText.

Més informació sobre OpenWebText aquí.

Common Crawl

Un dels conjunts de dades més utilitzats per al contingut d’Internet l’ofereix una organització sense ànim de lucre anomenada Common Crawl.

Les dades de Common Crawl provenen d’un bot que rastreja tot Internet.

Les organitzacions que volen utilitzar les dades les descarreguen i després es netegen dels llocs de correu brossa, etc.

El nom del bot Common Crawl és CCBot.

CCBot obeeix el protocol robots.txt, de manera que és possible bloquejar Common Crawl amb Robots.txt i evitar que les dades del vostre lloc web s’incorporin a un altre conjunt de dades.

Tanmateix, si el vostre lloc ja s’ha rastrejat, és probable que ja estigui inclòs en diversos conjunts de dades.

No obstant això, bloquejant Common Crawl, és possible desactivar el contingut del vostre lloc web perquè no s’inclogui en nous conjunts de dades procedents de dades més noves de Common Crawl.

La cadena CCBot User-Agent és:

CCBot/2.0

Afegiu el següent al fitxer robots.txt per bloquejar el bot Common Crawl:

User-agent: CCBot
Disallow: /

Una manera addicional de confirmar si un agent d’usuari CCBot és legítim és que rastreja des de les adreces IP d’Amazon AWS.

CCBot també obeeix les directives de metaetiquetes robots nofollow.

Feu servir això a la metaetiqueta de robots:

<meta name="robots" content="nofollow">

Impedir que la IA utilitzi el vostre contingut

Els motors de cerca permeten que els llocs web deixin de ser rastrejats. Common Crawl també permet desactivar-lo. Però actualment no hi ha manera d’eliminar el contingut del lloc web dels conjunts de dades existents.

A més, sembla que els investigadors no ofereixen als editors de llocs web una manera de desactivar el rastreig.

L’article, És just l’ús del contingut web de ChatGPT? explora el tema de si és fins i tot ètic utilitzar les dades del lloc web sense permís o una manera de desactivar-lo.

Molts editors poden apreciar si en un futur proper se’ls dóna més paraula sobre com s’utilitza el seu contingut, especialment productes d’IA com ChatGPT.

De moment es desconeix si això passarà.

Imatge destacada de Shutterstock/ViDI Studio





Source link

Com bloquejar ChatGPT perquè utilitzi el contingut del vostre lloc web