Per què Google Gemini va “filtrar” dades de xat?


Només van trigar vint-i-quatre hores després que el Gemini de Google es va publicar públicament perquè algú s’adonés que els xats es mostraven públicament als resultats de la cerca de Google. Google va respondre ràpidament al que semblava una filtració. El motiu pel qual va passar això és força sorprenent i no tan sinistre com sembla.

@shemiadhikarath va piular:

“Unes hores després del llançament de @Google Gemini, motors de cerca com Bing han indexat les converses públiques de Gemini”.

Van publicar una captura de pantalla de la cerca al lloc de gemini.google.com/share/

Però si mireu la captura de pantalla, veureu que hi ha un missatge que diu: “Ens agradaria mostrar-vos una descripció aquí, però el lloc no ens ho permet”.

A primera hora del matí del dimarts 13 de febrer, els xats de Google Gemini van començar a sortir dels resultats de la cerca de Google, Google només mostrava tres resultats de cerca. A la tarda, el nombre de xats de Gemini filtrats que es mostraven als resultats de la cerca s’havia reduït a un sol resultat de la cerca.

Captura de pantalla dels resultats de la cerca de Google per a pàgines indexades des del subdomini de xat de Google Gemini

Com es van crear les pàgines de xat de Gemini?

Gemini ofereix una manera de crear un enllaç a una versió visible públicament d’un xat privat.

Google no crea pàgines web automàticament a partir de xats privats. Els usuaris creen les pàgines de xat mitjançant un enllaç a la part inferior de cada xat.

Captura de pantalla de com crear una pàgina de xat compartida

Captura de pantalla de com crear una pàgina web pública d'un Google Gemini Chat privat

Per què es van indexar les pàgines de xat de Gemini?

La raó òbvia per la qual es van rastrejar i indexar les pàgines de xat és perquè Google es va oblidar de posar un robots.txt a l’arrel del subdomini Gemini (gemini.google.com).

Un fitxer robots.txt és un document per controlar l’activitat del rastrejador als llocs web. Un editor pot bloquejar rastrejadors específics mitjançant ordres estandarditzades al protocol Robots.txt.

Vaig comprovar el fitxer robots.txt a les 4:19 del matí del 13 de febrer i vaig veure que n’hi havia un:

Fitxer robots.txt de Google Gemini

A continuació, vaig comprovar l’Arxiu d’Internet per veure quant de temps porta el fitxer robots.txt i vaig descobrir que hi era almenys des del 8 de febrer, el dia que es van anunciar les aplicacions Gemini.

Captura de pantalla d’Internet Archive

Captura de pantalla dels robots Google Gemini.  txt d'Internet Archive que mostra que era allà el 8 de febrer de 2024.

Això vol dir que la raó òbvia per la qual es van rastrejar les pàgines de xat no és la raó correcta, és només la raó més òbvia.

Tot i que el subdomini de Google Gemini tenia un robots.txt que bloquejava els rastrejadors web tant de Bing com de Google, com van acabar rastrejant aquestes pàgines i indexant-les?

Pàgines de xat privades de dues maneres descobertes i indexades

  • Pot ser que hi hagi un enllaç públic en algun lloc.
  • Menys probable però potser possible és que s’hagin descobert a través de l’historial de navegació enllaçat des de les galetes.

És més probable que hi hagi enllaços públics.

Vaig preguntar a Bill Hartzer (@bhartzer) sobre això i va descobrir a enllaç públic per a una de les pàgines indexades:

Enllaç públic a una pàgina de xat compartida de Google Gemini

Així que ara sabem que és molt probable que un enllaç públic faci que aquestes pàgines de Gemini Chat es rastregessin i indexin.

Bill Hartzer va oferir aquesta observació:

“Tot i que l’URL de Gemini s’està bloquejant al fitxer robots.txt, hi ha un enllaç a l’URL de Gemini en un comentari del bloc, de manera que l’URL de Gemini s’indexa.

Això només demostra que Google encara indexarà els URL que no es puguin rastrejar al fitxer robots.txt.

Si Google realment volgués assegurar-se que l’URL de Gemini no estigui indexat, PERMETRIA rastrejar el fitxer robots.txt i afegiria una metaetiqueta noindex a les pàgines. Potser Google hauria de seguir el seu propi consell aquí?”

Per què les pàgines de xat van començar a abandonar els resultats de la cerca?

Però si hi ha un enllaç públic, per què Google va començar a deixar caure les pàgines de xat? Google ha creat una regla interna perquè el rastrejador de cerca exclogui pàgines web de la carpeta /share/ de l’índex de cerca, encara que estiguin enllaçades públicament?

Informació sobre com Bing i el contingut de l’índex de cerca de Google

Ara aquí teniu la part realment interessant per a tots els geeks de cerca interessats en com Google i Bing indexen el contingut.

L’índex de cerca de Microsoft Bing va respondre al contingut de Gemini de manera diferent de com ho va fer la cerca de Google. Tot i que Google encara mostrava tres resultats de cerca a primera hora del matí del 13 de febrer, Bing només mostrava un resultat del subdomini. Hi havia una qualitat aparentment aleatòria en el que s’indexava i en quant.

Per què es van filtrar les pàgines de xat de Gemini?

Aquests són els fets coneguts:

  • Google tenia un robots.txt en funcionament des del 8 de febrer.
  • Tant Google com Bing van indexar pàgines del subdomini gemini.google.com.
  • És possible que tant Google com Bing hagin descobert enllaços als xats i, posteriorment, els hagin indexat.
  • Els motors de cerca van indexar el contingut independentment del robots.txt i després van començar a abocar-los.

Això ens porta de nou a la pregunta de per què aquestes pàgines van començar a abandonar els resultats de la cerca tant de Google com de Bing. Suposo que les pàgines de xat de Google Gemini són pàgines web de baixa qualitat que no val la pena mostrar-les per a les cerques essencialment llargues (site:gemini.google.com/share/). Realment no hi ha cap motiu útil per mostrar aquestes pàgines als resultats de la cerca.

El contingut bloquejat per Robots.txt encara es pot descobrir, rastrejar i acabar a l’índex de cerca i si les pàgines són útils també es poden classificar, tret que no siguin útils. Crec que aquest pot ser el cas.





Source link

Per què Google Gemini va “filtrar” dades de xat?