Percentatge de Google On que representa contingut duplicat


John Mueller de Google va respondre recentment a una pregunta sobre si hi ha un llindar percentual de duplicació de contingut que Google utilitza per identificar i filtrar contingut duplicat.

Quin percentatge equival a contingut duplicat?

La conversa va començar realment a Facebook quan Duane Forrester (@DuaneForrester) va preguntar si algú sabia si algun motor de cerca ha publicat un percentatge de superposició de contingut en què el contingut es considera duplicat.

Bill Hartzer (bhartzer) va recórrer a Twitter per preguntar a John Mueller i va rebre una resposta gairebé immediata.

Bill va tuitejar:

“Hola @johnmu, hi ha un percentatge que representi contingut duplicat?

Per exemple, hauríem d’intentar assegurar-nos que les pàgines siguin com a mínim un 72,6 per cent úniques que altres pàgines del nostre lloc?

Google fins i tot ho mesura?”

John Mueller de Google va respondre:

Com detecta Google contingut duplicat?

La metodologia de Google per detectar contingut duplicat s’ha mantingut notablement similar durant molts anys.

L’any 2013, Matt Cutts (@mattcutts), un enginyer de programari en aquell moment a Google va publicar un vídeo oficial de Google que descriu com Google detecta contingut duplicat.

Va començar el vídeo afirmant que una gran part del contingut d’Internet està duplicat i que és normal que passi.

“És important adonar-se que si mireu contingut a la web, una mica com el 25% o el 30% de tot el contingut de la web és contingut duplicat.

… La gent citarà un paràgraf d’un bloc i després enllaçarà amb el bloc, aquest tipus de coses”.

Va continuar dient que com que gran part del contingut duplicat és innocent i sense intenció de correu brossa, Google no penalitzarà aquest contingut.

Penalitzar les pàgines web per tenir algun contingut duplicat, va dir, tindria un efecte negatiu en la qualitat dels resultats de la cerca.

El que fa Google quan troba contingut duplicat és:

“…intenta agrupar-ho tot i tractar-ho com si només fos un contingut.”

Matt va continuar:

“Només es tracta com una cosa que hem d’agrupar adequadament. I hem d’assegurar-nos que es classifica correctament”.

Va explicar que després Google tria quina pàgina mostra als resultats de la cerca i que filtra les pàgines duplicades per tal de millorar l’experiència de l’usuari.

Com gestiona Google el contingut duplicat: versió 2020

Avanceu ràpidament fins al 2020 i Google va publicar un episodi de podcast Search Off the Record on es descriu el mateix tema en un llenguatge molt similar.

Aquí hi ha secció rellevant d’aquest podcast des dels minuts 06:44 de l’episodi:

“Gary Illyes: I ara hem acabat amb el següent pas, que en realitat és la canonització i la detecció d’enganys.

Martin Splitt: No és el mateix, una mena de detecció i canonització d’enganys?

Gary Illyes: [00:06:56] Bé, no ho és, oi? Perquè primer has de detectar els enganys, bàsicament agrupar-los, dient que totes aquestes pàgines són enganys entre si,
i després, bàsicament, heu de trobar una pàgina líder per a tots ells.

… I això és la canonització.

Per tant, teniu la duplicació, que és tot el terme, però dins d’això teniu la construcció de clúster, com la construcció de clúster dupe, i la canonització. “

A continuació, Gary explica en termes tècnics com ho fan exactament. Bàsicament, Google no mira exactament els percentatges, sinó que compara les sumes de control.

Es pot dir que una suma de control és una representació del contingut com una sèrie de números o lletres. Així, si el contingut es duplica, la seqüència de números de suma de comprovació serà similar.

Així ho va explicar Gary:

“Per tant, per a la detecció d’enganys el que fem és, bé, intentem detectar-los.

I com ho fem és potser com ho fa la majoria de la gent d’altres motors de cerca, que és, bàsicament, reduir el contingut a un hash o suma de comprovació i després comparar les sumes de control”.

Gary va dir que Google ho fa així perquè és més fàcil (i, òbviament, precís).

Google detecta contingut duplicat amb sumes de control

Per tant, quan es parla de contingut duplicat, probablement no es tracta d’un llindar de percentatge, on hi ha un nombre en què es diu que el contingut és duplicat.

Més aviat, es detecta contingut duplicat amb una representació del contingut en forma de suma de comprovació i després es comparen aquestes sumes de comprovació.

Un punt addicional és que sembla que hi ha una distinció entre quan part del contingut està duplicat i tot el contingut està duplicat.


Imatge destacada de Shutterstock/Ezume Images





Source link

Percentatge de Google On que representa contingut duplicat
A %d bloguers els agrada això: