Trobeu recursos més grans que 15 MB per a un millor rastreig de Googlebot

Googlebot és un sistema de rastreig web automàtic i permanent que manté actualitzat l’índex de Google.

La pàgina web worldwidewebsize.com estima que l’índex de Google és de més de 62.000 milions de pàgines web.

L’índex de cerca de Google està “molt acabat 100.000.000 gigabytes en grandària.”

Googlebot i les variants (telèfons intel·ligents, notícies, imatges, etc.) tenen certes limitacions per a la freqüència de representació de JavaScript o la mida dels recursos.

Google utilitza restriccions de rastreig per protegir els seus propis recursos i sistemes de rastreig.

Per exemple, si un lloc web de notícies actualitza els articles recomanats cada 15 segons, Googlebot pot començar a ometre les seccions actualitzades amb freqüència, ja que no seran rellevants ni vàlides al cap de 15 segons.

Fa anys, Google va anunciar que no rastrejava ni utilitzava recursos de més de 15 MB.

El 28 de juny de 2022, Google va tornar a publicar aquesta entrada del blog indicant que no utilitza l’excés dels recursos després de 15 MB per rastrejar.

Per emfatitzar que rarament passa, Google va afirmar que “la mida mitjana d’un fitxer HTML és 500 vegades més petita” que 15 MB.

Captura de pantalla de l’autor, agost de 2022

A dalt, HTTPArchive.org mostra la mida mitjana del fitxer HTML d’escriptori i mòbil. Així, la majoria de llocs web no tenen el problema de la restricció de 15 MB per al rastreig.

Però, la web és un lloc gran i caòtic.

Comprendre la naturalesa del límit de rastreig de 15 MB i les maneres d’analitzar-lo és important per als SEO.

Una imatge, un vídeo o un error poden causar problemes de rastreig, i aquesta informació de SEO menys coneguda pot ajudar els projectes a protegir el seu valor de cerca orgànica.

El límit de rastreig de Googlebot de 15 MB només és per a documents HTML?

No.

El límit de rastreig de Googlebot de 15 MB és per a tots els documents indexables i rastrejables, inclosos Google Earth, Hancom Hanword (.hwp), text d’OpenOffice (.odt) i format de text enriquit (.rtf) o altres tipus de fitxer compatibles amb Googlebot.

Les mides d’imatge i vídeo es sumen amb un document HTML?

No, cada recurs s’avalua per separat pel límit de rastreig de 15 MB.

Si el document HTML és de 14,99 MB i la imatge destacada del document HTML torna a ser de 14,99 MB, tots dos seran rastrejats i utilitzats per Googlebot.

La mida del document HTML no es suma amb els recursos que estan enllaçats mitjançant etiquetes HTML.

El CSS, JS o l’URI de dades inlineat augmenta la mida del document HTML?

Sí, el CSS, el JS o l’URI de dades inlineats es compten i s’utilitzen a la mida del document HTML.

Així, si el document supera els 15 MB a causa dels recursos i ordres en línia, afectarà la capacitat de rastreig del document HTML específic.

Google deixa de rastrejar el recurs si és més gran que 15 MB?

No, els sistemes de rastreig de Google no deixen de rastrejar els recursos que superen el límit de 15 MB.

Continuen obtenint el fitxer i només utilitzen la part més petita que els 15 MB.

Per a una imatge de més de 15 MB, Googlebot pot fragmentar la imatge fins als 15 MB amb l’ajuda de “interval de contingut”.

El Content-Range és una capçalera de resposta que ajuda a Googlebot o altres rastrejadors i sol·licitants a realitzar sol·licituds parcials.

Com auditar la mida del recurs manualment?

Pots fer servir Eines per a desenvolupadors de Google Chrome per auditar la mida del recurs manualment.

Seguiu els passos següents a Google Chrome.

Obriu un document de pàgina web mitjançant Google Chrome.
Premeu F12.
Aneu a la pestanya Xarxa.
Actualitzeu la pàgina web.
Ordena els recursos segons la Cascada.
Comproveu el mida columna de la primera fila, que mostra la mida del document HTML.

A continuació, podeu veure un exemple d’un document HTML de la pàgina d’inici de searchenginejournal.com, que fa més de 77 KB.

resultats html de la pàgina d'inici de la revista del motor de cerca

Captura de pantalla de l’autor, agost de 2022

Com auditar la mida del recurs de manera automàtica i massiva?

Utilitzeu Python per auditar la mida del document HTML automàticament i de manera massiva. Advertools i Pandas són dues biblioteques Python útils automatitzar i escalar les tasques de SEO.

Seguiu les instruccions següents.

Importa Advertools i Pandas.
Recolliu tots els URL al mapa del lloc.
Rastrejar tots els URL del mapa del lloc.
Filtreu els URL amb la seva mida HTML.

import advertools as adv

import pandas as pd

df = adv.sitemap_to_df("https://www.holisticseo.digital/sitemap.xml")

adv.crawl(df["loc"], output_file="output.jl", custom_settings={"LOG_FILE":"output_1.log"})

df = pd.read_json("output.jl", lines=True)

df[["url", "size"]].sort_values(by="size", ascending=False)

El bloc de codi anterior extreu els URL del mapa del lloc i els rastreja.

L’última línia del codi només serveix per crear un marc de dades amb un ordre descendent en funció de les mides.

Imatge creada per l’autor, agost de 2022

Podeu veure les mides dels documents HTML com a dalt.

El document HTML més gran d’aquest exemple té uns 700 KB, que és una pàgina de categoria.

Per tant, aquest lloc web és segur per a restriccions de 15 MB. Però, podem comprovar més enllà d’això.

Com comprovar les mides dels recursos CSS i JS?

Puppeteer s’utilitza per comprovar la mida dels recursos CSS i JS.

Titellaire és un paquet NodeJS per controlar Google Chrome amb mode sense cap per a l’automatització del navegador i proves de llocs web.

La majoria dels professionals de SEO utilitzen API Lighthouse o Page Speed Insights per a les seves proves de rendiment. Però, amb l’ajuda de Puppeteer, es poden analitzar tots els aspectes tècnics i simulacions.

Seguiu el bloc de codi a continuació.

const puppeteer = require('puppeteer');

const XLSX = require("xlsx");

const path = require("path");




(async () => {

    const browser = await puppeteer.launch({

        headless: false

    });




    const page = await browser.newPage();

    await page.goto('https://www.holisticseo.digital');

    console.log('Page loaded');

    const perfEntries = JSON.parse(

        await page.evaluate(() => JSON.stringify(performance.getEntries()))

      );

     

      console.log(perfEntries);

     

      const workSheetColumnName = [

          "name",

          "transferSize",

          "encodedSize",

          "decodedSize"

          ]

          const urlObject = new URL("https://www.holisticseo.digital")

          const hostName = urlObject.hostname

          const domainName = hostName.replace("www.|.com", "");

          console.log(hostName)

          console.log(domainName)

          const workSheetName = "Users";

          const filePath = `./${domainName}`;

          const userList = perfEntries;

         

         

          const exportPerfToExcel = (userList) => {

              const data = perfEntries.map(url => {

                  return [url.name, url.transferSize, url.encodedBodySize, url. decodedBodySize];

              })

              const workBook = XLSX.utils.book_new();

              const workSheetData = [

                  workSheetColumnName,

                  ...data

              ]

              const workSheet = XLSX.utils.aoa_to_sheet(workSheetData);

              XLSX.utils.book_append_sheet(workBook, workSheet, workSheetName);

              XLSX.writeFile(workBook, path.resolve(filePath));

              return true;

         

          }

          exportPerfToExcel(userList)

       

          //browser.close();

   

})();

Si no coneixeu JavaScript o no heu acabat cap tipus de tutorial de Titellaire, potser us serà una mica més difícil entendre aquests blocs de codi. Però, en realitat, és senzill.

Bàsicament obre un URL, agafa tots els recursos i dóna els seus “transferSize”, “encodedSize” i “decodedSize”.

En aquest exemple, “decodedSize” és la mida en la qual hem de centrar-nos. A continuació, podeu veure el resultat en forma d’arxiu XLS.

Mides en bytes dels recursos del lloc web.

Si voleu tornar a automatitzar aquests processos per a cada URL, haureu d’utilitzar un bucle for a l’ordre “await.page.goto()”.

Segons les vostres preferències, podeu posar cada pàgina web en un full de treball diferent o adjuntar-lo al mateix full de treball afegint-lo.

Conclusió

La restricció de rastreig de 15 MB de Googlebot és una possibilitat rara que bloquejarà els vostres processos tècnics de SEO de moment, però HTTPArchive.org mostra que la mitjana de vídeo, imatge i JavaScript les mides han augmentat en els últims anys.

La mida mitjana de la imatge a l’escriptori ha superat 1 MB.