La definizione di Crawl Budget, ad anni dall’adozione del termine, è ancora un mistero. Lo stesso Google in un articolo del 2017 sosteneva che “non abbiamo un singolo termine che descriva tutto ciò che si intende con “crawl budget”.

Credo che la definizione più vicina al concetto di Crawl Budget sia la quantità di risorse che un motore di ricerca mette a disposizione per la scansione un sito Web.

Cosa si intende per “quantità di risorse” e di quali risorse stiamo parlando?

  • Tempo
  • Banda
  • Hardware

Quindi risorse che il motore mette a disposizione per compiere il suo sforzo “disumano”, ovvero la scansione di tutto il Web, deve risparmiare il più possibile. Per questo motivo ottimizza il suo lavoro.

Per avere una panoramica costantemente aggiornata di milioni e milioni di pagine Web, il motore di ricerca deve saper dosare le proprie forze, allocando la giusta quantità di risorse. Per questo motivo la crawl budget è diventata di primaria importanza sia per i motori di ricerca e sia per i proprietari dei siti, obbligati ad oliare tutti gli ingranaggi e a far muovere la macchina in fluidità.

Il crawling: cosa è e perché è così importante

Il crawling è il primo dei processi di lavoro di un motore di ricerca (scansione, indicizzazione e ranking)

Grazie al crawler il motore di ricerca

  • scopre e analizza tutte le risorse accessibili di un sito Web
  • verifica le nuove pagine o gli aggiornamenti di quelle già presenti
  • crea una mappa dei contenuti e delle risorse di interi siti Web.

Come funziona nel dettaglio il crawling di un sito Web?

Il crawling di Google segue una serie di semplici passaggi, ricorsivi, per ciascun sito. La figura mostra la scansione di Google, che inizia con l’elaborazione del file robots.txt, in cui sono presenti delle direttive da seguire. Le direttive presenti forniscono dei suggerimenti al crawler che inizia la sua marcia ed agevolato da una sitemap, inizia il proprio percorso di scansione e procede all’analisi di tutte le nuove pagine non ancora visionate. Il crawler confronta le URL con quelle presenti nel proprio “backup” e prosegue nella propria attività.

Crawl Budget

Come e dove monitorare il crawling

Google Webmaster tools offre una panoramica dell’attività del suo Googlebot, con statistiche facilmente visualizzabili nell’apposita sezione “statistiche di scansione” della vecchia visualizzazione di search console.

Qua è possibile reperire le seguenti informazioni:

  • Pagine sottoposte a scansione giornaliera
  • Kilobyte scaricati ogni giorno
  • Tempo trascorso per il download di una pagina (in millisecondi)

Crawl Budget

Dall’immagine, in cui si evince un’ottimizzazione delle performance di un sito Web, è possibile constatare che le pagine sottoposte a scansione giornaliera sono inversamente proporzionali al tempo di download della pagina. Minore sarà il tempo di download e maggiore sarà la quantità di pagine sottoposte a scansione. Logicamente, infatti, si comprende la necessità del motore di ricerca di ottimizzare le proprie risorse per questa operazione. Se la velocità del sito Web sarà ottimizzata, il crawler (nel rispetto degli altri siti Web e della navigazione degli utenti) potrà gestire più pagine durante le proprie operazioni di scansione.

La velocità prima di tutto

Con la rivoluzione mobile (e il mobile first indexingla velocità ricopre un ruolo di primo piano tra le variabili che incidono sulla scansione di un sito Web. Essendo sempre più numerosi gli accessi da mobile (secondo alcune ricerche superiori al 65% del totale) e conseguentemente avendo la necessità di visualizzare in mobilità i contenuti del Web, con connessioni limitate e normalmente poco performanti, si richiede che i siti Web siano leggeri, veloci e scattanti. Allo stesso tempo, il crawler, deve garantire che il sito Web non sia sotto un eccessivo carico e non deve gravare sulla navigazione tradizionale degli utenti. Perciò è importante che il sito Web possa garantire le normali operazioni del crawler e allo stesso tempo permettere una navigazione fluida e veloce degli utenti. I Webmaster possono fare affidamento sui numerosi tester ufficiali e non, come Google PagespeedGtmetrixWebpagetest o il recentissimo Lighthouse di Google, per comprendere lo stato dell’arte del proprio sito e migliorare le loro performance.

Tutti i tool creano un report con i punti da poter implementare per ottimizzare la velocità delle pagine, ed è possibile eseguire centinaia di analisi giornaliere, senza alcuna limitazione. La maggiore pignoleria di questi tool (in particolare di Lighthouse, su cui è davvero difficile portare a casa dei buoni risultati) dimostra, insieme alle news ufficiali sullo speed update, l’attaccamento dei motori di ricerca alle performance.

Le variabili del crawl budget

Abbiamo avuto modo di analizzare una delle variabili più importanti, ovvero la velocità. Le variabili legate al crawling di un sito Web, però, sono anche molte altre. Uno dei primi aspetti da tenere presente è il trust di un sito Web: quale è il suo trust agli occhi dei motori di ricerca?

Maggiore è il trust di un sito Web e maggiore sarà la propensione del motore di ricerca a inviare il proprio spider alla ricerca di nuovi contenuti. Allo stesso modo la popolarità delle pagine e la qualità dei contenuti incidono notevolmente sull’interesse dei motori. Parallelamente va tenuto in considerazione lo stato di salute del sito. Se il crawler per esempio incontrerà errori 4xx e 5xx, rendendo impossibile il recupero delle pagine, tenterà nella sessione successiva (e così via ricorsivamente) di recuperare nuovamente quelle pagine, sprecando risorse per ogni tentativo.

Il tempo di risposta del server, poi, la pesantezza delle pagine, l’ottimizzazione del codice e delle immagini, e tutte le variabili che influiscono nella velocità di caricamento di una pagina, come abbiamo visto nel precedente paragrafo, impattano direttamente sull’attività del crawler.

Cosa è possibile fare per ottimizzare la crawl budget

Per migliorare e ottimizzare la crawl budget occorrerà quindi evitare:

  • Robots.txt in 404
  • Sitemap.xml e sitemap.html non aggiornati
  • Errori 50x / 40x / soft 404
  • I reindirizzamenti a catena
  • Errori nell’uso del canonical
  • Contenuti duplicati (piè di pagina) / quasi duplicati / HTTP vs HTTPS
  • Tempi di risposta troppo lunghi
  • Pesantezza delle pagine
  • Errori dell’AMP
  • Cattivi collegamenti interni e uso inappropriato del rel=nofollow
  • Utilizzare solo JS senza altre alternative

Favorendo queste pratiche:

  • Creare contenuti di qualità e aggiornare quelli presenti con frequenza, in particolar modo le money pages
  • Correggere tutti gli errori 4xx e 5xx, limitare il più possibile i redirect 3xx
  • Ottimizzare le performance del server e del sito Web (quali sono i migliori plugin wordpress per l’ottimizzazione della velocità?)
  • Ottimizzare le risorse presenti (es. pdf, immagini ecc…)
  • Ottimizzare la linking interna, per valorizzare le connessioni tra i contenuti
  • Ridurre i contenuti scarsi e duplicati
  • Creazione e ottimizzazione del robots.txt
  • Creazione e ottimizzazione della sitemap
  • Gestione ed ottimizzazione del canonical
  • Gestione ed ottimizzazione della profondità delle risorse
  • Analisi dei log del server per capire dove stia effettivamente lavorando il crawler
  • Usare il tag “nofollow” sui link che non sono importanti per il SEO, così il crawler non segue questi link e non spreca la crawl budget.
  • Usare il tag “noindex” su pagine che non devono essere indicizzate dai motori di ricerca, come ad esempio pagine di login o di registrazione.
  • Usare l’attributo “hreflang” per indicare ai motori di ricerca quali versioni di una pagina sono destinate a quale lingua o area geografica. In questo modo, il crawler capisce quali versioni di una pagina sono le più importanti e dedica di conseguenza più crawl budget a quelle.
  • Usare il sitemap per segnalare ai motori di ricerca quali sono le pagine più importanti del sito e qual è la loro frequenza di aggiornamento.
  • Usare il tag “prerender” per indicare ai motori di ricerca quali pagine hanno un contenuto dinamico e devono essere pre-renderizzate per essere visualizzate correttamente. In questo modo, il crawler può dedicare più crawl budget alle pagine che richiedono più tempo per essere elaborate.
  • Usare il file “robots.txt” per escludere le pagine che non devono essere incluse nell’indicizzazione dei motori di ricerca, come ad esempio pagine di test o di sviluppo.
  • Usare la compressione per ridurre la dimensione delle pagine e rendere più efficiente il crawling del sito da parte dei motori di ricerca.
  • Usare CDN (Content Delivery Network) per rendere il sito più veloce e diminuire il carico sui server.

L’argomento potrebbe essere approfondito con test seo oggettivi, se sei interessato commenta che lo faremo volentieri.

Buon crawling 🙂

Open chat
Ciao, come possiamo aiutarti ?