PianoWeb, la tua Agenzia di Web Marketing.
Operativi a Grosseto, Siena, Arezzo, Firenze, Prato, Livorno, Pisa, Pistoia e Lucca.
Contattaci senza impegno
Saremmo lieti di fissare un appuntamento per conoscere le tue esigenze e trovare la miglior soluzione per migliorare il tuo Business.

+39 347 14 39 263

[email protected]

Via Tripoli 41 58100 Grosseto

Via Tripoli 41 58100 Grosseto

Top

Crawl Budget, cosa è e come gestirla al meglio

PianoWeb SEO e Marketing / SEO & Posizionamento motori di ricerca  / Crawl Budget, cosa è e come gestirla al meglio

Crawl Budget, cosa è e come gestirla al meglio

La definizione di Crawl Budget, ad anni dall’adozione del termine, è ancora un mistero. Lo stesso Google in un articolo del 2017 sosteneva che “non abbiamo un singolo termine che descriva tutto ciò che si intende con “crawl budget”.

Credo che la definizione più vicina al concetto di Crawl Budget sia la quantità di risorse che un motore di ricerca mette a disposizione per la scansione un sito Web.

Cosa si intende per “quantità di risorse” e di quali risorse stiamo parlando?

  • Tempo
  • Banda
  • Hardware

Quindi risorse che il motore mette a disposizione per compiere il suo sforzo “disumano”, ovvero la scansione di tutto il Web, deve risparmiare il più possibile. Per questo motivo ottimizza il suo lavoro.

Per avere una panoramica costantemente aggiornata di milioni e milioni di pagine Web, il motore di ricerca deve saper dosare le proprie forze, allocando la giusta quantità di risorse. Per questo motivo la crawl budget è diventata di primaria importanza sia per i motori di ricerca e sia per i proprietari dei siti, obbligati ad oliare tutti gli ingranaggi e a far muovere la macchina in fluidità.

Il crawling: cosa è e perché è così importante

Il crawling è il primo dei processi di lavoro di un motore di ricerca (scansione, indicizzazione e ranking)

Grazie al crawler il motore di ricerca

  • scopre e analizza tutte le risorse accessibili di un sito Web
  • verifica le nuove pagine o gli aggiornamenti di quelle già presenti
  • crea una mappa dei contenuti e delle risorse di interi siti Web.

Come funziona nel dettaglio il crawling di un sito Web?

Il crawling di Google segue una serie di semplici passaggi, ricorsivi, per ciascun sito. La figura mostra la scansione di Google, che inizia con l’elaborazione del file robots.txt, in cui sono presenti delle direttive da seguire. Le direttive presenti forniscono dei suggerimenti al crawler che inizia la sua marcia ed agevolato da una sitemap, inizia il proprio percorso di scansione e procede all’analisi di tutte le nuove pagine non ancora visionate. Il crawler confronta le URL con quelle presenti nel proprio “backup” e prosegue nella propria attività.

Crawl Budget

Come e dove monitorare il crawling

Google Webmaster tools offre una panoramica dell’attività del suo Googlebot, con statistiche facilmente visualizzabili nell’apposita sezione “statistiche di scansione” della vecchia visualizzazione di search console.

Qua è possibile reperire le seguenti informazioni:

  • Pagine sottoposte a scansione giornaliera
  • Kilobyte scaricati ogni giorno
  • Tempo trascorso per il download di una pagina (in millisecondi)

Crawl Budget

Dall’immagine, in cui si evince un’ottimizzazione delle performance di un sito Web, è possibile constatare che le pagine sottoposte a scansione giornaliera sono inversamente proporzionali al tempo di download della pagina. Minore sarà il tempo di download e maggiore sarà la quantità di pagine sottoposte a scansione. Logicamente, infatti, si comprende la necessità del motore di ricerca di ottimizzare le proprie risorse per questa operazione. Se la velocità del sito Web sarà ottimizzata, il crawler (nel rispetto degli altri siti Web e della navigazione degli utenti) potrà gestire più pagine durante le proprie operazioni di scansione.

La velocità prima di tutto

Con la rivoluzione mobile (e il mobile first indexingla velocità ricopre un ruolo di primo piano tra le variabili che incidono sulla scansione di un sito Web. Essendo sempre più numerosi gli accessi da mobile (secondo alcune ricerche superiori al 65% del totale) e conseguentemente avendo la necessità di visualizzare in mobilità i contenuti del Web, con connessioni limitate e normalmente poco performanti, si richiede che i siti Web siano leggeri, veloci e scattanti. Allo stesso tempo, il crawler, deve garantire che il sito Web non sia sotto un eccessivo carico e non deve gravare sulla navigazione tradizionale degli utenti. Perciò è importante che il sito Web possa garantire le normali operazioni del crawler e allo stesso tempo permettere una navigazione fluida e veloce degli utenti. I Webmaster possono fare affidamento sui numerosi tester ufficiali e non, come Google PagespeedGtmetrixWebpagetest o il recentissimo Lighthouse di Google, per comprendere lo stato dell’arte del proprio sito e migliorare le loro performance.

Tutti i tool creano un report con i punti da poter implementare per ottimizzare la velocità delle pagine, ed è possibile eseguire centinaia di analisi giornaliere, senza alcuna limitazione. La maggiore pignoleria di questi tool (in particolare di Lighthouse, su cui è davvero difficile portare a casa dei buoni risultati) dimostra, insieme alle news ufficiali sullo speed update, l’attaccamento dei motori di ricerca alle performance.

Le variabili del crawl budget

Abbiamo avuto modo di analizzare una delle variabili più importanti, ovvero la velocità. Le variabili legate al crawling di un sito Web, però, sono anche molte altre. Uno dei primi aspetti da tenere presente è il trust di un sito Web: quale è il suo trust agli occhi dei motori di ricerca?

Maggiore è il trust di un sito Web e maggiore sarà la propensione del motore di ricerca a inviare il proprio spider alla ricerca di nuovi contenuti. Allo stesso modo la popolarità delle pagine e la qualità dei contenuti incidono notevolmente sull’interesse dei motori. Parallelamente va tenuto in considerazione lo stato di salute del sito. Se il crawler per esempio incontrerà errori 4xx e 5xx, rendendo impossibile il recupero delle pagine, tenterà nella sessione successiva (e così via ricorsivamente) di recuperare nuovamente quelle pagine, sprecando risorse per ogni tentativo.

Il tempo di risposta del server, poi, la pesantezza delle pagine, l’ottimizzazione del codice e delle immagini, e tutte le variabili che influiscono nella velocità di caricamento di una pagina, come abbiamo visto nel precedente paragrafo, impattano direttamente sull’attività del crawler.

Cosa è possibile fare per ottimizzare la crawl budget

Per migliorare e ottimizzare la crawl budget occorrerà quindi evitare:

  • Robots.txt in 404
  • Sitemap.xml e sitemap.html non aggiornati
  • Errori 50x / 40x / soft 404
  • I reindirizzamenti a catena
  • Errori nell’uso del canonical
  • Contenuti duplicati (piè di pagina) / quasi duplicati / HTTP vs HTTPS
  • Tempi di risposta troppo lunghi
  • Pesantezza delle pagine
  • Errori dell’AMP
  • Cattivi collegamenti interni e uso inappropriato del rel=nofollow
  • Utilizzare solo JS senza altre alternative

Favorendo queste pratiche:

  • Creare contenuti di qualità e aggiornare quelli presenti con frequenza, in particolar modo le money pages
  • Correggere tutti gli errori 4xx e 5xx, limitare il più possibile i redirect 3xx
  • Ottimizzare le performance del server e del sito Web (quali sono i migliori plugin wordpress per l’ottimizzazione della velocità?)
  • Ottimizzare le risorse presenti (es. pdf, immagini ecc…)
  • Ottimizzare la linking interna, per valorizzare le connessioni tra i contenuti
  • Ridurre i contenuti scarsi e duplicati
  • Creazione e ottimizzazione del robots.txt
  • Creazione e ottimizzazione della sitemap
  • Gestione ed ottimizzazione del canonical
  • Gestione ed ottimizzazione della profondità delle risorse
  • Analisi dei log del server per capire dove stia effettivamente lavorando il crawler

L’argomento potrebbe essere approfondito con test seo oggettivi, se sei interessato commenta che lo faremo volentieri.

Buon crawling 🙂

Share

Esperto di comunicazione e marketing, con laurea magistrale in "Teoria della comunicazione e tecniche dei liguaggi persuasivi" e un Master in Comunicazione d'impresa, ho fondato nel 2013 PianoWeb, agenzia di Web marketing & SEO dopo circa 10 anni di esperienza in campo Web. Amo la musica, investire in persone e nuovi progetti. Suono il pianoforte.

3 Comments
  • Cristiano
    Luglio 24, 2021 at 5:07 pm

    Grazie per questo articolo, e per le dritte che esso contiene! Buon lavoro ed alla prossima!

  • Marta
    Luglio 26, 2021 at 9:28 am

    Interessante articolo, che mi ha permesso di scoprire le varie funzionalità! Buona estate!

  • Marco
    Luglio 26, 2021 at 4:09 pm

    Grazie mille per articolo! 🙂

Post a Comment

})(jQuery)