Crawl Budget: Cos’è e come ottimizzarlo

La pazienza di tutti noi ha un limite, e Google non fa eccezioni: oggi parliamo del Crawl Budget, cioè del numero di URL in un sito che Googlebot ispeziona in un determinato lasso di tempo prima di perdere la sua, di pazienza. 

Il Crawl Budget è un concetto estremamente importante per chi si occupa di SEO, perché dà un’idea dello stato di salute di un sito e della considerazione di cui gode agli occhi dei motori di ricerca.

Più i motori di ricerca lo considerano, più possibilità di vederlo avranno gli utenti: ecco perché la Crawl Budget Optimization (CBO) è così rilevante.

Crawl Budget: Cos’è

Esistono decine di formule diverse per calcolare il Crawl Budget di un sito. In precedenza era molto più semplice calcolarlo, perché la Google Search Console conteneva già tutte le informazioni necessarie.

Oggi puoi sempre utilizzare la GSC per avere un’idea di massima del “budget” a disposizione dei bot quando esaminano le tue pagine. Per farlo, vai su Impostazioni > Statistiche di scansione. Se sei un proprietario verificato, troverai in cima alle Statistiche di scansione tre rapporti molto interessanti:

  • Richieste di scansione totali: Indica il numero totale di richieste di scansione negli ultimi 90 giorni, comprese anche richieste plurime dello stesso URL.
  • Dimensioni totali download: Mostra quanti byte pesa l’insieme di tutte le risorse e i file scaricati negli ultimi 90 giorni, includendo il codice HTML, le immagini, gli script e i file CSS.
  • Tempo medio di risposta: Indica in quanti millisecondi la pagina risponde a una richiesta di scansione da parte di Googlebot.

Da bravi gestori di progetti online, il nostro obiettivo è quello di aumentare il primo punto cercando di diminuire il più possibile gli altri due. In altre parole, dovremmo dare a Google dei contenuti facili da “digerire” e rispondere sempre pronti alle sue richieste di scansione.

Come calcolare il Crawl Budget

Una volta esaminati i dati delle Statistiche di scansione, puoi calcolare un parametro che ti aiuta a comprendere il Crawl Budget dedicato da Google alle tue pagine. Inizia prendendo la Sitemap.xml del tuo sito e annotandoti il numero di URL segnati al suo interno.

Puoi trovare anche questo dato nella Google Search Console, andando su Indice > Sitemap. Il numero che trovi sotto “URL rilevati” indica quanti URL hai messo a disposizione di Google per la scansione.

Poi, recupera i dati sulle Richieste di scansione totali e dividile per 90, in modo da ottenere quante richieste di scansione vengono effettuate da Google in un giorno.

Dividi il numero di URL rilevati nella Sitemap per il dato che hai ottenuto in precedenza. Se il tuo risultato è superiore a 8, significa che il tuo sito ha un numero di pagine almeno otto volte superiore a quelle che Google riesce a vedere.

Cosa significa questo dato? In sostanza, è come se Google riuscisse a digerire soltanto un ottavo delle pagine che gli mostri. In questo caso, il tuo sito ha dei problemi di Crawl Budget, perché Googlebot si concentra troppo su un numero esiguo di pagine e non riesce a vedere tutto il buffet di URL che gli hai preparato.

Se il risultato è inferiore a 3, puoi stare più tranquillo: il tuo sito è ben visibile ai bot di Google, che non perdono tempo e risorse su un numero ristretto di pagine.

Al di là di numeri e statistiche, il messaggio importante che lo stesso colosso di Mountain View vuole far passare è che le sue risorse sono limitate: secondo le linee guida per sviluppatori, il Crawl Budget è semplicemente l’insieme di URL che Googlebot può e vuole sottoporre a scansione.

La Crawl Budget Optimization

Come fare quindi a mettere Googlebot nelle migliori condizioni per leggere il nostro sito? L’insieme di attività volte a migliorare il Crawl Budget prende il nome di CBO, o Crawl Budget Optimization. All’interno di questa sigla ricadono delle operazioni più o meno complesse, che hanno in ogni caso un solo obiettivo, e cioè fare in modo che Google abbia più “voglia” di sottoporre le nostre pagine a scansione.

crawl budget optimization

Punto primo della CBO: Ridurre i contenuti scarni

Il thin content è un vero e proprio flagello per l’indicizzazione del tuo sito. Quando parliamo di contenuti scarni, ci rivolgiamo a:

  • Contenuti duplicati da altri presenti nel sito;
  • Post scarsi da un punto di vista quantitativo e qualitativo, ad esempio pagine con poche centinaia di caratteri;
  • Contenuti generati automaticamente, ad esempio traducendo un post pubblicato in un’altra lingua o copiando e incollando intere schede prodotto;
  • Pagine nate solo per un’affiliazione economica, senza contenuti di rilievo;
  • Contenuti rubati da altri siti Web, sia manualmente che attraverso attività di scraping;
  • Doorway pages, cioè pagine piene zeppe di keyword e contenuti manipolativi, sulle quali gli utenti atterrano prima di essere reindirizzati a un contenuto “vero”.

Il thin content è una delle prime cose da sistemare, durante la Crawl Budget Optimization. Il motivo è molto semplice: per scansionare una pagina scarna, Googlebot impiega prezioso tempo e risorse, che potrebbe invece direzionare su contenuti molto più rilevanti ai nostri fini.

Oltretutto, se mostriamo a Google un gran numero di pagine di questo tipo, potremmo subire una penalizzazione manuale da parte dei quality rater, dunque un grande calo di traffico organico e una bella seccatura da risolvere.

Non pensare che il problema dei contenuti scarni riguardi solo chi vuole vincere facile scopiazzando pagine di qua e di là: da un lato, la duplicazione dei contenuti è tipica dei siti con molte pagine (soprattutto degli e-commerce), dall’altro il tuo sito deve per forza ospitare alcune pagine quantitativamente scarse…

Quali? Ad esempio, la pagina contenente la Cookie Policy, o eventuali informazioni di servizio. Queste pagine potrebbero rappresentare uno spreco di Crawl Budget, anche se è impossibile che tu venga penalizzato per averle compilate come prevede la legge.

Come ottimizzare il Crawl Budget quando hai molti contenuti scarni

Per risolvere lo spreco di Crawl Budget da contenuti scarni, passa in rassegna il tuo sito con Screaming Frog. Verifica che non ci siano molte pagine che parlano della stessa cosa. Se trovi contenuti duplicati o molto simili, fai un redirect 301 alla pagina che credi possa rispondere meglio alle intenzioni degli utenti.

Per quanto riguarda i post troppo corti, hai a disposizione alcune alternative:

  • Screaming Frog segnala anche il numero di pagine con meno di 200 parole nel codice HTML.
  • Se invece hai una licenza su Semrush, puoi inserire il tuo sito tra i Progetti e utilizzare il Content Analyzer, dentro Organic Traffic Insights.
  • Infine, se il tuo sito è su WordPress, puoi usare un plugin per conteggiare le parole. Sortable Word Count Reloaded può fare al caso tuo: aggiunge nella tabella che trovi su Articoli anche una colonna ordinabile con il numero di parole per articolo.

Se hai notato un grande numero di pagine con contenuti troppo risicati, valuta cosa farci prendendo in mano il tuo piano editoriale.

Pensi che queste pagine abbiano delle potenzialità? Se sì, sistemale. Allunga il loro contenuto, inserisci delle immagini ottimizzate SEO o delle infografiche che diano maggiore contesto a quello che dici e dai un’altra chance al loro posizionamento.

Se invece le pagine sono senza speranza, eliminale e fai un redirect 301 a una risorsa pertinente e utile per i tuoi utenti. In questo modo, anche Googlebot sarà reindirizzato verso una pagina più interessante, e non sprecherà Crawl Budget stando dietro ad articoli da 200 parole.

E per la Cookie Policy o le informazioni di servizio? In questo caso, non modificare i loro contenuti: usa il file robots.txt per metterle in noindex, come suggerito in questo articolo.

Punto secondo della CBO: Migliorare la struttura dei link

La struttura dei link interni è un altro aspetto utile non solo a migliorare il Crawl Budget dedicato al tuo sito, ma ad aumentare tutta la sua visibilità agli occhi di Google. I bot usano questi link per muoversi da una pagina all’altra: se un post riceve molti link interni, viene trattato con maggiore attenzione.

Le pagine orfane sono invece pagine che non hanno ricevuto neanche un link interno. Senza questi collegamenti, come può Googlebot trovarle e valorizzarle? Ecco perché la struttura dei link va tenuta in ampia considerazione, quando si parla di Crawl Budget Optimization.

Se hai delle pagine importanti, dovresti metterle al centro del tuo piano editoriale. Trova modi creativi di linkare ad esse, mantenendo sempre una pertinenza di fondo tra la pagina linkante e quella “di arrivo”.

Se ad esempio il tuo articolo sull’aglio sta andando molto bene, crea degli articoli di approfondimento che linkino ad esso: in questo modo, sia gli utenti che Googlebot dedicheranno le loro risorse a percorrere i link interni e troveranno un bel network di informazioni sull’aglio.

Ottimizzare il Crawl Budget sporcandosi un po’ le mani coi link

Il ragionamento sulla struttura dei link non si limita al numero di link interni, ma tocca anche degli aspetti più tecnici. Prima di tutto, devi eliminare ogni catena di redirect 301, cioè una situazione per cui una pagina A è reindirizzata a una pagina B, ma anche B è reindirizzata a C.

Questo fenomeno fa perdere molto Crawl Budget, perché Googlebot non ha la pazienza di risalire i vari nodi di una catena di redirect: ogni volta che vede un redirect 301, potrebbe decidere di lasciarlo stare per un po’, prima di scansionare la pagina di arrivo.

Se la catena è molto lunga, Googlebot dedica un bel po’ di Crawl Budget a seguire i primi due o tre nodi, poi perde la pazienza e passa oltre. Bello spreco, non trovi?

Un altro punto da considerare sono le pagine che restituiscono un codice 404. Magari si tratta di post vecchi, che però ricevevano qualche link interno: un bel giorno Googlebot decide di seguire questi link e scopre un errore 404 – Page Not Found.

La sola scoperta di una pagina di errore fa perdere importante Crawl Budget, perché Google ha sprecato risorse che avrebbe potuto dedicare a un altro post perfettamente ottimizzato! Quindi, apri ancora una volta Screaming Frog e sistema ogni errore 404 che segnala.

Qualche volta, un sito può usare un redirect 302 per reindirizzare gli utenti a un nuovo URL. I redirect 302 sono dei reindirizzamenti temporanei da una pagina A a una pagina B, e sono molto usati negli e-commerce, per mandare gli utenti che cercavano un prodotto esaurito in un’altra pagina con un prodotto ancora disponibile.

Googlebot tratta i redirect 302 come due pagine separate. Per qualche tempo, non dovrebbero esserci problemi a livello di Crawl Budget, ma se il reindirizzamento temporaneo rimane attivo per troppo tempo, il bot potrebbe pensare a una manipolazione per mantenere in piedi due pagine duplicate. Il risultato? Spreco di Crawl Budget, penalizzazione, calo di traffico.

Punto terzo della CBO: Ottimizzare le prestazioni del sito

Un altro importante passaggio per dare una scossa al Crawl Budget riguarda le prestazioni del tuo sito. Sono due i valori da tenere d’occhio:

  • TTFB: Si tratta del Time to First Byte, ovvero il tempo che il server impiega a iniziare la trasmissione di dati a un browser. Più ridotto è il TTFB, più velocemente il sito inizierà a caricare le prime informazioni. Per diminuire il TTFB occorre monitorare le prestazioni del proprio server.
  • TTLB: Il Time to Last Byte è invece il tempo che serve al browser per ricevere tutto il contenuto, fino all’ultimo byte. Anche questo fattore dipende dalle prestazioni del server.

Sia il TTFB che il TTLB sono due dati da ottimizzare lato back-end, cioè focalizzandosi sui server e sulle infrastrutture di rete. Per svolgere la sua attività di scansione, Googlebot chiede ai server le pagine che vuole osservare: un server lento a rispondere rischia di fargli perdere la “pazienza” (e dunque di far disperdere un po’ di Crawl Budget).

Come misurare TTFB e TTLB per migliorare il Crawl Budget

Per misurare il TTFB puoi usare diversi strumenti online, come WebPageTest.org o Lighthouse, offerto proprio da Google e accessibile tramite gli Strumenti per Sviluppatori. Se usi Lighthouse, dovrai fare attenzione perché i dati dipendono molto dalla latenza della tua connessione.

  • Un TTFB maggiore di 500 millisecondi è un importante segnale che il server non è performante;
  • Un TTFB tra 200 e 500 millisecondi è un valore nella media;
  • Se il tuo TTFB è sotto i 200 ms, hai un sito incredibile.

Anche per misurare il TTLB, Lighthouse e WebPageTest sono due ottimi strumenti di partenza, così come PageSpeed Insights e GTMetrix. Il primo è un tool offerto da Google, che si basa sempre sui dati di Lighthouse. Il secondo è uno degli strumenti più noti per misurare le performance di un sito, ma non sempre è affidabile.

Un TTLB superiore ai 600 ms è troppo alto, e suggerisce che il tuo sito impiega troppo tempo a caricarsi completamente prima di mostrare i contenuti agli utenti. In questa situazione di limbo, Googlebot spreca Crawl Budget su una pagina non performante, e gli utenti si innervosiscono perché osservano uno schermo bianco, in attesa del caricamento dei contenuti.

In conclusione

Ottimizzare il Crawl Budget è una vera fatica, che non coinvolge solo professionisti della SEO, ma anche copywriter che scrivano contenuti ben fatti e sistemisti che sappiano estrarre il massimo delle performance dal server. Con questo articolo, hai però tra le mani qualche spunto per verificare quanto tempo Google dedica alle tue risorse, e comportarti di conseguenza. Le pagine ignorate da Googlebot sono molte?

  • Interrogati sulla loro qualità e sui contenuti che ospitano;
  • Verifica l’organizzazione dei link interni nel tuo sito;
  • In ultimo, dai un’occhiata alle prestazioni del tuo server.

L’ordine in cui sono scritti questi tre passaggi non è casuale. Puoi avere il sito più performante del mondo, ma senza dei contenuti ben fatti e organizzati razionalmente, non otterrai risultati.

Cosa possiamo fare per te

Questo articolo ti ha fatto venire la pulce nell’orecchio e cerchi un modo di ottimizzare il tuo Crawl Budget? Parti dalle cose semplici: inizia affidandoti a chi può scrivere contenuti efficaci ed appassionati per il tuo target! LinkJuice è l’agenzia di Digital PR, Link Building, SEO e Brand Reputation che può supportare al meglio la tua idea di business digitale e seguirti passo dopo passo per potenziarla al massimo, aumentando i ricavi del tuo progetto.

Ti è stato utile questo articolo? Condividilo!