Semalt: come fa Google a sapere quando (e perché) interrompere la scansione del tuo sito Web?

I ragni di Google sono importanti quanto la stessa campagna SEO quando si commercializza un sito Web. Esplorano i siti Web e indicizzano i contenuti di tutte le pagine che riescono a trovare. Esegue inoltre la reindicizzazione nelle pagine aggiornate del sito. Lo fa su base regolare, sulla base di diversi fattori. Includono, tra l'altro, PageRank, vincoli di ricerca per indicizzazione e collegamenti trovati nella pagina. Il numero di volte in cui i ragni di Google eseguono la scansione di un sito dipenderà da uno o più di questi fattori.

Un sito Web dovrebbe essere facilmente navigabile dai visitatori e dai ragni di scansione di Google. È la ragione per cui avere un sito web adatto alla scansione è un ulteriore vantaggio della propria campagna SEO. In caso contrario, Google non sarà in grado di accedere ai contenuti, riducendo di conseguenza il posizionamento del sito nella pagina di posizionamento dei motori di ricerca .

Ross Barber, Customer Success Manager di Semalt , definisce che due dei più importanti fattori di indicizzazione su cui Google fa affidamento per influenzare la sua decisione di rallentare o interrompere la scansione del sito sono il tempo di connessione e il codice di stato HTTP. Altri includono il comando disavow, i tag "no-follow" e robots.txt.

Tempo di connessione e codici di stato HTTP

Il fattore del tempo di connessione si riferisce alla quantità di tempo impiegata dal bot di scansione di Google per raggiungere il server del sito e le pagine Web. La velocità è molto apprezzata da Google poiché è altamente indicativa di una buona esperienza utente. Se la pagina Web non è ottimizzata per la velocità, il sito si classificherà male. Gli spider di Google tenteranno di raggiungere il sito Web e, se il tempo impiegato per creare una connessione è più lungo, si ritirano e lo scansionano meno frequentemente. Inoltre, se Google spinge ad indicizzare il sito Web con la velocità attuale, potrebbe interrompere l'esperienza dell'utente in quanto potrebbe rallentare significativamente il suo server.

Il secondo fattore di indicizzazione sono i codici di stato HTTP che fanno riferimento alla capacità del server di rispondere a una richiesta di scansione del sito. Se i codici di stato rientrano nell'intervallo 5xx, Google si impegna a bloccare o ritardare la velocità con cui eseguono la scansione del sito corrente. Qualsiasi cosa nell'intervallo 5xx è un indicatore di possibili problemi con il server e che rispondere alla richiesta potrebbe essere problematico. A causa del rischio di causare ulteriori problemi, i robot di Google si allontaneranno e condurranno l'indicizzazione quando il server sarà più raggiungibile.

Quando Google riprende la scansione del sito?

Google crede nel fornire agli utenti la migliore esperienza e classificherà i siti che ottimizzano i loro elementi SEO verso questi obiettivi elevati. Tuttavia, se il sito Web presenta attualmente i problemi sopra menzionati, ordinerà a Googlebot di provare a eseguirne la scansione in un secondo momento. Se i problemi persistono, il proprietario perderà una grande opportunità per far passare a Google i suoi contenuti e assegnargli un meritato ranking nei risultati di ricerca. Oltre a questi problemi, qualsiasi segno di spam impedirà al sito di apparire nei risultati di ricerca.

Come tutti gli altri algoritmi utilizzati da Google, anche i suoi ragni sono automatici. Sono sviluppati per trovare, scansionare e indicizzare il contenuto in base a determinati parametri. Se il sito non è conforme a determinate best practice, l'indicizzazione non avverrà. Ci sono molti altri fattori coinvolti, ma ricorda sempre di prestare molta attenzione al tempo di connessione e ai codici di stato HTTP del tuo sito.