Hosting WordPress preinstallato e gestito con il 50% di sconto. Scopri la promo
Il Googlebot è uno degli elementi fondamentali per valorizzare la tua opera di web marketing. Anche se non lo vedi è protagonista di ogni attività svolta sul sito e il motivo è semplice: effettua un lavoro di crawling per scoprire, scansionare e indicizzare le pagine web.
Quando pubblichi un sito hai un bisogno immediato di far vedere a Google la presenza della tua opera, vero? Ciò significa che hai bisogno di uno spider, un web crawler che passi su ogni pagina per scoprire cosa hai messo online. Ma non è così semplice, cosa sapere in più?
E, soprattutto, cosa puoi fare per agevolare il lavoro del robot di Google che deve analizzare ogni singola risorsa del tuo progetto? Ecco i consigli chiari e una spiegazione del tema.
Argomenti
Con questo termine s’intende il programma che il motore di ricerca usa per scoprire nuove risorse da indicizzare.
Questo elemento, che può essere gestito attraverso il file robots.txt, procede grazie a un algoritmo che consente di regolare l’attività per i vari siti web che vengono scansionati costantemente dal bot ma con frequenze differenti. Ciò significa che in parte puoi influenzare direttamente il passaggio del bot sul tuo sito? In parte sì, aumentando la frequenza di pubblicazione di nuovi contenuti.
Se il programma si rende conto che sul tuo sito ci sono sempre novità e pubblicazioni da registrare, la sua presenza sarà costante. Ma non tutto dipende da questo passaggio.
Da leggere: eliminare una pagina web dal motore di ricerca
L’importanza del Googlebot di Mountain View è così importante perché si trova alla base del processo che porta a scoprire, indicizzare e aggiornare le pagine web del tuo progetto. La prima operazione che porta a termine è quella che risponde al nome di scansione.
Questo avviene perché Google ha bisogno di scoprire costantemente nuove risorse pubblicate dai proprietari dei vari siti. Quando il crawler arriva sul sito guarda in primo luogo il robots.txt che dà indicazioni su eventuali esclusioni. Ecco un esempio chiaro per definire il punto:
User-agent: Googlebot-Image
Disallow: /
In questo modo stai comunicando al Googlebot dedicato alle immagini di non considerare alcun contenuto di questo tipo. Infatti il simbolo / indica la deindicizzazione completa della root. Per dare massima apertura ai crawler puoi usare una definizione del genere:
User-agent: *
Disallow:
L’asterisco apre le porte a tutti i programmi per scoprire nuovi contenuti e l’assenza di indicazioni della sezione disallow non pone limiti. Tutte le pagine sono disponibili.
Con la scansione del Googlebot avviene il processo di indicizzazione che, ovviamente, deve essere consentito dal già citato file .txt e dal meta tag robots. In questa fase il motore di ricerca stabilisce se la risorsa è unica o duplicata, i suoi meta tag e altri contenuti.
Il Googlebot nota anche se ci sono link all’interno della pagina. In caso affermativo esamina i collegamenti che hai inserito per aggiornare con costanza l’indice di Google.
A questo punto c’è una terza fase: quella del posizionamento. Vale a dire il ranking di una risorsa nelle serp. Questo passaggio dipende da tanti fattori, il lavoro di ottimizzazione SEO on-page e off-page è concentrato in questa fase.Ma come puoi ben capire tutto parte da un punto chiaro: consentire al Googlebot l’accesso nel miglior modo possibile
Il Googlebot è il crawler principale del motore di ricerca, quello che viene utilizzato per scoprire nuove pagine web. Ma esistono altri spider che il motore di ricerca usa per scoprire le risorse pubblicare dai webmaster sui siti web. Quali sono i principali? Ecco una breve lista.
Web Crawler | User-Agent String |
---|---|
Googlebot News | Googlebot-News |
Googlebot Images | Googlebot-Image/1.0 |
Googlebot Video | Googlebot-Video/1.0 |
Questi sono i bot più famosi di Mountain View, ne esistono altri meno noti come quello di Adsense (mediapartners-google) che monitora il sito per scoprire i contenuti. E inserire annunci pertinenti. Inoltre ci sono altri web crawler oltre a quelli di Google come il BingBot.
Per snellire il carico del software usato da Google per scoprire le tue risorse devi seguire una serie di passaggi che possono fare la differenza. Il motivo è semplice: il Googlebot è l’intermediario tra il tuo lavoro con i contenuti e il posizionamento nella serp. Quindi è utile seguire questi semplici consigli per ottimizzare il lavoro di questo programma.
Il file sitemap.xml è una guida che comunichi a Google per velocizzare e migliorare la scansione delle tue risorse. Si tratta di un documento che elenca le pagine che ritieni importanti, indica la data di un aggiornamento, la frequenza delle modifiche e altro ancora.
Perché far perdere tempo al crawler su pagine che non hanno valore o che contengono testo duplicato? Elimina i rami secchi, cancella pagine che non fanno la differenza, fondi risorse che rispondono agli stessi intenti di ricerca, gestisci i contenuti duplicati con il canonical.
Il bot di Google ama i siti web che richiamano la sua attenzione con continue pubblicazioni. Viene invitato in continuazione a reperire nuove informazioni, così abitui il Googlebot a passare con una certa frequenza sul tuo sito. E a scoprire sempre nuove risorse da proporre.
A volte le cose semplici sono le più efficaci. Il bot di Google può leggere diversi contenuti ma c’è una soluzione che ama più di tutte: i documenti in HTML, snelli e lineari. In questo modo tutto viene letto e visto dal crawler senza problemi. Lo stesso discorso vale per il robots.txt: non ostacolare il comportamento dello spider se non è strettamente necessario.
Googlebot segue i collegamenti. Quindi puoi usare questi elementi per far scoprire nuove risorse al crawler, e questo vale per link interni ma anche per quelli che puntano sul sito.
Ottimizzare la struttura link vuol dire migliorare la scansione del sito. D’altro canto il Googlebot spende più tempo sui portali con un Pagerank alto. Il crawl budget è influenzato dall’autorevolezza di una pagina, che a sua volta viene rafforzata dai link di qualità.
Da leggere: cos’è e a cosa serve il file .htaccess
Il web crawler di Mountain View recupera il contenuto dal tuo sito. Lo fa in continuazione, con intervalli che viene deciso in base all’autorevolezza del tuo progetto e alle tue abitudini editoriali. Ma attenzione, Googlebot non giudica il contenuto, lo registra solo.
Al tempo stesso, agevolare il suo lavoro è il primo passo per farti trovare sul motore di ricerca. Tu cosa fai per migliorare questo passaggio? Lascia domande e osservazioni qui.