Come creare un file robots.txt per regolare la relazione tra sito e Googlebot? In primo luogo devi sapere che questo strumento è pensato per gestire il rapporto tra il tuo sito web e i crawler dei motori di ricerca. Dal 2019 è diventato addirittura uno standard di internet. Ma bisogna anche sapere cosa e come applicare le sue regole.
Per questo è importante capire non solo cos’è e a cosa serve (per questo c’è una guida da leggere su Google), ma come creare un file robots.txt. Sei d’accordo? Ecco una serie di regole per muovere i tuoi passi.
Argomenti
Quale tipo di estensione utilizzare per generare questo strumento? La risposta è nel nome stesso, deve essere un file di testo semplice.
Nello specifico, deve essere codificato in UTF-8 e diviso per righe in modo da semplificare la lettura. In linea di massima devono essere applicate tutte le regole utili per avere un robots.txt leggero, Google applica un limite massimo al peso di questo file che è di 500 kibibyte.
Questo documento si trova nella root del tuo portale. Quindi, Come creare un file robots.txt? Caricando il tutto nella directory di primo livello dell’host, in modo che il documento appaia sul browser digitando l’indirizzo:
https://www.miosito.it/robots.txt
Quindi, come trovare l’URL del robots.txt? L’esempio che trovi in alto è rappresentativo. Se è stato configurato e inserito a regola d’arte basta digitare, dopo il dominio di secondo o terzo livello, il nome del file in questione.
Da qui facciamo altre precisazioni: il nome file sarà sempre tutto minuscolo (quindi non puoi avere ROBOTS.TXT o rOBots.txt) e puoi creare un documento per ogni sottodominio del tuo sito internet o progetto web.
Le regole base per scrivere le istruzioni di un file roborts.txt sono piuttosto semplice si basano su una serie di comandi essenziali. Ti lascio un primo esempio di robots.txt.
User-agent: *
Disallow:
Il comando User-Agent indica a quale spider applicare le istruzioni. Con l’asterisco si indica che le istruzioni si applicano a tutti, se hai delle esigenze specifiche puoi consultare quelle dei vari motori. Ad esempio:
La riga Disallow suggerisce cosa impedire ai veri user-agent. Qui puoi inserire directory e pagine che vuoi nascondere all’attenzione del motore di ricerca. Queste sono le istruzioni, ad esempio, per evitare che Google indicizzi le immagini inserite in una determinata cartella:
User-agent: Googlebot-Image
Disallow: /media-immagini/
Allow: /media-immagini/foto-bella.jpg
Il comando finale con il termine Allow consente, all’interno di quella determinata directory, di indicizzare una singola immagine. Ricorda che l’asterisco è un carattere jolly (o wildcard) che significa “tutto” in diverse condizioni. Ecco un esempio:
User-agent: *
Disallow: /*.doc$
Per tutti gli user agent (prima riga con asterisco) dobbiamo evitare la scansione di un determinato tipo di file, vale a dire quelli con estensione .doc. Il secondo asterisco serve proprio a definire questo, tutti i file in qualsiasi posizione che riguardano il formato .doc. Mentre il simbolo del dollaro indica che la regola comprende solo quel tipo di estensione, il .docx è escluso. Sembra difficile tutto questo, vero? Continua a leggere.
Non tutti sono a proprio agio con gli strumenti a disposizione dallo standard per gestire i crawler. Il timore di rovinare tutto è presente e si rischia di non gestire al meglio questo strumento così importante per l’ottimizzazione SEO. Come risolvere il problema? Basta usare uno dei robots.txt generator che trovi online.
Il primo che suggerisco è quello di toolset.mrwebmaster.it che consente di gestire con una mascherina in italiano, e abbastanza chiara, tutte le necessità del singolo sito web. Ovviamente è facoltà aggiungere anche l’URL della sitemap. Puoi escludere o includere campi, alla fine crei il file e lo carichi nella root.
Altrettanto semplice da usare è il tool per generare file robots.txt di internetmarketingninjas.com. Il meccanismo (immagine sopra) è simile solo che non scarichi il file ma fai copia e incolla delle indicazioni generate.
Da leggere: quali sono i principali programmi FTP
Ok, hai creato un file per gestire indicizzazione e accesso dei vari spider sul tuo sito web, ma ora hai bisogno di un tool per fare check e controllare il buon funzionamento delle modifiche applicate. In questo caso conviene usare un unico strumento: quello offerto dalla Search Console di Google, sempre molto utile.
Come funziona il tester per robots.txt di Google? Semplice, basta andare sulla pagina ufficiale (google.com/robots-testing-tool) e scegliere una delle proprietà aggiunte, vale a dire un sito web che hai inserito nel servizio della Search Console. Il tool mostra i vari comandi e in basso puoi inserire la pagina web che vuoi controllare per verificare se per caso le istruzioni bloccano l’indicizzazione. Come leggere i risultati?
In realtà è tutto molto semplice e immediato. Colore verde indica che è tutto in regola, c’è passaggio. Rosso indica chiusura e blocco dell’indicizzazione da parte di quell’user-agent. Semplice, vero? Tu come crei e controlli il tuo robots.txt? Hai avuto problemi su questo fronte? Lascia la tua opinione e le esperienze nei commenti?
2 commenti presenti
Pao ha commentato il 2020-07-08 09:44:17
Bell’articolo. Mi permetto di aggiugnere una cosa; se volete nascondere delle cartelle private non mettetele con il disallow nel robots.txt, paradossalmente è il modo migliore per farle trovare :)
Riccardo Esposito ha commentato il 2020-08-10 15:27:03
Ciao, mi puoi dare maggiori informazioni su questo consiglio?