Generare un file robots.txt per il tuo sito web: ecco cosa devi sapere

Postato in data 2 Luglio 2020 da Riccardo Esposito

Come creare un file robots.txt per regolare la relazione tra sito e Googlebot? In primo luogo devi sapere che questo strumento è pensato per gestire il rapporto tra il tuo sito web e i crawler dei motori di ricerca. Dal 2019 è diventato addirittura uno standard di internet. Ma bisogna anche sapere cosa e come applicare le sue regole.

Come creare un file robots.txt

Per questo è importante capire non solo cos’è e a cosa serve (per questo c’è una guida da leggere su Google), ma come creare un file robots.txt. Sei d’accordo? Ecco una serie di regole per muovere i tuoi passi.

Quale formato file del robots.txt

Quale tipo di estensione utilizzare per generare questo strumento? La risposta è nel nome stesso, deve essere un file di testo semplice.

Nello specifico, deve essere codificato in UTF-8 e diviso per righe in modo da semplificare la lettura. In linea di massima devono essere applicate tutte le regole utili per avere un robots.txt leggero, Google applica un limite massimo al peso di questo file che è di 500 kibibyte.

Dove si trova il robots.txt nel sito?

Questo documento si trova nella root del tuo portale. Quindi, Come creare un file robots.txt? Caricando il tutto nella directory di primo livello dell’host, in modo che il documento appaia sul browser digitando l’indirizzo:

https://www.miosito.it/robots.txt

Quindi, come trovare l’URL del robots.txt? L’esempio che trovi in alto è rappresentativo. Se è stato configurato e inserito a regola d’arte basta digitare, dopo il dominio di secondo o terzo livello, il nome del file in questione.

Da qui facciamo altre precisazioni: il nome file sarà sempre tutto minuscolo (quindi non puoi avere ROBOTS.TXT o rOBots.txt) e puoi creare un documento per ogni sottodominio del tuo sito internet o progetto web.

Come scrivere un file robots.txt

Le regole base per scrivere le istruzioni di un file roborts.txt sono piuttosto semplice si basano su una serie di comandi essenziali. Ti lascio un primo esempio di robots.txt.

User-agent: *
Disallow: 

Il comando User-Agent indica a quale spider applicare le istruzioni. Con l’asterisco si indica che le istruzioni si applicano a tutti, se hai delle esigenze specifiche puoi consultare quelle dei vari motori. Ad esempio:

La riga Disallow suggerisce cosa impedire ai veri user-agent. Qui puoi inserire directory e pagine che vuoi nascondere all’attenzione del motore di ricerca. Queste sono le istruzioni, ad esempio, per evitare che Google indicizzi le immagini inserite in una determinata cartella:

User-agent: Googlebot-Image
Disallow: /media-immagini/
Allow: /media-immagini/foto-bella.jpg

Il comando finale con il termine Allow consente, all’interno di quella determinata directory, di indicizzare una singola immagine. Ricorda che l’asterisco è un carattere jolly (o wildcard) che significa “tutto” in diverse condizioni. Ecco un esempio:

User-agent: *
Disallow: /*.doc$

Per tutti gli user agent (prima riga con asterisco) dobbiamo evitare la scansione di un determinato tipo di file, vale a dire quelli con estensione .doc. Il secondo asterisco serve proprio a definire questo, tutti i file in qualsiasi posizione che riguardano il formato .doc. Mentre il simbolo del dollaro indica che la regola comprende solo quel tipo di estensione, il .docx è escluso. Sembra difficile tutto questo, vero? Continua a leggere.

I tool per creare un file robots.txt

Non tutti sono a proprio agio con gli strumenti a disposizione dallo standard per gestire i crawler. Il timore di rovinare tutto è presente e si rischia di non gestire al meglio questo strumento così importante per l’ottimizzazione SEO. Come risolvere il problema? Basta usare uno dei robots.txt generator che trovi online.

Il primo che suggerisco è quello di toolset.mrwebmaster.it che consente di gestire con una mascherina in italiano, e abbastanza chiara, tutte le necessità del singolo sito web. Ovviamente è facoltà aggiungere anche l’URL della sitemap. Puoi escludere o includere campi, alla fine crei il file e lo carichi nella root.

Come creare un file robots.txt

Altrettanto semplice da usare è il tool per generare file robots.txt di internetmarketingninjas.com. Il meccanismo (immagine sopra) è simile solo che non scarichi il file ma fai copia e incolla delle indicazioni generate.

Da leggere: quali sono i principali programmi FTP

Come verificare il tuo robots.txt

Ok, hai creato un file per gestire indicizzazione e accesso dei vari spider sul tuo sito web, ma ora hai bisogno di un tool per fare check e controllare il buon funzionamento delle modifiche applicate. In questo caso conviene usare un unico strumento: quello offerto dalla Search Console di Google, sempre molto utile.

Come funziona il tester per robots.txt di Google? Semplice, basta andare sulla pagina ufficiale (google.com/robots-testing-tool) e scegliere una delle proprietà aggiunte, vale a dire un sito web che hai inserito nel servizio della Search Console. Il tool mostra i vari comandi e in basso puoi inserire la pagina web che vuoi controllare per verificare se per caso le istruzioni bloccano l’indicizzazione. Come leggere i risultati?

test robots

In realtà è tutto molto semplice e immediato. Colore verde indica che è tutto in regola, c’è passaggio. Rosso indica chiusura e blocco dell’indicizzazione da parte di quell’user-agent. Semplice, vero? Tu come crei e controlli il tuo robots.txt? Hai avuto problemi su questo fronte? Lascia la tua opinione e le esperienze nei commenti?

Clicca per votare questo articolo!
[Voti totali: 1 Media: 5]

Discussione

2 commenti presenti
  • Pao ha commentato il 2020-07-08 09:44:17

    Bell’articolo. Mi permetto di aggiugnere una cosa; se volete nascondere delle cartelle private non mettetele con il disallow nel robots.txt, paradossalmente è il modo migliore per farle trovare :)


  • Lascia un commento

    Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *