Il file robots.txt | Guida SEO

seo

In questo articolo della nostra guida SEO vedremo cos’è, a cosa serve e come funziona il file robots.txt, un file fondamentale in grado di incidere sull’indicizzazione del nostro sito web all’interno dei motori di ricerca.

Cos’è il file robots.txt

Il file robots.txt è un semplicissimo file di testo che va inserito (qualora lo si voglia utilizzare) nella cartella di root del proprio un sito Web e serve ad indicare agli spider dei motori di ricerca alcune semplici direttive circa l’accesso a determinati file o intere cartelle.

Grazie al file robots.txt potremo, ad esempio, chiedere ad uno specifico spider (ad esempio Googlebot) di non scansionare determinate cartelle (ad esempio cartelle con file riservati che non vogliamo siano raggiungibili tramite Google) oppure addirittura precludere l’accesso all’intero sito ad uno specifico spider (ci sono in giro molti robots piuttosto noiosi ed invasivi, magari di motori secondari ed inutili dal punto di vista del traffico in entrata).

Lo standard per l’esclusione dei robot (Robots Exclusion Standard) è dunque quel sistema che permette ai webmaster, programmatori e agli amministratori di sistema di avere il controllo su quante e quali pagine web far scansire e prelevare dagli spider (e da quali spider).

Come già detto, questi bot automatici effettuano un controllo preventivo per verificare la presenza di un file chiamato robots.txt che impedisce loro di accedere a determinate pagine o risorse. Tutti i robot affidabili rispettano le istruzioni scritte nel file.

Quindi, per escludere alcune pagine è sufficiente creare un normale file di testo e nominarlo robots.txt. All’interno verranno scritte delle istruzioni che possono impedire a tutti o alcuni spider la scansione di alcune o tutte le pagine del sito.

Una volta creato, il file robots.txt deve essere pubblicato nella directory principale del sito web.

Il file robots.txt utilizza due regole : User-agent e Disallow.

Il campo User-agent serve ad indicare a quale robot/spider le direttive successive sono rivolte. La sua sintassi è :

User-agent: [nome_dello_spider]  

Il campo Disallow serve a indicare a quali file e/o directory non può accedere lo spider indicato nel campo User-agent. La sintassi è :

Disallow: [nome_del_file_o_della_directory]    

Ecco dunque un esempio completo di file robots.txt che blocca del tutto Alexibot, impedisce a Google l’accesso ad alcuni file e directory e lascia libero accesso a tutti gli altri motori di ricerca.

Successivamente, potete analizzare altri esempi singoli.

User-agent: Alexibot
Disallow: /

User-agent: googlebot
Disallow: /password.html
Disallow: /preferiti.html
Disallow: /documenti/
Disallow: /database/

User-agent: *
Disallow:     
Disallow: /                                 ---> blocco per l'intero sito

Disallow: /directory-personale/             ---> blocco della directory [directory-personale] e del relativo contenuto

Disallow: /file-personale.html              ---> blocco della pagina [file-personale.html]

User-agent: Googlebot-Image
Disallow: /immagini/immagine-personale.jpg  ---> rimuove l'immagine [immagine-personale.jpg] da Google Images

User-agent: Googlebot-Image
Disallow: /                                 ---> rimuove tutte le immagine del sito da Google Images

Disallow: /*.mdb$                           ---> blocco di tutti i file di tipo [mdb]

Disallow: /asp*/                            ---> blocco di tutte le sottodirectory che iniziano con [asp]

Disallow: /*?                               ---> blocco di tutti gli URL che comprendono un punto interrogativo

Disallow: /*.doc$                           ---> blocco di tutti gli URL che terminano con [.doc]
                    

Altri esempi di file robots.txt

Per meglio capire il funzionamento di questo file vediamo di seguito alcuni esempi.

Ammettere tutti gli spider

Per consentire l’accesso a tutti gli spider senza restrizioni:

User-Agent: *
Disallow:

Si noti che questa è l’impostazione di “default” che equivale, nella sostanza, a non caricare il file robots.txt.

Escludere tutti gli spider

Se lo desideriamo possiamo, grazie al file robots.txt, bloccare l’indicizzazione dell’intero sito (ad esempio perché vogliamo che questo resti riservato a noi ed ai nostri pochi amici) :

User-agent: *
Disallow: /

Escludere uno spider specifico

Oppure, cosa più frequente, possiamo semplicemente escludere uno specifico spider dall’accesso alle pagine del nostro sito :

User-Agent: *
Disallow:

User-agent: SpiderSgradito
Disallow: /

Ammettere un solo spider nel file robots.txt

Supponiamo di voler autorizzare l’accesso al nostro sito solo allo spider di Google, bloccando tutti gli altri :

User-Agent: *
Disallow: /

User-agent: Googlebot
Disallow:

Conclusione

Ovviamente quelli visti sopra sono solo dei semplici esempi, ma le combinazioni sono moltissime e spesso piuttosto utili ; in ogni caso il consiglio è quello di NON utilizzare il file robots.txt se non si è sicuri che questo sia necessario e che le impostazioni inserite siano corrette ; se non siete sicuri di quello che state facendo sappiate che un errore potrebbe costare caro al vostro sito (il rischio è finire fuori dalle SERP !).

Una piccola nota conclusiva: se non caricate il file robots.txt nella root del sito vi troverete molto presto con il log degli errori pieno zeppo di errori 404…

Articoli recenti

Commenti recenti

  1. Massimiliano Ferretti su I Commenti

    Mi permetto di aggiungere una mia considerazione personale che ho riportato dall'utilizzo di C#. Personalmente mi piace commentare funzioni e…

  2. Personalmente ritengo che utilizzare git porti sempre dei vantaggi anche per lo sviluppo solo. Già solo la possibilità di fare…

  3. ciao, il link a discord non è piu valido, vorrei utilizzare il materiale che hai pubblicato tempo fa, come faccio?

Itamde è anche una scuola di programmazione online.

Itamde

Impara ciò che desideri, al tuo ritmo

0 commenti

Invia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Potrebbe interessarti anche…

Le novità di Itamde Studio – Ottobre 2025

Le novità di Itamde Studio – Ottobre 2025

Tra creazioni, libri e un po’ di magia artigianale L’autunno è arrivato e Itamde Studio prosegue la sua stagione creativa con la consueta energia poliedrica: tra scrittura, web, video, artigianato e nuovi progetti in vista dei mercatini di fine anno. Questo mese di...

Rimani aggiornato sulle ultime notizie e novità

Accedi ai contenuti riservati

Scopri il dietro le quinte dei nostri progetti, risorse esclusive e lo stato di avanzamento delle nostre creazioni in tempo reale.

Iscriviti alla newsletter

Ricevi le nostre notizie, le nostre riflessioni creative e le novità dell’atelier direttamente nella tua casella di posta elettronica.

Seguici

Unisciti alla nostra community sui social network per seguire i nostri progetti quotidiani e interagire con noi.