Le fichier robots.txt est un petit fichier texte, souvent méconnu, mais essentiel pour gérer la façon dont les moteurs de recherche explorent votre site web. Mal utilisé, il peut nuire gravement à votre référencement. Bien configuré, il vous aide à contrôler le crawl sans bloquer le SEO.
Dans cet article, nous expliquons à quoi sert le fichier robots.txt, pourquoi l’utiliser, quelles erreurs éviter et quelles sont les bonnes pratiques à adopter.
À quoi sert un fichier robots.txt ?
Le fichier robots.txt est un fichier placé à la racine d’un site web (votresite.com/robots.txt) qui sert à donner des instructions aux robots d’exploration (ou crawlers) comme Googlebot. Il indique quelles parties du site peuvent être explorées ou non.
Il ne permet pas de désindexer une page déjà dans Google, mais seulement de contrôler l’exploration.
À noter : si vous bloquez une page dans le robots.txt, Google ne pourra pas la lire, même si elle est encore présente dans l’index. Pour empêcher l’indexation, il faut utiliser une balise noindex
dans la page – et surtout ne pas la bloquer dans le robots.txt, sans quoi Google n’accédera jamais à cette balise.
Pourquoi utiliser un fichier robots.txt ?
Voici les principales raisons d’utiliser un fichier robots.txt:
Éviter l’exploration de ressources inutiles
Il peut s’agir par exemple de fichiers techniques (/wp-admin/, /scripts/, etc.), de pages de filtres ou de recherche, ou encore d’URLs à paramètres qui génèrent du contenu dupliqué.
Économiser le budget de crawl
Limiter l’accès à des zones peu importantes permet aux moteurs de recherche de se concentrer sur les pages réellement stratégiques pour votre SEO.
Protéger certaines ressources
On peut également restreindre l’accès à des fichiers techniques ou sensibles. Attention cependant : le fichier robots.txt est public. Il ne s’agit donc pas d’une mesure de sécurité.
Ce que le fichier robots.txt ne fait pas
- Il ne supprime pas une page déjà indexée.
- Il ne protège pas un contenu confidentiel.
- Il ne garantit pas que tous les robots respecteront vos consignes. Seuls les robots bienveillants comme Googlebot suivent généralement ces directives.
Syntaxe de base du fichier robots.txt
User-agent: *
Disallow: /admin/
User-agent
: le robot visé (ex. : Googlebot, Bingbot ou*
pour tous).Disallow
: répertoire ou chemin à ne pas explorer.Allow
: exception à une règle de blocage.Sitemap
: emplacement du sitemap XML.
Exemple avancé :
User-agent: Googlebot
Disallow: /recherche/
Allow: /recherche/produits/
Sitemap: https://www.monsite.fr/sitemap.xml
Erreurs fréquentes à éviter
Bloquer une page que vous souhaitez désindexer
Une page bloquée dans le fichier robots.txt ne peut pas être explorée, ce qui empêche Google de lire la balise noindex
et donc de la retirer de l’index.
Empêcher l’accès à des ressources nécessaires au rendu
Bloquer les fichiers CSS, JS ou images peut empêcher Googlebot d’afficher correctement votre page et donc nuire à sa compréhension du contenu.
Mauvaise utilisation des caractères génériques
Par exemple :
Disallow: /*?
bloque toutes les pages avec paramètresDisallow: /*.pdf$
bloque tous les fichiers PDF
Ces règles sont puissantes, mais doivent être utilisées avec rigueur.
Oublier le lien vers le sitemap
Ce n’est pas bloquant, mais c’est recommandé pour faciliter l’exploration de votre site.
Bonnes pratiques pour un fichier robots.txt efficace
- Placez le fichier à la racine du domaine :
https://www.monsite.fr/robots.txt
. - Testez votre fichier dans Google Search Console.
- Faites attention à la casse et aux chemins exacts.
- Gardez une structure simple et ajoutez des commentaires si besoin.
- Mettez à jour le fichier lors de refontes ou de modifications majeures.
Exemple de fichier robots.txt bien construit
User-agent: *
Disallow: /wp-admin/
Disallow: /panier/
Disallow: /recherche/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://www.monsite.fr/sitemap.xml
Conclusion
Le fichier robots.txt est un outil stratégique pour optimiser le crawl de votre site. Une mauvaise configuration peut bloquer des pages importantes ou empêcher Google de comprendre correctement votre contenu. Une bonne configuration, en revanche, permet de mieux canaliser les efforts des moteurs sur ce qui compte vraiment pour votre référencement.
En résumé : utilisez le fichier robots.txt pour orienter l’exploration, pas pour masquer ou désindexer. Et testez toujours avant de publier.