Le fichier robots.txt : à quoi ça sert, pourquoi l’utiliser et comment bien le configurer

published on 09 April 2025

Le fichier robots.txt est un petit fichier texte, souvent méconnu, mais essentiel pour gérer la façon dont les moteurs de recherche explorent votre site web. Mal utilisé, il peut nuire gravement à votre référencement. Bien configuré, il vous aide à contrôler le crawl sans bloquer le SEO.

Dans cet article, nous expliquons à quoi sert le fichier robots.txt, pourquoi l’utiliser, quelles erreurs éviter et quelles sont les bonnes pratiques à adopter.

À quoi sert un fichier robots.txt ?

Le fichier robots.txt est un fichier placé à la racine d’un site web (votresite.com/robots.txt) qui sert à donner des instructions aux robots d’exploration (ou crawlers) comme Googlebot. Il indique quelles parties du site peuvent être explorées ou non.

Il ne permet pas de désindexer une page déjà dans Google, mais seulement de contrôler l’exploration.

À noter : si vous bloquez une page dans le robots.txt, Google ne pourra pas la lire, même si elle est encore présente dans l’index. Pour empêcher l’indexation, il faut utiliser une balise noindex dans la page – et surtout ne pas la bloquer dans le robots.txt, sans quoi Google n’accédera jamais à cette balise.

Pourquoi utiliser un fichier robots.txt ?

Voici les principales raisons d’utiliser un fichier robots.txt:

Éviter l’exploration de ressources inutiles

Il peut s’agir par exemple de fichiers techniques (/wp-admin/, /scripts/, etc.), de pages de filtres ou de recherche, ou encore d’URLs à paramètres qui génèrent du contenu dupliqué.

Économiser le budget de crawl

Limiter l’accès à des zones peu importantes permet aux moteurs de recherche de se concentrer sur les pages réellement stratégiques pour votre SEO.

Protéger certaines ressources

On peut également restreindre l’accès à des fichiers techniques ou sensibles. Attention cependant : le fichier robots.txt est public. Il ne s’agit donc pas d’une mesure de sécurité.

Ce que le fichier robots.txt ne fait pas

  • Il ne supprime pas une page déjà indexée.
  • Il ne protège pas un contenu confidentiel.
  • Il ne garantit pas que tous les robots respecteront vos consignes. Seuls les robots bienveillants comme Googlebot suivent généralement ces directives.

Syntaxe de base du fichier robots.txt

User-agent: *
Disallow: /admin/
  • User-agent : le robot visé (ex. : Googlebot, Bingbot ou * pour tous).
  • Disallow : répertoire ou chemin à ne pas explorer.
  • Allow : exception à une règle de blocage.
  • Sitemap : emplacement du sitemap XML.

Exemple avancé :

User-agent: Googlebot
Disallow: /recherche/
Allow: /recherche/produits/
Sitemap: https://www.monsite.fr/sitemap.xml

Erreurs fréquentes à éviter

Bloquer une page que vous souhaitez désindexer

Une page bloquée dans le fichier robots.txt ne peut pas être explorée, ce qui empêche Google de lire la balise noindexet donc de la retirer de l’index.

Empêcher l’accès à des ressources nécessaires au rendu

Bloquer les fichiers CSS, JS ou images peut empêcher Googlebot d’afficher correctement votre page et donc nuire à sa compréhension du contenu.

Mauvaise utilisation des caractères génériques

Par exemple :

  • Disallow: /*? bloque toutes les pages avec paramètres
  • Disallow: /*.pdf$ bloque tous les fichiers PDF

Ces règles sont puissantes, mais doivent être utilisées avec rigueur.

Oublier le lien vers le sitemap

Ce n’est pas bloquant, mais c’est recommandé pour faciliter l’exploration de votre site.

Bonnes pratiques pour un fichier robots.txt efficace

  • Placez le fichier à la racine du domaine : https://www.monsite.fr/robots.txt.
  • Testez votre fichier dans Google Search Console.
  • Faites attention à la casse et aux chemins exacts.
  • Gardez une structure simple et ajoutez des commentaires si besoin.
  • Mettez à jour le fichier lors de refontes ou de modifications majeures.

Exemple de fichier robots.txt bien construit

User-agent: *
Disallow: /wp-admin/
Disallow: /panier/
Disallow: /recherche/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://www.monsite.fr/sitemap.xml

Conclusion

Le fichier robots.txt est un outil stratégique pour optimiser le crawl de votre site. Une mauvaise configuration peut bloquer des pages importantes ou empêcher Google de comprendre correctement votre contenu. Une bonne configuration, en revanche, permet de mieux canaliser les efforts des moteurs sur ce qui compte vraiment pour votre référencement.

En résumé : utilisez le fichier robots.txt pour orienter l’exploration, pas pour masquer ou désindexer. Et testez toujours avant de publier.

Read more

Built on Unicorn Platform