Créer un fichier robots.txt optimisé pour le référencement

Lorsque vous faites du référencement tous les outils et conseils sont bons à prendre, nous vous donnons les clés pour un robot.txt optimisé.

Partager l'article

Nous ne reviendrons pas sur la création et l’envoi d’un fichier robots.txt dans cet article. Nous vous invitons à lire notre premier article, qui vous initie à l’installation et à la configuration de votre fichier robots.txt sur votre installation WordPress, et bien plus encore. Dans cet article, nous allons vous apporter des règles pour rendre votre fichier robots.txt optimisé pour le référencement.

Notre robots.txt optimisé chez diOptera

Comme nous l’avons évoqué dans notre précédent article, la configuration de votre fichier robots.txt doit répondre aux besoins spécifiques de votre site web. Dans tous les cas, notre configuration vise principalement à économiser du budget de crawl en réduisant l’exploration des pages inutiles.

#Règle pour tous les robots
User-agent: *
#Règle pour restreindre les pages sensibles du site
Disallow: /wp-admin/
Disallow: /connexion
Disallow: /wp-login.php
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-includes/js
Disallow: /trackback
Disallow: /category/*/*
Disallow: */trackback
Disallow: /?s=
Disallow: /search/
Disallow: /*?*
Disallow: /*?
Disallow: /*~*
Disallow: /*~
#Règle pour réduire le duplicate content 
Disallow: /*?*
Disallow: /*?
#Inexploration de certaines pages
Disallow: /wp-login.php
Disallow: /readme.html
Disallow: /plan-du-site/
Disallow: /reglement-general-sur-la-protection-des-donnees/
Disallow: /mentions-legales/
#Accède aux images du site
Allow: /wp-content/uploads
Allow: /wp-admin/admin-ajax.php
User-agent: Googlebot
#On empêche l'exploration des fichiers sensibles
Disallow: /*.php$
Disallow: /*.inc$
Disallow: /*.gz$
Disallow: /*.pdf$
# Le site map de diOptera
Sitemap: https://dioptera.fr/sitemap_index.xml

Comprendre ce fichier robots.txt optimisé

L’ensemble du fichier robots.txt optimisé est commenté pour que vous puissiez comprendre concrètement l’utilisation des règles. Il est difficile de donner un avis tranché sur le bon fonctionnement de ce type de fichier. En effet, d’importants sites web n’utilisent pas de règles contraignantes ou spécifiques, voire n’en utilisent pas du tout. Ainsi, cela dépend des administrateurs et des développeurs d’intégrer ou non ces règles.

Dans notre cas, nous souhaitons réduire au maximum le budget de crawl en supprimant l’exploration d’une grande partie de nos pages, qui sont inutiles pour les robots. Cela concerne notamment la section « Règles pour restreindre l’accès aux pages sensibles du site« , qui limite considérablement l’accès à des dizaines de pages inaccessibles aux utilisateurs et donc inutiles pour les robots d’exploration.

Vous pourriez également établir une liste des robots que vous autorisez et de ceux que vous ne souhaitez pas voir explorer votre site web.

#Autoriser Google Image
User-agent: Googlebot-Image
Disallow:
Allow: /*
#Autoriser Google AdSense
User-agent: Mediapartners-Google*
Disallow:
Allow: /*
#Autoriser Ahrefs
User-agent: AhrefsSiteAudit
Allow: /*
User-agent: AhrefsBot
Allow: /*

Dans le cas précédent, les robots ont accès à toutes les pages, sauf celles soumises à des règles restrictives que vous pouvez ajouter.

Quelques règles à suivre

L’une des premières règles est simple et nous vient d’Olivier Andrieu, une figure de proue du référencement en France : il ne doit pas y avoir de lignes vides dans votre fichier robots.txt. La suppression des lignes vides permet de réduire la taille de votre fichier, mais surtout de faciliter la tâche des robots, car ils ignorent de toute façon ces lignes.

Créer un fichier robots.txt optimisé n’est pas la seule manière de contrôler le crawl des robots d’exploration. Vous pouvez également utiliser des balises Meta ou intégrer des en-têtes HTTP (X-Robots-Tag). Vous pouvez obtenir plus d’informations sur la manière d’intégrer au mieux ces méthodes sur le support Google.

Pour réduire la vitesse d’exploration de votre site par Google, vous devez vous rendre directement sur la plateforme Google Search Console. C’est un outil essentiel pour développer votre compréhension du fonctionnement des résultats de recherche, des mots-clés et des pages qui fonctionnent sur votre site web. Si vous ne connaissez pas ou n’utilisez pas cet outil, nous vous conseillons vivement de vous y intéresser.

Le fichier robots.txt doit obligatoirement être placé dans le dossier racine de votre site web, et en aucun cas dans un sous-répertoire.

Les erreurs dans votre fichier robots.txt optimisé n’entraînent pas de problèmes pour les robots d’exploration. Ils sont capables de fonctionner malgré une erreur de syntaxe ou d’ordre. La pire chose qui puisse se produire est que le robot n’obéisse pas à vos directives.

Le cas particulier des sites avec un sous-domaine

Si votre site web possède un sous-domaine, deux solutions peuvent être utilisées en fonction de la situation. En effet, les moteurs de recherche considèrent qu’un sous-domaine est un site à part entière. Prenons l’exemple suivant :

  • https://www.mon-site-web.fr/
  • https://www.blog.mon-site-web.fr/

Vous devez créer un fichier robots.txt pour le domaine principal et un autre pour le sous-domaine, chacun dans la racine de votre site.

Dans le cas où votre domaine et votre sous-domaine pointent vers le même emplacement, vous devez ajouter une condition dans votre fichier .htaccess.

RewriteEngine on
RewriteCond %{HTTP_HOST} ^blog.mon-domaine.fr$
RewriteRule ^robots\.txt$ robots-blog.txt

Lorsque le robot d’exploration tente d’accéder au fichier robots.txt du sous-domaine, c’est le contenu du fichier robots-blog.txt qui lui est affiché. À vous ensuite d’intégrer ce fichier et d’insérer les règles que vous désirez.