Créer un fichier robots.txt optimisé pour le référencement

Comprendre me fonctionnement d'un robots.txt optimisé
Lorsque vous faites du référencement tous les outils et conseils sont bons à prendre, nous vous donnons les clés pour un robot.txt optimisé.

Partager l'article

Nous ne reviendrons pas sur comment créer et envoyer un fichier robots.txt dans cet article. Nous vous invitons à lire le premier, qui vous initie à l’installation et à la configuration de votre fichier robots.txt sur votre installation WordPress, mais pas que. Dans cet article, nous allons vous apporter des règles pour rendre votre robots.txt optimisé pour le référencement.

Notre robots.txt optimisé chez diOptera

Comme nous l’évoquions dans notre article précédent, la configuration de votre robots.txt répond aux besoins de votre site web. Dans tous les cas, notre configuration permet surtout d’économiser du budget crawl en réduisant l’exploration des pages inutiles.

#Règle pour tous les robots
User-agent: *
#Règle pour restreindre les pages sensibles du site
Disallow: /wp-admin/
Disallow: /connexion
Disallow: /wp-login.php
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-includes/js
Disallow: /trackback
Disallow: /category/*/*
Disallow: */trackback
Disallow: /?s=
Disallow: /search/
Disallow: /*?*
Disallow: /*?
Disallow: /*~*
Disallow: /*~
#Règle pour réduire le duplicate content 
Disallow: /*?*
Disallow: /*?
#Inexploration de certaines pages
Disallow: /wp-login.php
Disallow: /readme.html
Disallow: /plan-du-site/
Disallow: /reglement-general-sur-la-protection-des-donnees/
Disallow: /mentions-legales/
#Accède aux images du site
Allow: /wp-content/uploads
Allow: /wp-admin/admin-ajax.php
User-agent: Googlebot
#On empêche l'exploration des fichiers sensibles
Disallow: /*.php$
Disallow: /*.inc$
Disallow: /*.gz$
Disallow: /*.pdf$
# Le site map de diOptera
Sitemap: https://dioptera.fr/sitemap_index.xml

Comprendre ce fichier robots.txt optimisé

L’ensemble du fichier robots.txt optimisé est commenté pour que vous puissiez comprendre en pratique l’utilisation des règles. Il est difficile d’avoir un avis tranché sur le bon fonctionnement de ce type de fichier. En effet, d’importants sites web n’en utilisent pas ou du moins n’utilisent pas de règles contraignantes ou spécifiques. Ainsi c’est au bon vouloir des administrateurs et développeurs d’en intégrer ou non.

Dans notre cas, nous souhaitons réduire au maximum le budget crawl, en supprimant l’exploration d’une majorité de nos pages, qui sont inutiles pour les robots. Notamment dans la section « Règle pour restreindre les pages sensibles du site  » qui réduit grandement l’accès à des dizaines de pages, qui de toute manière de ne sont pas accessibles pour les utilisateurs et donc inutiles pour les robots d’exploration.

Vous pourriez également faire une liste des robots que vous autorisez et ceux que vous ne souhaitez pas voir explorer votre site web.

#Autoriser Google Image
User-agent: Googlebot-Image
Disallow:
Allow: /*
#Autoriser Google AdSense
User-agent: Mediapartners-Google*
Disallow:
Allow: /*
#Autoriser Ahrefs
User-agent: AhrefsSiteAudit
Allow: /*
User-agent: AhrefsBot
Allow: /*

Dans le cas précédent les robots ont accès à toutes les pages, sauf règles contraignantes que vous pouvez ajouter.

Quelques règles à suivre

L’une des premières règles est simple et nous proviens d’Olivier Andrieu la figure de proue du référencement en France. Il ne doit pas avoir de ligne vide dans votre fichier robots.txt. La suppression des lignes vides permet de réduire votre fichier, mais aussi de faciliter la vie du robot, en effet, il ignore dans tous les cas ces lignes.

Créer un robots.txt optimisé n’est pas la seule manière de régir le crawl des robots d’exploration, vous pouvez également ajouter des balises Meta, ou bien en intégrant des en-têtes HTTP (X-Robots-Tag). Vous pouvez obtenir plus d’informations sur le support Google pour intégrer au mieux ces méthodes.

Afin de réduire la vitesse d’exploration de votre site par Google, vous devez vous rendre directement sur la plateforme Google Search Console. Un outil essentiel pour développer votre compréhension du fonctionnement des résultats de recherche, mais aussi des mots-clés et des pages qui fonctionnent sur votre site web. Nous vous conseillons vivement, dans le cas où vous ne connaissez ou n’utilisez pas cet outil, de vous y intéresser.

Le fichier robots.txt doit obligatoirement être placé dans le dossier racine de votre site web et en aucun cas dans un sous répertoire.

Les erreurs dans votre fichier robots.txt optimisé ne causent pas de problème aux robots d’exploration, ils ont la capacité d’opérer malgré une erreur de syntaxe ou d’ordre. La pire chose qui peut se passer est de voir le robot ne pas suivre vos directives.

Le cas particulier des sites avec un sous-domaine

Dans le cas d’un site web possédant un sous-domaine deux solutions peuvent être utilisées en fonction de la situation. En effet les moteurs de recherche, considèrent qu’un sous-domaine est un site à part entière. Prenons l’exemple suivant :

  • https://www.mon-site-web.fr/
  • https://www.blog.mon-site-web.fr/

Vous devez créer pour le domaine principal et le sous-domaine un fichier robots.txt dans chacune des racines de vos sites.

Dans le cas ou votre domaine et sous-domaine pointent vers le même emplacement, il est nécessaire d’ajouter une condition dans votre fichier .htaccess.

RewriteEngine on
RewriteCond %{HTTP_HOST} ^blog.mon-domaine.fr$
RewriteRule ^robots\.txt$ robots-blog.txt

Quand le robot d’exploration tente d’accéder au fichier robots.txt du sous-domaine, c’est le contenu du fichier robots-blog.txt qui lui est affiché. À vous ensuite d’intégrer ce fichier et d’insérer les règles que vous désirez.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.

Ce site est protégé par reCAPTCHA et la Politique de confidentialité, ainsi que les Conditions de service Google s’appliquent.