Aller au contenu
llms.txt et robots.txt : contrôler ce que l'IA voit de votre site

llms.txt et robots.txt : contrôler ce que l'IA voit de votre site

Retour aux articles
·Matthieu Guigon
  • GEO
  • llms.txt
  • robots.txt
  • SEO
  • IA
  • Visibilité

robots.txt contrôle l'accès des bots IA à votre site. llms.txt leur explique qui vous êtes. Si vous n'avez configuré ni l'un ni l'autre, vous êtes probablement invisible pour les moteurs IA — ou pire, bloqué sans le savoir par Cloudflare.

Vous avez investi dans votre contenu. Vous avez travaillé votre SEO. Mais quand un utilisateur pose une question à ChatGPT, Perplexity ou Google AI, votre site n'apparaît nulle part dans la réponse. Le problème n'est peut-être pas votre contenu — c'est que les moteurs IA ne peuvent pas y accéder. Depuis juillet 2025, Cloudflare bloque les bots IA par défaut sur tous les sites qu'il protège. Et la majorité des sites web n'ont jamais configuré leur robots.txt pour gérer spécifiquement les crawlers IA. Résultat : des millions de sites sont invisibles pour les moteurs IA sans que leurs propriétaires le sachent. À côté de ça, un nouveau standard émerge — llms.txt — qui permet de présenter votre site directement aux LLM dans un format qu'ils comprennent. Si le GEO (Generative Engine Optimization) vous intéresse, ces deux fichiers sont votre première ligne d'action.

robots.txt : le gardien que vous avez oublié

Le robots.txt existe depuis 1994. Son rôle est simple : dire aux bots ce qu'ils ont le droit de crawler sur votre site. Pendant 30 ans, il servait surtout à guider Googlebot. Mais en 2026, il contrôle aussi l'accès d'une dizaine de bots IA : GPTBot (OpenAI), ClaudeBot (Anthropic), PerplexityBot, Google-Extended (Gemini), Bytespider (TikTok), FacebookBot, et d'autres. Le problème : la plupart des sites n'ont aucune règle spécifique pour ces bots. Soit ils sont autorisés par défaut (via un User-agent: * / Allow: /), soit ils sont bloqués sans que personne ne l'ait décidé. Et c'est là que Cloudflare entre en jeu. Depuis juillet 2025, l'option « AI Bot Block » est activée par défaut sur tous les plans — y compris le gratuit. Si votre site est derrière Cloudflare et que vous n'avez pas explicitement désactivé cette option, GPTBot, ClaudeBot et les autres reçoivent un 403. Votre contenu n'est jamais crawlé, jamais indexé par les moteurs IA, jamais cité. Vous êtes invisible et vous ne le savez pas.

llms.txt : le nouveau standard pour parler aux IA

Le fichier llms.txt est une proposition de standard initiée par Jeremy Howard (fondateur de fast.ai) en 2024. L'idée est brillante dans sa simplicité : placer à la racine de votre site un fichier Markdown qui résume qui vous êtes et ce que vous faites dans un format que les LLM comprennent nativement. Contrairement au robots.txt qui dit « voici ce que vous pouvez crawler », le llms.txt dit « voici ce que vous devez savoir sur nous ». La structure est simple. Un titre H1 avec le nom de votre organisation. Un blockquote avec une description courte. Des sections H2 pour vos services, vos pages clés, vos coordonnées. Le tout en Markdown pur — le format le plus naturel pour un LLM. Pourquoi c'est important ? Parce que les LLM ne « lisent » pas votre site comme un humain. Ils n'interprètent pas votre design, vos animations, votre mise en page. Ils extraient du texte brut. Le llms.txt leur offre une version structurée et condensée de votre site, optimisée pour leur compréhension. Les premiers signes d'adoption sont là : Anthropic, Cloudflare, et plusieurs centaines de sites tech proposent déjà un llms.txt. Ce n'est pas encore un standard officiel du W3C, mais c'est en passe de devenir une convention de facto — exactement comme robots.txt l'a été à ses débuts.

Comment configurer votre robots.txt pour les bots IA

La première étape est de savoir qui vous bloquez. Vérifiez votre robots.txt actuel et cherchez des règles ciblant GPTBot, ClaudeBot, PerplexityBot, Google-Extended, Bytespider, CCBot, FacebookBot. Si votre robots.txt ne mentionne aucun de ces bots, le comportement dépend de votre règle par défaut (User-agent: *) et de votre CDN. Si vous êtes derrière Cloudflare, vérifiez aussi le dashboard : Security > Bots > AI Bots. Ensuite, prenez une décision explicite. Il y a trois stratégies possibles. Tout ouvrir : un simple User-agent: * / Allow: / suffit, mais assurez-vous que Cloudflare ne bloque pas en amont. C'est la stratégie recommandée si vous cherchez la visibilité IA. Ouvrir sélectivement : autorisez GPTBot, ClaudeBot et PerplexityBot (les trois qui génèrent des citations) et bloquez les autres. Utile si vous voulez contrôler qui utilise votre contenu pour l'entraînement. Tout bloquer : légitime pour les contenus premium ou propriétaires. Mais sachez que vous renoncez alors à toute visibilité dans les réponses IA. Le site Dark Visitors maintient une liste à jour de tous les bots IA connus et de leurs User-Agent — c'est une ressource précieuse pour configurer vos règles.

Comment créer un bon llms.txt

Un llms.txt efficace suit une structure simple. Commencez par un titre H1 avec le nom de votre organisation ou produit. Ajoutez un blockquote avec une description d'une à deux phrases — c'est le résumé que les LLM utiliseront en priorité. Puis structurez avec des sections H2 : About, Services, Products, Contact, Pages. Chaque section doit être concise et factuelle. Pas de marketing, pas de superlatifs — les LLM ne sont pas impressionnés par « leader mondial » ou « solution innovante ». Ils veulent des faits : ce que vous faites, pour qui, avec quelles technologies, et comment vous contacter. Incluez des liens vers vos pages clés en Markdown standard. Les LLM peuvent suivre ces liens pour approfondir un sujet quand ils ont besoin de plus de contexte. Pensez votre llms.txt comme une carte de visite augmentée pour les IA. Si un LLM devait résumer votre entreprise en 30 secondes, est-ce qu'il aurait tout ce qu'il faut dans ce fichier ? Si oui, c'est bon. Si non, ajoutez ce qui manque. Un dernier point : le llms.txt ne remplace pas un bon contenu sur votre site. Il le complète. Les moteurs IA l'utilisent comme point d'entrée, puis crawlent vos pages pour les détails.

La checklist : votre site est-il prêt pour les moteurs IA ?

Voici les vérifications à faire maintenant. robots.txt : vérifiez que GPTBot, ClaudeBot et PerplexityBot ne sont pas bloqués. Si vous n'avez pas de règle spécifique, vérifiez votre règle par défaut. Cloudflare : si votre site est derrière Cloudflare, allez dans Security > Bots et vérifiez que l'option « AI Bot Block » n'est pas activée — ou désactivez-la pour les bots que vous voulez autoriser. llms.txt : créez-en un et placez-le à la racine de votre site (/llms.txt). Incluez au minimum un H1, un blockquote descriptif, et vos pages principales. Données structurées : ajoutez du schema.org JSON-LD sur vos pages clés (Organization, Person, Article, FAQPage). C'est ce qui permet aux LLM de comprendre le contexte de votre contenu, pas juste son texte. Testez : utilisez notre outil d'audit GEO pour vérifier en un clic si votre robots.txt autorise les bots IA, si votre llms.txt est présent et bien structuré, et si vos données structurées sont en place. La visibilité IA ne se construit pas en un jour, mais ces fondations techniques sont le prérequis à tout le reste. Sans elles, même le meilleur contenu du monde restera invisible dans les réponses de ChatGPT et Perplexity.

Le web est en train de se bifurquer. D'un côté, le web classique avec ses moteurs de recherche et ses liens bleus. De l'autre, le web conversationnel où les utilisateurs obtiennent des réponses directement des IA. Si vous n'existez que dans le premier, vous disparaîtrez progressivement du second. robots.txt et llms.txt sont vos deux leviers fondamentaux pour contrôler votre présence dans ce nouveau web. L'un ouvre la porte, l'autre fait les présentations. Ni l'un ni l'autre ne demande plus de 30 minutes à configurer — mais leur absence peut vous rendre invisible pour des millions d'utilisateurs. Vous voulez savoir si les moteurs IA voient votre site ? Lancez un audit GEO gratuit et découvrez-le en quelques secondes. Et si vous avez besoin d'aide pour configurer votre stratégie de visibilité IA, parlons-en.

Pour aller plus loin