Données structurées pour l'IA : schema.org, JSON-LD et

Les données structurées (schema.org en JSON-LD) sont le levier le plus sous-estimé pour être cité par les IA. Mais la qualité du schema compte plus que sa présence : un markup pauvre fait pire que pas de markup du tout. Au-delà de schema.org, une stack complète émerge — llms.txt, NLWeb, MCP — pour rendre votre site lisible par les agents IA.

Quand vous tapez une question dans ChatGPT, Perplexity ou Google AI Overview, la réponse cite rarement des sources au hasard. Derrière le choix de quel site est cité et lequel est ignoré, il y a un facteur que la plupart des entreprises sous-estiment : les données structurées. Pas le contenu visible par les humains — celui que les machines lisent en coulisses. Schema.org, JSON-LD, graphes d'entités : ce sont les signaux qui permettent aux moteurs IA de comprendre qui vous êtes, ce que vous publiez, et pourquoi vous faites autorité. J'en parlais dans mon article sur le GEO : l'optimisation pour les moteurs génératifs est un changement de paradigme. Cet article va plus loin — il couvre le socle technique qui rend cette optimisation possible.

Comment les moteurs IA consomment votre site

Pour comprendre l'importance des données structurées, il faut d'abord comprendre comment les IA accèdent à votre contenu. Il existe deux voies distinctes, et elles ne traitent pas le même signal. Voie 1 : via l'index de recherche. Google AI Overview et Bing Copilot s'appuient sur leur index existant — celui que Googlebot et Bingbot alimentent en crawlant votre site. Dans ce cas, le JSON-LD que vous avez placé dans vos pages a été pré-traité et intégré au graphe de connaissances. L'IA raisonne sur des données enrichies sémantiquement. C'est là que le schema.org a le plus d'impact. Voie 2 : le fetch direct en temps réel. ChatGPT et Perplexity, quand ils crawlent une page en live, lisent le HTML brut sans moteur de rendu complet. Des tests empiriques (SearchViu, novembre 2025) ont confirmé que ces agents traitent le JSON-LD comme du texte brut — ils ne le parsent pas comme des données structurées. Pour eux, c'est votre HTML sémantique propre et votre fichier llms.txt qui comptent. Concrètement : le JSON-LD est crucial en amont, au niveau de l'indexation et du graphe de connaissances. Mais pour les agents qui vous crawlent en temps réel, c'est la qualité de votre HTML et de vos métadonnées qui fait la différence. Les deux approches sont complémentaires, pas concurrentes.

Schema.org et JSON-LD : ce qui fait vraiment la différence

Avoir du schema.org sur son site, tout le monde en parle. Mais les études récentes révèlent une nuance contre-intuitive : un schema pauvre fait pire que pas de schema du tout. L'étude Growth Marshal (n=730 citations IA) montre qu'un schema riche et bien renseigné obtient un taux de citation de 61.7%, contre 59.8% pour les pages sans schema — mais les pages avec un schema minimal et bâclé tombent à 41.6%. La qualité bat la quantité. Alors, quels sont les types et propriétés qui comptent vraiment pour la visibilité IA ? L'identité d'abord. Organization avec sameAs pointant vers Wikidata, Wikipedia, LinkedIn — c'est votre ancre d'entité. Les LLMs utilisent ces références croisées pour vérifier que vous existez et résoudre les ambiguïtés. Ajoutez un @id stable (ex. https://votresite.com/#organization) pour créer un identifiant persistant dans le graphe. Le contenu ensuite. BlogPosting avec un author typé en Person (pas une simple string), publisher, datePublished et dateModified. La propriété mainEntityOfPage aide les LLMs à identifier le sujet principal. FAQPage reste le type le plus impactant pour la citation IA — 67% de taux de citation selon Frase.io — mais uniquement si le Q&A est le contenu principal de la page. Les propriétés IA-natives. speakable signale les passages extractibles par l'IA. mentions lie explicitement les entités citées dans votre contenu. Et sameAs — que je mentionne souvent — est probablement la propriété la plus impactante pour la reconnaissance par les LLMs. Elle connecte votre entité locale au web de connaissances global que les IA utilisent comme source de vérité.

Au-delà de schema.org : la stack complète de 2026

Schema.org n'est plus seul. En 2026, une stack multicouche émerge pour rendre les sites web lisibles par les IA et les agents autonomes. llms.txt — proposé par Jeremy Howard en 2024 — est un fichier Markdown placé à la racine de votre site qui donne aux LLMs une carte sémantique curatée de vos contenus clés. Là où le JSON-LD décrit chaque page individuellement, llms.txt offre une vue d'ensemble navigable. Adopté par Anthropic, Vercel et Hugging Face. Google ne l'utilise pas (confirmé), mais sa valeur est réelle pour les pipelines RAG et les agents de documentation. J'en parle en détail dans mon article dédié. NLWeb est peut-être le développement le plus significatif. Créé par R.V. Guha — l'inventeur de RSS, RDF et schema.org lui-même — ce projet Microsoft transforme n'importe quel site en interface conversationnelle en consommant son schema.org existant et ses flux RSS. Chaque instance NLWeb est aussi un serveur MCP. Le message est clair : le monde du structured data pivote officiellement vers la consommation par agents IA. MCP, A2A et WebMCP forment la couche des protocoles agents. MCP (97 millions de téléchargements SDK/mois) connecte les agents aux outils. A2A (Google) permet la coordination entre agents. WebMCP (draft W3C, février 2026) standardise l'exposition de capacités web aux agents IA via le navigateur. J'ai détaillé MCP dans un article dédié. Et au milieu de tout ça, les flux RSS/Atom vivent une renaissance inattendue : signal de fraîcheur pour les crawlers (Google Feedfetcher les crawle toutes les heures), source de données primaire pour NLWeb, et feed structuré directement consommable par les pipelines IA.

Les erreurs qui coûtent cher — et la checklist pour bien faire

Les erreurs de données structurées ne sont pas anodines. Elles peuvent activement nuire à votre visibilité, pas seulement ne rien apporter. Voici les plus courantes et les plus coûteuses. Schema minimal ou bâclé. C'est l'erreur numéro un. Mettre un Organization avec juste le nom et l'URL, sans sameAs, sans logo, sans contactPoint — c'est pire que de ne rien mettre. Les moteurs IA interprètent un schema vide comme un signal de faible autorité. Author en string au lieu d'objet. Écrire "author": "Jean Dupont" au lieu de "author": {"@type": "Person", "name": "Jean Dupont"} — ça casse le graphe d'entités. L'IA ne peut pas résoudre l'identité de l'auteur ni la relier à d'autres signaux d'autorité. FAQPage sur une page où le Q&A n'est pas le contenu principal. Google a durci les règles : le schema FAQ n'est éligible aux rich results que si les questions-réponses sont le contenu primaire de la page. Les ajouter en bas d'un article de blog est maintenant considéré comme du spam. Dates au mauvais format. ISO 8601 est obligatoire : 2026-04-02T09:00:00+02:00. Pas de 02/04/2026, pas de April 2, 2026. Markup décrivant du contenu invisible. Du schema pour du contenu dans des onglets fermés, derrière du JavaScript, ou simplement absent de la page — Google peut appliquer une action manuelle. La checklist pour bien faire : implémenter Organization avec sameAs et @id sur toutes les pages. Ajouter BlogPosting avec author typé, publisher, dates et mainEntityOfPage. Utiliser BreadcrumbList sur toutes les pages hors homepage. Connecter les entités entre elles via @id au lieu de dupliquer les données. Valider avec le test Rich Results de Google et le validateur schema.org. Et monitorer dans Google Search Console, onglet Améliorations, chaque semaine.

Mesurer l'impact : les KPIs qui comptent

Implémenter des données structurées sans mesurer leur impact, c'est naviguer à l'aveugle. Voici les métriques à suivre, par ordre de priorité.

Niveau 1 — Rich Results. Dans Google Search Console, l'onglet Améliorations montre les impressions, clics et erreurs de vos rich results par type de schema. Les études montrent un gain de CTR de 3 à 7 points pour les pages avec rich results actifs. C'est votre premier indicateur : zéro erreur = éligibilité complète.

Niveau 2 — Visibilité IA. Mesurez votre taux de citation dans les réponses IA. Comment ? En interrogeant régulièrement ChatGPT, Perplexity et Gemini avec vos mots-clés stratégiques et en trackant la fréquence de mention. Des outils comme Otterly.ai ou le module AI de Semrush peuvent automatiser ce suivi. Pour Google AI Overviews, BrightEdge et Semrush proposent un monitoring dédié. J'explique la méthodologie complète dans mon article sur l'audit de présence LLM.

Niveau 3 — Trafic referral IA. Dans Google Analytics 4, trackez les sources chatgpt.com, perplexity.ai et gemini.google.com. Ce trafic est encore faible en volume absolu, mais il croît rapidement et son taux de conversion est souvent supérieur au trafic organique classique — l'utilisateur arrive avec une intention précise.

Niveau 4 — Impact business. Segmentez les sessions issues de rich results dans GA4 et mesurez leur taux de conversion vs. les sessions organiques standard. La donnée structurée ne se justifie que si elle génère de la valeur — pas des vanity metrics.

Notre outil d'audit SEO & GEO gratuit vous permet de vérifier l'état de vos données structurées en quelques secondes. Et si vous voulez un plan d'action complet pour optimiser votre visibilité IA — du schema.org à la stratégie GEO — parlons-en.

Données structurées pour l'IA : schema.org, JSON-LD et au-delà