Ne mesurez pas qu'une fois : la visibilité GEO est une distribution, pas un score
Basé principalement sur le papier "Don't Measure Once: Measuring Visibility in AI Search (GEO)" de Schulte (avril 2026), et son papier compagnon "Quantifying Uncertainty in AI Visibility: A Statistical Framework for Generative Search Measurement" (mars 2026).
Papers : arXiv:2604.07585 | arXiv:2603.08924 | arXiv:2604.25707
Le problème : votre mesure GEO ment, et vous ne le savez pas
Vous lancez une requête sur ChatGPT. Votre marque est citée — top 1, paragraphe 2. Vous notez le résultat dans un tableur, vous lancez la suivante. Vous compilez 30 requêtes. Vous tirez une conclusion sur votre "visibilité IA."
Le problème : si vous relancez exactement les mêmes 30 requêtes 24 heures plus tard, vous obtiendrez un résultat différent. Pas marginalement — significativement. Certaines marques disparaissent. D'autres apparaissent. Les sources citées changent. L'ordre change. Le ton change.
C'est le constat central d'une nouvelle vague de recherche académique sortie au printemps 2026 : la recherche IA n'est pas déterministe, et la mesurer comme si elle l'était produit des chiffres faux.
Cette mécanique heurte de plein fouet la pratique SEO traditionnelle. Pendant 25 ans, mesurer la visibilité voulait dire : ouvrir un classement, lire une position, l'archiver. La position 3 est la position 3. Elle ne devient pas la position 7 entre deux scrolls. La recherche générative casse cette propriété — et la plupart des outils GEO du marché ne l'ont pas encore intégré dans leur méthodologie de mesure.
La thèse en une phrase
La performance GEO doit être caractérisée comme une distribution, pas comme un point unique.
C'est la formulation qu'utilise le papier de référence d'avril 2026, et c'est l'idée que les autres travaux récents — académiques comme industriels — viennent corroborer chacun à sa manière.
Concrètement, si vous voulez répondre à la question "quelle est ma part de citation sur ChatGPT pour cette requête ?", la bonne réponse n'est pas un nombre. C'est une plage : "entre 18% et 34% avec un intervalle de confiance à 95%, mesuré sur N runs réalisés sur K jours." Tout ce qui est plus court que cela est, statistiquement, du bruit habillé en signal.
Trois sources de variabilité, et pourquoi elles s'additionnent
1. Variabilité par run (intra-jour)
Même requête, même moteur, deux exécutions à 30 minutes d'intervalle : les réponses diffèrent. Les LLMs derrière ChatGPT, Gemini, Perplexity ou Claude utilisent un échantillonnage stochastique (température > 0) au moment de la génération. Le pipeline de retrieval (quelles pages sont récupérées avant que le modèle ne réponde) introduit une seconde couche d'aléa.
Le papier statistique compagnon (mars 2026) quantifie cet effet via du bootstrap : sur des comparaisons de domaines, beaucoup de différences apparentes tombent à l'intérieur du plancher de bruit. Autrement dit : si vous voyez 22% pour la marque A et 19% pour la marque B sur un seul run, vous n'avez statistiquement pas montré que A est devant B. Vous avez peut-être juste tiré au hasard.
2. Variabilité inter-moteurs
L'industrie a quantifié cet effet avec des chiffres très clairs :
- ~11% de chevauchement de domaines cités entre ChatGPT et Perplexity sur les mêmes requêtes (Digital Bloom Report, repris par Geneo)
- ~14% de chevauchement d'URL entre les citations de Google AI Mode et le top 10 organique historique (SE Ranking, repris par Geneo)
Traduction : être bien cité sur Perplexity ne dit presque rien sur ChatGPT. Et bien classé en SEO traditionnel ne garantit pas d'apparaître dans AI Mode. Ce ne sont pas trois vues du même classement — ce sont trois classements différents, qu'il faut traiter et mesurer séparément.
3. Variabilité temporelle (drift)
Les modèles changent. Les corpus changent. Les pipelines de retrieval changent. Une marque dominante en mars peut avoir glissé en mai parce qu'OpenAI a mis à jour son routage entre modèles, parce qu'un domaine concurrent a publié un contenu massivement repris ailleurs, ou simplement parce que le ranker interne a été ré-entraîné.
Ces trois variances ne se neutralisent pas — elles se composent. Une mesure prise un mardi matin sur Perplexity n'est ni la mesure d'un jeudi soir, ni la mesure du même créneau sur ChatGPT, ni la mesure de la semaine suivante.
La structure cachée : tout suit une power-law
Le papier compagnon (arXiv:2603.08924) ajoute une découverte importante sur la forme de la distribution des citations : elles suivent une loi de puissance. Un petit nombre de domaines capte la grande majorité des citations ; la longue queue n'a presque rien.
L'industrie a confirmé cela à grande échelle. Une analyse réalisée par Trakkr.ai sur 1,3 million de citations IA réparties sur 60 209 domaines retrouve exactement ce pattern : la fréquence de citation suit une power-law.
Deux conséquences pratiques pour la mesure :
- Les métriques moyennes mentent. La moyenne d'une distribution power-law est tirée par les outliers. Si vous reportez "domaine moyen cité 4,2 fois sur cette requête," vous décrivez un domaine qui n'existe pas. Préférez la médiane et les percentiles.
- Les écarts entre marques sont énormes en absolu, et minuscules pour la longue queue. Passer de la position 80 à la position 60 dans la distribution n'augmente quasiment pas vos citations. Sortir du top 20, ou y entrer, change tout. La granularité de mesure utile n'est pas linéaire.
Citation ≠ absorption
Un troisième papier d'avril 2026 (arXiv:2604.25707) ajoute une couche que la mesure naïve oublie : être cité ne veut pas dire avoir été utilisé.
Les moteurs IA distinguent deux étapes :
- Sélection — votre URL apparaît dans la liste des sources que le moteur a consultées
- Absorption — votre contenu a effectivement nourri la réponse générée (les phrases produites s'appuient sur ce que vous avez écrit)
Une page peut être sélectionnée et citée en bas de réponse sans qu'aucune des phrases produites ne reflète son contenu. À l'inverse, une page peut être absorbée et reformulée sans citation explicite. Mesurer uniquement la présence d'URL dans la liste de citations rate la moitié de l'image.
C'est pour cela que la mesure GEO sérieuse doit comporter au moins deux couches :
- Fréquence de sélection — taux d'apparition de votre domaine dans les citations sur N runs
- Profondeur d'absorption — quelle proportion du texte généré reflète votre contenu (par chevauchement lexical, sémantique, ou par marquage explicite par citation en ligne)
L'opérationnalisation : combien d'échantillons faut-il ?
Côté pratique, le guide de mesure de Geneo transforme la thèse académique en règles applicables. Le standard qui se dégage :
- 3 à 5 runs same-day par requête par moteur, pour cadrer la variance intra-jour
- Tracking longitudinal sur plusieurs semaines, pour détecter le drift
- Couverture multi-moteurs explicite (au minimum ChatGPT, Perplexity, Gemini), parce que l'overlap est trop faible pour extrapoler depuis un seul
Et un set de métriques adaptées à la nature distributionnelle du signal :
| Métrique | Ce qu'elle mesure |
|---|---|
| Jaccard overlap | Stabilité des sources citées entre deux runs (set similarity) |
| Source Survival Rate | Pourcentage de sources qui survivent à un run suivant |
| Domain Rotation Index | Vitesse à laquelle l'ensemble des domaines cités tourne |
| Drift Rate | Variation de votre part de citation d'une période à l'autre |
Geneo propose même des seuils d'alerte concrets :
- Jaccard overlap < 0,35 sur deux jours consécutifs → instabilité élevée, ne pas tirer de conclusion business
- Drift Rate > 40% semaine sur semaine → quelque chose a bougé côté moteur ou côté écosystème, déclencher une investigation
C'est la traduction managériale du papier : ne pas juste mesurer, mais mesurer avec une politique d'alerte qui distingue le bruit du signal.
Le cadre à trois étages d'iPullRank
L'agence iPullRank a publié en parallèle un cadre conceptuel qui résume bien la nouvelle discipline. Leur formulation :
"Le share-of-voice n'est plus un pourcentage statique de positions occupées, mais une distribution statistique de présence sur de nombreux essais. Le mesurer demande un échantillonnage répété, une modélisation probabiliste, et l'acceptation que la visibilité n'est pas un instantané mais une plage de résultats probables."
Ils recommandent une stack de mesure en trois étages :
- Input metrics — quels contenus sont produits, quelles sources externes vous mentionnent, quelle est votre couverture thématique (vous contrôlez tout)
- Channel metrics — comment les moteurs IA traitent votre contenu : taux de citation, profondeur d'absorption, latence de propagation après publication (vous mesurez)
- Performance metrics — l'impact business : trafic référé, qualité des leads attribués à des canaux IA, lifts de conversion sur audience exposée à votre marque dans les réponses (vous attribuez)
Le piège classique du GEO de première génération est de mesurer uniquement la couche 2 sans la connecter aux autres. Vous obtenez un score qui bouge sans que vous puissiez ni en expliquer la cause (couche 1) ni en mesurer les conséquences (couche 3).
Le contre-argument de Google : "GEO et AEO sont un mythe"
En mai 2026, Google a publiquement rétorqué que AI Overviews et AI Mode utilisent les mêmes systèmes de ranking que la recherche classique. Leur position : si vous êtes bien classé en SEO traditionnel, vous apparaîtrez dans les réponses IA. Le GEO serait du SEO rebadgé.
Cette affirmation est factuellement vraie pour le périmètre étroit de Google. Elle est néanmoins doublement insuffisante.
Premièrement, les ~14% de chevauchement d'URL mesurés entre AI Mode et le top 10 organique disent l'inverse : même chez Google, l'écart entre "bien rangé en SERP" et "cité par l'IA" est massif. Les deux systèmes partagent une infrastructure ; ils n'en font pas la même chose au moment de répondre.
Deuxièmement, et c'est le point central, Google parle uniquement de Google. L'argument ne touche pas ChatGPT, Perplexity, Claude, ni Gemini hors AI Mode. Or c'est précisément là que le problème de variabilité de mesure est le plus aigu — parce que ces moteurs n'utilisent pas le ranking de Google, parce que leur retrieval est différent, et parce que leur stochasticité de génération est exposée beaucoup plus directement à l'utilisateur.
Conclusion : la position de Google est cohérente pour son écosystème mais ne dispense personne de mesurer rigoureusement les autres moteurs. Si quoi que ce soit, elle confirme la thèse — chaque moteur a son propre régime statistique.
Synthèse pratique : que faire dès demain
Si vous gérez la visibilité IA d'une marque, voici la traduction opérationnelle des cinq sources :
Arrêtez de raisonner en "ma position sur ChatGPT pour cette requête." Cette phrase est mal posée. La bonne formulation est "ma part de citation moyenne sur ChatGPT pour cette requête sur 5 runs same-day, avec son intervalle de confiance."
Échantillonnez 3 à 5 fois la même requête dans la même fenêtre temporelle, sur chaque moteur que vous suivez. Une seule mesure est interdite pour conclure.
Multi-moteurs par défaut. Au minimum ChatGPT, Perplexity, Gemini. L'overlap inter-moteurs est trop faible pour qu'un seul soit représentatif.
Suivez la stabilité, pas seulement le score. Jaccard overlap, drift rate, survival rate. Une marque dont la position est stable à 18% est en meilleure posture stratégique qu'une marque qui oscille entre 10% et 30% avec une moyenne de 20% — même si la seconde a un meilleur "score" sur un run isolé.
Mesurez deux couches : sélection ET absorption. La citation est nécessaire mais pas suffisante. Sans absorption, votre marque apparaît dans une note de bas de page que personne ne lit.
Définissez vos seuils d'alerte avant de mesurer. Jaccard < 0,35 deux jours de suite, drift > 40% semaine sur semaine : ce ne sont pas des constantes universelles, mais ce sont des points de départ raisonnables que vous calibrerez sur votre historique.
Documentez vos protocoles. Un benchmark GEO sans description du protocole de mesure (nombre de runs, fenêtre temporelle, moteurs couverts, version de modèle si capturable) n'est pas comparable à un autre. La méthodologie est la moitié du résultat.
La vue d'ensemble
Le GEO est passé en deux ans d'une discipline naissante (le papier fondateur de Princeton/IIT Delhi à KDD 2024) à une discipline mesurable. La phase actuelle est celle où la mesure rattrape la pratique — et où l'on découvre que beaucoup de chiffres communiqués jusqu'ici sont de la fiction statistique : des moyennes calculées sans variance, des points uniques traités comme des tendances, des comparaisons inter-moteurs faites comme s'il s'agissait du même classement.
Le tournant est sain. Il oblige les outils, les agences et les équipes internes à publier des protocoles, à exposer des intervalles de confiance, et à arrêter de promettre des certitudes que la nature même des moteurs génératifs ne permet pas. C'est exactement le sens de l'investissement que nous mettons chez Traaker sur l'échantillonnage répété, le suivi multi-moteurs, et la séparation explicite entre sélection et absorption.
Le message tient en une ligne : en GEO, une seule mesure n'est pas une mesure.
Sources principales : Schulte, "Don't Measure Once: Measuring Visibility in AI Search (GEO)," arXiv:2604.07585, 8 avril 2026 — "Quantifying Uncertainty in AI Visibility," arXiv:2603.08924, mars 2026 — "From Citation Selection to Citation Absorption," arXiv:2604.25707, avril 2026.
Sources industrielles : iPullRank, "The Measurement Chasm: Tracking GEO Performance" — Geneo, "Ultimate Guide to AI Search Volatility Tracking" — Trakkr.ai, AI Citation Tracking (analyse de 1,3M de citations sur 60 209 domaines) — Google, position publique sur AI Overviews / AI Mode (mai 2026).