Menteurs, guignols et autres imposteurs


Les pièges et erreurs statistiquesLes pièges et erreurs statistiques


Une connaissance des statistiques est vitale pour notre compréhension du monde, mais une connaissance incomplète de celles-ci peut piéger celui qui n'est pas méfiant.

Les "pièges statistiques" pourraient être définis comme les "moyens" par lesquels les statistiques peuvent être mal interprétées. Une meilleure connaissance de ces pièges est importante parce que les statistiques jouent un rôle vital dans la prise de décision, qu'elle soit politique, scientifique, dans le monde des affaires ou lorsque vous devez prendre une décision (ou votre médecin) sur le traitement le plus adéquat à prendre quand vous êtes malade. Dans cet article nous donnerons plusieurs exemples d'interprétations erronées ou de mauvaises utilisations des statistiques. Ces illustrations mettent l'accent sur le message selon lequel, quand nous sommes confrontés à un argument reposant sur des "faits statistiques", il est toujours bon de garder un oeil sceptique, et ce malgré l'aura d'objectivité quasi religieuse qui les entoure.


Randomisation et double-aveugle

Un des premiers aspects de l'erreur statistique, dans le cadre d'études scientifiques, est celui du respect de ces deux conditions que sont la randomisation et le double-aveugle. Quand ces conditions sont parfaitement respectées, elles permettent d'éviter les biais propres à tout jugement humain. De nombreuses études pêchent par manque de prudence dans le respect de ces procédures. Pour un développement plus important de ces notions, rendez-vous sur la page qui leur est consacrée.


Le piège du contrôle unique

L'autre moyen pour se vautrer dans l'erreur peut provenir de résultats positifs tirés d'un seul moyen de contrôle. Considérons la figure 1 tirée d'une étude de Brown & Ennis (2001) cherchant à prouver la réalité de la "mémoire de l'eau". Elle représente le pourcentage d'inhibition de l'activité basophile pour 20 dilutions différentes. S'il n'y avait aucune différence entre l'eau pure et l'histamine diluée, on s'attendrait à trouver autant de barres en haut que de barres en bas. Le fait qu'il y ait 18 barres en haut et seulement 2 en bas suggère qu'il existe une différence. Cependant, l'étude de Brown & Ennis n'explique pas clairement si les 20 dilutions d'histamine ont été comparées au même élément de contrôle, ou à des éléments de contrôlés différents. Ceci illustre un autre piège statistique. Si les dilutions étaient toutes comparées à une seule dilution de contrôle, il suffirait que celle-ci soit, par hasard, loin des 21 groupes pour produire des différences significatives comme celles trouvées Figure 1.

Pourcentage d'inhibition de l'activité basophile Par dilutions histamine

Fig. 1. Pourcentage d'inhibition de l'activité basophile par dilutions histamine. (Brown and Ennis, 2001)


Le test des hypothèses et valeur de p

Tester les hypothèses joue un rôle important en science. Par exemple, prenons les résultats du premier laboratoire dans l'expérience de dilution de l'émission Horizon (émission de télé britannique ayant testé scientifiquement l'homéopathie), la valeur de p dans le test, pour ce qui est de l'absence de différence entre l'eau pure et l'histamine, a été calculée à 0,6. Ce qui signifie qu'il y avait 60% de chance de tomber sur un résultat tel que celui obtenu, ou un plus extrême, supposant qu'il n'y a aucune différence entre l'eau et l'histamine. Ainsi, parce que 60% est une probabilité considérable, nous n'avons aucune raison de douter de l'affirmation selon laquelle il n'y a pas de différence.

Il existe plusieurs façons de mal calculer la valeur de p. L'une d'elles est le test Post Hoc, où le test de l'hypothèse est choisi après que les données aient été collectées et le modèle choisit. Un autre moyen est de recalculer la valeur de p après avoir augmenté la quantité de données. Ces deux pratiques ont pour effet de rendre plus probable un résultat concluant en l'absence de différence.

Les pièges statistiques Quand on cherche des modèles dans les données, calculer les valeurs de p post hoc et avec des règles pas très arrêtées peut être un outil valable. Mais une petite valeur de p calculée par ce moyen devrait être traitée avec une attention toute particulière, et utilisée seulement dans le but de motiver une expérience complémentaire quand les détails de tous les tests des hypothèses sont décidés, avant que les données soient collectées.

Il est important de garder à l'esprit la différence entre la "différence statistique" et la "différence pratique". Par exemple, le programme de recherches des anomalies de Princeton (PEAR - http://www.princeton.edu/pear/ ) a conclu pendant plus de 20 ans que les êtres humains pouvaient influencer, par la simple pensée, un générateur aléatoire de chiffres (0 et 1), en produisant une probabilité que le 1 sorte à environ 0,501 au lieu de 0.5. Toutes choses ignorées par ailleurs, les faibles valeurs de p utilisées afin de justifier cette conclusion sont suspectes parce qu'elles reposent sur des données provenant d'une expérience en cours n'ayant pas de règles clairement arrêtées.


Le biais de publication

Les chercheurs qui ont dirigé l'expérience (négative) de "dilution Horizon" ont écrit un papier, mais ont eu toutes les difficultés à le publier dans un journal scientifique. Ils se sont tournés vers Nature, Science, Nature Medecine et le British Medical Journal. Ceci illustre le phénomène du biais de publication, où des études avec un résultat positif intéressant sont plus susceptibles d'être publiées que celles ayant des résultats négatifs. Les premières seront probablement plus "vendeuses" que les secondes. Ainsi, la littérature scientifique finit par contenir plus d'études laissant une hypothèse fausse se voir considérée comme vraie, plutôt que des études montrant que l'hypothèse est fausse.

Pour illustrer ceci, considérons 1000 expériences pour tester si la probabilité de sortie du "pile" d'une pièce de 1 euro est différente de celle de la sortie du "pile" d'une pièce de 2 euros. Si une valeur de p à 0,05 est considérée comme significative, nous aurons donc environ 50 études qui concluront qu'il y a une différence, et peut-être 20 d'entre elles seront publiées. Il en résultera 22 études, supportant pratiquement toutes l'hypothèse selon laquelle il existe bien une différence. Quid de la majorité des études négatives ? Elles resteront ignorées.

Le bais d'échantillon

Considérons un grand vol d'hirondelles rouges tachetées dans le ciel. Tout comme l'ornithologue qui découvre ces espèces, vous voulez connaître la moyenne du poids de ces oiseaux. Mais il reste peu de temps, le groupe d'oiseau passe et il constitue une technique d'échantillon urgente. En tirant au hasard dans le tas avec votre arme (désolé pour les amis des bêtes), plusieurs douzaines d'oiseaux tomberont au sol et vous trouverez que leur poids moyen est de 176 grammes. Sommes-nous face à une bonne estimation du poids moyen de tous les oiseaux du groupe ?

Considérons une balle de fusil traversant au hasard la volée. Cette balle est plus susceptible de frapper un gros oiseau qu'un petit. Donc, l'échantillon contiendra probablement un grand nombre de gros oiseaux. Ceci implique que l'estimation de 176 grammes est biaisée et trop élevée.

D'un autre côté, considérons 2 oiseaux qui ont été frappés, un petit et un gros. Le gros est plus susceptible de survivre à la blessure que le petit, et donc plus susceptible de continuer à voler. Ceci signifie que l'échantillon contient un grand nombre de petits oiseaux et que l'estimation de 176 grammes est trop basse.

Nous voyons donc qu'il y a plusieurs biais d'échantillon à l'oeuvre, n'agissant pas tous dans la même direction. Ainsi, la situation est complexe et il serait très difficile de calculer une bonne estimation de la moyenne du poids de tous les oiseaux de la volée en utilisant les poids des échantillons d'oiseaux. Sans parler de l'éthique et de la loi sur les armes, tuer les oiseaux n'est pas vraiment une bonne idée.

Le biais d'échantillon est donc d'une importance capitale dans une enquête. Par exemple, prenez une étude où on demande aux gens quel est leur revenu avant impôts. Il est possible que ceux ayant de gros revenus soient réticents à révéler cette information. En conséquence, si nous ignorons simplement ces personnes et faisons une moyenne uniquement sur les revenus de ceux qui ont répondu, nous pourrions avoir une estimation beaucoup plus faible que ce qu'elle est en réalité.


Le paradoxe de Simpson

Prenons un test de dépistage d'un cancer quelconque, utilisé afin d'étudier au hasard la population. Nous aimerions décider si ce dépistage a de la valeur sur la base des données qui auront été obtenues sur 5 500 personnes qui ont eu un cancer ces 20 dernières années. Tout ceci est résumé dans le tableau 1.

  Dépistés Non dépistés
Nbre survécus 1850 1550
Nbre décédés 650 1450
Nbre total 2500 3000
% survécus 74% 52%
Tableau 1 Mortalité parmi la population testée et non testée.

Nous voyons que 2500 personnes dans la population ont découvert leur cancer grâce au dépistage (via le test alors qu'ils pensaient être en bonne santé). Parmi ces derniers, 74% ont survécu. 3000 autres personnes de la communauté ont eu ce cancer (ces personnes n'ont été au courant de leur cancer qu'après une présentation de leurs symptômes à leur médecin). Parmi ces 3000 cas non détectés, 52% ont survécu.

Il semblerait donc que dépister une population améliore les chances pour une personne de survivre. Ce qui donne du sens au test de dépistage parce qu'une détection tôt dans le temps signifie un traitement plus rapide, ce qui est toujours une bonne chose.

Cependant, il est possible qu'un tel dépistage ne fasse absolument aucune différence dans les chances des gens de survivre au cancer. Comment cela est-il possible ? Supposons que le cancer vienne sous deux formes distinctes : une croissance de la tumeur lente et facile à traiter, et une tumeur aggressive et foudroyante en très peu de temps.



Si nous testons au hasard (par dépistage) beaucoup de personnes, celles dont le test sera positif tendront à être celles qui ont une tumeur à croissance lente. Pour le comprendre, souvenez-vous de l'échantillon des oiseaux, dans laquelle la situation est parfaitement analogue.

Il s'ensuit que les cas dépistés contiendront plus probablement une grande proportion de tumeurs lentes. La situation pourrait être résumée comme dans le tableau 2.

  Tumeur lente   Tumeur rapide  
  Dépistés Non dépistés Dépistés Non dépistés
Survivants 1800 150 50 1400
Décédés 600 50 50 1400
Total 2400 200 100 2800
% Survivants 75% 75% 50% 50%

Nous voyons que dans chacun des deux groupes, les personnes qui ont été dépistées n'avaient aucun avantage sur celles qui ne l'ont pas été. Ce type de contradiction entre les conclusions qui peuvent être inférées des tableaux 1 et 2 est appelé le "paradoxe de Simpson". Il est dû à l'erreur dans la prise en compte d'une variable importante, appelée la variable de confusion, comme ici pour ce qui est des tumeurs lentes ou foudroyantes.

Le paradoxe de Simpson est un phénomène courant. Comme autre exemple, considérons la collecte de données sur les gauchers et les droitiers sur plusieurs décades et calculons l'âge moyen du décès pour chaque groupe. Nous pourrions très bien conclure que les droitiers vivent plus longtemps en moyenne que les gauchers, même s'il n'y a aucune différence. Le paradoxe dans ce cas pourrait être dû à la proportion de gauchers dans la population qui change dans le temps.


Les échantillons auto-sélectionnés

Un des types d'enquête devenu très populaire récemment est le sondage Internet. Par exemple, sur un site, à la question "les couleurs du drapeau australien devraient-elles être changées ?", sur les 9453 personnes qui ont répondu, 4941 ont répondu "oui", ce qui donne une proportion de 52%.

Cependant, il est plausible que les opposants aux couleurs actuelles du drapeau aient été plus passionnés par l'issue du sondage que les partisans du drapeau actuel, et étaient donc plus susceptibles d'enregistrer leur vote en ligne. Si c'est le cas, l'échantillon de 9453 contiendrait une proportion importante de réponses "oui". En conséquence, le résultat de 52% est trop haut.

Le seul moyen de trouver la proportion d'australiens qui veulent un nouveau drapeau est de conduire une enquête correctement réalisée, impliquant un large échantillon dans lequel chaque personne dans la population aurait une probabilité égale d'être sélectionnée. Un tel sondage a été réalisé à peu près à la même époque que le sondage internet. Ce sondage, conduit par l'Australian Constitutional Referendum Study en 1999 résultait en un échantillon aléatoire de 2223 australiens parmi lesquels 823, ou 37%, déclaraient vouloir changer de drapeau. Le fait que cette proportion soit plus basse que les 52% de l'enquête internet est logique avec notre hypothèse initiale, selon laquelle les opposants aux couleurs du drapeau étaient plus susceptibles de voter que les partisans.

L'autre problème avec les sondages internet vient de ce que les gens peuvent voter plusieurs fois. En outre, certaines personnes peuvent ne pas avoir d'ordinateur, et tout le monde ne saura pas qu'il existe un sondage en cours sur tel ou tel sujet. Ainsi, les sondages internet sont pratiquement inutiles, en plus de cumuler les biais des sondages de rue, et ceux qui leur sont propres, ils ne nous disent rien sur qui que ce soit, sinon sur ceux qui y ont participé. Nous retrouvons le même genre de problème avec les sondages par téléphone et toutes les enquêtes nécessitant des volontaires. Le problème qui se pose avec ce genre d'enquêtes est qu'elles se limitent à des échantillons auto-sélectionnés.


Les probabilités a priori et a posteriori

Considérons une maladie qui toucherait 1% de la population, et un test dont la précision de détection de cette maladie est de 90%. Supposons que nous prenions une personne au hasard pour la tester, et que le résultat soit positif (indiquant qu'il a la maladie). Quel est la probabilité pour qu'il ait réellement la maladie ? En premier lieu, ceci pourrait sembler idiot comme question. Après tout, n'avons-nous pas dit que test était précis ou juste à 90% ? Cependant, la réponse n'est pas 90%. Pour comprendre pourquoi, supposons que nous sélectionnions 1000 personnes dans la population et appliquions le test sur l'ensemble.

Environ 10 de ces personnes (i.e. 1%) auront la maladie, et 990 ne l'auront pas. Sur ces 10 personnes qui l'ont, environ 9 seront positifs (soit 90%) et 1 sera négatif. Pareillement, sur ces 990 qui ne l'auront pas, environ 99 (soit 10%) seront testés comme positifs et 891 (soit 90%) seront négatifs.

Nous voyons donc que le nombre total de gens qui seront positifs est d'environ 9+99=108. Parmi ces 108, environ 9 auront la maladie. De ce fait, la probabilité pour une personne testée positive d'avoir vraiment la maladie est de 9/108= 1/12 = 8,3%.

Notez la distinction entre la probabilité a priori pour une personne d'avoir la maladie (1%) et la probabilité a posteriori de l'avoir (8,3%). Cette distinction est instructive parce que cela montre qu'un résultat de test positif a (sensiblement) augmenté les chances pour une personne d'avoir la maladie (de plus de 700%).

C'est donc une confusion entre les probabilités a priori et a posteriori qui nous conduit à penser que 90% est la réponse à la question. Mais 90 est la probabilité a priori que le test soit correct, tandis que la question effectivement posée sur la probabilité a posteriori que le résultat du test soit correct est de 8,3%.

References :
- Brown V. G., and Ennis M. (2001). Flowcytometric analysis of basophil activation: inhibition by histamine at conventional and homeopathic concentrations. Inflammation Research, 50, 47-48.


Pour aller plus loin :
- Statistiques : Méfiez-vous ! Nicolas Gauvrit
- Attention, statistiques !, Joseph Klatzman
- Crimes contre la logique. Comment ne pas être dupe des beaux-parleurs. Jamie Whyte
- 150 petites expériences de psychologie (pour mieux comprendre nos semblables), Serge Ciccotti.
- Devenez sorciers, devenez savants, G.Charpak et H.Broch, Odile Jacob.
- Les influences inconscientes. De l'effet des émotions et des croyances sur le jugement. Ahmed Channouf

A lire aussi :
- Les variables de confusion
- Les correlations illusoires
- Les biais et erreurs des études scientifiques
- L'illusion de la guérison
- Les illusions logiques
- Le pouvoir des coïncidences
- Gagnez au loto !
- Les actes rares