Les pièges et erreurs statistiques

Une connaissance des statistiques est vitale pour notre compréhension du monde, mais une connaissance incomplète de celles-ci peut piéger celui qui n'est pas méfiant.

Les "pièges statistiques" pourraient être définis comme les "moyens" par lesquels les statistiques peuvent être mal interprétées. Une meilleure connaissance de ces pièges est importante parce que les statistiques jouent un rôle vital dans la prise de décision, qu'elle soit politique, scientifique, dans le monde des affaires ou lorsque vous devez prendre une décision (ou votre médecin) sur le traitement le plus adéquat à prendre quand vous êtes malade. Dans cet article nous donnerons plusieurs exemples d'interprétations erronées ou de mauvaises utilisations des statistiques. Ces illustrations mettent l'accent sur le message selon lequel, quand nous sommes confrontés à un argument reposant sur des "faits statistiques", il est toujours bon de garder un oeil sceptique, et ce malgré l'aura d'objectivité quasi religieuse qui les entoure.


Randomisation et double-aveugle

Un des premiers aspects de l'erreur statistique, dans le cadre d'études scientifiques, est celui du respect de ces deux conditions que sont la randomisation et le double-aveugle. Quand ces conditions sont parfaitement respectées, elles permettent d'éviter les biais propres à tout jugement humain. De nombreuses études pêchent par manque de prudence dans le respect de ces procédures. Pour un développement plus important de ces notions, rendez-vous sur la page qui leur est consacrée.


Le piège du contrôle unique

L'autre moyen pour se vautrer dans l'erreur peut provenir de résultats positifs tirés d'un seul moyen de contrôle. Considérons la figure 1 tirée d'une étude de Brown & Ennis (2001) cherchant à prouver la réalité de la "mémoire de l'eau". Elle représente le pourcentage d'inhibition de l'activité basophile pour 20 dilutions différentes. S'il n'y avait aucune différence entre l'eau pure et l'histamine diluée, on s'attendrait à trouver autant de barres en haut que de barres en bas. Le fait qu'il y ait 18 barres en haut et seulement 2 en bas suggère qu'il existe une différence. Cependant, l'étude de Brown & Ennis n'explique pas clairement si les 20 dilutions d'histamine ont été comparées au même élément de contrôle, ou à des éléments de contrôlés différents. Ceci illustre un autre piège statistique. Si les dilutions étaient toutes comparées à une seule dilution de contrôle, il suffirait que celle-ci soit, par hasard, loin des 21 groupes pour produire des différences significatives comme celles trouvées Figure 1.

Fig. 1. Pourcentage d'inhibition de l'activité basophile par dilutions histamine. (Brown and Ennis, 2001)


Le test des hypothèses et valeur de p

Tester les hypothèses joue un rôle important en science. Par exemple, prenons les résultats du premier laboratoire dans l'expérience de dilution de l'émission Horizon (émission de télé britannique ayant testé scientifiquement l'homéopathie), la valeur de p dans le test, pour ce qui est de l'absence de différence entre l'eau pure et l'histamine, a été calculée à 0,6. Ce qui signifie qu'il y avait 60% de chance de tomber sur un résultat tel que celui obtenu, ou un plus extrême, supposant qu'il n'y a aucune différence entre l'eau et l'histamine. Ainsi, parce que 60% est une probabilité considérable, nous n'avons aucune raison de douter de l'affirmation selon laquelle il n'y a pas de différence.

Il existe plusieurs façons de mal calculer la valeur de p. L'une d'elles est le test Post Hoc, où le test de l'hypothèse est choisi après que les données aient été collectées et le modèle choisit. Un autre moyen est de recalculer la valeur de p après avoir augmenté la quantité de données. Ces deux pratiques ont pour effet de rendre plus probable un résultat concluant en l'absence de différence.

Quand on cherche des modèles dans les données, calculer les valeurs de p post hoc et avec des règles pas très arrêtées peut être un outil valable. Mais une petite valeur de p calculée par ce moyen devrait être traitée avec une attention toute particulière, et utilisée seulement dans le but de motiver une expérience complémentaire quand les détails de tous les tests des hypothèses sont décidés, avant que les données soient collectées.

Il est important de garder à l'esprit la différence entre la "différence statistique" et la "différence pratique". Par exemple, le programme de recherches des anomalies de Princeton (PEAR - http://www.princeton.edu/pear/ ) a conclu pendant plus de 20 ans que les êtres humains pouvaient influencer, par la simple pensée, un générateur aléatoire de chiffres (0 et 1), en produisant une probabilité que le 1 sorte à environ 0,501 au lieu de 0.5. Toutes choses ignorées par ailleurs, les faibles valeurs de p utilisées afin de justifier cette conclusion sont suspectes parce qu'elles reposent sur des données provenant d'une expérience en cours n'ayant pas de règles clairement arrêtées.


Le biais de publication

Les chercheurs qui ont dirigé l'expérience (négative) de "dilution Horizon" ont écrit un papier, mais ont eu toutes les difficultés à le publier dans un journal scientifique. Ils se sont tournés vers Nature, Science, Nature Medecine et le British Medical Journal. Ceci illustre le phénomène du biais de publication, où des études avec un résultat positif intéressant sont plus susceptibles d'être publiées que celles ayant des résultats négatifs. Les premières seront probablement plus "vendeuses" que les secondes. Ainsi, la littérature scientifique finit par contenir plus d'études laissant une hypothèse fausse se voir considérée comme vraie, plutôt que des études montrant que l'hypothèse est fausse.

Pour illustrer ceci, considérons 1000 expériences pour tester si la probabilité de sortie du "pile" d'une pièce de 1 euro est différente de celle de la sortie du "pile" d'une pièce de 2 euros. Si une valeur de p à 0,05 est considérée comme significative, nous aurons donc environ 50 études qui concluront qu'il y a une différence, et peut-être 20 d'entre elles seront publiées. Il en résultera 22 études, supportant pratiquement toutes l'hypothèse selon laquelle il existe bien une différence. Quid de la majorité des études négatives ? Elles resteront ignorées.

Le bais d'échantillon

Considérons un grand vol d'hirondelles rouges tachetées dans le ciel. Tout comme l'ornithologue qui découvre ces espèces, vous voulez connaître la moyenne du poids de ces oiseaux. Mais il reste peu de temps, le groupe d'oiseau passe et il constitue une technique d'échantillon urgente. En tirant au hasard dans le tas avec votre arme (désolé pour les amis des bêtes), plusieurs douzaines d'oiseaux tomberont au sol et vous trouverez que leur poids moyen est de 176 grammes. Sommes-nous face à une bonne estimation du poids moyen de tous les oiseaux du groupe ?

Considérons une balle de fusil traversant au hasard la volée. Cette balle est plus susceptible de frapper un gros oiseau qu'un petit. Donc, l'échantillon contiendra probablement un grand nombre de gros oiseaux. Ceci implique que l'estimation de 176 grammes est biaisée et trop élevée.

D'un autre côté, considérons 2 oiseaux qui ont été frappés, un petit et un gros. Le gros est plus susceptible de survivre à la blessure que le petit, et donc plus susceptible de continuer à voler. Ceci signifie que l'échantillon contient un grand nombre de petits oiseaux et que l'estimation de 176 grammes est trop basse.

Nous voyons donc qu'il y a plusieurs biais d'échantillon à l'oeuvre, n'agissant pas tous dans la même direction. Ainsi, la situation est complexe et il serait très difficile de calculer une bonne estimation de la moyenne du poids de tous les oiseaux de la volée en utilisant les poids des échantillons d'oiseaux. Sans parler de l'éthique et de la loi sur les armes, tuer les oiseaux n'est pas vraiment une bonne idée.

Le biais d'échantillon est donc d'une importance capitale dans une enquête. Par exemple, prenez une étude où on demande aux gens quel est leur revenu avant impôts. Il est possible que ceux ayant de gros revenus soient réticents à révéler cette information. En conséquence, si nous ignorons simplement ces personnes et faisons une moyenne uniquement sur les revenus de ceux qui ont répondu, nous pourrions avoir une estimation beaucoup plus faible que ce qu'elle est en réalité.


Pour aller plus loin :
- Statistiques : Méfiez-vous ! Nicolas Gauvrit.
- Attention, statistiques !, Joseph Klatzman.
- Penser le risque : Apprendre à vivre dans l'incertitude. Gerd Gigerenzer.
- Coïncidences : Nos représentations du hasard. Gérald Bronner.
- Crimes contre la logique. Comment ne pas être dupe des beaux-parleurs. Jamie Whyte.
- 150 petites expériences de psychologie (pour mieux comprendre nos semblables), Serge Ciccotti.
- Devenez sorciers, devenez savants, G.Charpak et H.Broch.
- Les influences inconscientes. De l'effet des émotions et des croyances sur le jugement. Ahmed Channouf.

A lire aussi :
- Les erreurs de choix statistiques.
- Les variables de confusion.
- Les correlations illusoires.
- Les biais et erreurs des études scientifiques.
- L'illusion de la guérison.
- Les illusions logiques.
- Le pouvoir des coïncidences.
- Gagnez au loto !
- Les actes rares.

References :
- Brown V. G., and Ennis M. (2001). Flowcytometric analysis of basophil activation: inhibition by histamine at conventional and homeopathic concentrations. Inflammation Research, 50, 47-48.

Ces articles pourraient aussi vous intéresser :