Les erreurs de choix statistiques

D'après La statistique sans formule mathématique de Bernard PY.


Quelques définitions de statistique :

Moyenne : quotient d'une somme de valeur par leur nombre. Exemple, la moyenne des nombres 15, 20, 7, 8 et 10 est (15+20+7+8+10)/5 = 12
Mode : Valeur d'un caractère correspondant au plus grand effectif. Exemple, le mode de la série de chiffres 1, 3, 5, 5, 5, 5, 12, 20 est 5.
Mediane : valeur, nombre qui permet de séparer une population, une série numérique, en deux parties égales.

Il est difficile de répertorier tous les cas d'erreurs de choix statistiques possibles, mais l'étude de quelques exemples pemettra de mettre en relief la logique de choix de la valeur centrale la plus adaptée.


Premier exemple :

Que penser de la distribution suivante d'observations discrètes ? Quel est son "centre" ? Quel est le chiffre qui est significatif du "milieu de la série" ?

[ 2, 2, 2, 4, 6, 6, 6, 6, 6, 6, 6, 6, 7, 7, 7, 8, 8, 9, 1000 ]

Si on calcul la moyenne, on trouve : 1104/19 = 58,1.

Est-il raisonnable de penser que le "milieu" de cette série de chiffres se situe significativement aux alentours de 58 ? Non, bien évidemment. Visiblement, "il y a un intrus" : le résultat 1000 n'est pas dans le même ordre de grandeur que les autres. Il provient peut-être d'une réponse erronée non décelée ou d'une erreur de saisie, mais il peut aussi tout simplement représenter une réalité "hors normes". A ce niveau de l'interprétation statistique, on ne peut plus modifier les résultats de l'enquête : elle a été rendue.

On n'a donc pas le droit de le supprimer sur la simple idée qu'il apparaît différent des autres.

En outre, les règles de la satistique stipulent1 que le calcul de quelque caractéristique que ce soit doit absolument dépendre de toutes les observations de la série. En effet, si l'on ne suivait pas cette consigne, on aboutirait à des échantillons "épurés" qui faciliteraient certainement l'obtention de splendides résultats, mais qui perdraient toute validité scientifique. Il serait donc faux et malhonnête de supprimer ce résultat 1000 - par là même, dans ce présent cas, le choix de la moyenne s'avère être un mauvais choix.

Il vaut mieux choisir la médiane qui, laissant 9 observations "avant", et 9 observations "après", se trouve être beaucoup plus significative. Le résultat médian est 6. On a utilisé ici toutes les observations de la série. C'est effectivement plus réaliste que 58,1, mais il n'en reste pas moins que ce dernier résultat ne peut en aucune manière être qualifié de faux : il est mal adapté, c'est tout. On peut remarquer que, dans cet exemple, le mode (valeur dominante) est égal à la médiane, ce qui peut renforcer le choix de 6 comme centre de la série.


Deuxième exemple :

Les appréciations de qualité de certaines observations se font souvent par des notes : notes d'élèves à un examen, notes du jury aux participants d'une épreuve artistique, notes de qualités de produits testés, etc. Dans la vie courante, on a tendance à comparer telle note à la moyenne arithmétique des notes de l'ensemble. Implicitement, donc, l'habitude fait en sorte que l'on fait, une fois encore, appel à l'idée de moyenne pour repérer ce fameux centre, qui ne serait, ni fort, ni faible, tout juste "au milieu".

Là encore, la moyenne n'est pas forcément le bon indicateur car la notion "d'appréciation" qui nous intéresse ici, induit directement une logique "d'ordre, de rang, de classement", qui est à la base de la définition de la médiane. Or, la moyenne ne serait proche de la médiane que dans une série faiblement dissymétrique, dont la probabilité d'apparition n'est pas considérable dans tous les cas de la vie courante.

La note de l'étudiant médian à un concours - et même un examen - est en effet beaucoup plus significative pour opérer des comparaisons que l'éternel repère fourni par la note de 10/20.


Troisième exemple :

Dans une entreprise, les ouvriers et les employés estiment être mal rémunérés. En effet, en appréciant les niveaux de salaires au cours de discussions informelles (avec toutes les catégories professionnelles de l'entreprise), à la cafétéria ou lors de réunions diverses, ils ont atteint la certitude que leurs salaires étaient inférieurs à ceux d'autres entreprises de la même branche d'activité.

Ils se plaignent alors à leur patron, qui reprend les données des feuilles de paie qu'il possède. Il ne tarde pas à répliquer que le salaire moyen de l'entreprise est, au contraire, bien supérieur à la moyenne des salaires des entreprises de la branche.

Qui a raison ? Qui a tort ? Les deux ont raison et les deux calculs sont justes, mais ils ne parlent pas de la même chose : les premiers (les ouvriers et les employés) interprètent un salaire modal. C'est le salaire le plus fréquemment rencontré au cours des discussions et son appréciation n'est pas fausse. Le second (le patron) fait la moyenne arithmétique de tous les bulletins de salaire. Son calcul est juste également, mais il intègre les quelques très hauts salaires de cadres supérieurs, car il sait qu'une moyenne doit être calculée sur la base de toutes les observations de la série. Ces forts salaires, à eux seuls, tendent à décaler l'identification du centre vers le haut.

Si chaque partenaire se retranchait dans son bastion de calcul, la simple notion d'"interprétation des statistiques", par manque de réelle communication, pourrait, à la limite, dans cet exemple comme dans d'autres domaines, engendrer d'inutiles disputes.


Quatrième exemple :

La fameuse "espérance de vie", bien connue des démographes, est une moyenne arithmétique. Elle comptabilise les situations observables (l'âge à la mort) et procède au calcul de la moyenne de ces événements. Son résultat est intéressant d'un point de vue collectif et, par ailleurs, réjouissant, quand on constate que cette moyenne se décale vers le haut avec le temps. Mais d'un point de vue individuel, pour un jeune homme âgé de 20 ans par exemple (et en vie), que signifie cette moyenne ? Elle prend en compte une comptabilisation de 20 événements annuels qui ne le concernent pas : une forte mortalité infantile, par exemple, aura pour conséquence d'abaisser le niveau de la moyenne générale, mais cela ne concerna pas notre jeune homme qui a dépassé le cap de l'enfance.

Le calcul n'est pas faux : une fois encore, il est mal interprété.

L'indicateur qui respecterait le plus l'idée que se font les particuliers de l'espérance de vie, serait de calculer le mode de la distribution, c'est-à-dire l'âge le plus souvent observé à la mort.


Cinquième exemple :

Il a trait, non plus à des détails de calcul, mais simplement à la prise de conscience de la "puissance psychologique" que nous impose traditionnellement cette notion de moyenne dans nos perceptions des événements de la vie courante.

Prenons, par exemple, la cas d'un professeur de philosophie qui, pour répondre à la demande insistante des 800 étudiants qu'il a devant lui dans l'amphithéâtre, dirait : "je ne peux pas vous donner vos notes, car je n'ai pas fini de corriger vos copies, mais la moyenne de celles que j'ai corrigées jusqu'à présent se situe aux alentours de 11/20."

Il percevra sans doute un grand soupir de soulagement dans l'auditoire. Soupir complètement injustifié de la part de chacun des étudiants puisque, d'une part, aucun d'eux n'est capable de se situer par rapport aux autres en la matière et que, d'autre part, ils ne connaissent pas la variabilité de l'échelle de notation du professeur2.

L'un des problèmes de la notion de "moyenne" est d'avoir été trop facilement adoptée et, de façon assez floue, dans le langage courant.


Pour aller plus loin :
- La statistique sans formule mathématique de Bernard PY
- Statistiques : Méfiez-vous ! Nicolas Gauvrit
- Attention, statistiques !, Joseph Klatzman
- Coïncidences : Nos représentations du hasard. Gérald Bronner

A lire :
- Les pièges statistiques
- Les variables de confusion
- Les correlations illusoires

Notes :
1- Le statisticien Yule (milieu du XX° siècle) a retenu 6 conditions que doivent remplir les caractéristiques statistiques pour être correctement construites et utilisées.
2- Ajoutons, mais cela relève d'une autre logique, qu'ils ignorent combien de copies ont déjà été corrigées, c'est à dire que la probabilité que cette moyenne de 11 soit effectivement proche de la moyenne finale de l'amphithéâtre.

Ces articles pourraient aussi vous intéresser :