Les Variables de confusion

Nicolas Gauvrit in Statistiques : Méfiez-vous !

Les corrélations, lorsqu'elles sont avérées, ne sont [...] pas nécessairement des causalités et doivent être utilisées avec rigueur uniquement dans des situations proches de celles qui ont présidé à leur découverte. Il n'en reste pas moins que certaines corrélations sont très surprenantes. Bien qu'on sente qu'il ne s'agit pas d'une causalité directe, on ne peut s'empêcher de chercher le pourquoi du lien.

Une étude très sérieuse est la suivante : dans une école primaire, on fait passer à tous les élèves un test d'orthographe. Il s'agit d'une petite dictée de quelques lignes. Nous comptons ensuite le nombre de fautes dans la dictée pour chaque élève. Nous relevons aussi la pointure (taille des pieds). Les résultats sont donnés par la figure 35.

Oh surprise, ces deux grandeurs apparemment indépendantes s'avèrent en fait liées négativement ! Plus les pieds d'un enfant sont grands, moins il fait de fautes à la dictée. Est-ce à dire, comme me le proposaient certains étudiants, que les grands pieds sont signe de force, et renforcent ainsi la confiance en soi, nécessaire à la réussite scolaire ? Ou bien le mystère est-il moins épais qu'il n'y paraît ?

[...] si deux grandeurs sont liées, il se peut qu'il n'y ait en fait aucune causalité entre elles. Il se peut qu'aucune relation logique ne puisse alors être établie entre les deux variables. Mais il se peut aussi qu'on trouve une causalité indirecte, passant par une autre variable (ou grandeur). Dans un tel cas, on appelle cette variable cachée variable de confusion.


Figure 35 - Diagramme de dispersion du nombre de fautes d'orthographe en fonction de la pointure. Les élèves ayant les plus grands pieds font moins de fautes.


L'exemple des fautes d'orthographe et de la taille des pieds est un cas très simple où une telle variable de confusion intervient. La variable en question est bien sûr l'âge ! Dans une école, les plus grands pieds correspondent aussi - en moyenne et globalement, bien entendu - aux élèves les plus vieux, donc à ceux de CM2, bien meilleurs que les CE1 ou les CP en orthographe... Et le mystère s'évanouit. La figure 36 montre un diagramme causal qui explique le lien entre nos deux variables

Figure 36 - Diagramme causal entre la pointure, le nombre de fautes, et la variable de confusion âge. Les plus grandes pointures se trouvent chez les élèves les plus âgés, meilleurs en orthographe.



Des instituts de recherche financés par les fabricants d'huile d'olive industrielle ont été amenés à "découvrir" que l'huile d'olive était bonne pour la santé. Ce type de "recherche" dont la conclusion est imposée par le payeur est malheureusement de plus en plus courant de nos jours, où la recherche s'appuie sur le secteur privé pour trouver des ressources. Cela est très connu pour l'industrie pharmaceutique, mais c'est également vrai dans d'autres domaines.

Les chercheurs se sont donc acharnés à trouver des arguments pour convaincre que l'huile d'olive est excellente - condition implicite de renouvellement du financement. Voilà pourquoi, en 2005, les auditeurs de nombreuses radios pouvaient entendre vanter les bienfaits de cette graisse. L'un des arguments les plus souvent répétés, et qui est totalement creux, est celui-ci : l'espérance de vie est plus élevée dans le sud de la France, où l'on consomme beaucoup d'huile d'olive, que dans le nord.

Il s'agit là (et sans revenir sur la difficulté d'interprétation de l'espérance de vie) d'une énorme entourloupe statistique. Non pas qu'il n'y ait pas effectivement de lien entre la consommation d'huile d'olive et l'espérance de vie, et même nous pouvons le parier, sur l'état de santé. Mais rien ne prouve que ce lien soit causal. Du fait que l'on compare le sud et le nord, de nombreuses variables de confusion possibles peuvent être imaginées, en commençant par le niveau de vie général. On imagine bien que les producteurs de la croisette peuvent vivre plus longtemps que les anciens mineurs du Nord qui toussent les derniers morceaux de leurs poumons encrassés. Et l'huile d'olive n'aurait rien à voir avec ça ! Une autre variable de confusion possible est par exemple l'ensoleillement, mais la liste est bien entendue infinie (consommation de poisson, température de l'air, proximité de la Méditérannée...).

Il est triste de constater que ces sophismes arrivent à convaincre, affirmés avec solennité et force, une bonne partie des auditeurs. Notez bien que le fait que l'on n'ait pas de preuve des bienfaits de l'huile d'olive n'est pas une preuve du contraire. Il se peut que l'huile d'olive soit excellente. Simplement, la corrélation (réelle) entre la consommation d'huile d'olive et la longévité ne prouve rien. On ne devrait pas vous en parler, sauf à titre d'argument non déterminant. "Certes, dites-vous. Mais le lien apparent entre deux grandeurs ne peut tout de même pas être le contraire du lien causal sous-jacent !"
Et bien si ! C'est ce que montre un exemple réel discuté dans Attention, statistiques ! de Joseph Klatzman.

Pour chaque pays, des économistes ont relevé la consommation moyenne d'alcool par habitant ainsi que l'espérance de vie à la naissance. Nous ne rentrerons pas dans les détails de ces indices, mais on peut admettre que les pays où l'espérance de vie est la plus grande sont ceux où l'on vit le mieux (du point de vue de la santé). La figure 38 montre l'allure du diagramme de dispersion que l'on obtient avec les données réelles. Les unités sont totalement arbitraires, et n'ont aucun intérêt direct.

On dirait bien, à voir ce diagramme, que les deux grandeurs sont liées positivement (la droite de régression monterait). Mais cela voudrait dire que lorsqu'on boit plus on vit plus vieux ? Eh oui. Il y a bien un lien de fait entre les deux grandeurs, et dans ce sens. Les pays où l'on boit le plus d'alcool sont aussi ceux où l'on vit le plus vieux. Mais cela ne signifie pas que l'alcool est bon pour la santé. Comment cela est-il possible ?

On commence à le comprendre en considérant la figure 39. On y découvre en effet que les pays les plus riches sont ceux où l'on boit le plus. On vit aussi plus longtemps dans ces pays. Mais si l'on vit longtemps aux États-Unis, ce n'est pas parce qu'on boit beaucoup, mais malgré cela.

Figure 38 - Diagramme de dispersion de l'espérance de vie à la naissance en fonction de la consommation d'alcool par pays (en abscisse, unité arbitraire).



En fait, il faut considérer la variable de confusion "richesse du pays". Cette variable agit sur l'espérance de vie de manière inverse de la consommation d'alcool. Autrement dit, si l'on considère un pays comme la France, on peut dire que dans ce pays : (1) les gens boivent beaucoup parce qu'ils sont assez riches pour se le permettre. Cela a pour effet de réduire l'espérance de vie. Mais (2) d'un autre côté, la richesse du pays permet aussi de meilleurs soins, une meilleure alimentation globale. Cela augmente considérablement l'espérance de vie. Cette augmentation fait plus que compenser la réduction d'espérance de vie due à la consommation d'alcool. C'est pourquoi en France, tout en buvant beaucoup d'alcool, on vit plus vieux que dans un pays pauvre comme le Nigeria où cette consommation est très réduite. Le diagramme causal de la figure 40 donne une représentation de la situation.

Figure 39 - Diagramme de dispersion de l'espérance de vie à la naissance en fonction de la consommation d'alcool par pays (en abscisse, unité arbitraire).



Figure 40 - Diagramme causal correspondant à la consommation d'alcool et à l'espérance de vie. Les flèches les plus grasses correspondents aux effets les plus forts.



Voilà bien un exemple qui devrait vous pousser à la méfiance face à ceux qui vous affirment des relations entre des variables. On peut avoir une corrélation qui va en sens inverse de l'effet (causal) d'une grandeur sur l'autre !


Pour aller plus loin :
- Statistiques : Méfiez-vous ! Nicolas Gauvrit.
- Attention, statistiques !, Joseph Klatzman.
- Crimes contre la logique. Comment ne pas être dupe des beaux-parleurs. Jamie Whyte.
- Vous avez dit hasard ? : entre psychologie et mathématiques. Nicolas Gauvrit.
- 150 petites expériences de psychologie (pour mieux comprendre nos semblables), Serge Ciccotti.
- Devenez sorciers, devenez savants, G.Charpak et H.Broch.
- Les influences inconscientes. De l'effet des émotions et des croyances sur le jugement. Ahmed Channouf.

A lire aussi :
- Les pièges et erreurs statistiques.
- Les correlations illusoires.
- Les erreurs de choix statistiques.
- L'illusion de la guérison.
- Toutes les nouvelles en psychologie.
- Les illusions logiques.
- Le pouvoir des coïncidences.
- Gagnez au loto !.
- Les actes rares.
- Les Actualités sur les corrélations.
- Les variables de confusion (en images).

Ces articles pourraient aussi vous intéresser :