Les biais et erreurs
des études scientifiques

(Suite)

La géographie

Lors d'une étude que nous avons analysée, nous avons montré comment la géographie peut être source de biais. Vickers et ses collègues (cf. tableau) a montré que les études sur l'acupuncture conduites en Asie étaient universellement positives, tandis que celles conduites en Australie/Nelle Zélande, en Amérique du Nord et en Europe de l'Ouest n'étaient positives que la moitié du temps. Les essais randomisés de thérapies autres que l'acupuncture conduites en Chine, à Taiwan, au Japon ou en Russie/URSS étaient aussi, et de manière accablante, positives, plus que dans d'autres parties du monde. Ceci est peut être dû à une différence historique et culturelle, mais cela signifie surtout qu'il faut être d'autant plus prudent lorsqu'il y a prépondérance d'études venant de ces cultures. Ici aussi, c' est particulièrement important pour ce qui est des thérapies alternatives.


La taille

Les essais cliniques doivent avoir une méthode de calcul finalisée lors de leur mise en place. Celle-ci doit estimer combien il faut de patients pour que, disons, 90% des études avec un nombre X de patients montrent une différence de Y% entre deux traitements. Lorsque la valeur de Y est très importante, la valeur de X peut être petite. Mais le plus souvent, la valeur de Y est modeste, ou petite. Dans ces conditions, X doit être plus important, et il faudra davantage de patients lors des essais pour espérer obtenir une différence visible.

Les essais cliniques sont souvent ridiculement petits. Le record que nous avons enregistré est celui d'une étude sur 3 patients. Quand peut-on estimer que des essais sont trop petits pour pouvoir être ignorés ? De nombreuses personnes ont un point de vue pragmatique sur la question, et pensent que celles comptant moins de 10 patients par traitement devraient être ignorées, cependant d'autres ne sont pas d'accord.

Dans les méta-analyses, il y a des exemples où la sensibilité a montré que les petits essais présentaient les effets du traitement comme plus importants que dans de grands essais (cf. tableau). Le degré de variabilité entre des études de même méthodologie est toujours important, parce que les essais sont conçus de manière à détecter les différences entre les traitements, plutôt que l'importance de la différence en soi.

Le rôle du hasard peut être un facteur significatif, en dépit d'une méthodologie adaptée pour détecter une différence. La figure 3 montre des études randomisées en double aveugle comparant l'Ibuprofène 400mg au placebo dans la douleur aiguë post-opératoire. Les études ont la même population de patients, avec une intensité de douleur équivalente et des résultats identiques mesurés de la même manière, sur une même durée et ayant recours à des techniques de mesure standards. Il y avait pourtant de grosses différences dans les résultats de chaque étude prise individuellement.

Fig. 3 : essais randomisés, en double aveugle sur l'ibuprofène contre la douleur,
ayant les mêmes résultats sur une période identique et des patients ayant une douleur de même intensité.


La figure 4 montre les résultats de 10.000 études sur un modèle informatique reposant sur des informations d'environ 5000 patients2. Tout ce qui est en gris est ce qu'une étude peut donner au hasard. Et pour ceux qui pourraient penser que ceci est le reflet de la douleur en tant que résultat subjectif, la même variabilité peut être obtenue dans d'autres dispositions d'essais, avec des résultats objectifs.

Fig. 4 Modèle d'essais sur l'ibuprofène contre la douleur. Les différentes couleurs indiquent les probabilités de résultats d'un seul essai.

Malgré les efforts des éditeurs et des relecteurs, certains papiers publiés sont faux. La fausseté peut prendre de multiples visages, mais deux sont particulièrement importants.


Statistiques, manipulation des données et résultats

Les erreurs statistiques peuvent prendre différentes formes. Ce peut être aussi simple que des données présentées dans un papier comme statistiquement significatives et qui ne le sont pas. Cela peut prendre la forme de tests statistiques inappropriés. Il peut s'agir de données d'où une simple signifiance statistique est obtenue, où un papier sera écrit sur la base de ce simple élément. Des volumes entiers pourraient être écrits à ce sujet, mais il faut que les lecteurs, les referees ou critiques de papiers soient prudents sur les résultats des études, tout spécialement là où il y a vote.

Attention aussi au pouvoir des mots. Même lorsque des tests statistiques ne montrent aucune différence, il est commun de voir les résultats brandis comme une réussite. Même si cela peut sembler idiot à dire, même le plus cynique des lecteurs peut être trompé en tirant une mauvaise conclusion. Il est de notoriété publique que les extraits sont trompeurs en ce sens.

La manipulation des données est un peu plus compliquée à détecter. Un exemple serait une intervention où l'on ne nous dit pas quelle est la condition de départ des patients, ni la fin, mais que à un certain moment, entre les deux périodes, le taux de changement était statistiquement significatif d'après un certain test avec lequel nous ne sommes pas familiers. Ceci est fait dans l'unique but de rendre positif ce qui ne l'est pas, la direction du biais est manifeste (cf. tableau). De nouveau, il est très important, là où le vote est utilisé, de déterminer si l'intervention marche ou pas.

Les résultats rapportés dans les essais représentent un épineux problème. Il n'est pas rare que des mesures de substitution soient utilisées plutôt qu'un résultat d'une importance clinique véritable. Bien que ces mesures de remplacement soient connues pour créer des corrélations avec les résultats cliniques, un sentiment d'efficacité, implicite mais injustifié, pourrait être admis.


La validité

Les essais individuels ont-ils une méthodologie (sauf ceux randomisés et aveugles) qui leur permette de mesurer correctement un effet ? Ce qui constitue la validité dépend des circonstances d'un essai, mais les études loupent souvent cette validité. Un système de score de validité, appliqué à l'acupuncture contre la douleur, démontra que les essais ayant une validité médiocre étaient plus susceptibles de conclure que le traitement marche, que ceux qui étaient valides (cf. tableau).


Le langage

Trop souvent, la stratégie recherchée pour une revue systématique ou une méta-analyse se limite elle-même à la langue anglaise. Les auteurs, dont la langue n'est pas l'anglais, sont plus susceptibles de publier des découvertes positives dans un journal anglais, parce qu'elles auront un impact international beaucoup plus grand. Par contre, des résultats négatifs seront plus facilement publiés dans un journal de langue non anglaise (cf. tableau).


La publication

Enfin, il y a aussi le biais de publication. Il s'agit habituellement de la propension à ne publier que les études ayant des résultats positifs, et à ne pas publier les négatives. Il doit sans doute exister, d'autant plus qu'il y a une importante littérature à ce sujet.

Cependant, nous émettons des réserves sur la fréquence à laquelle cela se produit. Cela vaut en partie pour les erreurs dans les appréciations de validité et de qualité des essais. La plupart des relecteurs rejetteraient les études non-randomisées, ou celles pour lesquelles il y a des manquements importants dans la méthodologie. Ces études seront difficiles à publier. On peut dire la même chose des mémoires ou des thèses. Une tentative pour inclure des thèses3 comprenait 17 mémoires pour un traitement. Treize furent rejetés à cause de problèmes méthodologiques, la plupart pour un manque de randomisation, trois ont été publiés et étaient déjà dans une revue de référence, et un put être ajouté.

Nous sommes également sceptiques sur le fait que les "tricheries" sont d'une manière ou d'une autre utiles. Une citation fréquente sur le magnésium pour l'infarctus du myocarde 4, peut être plus facilement expliquée par le fait que les essais de la méta-analyse étaient trop petits pour détecter quelque effet, et ne devraient jamais être inclus en première place dans une méta-analyse.

S'il y a une preuve valable suffisante, comme un grand nombre d'études importantes correctement dirigées, le biais de publication n'est pas susceptible d'être un problème. Par contre cela devient plus problématique là où il y a peu d'information, des petits chiffres et des essais de qualité médiocre.


Commentaire

Ceci est un bref passage en revue de quelques sources de biais possibles lors des essais étudiant l'efficacité de traitements. D'autres choisiront de mettre en lumière différentes sources de biais potentiels. Le fait que le biais soit présent, et existe sous différentes formes, nécessite d'être vigilant quand il s'agit de lire le compte-rendu d'un essai clinique, et plus spécialement quand on prend les résultats d'un seul essai pour l'intégrer dans une pratique clinique.

Mais les revues systématiques et les méta-analyses souffrent aussi de problèmes de qualité. Elles devraient également prendre en compte les sources potentielles de biais quand elles sont couchées sur le papier. Beaucoup ne le font pas, et feront des erreurs. Si les revues systématiques et les méta-analyses comprennent des essais médiocres, ou ont des rapports de mauvaise qualité, tout comme pour les essais qu'elles étudient, elles auront aussi une propension à obtenir davantage de résultats positifs 4, 5

Il n'y a pas de doute sur le fait que les méta-analyses peuvent induire en erreur. Si c'est le cas, c'est notamment parce qu'elles ont été mal faites et mal utilisées. La défense, la seule défense, sera pour les lecteurs de posséder eux-mêmes un bagage de connaissances suffisant pour savoir quand la revue ou l'étude qu'ils lisent devrait être jetée à la poubelle.


Pour aller plus loin :
- Bad Science. Ben Goldacre.
- Les influences inconscientes. De l'effet des émotions et des croyances sur le jugement. Ahmed Channouf.

A lire aussi :
- Le tour du monde de l'acupuncture.

Références:
1- Jadad AR, Moore RA, Carroll D, Jenkinson C, Reynolds DJM, Gavaghan DJ, McQuay HJ. Assessing the quality of reports of randomized clinical trials : is blinding necessary ? Control Clin Trial 1996, 17: 1-12.
2- Moore RA, Gavaghan D, Tramèr MR, Collins SL, McQuay HJ. Size is everything - large amounts of information are needed to overcome random effects in estimating direction and magnitude of treatment effects. Pain 1998, 78: 217-220.
3- A Vickers, C Smith. Incorporating data from dissertations in systematic reviews. Int J Technol Assess Health Care 2000 16:2: 711-713.
4- Jadad AR, McQuay HJ. Meta-analysis to evaluate analgesic interventions: a systematic qualitative review of the literature. J Clin Epidemiol 1996, 49:235-243.
5- Smith L, Oldman A. >Acupuncture and dental pain. Br Dent J 1999, 186: 158-159.

Ces articles pourraient aussi vous intéresser :