Menteurs, guignols et autres imposteurs


Les biais et erreurs des études scientifiques Les biais et erreurs
des études scientifiques


Qu'est-ce qu'un biais ?

Le dictionnaire définit le biais comme une "inclination unilatérale de l'esprit ". Pour ce qui concerne les études scientifiques, il définit une disposition systématique de certains essais à produire des résultats meilleurs ou pires que dans d'autres modèles d'études.


Mal commencé, mal terminé

Lorsqu'un biais est découvert, il résulte, la plupart du temps, en une importante surestimation des effets du traitement. Des essais avec un protocole médiocre rendent les traitements plus efficaces qu'ils le sont en réalité. Ils peuvent même faire croire qu'ils marchent alors que ce n'est pas le cas.

C'est pourquoi les bons guides pour revues systématiques suggèrent des stratégies afin de minimiser ces biais, en évitant notamment d'y inclure les études contenant des sources de biais connues. Ils proposent en outre, lors d'une revue systématique, une analyse plus fine afin de voir si les différents protocoles des essais affectent directement les résultats

Mais ces avertissements sont plus souvent ignorés que pris en compte. Ils sont ignorés lors des relectures, et lors des prises de décision. Le résultat de tout cela est que des décisions erronées sont prises, reposant sur une information incorrecte.


La randomisation

Le processus de randomisation est très important car il élimine les biais de sélection dans les études. Si la sélection est réalisée par ordinateur, ou par pile ou face, toute attitude consciente ou inconsciente du chercheur sera évitée.

Certains spécialistes ont montré qu'une méthodologie inadaptée exagérait les effets mesurés lors d'une étude (cf. tableau). Ils ont comparé les études dans lesquelles les auteurs rapportaient correctement et clairement les répartitions, avec celles dans lesquelles la randomisation était soit inadéquate, soit confusément décrite, et ils examinèrent aussi les effets des exclusions et des corrélations.

Les résultats étaient frappants et parlants, comme le montre le tableau. Les ratios de probabilités étaient exagérés de 41% dans les études où la répartition des traitements était mal dissimulée, et de 30% quand le processus d'allocation n'était pas clairement décrit.


Beaucoup de revues systématiques excluent les études non-randomisées, à cause de la quantité de biais consécutifs à une mauvaise randomisation. Nous pensons que restreindre les revues systématiques aux seules études randomisées est correct pour ce qui concerne les revues évaluant l'efficacité d'un traitement. La raison vient de ce qu'il y a énormément d'exemples où des études non randomisées sont parvenues à de fausses conclusions.

Les exemples abondent. Un exemple que cette revue sur la stimulation nerveuse transcutanée pour le soulagement de la douleur post-opératoire (figure 1). Les études randomisées ne montrent aucun bénéfice contre placebo, tandis que les étudies non-randomisées font ressortir un bénéfice. L'effet de la randomisation est particulièrement fort là où les revues comptent les votes (une étude est soit positive, soit négative) plutôt que quand elle associe des données dans une méta-analyse. Cela s'applique plus spécialement aux études sur les thérapies alternatives.


Figure 1 : effet de la randomisation sur les résultats d'essais sur la stimulation nerveuse transcutanée pour la douleur post-opératoire.

effet de la randomisation sur les résultats d'essais sur la stimulation nerveuse transcutanée pour  la douleur post-opératoire

L'aveugle

L'importance des études en aveugle vient de ce que cela permet d'éviter les biais d'observation. Si personne ne sait quel traitement reçoit un patient, aucune surestimation de l'effet, de quelque traitement qui soit, n'est possible.

Les études non aveugles surestiment les effets d'environ 17% (cf. tableau). Dans une revue sur l'acupuncture pour la douleur (figure 2), le fait d'inclure à la fois des études en aveugle et non aveugles change radicalement la conclusion finale. Les études en aveugle montrent une amélioration chez 57% des patients et 50% dans le groupe contrôle, un bénéfice relatif de 1.2 (95% d'intervalle de confiance 0.9 à 1.5). Cinq études non aveugles montrèrent 67% d'amélioration avec l'acupuncture, et 38% dans le groupe placebo. Ici, le bénéfice était significatif à 1.8 (1.3 à 2.4).


Effets de l'aveugle sur les résultats d'études sur l'acupuncture pour la douleur

Fig. 2 : Effets de l'aveugle sur les résultats d'études sur l'acupuncture pour la douleur.

Qualité des comptes-rendus

A cause du grand nombre de biais susceptibles de se produire dans le cadre d'études non randomisées et non aveugles, un système de score1 dépendant de la randomisation et de l'aveugle est donc corrélé à ces biais. Les études ayant une qualité médiocre de compte-rendu surestiment constamment les effets du traitement. Ce système particulier de score a une graduation de 0 à 5 reposant sur la randomisation, l'aveugle, les abandons et le nombre de sujets. Les études ayant un score de 2 ou moins rapportent logiquement des effets de traitement plus importants que celles ayant un score de 3 ou plus.


Tableau d'exemples de biais connus lors d'essais sur l'efficacité des traitements

Source de biais
Sens de l'effet sur l'efficacité du traitement
Taille de l'effet
Références
Randomisation Augmentation Les études non randomisées surestiment les effets du traitement de 41% avec des méthodes inadéquates et de 30% avec des méthodes confuses KF Schultz, I Chalmers, RJ Hayes, DG Altman. Preuves empiriques de biais : Dimensions of methodological quality associated with estimates of treatment effects in controlled trials. Journal of the American Medical Association 1995 273: 408-12.
Randomisation Augmentation Résultats complètement différents entre les études randomisées et non randomisées Carroll D, Tramèr M, McQuay H, Nye B, Moore A. La randomisation est importante dans les études sur la douleur : systematic review of transcutaneous electrical nerve stimulation in acute postoperative pain. British Journal of Anaesthesia 1996; 77: 798-803.
Aveugle Augmentation 17% KF Schultz, I Chalmers, RJ Hayes, DG Altman. Preuves empiriques de biais : Dimensions of methodological quality associated with estimates of treatment effects in controlled trials. Journal of the American Medical Association 1995 273 : 408-12.
Aveugle Augmentation Résultats complètement différents entre les études randomisées et non randomisées Ernst E, White AR. Acupuncture for back pain: A meta-analysis of randomised controlled trials. Arch Int Med 1998, 158 : 2235-2241.
Qualité du compte-rendu Augmentation Environ 25% Khan KS, Daya S, Jadad AR. The importance of quality of primary studies in producing unbiased systematic reviews. Arch Intern Med 1996,156 :661-6.

Moher D, Pham B, Jones A, et al. Does quality of reports of randomised trials affect estimates of intervention efficacy reported in meta-analyses ? Lancet 1998, 352 :609-613.
Duplication Augmentation Environ 20% Tramèr M, Reynolds DJM, Moore RA, McQuay HJ. Effect of covert duplicate publication on meta-analysis; a case study. BMJ 1997, 315: 635-40.
Geographie Augmentation Important pour ce qui est de certaines thérapies alternatives Vickers A, Goyal N, Harland R, Rees R. Do certain countries produce only positive results ? A systematic review of controlled trials. Control Clin Trial 1998, 19: 159-166.
Taille Augmentation Certains essais pourraient surestimer les effets du traitement d'environ 30% Moore RA, Carroll D, Wiffen PJ, Tramèr M, McQuay HJ. Quantitative systematic review of topically-applied non-steroidal anti-inflammatory drugs. BMJ 1998, 316: 333-8.

Moore RA, Gavaghan D, Tramèr MR, Collins SL, McQuay HJ. Size is everything - large amounts of information are needed to overcome random effects in estimating direction and magnitude of treatment effects. Pain 1998, 78: 217-220.
Statistiques Augmentation Ampleur inconnue, probablement modeste, mais spécialement important où le vote est utilisé Smith LA, Oldman AD, McQuay HJ, Moore RA. Teasing apart quality and validity in systematic reviews : an example from acupuncture trials in chronic neck and back pain. Pain 2000, 86: 119-132.
Validité Augmentation Ampleur inconnue, probablement modeste, mais spécialement important où le vote est utilisé Smith LA, Oldman AD, McQuay HJ, Moore RA. Teasing apart quality and validity in systematic reviews: an example from acupuncture trials in chronic neck and back pain. Pain 2000, 86: 119-132.
Langage Augmentation Ampleur inconnue, mais probablement important Egger M, Zellweger-Zähner T, Schneider M, Junker C, Lengeler C, Antes G. Language bias in randomised controlled trials published in English and German, Lancet 1997 350: 326-329.
Publication Augmentation Ampleur inconnue, probablement modeste mais important où il y a peu de preuves. M Egger, G Davey Smith. Under the meta-scope : potentials and limitations of meta-analysis. In M Tramèr, Ed. Evidence Based Resource in Anaesthesia and Analgesia. BMJ Publications, 2000.


La duplication

Les résultats de certaines études sont rapportés plus d'une fois. Ceci peut être se justifier pour tout un ensemble de raisons. Par exemple, il peut s'agir d'une suite tardive de l'étude ou d'une nouvelle analyse. Parfois, cependant, l'information sur les patients dans les études est rapportée plus d'une fois sans que cela soit évident, ni patent ni référencé. Seule l'information la plus imposante semble être reprise, parfois dans des papiers d'auteurs complètement différents. Une conséquence de la duplication voilée serait de surestimer les effets du traitement. (cf. tableau)


La géographie

Lors d'une étude que nous avons analysée, nous avons montré comment la géographie peut être source de biais. Vickers et ses collègues (cf. tableau) a montré que les études sur l'acupuncture conduites en Asie étaient universellement positives, tandis que celles conduites en Australie/Nelle Zélande, en Amérique du Nord et en Europe de l'Ouest n'étaient positives que la moitié du temps. Les essais randomisés de thérapies autres que l'acupuncture conduites en Chine, à Taiwan, au Japon ou en Russie/URSS étaient aussi, et de manière accablante, positives, plus que dans d'autres parties du monde. Ceci est peut être dû à une différence historique et culturelle, mais cela signifie surtout qu'il faut être d'autant plus prudent lorsqu'il y a prépondérance d'études venant de ces cultures. Ici aussi, c' est particulièrement important pour ce qui est des thérapies alternatives.


La taille

Les essais cliniques doivent avoir une méthode de calcul finalisée lors de leur mise en place. Celle-ci doit estimer combien il faut de patients pour que, disons, 90% des études avec un nombre X de patients montrent une différence de Y% entre deux traitements. Lorsque la valeur de Y est très importante, la valeur de X peut être petite. Mais le plus souvent, la valeur de Y est modeste, ou petite. Dans ces conditions, X doit être plus important, et il faudra davantage de patients lors des essais pour espérer obtenir une différence visible.

Les essais cliniques sont souvent ridiculement petits. Le record que nous avons enregistré est celui d'une étude sur 3 patients. Quand peut-on estimer que des essais sont trop petits pour pouvoir être ignorés ? De nombreuses personnes ont un point de vue pragmatique sur la question, et pensent que celles comptant moins de 10 patients par traitement devraient être ignorées, cependant d'autres ne sont pas d'accord.

Dans les méta-analyses, il y a des exemples où la sensibilité a montré que les petits essais présentaient les effets du traitement comme plus importants que dans de grands essais (cf. tableau). Le degré de variabilité entre des études de même méthodologie est toujours important, parce que les essais sont conçus de manière à détecter les différences entre les traitements, plutôt que l'importance de la différence en soi.

Le rôle du hasard peut être un facteur significatif, en dépit d'une méthodologie adaptée pour détecter une différence. La figure 3 montre des études randomisées en double aveugle comparant l'Ibuprofène 400mg au placebo dans la douleur aiguë post-opératoire. Les études ont la même population de patients, avec une intensité de douleur équivalente et des résultats identiques mesurés de la même manière, sur une même durée et ayant recours à des techniques de mesure standards. Il y avait pourtant de grosses différences dans les résultats de chaque étude prise individuellement.

essais randomisés, en double aveugle sur l'ibuprofène contre la douleur

Fig. 3 : essais randomisés, en double aveugle sur l'ibuprofène contre la douleur,
ayant les mêmes résultats sur une période identique et des patients ayant une douleur de même intensité.


La figure 4 montre les résultats de 10.000 études sur un modèle informatique reposant sur des informations d'environ 5000 patients2. Tout ce qui est en gris est ce qu'une étude peut donner au hasard. Et pour ceux qui pourraient penser que ceci est le reflet de la douleur en tant que résultat subjectif, la même variabilité peut être obtenue dans d'autres dispositions d'essais, avec des résultats objectifs.

Fig. 4 Modèle d'essais sur l'ibuprofène contre la douleur. Les différentes couleurs indiquent les probabilités de résultats d'un seul essai.

Modèle d'essais sur l'ibuprofène contre la douleur

Malgré les efforts des éditeurs et des relecteurs, certains papiers publiés sont faux. La fausseté peut prendre de multiples visages, mais deux sont particulièrement importants.


Statistiques, manipulation des données et résultats

Les erreurs statistiques peuvent prendre différentes formes. Ce peut être aussi simple que des données présentées dans un papier comme statistiquement significatives et qui ne le sont pas. Cela peut prendre la forme de tests statistiques inappropriés. Il peut s'agir de données d'où une simple signifiance statistique est obtenue, où un papier sera écrit sur la base de ce simple élément. Des volumes entiers pourraient être écrits à ce sujet, mais il faut que les lecteurs, les referees ou critiques de papiers soient prudents sur les résultats des études, tout spécialement là où il y a vote.

Attention aussi au pouvoir des mots. Même lorsque des tests statistiques ne montrent aucune différence, il est commun de voir les résultats brandis comme une réussite. Même si cela peut sembler idiot à dire, même le plus cynique des lecteurs peut être trompé en tirant une mauvaise conclusion. Il est de notoriété publique que les extraits sont trompeurs en ce sens.

La manipulation des données est un peu plus compliquée à détecter. Un exemple serait une intervention où l'on ne nous dit pas quelle est la condition de départ des patients, ni la fin, mais que à un certain moment, entre les deux périodes, le taux de changement était statistiquement significatif d'après un certain test avec lequel nous ne sommes pas familiers. Ceci est fait dans l'unique but de rendre positif ce qui ne l'est pas, la direction du biais est manifeste (cf. tableau). De nouveau, il est très important, là où le vote est utilisé, de déterminer si l'intervention marche ou pas.

Les résultats rapportés dans les essais représentent un épineux problème. Il n'est pas rare que des mesures de substitution soient utilisées plutôt qu'un résultat d'une importance clinique véritable. Bien que ces mesures de remplacement soient connues pour créer des corrélations avec les résultats cliniques, un sentiment d'efficacité, implicite mais injustifié, pourrait être admis.

La validité

Les essais individuels ont-ils une méthodologie (sauf ceux randomisés et aveugles) qui leur permette de mesurer correctement un effet ? Ce qui constitue la validité dépend des circonstances d'un essai, mais les études loupent souvent cette validité. Un système de score de validité, appliqué à l'acupuncture contre la douleur, démontra que les essais ayant une validité médiocre étaient plus susceptibles de conclure que le traitement marche, que ceux qui étaient valides (cf. tableau).

Le langage

Trop souvent, la stratégie recherchée pour une revue systématique ou une méta-analyse se limite elle-même à la langue anglaise. Les auteurs, dont la langue n'est pas l'anglais, sont plus susceptibles de publier des découvertes positives dans un journal anglais, parce qu'elles auront un impact international beaucoup plus grand. Par contre, des résultats négatifs seront plus facilement publiés dans un journal de langue non anglaise (cf. tableau).


La publication

Enfin, il y a aussi le biais de publication. Il s'agit habituellement de la propension à ne publier que les études ayant des résultats positifs, et à ne pas publier les négatives. Il doit sans doute exister, d'autant plus qu'il y a une importante littérature à ce sujet.

Cependant, nous émettons des réserves sur la fréquence à laquelle cela se produit. Cela vaut en partie pour les erreurs dans les appréciations de validité et de qualité des essais. La plupart des relecteurs rejetteraient les études non-randomisées, ou celles pour lesquelles il y a des manquements importants dans la méthodologie. Ces études seront difficiles à publier. On peut dire la même chose des mémoires ou des thèses. Une tentative pour inclure des thèses3 comprenait 17 mémoires pour un traitement. Treize furent rejetés à cause de problèmes méthodologiques, la plupart pour un manque de randomisation, trois ont été publiés et étaient déjà dans une revue de référence, et un put être ajouté.

Nous sommes également sceptiques sur le fait que les "tricheries" sont d'une manière ou d'une autre utiles. Une citation fréquente sur le magnésium pour l'infarctus du myocarde 4, peut être plus facilement expliquée par le fait que les essais de la méta-analyse étaient trop petits pour détecter quelque effet, et ne devraient jamais être inclus en première place dans une méta-analyse.

S'il y a une preuve valable suffisante, comme un grand nombre d'études importantes correctement dirigées, le biais de publication n'est pas susceptible d'être un problème. Par contre cela devient plus problématique là où il y a peu d'information, des petits chiffres et des essais de qualité médiocre.

Commentaire

Ceci est un bref passage en revue de quelques sources de biais possibles lors des essais étudiant l'efficacité de traitements. D'autres choisiront de mettre en lumière différentes sources de biais potentiels. Le fait que le biais soit présent, et existe sous différentes formes, nécessite d'être vigilant quand il s'agit de lire le compte-rendu d'un essai clinique, et plus spécialement quand on prend les résultats d'un seul essai pour l'intégrer dans une pratique clinique.

Mais les revues systématiques et les méta-analyses souffrent aussi de problèmes de qualité. Elles devraient également prendre en compte les sources potentielles de biais quand elles sont couchées sur le papier. Beaucoup ne le font pas, et feront des erreurs. Si les revues systématiques et les méta-analyses comprennent des essais médiocres, ou ont des rapports de mauvaise qualité, tout comme pour les essais qu'elles étudient, elles auront aussi une propension à obtenir davantage de résultats positifs 4, 5

Il n'y a pas de doute sur le fait que les méta-analyses peuvent induire en erreur. Si c'est le cas, c'est notamment parce qu'elles ont été mal faites et mal utilisées. La défense, la seule défense, sera pour les lecteurs de posséder eux-mêmes un bagage de connaissances suffisant pour savoir quand la revue ou l'étude qu'ils lisent devrait être jetée à la poubelle.


Article tiré de Bandolier - Evidence base thinking about healthcare


A lire aussi :
- Le tour du monde de l'acupuncture.

Pour aller plus loin :
- Les influences inconscientes. De l'effet des émotions et des croyances sur le jugement. Ahmed Channouf

Références:
1- Jadad AR, Moore RA, Carroll D, Jenkinson C, Reynolds DJM, Gavaghan DJ, McQuay HJ. Assessing the quality of reports of randomized clinical trials : is blinding necessary ? Control Clin Trial 1996, 17: 1-12.
2- Moore RA, Gavaghan D, Tramèr MR, Collins SL, McQuay HJ. Size is everything - large amounts of information are needed to overcome random effects in estimating direction and magnitude of treatment effects. Pain 1998, 78: 217-220.
3- A Vickers, C Smith. Incorporating data from dissertations in systematic reviews. Int J Technol Assess Health Care 2000 16:2: 711-713.
4- Jadad AR, McQuay HJ. Meta-analysis to evaluate analgesic interventions: a systematic qualitative review of the literature. J Clin Epidemiol 1996, 49:235-243.
5- Smith L, Oldman A. >Acupuncture and dental pain. Br Dent J 1999, 186: 158-159.