La méthode des essais cliniques présente des failles qu’il faut corriger par le Pr Xavier DEPARIS

Epidémiologiste

Les essais cliniques consistent à comparer, toutes choses égales par ailleurs, une population de malades qui reçoit le traitement A, habituel, dit de référence, à une population qui reçoit un traitement B, le médicament dont le laboratoire souhaite évaluer la tolérance et l’efficacité. En l’absence de traitement de référence, c’est un placébo qui est donné.

La tolérance et l’absence de toxicité sont évaluées avant et pendant l’essai clinique. La pharmacovigilance a pour objectif de repérer les effets secondaires des médicaments une fois mis sur le marché, sur la base des déclarations des professionnels de santé.

Pour évaluer l’efficacité, le protocole de recherche clinique définit des critères pour sélectionner les patients qui doivent tous être volontaires et non rémunérés. Ces critères sont précis et correspondent souvent à un stade de la maladie, au sexe et à l’âge, à la région. Une fois qu’un patient au bon profil est volontaire pour participer à l’essai clinique, un tirage au sort est effectué pour savoir s’il recevra le traitement A ou B : c’est la randomisation. La plupart des protocoles sont conduits en double aveugle : le patient comme l’équipe soignante ignorant quel traitement prend le malade. En simple aveugle, seul le patient ignore le traitement qui lui est administré. Le principe du double-aveugle est d’éviter d’induire des comportements différents. Les patients participant à l’essai bénéficient du même suivi médical quel que soit le traitement qu’ils prennent.

Les essais contrôlés randomisés permettent donc une comparaison « toutes choses égales par ailleurs ». Cette méthode est la meilleure pour évaluer l’efficacité d’un traitement en contrôlant les sources de bais liées aux facteurs de confusion, le phénomène de la régression vers la moyenne et l’effet placébo, autant de notions que je ne détaillerai pas ici.

Un critère de jugement est choisi pour mesurer l’efficacité des traitements : la proportion de patients guéris, la survie en cas de maladie grave, etc. Le critère de jugement doit être objectivement mesurable ; il doit être évalué de la même manière quel que soit le traitement pris par les patients.

C’est une équipe spécifique qui effectue le tirage au sort des patients, qui leur donne les traitements et qui effectue les analyses. Elle n’a aucun contact avec les patients et les équipes soignantes.

Pour juger de l’efficacité du traitement, c’est la méthode fréquentiste qui est utilisée. Elle a été inventée par le mathématicien FISHER. Il prend comme hypothèse de départ que les traitements A et B auront la même efficacité, dite « hypothèse nulle ». En fonction de la différence d’efficacité observée entre les deux traitements, par exemple la proportion de guéris avec A moins la proportion de guéris avec B, il est possible de calculer la probabilité appelée p-value d’observer cette différence sous l’hypothèse nulle. La règle veut que lorsque la p-value est suffisamment faible, par convention inférieure à 5 chances sur 100, nous rejetions cette hypothèse pour admettre une hypothèse alternative : un des traitements est plus efficace que l’autre. Ce faisant, nous ne devons pas oublier qu’il existe une probabilité, aussi faible soit-elle, que l’hypothèse d’équivalence des traitements soit vraie.

La méthode de l’essai clinique contrôlé randomisé, aussi efficace soit-elle, présente des faiblesses que nous évoquerons dans les points suivants. Elles sont liées à la méthodologie employée mais, finalement et surtout, à l’importance des enjeux dans ce qui est devenu le marché de la Santé.  Pour ceux qui souhaitent aller plus loin dans la méthodologie, je leur conseille les vidéos de Science4All disponibles sur YouTube. Elles m’ont bien aidé pour écrire cet éclairage – que j’espère à portée de tous – sur le débat autour des essais cliniques qui a émergé durant la pandémie de COVID-19.

1)    La méthode fréquentiste ne permet pas de mesurer la probabilité que le traitement B soit meilleur que le traitement A : elle mesure uniquement la probabilité qu’ils soient équivalents. L’approche fréquentiste suppose que les traitements A et B soient aussi efficaces l’un que l’autre : c’est l’hypothèse nulle. Or, rien ne nous dit que ce soit vrai.

2)    En appliquant la méthode fréquentiste, si nous reproduisons 20 essais cliniques avec deux traitements que nous savons être équivalents, nous obtiendrons une fois sur 20, du fait du hasard, une différence et une p-value correspondante qui nous feront rejeter l’équivalence des deux traitements. Il ne suffit donc pas d’un unique essai clinique pour conclure à l’efficacité d’un médicament : il en faut plusieurs dont les protocoles soient tous comparables pour admettre une efficacité. Un laboratoire peut avoir comme stratégie de multiplier les essais cliniques pour démontrer l’efficacité d’un nouveau médicament, sachant qu’il n’est pas plus efficace que le traitement de référence. Il constituera son dossier de demande d’autorisation de mise sur le marché avec, par exemple, les deux seules études significatives qui auront été publiées dans des revues scientifiques, sans communiquer les études non significatives et non publiées.

3)    Même si la probabilité que les traitements A et B soient équivalents est très faible, la p-value ne nous dit rien sur l’intensité de l’effet, c’est à dire la différence d’efficacité entre les deux traitements. Si la p-value est égale à 10-6, soit une chance sur un million que l’hypothèse nulle soit vraie, nous admettrons un effet supérieur du traitement B. En population générale, l’ampleur de l’effet peut être faible car elle n’est pas « proportionnelle » à la p-value. Par exemple, le traitement B peut guérir 85% des malades quand le traitement A en guérit 80%. Cette différence d’efficacité de 5% est-elle vraiment intéressante si le traitement B entraîne beaucoup plus d’effets secondaires et d’inconfort que le traitement A et que la maladie est relativement bien tolérée ? Et si en plus le traitement B coûte 1,5 fois plus cher que le traitement A ?

4)    Il est possible de changer les critères de jugement en cours de protocole : c’est la malléabilité. Si les investigateurs s’aperçoivent que le traitement B n’est pas plus efficace que le traitement A, il reste possible de changer de critère de jugement et de réécrire le protocole. Exemple ayant donné lieu à publication : échanger la survie qui était le critère de jugement de départ contre la durée d’hospitalisation mesurée en jours. Dans ce cas, où est le bénéfice pour les malades et la société, sachant que le traitement est cher et non dépourvu d’effets secondaires ? Autre exemple : n’ayant pas démontré d’efficacité en population générale, rechercher une différence significative « démontrant » une efficacité chez les plus de 60 ans, ou bien chez les diabétiques, etc. C’est ce qu’on appelle la chasse à la p-value, le p-hacking en anglais.

5)    La difficulté à généraliser à l’ensemble de la population les résultats d’un essai clinique est réelle car un contexte expérimental n’est pas représentatif de la vie usuelle. Les patients sélectionnés bénéficient d’un suivi spécifique pour l’essai clinique et ils répondent à des critères d’âge, de sexe, de santé et souvent de proximité géographique de l’hôpital où a lieu l’essai : la plupart des patients inclus sont hospitalisés ou suivis à l’hôpital. Ils n’ont pas le même niveau de gravité de la maladie, ni les mêmes comportements que les malades suivis par leurs médecins généralistes ou leurs spécialistes en libéral. Faisant partie d’un protocole, leur comportement est modifié : ils sont plus attentifs à leur maladie et ils ont souvent une meilleure observance des traitements. C’est la même chose pour les équipes médicales. De plus, beaucoup de protocoles sont conduits parmi des populations occidentales qui ont un bon niveau d’éducation, dans des pays en général industrialisés, autant de critères qui empêchent la généralisation des résultats d’un essai clinique d’une population à une autre.

6)    Pour mener un essai clinique, il faut beaucoup d’argent. La plupart du temps, ce sont les laboratoires pharmaceutiques privés qui financent ces études pour leurs candidats médicaments. Ils s’appuient sur des équipes médicales hospitalières pour mettre en œuvre l’essai. Les carrières des médecins qui briguent des postes de responsabilité sont très liées à leur niveau de publication scientifique. Une publication scientifique rapporte un fait scientifique, ici un résultat d’essai clinique, en le resituant dans son contexte à l’aide de citations d’autres articles scientifiques publiés. Un article dans une revue prestigieuse apporte des points qui permettent de classer les médecins. Ce sont les points calculés par le système de bibliométrie officiel appelé Système d’interrogation, de gestion et d’analyse des publications scientifiques (SIGAPS). Ces points sont liés à l’IF, Impact Factor, de la revue scientifique qui publie l’article. Plus une revue est prestigieuse, plus son IF est élevé et plus son abonnement coûte cher. L’IF de la revue est dépendant du nombre de fois où les articles qu’elle publie seront cités dans d’autres publications. Une revue souhaitera donc publier des articles qui auront une forte chance d’être cités : autrement dit, les revues ont tendance à publier des articles à sensation avec p-value < 0,05.

Examinons quatre conséquences de ce fonctionnement :

       Les articles publiés présentent quasiment tous des résultats significatifs qui rejettent l’hypothèse d’équivalence des traitements avec p-value < 0,05. Les études avec p-value > 0,05 sont rarement publiées car considérées peu vendeuses. Ce qui induit un p-hacking acharné de la part des auteurs lancés dans la compétition internationale de la recherche,

       Nous ignorons tout ou presque des études non significatives : elles ne sont pas publiées. Or, nous le savons, en effectuant 20 études comparant deux traitements équivalents, le hasard fera que la p-value sera inférieure à 0,05 dans une des études, d’où l’importance d’avoir connaissance des études non significatives,

       Le lobbying exercé par les laboratoires pharmaceutiques auprès des grandes revues médicales est réel. Ils font publier les études qui favorisent leurs produits. Les grandes revues connaissent le poids des laboratoires qui sont à la source de beaucoup d’essais cliniques et de fonds de recherche : elles n’ont pas envie de se priver d’un gros potentiel de publications,

       La course à la publication est devenue une norme. L’État français attribue des allocations financières aux établissements de recherche et aux hôpitaux proportionnellement au total des points SIGAPS des chercheurs d’un établissement donné : c’est le système de l’enveloppe financière des Missions d’Enseignement, de Recherche, de Recours et d’Innovation (MERRI) délivrée par le ministère de la Santé. Dans cette course, le quantitatif a définitivement pris le pas sur le qualitatif.

Même si les articles sont évalués avant publication par d’autres scientifiques, système appelé « Revue par les pairs », il est possible que 30 à 80% de l’information scientifique publiée soit fausse et/ou sans intérêt ! C’est une conclusion partagée par des experts et les rédacteurs en chef de plusieurs revues prestigieuses. La revue par les pairs, en général effectuée par deux ou trois relecteurs du domaine, obéit à un processus subjectif. L’identité des relecteurs n’est connue que du rédacteur en chef qui les a sélectionnés, sans compte à rendre aux auteurs. Certaines revues demandent aux auteurs quels sont les scientifiques qu’ils refusent d’avoir comme relecteur, voire demandent quels sont les relecteurs qu’ils souhaiteraient avoir : les équipes de recherche sont toutes en concurrence !

Les découvertes de KOCH et de PASTEUR, à l’origine d’une rupture positive du savoir médical fin 19ème siècle, auraient-elles émergé en 2020 ? Nous pouvons en douter, surtout si elles allaient à l’encontre d’intérêts scientifiques et/ou financiers. La production de savoir n’est pas en phase avec les priorités de Santé : les chercheurs sont pris au piège, voire pris en otage par le système.

Toute démarche scientifique repose sur une question originelle dont découlera une réflexion. Or, la méthode fréquentiste « résume » la démarche scientifique à un test d’hypothèse. Elle est incapable de répondre à des questions comme : « Quelle est la probabilité que le traitement B soit efficace, ou que vous soyez victime d’un cancer car un de vos parents en a eu un ? ». La méthode bayésienne peut éventuellement y répondre, mais la méthode fréquentiste est quasiment la seule permettant d’espérer une publication dans une grande revue. Comme les questions scientifiques sont complexes, des modèles simplificateurs, sources de biais, sont construits dans le seul but de pouvoir élaborer une hypothèse nulle à tester. En cas d’impossibilité, la question sera considérée comme étant de la « pseudoscience » : elle restera probablement sans réponse, car difficilement publiable. C’est un formidable biais épistémologique dans la recherche du savoir.

Malgré ces faiblesses, la méthode des essais cliniques contrôlés randomisés est une très bonne méthode, à la condition expresse d’être encadrée. Voici quelques propositions.

Le protocole de toute étude clinique, précisant les critères de jugement, serait publié sur un site Internet dédié dès sa validation par les comités éthiques et réglementaires, et avant que l’étude débute. Le budget et l’origine du financement du protocole seraient précisés. L’équipe médicale serait nominativement et exhaustivement listée en déclarant tous les conflits d’intérêt. Une fois l’étude terminée, la base de données anonymée de l’essai clinique serait mise à disposition sur le site, ainsi que la méthode d’analyse des données et les résultats. Pour les études permettant de rejeter l’hypothèse d’équivalence (p-value < 0,05), une évaluation de l’intensité de l’effet serait obligatoire, complétée par une étude de coût/efficacité et de bénéfice/risque ainsi que par la description de la population à laquelle il est possible de généraliser les résultats. Les essais publiés sur le site seraient commentés et notés de 0 à 10 par tous les scientifiques le désirant, à la condition qu’ils s’identifient nominativement et qu’ils déclarent leurs conflits d’intérêt. Le site Internet dédié serait soumis à un contrôle strict de la part d’autorités scientifiques et administratives à définir.

Il n’y a rien d’extraordinaire ni de coûteux à mettre en place. Les avantages seraient multiples :

       Tout le savoir produit serait accessible, quelle que soit la valeur de la p-value,

       Pour un médicament donné, grâce aux publications de toutes les études, l’évaluation de la crédence d’un effet réel serait possible à l’aide de la méthode bayésienne ce qui permettrait d’avoir une certitude bien plus forte de l’efficacité,

       Les conflits d’intérêt seraient mieux gérés,

       Les études de pharmacoefficience conduites en médecine générale et à l’hôpital après mise sur le marché des médicaments seraient rendues publiques, fournissant des informations aux décideurs pour décider du remboursement par la sécurité sociale.

Les chercheurs seraient délivrés du poids de la course à la publication tout en pouvant conserver leur notoriété puisque leurs travaux seraient rendus publics et seraient évalués par des pairs identifiés. C’est la communauté scientifique qui serait son propre juge de la qualité de ses travaux, sonnant la fin de l’opacité du système actuel.