Résumé : une publication scientifique récente déclare avoir identifié des liaisons significatives entre des troubles de comportement chez les jeunes garçons, et l’exposition de leur mère à des produits soupçonnés d’effets perturbateurs endocrinien. Pourtant, une phrase du paragraphe « Résultats » de l’article (mais non prise en compte dans ses conclusions ni dans son résumé), démontre très clairement que ces résultats ne sont pas valides. Ces résultats ne sont en fait que le produit de la « pêche aux alphas » que nous avons déjà dénoncée ici et ici. Cette étude a été reprise sans aucune remise en cause dans l’ensemble de la presse française, et même par le service de presse de l’INSERM : une démonstration supplémentaire des graves lacunes de l’enseignement des statistiques en France.

Une publication scientifique sur le sujet très médiatique des perturbateurs endocriniens (PE) s’est taillé un beau succès médiatique récemment[i]. Les auteurs y affirment avoir identifié des relations statistiquement significatives, entre des troubles du comportement chez de jeunes garçons de 3 ou 5 ans, et l’exposition de leur mère à des produits soupçonnés d’effets perturbateurs endocriniens pendant sa grossesse. Bien que très technique, cet article a été cité largement dans la presse généraliste, et interprété comme une démonstration des dangers de ce type de produits.

Pour cette fois, les interprétations alarmistes de la presse ne résultaient pas d’une déformation ou d’une exagération des conclusions réelles des scientifiques : elles sont parfaitement conformes au résumé de la publication rédigé par les chercheurs, et au communiqué de presse de l’INSERM sur cet article[ii].

Mais une surprise de taille attend les lecteurs un peu curieux, qui font l’effort de lire l’article scientifique en entier : la phrase finale du paragraphe « Résultats », non reprise dans le résumé, et non prise en compte dans les conclusions de l’article, affirme très exactement le contraire : les auteurs n’ont trouvé AUCUNE relation significative entre l’exposition aux PE des mères et le comportement des garçons étudiés! Comment un tel tour de passe-passe est-il possible ?

Sortons les calculettes

Pour le comprendre, rappelons ce qu’est un résultat statistiquement significatif. Dans le contexte de cette étude, si pour un PE on observe une différence significative à 5% entre la population exposée et la population non exposée, cela veut dire que l’on n’a que 5% de chances de se tromper, quand on affirme qu’il y a une différence de comportement entre ces deux populations. Cela ne signifie d’ailleurs pas forcément que le PE en est la cause, mais c’est encore une autre histoire que nous n’examinerons pas ici.

Ce risque d’attribuer par erreur au PE un effet qu’il n’a pas est ce qu’on appelle le risque de 1^ère espèce (a). Le limiter à un seuil inférieur à 5% parait satisfaisant, si on s’intéresse à un résultat isolé. Mais on voit tout de suite le piège dans une étude complexe, où l’on va réaliser beaucoup de tests statistiques : au-delà d’une vingtaine de tests statistiques, même si le produit testé est inoffensif, on est pratiquement sûr d’obtenir au moins un résultat « faussement significatif ». Cela de la même façon que l’on n’a qu’une chance sur 6 d’obtenir un 1 quand on lance un dé, mais qu’il est très probable d’en obtenir 1 au moins une fois si on lance 6 fois le dé. C’est ce que l’on appelle le problème des comparaisons multiples (multiple testing en anglais), et il existe bien sûr des tests statistiques pour corriger ce biais inhérent aux études complexes. Sur un protocole expérimental complexe, on obtient donc forcément des résultats « significatifs », même si aucun des facteurs étudiés n’a d’effet. La question qui se pose alors est plutôt : y a-t-il un excès significatif de résultats significatifs.

Qu’en est-il dans cette étude ? Les auteurs ont croisé 13 PE ou groupes de PE avec 7 indicateurs du comportement des garçons étudiés, soit au total 91 combinaisons. Ils ont réalisé 4 analyses différentes (tableaux 2 à 5 de l’article), soit au total 364 test statistiques.

Si l’ensemble des produits étudiés était inoffensif, les auteurs devraient donc obtenir 18 ou 19 résultats significatifs à 5% (car 5% de 364 = 18,2), et 36 ou 37 résultats significatifs à 10%. Or, si on fait le décompte sur les tableaux 2 à 5, c’est très exactement ce qui s’est passé ! (19 résultats significatifs à 5%, et 36 à 10%) ! Ils auraient donc obtenu exactement le même résultat, s’ils avaient travaillé sur des produits inoffensifs, voire sur le signe astrologique des enfants. Auraient-ils alors osé écrire que certains signes astrologiques ont un lien significatif avec des troubles du comportement ?

La petite phrase qui change tout…mais n’est pas dans le résumé !

En première lecture, la conclusion la plus probable est donc que les PE étudiés n’ont aucun effet sur le comportement. Une autre remarque va dans le même sens : l’incohérence des résultats significatifs observés. Par exemple, le triclosan a une liaison significative à10% pour 3 indicateurs du comportement chez les enfants de 3 ans (tableau 2), mais tout s’arrange miraculeusement à 5 ans (tableau 3) !

Pour en avoir le cœur net, il existe bien des tests statistiques permettant de corriger cet effet « multiple testing », pour vérifier la probabilité qu’au moins une partie des résultats significatifs obtenus ne soit pas l’effet du risque de 1^ère espèce. Les auteurs ont bien pratiqué un de ces tests, et le résultat est sans appel. Le paragraphe « Résultats » de l’article se conclut par cette phrase : « Quand nous avons appliqué une correction de l’effet des comparaisons multiples, par une méthode FDR [False Discovery Rate], aucun des résultats présentés n’est resté significatif, la p-value corrigée la plus faible était de 0,42, pour la liaison entre l’exposition entre le Bisphenol A et les troubles relationnels avec les autres enfants, chez les garçons de 3 ans ». En clair, cela signifie que la probabilité que le résultat le plus « significatif » de l’étude soit réellement dû à un effet du produit concerné (le bisphenol A) n’est que de 58%….et donc que ce résultat n’est absolument pas significatif !

La conclusion de l’analyse statistique complète résumée dans cette phrase est donc sans ambiguïté : il n’y a dans cette étude aucune preuve d’une liaison entre exposition de la mère aux PE et comportement de l’enfant. Les résultats apparemment significatifs obtenus sont un simple effet du hasard. Mais cette phrase fondamentale n’est pas citée dans le résumé de l’article, ni prise en compte dans les conclusions de l’article.

On voit tout la finesse du procédé : avec cette fameuse phrase sur le test FDR mentionnée rapidement dans les résultats, les auteurs se dédouanent de toute critique, voire demande de rétractation de leur article. Certes, leurs résultats significatifs ne veulent rien dire, mais ils l’ont signalé très clairement dans l’article…tout au moins clairement pour leurs pairs, en particulier les reviewers de la revue qui a accepté l’article. Mais dans le même temps, cette phrase est suffisamment obscure pour passer inaperçue de la plupart des lecteurs non spécialistes. Y compris des journalistes scientifiques, qui manifestement se contentent pour la plupart de lire le résumé, où cette phrase n’était pas reprise. Et même, ce qui encore plus gênant, du service de presse de l’INSERM ! Tout le monde ou presque retiendra que des résultats significatifs ont été obtenus… mais ignorera qu’une analyse statistique plus approfondie a montré qu’ils n’étaient pas valides ! Un petit arrangement avec l’éthique scientifique qui arrange tout le monde, les auteurs bien entendu, mais aussi la revue qui y gagne un article à gros impact factor garanti.

Un cas exemplaire de « pêche aux alphas »

Les lecteurs de ForumPhyto connaissent bien le procédé employé ici : il s’agit d’un cas exemplaire de pêche aux alphas, c’est-à-dire de résultats significatifs obtenus en multipliant comme des petits pains les tests statistiques. Nous avons déjà eu l’occasion d’en rencontrer plusieurs exemples dans des articles précédents[iii]… dont la plupart venaient de la même revue que cette publication : Environmental Health Perspectives[iv](EHP). Le mot de la fin est sur son site Web : « With an impact factor of 9.78, EHP is one of the most highly ranked journals in Toxicology, Public, Environmental and Occupational Health, and Environmental Sciences ». Tout est dit !

Il y a quelques temps, ForumPhyto avait mis en ligne un jeu-test psychologico-humoristique : « Statisticien, épidémiologiste, astrologue, quel scientifique êtes-vous ? »[v]. L’existence même de cet article scientifique, et l’écho qu’il rencontre dans les medias, montrent clairement que les conclusions humoristiques de ce test correspondent malheureusement de plus en plus à la réalité :

De plus en plus de chercheurs sont adeptes de la réponse 2 de ce test, le mode « Je montre les résultats statistiques qui m’arrangent, et je balaie les autres sous le tapis »
La presse, scientifique ou non, marche à l’unanimité en mode réponse 3 du test : « puisque le résumé dit que c’est significatif, et que ça vient de l’INSERM, c’est démontré scientifiquement »
Quant à la réponse 1 du test, qui est pourtant la seule valable en statistique, les chercheurs qui s’y accrochent encore doivent savoir qu’ils se pénalisent gravement dans la course aux publications…

Une conséquence de l‘inculture statistique française

Nous l’avons vu, un astrologue aurait obtenu exactement les mêmes résultats statistiques avec les signes astrologiques des enfants, que nos chercheurs de l’INSERM avec les perturbateurs endocriniens. Pourquoi faudrait-il croire les uns et pas les autres ? L’exemple de l’astrologie peut paraître caricatural, mais il y a une foule d’autres sujets considérés comme scientifiquement crédibles dans le grand public, qui pourraient bénéficier des mêmes procédés : pensons par exemple à l’homéopathie, qui pourrait de la même façon mettre en avant quelques résultats significatifs obtenus pour ses produits par la grâce du risque de 1^ère espèce. Sur ce sujet, sommes-nous vraiment sûrs qu’aucune revue n’acceptera jamais de publier de tels résultats ? On voit ici qu’au bout du compte, la crédibilité scientifique ne tient finalement qu’à la réputation des auteurs, et à la plausibilité supposée du sujet traité : des critères qui n’ont rien de scientifique. En l’occurrence, tout le dispositif de contrôle de l’intégrité scientifique n’est qu’une coquille vide, à l’intérieur de laquelle n’importe quel bernard-l’ermite peut cacher confortablement le ventre mou de ses théories.

Si l’intérêt des chercheurs et d’EHP dans cette histoire est clair, l’unanimité avec laquelle les medias (y compris la presse de vulgarisation scientifique) se laissent flouer par des procédés aussi grossiers est plus surprenante. Les raisons en sont multiples : la première est bien sûr le goût des medias du sensationnalisme. La seconde est sans doute que la plupart des journalistes se contentent de reprendre les communiqués des agences de presse (qui elles-mêmes ne font que reprendre les communiqués de presse des Instituts de Recherche), ou, pour les plus courageux d’entre eux, les résumés des publications scientifiques. Une attitude qui oublie de larges pans de la Charte Ethique Professionnelle des Journalistes[vi], dont nous rappelons pour la bonne bouche quelques extraits :

« Un journaliste digne de ce nom… :

tient l’esprit critique, la véracité, l’exactitude…pour les piliers de l’action journalistique ; tient …la non vérification des faits, pour les plus graves dérives professionnelles »
[…]
exerce la plus grande vigilance avant de diffuser des informations d’où qu’elles viennent » (c’est nous qui soulignons).

De beaux principes généralement respectés en matière d’information politique, mais totalement bafoués dans le domaine scientifique. Il y aurait pourtant un important travail à faire en matière de journalisme d’investigation scientifique… mais sûrement pas dans le sens que lui donnent Stéphane Foucart, Elise Lucet ou Marie-Monique Robin : un vrai travail d’analyse critique, qui fournisse à ses lecteurs ou spectateurs toutes les informations nécessaires à leur bonne compréhension du sujet traité.

Et c’est là que nous touchons au phénomène qui rend possible toutes ces dérives : l’inculture abyssale des Français en matière de statistiques. Cette étude est bel et bien significative. Mais elle est seulement significative de cette inculture.

Une ignorance entretenue par les programmes officiels de l’enseignement secondaire, puisque les lycéens n’en apprennent que des rudiments, comme le mode de calcul des intervalles de confiance. Pour la définition de l’hypothèse nulle et du risque de 1^ère espèce, des notions pourtant indispensables à la compréhension de la fiabilité d’une étude scientifique, le programme de mathématiques 2011 des sections STMG « sciences et technologies du management et de la gestion » prenait même soin de préciser explicitement que ces sujets étaient hors programme !
Dans le même temps, les grands penseurs du déclin français qui encombrent les plateaux de télévision s’arrachent les cheveux pour déplorer que les collégiens n’apprennent plus le latin ou le grec ancien à l’école. Il serait grand temps qu’un Ministre de l’Education se rende compte que des connaissances de bases sur les statistiques seraient bien plus importantes pour éclairer les citoyens sur les enjeux du monde actuel.

Philippe Stoop

[i] https://ehp.niehs.nih.gov/ehp1314/

[ii] http://presse.inserm.fr/en/prenatal-exposure-to-endocrine-disruptors-and-behavioral-problems-in-children/29573/

[iii] Voir : http://www.forumphyto.fr/2016/04/01/la-peche-aux-alphas-non-ce-nest-pas-un-poisson-davril/

http://www.forumphyto.fr/2016/05/19/la-peche-aux-alphas-niveau-2-cours-de-perfectionnement/

[iv] http://www.forumphyto.fr/2016/10/04/peche-aux-alphas-contre-chasse-aux-petits-betas-pourquoi-lanalyse-des-risques-environnementaux-ne-devrait-pas-etre-seulement-un-travail-de-chercheurs/

[v] http://www.forumphyto.fr/2016/04/01/pours-sourire-et-sinstruire-statisticien-epidemiologiste-astrologue-quel-scientifique-etes-vous/

[vi] http://www.snj.fr/sites/default/files/documents/Charte2011-SNJ.pdf