Des données chinoises trafiquées?

À en croire une intrigante loi mathématique, les chiffres sur la pandémie fournis par la Chine ne semblent pas moins fiables que ceux de la France, des États-Unis ou du Canada.  

19 Mai 2020 à 15H14

Série COVID-19: tous les articles
Les nouvelles sur la situation à l'Université entourant la COVID-19 et les analyses des experts sur la crise sont réunies dans cette série.​

Le professeur du Département de mathématiques Jean-François Cœurjolly a testé la loi de Benford avec les données sur la pandémie fournies par la Chine, le Canada, les États-Unis et la France. Photo: Getty images

Prenez n'importe quelle série de nombres, par exemple le prix des produits dans votre épicerie, le nombre d'habitants des villes canadiennes, le nombre de votes obtenus par différents candidats dans différentes circonscriptions, et regardez les premiers chiffres de ces nombres (1 pour 18, 2 pour 26 000, 3 pour 3372, etc.). Il y a de fortes chances que le chiffre 1 soit le plus fréquent, suivi du 2, et ainsi de suite. Il s'agit d'un phénomène contre-intuitif puisque l'on s'attendrait à observer autant de 1 que de 9, par exemple. Ce phénomène, bien connu des statisticiens, peut être expliqué par la loi de Benford. Cette loi mathématique de probabilité permet d’examiner des séries de nombres pour déceler des anomalies et ainsi détecter de possibles fraudes et autres falsifications. Le professeur du Département de mathématiques Jean-François Cœurjolly l’a testée avec les données sur la pandémie de COVID-19 fournies par la Chine, le Canada, les États-Unis et la France.

Histoire d’une découverte mathématique

Ce principe statistique a été observé et décrit pour la première fois par l’astronome et mathématicien d’origine canadienne Simon Newcomb, en 1881. L’astronome avait remarqué quelque chose d’étrange dans les livres de tables logarithmiques (que les scientifiques de l’époque utilisaient aussi souvent que nous la calculatrice). Les premières pages étaient systématiquement les plus usées, donc les plus consultées. Or, dans ces volumes, on classe les nombres par mantisse, c’est-à-dire d’abord tous les nombres commençant par 1, ensuite ceux commençant par 2, etc.

Était-il possible que les nombres commençant par 1, puis par 2, puis par 3, soient plus utilisés que les autres? Pour le déterminer, l’astronome a examiné des milliers de données d’origines diverses. Il a découvert que non seulement c’était le cas, mais qu’on pouvait même établir par une formule mathématique la probabilité, dans une série de nombres donnée, de rencontrer chaque chiffre comme premier chiffre significatif (le premier chiffre significatif est le premier chiffre non nul le plus à gauche dans l’écriture d’un nombre : 3 dans 325; 6 dans 0,0687, etc.).  Selon cette formule, la probabilité d’avoir le 1 comme premier chiffre significatif est de 30,1%, le 2 de 17,6 %... et le 9, de 4,6%. Ses observations ont fait l’objet d’une publication dans l’American Journal of Mathematics, mais Newcomb était en avance sur son temps et son article est passé inaperçu.

Frank Benford, le physicien américain qui a donné son nom à la loi, ignorait donc la découverte de Newcomb quand il a refait la même observation en 1938 et publié «La loi des nombres anormaux». Depuis, cette loi a passionné les mathématiciens, qui ont découvert toutes sortes d’exemples de son application. «Par exemple, les données d’une courbe de croissance exponentielle, comme celles d’une épidémie, ont en général un premier chiffre significatif très bien modélisé par une telle loi», mentionne Jean-François Cœurjolly.

La loi ne fonctionne pas avec toutes les collections de nombres. Ainsi, elle ne s’applique pas à des données contraintes comme les numéros de téléphone d’une localité (qui commencent tous par le 514, par exemple), la taille des adultes ou les records de saut en hauteur.

«Il y a bien évidemment des limitations, mais il n'en reste pas moins qu'analyser le ou les premiers chiffres significatifs de données est un outil remarquable et pertinent», remarque le mathématicien. 

La loi appliquée à divers types de fraudes

Comme le principe semblait s’appliquer à la plupart des données du monde réel (tailles des fichiers sauvegardés dans un ordinateur, PIB des pays, longueur des fleuves du monde, cours de la bourse, etc.), certains ont eu l’idée de l’appliquer à des séries de nombres en s’intéressant à leur premier ou second chiffre significatif. «Si ceux-ci s'écartent fortement de ceux attendus par la loi de Benford, on peut alors suspecter une éventuelle fraude ou falsification», explique le professeur. Dans un article publié en 1972, l'économiste Hal Varian a été le premier à proposer l'idée d'utiliser la loi de Benford pour détecter une fraude fiscale. Il a montré que dans les données falsifiées, les premiers chiffres significatifs 5 et 6 prédominaient : 40% pour le 5 (au lieu de 7.9%) et plus de 20% pour le 6 (au lieu de 6,7%). 

En 1993, un employé du Trésor de l’Arizona a été reconnu coupable d’une tentative de fraude de deux millions de dollars. Une série de chèques qu’il avait émis ne suivait pas la loi de Benford!

«La loi de Benford a été utilisée dans de nombreuses autres circonstances, indique Jean-François Cœurjolly: pour détecter des fraudes électorales, pour illustrer des abus sur les prix lorsque la monnaie française est passée à l'euro en 2000, pour détecter des fraudes dans les publications scientifiques, etc.»

Analyse comparée des données chinoises

Étant donné les doutes soulevés au cours des dernières semaines concernant les données sur la COVID-19 fournies par la Chine, le professeur a eu l’idée de les analyser, comparativement avec les données provenant de trois autres pays – le Canada, les États-Unis et la France – en utilisant la loi de Benford.

«Nous avons réalisé une analyse de données massives sur le nombre quotidien de cas et de décès liés à la COVID-19, croisant six sources différentes de données et combinant des informations au niveau municipal, provincial et fédéral, précise le mathématicien. Deux éléments ressortent de cette analyse : premièrement, les nombres de cas et de décès exhibent tous le même phénomène de surexpression du chiffre 1, puis 2, etc. Toutes les séries examinées semblent être modélisées efficacement par la loi de Benford. Deuxièmement, nous montrons qu'il n'y a aucune différence significative entre les quatre pays considérés. Autrement dit, les données chinoises ne s’écartent pas davantage du modèle que celles des trois autres pays considérés.»

Graphique: Jean-François Coeurjolly

Mais attention, prévient Jean-François Cœurjolly. Le fait que des données ne s’éloignent pas de la loi de Benford ne constitue pas, en soi, une preuve qu’il n'y a pas eu de falsification intentionnelle. De la même façon, des données qui s’en éloignent amènent une suspicion de fraude, mais n’en sont pas la preuve.

«Il faut aussi être réaliste, car ce type d'étude a des limites évidentes, souligne le professeur. Multipliez (ou divisez) par 10 toutes les données, et la distribution du premier chiffre significatif sera inchangée.» Autrement dit, les données chinoises tout comme celles du Canada pourraient théoriquement être 10 fois plus élevées et suivraient quand même le principe découvert par Newcomb et Benford…

Jean-François Cœurjolly a soumis un article sur le sujet, «Digit analysis for Covid-19 reported data», qu’on peut consulter en prépublication.

 

PARTAGER
COMMENTAIRES 0 COMMENTAIRE