Intelligence artificielle : Devez-vous aveuglément faire confiance aux données ?

By Caroline Vandenplas , 01 August 2020
Caroline  
Vandenplas
Managing Partner

Comme de nombreuses data scientists, j'ai suivi un parcours de carrière non linéaire : après avoir étudié les mathématiques et la physique, j'ai intégré le monde des sondages en 2007. Mon premier rôle dans les enquêtes était en tant que statisticienne échantillonneuse, et avec le temps, je suis devenue une méthodologiste d'enquête complète. La préoccupation principale du méthodologiste d'enquête est de collecter des données à travers des enquêtes (et de les corriger après l'enquête) de manière à minimiser les biais et à augmenter la précision. Ainsi, mes antécédents me rendent très "consciente" de la qualité des données. Une idée fausse commune contre laquelle les méthodologistes d'enquête et les data scientists doivent lutter est l’idée qu’un nombre important de données signifient des données de qualité. Mais la quantité ne garantit pas la qualité.

Le but de cet article de blog est de rappeler à toutes celles qui veulent l'entendre (ou mieux le lire) de ne pas faire aveuglément confiance à leurs données. Avant de développer des analyses et des modèles prédictifs à l'aide de données, un bon data scientist enquête sur les biais qu'elles peuvent contenir.

COMPRENDRE D'OÙ VIENNENT VOS DONNÉES

L'origine de vos données est importante car elle peut entraîner toutes sortes de biais.

Les données que vous utilisez pour former votre algorithme peuvent ne représenter qu'un sous-ensemble (non aléatoire) de votre population ou de l'espace de données d'intérêt. Cela s'appelle un biais de représentation et peut avoir différentes sources. La première source importante est le biais de non-observation ou de non-couverture, ce qui signifie qu'une partie de la population ou de l'espace de données n'avait aucune chance d'être incluse dans votre jeu de données. L'autre source est plus particulière aux sciences sociales ou aux ensembles de données basés sur l'humain et s'appelle le non-réponse, ce qui signifie que vous (ou le collecteur de données) avez essayé d'observer la personne, mais elle a refusé de collaborer.

Quelques exemples valent mieux qu'un long discours. Je vais donc illustrer le biais de représentation et comment il peut conduire à des conclusions erronées avec un exemple.

La pandémie actuelle de la COVID-19 fournit au monde de nombreuses données quotidiennes : le nombre de nouvelles contaminations, de nouvelles hospitalisations ou de décès dus au virus dans la plupart des pays.

Le tableau suivant est un extrait d'un tableau publié sur le site web de l'Organisation mondiale de la santé le 13 mai 2020.(https://www.who.int/docs/default-source/coronaviruse/situation-reports/20200513-covid-19-sitrep-114.pdf?sfvrsn=17ebbbe_4)

Data

La tentation est toujours forte de comparer les pays les uns aux autres, pour voir qui s'en sort "mieux".

Si nous comparons la Belgique et ses pays voisins, les Pays-Bas et la France, nous obtenons les taux suivants :

Population total Taux de contamination Taux de mortalité
Belgique 11 589 623 0.4% 0.07%
France 65 273 511 0.2% 0.04%
Pays-Bas 17 134 872 0.2% 0.03%

La Belgique semble être celle qui s'en sort le moins bien, ayant le taux de contamination et de décès le plus élevé (plus de deux fois supérieur à celui des Pays-Bas !).

Cependant, en creusant un peu plus et en comparant le nombre de contaminations au nombre de personnes testées (https://www.worldometers.info/coronavirus/#countries), les taux de contamination sont les suivants : 8 % en Belgique, 9 % en France et 15 % aux Pays-Bas.

Cela donne une autre image ! Nous devons garder à l'esprit comment les tests sont effectués et parmi quelle partie de la population. Une stratégie de test plus ciblée peut entraîner un taux de contamination plus élevé par rapport au nombre de personnes testées. Cela montre également comment les données peuvent être manipulées pour conduire à des conclusions différentes.

Regardons maintenant le taux de mortalité. Sans faire de déclaration politique, le taux de mortalité plus élevé en Belgique s'explique probablement, au moins en partie, par la stratégie de déclaration.

Les taux de mortalité ont des schémas saisonniers relativement prévisibles au fil du temps dans des conditions "normales" (par exemple, pas de pandémies, pas de guerres ni d'autres événements cataclysmiques). Lorsqu'un événement comme la pandémie de COVID-19 survient, une augmentation anormale du taux de mortalité par rapport à la ligne de base (modèle habituel) est observée dans les données. Si les décès dus au COVID-19 sont correctement signalés, ils devraient représenter au moins une partie significative de la différence entre la ligne de base et le nombre de décès observés.

C'est là qu'une autre différence entre la Belgique et d'autres pays réside. En Belgique, chaque décès suspecté de COVID-19 est signalé comme des décès "COVID-19", tandis que dans de nombreux autres pays seuls les cas confirmés sont signalés. Dans les graphiques publiés quotidiennement dans The Economist (https://www.economist.com/graphic-detail/2020/04/16/tracking-covid-19-excess-deaths-across-countries) pour suivre les décès, on peut observer que la surmortalité pendant la pandémie est entièrement expliquée par les cas de COVID-19 en Belgique et en France. Ce n'est pas le cas dans tous les pays.

Certes, le taux de surmortalité en mars et avril 2020 en Belgique est très élevé par rapport à d'autres pays du monde, mais comme je ne suis pas épidémiologiste, je ne tenterai pas d'expliquer cette observation.

NE PAS INFÉRER LA CAUSALITÉ À PARTIR DE DONNÉES OBSERVATIONNELLES

Les données peuvent être observationnelles ou expérimentales.

Les données observationnelles sont généralement le résultat d'enquêtes, de sondages d'opinion ou du célèbre jeu de données Iris de Fisher (Source : Fisher, Ronald A., et Michael Marshall. "Iris data set." RA Fisher, UC Irvine Machine Learning Repository 440 (1936) : 87), pour donner quelques exemples. Nous pouvons décrire les liens entre les variables dans les ensembles de données, mais jamais, au grand jamais[1] inférer la causalité en raison de facteurs non observés et en raison du paradoxe de la poule et de l'œuf (lequel est venu en premier ?). Ici, par causalité, j'entends une interdépendance de la cause et de l'effet qui, par définition, n'est pas symétrique. Si je cogne mon petit orteil, je ressentirai de la douleur, et ce n'est pas la douleur qui me fait cogner mon petit orteil.

Pour inférer la causalité, nous avons besoin de données expérimentales dans lesquelles des groupes aléatoires sont assignés à différentes interventions. Dans ce cas, nous pouvons inférer l'effet de l'intervention. En général, les essais cliniques fournissent des données expérimentales.

Un des grands dangers de l'inférence erronée de la causalité est l' "erreur écologique" - une fausse forme dans l'interprétation des données statistiques qui se produit lorsque des inférences sur la nature des individus sont déduites des inférences sur le groupe auquel appartiennent ces individus (https://en.wikipedia.org/wiki/Ecological_fallacy)

Un exemple connu de l’erreur écologique, appelé le paradoxe de Simpson, peut être illustré avec les chiffres d'admission pour l'automne 1973 à l'Université de Californie, Berkeley, consultez le tableau ci-dessous. (Source : https://en.wikipedia.org/wiki/Simpson's_paradox). Les chiffres agrégés au niveau de l'université suggéraient que les hommes ont plus de facilité à être admis à l'université de Berkeley.

Homme Femme
Candidats Admis Candidats Admis
8442 44% 4321 35%
Départements Homme Femme
Candidats Admis Candidats Admis
A 825 62% 198 82%
B 560 63% 25 68%
C 325 37% 593 34%
D 417 33% 375 35%
E 191 28% 393 24%
F 373 6% 341 7%

Cependant, lors de l'examen des départements individuels (tableau ci-dessous), il apparaît que six départements sur 85 étaient significativement biaisés contre les hommes, tandis que quatre étaient significativement biaisés contre les femmes.

Ce cas est un exemple typique d'un facteur non observé qui influence la conclusion tirée de vos données.

Donc, ne tirez pas de causalité à partir de données observationnelles.

TOUJOURS REPRÉSENTER VOS DONNÉES !

La théorie statistique offre aux data scientists toute une gamme d'outils pour décrire des données, même en grande quantité, avec un nombre limité de paramètres. Pensez par exemple aux moyennes ou aux médianes, aux écarts-types ou même aux corrélations. Ces paramètres statistiques sont très utiles car ils nous aident à "résumer" l'information contenue dans les données, mais pour être un "bon" résumé, les données doivent en réalité remplir certaines hypothèses - des idées que nous avons sur la structure des données, ce que l'on oublie facilement ! Cela est également particulièrement dangereux si vos données ont de nombreuses dimensions, c'est-à-dire si vous souhaitez résumer plusieurs variables, par exemple la taille, le poids et la densité osseuse dans différentes populations.

Pour illustrer comment la synthèse de vos données en quelques paramètres statistiques peut être trompeuse, prenons le célèbre quartet d'Anscombe (Source : https://en.wikipedia.org/wiki/Anscombe's_quartet). Le quartet se compose de 4 ensembles de données (x, y) - onze paires - avec les mêmes paramètres statistiques, décrits ci-dessous.

Paramètre Valeurs Exactitude
Moyenne de x 9 exacte
Variance de x 11 exacte
Moyenne de y 7.50 À 2 décimales près
Variance de y 4.125 ±0.003
Corrélation entre x et y 0.816 À 3 décimales près
Régression linéaire y = 3.00 + 0.500x À respectivement 2 et 3 décimales près
Coefficient de détermination de la régression linéaire 0.67 À 2 décimales près

Cependant, la représentation graphique des données révèle des relations différentes entre x et y ! Des relations approximativement linéaires, linéaires avec un point aberrant influençant le coefficient de régression, jusqu'à des relations quadratiques, voire aucune relation du tout, ces ensembles de données présentent différents comportements - relations entre x et y - même s'ils sont décrits par les mêmes valeurs de paramètres statistiques, comme le montre le graphique ci-dessous.

Plots

Je ne dis pas que regarder les moyennes et les variances est une mauvaise idée, mais gardez à l'esprit que vous supposez implicitement que votre variable est normalement distribuée. Un petit graphique, comme des boîtes à moustaches et des histogrammes pour une variable ou un bon vieux nuage de points lorsque vous examinez deux variables, suffit souvent à vous rappeler le piège facile.

En résumé

Ce sont quelques-uns des pièges courants dans lesquels il est facile de tomber lorsque vous analysez vos données. La liste n'est bien sûr pas exhaustive, d'autres choses à surveiller sont notamment :

  • La malédiction de la dimensionnalité
  • Les données manquantes
  • Les valeurs aberrantes
  • La dépendance temporelle, le décalage de distribution
  • Le manque de vérité objective, les erreurs dans vos données
  • Et bien d'autres que j'oublie...

J'espère vous avoir sensibilisé à l'importance de prendre en compte les biais de représentation lors de l'analyse des données. Une autre cause courante de biais dans les données, sur laquelle je n'ai pas développé pour maintenir la longueur du billet de blog raisonnable, ce sont les erreurs de mesure. Des exemples de sources d'erreurs de mesure sont les personnes qui répondent de manière non véridique à un questionnaire, les erreurs d'étiquetage "manuel" ou le mauvais étalonnage de l'outil de mesure.

Donc, lorsque vous travaillez avec des données, gardez à l'esprit les biais de représentation et de mesure ! Ne tirez pas non plus de conclusions causales lorsque vos données n'ont pas été collectées de manière appropriée à cet effet, et prenez le temps de réaliser plusieurs graphiques.

Lorsque vous démarrez un projet de science des données, soyez curieux et critique. Vous pouvez avoir confiance en vos données, mais pas aveuglément.

POUR ALLER PLUS LOIN

Levitt Steven, D., and Stephen J. Dubner. "Freakonomics: a rogue economist explores the hidden side of everything." New York: William Morrow (2005).

Wheelan, Charles. Naked statistics: Stripping the dread from the data. WW Norton & Company, 2013.

https://www.callingbullshit.org/case_studies.html

  1. [1]

    Je comprends que cette déclaration puisse être controversée. Certaines personnes pourraient argumenter que dans des structures de données très simples (sans facteurs non observés), cela peut être fait, bien que personnellement, j'éviterais toujours cela. ↩︎


Would you like to work with us?
Anytime, anywhere, send your CV to jobs@b12-consulting.com