fbpx

Corrélation

La corrélation est une mesure statistique qui quantifie la force et la direction de la relation linéaire entre deux variables quantitatives.

Qu’est-ce que la Corrélation ?

La corrélation est une mesure statistique qui exprime la force et la direction de la relation linéaire entre deux variables quantitatives. En d’autres termes, elle nous indique à quel point deux variables évoluent ensemble de manière prévisible.

Définition détaillée de la Corrélation

La corrélation est un concept fondamental en statistiques et en analyse de données, qui permet de quantifier le lien entre deux variables. Le coefficient de corrélation, généralement noté ‘r’, est une valeur comprise entre -1 et 1. Une corrélation de +1 indique une relation linéaire positive parfaite : lorsque la valeur d’une variable augmente, la valeur de l’autre variable augmente proportionnellement. Une corrélation de -1 indique une relation linéaire négative parfaite : lorsque la valeur d’une variable augmente, la valeur de l’autre diminue proportionnellement. Une corrélation de 0 signifie qu’il n’y a aucune relation linéaire entre les deux variables. Il est crucial de noter que la corrélation ne mesure que les relations linéaires. Des variables peuvent avoir une forte relation non linéaire tout en ayant un coefficient de corrélation proche de zéro.

Le concept de corrélation a été développé à la fin du 19ème siècle, principalement par Francis Galton et Karl Pearson. Galton, un polymathe et cousin de Charles Darwin, a été le premier à explorer la notion de corrélation dans le contexte de l’hérédité. Il a étudié comment les caractéristiques des parents étaient liées à celles de leurs enfants, comme la taille. Karl Pearson, son protégé, a ensuite formalisé mathématiquement le concept et a développé le coefficient de corrélation de Pearson, qui est encore aujourd’hui la mesure de corrélation la plus utilisée. Leurs travaux ont jeté les bases de nombreuses techniques statistiques modernes et ont permis des avancées significatives dans des domaines aussi variés que la biologie, l’économie, la psychologie et les sciences sociales.

Dans le monde de la data, la corrélation est un outil essentiel pour l’exploration des données (Exploratory Data AnalysisEDA). Avant de construire des modèles prédictifs complexes, les data scientists analysent les corrélations entre les différentes variables de leur jeu de données. Cela leur permet d’identifier les relations potentiellement intéressantes, de sélectionner les variables les plus pertinentes pour leur modèle (feature selection) et de détecter d’éventuels problèmes de multicolinéarité (lorsque plusieurs variables indépendantes sont fortement corrélées entre elles), ce qui peut nuire à la performance de certains modèles de machine learning comme la régression linéaire.

Comment fonctionne la Corrélation ?

Le calcul du coefficient de corrélation de Pearson (le plus courant) repose sur la covariance des deux variables, normalisée par le produit de leurs écarts-types. La formule peut sembler intimidante, mais l’idée est simple : on regarde si les variations des deux variables par rapport à leur moyenne respective vont dans le même sens. Pour chaque observation, on calcule l’écart à la moyenne pour chaque variable. Si les deux écarts sont souvent positifs en même temps (les deux variables sont au-dessus de leur moyenne) ou négatifs en même temps (les deux sont en dessous), leur produit sera positif, menant à une corrélation positive. Si un écart est souvent positif quand l’autre est négatif, leur produit sera négatif, menant à une corrélation négative. La division par les écarts-types permet de ramener le coefficient à une échelle standardisée entre -1 et 1, le rendant indépendant des unités de mesure des variables.

Corrélation n’implique pas causalité : quelle est la différence ?

C’est sans doute l’une des mises en garde les plus célèbres en statistiques : “corrélation n’implique pas causalité”. Ce principe signifie que ce n’est pas parce que deux variables évoluent ensemble qu’il existe nécessairement une relation de cause à effet entre elles. Une forte corrélation peut être due à plusieurs scénarios. Il peut y avoir une variable confondante (ou variable cachée) qui influence les deux variables observées. Par exemple, on observe une forte corrélation positive entre la vente de glaces et le nombre de noyades. Ce n’est pas la vente de glaces qui cause les noyades, mais une troisième variable, la chaleur estivale, qui provoque à la fois une augmentation de la consommation de glaces et une augmentation de la fréquentation des lieux de baignade. La relation peut aussi être une simple coïncidence statistique, surtout avec de grands jeux de données où il est possible de trouver des corrélations fortuites entre des variables qui n’ont aucun lien logique (par exemple, le nombre de films dans lesquels Nicolas Cage est apparu et le nombre de personnes qui se sont noyées en tombant dans une piscine). Pour établir une relation de causalité, il faut mettre en place des protocoles expérimentaux rigoureux, comme les essais contrôlés randomisés (ECR), qui permettent d’isoler l’effet d’une variable sur une autre en contrôlant tous les autres facteurs. Pour en savoir plus sur ce sujet, vous pouvez consulter la page Wikipédia sur la non-implication de la causalité par la corrélation.

Quels sont les différents types de coefficients de corrélation ?

Si le coefficient de Pearson est le plus connu, il n’est pas le seul. D’autres coefficients existent pour s’adapter à différents types de données et de relations. Le coefficient de corrélation de Spearman, par exemple, est une alternative non-paramétrique qui évalue la force et la direction de la relation monotone entre deux variables. Contrairement à Pearson qui ne mesure que les relations linéaires, Spearman peut détecter des relations non linéaires, tant qu’elles sont monotones (les variables évoluent dans la même direction, mais pas nécessairement à un rythme constant). Pour le calculer, on remplace les valeurs des variables par leurs rangs, puis on calcule le coefficient de Pearson sur ces rangs. Le Tau de Kendall est un autre coefficient de corrélation non-paramétrique basé sur les rangs, qui mesure la concordance entre les paires d’observations. Il est souvent utilisé pour des jeux de données plus petits et est considéré comme plus robuste aux erreurs de mesure. Le choix du bon coefficient dépend donc de la nature des données (continues, ordinales) et de la forme de la relation que l’on soupçonne entre les variables. Pour approfondir les aspects mathématiques, la documentation de l’Université Carnegie Mellon est une excellente ressource.

Applications concrètes

En entreprise, l’analyse de corrélation est omniprésente. En finance, les analystes l’utilisent pour gérer le risque de leur portefeuille d’investissement. En identifiant des actifs peu corrélés, ils peuvent diversifier leur portefeuille et réduire sa volatilité. En marketing, on analyse la corrélation entre les dépenses publicitaires sur différents canaux et les ventes pour optimiser le budget marketing. Une entreprise de e-commerce peut analyser la corrélation entre les produits achetés ensemble pour mettre en place des systèmes de recommandation pertinents (“Les clients qui ont acheté ceci ont également acheté cela”). Dans le secteur de la santé, les chercheurs peuvent étudier la corrélation entre un certain mode de vie (alimentation, exercice) et le risque de développer une maladie. Ces analyses sont une première étape cruciale qui guide ensuite des recherches plus approfondies pour établir des liens de causalité. Pour découvrir des cas d’usage concrets, vous pouvez explorer les articles de notre glossaire.

La Corrélation et les métiers de la Data

Pour tout professionnel de la data, la maîtrise de la corrélation est indispensable. Le Data Analyst l’utilise quotidiennement pour explorer les données et répondre à des questions business. Le Data Scientist s’en sert pour la sélection de variables et pour s’assurer que les hypothèses de ses modèles sont respectées. Même le Data Engineer, en charge de la construction des pipelines de données, doit comprendre la corrélation pour s’assurer de la qualité et de la pertinence des données qu’il met à disposition. Une mauvaise interprétation d’une corrélation peut conduire à des décisions stratégiques erronées et coûteuses pour l’entreprise. C’est pourquoi une solide formation en statistiques est fondamentale. Si vous souhaitez monter en compétences sur ces sujets, n’hésitez pas à consulter nos formations comme le Bootcamp Data Analytics ou le Bootcamp Data Science.