fbpx

Médiane

La médiane est un indicateur de tendance centrale qui désigne la valeur située précisément au milieu d’un ensemble de données, une fois celui-ci ordonné.

Qu’est-ce que la Médiane ?

La médiane est un indicateur de tendance centrale qui désigne la valeur située précisément au milieu d’un ensemble de données, une fois celui-ci ordonné. Contrairement à la moyenne, elle n’est pas influencée par les valeurs extrêmes, offrant ainsi une vision plus juste de la répartition des données.

Définition détaillée de la Médiane

En statistiques et en théorie des probabilités, la médiane est la valeur qui sépare un jeu de données en deux moitiés égales : une moitié inférieure contenant les valeurs les plus faibles, et une moitié supérieure avec les valeurs les plus élevées. Pour la déterminer, il est impératif de classer au préalable toutes les observations par ordre croissant ou décroissant. Cette mesure de position est fondamentale en analyse de données car elle fournit un point de référence central qui est souvent plus représentatif que la moyenne arithmétique, surtout lorsque la distribution des données est asymétrique ou comporte des valeurs aberrantes (outliers).

Le concept de médiane n’est pas nouveau ; son usage remonte à plusieurs siècles, bien que sa formalisation dans le champ des statistiques soit plus récente. Elle est appréciée pour sa robustesse, c’est-à-dire sa faible sensibilité aux erreurs de mesure ou aux valeurs extrêmes qui peuvent fausser l’interprétation d’un ensemble de données. Par exemple, dans le calcul du revenu d’une population, le revenu médian est souvent plus parlant que le revenu moyen, car ce dernier peut être artificiellement gonflé par une poignée de très hauts revenus. La médiane, elle, indiquera le revenu pour lequel 50% de la population gagne moins et 50% gagne plus, donnant une meilleure photographie de la réalité économique du citoyen “typique”.

La médiane fait partie, avec la moyenne et le mode, des trois principales mesures de tendance centrale. Le choix de l’indicateur dépend de la nature des données et de l’objectif de l’analyse. Pour des données numériques présentant une distribution symétrique, moyenne et médiane seront très proches. Cependant, dès que la distribution devient asymétrique, la médiane devient un outil d’analyse plus fiable pour comprendre le centre de la distribution. Pour en savoir plus sur ses fondements théoriques, des ressources comme la page Wikipédia sur la médiane constituent un excellent point de départ.

Comment fonctionne la Médiane ?

Le calcul de la médiane est un processus simple qui dépend du nombre d’observations dans la série de données. La première étape, non négociable, est de trier les données par ordre de grandeur. Une fois cette organisation effectuée, deux cas de figure se présentent. Si le nombre de valeurs (n) est impair, la médiane est tout simplement la valeur qui se trouve au centre de la liste, à la position (n+1)/2. Par exemple, pour la série de notes {7, 12, 5, 15, 9}, on ordonne d’abord : {5, 7, 9, 12, 15}. Avec 5 valeurs, la médiane est la (5+1)/2 = 3ème valeur, soit 9.

Si le nombre de valeurs (n) est pair, il n’y a pas une unique valeur centrale. La médiane est alors définie comme la moyenne des deux valeurs centrales. Ces deux valeurs se situent aux positions n/2 et (n/2)+1. Par exemple, pour la série {10, 4, 8, 14}, on ordonne : {4, 8, 10, 14}. Avec 4 valeurs, les deux du centre sont la 4/2 = 2ème et la (4/2)+1 = 3ème, soit 8 et 10. La médiane est donc la moyenne de ces deux nombres : (8+10)/2 = 9. Cette méthode garantit que la médiane reste un point central équilibrant parfaitement la distribution.

Graphiques et diagrammes représentant l'analyse de données statistiques

Quelle est la différence entre la moyenne et la médiane ?

La moyenne et la médiane sont deux indicateurs de tendance centrale, mais ils ne mesurent pas la même chose et ne réagissent pas de la même manière aux données. La moyenne est la somme de toutes les valeurs divisée par leur nombre ; elle est sensible à chaque valeur de l’ensemble. La médiane, quant à elle, est la valeur du milieu d’un ensemble trié. La différence fondamentale réside dans leur sensibilité aux valeurs extrêmes. Une valeur très élevée ou très basse (un outlier) peut considérablement déplacer la moyenne, alors qu’elle n’aura que peu ou pas d’impact sur la médiane. Par exemple, si l’on ajoute un salaire de plusieurs millions à une série de salaires médians, la moyenne augmentera de façon spectaculaire, tandis que la médiane bougera à peine. La médiane est donc dite “robuste” aux outliers, ce qui en fait un meilleur indicateur pour les distributions asymétriques.

Pourquoi la médiane est-elle un indicateur si important en analyse de données ?

L’importance de la médiane en analyse de donnéesside dans sa capacité à fournir une mesure centrale fiable et non biaisée, en particulier face à des données bruitées ou hétérogènes. Dans des domaines comme l’économie, l’immobilier ou la santé, où les distributions de revenus, de prix ou de temps de survie sont souvent asymétriques, la médiane donne une image plus fidèle de la “normale” que la moyenne. Elle permet aux analystes de tirer des conclusions plus justes sur la majorité des cas, sans être trompés par quelques exceptions. De plus, la médiane est la base d’autres indicateurs statistiques robustes, comme l’écart interquartile, qui mesure la dispersion des données autour de la médiane. Pour approfondir ces concepts, les formations de type Bootcamp Data Analyst sont particulièrement adaptées.

Applications concrètes

En entreprise, la médiane est utilisée dans de nombreux contextes. Les départements des ressources humaines l’utilisent pour analyser les échelles de salaires et s’assurer de l’équité interne, en comparant le salaire médian par poste ou par département. En finance, les analystes peuvent étudier le rendement médian d’un portefeuille d’actions plutôt que le rendement moyen pour ne pas être induits en erreur par quelques performances exceptionnelles (ou désastreuses). Dans le secteur de l’e-commerce, on peut analyser le temps médian passé sur une page produit pour évaluer l’engagement des utilisateurs, une mesure moins volatile que le temps moyen qui peut être affecté par des sessions très longues ou très courtes. Le service public s’en sert également pour évaluer des politiques, par exemple en mesurant le temps d’attente médian pour accéder à un service.

La Médiane et les métiers de la Data

Pour tout professionnel de la donnée, la maîtrise de la médiane est indispensable. Le Data Analyst l’utilise quotidiennement pour nettoyer les données (détection d’outliers) et pour ses analyses exploratoires (EDA). Il la présente dans ses rapports et dashboards pour donner une vision claire et robuste des indicateurs clés de performance. Le Data Scientist s’en sert également dans la phase de préparation des données avant de construire des modèles de machine learning, car certains algorithmes peuvent être sensibles aux valeurs extrêmes. Comprendre quand utiliser la médiane plutôt que la moyenne est une compétence fondamentale qui distingue un bon analyste. Pour ceux qui aspirent à ces carrières, il est crucial de se former aux statistiques descriptives, un sujet largement couvert dans notre glossaire data.