Statistique descriptive univariée

La boîte à moustaches (boxplot)

Il est possible de résumer, sous la forme d'un graphique, l'information fournie par l'étendue, ainsi que par les trois quartiles et les intervalles qui les séparent. Ce graphique porte le nom de boîte à moustaches[1] , ou encore de boîte à pattes ou diagramme en boîte (boxplot en anglais).

Version de base

MéthodeConstruction de la version de base

Version de base de la boîte à moustaches

Méthode de construction

Version de base de la boîte à moustaches

FondamentalLecture de la boîte à moustaches

Une boîte à moustaches nous indique de façon simple et visuelle quelques traits marquants de la série observée :

Informations fournies par la version de base
  • la médiane nous renseigne sur le milieu de la série ;

  • les largeurs des deux parties de la boîte rendent compte de la dispersion des valeurs situées au centre de la série (la boîte contient 50% (environ) de l'ensemble des observations : 25% à gauche de la médiane et 25% à sa droite) ;

  • la longueur des moustaches renseigne sur la dispersion des valeurs situées au début de la série ordonnée (les valeurs les plus petites correspondant à 25% des observations) ou à la fin de celle-ci (les valeurs les plus grandes correspondant aussi à 25% des observations) ;

  • de façon générale, la boîte et les moustaches seront d'autant plus étendues que la dispersion de la série statistique est grande.

RemarquePourquoi une version modifiée de la boîte à moustaches ?

Quand la série observée contient l'une ou l'autre valeur extrême (très petite ou très grande), les moustaches risquent de devenir très longues, ce qui nuit à leur interprétation. La solution à ce problème consiste à construire plutôt la version modifiée de la boîte à moustaches.

Version modifiée

MéthodeConstruction de la version modifiée

Version modifiée de la boîte à moustaches

La version modifiée de la boîte à moustaches se construit en 4 étapes :

  1. construction de la boîte, comme dans la version de base ;

  2. calcul des valeurs pivots gauche ( ) et droite ( ) ;

  3. détermination des valeurs adjacentes gauche ( ) et droite ( ) : ces valeurs adjacentes correspondent aux extrémités des moustaches gauche et droite ;

  4. détermination des valeurs extérieures éventuelles.

Les valeurs pivots

Définition

Les valeurs pivots sont définies par les relations suivantes :

Elles sont situées de part et d'autre de la boîte, à une distance valant 1.5 fois l'écart interquartile.

Remarque

La définition des valeurs pivots résulte d'une constatation : la plupart des séries statistiques qui ne contiennent pas de valeurs extrêmes ou aberrantes, ont leurs observations situées dans l'intervalle .

Remarque

et ne coïncident généralement pas avec des valeurs observées. Il s'agit juste de valeurs calculées dans le but de déterminer, dans un deuxième temps, les valeurs adjacentes.

Les valeurs adjacentes (extrémités des moustaches)

Les valeurs adjacentes, contrairement aux valeurs pivots, doivent être des valeurs observées de la série statistique. Elles correspondront aux extrémités des moustaches gauche et droite du diagramme en boîte.

Définition

On définit les valeurs adjacentes par rapport aux valeurs pivots et comme suit :

  • la valeur adjacente gauche, notée , est la plus petite valeur observée supérieure ou égale à ;

  • la valeur adjacente droite, notée , est la plus grande valeur observée inférieure ou égale à .

Les valeurs extérieures

Si toutes les observations sont comprises entre le pivot gauche et le pivot droit , alors et . Dans le cas contraire, on isole les valeurs observées situées en dehors de l'intervalle pour en examiner les caractéristiques.

Définition

Toutes les observations situées en dehors de sont dites extérieures. Elles sont représentées par des symboles appropriés (étoiles, points, triangles, ...) de manière à être mises en évidence.

Remarque

Lorsque toutes les observations sont comprises entre le pivot gauche et le pivot droit , , et il n'y a pas de valeur extérieure. Dans ce cas, la version modifiée de la boîte à moustaches coïncide avec la version de base.

Remarque

Toute valeur extérieure n'est pas nécessairement extrême ou aberrante, mais une valeur extrême ou aberrante sera généralement une valeur extérieure.

RemarqueValeurs pivots du second type

Afin de compléter l'analyse, on utilise parfois des valeurs pivots du second type définies par et . Elles sont situées de part et d'autre de la boîte à une distance valant deux fois l'écart interquartile.

Le fait pour une valeur extérieure d'être en dehors de l'intervalle renforce la présomption « d'aberration ».

La plupart des logiciels statistiques distinguent les valeurs extérieures qui se trouvent en dehors de l'intervalle des autres valeurs extérieures en les représentant sur le diagramme en boîte avec des symboles différents.

Usage et intérêt des boîtes à moustaches

L'usage des boîtes à moustaches permet de visualiser les concepts de centralité et de dispersion (de même que de symétrie ou d'asymétrie, comme nous le verrons lorsqu'on étudiera les mesures de forme). Elles sont particulièrement recommandées lorsqu'on veut comparer des séries statistiques ou des distributions entre elles.

ExempleRésultats/étudiants (suite)

Reprenons le tableau contenant les résultats obtenus par 10 étudiants dans 7 matières différentes. Pour appréhender la dispersion des résultats, commençons par ordonner les observations par ordre croissant pour chacun des cours :

Déterminons la boîte à moustaches pour les résultats obtenus dans le cours :

  • (2e convention) ;

  • ;

    ;

  • ;

  • ;

    ;

  • tous les résultats obtenus dans le cours sont compris dans l'intervalle ; et . La version modifiée de la boîte à moustaches coïncide avec la version de base.

Boîte à moustaches pour C1

Déterminons à présent la boîte à moustaches pour les résultats obtenus dans le cours :

  • (2e convention) ;

  • ;

    ;

  • ;

  • ;

    ;

  • tous les résultats obtenus dans le cours sont supérieurs à ; dès lors, ;

    le plus grand résultat inférieur ou égal à est ; on a donc et est une valeur extérieure, représentée par une étoile.

Boîte à moustaches pour C7

Manifestement, seul l'étudiant a trouvé grâce aux yeux de l'enseignant de .

Ces représentations graphiques sont simples à construire. Elles permettent de voir aisément la manière dont les observations se répartissent, soit par cours, soit par étudiant, et facilitent donc la comparaison entre cours et entre étudiants, comme on peut le constater dans les deux figures ci-dessous.

Boîtes à moustaches par cours
Boîtes à moustaches par étudiant
  1. Boîte à moustaches (boxplot)

    Graphique résumant l'information fournie par l'étendue, ainsi que par les trois quartiles et les intervalles qui les séparent.

PrécédentPrécédentSuivantSuivant
AccueilAccueilImprimerImprimerRéalisé avec Scenari (nouvelle fenêtre)