Une introduction à l’écart interquartile

L’écart interquartile (IQR) est la différence entre le premier quartile et le troisième quartile. La formule pour cela est la suivante :

IQR = Q3 – Q1

Il existe de nombreuses mesures de la variabilité d’un ensemble de données. L’étendue et l’écart-type nous indiquent tous deux la dispersion de nos données. Le problème de ces statistiques descriptives est qu’elles sont très sensibles aux valeurs aberrantes. Une mesure de la dispersion d’un ensemble de données qui est plus résistante à la présence de valeurs aberrantes est l’écart interquartile.

Définition de l’intervalle interquartile

Comme nous l’avons vu plus haut, l’écart interquartile est construit sur la base du calcul d’autres statistiques. Avant de déterminer l’écart interquartile, nous devons d’abord connaître les valeurs du premier et du troisième quartile. (Bien entendu, les premier et troisième quartiles dépendent de la valeur de la médiane).

Une fois que nous avons déterminé les valeurs des premier et troisième quartiles, l’écart interquartile est très facile à calculer. Il suffit de soustraire le premier quartile du troisième quartile. C’est ce qui explique l’utilisation du terme « écart interquartile » pour cette statistique.

Exemple

Pour voir un exemple de calcul d’un intervalle interquartile, nous allons considérer l’ensemble des données : 2, 3, 3, 4, 5, 6, 6, 7, 8, 8, 8, 9. Le résumé en cinq nombres de cet ensemble de données est le suivant :

  • Au moins 2
  • Premier quartile de 3,5
  • Médiane de 6
  • Troisième quartile de 8
  • Maximum de 9

On voit donc que l’écart interquartile est de 8 – 3,5 = 4,5.

L’importance de l’écart interquartile

La fourchette nous donne une mesure de la dispersion de l’ensemble de nos données. L’intervalle interquartile, qui nous indique la distance entre le premier et le troisième quartile, indique la répartition des 50 % du milieu de notre ensemble de données.

A lire  Moments - Définition des termes statistiques

Résistance aux valeurs aberrantes

Le principal avantage de l’utilisation de l’intervalle interquartile plutôt que de l’intervalle pour la mesure de la propagation d’un ensemble de données est que l’intervalle interquartile n’est pas sensible aux valeurs aberrantes. Pour s’en rendre compte, nous allons examiner un exemple.

L’ensemble des données ci-dessus nous donne un intervalle interquartile de 3,5, un intervalle de 9 – 2 = 7 et un écart-type de 2,34. Si nous remplaçons la valeur la plus élevée de 9 par une valeur aberrante extrême de 100, l’écart type devient 27,37 et la plage est de 98. Même si nous avons des changements assez drastiques de ces valeurs, les premier et troisième quartiles ne sont pas affectés et donc l’intervalle interquartile ne change pas.

Utilisation de l’écart interquartile

En plus d’être une mesure moins sensible de la diffusion d’un ensemble de données, l’écart interquartile a une autre utilisation importante. En raison de sa résistance aux valeurs aberrantes, l’intervalle interquartile est utile pour identifier quand une valeur est une valeur aberrante.

La règle de l’écart interquartile est ce qui nous indique si nous avons une valeur aberrante légère ou forte. Pour rechercher une valeur aberrante, nous devons regarder en dessous du premier quartile ou au-dessus du troisième quartile. La distance à laquelle nous devons aller dépend de la valeur de l’écart interquartile.

Bouton retour en haut de la page