Comment calculer le coefficient de corrélation

Il y a beaucoup de questions à se poser quand on regarde un nuage de points. L’une des plus courantes est de se demander dans quelle mesure une ligne droite se rapproche des données. Pour y répondre, il existe une statistique descriptive appelée coefficient de corrélation. Nous allons voir comment calculer cette statistique.

Le coefficient de corrélation

Le coefficient de corrélation, désigné par r, nous indique dans quelle mesure les données d’un nuage de points sont alignées sur une ligne droite. Plus la valeur absolue de r est proche de un, mieux les données sont décrites par une équation linéaire. Si r =1 ou r = -1, alors l’ensemble des données est parfaitement aligné. Les ensembles de données dont la valeur de r est proche de zéro montrent peu ou pas de relation linéaire.

En raison de la longueur des calculs, il est préférable de calculer r à l’aide d’une calculatrice ou d’un logiciel statistique. Cependant, il est toujours utile de savoir ce que fait votre calculatrice lorsqu’elle calcule. Ce qui suit est un processus de calcul du coefficient de corrélation principalement à la main, avec une calculatrice utilisée pour les étapes arithmétiques de routine.

Étapes du calcul de r

Nous commencerons par énumérer les étapes du calcul du coefficient de corrélation. Les données sur lesquelles nous travaillons sont des données appariées, dont chaque paire sera désignée par (xi,yi).

  1. Nous commençons par quelques calculs préliminaires. Les quantités issues de ces calculs seront utilisées dans les étapes suivantes de notre calcul de r :
    1. Calculer x̄, la moyenne de toutes les premières coordonnées de la donnée xi.
    2. Calculer ȳ, la moyenne de toutes les secondes coordonnées des données
    3. yi.
    4. Calculer s x l’écart type de l’échantillon de toutes les premières coordonnées des données xi.
    5. Calculer s y l’écart type type de toutes les secondes coordonnées des données yi.
  2. Utilisez la formule (zx)i = (xi – x̄) / s x et calculez une valeur standardisée pour chaque xi.
  3. Utilisez la formule (zy)i = (yi – ȳ) / s y et calculez une valeur standardisée pour chaque yi.
  4. Multipliez les valeurs standardisées correspondantes : (zx)i(zy)i
  5. Additionnez les produits de la dernière étape.
  6. Divisez la somme de l’étape précédente par n – 1, où n est le nombre total de points dans notre ensemble de données appariées. Le résultat de tout cela est le coefficient de corrélation r.

Ce processus n’est pas difficile, et chaque étape est assez routinière, mais la collecte de toutes ces étapes est assez complexe. Le calcul de l’écart-type est déjà assez fastidieux en soi. Mais le calcul du coefficient de corrélation implique non seulement deux écarts types, mais aussi une multitude d’autres opérations.

Un exemple

Pour voir exactement comment la valeur de r est obtenue, nous regardons un exemple. Là encore, il est important de noter que pour des applications pratiques, nous voudrions utiliser notre calculatrice ou un logiciel statistique pour calculer r pour nous.

Nous commençons par une liste de données appariées : (1, 1), (2, 3), (4, 5), (5,7). La moyenne des valeurs x, la moyenne de 1, 2, 4, et 5 est x̄ = 3. Nous avons également que ȳ = 4. L’écart-type de la

La valeur x est sx = 1,83 et sy = 2,58. Le tableau ci-dessous résume les autres calculs nécessaires pour r. La somme des produits dans la colonne de droite est de 2,969848. Comme il y a un total de quatre points et que 4 – 1 = 3, nous divisons la somme des produits par 3, ce qui nous donne un coefficient de corrélation de r = 2,969848/3 = 0,989949.

Tableau pour l’exemple de calcul du coefficient de corrélation

x
y
zx
zy
zxzy

1
1
-1.09544503
-1.161894958
1.272792057

2
3
-0.547722515
-0.387298319
0.212132009

4
5
0.547722515
0.387298319
0.212132009

5
7
1.09544503
1.161894958
1.272792057

Bouton retour en haut de la page