Exemple de bootstrapping en statistique

Contents

Le bootstrapping est une technique statistique puissante. Elle est particulièrement utile lorsque l’échantillon sur lequel nous travaillons est de petite taille. Dans des circonstances habituelles, les tailles d’échantillon inférieures à 40 ne peuvent pas être traitées en supposant une distribution normale ou une distribution t. Les techniques bootstrap fonctionnent assez bien avec des échantillons qui comportent moins de 40 éléments. La raison en est que le bootstrap implique un rééchantillonnage. Ce genre de techniques ne suppose rien sur la distribution de nos données.

Le bootstrapping est devenu de plus en plus populaire à mesure que les ressources informatiques sont devenues plus facilement accessibles. En effet, pour que le bootstrapping soit pratique, un ordinateur doit être utilisé. Nous verrons comment cela fonctionne dans l’exemple de bootstrapping suivant.

Exemple

Nous commençons par un échantillon statistique provenant d’une population dont nous ne savons rien. Notre objectif sera un intervalle de confiance de 90% sur la moyenne de l’échantillon. Bien que d’autres techniques statistiques utilisées pour déterminer les intervalles de confiance supposent que nous connaissons la moyenne ou l’écart type de notre population, le bootstrapping ne nécessite rien d’autre que l’échantillon.

Pour les besoins de notre exemple, nous supposerons que l’échantillon est de 1, 2, 4, 4, 10.

Échantillon de bootstrap

Nous procédons maintenant à un rééchantillonnage avec remplacement de notre échantillon pour former ce que l’on appelle des échantillons bootstrap. Chaque échantillon bootstrap aura une taille de cinq, tout comme notre échantillon initial. Comme nous sélectionnons au hasard et remplaçons ensuite chaque valeur, les échantillons bootstrap peuvent être différents de l’échantillon original et les uns des autres.

A lire :  Comment trouver des degrés de liberté dans les statistiques

Pour les exemples que nous rencontrerions dans le monde réel, nous procéderions à ce rééchantillonnage des centaines, voire des milliers de fois. Dans ce qui suit, nous verrons un exemple de 20 échantillons de bootstrap :

  • 2, 1, 10, 4, 2
  • 4, 10, 10, 2, 4
  • 1, 4, 1, 4, 4
  • 4, 1, 1, 4, 10
  • 4, 4, 1, 4, 2
  • 4, 10, 10, 10, 4
  • 2, 4, 4, 2, 1
  • 2, 4, 1, 10, 4
  • 1, 10, 2, 10, 10
  • 4, 1, 10, 1, 10
  • 4, 4, 4, 4, 1
  • 1, 2, 4, 4, 2
  • 4, 4, 10, 10, 2
  • 4, 2, 1, 4, 4
  • 4, 4, 4, 4, 4
  • 4, 2, 4, 1, 1
  • 4, 4, 4, 2, 4
  • 10, 4, 1, 4, 4
  • 4, 2, 1, 1, 2
  • 10, 2, 2, 1, 1

Moyenne

Puisque nous utilisons le bootstrap pour calculer un intervalle de confiance pour la moyenne de la population, nous calculons maintenant les moyennes de chacun de nos échantillons bootstrap. Ces moyennes, classées par ordre croissant, sont les suivantes 2, 2.4, 2.6, 2.6, 2.8, 3, 3, 3.2, 3.4, 3.6, 3.8, 4, 4, 4.2, 4.6, 5.2, 6, 6, 6.6, 7.6.

Intervalle de confiance

Nous obtenons maintenant de notre liste d’échantillons bootstrap un intervalle de confiance. Comme nous voulons un intervalle de confiance à 90 %, nous utilisons les 95e et 5e centiles comme points d’arrivée des intervalles. La raison en est que nous avons divisé 100 % – 90 % = 10 % en deux, de sorte que nous aurons les 90 % du milieu de toutes les moyennes de l’échantillon bootstrap.

Pour notre exemple ci-dessus, nous avons un intervalle de confiance de 2,4 à 6,6.

A lire :  Qu'est-ce qu'un tableau à double sens de variables catégorielles ?
Bouton retour en haut de la page

Adblock détecté

Veuillez désactiver votre bloqueur de publicités pour pouvoir visualiser le contenu de la page. Pour un site indépendant avec du contenu gratuit, c’est une question de vie ou de mort d’avoir de la publicité. Merci de votre compréhension!