Le bootstrap est une méthode de rééchantillonnage utilisée pour estimer la distribution d’un échantillon statistique. En d’autres termes, il permet d’estimer la variabilité d’une statistique (comme la moyenne, la médiane, etc.) en créant de nombreux « nouveaux » échantillons à partir de l’échantillon original. Cela se fait en tirant des échantillons avec remplacement (c’est-à-dire qu’on peut sélectionner plusieurs fois la même observation) à partir de l’échantillon initial.
Exemple concret
Imaginons que vous vouliez estimer la moyenne du poids de pommes dans un verger. Vous ne pouvez pas mesurer toutes les pommes, donc vous prenez un échantillon de 5 pommes et vous obtenez les poids suivants (en grammes) : [120,130,125,135,140][120,130,125,135,140]
Vous voulez savoir quelle est la variabilité de la moyenne de cet échantillon.
Voici comment le bootstrap peut vous aider :
- Échantillon initial :
- Les poids sont : 120, 130, 125, 135, 140
- Étape 1 : Rééchantillonnage
- Vous créez de nouveaux échantillons en tirant des valeurs avec remplacement de l’échantillon initial. Par exemple, un nouvel échantillon pourrait être : [120, 140, 130, 130, 125].
- Étape 2 : Calcul de la statistique
- Pour chaque nouvel échantillon, vous calculez la moyenne. Par exemple, pour [120, 140, 130, 130, 125], la moyenne est (120 + 140 + 130 + 130 + 125) / 5 = 129.
- Répétition :
- Vous répétez les étapes 1 et 2 un grand nombre de fois (par exemple, 1000 fois). Vous obtenez alors une distribution de moyenne.
- Estimation de la variabilité :
- À partir de cette distribution, vous pouvez estimer la variabilité (comme l’écart-type) de la moyenne de l’échantillon initial. Cela vous donne une idée de l’incertitude associée à ta mesure.
Résultat
Après avoir effectué ces étapes 1000 fois, vous obtenez une distribution de 1000 moyennes. Par exemple, vous pourrez obtenir une distribution avec une moyenne de 130 grammes et un écart-type de 5 grammes. Cela signifie que, selon la méthode de bootstrap, la moyenne des poids des pommes est probablement autour de 130 grammes, avec une incertitude de ±5 grammes.
Conclusion
Le bootstrap est une méthode puissante et flexible pour estimer la variabilité d’une statistique sans faire d’hypothèses strictes sur la distribution des données. Il est particulièrement utile quand la taille de l’échantillon est petite ou quand on ne peut pas faire des hypothèses classiques sur les données.