Technique resampling

<< Revenir au glossaire

Le resampling est une technique en statistiques qui consiste à tirer des échantillons répétés de vos données afin d’estimer la variabilité d’une statistique. Cela permet de mieux comprendre la distribution de la statistique sans faire d’hypothèses strictes sur la distribution sous-jacente des données.

Exemple : Estimation de la moyenne d’un échantillon

Supposons que vous avez un petit échantillon de données représentant les notes d’un test pour 10 élèves : 70, 75, 80, 85, 90, 95, 100, 65, 60, 5570, 75, 80, 85, 90, 95, 100, 65, 60, 55.

Vous voulez estimer la moyenne de la population à partir de cet échantillon.

Méthode du Bootstrap

Le bootstrap est une technique de resampling qui consiste à :

  1. Prendre plusieurs échantillons avec remise de l’échantillon original.
  2. Calculer la statistique (comme la moyenne) pour chaque échantillon resamplé.
  3. Utiliser la distribution de ces statistiques pour estimer l’incertitude ou la variabilité de la statistique.
Étapes concrètes :
  1. Tirer des échantillons avec remise : Vous tirez, par exemple, 1000 échantillons de taille 10 (la même taille que l’échantillon original) à partir des données originales, avec remplacement. Cela signifie que chaque échantillon peut contenir plusieurs fois la même valeur.

Exemple de quelques échantillons tirés :

  • Échantillon 1 : [70, 75, 80, 85, 90, 95, 100, 65, 60, 55]
  • Échantillon 2 : [85, 85, 90, 70, 60, 95, 100, 100, 55, 55]
  • Échantillon 3 : [60, 60, 100, 70, 75, 95, 80, 85, 55, 90]
  1. Calculer la moyenne pour chaque échantillon : Pour chaque échantillon resamplé, vous calculez la moyenne.

Moyenne pour quelques échantillons :

  • Moyenne de l’échantillon 1 : (70 + 75 + 80 + 85 + 90 + 95 + 100 + 65 + 60 + 55) / 10 = 77.5
  • Moyenne de l’échantillon 2 : (85 + 85 + 90 + 70 + 60 + 95 + 100 + 100 + 55 + 55) / 10 = 79.5
  • Moyenne de l’échantillon 3 : (60 + 60 + 100 + 70 + 75 + 95 + 80 + 85 + 55 + 90) / 10 = 77
  1. Analyser la distribution des moyennes : Après avoir calculé les moyennes pour les 1000 échantillons resamplés, vous obtenez une distribution de ces moyennes. Cette distribution vous donne une idée de la variabilité de la moyenne de l’échantillon original.
    Par exemple, vous pouvez calculer l’intervalle de confiance pour la moyenne. Si la distribution des moyennes a une moyenne de 77 et un écart-type de 5, un intervalle de confiance à 95% pourrait être approximativement [67, 87].
Pourquoi utiliser le resampling ?
  • Flexibilité : Pas besoin de faire des hypothèses strictes sur la distribution des données (comme la normalité).
  • Précision : Fournit une estimation précise de l’incertitude de vos statistiques, surtout pour des petits échantillons.
  • Simplicité : Peut être appliqué facilement avec des outils informatiques, même pour des données complexes.

En résumé, le resampling, et en particulier le bootstrap, est une méthode puissante pour estimer la variabilité de vos statistiques de manière non paramétrique, ce qui signifie sans faire de suppositions rigides sur la forme de la distribution des données.

<< Revenir au glossaire