La régression logistique est une méthode statistique utilisée pour prédire l’issue d’une variable dépendante binaire (c’est-à-dire une variable qui a deux résultats possibles, comme oui/non, succès/échec) à partir d’une ou plusieurs variables indépendantes (les variables explicatives).
Exemple concret
Imaginons que vous soyez responsable des admissions dans une université et que vous voulez prédire si un étudiant sera admis (oui ou non) en fonction de certaines caractéristiques comme :
- La note moyenne du lycée
- Le score à un test d’admission
- La participation à des activités extrascolaires (oui/non)
Vous avez des données historiques sur les admissions passées et vous voulez utiliser ces données pour faire des prédictions pour les futurs candidats.
Comment ça marche ?
- Collecte des données : Vous rassemblez les données des candidats passés avec les caractéristiques (note moyenne, score de test, participation) et le résultat (admis ou non).
- Modélisation : Avec la régression logistique, vous allez essayer de trouver une équation qui relie les caractéristiques des candidats aux résultats d’admission. Cette équation prend la forme suivante :
Logit(𝑃)=𝛽0+𝛽1⋅note moyenne+𝛽2⋅score test+𝛽3⋅participationLogit(P)=β0+β1⋅note moyenne+β2⋅score test+β3⋅participation
où 𝑃P est la probabilité qu’un étudiant soit admis, et 𝛽0,𝛽1,𝛽2,𝛽3β0,β1,β2,β3 sont des coefficients que le modèle va estimer à partir des données.
- Interprétation des résultats : Une fois le modèle estimé, vous pouvez l’utiliser pour prédire la probabilité qu’un futur candidat soit admis en insérant ses caractéristiques dans l’équation.
Exemple chiffré
Supposons que les coefficients estimés par vos modèles soient :
- 𝛽0=−3β0=−3
- 𝛽1=0.05β1=0.05
- 𝛽2=0.1β2=0.1
- 𝛽3=1.2β3=1.2
Pour un candidat avec les caractéristiques suivantes :
- Note moyenne : 80
- Score au test 120
- Participation à des activités extra-scolaires : Oui (1)
L’équation devient :
Logit(𝑃)=−3+(0.05×80)+(0.1×120)+(1.2×1)
Calculons :
Logit(𝑃)=−3+4+12+1.2=14.2
Ensuite, on convertit la valeur logit en probabilité avec la fonction logistique (sigmoïde) :
𝑃=11+𝑒−Logit(𝑃)P=1+e−Logit(P)1
𝑃=11+𝑒−14.2P=1+e−14.21
La valeur de 𝑒−14.2e−14.2 est très proche de zéro, donc 𝑃P est très proche de 1. Ce qui signifie que la probabilité que cet étudiant soit admis est presque de 100%.
Conclusion
La régression logistique permet donc de transformer les caractéristiques des candidats en une probabilité d’admission, ce qui vous aide à prendre des décisions informées. Elle est particulièrement utile dans des situations où le résultat est binaire et où vous pouvez comprendre l’influence de différentes variables sur ce résultat.