Régression PLS

<< Revenir au glossaire

La régression PLS (Partial Least Squares = Moindres carrés partiels) est une méthode statistique utilisée principalement pour construire des modèles de prédiction lorsqu’il y a beaucoup de variables explicatives (c’est-à-dire des variables indépendantes) qui sont fortement corrélées entre elles. Cette méthode est particulièrement utile quand on a plus de variables explicatives que d’observations.

Explication Simple : 
  1. But : La régression PLS vise à prédire une ou plusieurs variables dépendantes (les résultats que l’on souhaite prédire) à partir d’un ensemble de variables explicatives tout en réduisant la dimensionnalité des données et en gérant les corrélations entre les variables explicatives.
  2. Comment ça marche : La régression PLS combine des éléments de l’analyse en composantes principales (PCA) et de la régression linéaire. Elle cherche à trouver des composantes (combinaisons linéaires des variables explicatives) qui expliquent le mieux possible la variance des variables dépendantes.
Exemple concret

Imaginons que vous êtes un producteur de vin et que vous voulez prédire la qualité du vin (sur une échelle de 1 à 10) en fonction de plusieurs caractéristiques chimiques du vin, telles que :

  • Le pH
  • L’acidité totale
  • La teneur en sucre
  • La concentration en alcool
  • Le niveau de tanins

Supposons que vous avez pris les mesures de ces caractéristiques pour 100 échantillons de vins.

  1. Les données
    • 𝑌Y (variable dépendante) : La qualité du vin pour chaque échantillon.
    • 𝑋X (variables explicatives) : Les caractéristiques chimiques mesurées pour chaque échantillon.
  2. Problème : Les caractéristiques chimiques sont souvent corrélées entre elles (par exemple, un vin avec une forte teneur en alcool peut aussi avoir une certaine teneur en sucre). De plus, vous avez beaucoup de caractéristiques par rapport au nombre d’échantillons.
  3. Application de la régression PLS :
    • La régression PLS va chercher à trouver des composantes (combinaisons des caractéristiques chimiques) qui capturent le plus possible la variation dans la qualité du vin.
    • Ces composantes sont utilisées pour construire un modèle qui prédit la qualité du vin à partir des caractéristiques chimiques.
Étapes de la régression PLS
  1. Standardisation des données : Les variables explicatives sont souvent standardisées (centrées et réduites) pour éviter que certaines variables dominent en raison de leur échelle.
  2. Calcul des composantes PLS : La méthode PLS calcule les composantes qui sont des combinaisons linéaires des variables explicatives. Ces composantes sont choisies de manière à expliquer le mieux possible la variance des variables dépendantes.
  3. Construction du modèle : Les composantes PLS sont utilisées pour ajuster un modèle de régression linéaire qui prédit la variable dépendante (la qualité du vin) à partir des composantes.
  4. Évaluation du modèle : Le modèle est évalué sur des données de test pour vérifier sa capacité à prédire correctement la qualité du vin.
Exemple Numérique Simplifié

Supposons que nous avons seulement 2 caractéristiques chimiques (X1 : alcool, X2 : sucre) et nous voulons prédire la qualité du vin (Y : qualité).

  • Données (simplifiées
ÉchantillonAlcool (X1)Sucre (X2)Qualité (Y)
112,57,48
213,26,17
311,88,39
10012,17,98
  • PLS va combiner X1 et X2 en une ou plusieurs nouvelles composantes qui capturent l’essentiel de l’information nécessaire pour prédire Y.
  • Supposons que la première composante 𝑇1T1 est une combinaison de X1 et X2
𝑇1=0.7×𝑋1+0.3×𝑋2T1=0.7×X1+0.3×X2
  • On ajuste ensuite un modèle de régression linéaire sur 𝑇1T1 pour prédire Y.

En résumé, la régression PLS est une technique puissante pour gérer des ensembles de données avec de nombreuses variables explicatives corrélées, en simplifiant les données et en construisant des modèles prédictifs robustes.

<< Revenir au glossaire