K-means

<< Revenir au glossaire

Le K-means est une méthode de classification non supervisée utilisée en apprentissage automatique et en analyse de données. Son but est de regrouper un ensemble de données en un nombre prédéfini de groupes (ou « clusters ») en fonction de leurs caractéristiques.

Concept de base
  1. Définir le nombre de clusters (K): Avant de commencer, vous devez décider combien de clusters (K) vous voulez créer. Par exemple, si vous avez des données sur les types de clients dans un magasin, vous pourrez choisir K=3 pour essayer de les regrouper en trois catégories de clients différentes.
  2. Initialiser les centres des clusters (centroïdes): Le K-means commence par choisir K points au hasard parmi les données pour servir de centres initiaux des clusters.
  3. Affectation des points aux clusters: Chaque point de données est attribué au cluster dont le centre est le plus proche. Cela signifie que chaque point est affecté au centroïde le plus proche.
  4. Mise à jour des centroïdes: Une fois que tous les points ont été attribués à un cluster, on recalcule la position de chaque centroïde en prenant la moyenne des points de données de chaque cluster.
  5. Répéter: Les étapes 3 et 4 sont répétées jusqu’à ce que les centroïdes ne changent plus de position de manière significative ou qu’un nombre maximum d’itérations soit atteint.
Exemple concret

Imaginons que vous soyez propriétaire d’une librairie en ligne et que vous souhaitiez segmenter vos clients en différents groupes pour mieux cibler vos campagnes de marketing. Vous avez les données suivantes sur vos clients :

  1. Nombre de livres achetés par an
  2. Montant total dépensé par an

Voici un exemple de jeu de données simplifié :

ClientLivre acheté par anMontant dépensé par an (€)
15100
2350
310200
48150
512220
6230
Étapes de K-means
  1. Choix de K: Vous décidez de créer 2 clusters (K=2).
  2. Initialisation: Choisissez deux points au hasard comme centres initiaux des clusters. Supposons que les points (3, 50) et (10, 200) soient choisis.
  3. Affectation:
    • Client 1 (5, 100) est plus proche de (3, 50) donc dans le cluster 1.
    • Client 2 (3, 50) est assigné au cluster 1.
    • Client 3 (10, 200) est assigné au cluster 2.
    • Client 4 (8, 150) est plus proche de (10, 200) donc dans le cluster 2.
    • Client 5 (12, 220) est assigné au cluster 2.
    • Client 6 (2, 30) est assigné au cluster 1.
  4. Mise à jour des centroïdes :
    • Nouveau centroïde du cluster 1: moyenne des points (5, 100), (3, 50), et (2, 30) -> (3.33, 60)
    • Nouveau centroïde du cluster 2: moyenne des points (10, 200), (8, 150), et (12, 220) -> (10, 190)
  5. Répéter : Réaffecter les points aux clusters avec les nouveaux centroïdes et mettre à jour les centroïdes jusqu’à ce qu’ils ne changent plus.

Finalement, les clients seront divisés en deux groupes basés sur leurs habitudes d’achat et de dépense, ce qui permet à la librairie de personnaliser ses offres et ses stratégies de marketing pour chaque groupe.

Le K-means est donc une méthode pratique pour segmenter des données en groupes significatifs, ce qui peut être très utile dans de nombreux domaines tels que le marketing, la finance, la biologie, etc.

<< Revenir au glossaire