# k-Means-Clustering
Du kennst bereits den [k-N√§chste-Nachbarn-Algorithmus](knearestneighbor), ein Verfahren, das mit {term}`Trainingsdaten <Trainingsdaten>` neue Daten klassifiziert. Nun betrachten wir [k-Means-Clustering](https://de.wikipedia.org/wiki/k-Means-Algorithmus), einen Algorithmus, um {term}`Datenpunkte <Datenpunkt>` in sogenannte Cluster zu gruppieren.

Im Bereich der KI wird oft mit gro√üen Datenmengen gearbeitet, die auf Muster untersucht und in Gruppen eingeteilt werden. Algorithmen dieser Art sind Verfahren der [Clusteranalyse](https://de.wikipedia.org/wiki/Clusteranalyse). k-Means ist so ein Algorithmus, der Datenpunkte ohne vorherige Kenntnis der Gruppenzugeh√∂rigkeit in $k$ Cluster einteilt. Das macht k-Means zu einem {term}`un√ºberwachten Lernalgorithmus <Un√ºberwachtes Lernen>`. Seine St√§rke liegt in der effizienten Strukturierung gro√üer Datens√§tze und dem Entdecken versteckter Muster.

````{margin}
```{admonition} Info
:class: information
[Maschinelles Lernen](https://de.wikipedia.org/wiki/Maschinelles_Lernen) ist ein Teilgebiet der KI, in dem Algorithmen aus Daten lernen und Vorhersagen oder Entscheidungen treffen k√∂nnen. Algorithmen im Bereich des maschinellen Lernens haben das Ziel, gro√üe Datenmengen zu analysieren und Muster darin zu erkennen.
```
````

## √úberwachtes vs. un√ºberwachtes Lernen

Beide Algorithmen stammen aus dem Bereich **Maschinelles Lernen**, welches grob in **√ºberwachtes Lernen** und **un√ºberwachtes Lernen** unterteilt wird. Beim [√ºberwachten Lernen](https://de.wikipedia.org/wiki/√úberwachtes_Lernen) wird ein Datensatz verwendet, der Trainingsdaten mit den zugeh√∂rigen **{term}`Labels <Label>`** enth√§lt. Das Modell lernt aus Beispielen, bei denen die richtigen Antworten bereits bekannt sind. Diese Methode eignet sich gut f√ºr Aufgaben wie Klassifikationen (z.B. Spam-Erkennung). Der [k-N√§chste-Nachbarn-Algorithmus](knearestneighbor) ist ein solches Verfahren.

Beim [un√ºberwachten Lernen](https://de.wikipedia.org/wiki/Un√ºberwachtes_Lernen) sind die Trainingsdaten nicht gelabelt. Stattdessen versuchen un√ºberwachte Algorithmen, eigenst√§ndig Muster in den Daten zu erkennen. Clustering, wie k-Means, ist ein typisches Beispiel daf√ºr. Der Algorithmus ermittelt Gruppen (Cluster) von √§hnlichen Datenpunkten und hilft, ungeordnete Daten zu strukturieren.

## Einf√ºhrung in das Verfahren

k-Means-Clustering geh√∂rt zum **un√ºberwachten Lernen**. Es gibt keine vordefinierten Labels, sondern nur die rohen Daten. Das Ziel von k-Means ist es, die Daten in **$k$ Cluster** zu unterteilen, wobei $k$ die Anzahl der Cluster darstellt. Der Algorithmus ermittelt **Zentroiden**, auch Clusterzentren genannt. Das sind die Mittelpunkte, um die sich die Cluster bilden. **Means** steht dabei f√ºr den Durchschnitt, da die Zentroiden als Durchschnitt der zugeh√∂rigen Datenpunkte im Cluster berechnet werden. Am Ende sind die Daten innerhalb eines Clusters homogener als zu den Daten in anderen Clustern.

In einfachen Beispielen k√∂nnten wir die Cluster auch mit dem Auge erkennen und auch ablesen, welche Zahl f√ºr $k$ sinnvoll w√§re. Bei gro√üen Datenmengen oder nicht eindeutigen Clustern ben√∂tigen wir dann aber die Hilfe des Algorithmus.

**Aufgabe 1:** Wie w√ºrdest du denn die folgenden Daten in Cluster aufteilen?

```{figure} bilder/kmeans_3_cluster_einfach_datenpunkte.svg
---
width: 80%
name: fig_kmeans-3-cluster-einfach-datenpunkte
align: center
---
Beispiel von einfacher Verteilung von Datenpunkten
```

`````{admonition} L√∂sung
:class: tip, dropdown
```{figure} bilder/kmeans_3_cluster_einfach_ergebnis.svg
---
width: 90%
name: fig_kmeans-3-cluster-einfach-ergebnis
align: center
---
Ergebnis des k-Means-Clustering mit k=3
```
Es ist recht offensichtlich, dass die Datenpunkte in 3 Cluster aufgeteilt werden k√∂nnen.
``````

**Aufgabe 2:** Wenn du dir das n√§chste Beispiel anschaust: welche Cluster-Einteilung w√ºrdest du hier vornehmen?

```{figure} bilder/kmeans_4_cluster_komplex_datenpunkte.svg
---
width: 80%
name: fig_kmeans-3-cluster-komplex-datenpunkte
align: center
---
Beispiel von komplexer Verteilung von Datenpunkten
```

``````{admonition} L√∂sung
:class: tip, dropdown
```{figure} bilder/kmeans_4_cluster_komplex_ergebnis.svg
---
width: 90%
name: fig_kmeans-3-cluster-komplex-ergebnis
align: center
---
Ergebnis des k-Means-Clustering mit k=4
```
Dieses Beispiel ist nicht so trivial wie das vorige. Mit blo√üem Auge lassen sich  die Cluster nicht ablesen. 
``````

Mit Hilfe des k-Means-Clustering k√∂nnen die Daten also sinnvoll unterteilt werden. Aber wie macht der Algorithmus das √ºberhaupt? ü§î

(k-means-clustering-algorithmus)=
## Der k-means-Clustering Algorithmus


````{margin}
```{admonition} Try it!
:class: seealso
Auf [dieser toll programmierten Seite](https://www.naftaliharris.com/blog/visualizing-k-means-clustering) kann man den Algorithmus mit verschiedenen Datensammlugen graphisch nachspielen!
```
````

Der Ablauf des k-means-Clustering Algorithmus wird in folgende Schritte aufgeteilt:
```{important}
:name: ablauf-k-means-algorithmus
**Auswahl der Anzahl der Cluster ($k$)**  
Bevor der Algorithmus gestartet werden, muss die **Anzahl der Cluster** $k$ festgelegt werden. Diese Zahl bestimmt, in wie viele Gruppen die Datenpunkte aufgeteilt werden sollen.

**1. Initialisierung der Zentroiden**  
Als n√§chstes werden $k$ Datenpunkte aus den Daten oder $k$ zuf√§llige Punkte ausgew√§hlt, um die anf√§nglichen **Zentroiden** (Cluster-Zentren) zu bestimmen.

**2. Zuweisung der Datenpunkte und Bildung der Cluster**  
Jeder Datenpunkt wird dem n√§chstgelegenen Zentroiden zugewiesen. Dies wird durch die {term}`Distanzma√üe <Distanzma√üe>` zu allen Zentroiden bestimmt (z.B. mittels {term}`Euklidischer Distanz <Euklidische Distanz>` oder {term}`Manhattan-Distanz <Manhattan-Distanz>`).

**3. Aktualisierung der Zentroiden**  
Die Zentroiden werden neu berechnet, indem der Durchschnitt (**Mean**) aller Punkte innerhalb eines Clusters berechnet wird.

**4. Wiederholung der Schritte 3 und 4**  
Die Schritte 2 und 3 werden solange wiederholt, bis sich die Zentroiden nicht mehr √§ndern oder eine maximale Anzahl an Iterationen erreicht ist.
```

Versuche mal zu √ºberlegen, worin das Ziel des Algorithmus besteht? Denke dabei an die Beziehung der Datenpunkte **innerhalb** eines Clusters und Datenpunkte aus **verschiedenen** Clustern.

```{admonition} L√∂sung
:class: tip, dropdown
Folgende Kriterien sind das Ziel:
- Die √Ñhnlichkeit der Datenpunkte **innerhalb** der einzelnen Cluster soll **m√∂glichst hoch** sein.
- Die √Ñhnlichkeit der Datenpunkte **zwischen** den einzelnen Clustern soll **m√∂glichst gering** sein.  

Fazit: Die Datenpunkte **innerhalb** eines Cluster sollen eine **h√∂chstm√∂gliche Homogenit√§t** haben.
```

**Frage:** Warum ben√∂tigt es in der Regel mehrere Durchg√§nge (Iterationen), um die Cluster vollst√§ndig zu bilden?

```{admonition} L√∂sung
:class: tip, dropdown
Der k-means Algorithmus braucht in der Regel mehrere Durchg√§nge, um die Cluster korrekt zu finden. Das liegt daran, dass die **Zentroiden** (also die Mittelpunkte der Cluster) anfangs **zuf√§llig gew√§hlt** werden. Am Anfang sind diese Zentroiden oft nicht optimal, da sie weit von den eigentlichen Clustern entfernt liegen k√∂nnen.

In jeder Iteration passiert Folgendes:
1. Jeder Datenpunkt wird dem n√§chstgelegenen Zentroiden zugewiesen, wodurch sich Cluster bilden oder auch √§ndern. Es ist gut m√∂glich, dass ein Datenpunkt nun in einem anderen Cluster landet. Damit √§ndert sich dann wiederum auch die Position des Zentroiden.
2. Die Zentren werden dann neu berechnet, indem der Durchschnitt der Punkte in jeder Gruppe genommen wird.
3. Dieser Prozess wiederholt sich: Die Datenpunkte werden immer wieder neu zugeordnet, und die Zentren verschieben sich dabei nach und nach.

Das Ziel ist, dass die Zentroiden eine Position erreichen, bei der sie sich gar nicht mehr oder nicht mehr gro√ü bewegen, also eine **stabile** L√∂sung finden. Diese Stabilit√§t wird auch **Konvergenz** genannt. Je nach Anfangslage der Zentroiden kann mehrere Interationen dauern, bis der Algorithmus eine stabile Gruppierung erreicht hat. Deshalb sind mehrere Iterationen n√∂tig, um sicherzustellen, dass die Cluster gut und sinnvoll gebildet werden.

Dieses iterative Verfahren f√ºhrt schlie√ülich zu einer optimalen Gruppierung der Datenpunkte, wobei jeder Punkt in dem Cluster landet, das am besten zu seinen Eigenschaften passt.
```

**Hilfreiche Quellen f√ºrs weitere Verst√§ndnis**
- [KI Buch: Wetterdaten-Beispiel](https://www.maschinennah.de/ki-buch/)
- [k-Means Clustering visualisiert ](https://www.naftaliharris.com/blog/visualizing-k-means-clustering/)
- [k-Means Clustering visualisiert mit Distanzenberechnug](https://shabal.in/visuals/kmeans/6.html)

## Reale Anwendungsbeispiele

Welche realen Anwendungsbeispiele kannst du dir vorstellen, bei denen das k-means Clustering eingesetzt werden k√∂nnte?

√úberlege dabei, in welchen Bereichen es wichtig sein k√∂nnte, Daten in Gruppen aufzuteilen, ohne dass bereits vorgegeben ist, zu welcher Gruppe ein Datenpunkt geh√∂rt. Welche Situationen kennst du, in denen Menschen, Dinge oder Objekte aufgrund ihrer √Ñhnlichkeit in Gruppen eingeteilt werden? Es gibt hier keine richtige Antwort, nur eine Auswahl an m√∂glichen Einsatzszenarien.

```{admonition} Beispiele
:class: tip, dropdown
- *Marketing*: Kunden in verschiedene Segmente aufteilen. Dadurch k√∂nnen Unternehmen gezieltere Werbung schalten und ihre Produkte effizienter an die verschiedenen Kundengruppen anpassen.
- *Bildanalyse*: √§hnliche Regionen in Bildern finden. Das ist besonders n√ºtzlich f√ºr die Objekterkennung. Hierbei hilft der Algorithmus, verschiedene Objekte in einem Bild zu identifizieren und zu klassifizieren.
- *Biologie*: Forscher nutzen den Algorithmus, um √§hnliche Gene oder Spezies zu gruppieren. Dies kann helfen, neue Erkenntnisse √ºber genetische Verbindungen und Unterschiede zu gewinnen und die Evolution besser zu verstehen.
- *Textanalyse*: Zum Beispiel kann der Algorithmus eingesetzt werden, um √§hnliche Dokumente oder Artikel zu gruppieren, was bei der Organisation gro√üer Textmengen hilfreich ist. In der Finanzwelt wird k-Means genutzt, um riskante von nicht riskanten Krediten zu unterscheiden, indem √§hnliche Kreditprofile gruppiert werden.
```

## Ein konkretes Beispiel: Clustering von Obstsorten

Wir m√∂chten uns ges√ºnder ern√§hren und wollen mehr Obst essen. Die WHO empfiehlt Obst mit hohen Fruchtzuckergehalt in geringen Ma√üen zu genie√üen. Obst mit einem hohen Wassergehalt f√ºhrt zu einer h√∂heren S√§ttigung. Nehmen wir an, wir haben Daten √ºber Obstsorten mit Informationen wie u.a. Wassergehalt und Fruchtzuckergehalt. Wir m√∂chten √§hnliche Obstsorten in Clustern gruppieren, sodass die Obstsorten m√∂glichst homogen sind. Anhand der Cluster k√∂nnen wir dann entscheiden, welches Obst wir in welchen Mengen essen k√∂nnen.

Wir spielen dieses Beispiel mal nach und schauen uns das Ergebnis an. Die zuge√∂rigen Daten zu unseren Obstsorten sind:

<small>

| **Obst**       | **Wassergehalt** | **Fruchtzuckergehalt** |
| :------------- | :--------------- | :--------------------- |
| Apfel          | 85               | 10                     |
| Birne          | 83               | 10                     |
| Banane         | 75               | 12                     |
| Orange         | 87               | 8                      |
| Weintrauben    | 81               | 16                     |
| Erdbeere       | 91               | 5                      |
| Wassermelone   | 92               | 6                      |
| Mango          | 83               | 14                     |

</small>


Keine √ºbergro√üe Menge aber es ist schon mal nicht einfach, hier ad hoc eine konkrete Hilfestellung f√ºr unsere Obstfrage zu erhalten.

In {numref}`fig_kmeans_obst` ist die Sammlung von Obstsorten visualisiert: üçé (Apfel), üçê (Birne), üçå (Banane), üçä (Orange), üçá (Weintrauben), üçì (Erdbeere), üçâ (Wassermelone), ü•≠ (Mango). Wir m√∂chten diese Obstsorten nun basierend auf Wasser- und Fruchtzuckergehalt in Cluster aufteilen.

```{figure} bilder/kmeans_obst.svg
---
width: 80%
name: fig_kmeans_obst
align: center
---
Obstsorten visualisiert nach Wassergehalt und Fruchzuckergehalt
```

**Aufgabe 1:** Wie w√ºrdest du die Obstsorten in Cluster aufteilen? √úberlege dabei, wieviele Cluster sinnvoll w√§ren, also welchen Wert $k$ einnehmen w√ºrde.

```{admonition} Ergebnis k-Means
:class: tip, dropdown
```{figure} bilder/kmeans_obst_clusters_3.svg
---
width: 90%
name: fig_kmeans_obst_3
align: center
---
k-Means-Clustering der Obstsorten mit k=3
```

**Aufgabe 2:** Versuche mal, das ermittelten Cluster in eigenen Worten zusammenzufassen.

```{admonition} Beschreibung des Ergebnisses
:class: tip, dropdown
Der Algorithmus hat die Obstsorten in 3 Cluster aufgeteilt, deren Datenpunkte die folgenden Merkmale aufweisen:
1. üçå (Banane), üçá (Weintrauben), ü•≠ (Mango): <u>hoher bis sehr hoher</u> Fruchtzuckergehalt mit <u>mittlerem</u> Wassergehalt
2. üçé (Apfel), üçê (Birne), üçä (Orange): <u>mittlerer</u> Fruchtzuckergehalt mit <u>hohem</u> Wassergehalt
3. üçì (Erdbeere), üçâ (Wassermelone): <u>niedriger</u> Fruchtzuckergehalt mit sehr <u>hohem</u> Wassergehalt
```

Hast du die Einteilung von k-Means auch so √ºberlegt oder hattest du eine andere Vorstellung? Was h√§lst du denn von dieser Einteilung im Vergleich zur vorigen L√∂sung?

```{admonition} Ergebnis k-Means Variante 2
:class: tip, dropdown
```{figure} bilder/kmeans_obst_clusters_42.svg
---
width: 90%
name: fig_kmeans_obst_42
align: center
---
k-Means-Clustering der Obstsorten mit k=3 Variante 2
```

√úberlege mal einen Moment, wie der Algorithmus bei gleichen Daten zu diesen unterschiedlichen Ergebnisse kommen kann.

```{admonition} Tipp
:class: tip, dropdown
Was k√∂nnte der [Algorithmus](ablauf-k-means-algorithmus) zu Beginn anders gemacht haben, damit unterschiedliche Ergebnisse zustande kommen?
```{admonition} Tipp, wenn du noch keine Idee hast
:class: tip, dropdown
Wie werden die Zentroiden initialisiert und wie kann dieses Verfahrensweise zu unterschiedliche Ergebnissen f√ºhren?
```

```{admonition} L√∂sung
:class: tip, dropdown
Die unterschiedlichen Ergebnisse sind eine Folge davon, dass der Algorithmus mit zuf√§lligen Startpunkten arbeitet. Je nachdem, wo die Zentroiden am Anfang liegen, teilt der Algorithmus die Punkte unterschiedlich ein. Das zeigt, dass k-Means manchmal unterschiedliche Ergebnisse liefern kann, auch wenn die Daten gleich bleiben.
- Wenn ein Start-Zentroid mitten in einer dichten Datenmenge liegt, zieht er schnell viele Punkte an.
- Liegt ein anderer Start-Zentroid weit weg, wird er vielleicht nur wenige Punkte anziehen.
Der Algorithmus findet also nicht immer die 'beste' L√∂sung, sondern eine, die von den Startbedingungen abh√§ngt
```

### Initialisierung der Clusterzentren mit k&#8209;means++

**[k-means++(https://de.wikipedia.org/wiki/K-Means-Algorithmus)]** ist eine verbesserte Methode zur Initialisierung der Clusterzentren beim k-means-Clustering. Es verbessert die Qualit√§t und Effizienz des Algorithmus durch folgende Schritte:

1. **Erster Startpunkt**:
   - Ein Punkt wird zuf√§llig aus den Daten gew√§hlt.
2. **Gewichtete Auswahl der weitere Startpunkte**:
   - F√ºr jeden weiteren Startpunkt wird ein Punkt basierend auf seiner Distanz zu den n√§chsten bereits gew√§hlten Startpunkten ausgew√§hlt:
     - Punkte, die weiter entfernt sind, haben eine h√∂here Wahrscheinlichkeit, ausgew√§hlt zu werden.
     - Die Wahrscheinlichkeit ist proportional zum Quadrat der Distanz zum n√§chsten Startpunkt ($D^2$).
3. **Wiederhole Schritt 2**, bis $k$ Startpunkte bestimmt sind.
4. **F√ºhre anschlie√üend das normale k-means-Verfahren durch**.

**Vorteil:** Die Startpunkte werden optimal verteilt, was zu schnellerer Konvergenz und besseren Clustering-Ergebnissen f√ºhrt.

```{admonition} **Wie funktioniert die gewichtete Auswahl genau?**
:class: note
Angenommen, es gibt 5 Punkte mit diesen Distanzen zu den bestehenden Zentren:

| Punkt | Entfernung $D$ | Gewicht $D^2$ | Wahrscheinlichkeit |
|-------|----------------|---------------|--------------------|
| $A$   | $1$            | $1^2 = 1$     | $1 / (1 + 9 + 25 + 36 + 64) = 1/135 \approx 0.74\%$ |
| $B$   | $3$            | $3^2 = 9$     | $9 / 135 \approx 6.67\%$ |
| $C$   | $5$            | $5^2 = 25$    | $25 / 135 \approx 18.52\%$ |
| $D$   | $6$            | $6^2 = 36$    | $36 / 135 \approx 26.67\%$ |
| $E$   | $8$            | $8^2 = 64$    | $64 / 135 \approx 47.41\%$ |

[comment]: <Abstand nach Tabelle>
<div style="margin-top: 20px;"></div>

Punkt $E$ hat die gr√∂√üte Wahrscheinlichkeit, gew√§hlt zu werden, aber nicht zu 100%. Es kann jedoch auch jeder andere Punkt gew√§hlt werden, abh√§ngig von seiner Wahrscheinlichkeit.
```

## Ein Beispiel zum Nachrechnen

Du wei√üt nun, wie der Algorithmus funktioniert und zu welchen Ergebnissen er f√ºhren kann. Am besten kannst du das nachvollziehen, indem du den Algorithmus selbst mal durchf√ºhrst. Lade dir dieses
{download}`Aufgabenblatt <kmeansclustering_aufgabenblatt.pdf>` herunter und bearbeite es. Die Anweisungen findest du dem Arbeitsblatt. Viel Erfolg üí™

## Die richtige Wahl f√ºr $k$ mit der Elbow-Methode

Bisher haben wir f√ºr unsere Beispiele $k$ so gew√§hlt, dass es dem Verst√§ndnis passte. Doch in der Praxis stellt sich oft die Frage: **Wie w√§hle ich die optimale Anzahl von $k$ Clustern ?**

Hier kommt die **Elbow-Methode** ins Spiel. Sie hilft uns, auf systematische Weise die Anzahl der Cluster zu bestimmen, die sowohl eine gute Datenaufteilung gew√§hrleistet als auch unn√∂tig viele Cluster vermeidet.

Die Idee der Methode ist wie folgt:  
- Wir berechnen die sogenannte **Tr√§gheit** (Summe der Abst√§nde der Datenpunkte zu ihren Clusterzentren) f√ºr verschiedene Werte von $k$.  
- Die Tr√§gheit nimmt mit steigender Clusteranzahl $k$ ab, weil mehr Cluster zu kleineren Distanzen f√ºhren.  
- Jedoch flacht die Abnahme ab, und ab einem bestimmten Punkt lohnt es sich nicht mehr, die Anzahl der Cluster weiter zu erh√∂hen. Dieser Punkt wird als **Knickpunkt (Elbow)** bezeichnet.

```{figure} bilder/kmeans_elbow_demo.svg
---
width: 90%
name: fig_kmeans_elbow_demo.svg
align: center
---
Demonstration der Elbow-Methode
```

Die optimale Anzahl der Cluster $k$ ist genau dort, wo dieser Knickpunkt liegt. Dies ist der Punkt, an dem die Verbesserung durch mehr Cluster stark nachl√§sst, und wir eine gute Balance zwischen Genauigkeit und Einfachheit erreichen.

```{admonition} Warum funktioniert die Elbow-Methode?
:class: note
Die Methode basiert auf der Idee, dass eine kleine Anzahl von Clustern zu einer schlechten Gruppierung f√ºhrt, w√§hrend eine zu gro√üe Anzahl von Clustern unn√∂tig ist und zu [Overfitting](overfitting) f√ºhren kann. Der Knick bei Anzahl der Cluster $= 2$ zeigt den Punkt, an dem sich der Aufwand f√ºr mehr Cluster nicht mehr lohnt.
```

Mit der Elbow-Methode k√∂nnen wir also datengetrieben und anschaulich entscheiden, wie viele Cluster sinnvoll sind, anstatt dies nur durch Intuition oder Versuch und Irrtum zu bestimmen.
