# Programmierung des Algorithmus (L√∂sung)

Wir werden uns nun Schritt f√ºr Schritt die n√∂tigen Methoden den k-Means-Clustering Algorithmus erarbeiten. Um am Ende nicht einen gro√üen Codeblock erstellen zu m√ºssen, werden wir soviel Vorarbeit wie m√∂glich erledigen. So kannst du dich am Ende ganz auf die Implementierung der Teile des Algorithmus konzentrieren [Stichwort: externe kognitive Belastung gering halten, siehe [Cognitive Load Theory (CLT)](https://de.wikipedia.org/wiki/Cognitive_Load_Theory) üòâ]

## Pseudocode
Nochmals die Grundidee des [Algorithmus](ablauf-k-means-algorithmus):

1. **Clusterzentren initialisieren:** Zu Beginn werden $k$ Zentroiden (Mittelwerte der Cluster) zuf√§llig oder nach einer bestimmten Heuristik gew√§hlt.
2. **Datenpunkte zuweisen:** Jeder Datenpunkt wird dem n√§chstgelegenen Clusterzentrum zugeordnet. Diese Zuordnung basiert √ºblicherweise auf der euklidischen Distanz.
3. **Zentroiden aktualisieren:** Nach der Zuordnung werden die Zentroiden neu berechnet, indem der Mittelwert aller Punkte in jedem Cluster bestimmt wird.
4. **Wiederholen**: Die Schritte der Zuordnung und Aktualisierung werden wiederholt, bis sich die Clusterzentren nicht mehr √§ndern oder eine maximale Anzahl von Iterationen erreicht wurde.

Folgend siehst du die Umsetzung des Algorithmus in Pseudocode nach der Formelsammlung, vervollst√§ndigt mit Kommentaren.

```
OPERATION k_means(
    daten: Liste<Datenpunkt>,
    k: int,
    max_iterationen: int) : (Liste<Datenpunkt>, Liste<Datenpunkt>)
    Lokale Variablen: 
        zentroiden: Liste<Datenpunkt>,
        neue_zentroiden: Liste<Datenpunkt>,
        cluster: Liste<Datenpunkt>

    # Initialisierung der Zentroiden
    zentroiden = initialisiere_zentroiden(daten, k)

    # Hauptalgorithmus: Wiederhole f√ºr maximal max_iterationen
    F√úR i=0 BIS max_iterationen SCHRITT 1
        # Cluster-Zuordnung: Weise jeden Datenpunkt dem n√§chsten Zentroiden zu
        cluster = berechne_cluster(daten, zentroiden)

        # Zentroiden-Aktualisierung: Berechne die neuen Zentroiden als Mittelwert der zugeordneten Punkte
        neue_zentroiden = aktualisiere_zentroiden(clusters)

        # Abbruchbedingung: Wenn die Zentroiden sich nicht mehr √§ndern, ist der Algorithmus fertig
        WENN neue_zentroiden == zentroiden  # Das ist die Abbruchbedingung!
            ABBRUCH
        ENDE WENN

        # Aktualisiere die Zentroiden f√ºr die n√§chste Iteration
        zentroiden = neue_zentroiden
    ENDE F√úR

    # R√ºckgabe der finalen Cluster-Zuordnung und Zentroiden
    R√úCKGABE (cluster, zentroiden)
```

Laut Pseudocode ben√∂tigen wir die Methoden `initialisiere_zentroiden()` `datenpunkte_zuweisen()` und `aktualisiere_zentroiden()`. Die Methode `initialisiere_zentroiden()` ist bereits implementiert.

Die beiden anderen Methoden sind deine Aufgabe. In beiden F√§llen ben√∂tigst du die Eukledische Distanz (**A1**).  
Dann brauchst du eine Methode, die entscheidet, welcher Zentroid der n√§chste zu einem Datenpunkt ist (**A2**). Mit dieser Methode kannst du dann die Datenpunkte den Clustern zuweisen (**A3**).  
Danach m√ºssen die Koordinaten der Zentroiden neu berechnet werden. Zun√§chst f√ºr einen (**A4**), dann f√ºr alle Zentroiden (**A5**).

**Deine Aufgaben sind:**  
- [A1](loesung1): `berechne_euklidische_distanz()`
- [A2](loesung2): `finde_naechsten_zentroiden()`
- [A3](loesung3): `datenpunkte_zuweisen()`
- [A4](loesung4): `berechne_zentroid_koordinaten()`
- [A5](loesung5): `aktualisiere_zentroiden()`

Wenn alle Aufgaben erledigt, sollte [die Methode `k_means()`](k-means-final) korrekt funktionieren üòé.

```{admonition} Hinweis
:class: note
Die folgenden Unterpunkte bis zur [ersten Aufgabe](loesung1) sind nicht essentiel, um den Algorithmus zu verstehen, aber dennoch hilfreich f√ºr die sp√§tere Implementierung. Und auch generell wichtig f√ºr das vielleicht sp√§tere Leben als ProgrammiererIn.
```

## Vorentlastungen

Wir werden nun vor der ersten Aufgabe folgende Schritte bereits erledigen:
- Konfiguration von Unit Tests: f√ºr das Beschreiben der Methoden und f√ºr nachvollziehbare Testf√§lle
- Klasse `Datenpunkt`: f√ºr das Handling von X- und Y-Koordinaten
- Methode `generiere_datenpunkte()`: f√ºr das Generieren von zuf√§lligen Datenpunkten
- Methode `initialisiere_zentroiden()`: f√ºr das Initialisieren der ersten Zentroiden

In den Aufgaben selber sind auch teilweise schon Tipps und Hilfen. Achte auf die Stelle `...  # Hier die weitere L√∂sung erg√§nzen`: nur dort muss dein Code hin üòâ.

### Logging und Loglevel

W√§hrend der Programmierung ist es von gro√üem Vorteil, Informationen, Warnungen und Fehler per **Logging** auszugeben. Diese Nachrichtensammlungen, **Logs** genannt, helfen dir, Fehler zu finden und die Ursache f√ºr Bugs zu verstehen.  

Nachrichten lassen sich mit verschiedenen **Loglevel** ausgeben. Das sind Kategorien, die angeben, wie wichtig eine Nachricht im Log ist. Meist gibt es die hierarchischen Loglevel `DEBUG`, `INFORMATION`, `WARNING`, `ERROR` und `FATAL`. Hierarchisch bedeutet: wenn der Loglevel `WARNING` gesetzt ist, dann werden alle Nachrichten $>=$ `WARNING` ausgegeben. Wenn der Loglevel `DEBUG` gesetzt ist, werden alle Nachrichten ohne Einschr√§nkung ausgegeben.

Wir verwenden f√ºr unser Logging die Loglevel `DEBUG` und `INFORMATION`. Somit k√∂nnen wir generelle Programmablauf-Informationen ausgeben und auch mal Debug-Nachrichten, um einen Fehler in einer Methode zu finden. 

Damit du es in den Aufgaben einfacher hast, wird das Logging hier konfiguriert und aktiviert. Du kannst jederzeit
mit `logger.info()` und `logger.debug()` Nachrichten ausgeben. Nachrichten, die mit `logger.debug()` ausgegeben werden, werden nur angezeigt, wenn der Loglevel `DEBUG` gesetzt ist. Wenn du den Loglevel auf `logging.DEBUG` setzt, werden beide Nachrichten ausgegeben. Du kannst den Loglevel auch nur f√ºr bestimmte Bereiche oder Methoden √§ndern, siehe das Beispiel unten

```{admonition} Warum nicht print()
:class: note
Nat√ºrlich kannst du auch einfach alles mit `print()`-Befehlen ausgeben. Dann werden aber immer alle Nachrichten ausgegeben, au√üer du hast sie gerade auskommentiert. Mit dem Loglevel-Schalter lassen sich die Nachrichten so bequem filtern, wie die du es gerade brauchst, ohne die Nachrichten ein- und auskommentieren zu m√ºssen.
```

In [None]:
import logging

# Konfiguration f√ºr das Logging
logging.basicConfig(format='%(levelname)s: %(message)s')
logger = logging.getLogger(__name__)

# Loglevel INFO:  Informationen √ºber den Verlauf des Programms
# Loglevel DEBUG: Detaillierte Informationen f√ºr die Fehlersuche
logger.setLevel(logging.INFO)

# Info-Nachricht, hilfreich f√ºr den Programmverlauf
logger.info('Das Loggen ist eingerichtet')

# Debug-Nachricht, hilfreich f√ºr die Fehlersuche
logger.setLevel(logging.DEBUG)
logger.debug('Das Log-Level ist auf DEBUG gesetzt')
logger.debug('Diese Nachricht angezeigt, weil das Log-Level auf DEBUG gesetzt ist')
logger.setLevel(logging.INFO)
logger.info('Das Log-Level ist auf INFO gesetzt')
logger.debug('Diese Nachricht wird nicht angezeigt, weil das Log-Level nun auf INFO gesetzt ist')

# Finaler Loglevel. Diesen k√∂nnt ihr auch beliebig in den sp√§teren √úbungen setzen.
# Es z√§hlt immer der zuletzt gesetzte Loglevel.
logger.setLevel(logging.DEBUG)

### Unit Tests

Wir werden zum Testen unserer Methoden [Unit-Tests](https://en.wikipedia.org/wiki/Unit_testing) verwenden. Das sind kleine, automatisierte Tests, die jeweils eine **einzelne** Funktion oder Methode in einem Programm √ºberpr√ºfen. Sie helfen sicherzustellen, dass jede Komponente des Codes genau das tut, was sie tun soll. Stell dir Unit-Tests wie eine Checkliste vor, die jede Funktion Schritt f√ºr Schritt √ºberpr√ºft, ob sie die erwarteten Ergebnisse liefert.  

Bei den einzelnen Methoden sind bereits jeweils Unit-Tests hinterlegt, sodass sie dir eine Hilfe bei der Implementierung geben. Wenn du die Test-Methoden studierst, siehst du, wie die zu implementierenden Methoden aufgerufen werden.

```{admonition} Bei Interesse: weitere Infos zu Unit-Tests
:class: note, dropdown
**Vorteile von Unit-Tests:**

- **Fr√ºhes Erkennen von Fehlern**: Unit-Tests helfen dabei, Fehler fr√ºh zu finden, noch bevor der ganze Code zusammengesetzt wird. Das macht es einfacher und billiger, diese Fehler zu beheben.
- **Sicherheit bei √Ñnderungen**: Wenn du etwas an deinem Code √§nderst, kannst du die Unit-Tests erneut ausf√ºhren, um sicherzustellen, dass die √Ñnderung nichts kaputt gemacht hat. Sie geben also Vertrauen, dass alte Funktionen nach wie vor korrekt laufen.
- **Besserer Code**: Oft sorgt das Schreiben von Unit-Tests daf√ºr, dass der eigentliche Code sauberer und verst√§ndlicher wird, weil man genau √ºberlegen muss, was die Funktion tut.
- **Dokumentation**: Unit-Tests dokumentieren, wie der Code verwendet wird und welche Eingaben erwartete Ausgaben ergeben. Das hilft anderen Entwickler:innen (oder deinem zuk√ºnftigen Selbst), den Code besser zu verstehen.  

Mit Unit-Tests bist du also gut aufgestellt, um zuverl√§ssigen und stabilen Code zu schreiben, der leichter zu warten ist.
```

Folgend ist wird definiert, wie die Erfolgs- und Fehlerausgabe in einem f√ºr uns gut lesbaren Format ausgegeben wird. Du musst es nicht verstehen, es ist nur wichtig, bei den Implementierungen `run_doctests_mit_lesbarer_ausgabe(methoden_name)` auszuf√ºhren, um die Methode zu testen und die Ausgabe dazu erhalten. Du erh√§ltst immer die Info, ob die Methode erfolgreich implementiert wurde oder ob es noch Tests gibt, die fehlschlagen.

In [None]:
# F√ºr die Unit Tests ben√∂tigen wir das Modul doctest. Damit k√∂nnen wir die Docstrings in den Funktionen testen.
import doctest

# Damit die Ausgabe f√ºr dich gut lesbar ist, verwenden wir eine eigenes Output-Format
class CustomOutputChecker(doctest.OutputChecker):
    """Diese Klasse ist ein Wrapper f√ºr den Doctest-OutputChecker, um die Ausgabe zu formatieren."""
    def output_difference(self, example, got, optionflags):
        """
        Diese Funktion gibt die Testergebnisse in einer lesbaren Form zur√ºck.
        """
        return f"""
Test fehlgeschlagen:
  Beispiel: {example.source.strip()}
  Erwartet: {example.want.strip()}
  Erhalten: {got.strip()}
"""

def run_doctests_mit_lesbarer_ausgabe(func, verbose=False):
    """
    Diese Funktion f√ºhrt die Doctests aus und gibt eine lesbare Ausgabe zur√ºck.
    Args:
        func (function): Die Funktion, die getestet werden soll.
    """
    runner = doctest.DocTestRunner(checker=CustomOutputChecker(), verbose=verbose)
    tests = doctest.DocTestFinder().find(func)
    total_failed = 0

    for test in tests:
        result = runner.run(test)
        total_failed += result.failed
    
    runner.summarize()

    if total_failed == 0:
        logger.info(f'{func.__name__}() wurde erfolgreich implementiert!')
    else:
        logger.error(f'{func.__name__}() hat {total_failed} fehlgeschlagene Tests')

In Python k√∂nnen wir Funktionen und Klassen mit Docstrings dokumentieren. Docstrings sind mehrzeilige Kommentare unter der `def ...`-Zeile, die erkl√§ren, was die Funktion macht, welche Parameter sie ben√∂tigt und was sie zur√ºckgibt. Au√üerdem k√∂nnen wir Beispiel-Aufrufe direkt in die Docstrings schreiben, um die Funktionsweise zu zeigen. Und damit haben wir auch schon unsere Unit Tests, wie praktisch! Denn iese Beispiele kann man mit den Unit Tests einfach nachspielen. Im Beispiel unten erfolgt das mit der Zeile

```
run_doctests_mit_lesbarer_ausgabe(ist_gerade)
```

In [None]:
def ist_gerade(zahl: int) -> bool:
    """
    Pr√ºft, ob eine Zahl gerade ist.
    Args:
        zahl (int): Die zu pr√ºfende Zahl
    Returns:
        bool: True, wenn die Zahl gerade ist, sonst False
    Examples:
        >>> ist_gerade(2)
        True
        >>> ist_gerade(3)
        False
    """
    # Zum Testen kannst du die Funktion mal so ab√§ndern, dass sie ein falsches Ergebnis zur√ºckgibt
    # return True # auskommentieren, um den Test fehlschlagen zu lassen
    return zahl % 2 == 0

# Unit Test ausf√ºhren
run_doctests_mit_lesbarer_ausgabe(ist_gerade)


### `Datenpunkt`-Klasse
Damit du die Koordinaten der Datenpunkte und der Zentroiden bequem veralten k√∂nnen, ist die Hilfsklasse `Datenpunkt` bereits vorhanden. In dieser Klasse erweitern wir noch die internen Methoden `__eq__()` und `__hash__()`, damit wir es sp√§ter leichter haben, die neuen Zentroiden mit den alten Zentroiden der vorigen Iteration zu vergleichen (siehe Schritt 4 des [Algorithmus](ablauf-k-means-algorithmus)). Es w√§re auch m√∂glich, die Koordinaten in verschachtelten Arrays zu verwalten, aber die L√∂sung einer eigenen Klasse ist eleganter und wir k√∂nnen Komplexit√§t in diese Klasse auslagern. F√ºr dich wichtig zu wissen: einen neuen Datenpunkt kannst du mit `punkt = Datenpunkt(1.2345, 6.789)` erzeugen.

```{admonition} Zentroiden & Datenpunkte
:class: note
Zentroiden sind nichts anderes als Datenpunkte wie aus den Eingabedaten. Beide zeichnet aus, dass sie `X`- und `Y`-Koordinaten haben.
```

In [None]:
class Datenpunkt:
    """Klasse, die einen Datenpunkt repr√§sentiert mit XY-Koordinaten."""
    def __init__(self, x: float, y: float) -> None:
        """
        Erzeugt einen Datenpunkt mit den gegebenen Koordinaten, gerundet auf zwei Dezimalstellen.
        Examples:
            >>> punkt = Datenpunkt(1.2345, 6.789)
            >>> punkt.x
            1.23
            >>> punkt.y
            6.79
        """
        self.x = round(x, 2)
        self.y = round(y, 2)

    def __eq__(self, anderer_datenpunkt: object) -> bool:
        """
        Vergleicht zwei Datenpunkte basierend auf ihren Koordinaten.
        Examples:
            >>> Datenpunkt(1.23, 4.56) == Datenpunkt(1.23, 4.56)
            True
            >>> Datenpunkt(1.23, 4.56) == Datenpunkt(0.00, 4.56)
            False
        """
        if isinstance(anderer_datenpunkt, Datenpunkt):
            return self.x == anderer_datenpunkt.x and self.y == anderer_datenpunkt.y
        return False
    
    def __hash__(self) -> int:
        """
        Berechnet den Hashwert eines Datenpunktes.
        Examples:
            >>> hash(Datenpunkt(1.23, 4.56)) == hash(Datenpunkt(1.23, 4.56))
            True
        """
        return hash((self.x, self.y))
    
    def __repr__(self) -> str:
        """
        Gibt eine lesbare Repr√§sentation eines Datenpunktes zur√ºck.
        Examples:
            >>> repr(Datenpunkt(1.23, 4.56))
            'Datenpunkt(1.23, 4.56)'
        """
        return f"Datenpunkt({self.x}, {self.y})"

run_doctests_mit_lesbarer_ausgabe(Datenpunkt.__init__)
run_doctests_mit_lesbarer_ausgabe(Datenpunkt.__eq__)
run_doctests_mit_lesbarer_ausgabe(Datenpunkt.__hash__)
run_doctests_mit_lesbarer_ausgabe(Datenpunkt.__repr__)

### `generiere_datenpunkte()`

Wir ben√∂tigen automatische Eingabedaten und wir m√∂chten unsere `kmeans()`-Methode mit beliebig gro√üen Datens√§tzen testen k√∂nnen. Daf√ºr werden wir Methode `generiere_datenpunkte()` verwenden. Dieser k√∂nnen wir die Anzahl der gew√ºnschten Datenpunkte und den gew√ºnschten Zahlenraum angeben. Wir erhalten eine Liste von `Datenpunkten` zur√ºck.

In [None]:
import random

def generiere_datenpunkte(anzahl_datenpunkte: int, zahlenraum: int = 10, randomseed=42) -> list[Datenpunkt]:
    """
    Generiert eine Liste von zuf√§lligen Datenpunkten im angegebenen Zahlenraum.
    Args:
        anzahl_datenpunkte (int): Anzahl der zu generierenden Datenpunkte
        zahlenraum (int): Gr√∂√üe des Zahlenraums, in dem die Datenpunkte generiert werden
    Returns:
        list[Datenpunkt]: Liste von zuf√§lligen Datenpunkten
    Examples:
        >>> datenpunkte = generiere_datenpunkte(3, 10)
        >>> len(datenpunkte)
        3
        >>> all(0 <= datenpunkt.x <= 10 and 0 <= datenpunkt.y <= 10 for datenpunkt in datenpunkte)
        True
    """
    # Damit wir einerseits zuf√§llige Zahlen generieren k√∂nnen, aber andererseits auch reproduzierbare
    # Ergebnisse erhalten, setze wir den Zufallsgenerator auf einen fixen Wert.
    random.seed(randomseed)
    # Set, um Duplikate zu vermeiden
    datenpunkte = set()
    # Solange die Anzahl der generierten Datenpunkte kleiner als die gew√ºnschte Anzahl ist,
    # neue Datenpunkte generieren und hinzuf√ºgen
    while len(datenpunkte) < anzahl_datenpunkte:
        # Zuf√§llige Koordinaten im Zahlenraum generieren
        x = random.uniform(0, zahlenraum)
        y = random.uniform(0, zahlenraum)
        datenpunkt = Datenpunkt(x, y)
        datenpunkte.add(datenpunkt)
    return list(datenpunkte)

run_doctests_mit_lesbarer_ausgabe(generiere_datenpunkte)

### `initialisiere_zentroiden()`

Im ersten Schritt des k-means Algorithmus werden die Startzentroiden bestimmt. Die Methode `initialisiere_zentroiden()` w√§hlt aus der √ºbergebenen Liste von `Datenpunkten` die gew√ºnschte Anzahl der Zentroiden zuf√§llig aus. Die Auswahl ist zwar **zuf√§llig**, bleibt **aber reproduzierbar**, weil wir in der Methode `generiere_datenpunkte` den Zufallsgenerator auf einen fixen Wert gesetzt haben. Die Methode gibt eine Liste von `Datenpunkten` zur√ºck.

In [None]:
def initialisiere_zentroiden(datenpunkte: list[Datenpunkt], anzahl_zentroiden: int) -> list[Datenpunkt]:
    """
    W√§hlt zuf√§llig die angegebene Anzahl von Zentroiden aus den Datenpunkten aus.
    Args:
        datenpunkte: Liste von Datenpunkten, aus denen die Zentroiden ausgew√§hlt werden.
        anzahl_zentroiden: Anzahl der Zentroiden, die initialisiert werden sollen.
    Returns:
        list[Datenpunkt]: Liste der initialisierten Zentroiden.
    Examples:
        >>> datenpunkte = [Datenpunkt(1.4, 4.5), Datenpunkt(5.2, 8.3), Datenpunkt(3.1, 9.2), Datenpunkt(3.1, 6.2)]
        >>> anzahl_zentroiden = 2
        >>> result = initialisiere_zentroiden(datenpunkte, anzahl_zentroiden)
        >>> len(result)
        2
        >>> all(zentroid in datenpunkte for zentroid in result)
        True
    """
    zentroiden = random.sample(datenpunkte, anzahl_zentroiden)
    return zentroiden

run_doctests_mit_lesbarer_ausgabe(initialisiere_zentroiden)

---

```{admonition} Your turn
:class: tip
**Ab hier beginnt dein Teil der Arbeit, viel Spa√ü und Erfolg üí™**
```

(loesung1)=
## A1: `berechne_euklidische_distanz()`

Zum Warmwerden: du brauchst eine Methode, welche dir die Distanz zwischen zwei Datenpunkten berechnet. Wir werden hierf√ºr als {term}`Distanzma√üe <Distanzma√üe>` die {term}`Euklidische Distanz <Euklidische Distanz>` verwenden. Die Methode erh√§lt zwei Datenpunkte und gibt die Distanz auf zwei Nachkommastellen gerundet zur√ºck. Zum runden ben√∂tigst du die Methode [round()](https://www.w3schools.com/python/ref_func_round.asp).

In [None]:
def berechne_euklidische_distanz(datenpunkt1: Datenpunkt, datenpunkt2: Datenpunkt) -> float:
    """
    Berechnet die euklidische Distanz zu einem anderen Datenpunkt auf zwei Dezimalstellen gerundet.
    Args:
        datenpunkt1: Erster Datenpunkt.
        datenpunkt2: Zweiter Datenpunkt.
    Returns:
        float: Euklidische Distanz zwischen den beiden Datenpunkten auf zwei Dezimalstellen gerundet.
    Examples:
        >>> datenpunkt1 = Datenpunkt(1.0, 2.0)
        >>> datenpunkt2 = Datenpunkt(3.0, 4.0)
        >>> berechne_euklidische_distanz(datenpunkt1, datenpunkt2)
        2.83
        >>> berechne_euklidische_distanz(datenpunkt1, datenpunkt1)
        0.0
    """
    # Du ben√∂tigst den Satz des Pythagoras: c = Wurzel von (a^2 + b^2)
    # Beispiele f√ºr Potenzen, Wurzeln und Runden:
    potenz_von_3 = 3 ** 2
    wurzel_aus_9 = 9 ** 0.5
    pi_mit_5_nachkommastellen = round(3.14159, 5)
    ...  # Hier L√∂sung erg√§nzen
    diff_x = datenpunkt1.x - datenpunkt2.x
    diff_y = datenpunkt1.y - datenpunkt2.y
    distanz = (diff_x ** 2 + diff_y ** 2) ** 0.5
    return round(distanz, 2)

run_doctests_mit_lesbarer_ausgabe(berechne_euklidische_distanz)

(loesung2)=
## A2: `finde_naechsten_zentroiden()`

Nun wollen wir f√ºr einen `Datenpunkt` den n√§chstgelegenen Zentroiden ermitteln. Wir bekommen daf√ºr die Liste von Zentroiden √ºbergeben und m√ºssen hieraus nun den Zentroiden ermitteln, zu dem die Distanz des `Datenpunkts` am geringsten ist. √úberlege dir vorher, wie du vorgehen m√∂chtest. Zur√ºckgegeben wird der Index des ermittelten Zentroiden. Wenn also der 3. Zentroid der n√§chstgelegene ist, dann muss der Index 2 zur√ºckgegeben wird (da Index bei 0 beginnt).

```{admonition} Wichtiger Tipp
Du ben√∂tigst die Methode `berechne_euklidische_distanz()` aus der vorigen Aufgabe!
```

In [None]:
def finde_naechsten_zentroiden(zentroiden: list[Datenpunkt], datenpunkt: Datenpunkt) -> int:
    """
    Finde den n√§chsten Zentroiden f√ºr einen gegebenen Datenpunkt. Wenn es mehrere Zentroiden mit
    der gleichen minimalen Distanz gibt, wird der erste gefundene Zentroid zur√ºckgegeben. Die Zahl,
    die zur√ºckgegeben wird, ist der Index des Zentroiden in der Liste der Zentroiden.
    Args:
        zentroiden (list[Datenpunkt]): Liste der Zentroiden, zwischen denen der n√§chste gesucht wird.
        datenpunkt (Datenpunkt): Der Datenpunkt, f√ºr den der n√§chste Zentroid gesucht wird.
    Returns:
        int: Index des n√§chsten Zentroiden. 
    Examples:
        >>> zentroiden = [Datenpunkt(1, 2), Datenpunkt(4, 6), Datenpunkt(3, 5)]
        >>> datenpunkt = Datenpunkt(1, 1)
        >>> finde_naechsten_zentroiden(zentroiden, datenpunkt)
        0
        >>> datenpunkt = Datenpunkt(4, 6)
        >>> finde_naechsten_zentroiden(zentroiden, datenpunkt)
        1
    """
    ...  # Hier L√∂sung erg√§nzen
    geringste_distanz = float('inf') # Erstmal die maximale Distanz w√§hlen
    index_naechster_zentroid = -1
    index = 0
    for zentroid in zentroiden:
        distanz = berechne_euklidische_distanz(datenpunkt, zentroid)
        if distanz < geringste_distanz:
            geringste_distanz = distanz
            index_naechster_zentroid = index
        index += 1
    return index_naechster_zentroid

run_doctests_mit_lesbarer_ausgabe(finde_naechsten_zentroiden)

(loesung3)=
## A3: `datenpunkte_zuweisen()`

Nachdem wir den n√§chsten Zentroiden zu einem Datenpunkt berechnen k√∂nnen, sind wir nun in der Lage, alle Datenpunkte zu clustern. Mit der Methode `datenpunkte_zuweisen()` k√∂nnen wir nun f√ºr jeden Datenpunkt den n√§chsten Zentroiden ermitteln und daraus die Cluster bilden.

In der Methode unten ist bereits das Erzeugen der leeren Cluster erfolgt, darum musst du dich nicht k√ºmmern. Was du noch erg√§nzen musst, ist das Ermitteln des n√§chsten Zentroiden zu jedem Datenpunkt. Mit dem erhaltenen Index kannst du dann in der Liste von Clustern jeden den Datenpunkt dem zugeh√∂rigen Cluster anh√§ngen.

```{admonition} Wichtiger Tipp
Die Cluster sind in einer Liste enthalten. Die Cluster selber sind auch Listen. Hier unten siehst du ein Beispiel von einer Liste mit 3 Clustern.

`clusters = [[Datenpunkt(1.0, 1.0), Datenpunkt(3.0, 3.0)], [Datenpunkt(5.0, 5.0)], [Datenpunkt(7.0, 7.0)]]`

- Cluster an Index 0 hat die Elemente `Datenpunkt(1.0, 1.0)` und `Datenpunkt(3.0, 3.0)`
- Cluster an Index 1 hat das Element `Datenpunkt(5.0, 5.0)`
- Cluster an Index 2 hat das Element `Datenpunkt(7.0, 7.0)`
```

In [None]:
def datenpunkte_zuweisen(datenpunkte: list[Datenpunkt], zentroiden: list[Datenpunkt]) -> list[list[Datenpunkt]]:
    """
    Weist jeden Datenpunkt den entsprechenden Cluster zu.
    Args:
        datenpunkte: Liste der Datenpunkte, die den Clustern zugeordnet werden sollen.
        zentroiden: Liste der Zentroiden, die die Cluster repr√§sentieren.
    Returns:
        list[list[Datenpunkt]]: Liste von Clustern, wobei jeder Cluster als eine Liste von Datenpunkten dargestellt wird.
    Examples:
        >>> datenpunkte = [Datenpunkt(1.0, 1.0), Datenpunkt(3.0, 3.0), Datenpunkt(5.0, 5.0), Datenpunkt(7.0, 7.0)]
        >>> zentroiden = [Datenpunkt(2.0, 2.0), Datenpunkt(4.0, 4.0), Datenpunkt(6.0, 6.0)]
        >>> datenpunkte_zuweisen(datenpunkte, zentroiden)
        [[Datenpunkt(1.0, 1.0), Datenpunkt(3.0, 3.0)], [Datenpunkt(5.0, 5.0)], [Datenpunkt(7.0, 7.0)]]

        >>> datenpunkte = [Datenpunkt(1.4, 1.2), Datenpunkt(1.6, 4.7), Datenpunkt(5.2, 8.3), Datenpunkt(5.1, 8.2), Datenpunkt(3.1, 9.2)]
        >>> zentroiden = [Datenpunkt(1.0, 3.0), Datenpunkt(4.0, 5.0)]
        >>> datenpunkte_zuweisen(datenpunkte, zentroiden)
        [[Datenpunkt(1.4, 1.2), Datenpunkt(1.6, 4.7)], [Datenpunkt(5.2, 8.3), Datenpunkt(5.1, 8.2), Datenpunkt(3.1, 9.2)]]
    """
    # Es wurde schon ein leere Liste f√ºr die Cluster angelegt f√ºr dich ;)
    clusters: list[list[Datenpunkt]] = []
    anzahl_cluster = len(zentroiden)
    for _ in range(anzahl_cluster):
        clusters.append([])

    # Du kannst nun jeden Datenpunkt dem richtigen Cluster zuweisen, indem du den Index des
    # n√§chsten Zentroiden findest und den Datenpunkt dem entsprechenden Cluster hinzuf√ºgst.
    # Tipp 1: Du ben√∂tigst die Methode finde_naechsten_zentroiden() aus der vorigen Aufgabe
    # Tipp 2: um einer Liste ein weiteres Item hinzuzu√ºgen, kannst du die Methode list.append() verwenden.
    ...  # Hier die weitere L√∂sung erg√§nzen
    for datenpunkt in datenpunkte:
        index_naechster_zentroid = finde_naechsten_zentroiden(zentroiden, datenpunkt)
        clusters[index_naechster_zentroid].append(datenpunkt)
    return clusters

run_doctests_mit_lesbarer_ausgabe(datenpunkte_zuweisen)

(loesung4)=
## A4: `berechne_zentroid_koordinaten()`

 Wir ben√∂tigen nun zum einen noch eine Funktion `berechne_zentroid_koordinaten()`, welche uns aus den Datenpunkten eines Clusters die neuen Koordinaten des Zentroiden berechnet. Diese Funktion wird dann von `aktualisiere_zentroiden()` in der n√§chsten Aufgabe verwendet, um die Zentroiden in jeder Iteration alle neu zu berechnen.

In [None]:
def berechne_zentroid_koordinaten(datenpunkte: list[Datenpunkt]) -> Datenpunkt:
    """
    Berechnet die Koordinaten des Zentroiden basierend auf den zugeh√∂rigen Datenpunkten.
    Dabei wird der Mittelwert der X- und Y-Koordinaten der Datenpunkte berechnet.
    Args:
        datenpunkte: Liste der Datenpunkte, f√ºr die der Zentroid berechnet werden soll.
    Returns:
        Datenpunkt: Zentroid mit den berechneten Koordinaten.
    Examples:
        >>> datenpunkte = [Datenpunkt(1.0, 1.0), Datenpunkt(3.0, 3.0), Datenpunkt(5.0, 5.0)]
        >>> berechne_zentroid_koordinaten(datenpunkte)
        Datenpunkt(3.0, 3.0)
        >>> datenpunkte = [Datenpunkt(1.4, 4.5), Datenpunkt(1.6, 4.7), Datenpunkt(5.2, 8.3)]
        >>> berechne_zentroid_koordinaten(datenpunkte)
        Datenpunkt(2.73, 5.83)
    """
    # Der Zentroid wird mit den Mittelwerten der X- und Y-Koordinaten der Datenpunkte berechnet.
    # Du ben√∂tigst also die Summe der X- und Y-Koordinaten und die Anzahl der Datenpunkte.
    # Als R√ºchgabe erzeugst du einen neuen Datenpunkt mit den berechneten Koordinaten.
    ...  # Hier L√∂sung erg√§nzen
    x_summe = 0
    y_summe = 0
    for datenpunkt in datenpunkte:
        x_summe += datenpunkt.x
        y_summe += datenpunkt.y
    x_mittelwert = x_summe / len(datenpunkte) # Hier den Mittelwert der X-Koordinaten berechnen
    y_mittelwert = y_summe / len(datenpunkte) # Hier den Mittelwert der Y-Koordinaten berechnen

    return Datenpunkt(x_mittelwert, y_mittelwert)

run_doctests_mit_lesbarer_ausgabe(berechne_zentroid_koordinaten)

(loesung5)=
## A5: `aktualisiere_zentroiden()`

Der letzte Schritt: mit Hilfe der vorigen Methode `berechne_zentroid_koordinaten()` kannst du nun f√ºr alle Cluster die Zentroiden neu berechnen lassen. `aktualisiere_zentroiden()` erh√§lt dabei eine Liste der Clusters. Ein Eintrag in der Liste ist dabei wiederum eine Liste von Datenpunkte. Unten siehst du ein Beispiel, wie man die einzelnen Cluster abarbeiten kann.

Ein Beispiel:

```python
cluster = [
    0: [Datenpunkt(1, 1), Datenpunkt(2, 2)],
    1: [Datenpunkt(4, 4), Datenpunkt(5, 5)],
    2: [Datenpunkt(8, 8)]
]

# Jeder Cluster ist eine Liste von Datenpunkten
for cluster_datenpunkte in cluster
    # Stelle Berechnungen an f√ºr die Datenpunkte eines Clusters
    ...
```

```{admonition} Wichtiger Tipp
Du ben√∂tigst die Methode `berechne_zentroid_koordinaten()` aus der vorigen Aufgabe!
```

In [None]:
def aktualisiere_zentroiden(cluster: list[list[Datenpunkt]]) -> list[Datenpunkt]:
    """
    Aktualisiert die Zentroiden basierend auf den zugewiesenen Datenpunkten.
    Dabei wird f√ºr jeden Cluster der Zentroid neu berechnet.
    Args:
        cluster: Liste mit den Clustern und den zugeh√∂rigen Datenpunkten.
    Returns:
        list[Datenpunkt]: Liste der neuen Zentroiden.
    Examples:
        >>> cluster = [[Datenpunkt(1.0, 1.0), Datenpunkt(3.0, 3.0)], [Datenpunkt(5.0, 5.0), Datenpunkt(7.0, 7.0)]]
        >>> aktualisiere_zentroiden(cluster)
        [Datenpunkt(2.0, 2.0), Datenpunkt(6.0, 6.0)]

        >>> cluster = [[Datenpunkt(1.4, 4.5), Datenpunkt(5.2, 8.3), Datenpunkt(3.1, 9.2)], [Datenpunkt(1.6, 4.7), Datenpunkt(5.1, 8.2), Datenpunkt(3.1, 9.2)]]
        >>> aktualisiere_zentroiden(cluster)
        [Datenpunkt(3.23, 7.33), Datenpunkt(3.27, 7.37)]
    """
    ...  # Hier L√∂sung erg√§nzen
    neue_zentroiden: list[Datenpunkt] = []
    # Jeder Cluster ist eine Liste von Datenpunkten
    for datenpunkte_in_cluster in cluster:
        neuer_zentroid: Datenpunkt = berechne_zentroid_koordinaten(datenpunkte_in_cluster)
        neue_zentroiden.append(neuer_zentroid)
    return neue_zentroiden

run_doctests_mit_lesbarer_ausgabe(aktualisiere_zentroiden)

(k-means-final)=
## Finale: `k_means()`

Wir haben nun alle n√∂tigen Untermethoden f√ºr den Algorithmus erzeugt und k√∂nnen ihn nun starten. Wir definieren noch eine Methode, um die einzelnen Schritte in Schaubildern (Plots) erzeugen zu k√∂nnen.

In [None]:
import matplotlib.pyplot as plt

def plot_cluster(clusters: list[list[Datenpunkt]], zentroiden: list[Datenpunkt], iteration: int) -> None:
    farben = ['green', 'blue', 'orange', 'purple', 'red', 'brown', 'pink', 'gray', 'cyan', 'magenta']
    
    plt.figure(figsize=(6, 6))
    cluster_index = 0
    for cluster_datenpunkte in clusters:
        x_coords = [datenpunkt.x for datenpunkt in cluster_datenpunkte]
        y_coords = [datenpunkt.y for datenpunkt in cluster_datenpunkte]
        plt.scatter(x_coords, y_coords, color=farben[cluster_index], label=f'Cluster {cluster_index + 1} ({zentroiden[cluster_index].x}, {zentroiden[cluster_index].y})')
        cluster_index += 1
        
    zentroid_x_coords = [zentroid.x for zentroid in zentroiden]
    zentroid_y_coords = [zentroid.y for zentroid in zentroiden]
    plt.scatter(zentroid_x_coords, zentroid_y_coords, color='black', marker='x', s=100)  # Zentroiden ohne Legende
    
    plt.title(f'k-means Clustering - Iteration {iteration}')
    plt.xlabel('X-Koordinate')
    plt.ylabel('Y-Koordinate')
    plt.legend()
    plt.show()

**Finale:**  Wir haben alle n√∂tigen Methoden und Untermethoden erzeugt, nun k√∂nnen wir die Methoden in unserer `k-means()`-Methode verwenden. In den docstrings findest du auch noch mal den Ablauf der Schritte. Wenn du die Zelle ausf√ºhrst, werden die Berechnungen angestellt und die Plots gedruckt. Am Ende werden dir noch die Cluster und die Zentroiden in Textform ausgegeben.

In [None]:
def k_means(datenpunkte: list[Datenpunkt], anzahl_cluster: int, max_iterationen: int, print_plots = False) -> tuple[list[list[Datenpunkt]], list[Datenpunkt]]:
    """
    Hauptfunktion f√ºr den k-means Algorithmus zur Clusterbildung. Der Algorithmus besteht aus folgenden Schritten:
    2. Initialisierung der Zentroiden
    3. Zuweisung der Datenpunkte und Bildung der Cluster
    4. Aktualisierung der Zentroiden
    5. √úberpr√ºfung, ob sich die Zentroiden ver√§ndert haben
    Args:
        datenpunkte: Liste der Datenpunkte, die geclustert werden sollen.
        anzahl_cluster: Anzahl der Cluster, die gebildet werden sollen.
        max_iterationen: Maximale Anzahl der Iterationen, die der Algorithmus durchf√ºhrt.
        print_plots: Gibt an, ob die Cluster in jedem Schritt visualisiert werden
    Returns:
        tuple[list[list[Datenpunkt]], list[Datenpunkt]]: Die Cluster und die finalen Zentroiden.
    Examples:
        >>> datenpunkte = [Datenpunkt(1.0, 1.0), Datenpunkt(1.0, 3.0), Datenpunkt(3.0, 3.0), Datenpunkt(4.0, 2.0), Datenpunkt(5.0, 5.0)]
        >>> clusters, zentroiden = k_means(datenpunkte, 2, 100)
        >>> len(clusters)
        2
        >>> len(zentroiden)
        2
        >>> sum(len(cluster) for cluster in clusters) == len(datenpunkte)
        True
    """
    # 1. Initialisierung der Zentroiden
    zentroiden = initialisiere_zentroiden(datenpunkte, anzahl_cluster)
    cluster = []

    for iteration in range(max_iterationen):
        # 2. Cluster berechnen
        cluster = datenpunkte_zuweisen(datenpunkte, zentroiden)
        
        # Plot der Cluster ausgeben, wenn gew√ºnscht
        if print_plots:
            plot_cluster(cluster, zentroiden, iteration + 1)
        
        # 3. Zentroiden aktualisieren
        neue_zentroiden = aktualisiere_zentroiden(cluster)
        
        # 4. Abbruch wenn die Zentroiden sich nicht ver√§ndert haben
        if neue_zentroiden == zentroiden:
            logger.info("Zentroiden haben sich nicht mehr ver√§ndert. Algorithmus stoppt.")
            break
        zentroiden = neue_zentroiden
    return cluster, zentroiden

# Unit Test f√ºr die Hauptfunktion
run_doctests_mit_lesbarer_ausgabe(k_means)

# Manueller Start des k-means Algorithmus
datenpunkte = generiere_datenpunkte(50, zahlenraum=10)
cluster, zentroiden = k_means(datenpunkte=datenpunkte, anzahl_cluster=4, max_iterationen=100, print_plots=True)

print(f"Cluster: {cluster}")
print(f"Zentroiden: {zentroiden}")


In [None]:
def berechne_abstand_quadrat(punkt1: Datenpunkt, punkt2: Datenpunkt) -> float:
    """
    Berechnet das Quadrat des euklidischen Abstands zwischen zwei Punkten.

    Args:
        punkt1: Der erste Datenpunkt.
        punkt2: Der zweite Datenpunkt.

    Returns:
        float: Das Quadrat des Abstands zwischen den Punkten.

    Examples:
        >>> p1 = Datenpunkt(1.0, 2.0)
        >>> p2 = Datenpunkt(4.0, 6.0)
        >>> berechne_abstand_quadrat(p1, p2)
        25.0
    """
    # Berechne den quadratischen Abstand zwischen zwei Punkten
    # Hinweis: du hast bereits den einfachen Abstand berechnet


def initialisiere_zentroiden_kmeans_pp(datenpunkte: list[Datenpunkt], anzahl_zentroiden: int) -> list[Datenpunkt]:
    """
    Initialisiert die Zentroiden mithilfe des k-means++-Algorithmus.
    
    Args:
        datenpunkte: Liste von Datenpunkten, aus denen die Zentroiden ausgew√§hlt werden.
        anzahl_zentroiden: Anzahl der Zentroiden, die initialisiert werden sollen.

    Returns:
        list[Datenpunkt]: Liste der initialisierten Zentroiden.

    Examples:
        >>> datenpunkte = [
        ...     Datenpunkt(1.4, 4.5), Datenpunkt(5.2, 8.3),
        ...     Datenpunkt(3.1, 9.2), Datenpunkt(3.1, 6.2),
        ...     Datenpunkt(8.1, 1.2), Datenpunkt(7.2, 3.4)
        ... ]
        >>> result = initialisiere_zentroiden_kmeans_pp(datenpunkte, 2)
        >>> len(result)
        2
        >>> all(zentroid in datenpunkte for zentroid in result)
        True
    """
    # 1. W√§hle ein zuf√§lliges erstes Zentrum
    zentroiden = []
    zentroiden.append(random.choice(datenpunkte))

    # 2. F√ºge die restlichen Zentroiden iterativ hinzu
    while len(zentroiden) < anzahl_zentroiden:
        abstaende = []
        # Berechne die minimalen quadratischen Abst√§nde jedes Punktes zu den Zentroiden
        for dp in datenpunkte:
            minimaler_abstand = float('inf')
            for zentroid in zentroiden:
                abstand = berechne_abstand_quadrat(dp, zentroid)
                if abstand < minimaler_abstand:
                    minimaler_abstand = abstand
            abstaende.append(minimaler_abstand)

        # Wahrscheinlichkeiten proportional zu den Abst√§nden berechnen
        gesamt_abstand = sum(abstaende)
        wahrscheinlichkeiten = []
        for abstand in abstaende:
            wahrscheinlichkeiten.append(abstand / gesamt_abstand)

        # W√§hle den n√§chsten Zentroiden basierend auf Wahrscheinlichkeiten
        neuer_zentroid = random.choices(datenpunkte, weights=wahrscheinlichkeiten, k=1)[0]
        zentroiden.append(neuer_zentroid)

    return zentroiden