Entropie: Unterschied zwischen den Versionen

Keine Bearbeitungszusammenfassung
Keine Bearbeitungszusammenfassung
 
(Eine dazwischenliegende Version desselben Benutzers wird nicht angezeigt)
Zeile 30: Zeile 30:


=== Wie wird Entropie berechnet? ===
=== Wie wird Entropie berechnet? ===
Die Entropie wird mit einer mathematischen Formel berechnet. Keine Sorge, du musst sie jetzt nicht auswendig lernen, aber es ist gut zu wissen, dass es eine genaue Methode gibt, um die "Unordnung" in Zahlen auszudrücken.
Die Entropie wird mit einer mathematischen Formel berechnet. Es gibt eine genaue Methode, um die "Unordnung" in Zahlen auszudrücken.


Für einen Datensatz mit zwei Klassen (z.B. Ja/Nein, Katze/Hund) berechnet sich die Entropie (oft mit H abgekürzt) wie folgt:
H=−(p1​⋅log2​(p1​)+p2​⋅log2​(p2​))
Dabei ist:


* p1 der Anteil der Datenpunkte, die zur 1. Klasse gehören (z.B. Anteil der "Ja"-Antworten).
P(x<sub>i</sub>) ist Formel zur Berechnung der Wahrscheinlichkeit eines Ereignisses. Wobei n<sub>i</sub> die Anzahl der Beispiele ist, in denen das Element  x<sub>i</sub> auftritt und N die Gesamtzahl der Elemente ist.
* p2​ der Anteil der Datenpunkte, die zur 2. Klasse gehören (z.B. Anteil der "Nein"-Antworten).
[[Datei:Formel Wahrscheinlichkeit Ereignisse.png|mini]]
* log2​ der Logarithmus zur Basis 2.


'''Wichtig:'''


* Wenn alle Datenpunkte zur gleichen Klasse gehören (p1​ = 1 oder p2​ = 1), dann ist die Entropie 0. Es herrscht perfekte Ordnung.
Die Entropie selber berechnet sich mit der Formel H(x). Wobei  P(x<sub>i</sub>) die Wahrscheinlichkeit des Ereignisses x<sub>i</sub>  ist .
* Wenn die Klassen gleichmäßig verteilt sind (p1​ = 0.5 und p2​ = 0.5), dann ist die Entropie maximal (für zwei Klassen ist das 1). Die Unordnung ist am größten.
 
* Hohe Entropie: Wenn die Entropie hoch ist (näher an 1 oder mehr), bedeutet dies, dass viele verschiedene Ergebnisse gleich wahrscheinlich sind. In diesem Fall herrscht große Unsicherheit, und es gibt eine hohe Unordnung im System.
* Niedrige Entropie: Wenn die Entropie niedrig ist (näher an 0), bedeutet dies, dass einige Ergebnisse viel wahrscheinlicher sind als andere. In diesem Fall herrscht geringe Unsicherheit, und es gibt eine höhere Ordnung im System.
 
[[Datei:Formel Entropie.png|mini]]
 
==== Ein Beispiel ====
Gegeben ist folgender Datensatz: Kategorie A A B A A B. Entropie lässt sich wie folgt bestimmen:
[[Datei:Beispiel Rechnung Entropie.png|mini]]
Die Shannon-Entropie ''H'' beträgt ungefähr: ''H''≈0.918
 
Dies bedeutet, dass die Unsicherheit oder der Informationsgehalt des Ergebnisses in diesem Experiment etwa 0.918 beträgt.


=== Entropie und maschinellen Lernen ===
=== Entropie und maschinellen Lernen ===