Entropie: Unterschied zwischen den Versionen

Keine Bearbeitungszusammenfassung
Keine Bearbeitungszusammenfassung
 
(3 dazwischenliegende Versionen desselben Benutzers werden nicht angezeigt)
Zeile 1: Zeile 1:
[[Datei:Gummibärchen Sortiert Entropie.webp|mini]]


== Entropie: Das Maß für Unordnung im Datensatz ==
== Entropie: Das Maß für Unordnung im Datensatz ==
Zeile 28: Zeile 30:


=== Wie wird Entropie berechnet? ===
=== Wie wird Entropie berechnet? ===
Die Entropie wird mit einer mathematischen Formel berechnet. Keine Sorge, du musst sie jetzt nicht auswendig lernen, aber es ist gut zu wissen, dass es eine genaue Methode gibt, um die "Unordnung" in Zahlen auszudrücken.
Die Entropie wird mit einer mathematischen Formel berechnet. Es gibt eine genaue Methode, um die "Unordnung" in Zahlen auszudrücken.
 
 
P(x<sub>i</sub>) ist Formel zur Berechnung der Wahrscheinlichkeit eines Ereignisses. Wobei n<sub>i</sub> die Anzahl der Beispiele ist, in denen das Element  x<sub>i</sub> auftritt und N die Gesamtzahl der Elemente ist.
[[Datei:Formel Wahrscheinlichkeit Ereignisse.png|mini]]
 
 
Die Entropie selber berechnet sich mit der Formel H(x). Wobei  P(x<sub>i</sub>) die Wahrscheinlichkeit des Ereignisses x<sub>i</sub>  ist .


Für einen Datensatz mit zwei Klassen (z.B. Ja/Nein, Katze/Hund) berechnet sich die Entropie (oft mit H abgekürzt) wie folgt:
* Hohe Entropie: Wenn die Entropie hoch ist (näher an 1 oder mehr), bedeutet dies, dass viele verschiedene Ergebnisse gleich wahrscheinlich sind. In diesem Fall herrscht große Unsicherheit, und es gibt eine hohe Unordnung im System.
H=−(p1​⋅log2​(p1​)+p2​⋅log2​(p2​))
* Niedrige Entropie: Wenn die Entropie niedrig ist (näher an 0), bedeutet dies, dass einige Ergebnisse viel wahrscheinlicher sind als andere. In diesem Fall herrscht geringe Unsicherheit, und es gibt eine höhere Ordnung im System.
Dabei ist:


* p1 der Anteil der Datenpunkte, die zur 1. Klasse gehören (z.B. Anteil der "Ja"-Antworten).
[[Datei:Formel Entropie.png|mini]]
* p2​ der Anteil der Datenpunkte, die zur 2. Klasse gehören (z.B. Anteil der "Nein"-Antworten).
* log2​ der Logarithmus zur Basis 2.


'''Wichtig:'''
==== Ein Beispiel ====
Gegeben ist folgender Datensatz: Kategorie A A B A A B. Entropie lässt sich wie folgt bestimmen:
[[Datei:Beispiel Rechnung Entropie.png|mini]]
Die Shannon-Entropie ''H'' beträgt ungefähr: ''H''≈0.918


* Wenn alle Datenpunkte zur gleichen Klasse gehören (p1​ = 1 oder p2​ = 1), dann ist die Entropie 0. Es herrscht perfekte Ordnung.
Dies bedeutet, dass die Unsicherheit oder der Informationsgehalt des Ergebnisses in diesem Experiment etwa 0.918 beträgt.
* Wenn die Klassen gleichmäßig verteilt sind (p1​ = 0.5 und p2​ = 0.5), dann ist die Entropie maximal (für zwei Klassen ist das 1). Die Unordnung ist am größten.


=== Entropie und maschinellen Lernen ===
=== Entropie und maschinellen Lernen ===
Zeile 55: Zeile 63:


Die letzte Frage würde die Entropie am stärksten reduzieren, da die resultierenden Gruppen perfekt "rein" wären (nur Pizzafans oder nur Nicht-Pizzafans).
Die letzte Frage würde die Entropie am stärksten reduzieren, da die resultierenden Gruppen perfekt "rein" wären (nur Pizzafans oder nur Nicht-Pizzafans).
[[Kategorie:Künstliche Intelligenz]]