Was ist das Problem des unbalancierten Datensatzes?

Unbalancierter Datensatz 2

Definition

Bei dem Problem des unbalancierten Datensatzes handelt es sich um ein Phänomen, das speziell in der Betrugserkennung für Probleme sorgt. Der Datensatz ist dabei in eine Minderheits- und eine Mehrheitsklasse unterteilt. Beispielsweise ist es in der Betrugserkennung üblich, dass die Menge an von Betrugstransaktionen deutlich unter der Anzahl von nicht Betrugstransaktionen liegt. Es ist keine Seltenheit, dass das Verhältnis bei 99,98 % normaler Transaktionen zu 0,02 % Betrugstransaktionen liegt. Wenn dies vorliegt, besteht die Möglichkeit von großen Verzerrungen und Fehlern in der Analyse.  Ein unbalancierter Datensatz zeigt also ein Ungleichgewicht in der Verteilung der Klassen in den Daten.
Ein Synonym für den Begriff des unbalancierten Datensatzes ist auch die Unausgewogenheit der Klassen.  

Wo tritt ein unbalancierter Datensatz auf?  

Das Problem des unbalancierten Datensatzes tritt überall da auf, wo es eine extreme Ungleichverteilung der Klassen gibt. Paradebeispiele dafür sind die oben genannte Betrugserkennung und vor allem der Einsatz von Machine Learning in der Medizin. Hat man bspw. einen repräsentativen Datensatz mit 1.000.000 Patientendaten, haben sicherlich die wenigsten von Ihnen eine bestimmte Krankheit. Somit ist die Unbalanciertheit der Daten wieder gegeben. 
Moderne Machine Learning Tools wie bspw. das Azure Machine Learning Studio weisen auf das Problem unbalancierter Datensätze hin.  

Wie kann das Problem des unbalancierten Datensatzes gelöst werden?   

Es gibt mehrere Möglichkeiten dieses Problem zu lösen. Es gibt zum einen die Sampling Methoden. Hierbei ist die Rede von der Über- und Unteranpassung. Auch eine Kombination der Sampling Methoden könnte das Problem lösen. Des Weiteren kann man das Problem mit einer Gewichtung der einzelnen Datenpunkte lösen. Weitere Abhilfe leisten das Erzeugen neuer erklärender Variablen aus bereits bestehenden oder eine geschichtete Zufallsstichprobe.

Um mehr Informationen zum Beheben des Problems zu haben, lesen Sie sich unseren Artikel in der Informatik aktuell durch oder in unserem Blogbeitrag.