Zweiter arelium-Autor in der „Informatik Aktuell“

Beitragsbild Autor Informatik aktuell

Mit welchen Algorithmen identifiziert man am besten Betrüger?

Nach den Veröffentlichungen “Das kniffelige Teilsummenproblem mit T-SQL gelöst” und “Wie löst man mit SQL einen Zauberwürfel” von Torsten Ahlemeyer in der „Informatik Aktuell“, gesellt sich nun mit Emil Vinčazović ein weiterer Kollege als Fachautor hinzu. Er veröffentlicht seinen ersten Artikel über das Thema “Betrugserkennung per Python mit KI”. Auch auf den diesjährigen IT-Tagen wird er zu dem Gebiet der Informatik referieren. In dem Artikel erklärt der IT-Berater unter anderem, wie man die Daten bearbeiten muss, um bestmögliche Resultate in der Betrugserkennung zu erzielen.

Die Manipulation der Daten mit Python

Da es in Geschäftsprozessen sehr wenige Betrugsdaten gibt, müssen die Daten geschickt an die jeweilige Verwendung angepasst werden, um bestmögliche Ergebnisse zu erzielen. Das größte Hindernis an der Sache ist das Problem des unbalancierten Datensatzes. Dieses Problem führt zu fehlerhaften und verzerrten Ergebnissen. Die Lösung dieser Aufgabe liegt im Umstrukturieren der Daten. Möglich sind das Over- und das Undersampling, sowie die Kombination beider.

Beispiel für Undersampling

Beispiel für Oversampling
Betrugserkennung per Python mit KI

Beispiel für Kombination von Over- und Undersampling

Von allen sogenannten „Samplingtechniken“, gibt es viele verschiedene Methoden mit Vor- und Nachteilen. Hier wurden das SMOTE- (Synthetic Minority Oversampling Technique) und das NearMiss-Verfahren verwendet.

Analyse der Daten mit KI

Nachdem die Daten manipuliert und in Test- und Trainingsdaten unterteilt wurden, werden sie von verschiedenen Machine Learning Algorithmen analysiert, umso die bestmögliche Vorgehensweise für den Datensatz zu finden. Hier wurden der RandomForest, der XGBoost und die Support-Vector-Machine miteinander verglichen. Je nachdem für welchen Anwendungsfall man die Betrugserkennung anwenden will, eignet sich eine andere Metrik zur Auswertung am besten. Will man beispielsweise möglichst viele Datenpunkte richtig klassifizieren, eignet sich die Accuracy Metrik am besten.

Fazit

In der Betrugserkennung per Python mit KI spielen viele Faktoren eine Rolle, um die Ergebnisse zu verbessern. Vor allem die Datenmanipulation trägt einen großen Teil dazu bei, die Qualität der Ergebnisse anzuheben. Den ausführlichen Artikel von Emil Vinčazović inklusive einer detaillierteren Erklärung der Analyse sowie die Ergebnisse findet man unter folgendem Link. 

Bei weiteren Fragen zu dem Thema und Interesse an einer praktischen Umsetzung kontaktieren Sie uns gerne.

Vorheriger Beitrag
Die arelium auf Segeltour
Nächster Beitrag
Unternehmenstag 2022 Sankt Augustin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Bitte füllen Sie dieses Feld aus.
Bitte füllen Sie dieses Feld aus.
Bitte gib eine gültige E-Mail-Adresse ein.
Sie müssen den Bedingungen zustimmen, um fortzufahren.

Weitere Beiträge