Zweiter arelium-Autor in der „Informatik Aktuell“

vor 4 Jahren

Mit welchen Algorithmen identifiziert man am besten Betrüger?

Nach den Veröffentlichungen “Das kniffelige Teilsummenproblem mit T-SQL gelöst” und “Wie löst man mit SQL einen Zauberwürfel” von Torsten Ahlemeyer in der „Informatik Aktuell“, gesellt sich nun mit Emil Vinčazović ein weiterer Kollege als Fachautor hinzu. Er veröffentlicht seinen ersten Artikel über das Thema “Betrugserkennung per Python mit KI”. Auch auf den diesjährigen IT-Tagen wird er zu dem Gebiet der Informatik referieren. In dem Artikel erklärt der IT-Berater unter anderem, wie man die Daten bearbeiten muss, um bestmögliche Resultate in der Betrugserkennung zu erzielen.

Die Manipulation der Daten mit Python

Da es in Geschäftsprozessen sehr wenige Betrugsdaten gibt, müssen die Daten geschickt an die jeweilige Verwendung angepasst werden, um bestmögliche Ergebnisse zu erzielen. Das größte Hindernis an der Sache ist das Problem des unbalancierten Datensatzes. Dieses Problem führt zu fehlerhaften und verzerrten Ergebnissen. Die Lösung dieser Aufgabe liegt im Umstrukturieren der Daten. Möglich sind das Over- und das Undersampling, sowie die Kombination beider.

Beispiel für Undersampling

Beispiel für Kombination von Over- und Undersampling

Von allen sogenannten „Samplingtechniken“, gibt es viele verschiedene Methoden mit Vor- und Nachteilen. Hier wurden das SMOTE- (Synthetic Minority Oversampling Technique) und das NearMiss-Verfahren verwendet.

Analyse der Daten mit KI

Nachdem die Daten manipuliert und in Test- und Trainingsdaten unterteilt wurden, werden sie von verschiedenen Machine Learning Algorithmen analysiert, umso die bestmögliche Vorgehensweise für den Datensatz zu finden. Hier wurden der RandomForest, der XGBoost und die Support-Vector-Machine miteinander verglichen. Je nachdem für welchen Anwendungsfall man die Betrugserkennung anwenden will, eignet sich eine andere Metrik zur Auswertung am besten. Will man beispielsweise möglichst viele Datenpunkte richtig klassifizieren, eignet sich die Accuracy Metrik am besten.

Fazit

In der Betrugserkennung per Python mit KI spielen viele Faktoren eine Rolle, um die Ergebnisse zu verbessern. Vor allem die Datenmanipulation trägt einen großen Teil dazu bei, die Qualität der Ergebnisse anzuheben. Den ausführlichen Artikel von Emil Vinčazović inklusive einer detaillierteren Erklärung der Analyse sowie die Ergebnisse findet man unter folgendem Link.

Emil Vincazovic

41 Beiträge

Emil Vincazovic, Data Engineer & Data Scientist, ist studierter Volkswirt mit Masterabschluss der Universität Düsseldorf. Sein Aufgaben-Fokus bei der arelium GmbH umfasst die Bereiche der Ökonometrie und Künstlichen Intelligenz, die z. B. für Machbarkeitsstudien unter Anwendung der Microsoft Azure Plattform eingesetzt werden. Als Data Engineer arbeitet er in Projekten hauptsächlich mit den Technologien Azure Synapse und Azure Databricks.

Kontakt herstellen

Vorheriger Beitrag

Die arelium auf Segeltour

Nächster Beitrag

Unternehmenstag 2022 Sankt Augustin