Anomalie-Erkennung im Finanzwesen: Mit KI zu agileren Systemen

Experte für Anomalien: Dr. Sebastian Werner — Dr. Sebastian Werner, DataikuDataiku

Betrugserkennung oder die Analyse der Aktienmärkte – die Anomalie-Erkennung ist im Finanzsektor vielseitig einsetzbar. Traditionelle regelbasierte Systeme bleiben heute allerdings mehr und mehr hinter ihren Möglichkeiten zurück und werden den stetig wachsenden Anforderungen der dynamischen Branche nicht mehr gerecht. Die Lösung liegt in der Anomalie-Erkennung mittels Künstlicher Intelligenz. Damit diese Mehrwerte schafft, dürfen Anwender keine Mühe bei der Datenaufbereitung oder Iteration scheuen.

von Dr. Sebastian Werner, Dataiku

Bei der Anomalie-Erkennung geht es darum, interessante Muster, also z.B. Ausreißer, Ausnahmen oder Besonderheiten zu finden, die vom erwarteten Verhalten innerhalb eines Datensatzes oder mehrerer Datensätze abweichen. Sie ermöglicht es einerseits, bösartige Akteure, betrügerische Transaktionen oder Eindringlinge im Netzwerk zu identifizieren, kann aber auch eingesetzt werden, um geringfügige Änderungen im Kunden- oder Benutzerverhalten zu erkennen oder vorherzusagen.

Den Veränderungen im Bankwesen gerecht werden: Agilität im Fokus

Vor allem zur Betrugserkennung werden häufig traditionelle regelbasierte Systeme eingesetzt. Diese arbeiten reaktiv und erzeugen Warnungen einzig auf Grundlage früherer Regeln. Dadurch produzieren sie bisweilen hohe Falsch-Positiv-Raten und führen damit zu einer Vielzahl an Warnmeldungen, die durch menschliches Eingreifen beseitigt werden müssen.

Systeme, die auf Künstlicher Intelligenz basieren, arbeiten bei entsprechendem Design hingegen proaktiv.“

Sie können dazu beitragen, regulatorische Warnsysteme zu ergänzen und die Arbeitsabläufe von Analysten zu verbessern, indem sie das Rauschen reduzieren, ohne Warnungen zu verwerfen.

Um den Anforderungen der Finanzdienstleistungsbranche gerecht zu werden, müssen KI-Systeme zur Anomalie-Erkennung vor allem in der Lage sein, ständig zu lernen – das heißt schnell und adaptiv auf veränderte Situationen zu reagieren. Globalisierung verändert das Bankwesen und damit auch die verwendeten Datensätze – das entsprechende System muss sich also mit seinen Nutzern weiterentwickeln. Anomalien sind von Natur aus unerwartet, daher ist es wichtig, dass die verwendeten Methoden an die zugrundeliegenden Daten und die natürliche Drift angepasst werden können. Das erfordert auch eine kontinuierliche Überwachung der entsprechenden KI-Systeme, um sowohl Daten, als auch Modell-Drift im Blick zu behalten.

Anomalie-Erkennung mittels KI: Die richtige Strategie für ein individuelles Ziel

Bevor Unternehmen mit der Implementierung einer Anwendung zur Anomalie-Erkennung starten, ist zunächst ein Mindestmaß an strategischen Überlegungen zu tätigen. Dazu muss klar definiert sein, welche Fragestellung der entsprechende Geschäftszweig lösen will und was die Zielgrößen sind.

Erst wenn die Fragestellung klar definiert ist, ergibt sich aus der Art der verwendeten Daten, dem zu lösenden Problem und den Zielen des Projekts eine Vorauswahl der passenden KI Methoden.“

Hier ist bereits eine genaue Definition gefordert, was als Anomalie gilt und welche Prozesse durch die Anomalie-Erkennung ausgelöst werden sollen.

Prinzipiell kann zwischen drei Arten von Anomalien unterschieden werden:

Punktuelle Anomalien: Bei Punktuellen Anomalien handelt es sich um einzelne, anomale Instanzen innerhalb eines größeren Datensatzes. Eine Transaktion im Wert von einer Milliarde Euro wäre zum Beispiel eine Punktanomalie, da dies mehr Geld ist, als selbst die größten Konzerne in einem Jahr verdienen. Systeme zur Erkennung von Anomalien beginnen oft mit der Identifizierung von Punktanomalien, die zur Erkennung von subtileren kontextuellen oder kollektiven Anomalien verwendet werden können.

Kontextuelle Anomalien: Kontextuelle oder bedingte Anomalien sind Punkte, die nur in einem bestimmten Kontext als unnormal angesehen werden. Eine Transaktion von 10.000 Euro liegt durchaus im Bereich möglicher Transaktionsbeträge. Liegt der Betrag aber außerhalb eines Kreditlimits, ist er eindeutig anormal. Oder auch: Wenn eine typische Transaktion im Bereich von 100 Euro liegt, ist die oben genannte 10.000 Euro Transaktion ebenfalls auffällig.

Kollektive Anomalien: Eine kollektive Anomalie kann auftreten, wenn keine einzelne Anomalie in einem Datensatz auftritt, aber alle Datensätze, die verschiedene Komponenten messen, zusammengenommen ein Problem anzeigen. Das wäre beispielsweise der Fall, wenn Daten einer Kreditkarte anzeigen, dass ein Kauf in den USA getätigt wurde, während ein anderer Datensatz zeigt, dass zur gleichen Zeit Geld von einem Geldautomaten in Frankreich abgehoben wurde.

Wichtig zu wissen:

Im Gegensatz zu anderen Datenprojekten kann ein einzelner Ansatz bei der Erkennung von Anomalien nicht universell angewendet werden.“

Während sehr kleine Schwankungen in einem System zur Verfolgung von Aktienkursen beispielsweise bereits als Anomalien betrachtet werden können, können andere Systeme, wie z.B. solche zur Erfassung von Kreditkartenabrechnungen, einen viel größeren Bereich von Eingaben tolerieren.

Das Rauschen reduzieren

Autor Dr. Sebastian Werner, Dataiku

Dr. Sebastian Werner ist AI Evangelist bei der “Everyday AI” Plattform Dataiku (Webseite). Basierend auf seiner umfangreichen Erfahrung als CTO sowie im Bereich Modellierung und Data Science unterstützt er Kunden bei der Strategieentwicklung rund um Künstliche Intelligenz. Er ist Vorstand im Arbeitskreis Big Data und Advanced Analytics des Bitkom e.V. und Mitglied der German Data Science Society e.V.

Zunächst ist nicht bekannt, welche Merkmale auf eine Anomalie hindeuten könnten – daher ist es sinnvoll, so viele Daten wie möglich für Erkennung von Anomalien zu verwenden. Mehrere Datentypen und -quellen ermöglichen es, über punktuelle Anomalien hinaus auch komplexere kontextbezogene oder kollektive Anomalien zu erkennen. Ein Mangel an aussagekräftigen Daten kann hierbei zum Problem werden – denn auch das beste Modell wird keine gute Leistung erbringen, wenn es nicht auf genügend Daten zugreifen kann. Zusammenfassend könnte man sagen: “Garbage in, Garbage out” – sind die Quelldaten schlecht, ist der Qualität des Modells auch eine Grenze gesetzt. In diesem Fall sollte zunächst in die Automatisierung der Datenerfassung und Datenanalyse aus verschiedenen konventionellen und unkonventionellen Quellen investiert werden.

Bei der Anomalie-Erkennung ist die Datenaufbereitung einer der wichtigsten Schritte. Der Grund: Daten enthalten oft Rauschen, das den tatsächlichen Anomalien ähnlich ist. Deshalb sollte mit solchen Daten begonnen werden, von denen man weiß, dass sie entweder anomal oder normal sind. Ein entscheidender Erfolgsfaktor, vor allem in Bezug auf die automatisierte Vorbereitung der Daten. Hier kann nicht nur auf heuristische Regeln, sondern auch auf KI zurückgegriffen werden. Es bietet sich der Einsatz überwachter Klassifizierungsmethoden an. Insbesondere bei der Betrugserkennung können beispielsweise Daten von Kundenbetreuern, die über Betrugsfälle berichten, herangezogen werden.

Anomalie-Erkennung mit Beaufsichtigung?

Es gibt zwei primäre Architekturen für den Aufbau von Systemen zur Erkennung von Anomalien: Die überwachte Erkennung (“supervised learning”) kann eingesetzt werden, sofern im Datensatz bekannt ist, ob jeder Datenpunkt normal oder nicht ist. Dazu ist dann natürlich eine vorherige Markierung (“labeling”) nötig. Hier kann z.B. ein binärer Klassifizierungsalgorithmus angewendet werden, um in der Folge neue Datenpunkte in “normal” oder “anormal” zu klassifizieren. Es ist dabei wichtig, im Blick zu behalten, ob die Klassifizierungsraten dem Erwartungswert entsprechen – also z.B. der Tatsache, dass es bei der Erkennung von Anomalien wahrscheinlich mehr normale als abnormale Fälle gibt.

Sofern im Datensatz nicht bekannt ist, ob Datenpunkte normal oder anormal sind, wird die unüberwachte Erkennung verwendet.“

Hier gibt es zwei Möglichkeiten, um Algorithmen zu trainieren:

Bei der Neuheitserkennung besteht der Trainingsdatensatz ausschließlich aus regulären Daten, so erlernt der Algorithmus das Konzept der „Normalität“. Zum Testzeitpunkt können die Daten auch Outliers enthalten. Dies wird auch als halb-überwachte Erkennung bezeichnet.

Hat man keine markierten Outlier, aber der Trainingsdatensatz ist durch Outliers verunreinigt, kann man diese auch automatisiert markieren. Dabei wird davon ausgegangen, dass der Anteil der Outliers klein ist und man Algorithmen zur Erkennung dieser nutzen kann. Durch Nutzung von aus der Statistik bekannten Konzepten zur Verteilung der Daten kann man die Trennschärfe verbessern, also z.B. durch Wissen über eine Normalverteilung und die Breite der Standardabweichung. Folglich wird erwartet, dass diese Algorithmen zum Zeitpunkt des Trainings robust genug sind, um die Outliers zu ignorieren und nur auf die Inliers zu passen. Erfahrungsgemäß ist eine solche Anpassung und ein entsprechendes Trainieren der KI-Systeme heutzutage schnell und komfortabel möglich.

Iterationen: Mit Durchhaltevermögen zum erfolgreichen System

Damit ein System zur Erkennung von Anomalien Mehrwert schaffen kann, muss das KI-System häufig Daten in Echtzeit auswerten. Vor allem die Erkennung von Betrug aber auch Anomalien generell ist in Banken in der Regel äußerst zeitkritisch.

Deshalb ist es wichtig, in die Produktion zu gehen, um Vorhersagen auf der Grundlage von Live-Daten zu treffen, anstatt rückwirkend auf Test- oder veralteten Daten.“

Das kann bei sensiblen persönlichen Finanzdaten, die idealerweise nur einer begrenzten Anzahl von vertrauenswürdigen Benutzern und Systemen zur Verfügung stehen, eine besondere Herausforderung darstellen.

Die Inbetriebnahme eines Modells ist im Grunde genommen erst der Anfang. Iteration und die Überwachung des Systems sind entscheidend um sicherzustellen, dass das Modell weiterhin lernt und adaptiv genug ist, um Anomalien auch zu erkennen, wenn sich Umgebungen und Verhaltensweisen ändern. Im Gegensatz zu anderen Arten von maschinellen Lernmodellen ist die Genauigkeit bei der Erkennung von Anomalien jedoch keine brauchbare Messgröße. Da die überwiegende Mehrheit der Daten nicht aus Anomalien besteht, könnte das System zwar eine sehr hohe Genauigkeit erreichen, würde aber dennoch nicht wirklich Anomalien erkennen. Bessere Bewertungsmethoden wären beispielsweise die Wiedererkennung – also das Verhältnis zwischen korrekt erkannten Anomalien und den gesamten Anomalien, Falsch-Positiv-Raten – also das Verhältnis zwischen falsch klassifizierten Anomalien und den gesamten Aufzeichnungen oder die Receiver Operator Characteristic Kurve, die zwischen Erkennungs- und Fehlalarmrate abwägt.

Besonders bei der Anomalie-Erkennung sollte solange iteriert werden, bis die Zahl an falsch-positiven oder falsch-negativen Ergebnissen reduziert ist und das System effektiv und dennoch langfristig flexibel ist. In einem Echtzeitsystem gibt es keinen Raum für eine zweite Überprüfung potenzieller Anomalien, wenn das System zu viel Rauschen produziert. Daher sollte bereits im Vorfeld ausreichend Zeit in die Entwicklung von Funktionen investiert werden, die sicherzustellen, dass es nicht zu viele falsch-negative oder falsch-positive Ergebnisse gibt. Vor allem aber sollte dies kontinuierlich überwacht werden:

Denn nicht selten stehen deutliche finanzielle Risiken hinter diesem System. Natürlich sollte die Iteration, Verfeinerung und Verbesserung auch dann fortgesetzt werden, wenn das Modell bereits in Produktion ist.“

Die richtigen Handlungen ableiten

Wie bei vielen KI-Systemen kann es leicht passieren, dass man sich von der geschäftlichen Seite abgekoppelt und ein System entwickelt, das auf der Grundlage der erkannten Anomalien nicht die richtigen nächsten Schritte oder Folgemaßnahmen ergreift. Deshalb ist es wichtig, die richtigen Handlungen aus den Erkenntnissen des Systems abzuleiten: Was ist der nächste Schritt nach der Erkennung einer Anomalie? Eine manuelle Überprüfung durch einen Analysten, ein Risikoteam oder ein IT-Team? Die direkte Sperrung von Konten oder einfach nur die Information von Marketingteams bei Änderungen im Kunden- oder Benutzerverhalten?

Vertrauen gewinnen und den ROI erhöhen

In den kommenden Jahren werden voraussichtlich immer mehr Anwendungsfälle von der Anomalie-Erkennung abhängen. Hier ist mit einer weiteren Rationalisierung der Prozesse zu rechnen, da Unternehmen skalieren und ihr Vertrauen in KI-gesteuerte Systeme erhöhen. Das bedeutet, dass es mehr Investitionen in die richtige Architektur geben wird, um die für die Erkennung von Anomalien wichtigen Daten abzurufen, sie schnell zu verarbeiten und die Modelle so anzuwenden, dass sie die größte Wirkung und den größten Geschäftswert erzielen.

Um das dafür notwendige Vertrauen zu erarbeiten, sind Transparenz und klare Visualisierungen entscheidend. Andererseits muss sich der Mehrwert des Systems früher oder später durch einen klaren ROI nachweisen lassen.“

Hier empfiehlt es sich, mit einem konkreten, inkrementellen Ziel zu beginnen, z.B. einer fünfprozentigen Steigerung der Erkennung von betrügerischem Verhalten.

Ein KI-basiertes System zur Anomalie-Erkennung wird sicherlich nicht über Nacht implementiert sein. Das liegt selten an der Reife der KI-Systeme, sondern eher an der Anbindung und Integration von existierenden Legacy-Systemen und der zur Verfügung stehenden Infrastruktur sowie den oftmals hochbürokratisierten Strukturen. Rein modellierungstechnisch haben KI-Systeme gerade in Bezug auf die Anomalie-Erkennung im Finanzbereich in zahlreichen Finanzinstituten von Weltrang gezeigt, dass es erfolgreich funktioniert und Millionenbeträge an Wert erzielt. Die Zeit ist reif für “Everday AI”.Dr. Sebastian Werner, Dataiku

Sie finden diesen Artikel im Internet auf der Website:
https://itfm.link/137646