KI im Audit – Explain or Die: Warum KI ohne Nachvollziehbarkeit keine Chance auf BaFin-Konformität hat

Cortea
von Philipp Hövelmann, Gründer von Cortea
Ein auf Erklärbarkeit (XAI) ausgerichteter Ansatz ist die zentrale Voraussetzung für regulatorische Technologien. Sie stellt sicher, dass die Handlungen der KI nachvollziehbar werden und transparent bleibt, auf welchen Informationen sie basieren.Erst die lückenlose Dokumentation der Entscheidungswege einer KI macht ihre Bewertungen und Handlungen prüfbar.”
Diese Transparenz ist essenziell, um regulatorische Konformität nicht nur zu erfüllen, sondern auch jederzeit nachweisen zu können.
XAI-Methoden: Wie ist Transparenz technisch herzustellen?
Moderne KI-Lösungen im RegTech-Bereich sind also auf XAI-Methoden angewiesen. Wie aber ist “Erklärbarkeit” technisch herzustellen? Für Large Language Models (LLMs) bieten sich vor allem folgende Ansätze an:
–Nachvollziehbare Begründungsketten (Chain-of-Thought & Reasoning): Das Modell wird angewiesen, seinen „Gedankengang“ in natürlicher Sprache Schritt für Schritt offenzulegen, bevor es eine finale Antwort gibt. Dieser Prozess macht die Herleitung der Lösung transparent und für Prüfer logisch nachvollziehbar.
–Referenzierung & Context Grounding: Anstatt frei zu antworten, greift das System explizit auf bereitgestellte Wissensdatenbanken (z. B. interne Richtlinien, Gesetzestexte). Jede Antwort wird unmittelbar mit den verwendeten Quellen belegt, sodass jede Aussage auf ein konkretes Dokument zurückführbar ist.
–Klassifizierung und Modellierung von Dokumentenbeziehungen: Die KI identifiziert Beziehungen zwischen Informationen über einfache Dokumentenklassifizierung hinaus. Sie erkennt, welche Verträge Richtlinien umsetzen, welche Diagramme Texte visualisieren und welche Dokumente von Gesetzesänderungen betroffen sind.
Diese drei Methoden sind keine rein technischen Konzepte, sondern die direkte Antwort auf die Kernfragen jedes Prüfers: Wie kam das System zu dieser Schlussfolgerung? Auf welcher exakten Grundlage basiert diese Aussage?
Von der Methode zum passenden Modell
XAI-Methoden wirken optimal nur mit der richtigen Modell-Architektur. Ein generisches LLM gleicht einem Generalisten, es spricht überzeugend über verschiedene Themen, ohne die fachliche Tiefe eines Wirtschaftsprüfers zu besitzen.
Eine spezialisierte „regulatorische KI” muss die komplexe Fachsprache und strengen Anforderungen deutscher und europäischer Gesetzestexte präzise verarbeiten können.”
Hierfür werden unter anderem folgende Verfahren eingesetzt:
–Retrieval-Augmented Generation (RAG): Verknüpft die KI mit einer Fakten-Datenbank, aus der sie vor jeder Antwort Quellen abrufen muss. Das verhindert freies Erfinden (Halluzinationen) und macht jede Aussage belegbar.
–Agentenbasierte Prozesse: Teilen komplexe Aufträge auf ein Team von spezialisierten KI-Agenten auf (z. B. Rechercheur, Analyst). Diese Arbeitsteilung nach menschlichem Vorbild steigert die Tiefe und Zuverlässigkeit der Ergebnisse.
–„LLM-as-a-Judge“: Setzt eine zweite KI als kritischen Prüfer ein, um die Antwort der ersten zu validieren. Diese automatisierte Selbstprüfung erhöht die logische Konsistenz und Verlässlichkeit der Resultate signifikant.
Für Zukunftssicherheit und Unabhängigkeit ist ein modell-agnostisches System entscheidend, das flexibel die besten und kosteneffizientesten LLMs verschiedener Anbieter integrieren kann, ohne in Abhängigkeit eines einzelnen Anbieters zu geraten.
Faktische Fundierung statt Schein-Genauigkeit
Erste Versuche mit normalen LLMs in der Wirtschaftsprüfung zeigen häufig ein ähnliches Bild: Beispielsweise wird bei der Prüfung einer Cloud-Lösung im Healthcare-Bereich einem normalen Sprachmodell die Frage gestellt, ob eine Richtlinie mit dem C5-Sicherheitsstandard vereinbar ist. Die Antworten wirken zunächst plausibel und qualitativ hochwertig – doch die Ernüchterung folgt in der Prüfung:
Hat das Modell tatsächlich alle Anforderungen des C5-Standards berücksichtigt? Die Antwort lautet oft: nein.
Heutige Modelle sind vor allem darauf optimiert, die Wahrscheinlichkeit der nächsten Wörter zu maximieren und überzeugend zu wirken. Sie „denken” jedoch nicht wie ein Prüfer.”
XAI für die Prüfung komplexer regulatorischer Standards umfasst typischerweise Ansätze wie die folgenden:
AAtomisierung von Anforderungen: Einzelne Anforderungen werden in atomare Schritte übersetzt, damit wirklich jeder Aspekt separat geprüft wird. Schnell entstehen so mehrere tausend Einzelelemente mit individuellen Prüfungsergebnissen. Dies schafft Nachweisbarkeit und Vertrauen.
BKontextbasierte Verifizierung: Um Halluzinationen zu vermeiden, wird in mehreren Schritten geprüft, ob die gegebene Antwort direkt aus den Quellen ableitbar ist.
CSimulation von Prüfungsabläufen: Spezialisierte KI-Agenten arbeiten wie ein abgestimmtes Team zusammen: Ein „Prüfungsassistent” extrahiert relevante Informationen aus hunderten Dokumenten. Ein „Erfahrener Prüfer” prüft die Daten auf Konsistenz, gleicht sie mit Standards ab und erstellt Entscheidungsvorlagen. Ein „Audit Reviewer” kontrolliert die Ergebnisse abschließend.
So können Prüfer ihre Expertise gezielt auf die finale Bewertung konzentrieren – gestützt auf eine präzise, transparente Faktenbasis, die in einem Bruchteil der bisherigen Zeit entsteht.
Ein Blick ins Backend: Die Architektur der Nachvollziehbarkeit

–Prozess-Isolation durch Containerisierung: Docker und Kubernetes kapseln KI-Dienste mit ihren Abhängigkeiten, wodurch Analysen jederzeit mit identischer Konfiguration reproduziert werden können, essenziell für die KI-Validierung.
–Strukturierte Logik mit XAI-Bibliotheken: Eine nachvollziehbare Struktur ermöglicht es, die “Gedankengänge” (Chains) und Datenabrufe (Retrieval) der KI explizit zu modellieren und zu protokollieren.
–Quellentreue: Oft bildet eine Vektordatenbank das Kernstück des “Grounding” und liefert sowohl die Antwort als auch den exakten Quellenbeleg aus dem Originaldokument.
–Kontrollierte Modell-Umgebung: Eigene oder dediziert gehostete Open-Source-LLMs (z. B. Llama 3, Mistral) garantieren stabiles Modellverhalten ohne externe Einflüsse und liefern dadurch reproduzierbare Ergebnisse.
–Transparenz per Code (IaC): Lösungen wie Terraform legen die gesamte Systemarchitektur als Code fest. Für Prüfer entsteht so eine beweisbare und versionierte Blaupause der Umgebung, in der KI-Entscheidungen getroffen wurden.
–Datenhoheit durch Private Cloud/On-Premise: Eine isolierte Umgebung sichert die lückenlose Protokollierung und Auditierung aller Verarbeitungsschritte ohne externe Einflüsse.
Wichtig ist eine Standardisierung der Komponenten – wer unkoordiniert Tools kombiniert, läuft Gefahr, Sicherheitslücken zu erzeugen.
Technischer und praktischer Mehrwert
Ein durchdachter RegTech-Stack ist mehr als technische Absicherung – er wird zum Katalysator einer neuen Prüfungslogik:
–Vom Suchen zum Bewerten: Die KI liefert die Faktenlage inklusive einer lückenlosen Beweiskette (“Grounding”). Der Prüfer konzentriert sich auf die kritische Bewertung, gestützt auf eine nachvollziehbare Entscheidungsgrundlage.
–Iterative Exzellenz statt linearer Abarbeitung: Statt Prüfungszyklen über Wochen ermöglichen XAI-gestützte Systeme tägliche Iterationen. Hypothesen, Scopes oder neue Dokumente können flexibel berücksichtigt werden – mit sofortigem Feedback über tausende Seiten hinweg.
In der Praxis führt dies zu einer fundamentalen Beschleunigung der Prüfzyklen.”
Prozesse, die manuell Wochen dauern, können auf wenige Tage verkürzt werden, während eine Analysetiefe erreicht wird, die manuell kaum realisierbar wäre.
Besonders spannend ist, wie stark sich die Arbeitsweise somit verändern wird:
Wo früher Rückmeldungen Wochen dauerten, können Prüfer heute mehrere Iterationen für über 100 Dokumente pro Tag durchführen.”
Die Möglichkeit, in kürzester Zeit nicht nur Analysen zu erstellen, sondern sie auch nachvollziehbar aufzubereiten, verändert die Interaktion mit Mandanten grundlegend.
Fazit: LLMs ohne Explainability Layer haben ausgesorgt
Die Diskussion über KI im Prüfungswesen dreht sich nicht mehr um das “Ob”, sondern um das “Wie”.
Eine KI, deren Ergebnisse nicht zweifelsfrei verifizierbar sind, stellt ein unkalkulierbares Risiko dar.”
Für eine erfolgreiche BaFin-Prüfung ist ein integrierter Explainability Layer daher keine Option mehr, sondern die technische Grundvoraussetzung für Vertrauen und Konformität.Philipp Hövelmann, Cortea
Sie finden diesen Artikel im Internet auf der Website:
https://itfm.link/230701

Schreiben Sie einen Kommentar