Anzeige
STRATEGIE12. November 2019

Geheimnisse geheim halten: Wie eine der weltgrößten Banken vertrauliche Dokumente per KI schützt

Vertrauliche Dokumente geheim halten - der Anwenderbericht von Olivier Gaunet, CTO Sinequa<q>Sinequa
Olivier Gaunet, CTO SinequaSinequa

Vertrauliche Daten und Dokumente identifizieren, um die Privatsphäre ihrer Kunden besser zu schützen – so lautet das ambitionierte Ziel einer der führenden europäischen Banken, die zur weltweiten Top 20 zählt und im Privat- und Firmenkundengeschäft, Investmentbanking, Vermögens- und Anlage-Management in 67 Ländern tätig ist. Doch Daten sind oft unstrukturiert, unmarkiert und verändern sich. Was tun? Der Anwenderbericht von 

von Olivier Gaunet, CTO Sinequa

Was die sensiblen Daten so schwierig zu finden macht: Die meisten von ihnen liegen unmarkiert in unstrukturierten Texten, über alle Anwendungen verteilt, in verschiedensten Formaten gespeichert und befinden sich zudem in stetigem Wandel. Sie unterliegen außerdem vielerlei Regularien, speziell öffentlich nicht zugängliche Informationen (Non-Public Informationen = NPI, z.B. Beteiligungen) und identifizierbare personenbezogene Informationen (Personally Identifiable Informationen = PII, etwa Kundenkontonummern, Sozialdaten…).

Vertrauliche Daten liegen nicht offensichtlich herum, sondern müssen aus ihrem Umfeld extrahiert werden.”

Wie findet man sensible Daten?

Das Compliance-Team der Bank definierte zunächst mehrere Vertraulichkeitskategorien, die für alle Inhalte in der gesamten Bank gelten. Jeder, der mit der Erstellung oder Änderung von Dokumenten zu tun hat, sollte diese gemäß der Vertraulichkeitskategorie bewerten: Welche sensiblen Informationen befinden sich in meinem Dokument? Problem: Nur wenige kannten und verstanden die Anleitungen zur Kategorisierung überhaupt vollständig.

Compliance-Vorschriften nicht systematisch und widersprüchlich

Die kognitive Herausforderung, jede Information manuell auf möglichen Gehalt sensibler Informationen zu prüfen, war zudem erheblich und hielt die Beschäftigten von ihren eigentlichen Aufgaben ab. Vor allem aber war die Einhaltung der Compliance-Vorschriften nicht systematisch und widersprüchlich. Sicherheitslücken bleiben offen, wenn NPI und PII unentdeckt bleiben, Verstöße gegen die EU-DSGVO sind schnell geschehen.

Autor Olivier Gaunet, CTO Sinequa
Vertrauliche Dokumente geheim halten - der Anwenderbericht von Olivier Gaunet, CTO SinequaOlivier Gaunet ist seit 2009 Chief Technical Officer des französischen Softwareanbieters Sinequa und verantwortlich für die funktio­nale Weiter­entwicklung der Sinequa-Platt­form für kognitive Su­che und Analyse. Der In­formatik-In­ge­nieur hat ei­nen Mas­ter für Artifici­al Intelligence der Universität Paris und arbeitet seit 1998 im Un­ternehmen.
Für eine systematische Extraktion sensibler Informationen sorgt bei der Bank deshalb seit einiger Zeit eine KI-basierte Suchplattform. Die Software (hier von Sinequa) wurde im ersten Schritt im Privatkundengeschäft eingesetzt. Dort analysiert sie Dokumente im Volltext, unabhängig von Datenquelle, Format und Sprache. Zu den indexierten und analysierten Inhalten gehören strukturierte Informationen, etwa aus dem CRM-System, aus dem Portfolio oder Performance Measurement. Hinzu kommen unstrukturierte E-Mails, Office-Dateien, gescannte Dokumente oder PDFs. Die Software verfügt über Fähigkeiten der natürlichen Sprachverarbeitung (Natural Language Processing = NLP) und kann dadurch Informationen aus mehr als 20 Sprachen (u.a. Englisch, Französisch und Deutsch) untersuchen.

Techniken, die dafür zum Einsatz kommen:

1. Part-of-Speech-Tagging und Lemmatisierung zur Darstellung der geschriebenen Sprache als eine Reihe von linguistischen Tokens für die maschinelle Verarbeitung.
2. Concept Extraction zum Erkennen der wichtigsten Konzepte des Dokuments, wie z.B. Asset-Klassen und Kundenerfordernisse (Renditeziele, Risikotoleranz) und Überprüfung auf potenzielle NPI und PII mittels NLP und Deep Learning.
3. Text-Mining-Agents zur Analyse der Dokumente und Anwendung von Regeln, die komplexe Muster im Text identifizieren wie gemeinsames Auftreten von Begriffen in einem Satz oder einem Text oder Wortfolgen.

Durch NLP ist es der Bank also möglich, Dokumente zu kennzeichnen und vertrauliche Informationen zu identifizieren. Die volle Bedeutung eines Dokuments erschließt sich allerdings erst aus seinem erweiterten Kontext. So versieht die Software beispielsweise eine Investition in eine börsennotierte Aktie mit einer Markierung, unabhängig von der Zielsetzung oder Identität des Kunden. Die Vertraulichkeitskategorie eines Dokuments variiert abhängig davon, ob es im Managed Account des Portfolios eines Privatkunden gehalten wird. Hier kommen KI und maschinelles Lernen ins Spiel, die genau diesen Unterschied erkennen.

Um die Vertraulichkeit von Dokumenten genauer vorherzusagen, erstellte das Team des Softwareentwicklers mit den Risk & Compliance-Experten der Bank im Vorhinein Trainingssets (mit von Experten korrekt markierten Daten), um die Software anzulernen.

Die maschinellen Lernmodelle wurden dann auf Millionen von Dokumenten in mehreren, globalen Geschäftseinheiten angewendet. So lässt sich die Vorhersage von Vertraulichkeitskategorien automatisieren und im weiteren Verlauf immer präziser machen.”

Die Resultate

Die Investition in KI-basierte Suche und Analyse hat sich für die Bank in dreierlei Hinsicht ausgezahlt: zum einen durch höhere Vertraulichkeit und verbesserten Kundendatenschutz. Ein intelligenter, automatisierter Prozess minimiert das Risiko von Datenlecks und regulatorischen Verletzungen der Kundendaten. Damit verbessert sich zugleich die Wettbewerbsfähigkeit in einem stark margengetriebenen Geschäftsumfeld.

Außerdem hat sich die Produktivität der Beschäftigten erhöht. Die bisherigen manuellen Vertraulichkeitsprüfungen hielten die Beschäftigten davon ab, sich auf die Pflege der Kundenbeziehungen zu konzentrieren. Internen Berechnungen zufolge bezifferten sich die Kosten für die Arbeitszeit der Mitarbeiterinnen und Mitarbeiter im Privatkundengeschäft ohne Softwareunterstützung auf zuvor jährlich rund 44 Millionen US-Dollar pro Jahr (Basis: weltweit 2.800 Beschäftigte, die täglich jeweils 45 Prozent ihrer Arbeitszeit für manuelle Tätigkeiten verwenden).

Das erste Projekt im Privatkundenbereich zur Identifizierung sensibler Daten schuf schließlich die Grundlage für ähnlich gelagerte Vorhaben in anderen Abteilungen wie Vermögensverwaltung und Investmentbanking. Sinequa unterstützt heute eine Vielzahl von Anwendungsfällen und wird so zur Plattform für KI-basierte Suche und Analyse in der gesamten Bank.Olivier Gaunet, CTO Sinequa

Schreiben Sie einen Kommentar

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert