Anonymisierung: Aussagekräftige, aber synthetische Testdaten per ML

Das Berliner Unternehmen Statice (Website) bietet eine Software, die personenbezogene Daten anonymisiert und somit datenschutzkonform nutzbar zu Testdaten macht. Erreicht werden soll dies durch ein Machine-Learning-Verfahren, in dessen Rahmen die anonymisierten Datensätze nicht an Aussagekraft verlieren. Für das Finanz- und Versicherungswesen ergeben sich so völlig neue Möglichkeiten.

Warum Testdaten?

Die Finanzbranche steht vor zwei Herausforderungen, die nur schwer miteinander in Einklang zu bringen sind: Einerseits gilt es, im Umgang mit personenbezogenen Daten allen gültigen Datenschutz- und Compliance-Vorschriften zu entsprechen. Auf der anderen Seite sehen sich Finanzdienstleister im Zugzwang, datenbasierte Innovationen und Services zu realisieren, um langfristig wettbewerbsfähig zu bleiben.

Speziell Banken benötigen zudem umfangreiche, möglichst realitätsnahe Testdaten, um neue IT-Systeme zu testen. Um eine geeignete Testdatenbasis zu schaffen, reicht es jedoch nicht aus, einzelne Felder wie IBAN oder Namen aus Original-Datensätzen zu löschen. Die verbleibenden Informationen könnten dennoch einen Rückschluss auf die Identität der Person zulassen. Werden allerdings zu viele Daten gelöscht oder verändert, sind die Informationen statistisch kaum noch nutzbar.

Bei der Statice-Lösung anonymisiert eine KI die Datensätze auf eine Weise, die keine Re-Identifikation zulässt. Der Datennutzen und die Datengranularität bleiben bei den neuen Testdaten erhalten. Aus technischer Sicht verbirgt sich hinter Statice ein Machine-Learning-Algorithmus, der auf einen bestimmten Datensatz trainiert wird. Er erlernt auf diese Weise die Strukturen und statistischen Informationen der Echtdaten.

Aus diesem Wissen wird per ML dann ein vollständig neuer, synthetischer Datensatz generiert. Er enthält keinerlei originale Einträge mehr, sondern besteht komplett aus künstlichen Datenpunkten. Diese spiegeln die Originaldaten mit ihrem realen Informationsgehalt wider.“

Nach dem Verfahren lassen sich die Testdatensätze ohne die Gefahr von Datenschutzverstößen nutzen. Sogar eine Weitergabe an externe Partner ist bedenkenlos möglich.

Neben System-Tests können die synthetischen Datensätze in der Finanzbranche beispielsweise als reale Trainingsdaten für Machine-Learning-Anwendungen Verwendung finden, wodurch sich die Produktentwicklung intelligenter gestalten lässt.

Testdaten im Vergleich zu den echten Daten - statistisch kein Unterschied — Daten-Histogramm: Der statistische Vergleich zwischen echten und anonymen synthetischen Daten zeigt, dass die Aussagekraft erhalten bleibt.Statice

Ein weiterer Use Case sind flexible Analysen des Kundenverhaltens unter Vermeidung komplexer Compliance-Prozesse. Nicht zuletzt ermöglicht die Anonymisierung eine skalierbare Datenverarbeitung in der Cloud ohne Datenschutzrisiken.

Eine echte Daten-Anonymisierung unter Wahrung der Privatsphäre gestaltet sich in der Finanzbranche schwierig. Sie erfordert Zeit, Ressourcen und umfangreiche Expertise. Herkömmliche Anonymisierungstechnologien haben zudem zwei Probleme. Entweder schützen sie die Daten nicht ausreichend, oder sie verfremden die Daten so weit, dass sie für die meisten Anwendungsfälle nicht mehr verwendbar sind. Deshalb haben wir Statice entwickelt. Unter Einsatz neuester Machine-Learning- und Datenschutztechnologien ermöglichen wir es, wirklich verwertbare Datensätze zu generieren, ohne Risiken beim Datenschutz einzugehen.“

Sebastian Weyer, CEO und Co-Gründer von Staticeaj

Sie finden diesen Artikel im Internet auf der Website:
https://itfm.link/95023