Jailbreaks – die lauernde Gefahr in LLMs

Schwerpunkt: Agentic, explainable & poisoned AI

Michael Veit, Security-Experte, Sophos Sophos

Jailbreaks in LLMs sind Methoden, mit denen Cyberkriminelle versuchen, die systemimmanenten Sicherheits- und Inhaltsbeschränkungen eines KI-Modells zu umgehen. Ziel ist es, das Modell dazu zu bringen, was es normalerweise aus Sicherheits-, ethischen oder rechtlichen Gründen verweigert. Wenn Cyberkriminelle hier ansetzen, sieht die KI in diesem Fall keinen Verstoß gegen ihre eigenen Regeln und gibt Informationen preis, die keinesfalls für Cyberkriminelle bestimmt sind – etwa Zugangsdaten, Kontobewegungen, Finanzinformationen und vieles mehr.

von Michael Veit, Security-Experte, Sophos

Auch der Finanzbereich sieht seit geraumer Zeit deutliche Vorteile in der Nutzung der KI. Chatbots im Kundenservice oder Risiko- und Investmentanalysen sind neben der Automation wichtige Bereiche, in denen die Finanzwirtschaft stark auf die Fähigkeiten der KI baut. Laut PWC Deutschland beispielsweise haben etwa 73 Prozent der Finanzdienstleister KI im Einsatz.

Neben der Nutzung der KI eingebettet in Software-Lösungen, die für die tägliche Arbeit von Dritten bezogen wird, setzen zunehmend mehr Finanzunternehmen auch auf Large-Language-Modelle (LLMs), um ihre eigenen KI-Routinen speziell auf die Aufgabe zugeschnitten zu entwickeln. Als Basis dienen oft LLMs wie beispielsweise die GPT-Serie von OpenAI, Claude von Anthropic, LLaMA von Meta oder verschiedene Modelle von DeepSeek. Diese Modelle werden angepasst und individuell mit Daten trainiert, um der KI die nötigen Fähigkeiten zu verleihen, die von der Stange nicht zu bekommen sind.

Doch was ein Vorteil für das Business ausmacht, kann gleichzeitig zur Gefahr werden. Das Problem liegt in der Verbreitung der bekannten LLM-Modelle. Cyberkriminellen bleibt diese zunehmende Homogenität nicht unbemerkt und sie können darin eine neue Chance sehen, um ihre Aktivitäten auf diesen Bereich auszuweiten. Die Gefahr liegt in kompromittierten LLMs.

Kompromittierte LLMs erlauben Cyberkriminellen eine KI dazu zu veranlassen, etwas zu tun, was die KI normalerweise nicht tun würde.“

Mit sogenannten Jailbreaks lösen sie Aktionen in der kompromittierten KI aus, welche Finanzunternehmen in ernsthafte Schwierigkeiten bringen können.

Jailbreaks – die lauernde Gefahr in LLMs

Jailbreaks in LLMs sind Methoden, mit denen Cyberkriminelle versuchen, die systemimmanenten Sicherheits- und Inhaltsbeschränkungen eines KI-Modells zu umgehen. Ziel ist es, das Modell dazu zu bringen, was es normalerweise aus Sicherheits-, ethischen oder rechtlichen Gründen verweigert. Dazu gehören beispielsweise das Erzeugen von gefährlichen Inhalten oder das Verstärken von Falschinformationen. Außerdem sollen LLMs keine verbotenen Auskünfte geben, wozu beispielsweise vertrauliche oder private Informationen gehören.

Genau an dieser Stelle können Cyberkriminelle ansetzen, wenn sie ein LLM bereits mit einem Jailbreak versehen und diesen mit einem Prompt zu einem späteren Zeitpunkt auslösen. In einem solchen Fall sieht die KI keinen Verstoß gegen ihre eigenen Regeln und gibt Informationen preis, die keinesfalls für Cyberkriminelle bestimmt sind – etwa Zugangsdaten, Kontobewegungen, Finanzinformationen und vieles mehr.

Salting macht Jailbreaks unwirksam

Schutz vor Jailbreaks in LLMs bietet so genanntes LLM-Salting – kleine, benutzerspezifische Variationen, um die Wiederverwendung vorab berechneter Eingaben – den Jailbreak-Prompts – zu verhindern.“

Aus technischer Sicht funktioniert das LLM-Salting wie folgt: Eine LLM verfügt über einen sogenannten Unterraum für Modellaktivierungen, der für das Verweigerungsverhalten (Refusal Behavior) verantwortlich ist. Auf dieser Erkenntnis entwickelten die Spezialisten von Sophos ein schlankes Fine-Tuning-Verfahren, das diesen Unterraum rotiert. Diese einfache Änderung stellt sicher, dass Jailbreaks, die von Cyberkriminellen gegen ein „unsalted“ Modell entworfen wurden, bei einem „salted“ Modell nicht mehr funktionieren.

LLM-Schutz mit Salting bei gleichbleibender Leistung

In Tests verwendeten die Spezialisten die Open-Source-Chatmodelle LLaMA-2-7B-Chat und Vicuna-7B. Anschließend wurden 300 Jailbreak-Prompts des Typs Greedy Coordinate Gradient (GCG) auf unmodifizierte LLM-Basismodelle angewendet – mit einer hundertprozentigen Angriffserfolgsrate (ASR). Zum Vergleich testeten die KI-Spezialisten dieselben Jailbreak-Promts auf denselben KI-Modellen, jedoch mit dem Salted-Schutz. Mit der Salting-Methode sank die ASR bei LLaMA-2 auf ca. 2,75 Prozent und bei Vicuna auf ca. 1,35 Prozent.

Autor Michael Veit, Sophos

Michael Veit ist Sophos (Website) Technology Evangelist. Nach seinem Studium der Wirtschaftsinformatik an der TU Darmstadt ist er in der IT Security tätig. In dieser Zeit hat er viel praktische Erfahrung im Design und der Implementierung von IT-Sicherheitsinfrastrukturen gesammelt. Nach der Leitung des Bereiches IT-Security in einem Systemhaus und der Teamleitung im Sales Engineering Team bei Sophos ist Michael Veit heute das „Sophos-Gesicht nach außen“ .

Ein weiteres entscheidendes Ergebnis beim Salting von LLMs: Die Leistungsfähigkeit der KI-Modelle blieben statistisch unverändert im Vergleich zu unsalted Modellen. Da die meisten LLMs im realen Einsatz an der Obergrenze der Leistungsfähigkeit operieren, ist neben dem Schutz vor Jailbreaks die Beibehaltung der Leistung im Business von entscheidender Bedeutung.

Theorie und Wirklichkeit: Wie hoch ist das Risiko für Unternehmen?

Für einfache Chatbots und weit verbreitete LLM-Instanzen ohne zusätzliche Schutzmaßnahmen besteht ein reales Risiko: Eine genügende Anzahl von Jailbreak-Versuchen könnte rasch erfolgreich sein – innerhalb weniger Sekunden. Besonders kritisch sind Szenarien mit Code-Generierung oder Automatisierung: Hier liegen die Raten noch deutlich höher. Für Unternehmen – vor allem mit vielen Deployments ähnlicher LLMs – ist der Einsatz von Gegenmaßnahmen wie LLM-Salting, Guardrails und regelmäßiges Red-Teaming ratsam.

Erweiterter Schutz gegen LLM-Jailbreaks

Noch sind LLM-Jailbreaks kein Massenphänomen, aber aufgrund der wachsenden Bedeutung von LLMs für Organisationen ist es nur eine Frage der Zeit, bis Cyberkriminelle LLMs stärker in den Fokus nehmen. Was also können Organisationen tun, um der Gefahr von Jailbreaks entgegenzuwirken? Diese Aspekte sollten Unternehmen in Betracht ziehen:

Modell und Deployment

Geprüfte Modellherkunft: offizielle Quelle (OpenAI, Anthropic, Meta, etc.); geprüfte Hash/Supply-Chain, keine ungetesteten Third-Party-Packages
Dokumentation von Version und Updates: Version eindeutig dokumentiert; Update-Zyklus definiert; verantwortliche Person benannt
Modell in isolierter Umgebung: Container/Sandbox; kein direkter Zugriff auf Host; Ressourcen klar begrenzt (RAM, CPU, Filesystem)

Jailbreak-Schutz