Resilienz: Die Illusion der Redundanz überwinden

Schwerpunkt: Rechenzentren & Digitale Souveränität

Christian Jessel, Head of DACH bei Mitel, thematisiert die Herausforderungen der Resilienz in modernen Bankensystemen. Hochverfügbare IT-Architekturen sind entscheidend, jedoch zeigen aktuelle Vorfälle, dass Redundanz nicht immer ausreicht. — Christian Jessel, Head of DACH, Mitel Mitel

Hochverfügbare IT-Architekturen gelten als Grundpfeiler moderner Bankensysteme. Dennoch zeigen aktuelle Vorfälle bei AWS oder Slack, dass selbst redundant ausgelegte Infrastrukturen unter bestimmten Bedingungen ausfallen können. Ursache sind dabei häufig versteckte Abhängigkeiten in zentralen Steuerungsmechanismen, die vor allem dort zum Problem werden, wo geschäftskritische Kommunikation, Identität und Routing zusammenlaufen.

von Christian Jessel, Head of DACH, Mitel

Speziell Kommunikationssysteme sind heute eng mit zentralen Geschäftsprozessen von Finanzinstituten verzahnt. Dazu zählen Contact-Center-Plattformen im Kundenservice ebenso wie Kommunikationsschnittstellen im Zahlungsverkehr, Freigaben im Vier-Augen-Prinzip oder Abstimmungen im Handel und Treasury. Im Störfall entscheidet ihre Verfügbarkeit damit unmittelbar über die Handlungsfähigkeit der Organisation.

Technisch sind sie häufig Teil verteilter Prozess- und Transaktionsketten mit hohen Anforderungen an Konsistenz, Zustand und Latenz. Gerade zustandsbehaftete Kommunikationssysteme reagieren deutlich empfindlicher auf Inkonsistenzen als klassische, stateless Web-Architekturen. Dadurch stellen sie andere Anforderungen an Architektur, Failover-Logik und Betriebsmodelle als klassische IT-Workloads. Kommt es hier zu Störungen, geraten oft ganze Prozessketten ins Stocken.

Der blinde Fleck: Zentralisierte Control Planes

Während Infrastrukturkomponenten über mehrere Regionen repliziert werden, erfolgt die Nutzung zentraler Dienste wie Identitätsmanagement, API-Gateways oder Routing-Instanzen in vielen Architekturen weiterhin gemeinsam oder logisch gekoppelt. Control Planes können deshalb ein blinder Fleck moderner Resilienzstrategien sein, da sie zwar redundant betrieben werden, jedoch nicht vollständig unabhängig sind. Typische Beispiele sind globale IAM-Tenants, zentrale OAuth-Token-Validatoren, Cloud-Control-Planes oder DNS-basierte Routing-Systeme. Das gilt auch für hybride Architekturen.

Wird ein Identity-Service oder dessen Token-Signing-Infrastruktur beispielsweise inkonsistent oder nicht erreichbar, können Services je nach Architektur keine neuen oder keine verlässlich validierten Authentifizierungsentscheidungen mehr treffen und verweigern Anfragen, obwohl Applikationen und Datenbanken weiterhin verfügbar sind.“

IAM kann damit selbst in vermeintlich hochverfügbaren Multi-Region-Architekturen zu einem Single Point of Failure werden. Vergleichbare Effekte zeigen sich bei gestörten Control Planes oder inkonsistentem Routing, wenn Workloads zwar laufen, aber nicht mehr korrekt adressiert oder gesteuert werden können. Im Bankenumfeld kann das beispielsweise dazu führen, dass Zahlungsfreigaben verzögert oder Handelsentscheidungen nicht mehr rechtzeitig abgestimmt werden können.

Zustandsbehaftete Protokolle wie SIP, WebRTC oder Messaging-Systeme mit persistenter Session-Logik basieren auf kontinuierlichen Zustandsübergängen und weisen eine geringere Toleranz gegenüber Inkonsistenzen in der Signalisierung auf als viele stateless Web-Architekturen. DNS-basierte Verfahren können beispielsweise durch TTL-Verzögerungen und Client-seitige Caches beeinflusst werden.

Dies kann zu unterschiedlichen Routing-Entscheidungen und parallelen Zuständen zwischen Regionen führen. Solche Effekte sind typische Failure Modes verteilter Architekturen, doch insbesondere für Echtzeitkommunikation reicht diese Form von „Best-Effort-Failover“ häufig nicht aus. Das gilt vor allem für Szenarien, in denen Kommunikationssysteme auch bei Ausfall zentraler Komponenten weiterhin handlungsfähig bleiben müssen.

Resilienz entsteht durch Entkopplung, nicht durch Infrastruktur

Durch regulatorische Vorgaben wie dem Digital Operational Resilience Act (DORA) müssen Finanzinstitute konkret nachweisen, wie ihre Systeme unter realen Ausfallbedingungen funktionieren und welche Abhängigkeiten dabei wirksam werden. Die Diskussion über Cloud und On-Premises greift dabei zu kurz, da sie primär den Betriebsort adressiert. Tragfähige Resilienz entsteht dort, wo kritische Funktionen voneinander getrennt und unabhängig betrieben werden können. Im Kontext von Kommunikationsinfrastrukturen bedeutet das, dass Steuerung, Signalisierung und Medienverarbeitung nicht ausschließlich von zentralen Instanzen abhängig sein dürfen.

Autor Christian Jessel, Mitel

Christian Jessel, Head of DACH bei Mitel, präsentiert sich in einem formellen Outfit. Sein Gesichtsausdruck vermittelt Professionalität und Vertrauen. Die Darstellung unterstreicht die Bedeutung von Resilienz in der strategischen Ausrichtung und Geschäftsentwicklung.

Christian Jessel ist Head of DACH bei Mitel (Website) und verantwortlich für die strategische Ausrichtung sowie die Geschäftsentwicklung in DACH. Er hat über 20 Jahre Erfahrung in der IT- und Telekommunikationsbranche. Zuvor hatte er Führungspositionen bei Unify, Siemens Enterprise Communications und Fujitsu inne.

Technisch kann dies durch regional isolierte Identity-Domänen, voneinander unabhängige Control Planes oder dezentrale Routing-Logiken erreicht werden. Für Kommunikationssysteme umfasst das auch die Fähigkeit, Routing- und Steuerungsentscheidungen regional oder lokal zu treffen. JWKS-Caching reduziert Abhängigkeiten von zentralen Diensten, erhöht aber das Risiko veralteter Schlüssel (z. B. bei Key-Rotation). Die Wahl von TTLs wird damit zu einer bewussten Risikoentscheidung zwischen Verfügbarkeit, Aktualität und der Geschwindigkeit, mit der Änderungen wirksam werden.

Weitere Ansätze zur Resilienz umfassen regional getrennte DNS-Resolver sowie Systeme, die Entscheidungen auf Basis gecachter Policies treffen können. Solche Mechanismen sind insbesondere dann sinnvoll, wenn kurzfristige Inkonsistenzen tolerierbar sind. In regulatorisch sensiblen Prozessen kann das jedoch neue Risiken erzeugen. Ergänzend gewinnen Prinzipien wie „graceful degradation“ und klar definierte Failover-Pfade an Bedeutung. Systeme werden so ausgelegt, dass sie bei Teilausfällen weiterhin funktionsfähig bleiben, auch wenn einzelne Funktionen gezielt eingeschränkt sind.

Hybride Kommunikationsarchitekturen ermöglichen es, zentrale Steuerungsfunktionen zu entkoppeln, Ausfallgrenzen klar zu definieren und gleichzeitig lokale Betriebsfähigkeit („Local Survivability“) sicherzustellen.“

Damit wird die Fähigkeit, Kommunikation auch unter gestörten Bedingungen aufrechtzuerhalten, zum zentralen Baustein für Geschäftskontinuität und regulatorische Resilienz in Finanzinstituten. Andernfalls sind Architekturen zwar hochverfügbar auf dem Papier, brechen im Störfall aber genau dort, wo sie Stabilität versprechen. Christian Jessel, Mitel/dk