Aktuelles, Branche, Gastbeiträge - geschrieben von am Donnerstag, April 30, 2026 17:46 - noch keine Kommentare

Chaos Engineering für die Cyberresilienz: Wie KI kontrollierte Belastungsproben digitaler Systeme ermöglicht

Systeme können untersucht werden, wie sie unter gezielt herbeigeführten Störungen reagieren. Im Mittelpunkt steht nicht das Erzeugen von Fehlern um ihrer selbst willen, sondern die kontrollierte Prüfung, wie belastbar eine digitale Architektur in kritischen Situationen tatsächlich ist.

Von unserem Gastautor Roman Spitzbart, VP EMEA Solutions Engineering, Dynatrace

[datensicherheit.de, 30.04.2026] Digitale Infrastrukturen bestehen heute aus eng verflochtenen Anwendungen, Plattformdiensten, APIs, Datenverarbeitung und Cloud-Ressourcen. In solchen Umgebungen entstehen kritische Probleme selten durch einen einzelnen Defekt. Häufig sind es mehrere Abweichungen gleichzeitig, die sich entlang bestehender Abhängigkeiten verstärken und lokale Störungen zu weitreichenden Ausfällen machen.

Roman Spitzbart, VP Solutions Engineering EMEA bei Dynatrace

Roman Spitzbart, VP Solutions Engineering EMEA bei Dynatrace, Bild: Dynatrace

Für die Informationssicherheit ist genau das entscheidend. Viele Schwächen bleiben im Regelbetrieb unsichtbar, weil Schutzmechanismen, Redundanzen und Ausweichpfade erst unter Belastung zeigen, ob sie tatsächlich funktionieren. Verfügbarkeit allein ist deshalb kein verlässlicher Beleg für Widerstandsfähigkeit. Ob eine Architektur robust ist, zeigt sich erst dann, wenn Komponenten ausfallen, Kommunikationspfade verzögert reagieren oder Lasten unerwartet ansteigen. An diesem Punkt wird Chaos Engineering relevant.

Widerstandsfähigkeit lässt sich nicht nur beobachten

Chaos Engineering untersucht, wie Systeme unter gezielt herbeigeführten Störungen reagieren. Im Mittelpunkt steht nicht das Erzeugen von Fehlern um ihrer selbst willen, sondern die kontrollierte Prüfung, wie belastbar eine digitale Architektur in kritischen Situationen tatsächlich ist.

Entscheidend ist dabei die Gesamtsicht. Es geht darum, welche Folgen ein Ausfall eines Dienstes für abhängige Komponenten hat. Bleibt ein Problem lokal begrenzt? Werden Anfragen sauber umgeleitet? Halten Redundanzmechanismen stand? Lassen sich kritische Funktionen aufrechterhalten? Genau diese Fragen sind für Cyberresilienz zentral. In der Praxis wird dieser Ansatz bislang dennoch nur punktuell genutzt. Der Grund liegt vor allem in seiner operativen Komplexität.

Warum Chaos Engineering bislang selten skaliert

Belastungsszenarien müssen vorbereitet, mögliche Auswirkungen abgeschätzt und Ergebnisse im Anschluss interpretiert werden. In verteilten Systemlandschaften ist das aufwendig. Hinzu kommt, dass das Wissen über reale Abhängigkeiten oft lückenhaft ist. Architekturen verändern sich schneller, als Dokumentation und Annahmen Schritt halten können.

Damit entsteht ein doppeltes Problem. Zum einen werden Experimente schnell zum manuellen Spezialprojekt. Zum anderen steigt das Risiko, Störungen an Stellen einzubringen, die zwar technisch erreichbar, aber analytisch wenig sinnvoll sind oder unbeabsichtigt produktive Auswirkungen nach sich ziehen. Solange Auswahl, Durchführung und Bewertung solcher Tests stark von manueller Vorarbeit abhängen, bleibt Chaos Engineering auf Einzelfälle begrenzt. Für einen regelmäßigen Einsatz in sicherheitskritischen Umgebungen reicht das nicht aus.

KI schafft die Voraussetzung für gezielte Belastungsszenarien

Genau hier kommt Künstliche Intelligenz (KI) zum Tragen. Die Grundlage dafür bildet eine fortlaufende Sicht auf Kommunikation, Lastverhalten und Abhängigkeiten innerhalb einer Infrastruktur. Moderne Observability-Lösungen liefern dazu kontinuierlich Daten aus Anwendungen, Plattformen und Netzwerken, etwa in Form von Logs, Metriken, Traces und Topologieinformationen.

Die KI wertet diese Informationen nicht isoliert aus, sondern im Zusammenhang. Dadurch wird erkennbar, welche Dienste regelmäßig miteinander interagieren, welche Muster im laufenden Betrieb üblich sind und an welchen Stellen sensible Verflechtungen bestehen. Besonders wertvoll ist die Fähigkeit, Ursache-Wirkungs-Zusammenhänge sichtbar zu machen. So lässt sich nachvollziehen, wo eine Veränderung lokal bleibt und wo daraus eine Kette weiterer Effekte entstehen kann.

Dieses Verständnis ist der eigentliche Fortschritt. Hypothesen über mögliche Auswirkungen beruhen damit nicht mehr nur auf Erfahrung oder Vermutung, sondern auf tatsächlichen Abhängigkeitsstrukturen im laufenden System.

Sicherheitsrelevante Belastungsproben werden präziser

Auf dieser Basis lassen sich Störungsszenarien gezielt auswählen. Dazu zählen beispielsweise erhöhte Latenzen in Kommunikationspfaden, der Ausfall einzelner Infrastruktur- oder Plattformkomponenten, Engpässe in zentralen Verarbeitungsdiensten oder Unterbrechungen entlang kritischer Service-Abhängigkeiten. Genau solche Situationen entsprechen oft den Bedingungen, unter denen sich reale Sicherheits- und Stabilitätsprobleme entfalten.

Während eines Tests analysiert die KI fortlaufend, wie sich die Störung innerhalb des Systems fortsetzt. Sichtbar wird, welche Dienste besonders empfindlich reagieren, ob vorhandene Redundanzen tatsächlich übernehmen und an welchen Punkten unerwartete Seiteneffekte entstehen. Damit wird aus einer isolierten Störungssimulation eine belastbare Prüfung digitaler Widerstandsfähigkeit.

Der Nutzen liegt nicht nur in der Beobachtung einzelner Reaktionen. Organisationen erkennen präziser, wo Ausfallketten drohen und welche Störungen besonders hohe Risiken nach sich ziehen. Gleichzeitig sinkt das operative Risiko, weil Experimente gezielter vorbereitet und ihre Wirkung genauer eingeordnet werden können.

Von der Vorfallanalyse zur vorausschauenden Cyberresilienz

In vielen Unternehmen beginnt die tiefergehende Bewertung technischer Schwächen erst nach einem Sicherheits- oder Verfügbarkeitsvorfall. Dann wird sichtbar, welche Systeme betroffen waren und an welchen Stellen Schutz- oder Failover-Mechanismen versagt haben. KI-gestütztes Chaos Engineering verschiebt diese Perspektive: Kritische Belastungssituationen lassen sich bereits vor einem realen Ausfall kontrolliert prüfen. So wird erkennbar, welche Abhängigkeiten Risiken verstärken, wo technische Schutzmaßnahmen an Grenzen stoßen und wie robust kritische Dienste gegenüber Störungen tatsächlich sind.

Damit wird Chaos Engineering zu einem Verfahren, mit dem sich Cyberresilienz systematisch vorbereiten lässt. Digitale Infrastrukturen werden unter kontrollierten Bedingungen auf ihre Belastbarkeit gegenüber Ausfällen, Verzögerungen und Kaskadeneffekten geprüft. Widerstandsfähigkeit wird damit nicht erst im Vorfall sichtbar, sondern bereits im Vorfeld überprüfbar.

Weitere Informationen zum Thema:

datensicherheit.de, 24.03.2026
OpenTelemetry als Fundament einer vertrauenswürdigen Observability-Infrastruktur



Kommentieren

Kommentar

Kooperation

TeleTrusT

Mitgliedschaft

German Mittelstand e.V.

Mitgliedschaft

BISG e.V.

Multiplikator

Allianz für Cybersicherheit

Datenschutzerklärung