Die Vision ist verlockend: Eine IT, die sich selbst überwacht, Fehler erkennt, analysiert und behebt – ganz ohne menschliches Eingreifen im laufenden Betrieb. Kein Operations-Team, keine Rufbereitschaft, keine War Rooms mehr. Stattdessen übernimmt eine symbiotische Kombination aus Automatisierung und künstlicher Intelligenz (KI) die vollständige Betriebsverantwortung.
NoOps – the idea that IT can function without operations teams – sounds like a major relief for overloaded infrastructure units. But how realistic is this vision in 2025?Back in 2011, Forrester coined a groundbreaking phrase in its report “Augment DevOps with NoOps”: “A DevOps focus on collaboration evolves into a NoOps focus on automation.” Since then, IT operations have changed significantly. DevOps – and later DevSecOps – teams gradually assumed shared responsibility: “You build it, you run it, you secure it.”
Der nächste Schritt der Transformation – KI-gestützte Observability, Predictive Monitoring und generative AI zur autonomen Problemlösung – ist heute teilweise bereits Realität, die breite Umsetzung in Unternehmen und Institutionen noch nicht.
Bei allen Fortschritten gibt es eine ganz erhebliche Herausforderung, welche auch bei der Realisierung von NoOps bestehen bleiben wird: Die Komplexität der IT-Infrastrukturen – und sie wächst weiter rasant, nicht zuletzt durch den Einsatz Künstlicher Intelligenz. Die Systeme sind historisch gewachsen, heterogen, verteilt und durch eine Vielzahl an Technologien, Tools und Abhängigkeiten äußerst komplex miteinander verwoben. Diese Entwicklung der Systemlandschaften stellt das Performance Management schon länger vor problematische Aufgaben.
Komplexität als Hauptgegner
Ein Blick auf die Atruvia AG, ein Finanz-IT-Dienstleister, 2015 entstanden durch den Zusammenschluss der Fiducia IT AG mit der GAD eG, illustriert das Ausmaß der Herausforderungen: Atruvia betreibt mit rund 155.000 Bankarbeitsplätzen eine der größten IT-Infrastrukturen im deutschen Finanzsektor. Im Hintergrund arbeiten rund 34.000 virtuelle Server, die jährlich mehr als 120 Milliarden Host-Transaktionen verarbeiten. 9,3 Milliarden Buchungsposten werden pro Jahr zuverlässig bewältigt.
Atruvia operates one of the largest IT infrastructures in the German financial sector, supporting around 155,000 banking workstations. In the background, about 34,000 virtual servers process over 120 billion host transactions per year. 9.3 billion booking entries are reliably handled annually.
Diese IT-Landschaft ist im Lauf von Jahren gewachsen und die Zahlen verdeutlichen: Systeme moderner Großunternehmen sind mittlerweile weit davon entfernt, durch „klassische“ Monitoring-Lösungen vollständig abbildbar zu sein.
Für das Performance Management und Behandeln von Störungen in solchen komplexen IT-Landschaften ist zunächst die Unterscheidung zwischen bekannten und unbekannten Problemquellen essenziell. Sie lassen sich anhand des Rumsfeld-Modells in vier Kategorien einteilen:
• „Known Knowns“ sind typische, wiederkehrende Störungen, die gut dokumentiert und damit vergleichsweise einfach automatisierbar sind.
• „Known Unknowns“ beschreiben Effekte, die prinzipiell erwartbar sind, bislang jedoch nicht konkret beobachtet wurden – etwa Wechselwirkungen neuer Komponenten.
• „Unknown Knowns" hier wird Wissen innerhalb des Betriebs oder der Entwicklung nicht ausreichend dokumentiert oder geteilt – ein Risiko, das durch Personalwechsel oder Team-Silos weiter wächst.
• „Unknown Unknowns“ sind völlig neue, unerwartete Fehler, die bislang unbekannt und damit kaum beherrschbar sind. Besonders für diese kritische Kategorie sind moderne Observability-Ansätze unerlässlich. Sie gehen weit über klassisches Monitoring hinaus und ermöglichen durch das kombinierte Auslesen von Metriken, Logs und Traces tiefere Einsichten und das frühzeitige Erkennen von Anomalien.
Observability: Enabler für Automatisierung und NoOps
Moderne Observability-Systeme nutzen diese drei Datentypen, um ein möglichst vollständiges Bild des Systemverhaltens zu erhalten:
• Metriken beantworten die Frage: „Haben wir ein Problem?“ “Do we have a problem?”
• Traces klären darüber auf, wo genau es liegt. “Where exactly is the issue?”
• Logs Logs liefern das entscheidende „Warum?“ – die Ursache der Anomalie. “Why did it happen?”
Wenn diese drei Quellen konsistent, vollständig und in Echtzeit ausgewertet werden, lassen sich Störungen zuverlässig erkennen, präzise einordnen und im besten Fall sogar automatisiert beheben. Die Integration von Metriken, Logs und Traces schafft heute die Grundlage für eine neue Qualität im operativen IT-Betrieb.
Konkrete Fortschritte sind bereits messbar:
• Mean Time to Recovery (MTTR): kann von mehreren Wochen auf teils unter eine Stunde reduziert werden.
• Root-Cause-Detection: ersetzt die bloße Symptombekämpfung – Ursachen werden sichtbar, nicht nur die Auswirkungen.
• Predictive AI dentifiziert absehbare Engpässe, zum Beispiel bei Datenbankverbindungen .
• Generative AI schlägt passende Lösungsansätze vor – schnell, kontextsensitiv und zunehmend präziser.
Observability entwickelt sich so vom Monitoring-Werkzeug zum strategischen Enabler für Automatisierung, Stabilität und Geschwindigkeit im IT-Betrieb.
Wenn klar wird, wie sich Systeme in Echtzeit verhalten, können operative Prozesse automatisiert und Fehlerquellen frühzeitig erkannt werden. Observability schafft die notwendige Transparenz, um Abhängigkeiten, Engpässe und Anomalien zu erkennen und zu bewerten. Generative AI kann passende Lösungsansätze für manuelle Korrekturen vorschlagen, und KI-gestützte Lösungen übernehmen automatisierte Fehlerbehandlungen.
Aber die „Unknown Unknowns“ bleiben damit immer noch nicht beherrschbar. Predictive Analytics kann zu deren Behandlung nur insoweit Unterstützung leisten, als dass anhand von Mustern Anomalien erkannt, Tendenzen beschrieben und durch GenAi eventuell geeignete Lösungen empfohlen werden – für das Beheben der Fehler aber bleibt der Betrieb gefragt.
Die Voraussetzungen für NoOps
Der technologische Fortschritt im Bereich Observability und Automatisierung bringt uns dem Ziel eines weitgehend sich selbst steuernden IT-Betriebs ein gutes Stück näher. Die zentrale Voraussetzungen müssen erfüllt sein, damit NoOps kein Schlagwort oder eine Vision bleibt.
Das richtige Mindset ist erforderlich. Das gesamte Betriebswissen muss allen Beteiligten bekannt sein. Insbesondere DevOps- oder DevSecOps-Teams müssen ihre Veränderungen an Systemen den anderen Teams mitteilen. Indem alle die Verantwortung für das große Ganze übernehmen und die sich regelmäßig verändernden Zusammenhänge mit den beteiligten Teams teilen, kann ein resilienter automatisierter Betrieb realisiert werden.
Die KI muss ganz gezielt eingesetzt werden, denn sie entfaltet ihr Potenzial nur dann, wenn sie Kontexte versteht und auf die richtigen Informationen zugreifen kann. GenAI hilft dabei, Ursachen zu analysieren, Anomalien zu klassifizieren und fundierte Vorschläge zu unterbreiten. Predictive AI ermöglicht proaktive Frühwarnungen, Risikoeinschätzungen und eine dynamische Optimierung. Doch grundsätzlich gilt: Ohne kontextuelle Informationen zu jeweiligen Domänen, die gezielt in die Modelle einfließen, bleiben die Ergebnisse oberflächlich – und damit unbrauchbar für den operativen Alltag. KI wird nicht alle Probleme lösen, aber sie unterstützt sehr stark dabei, auch die wirklich gefährlichen zu erkennen, bevor sie kritisch werden.
Wird NoOps Realität?
Realistisch betrachtet ist NoOps kein Ziel, das in den nächsten Jahren flächendeckend erreichbar ist. Die „Unknown Unknowns“ werden bleiben – ebenso wie kritische Situationen, in denen menschliche Erfahrung unersetzlich ist. Doch die Anzahl der bösen Überraschungen kann drastisch reduziert werden.
Wenn das Mindset stimmt, die Datenqualität erstklassig ist und KI sinnvoll eingesetzt wird, kann ein hohes Maß an Betriebsstabilität ohne menschliches Eingreifen erreicht werden, zumindest für große Teile des Tagesgeschäfts. Die technische Machbarkeit von NoOps rückt theoretisch näher – No Responsibility aber wird wohl lange noch nicht möglich sein.
Quellen
Augment DevOps With NoOps. DevOps Is Good, But Cloud Computing Will Usher In NoOps https://www.forrester.com/report/Augment-DevOps-With-NoOps/RES59203