Am 18. November 2025 wurde das Internet erneut daran erinnert, wie anfällig unsere digitale Infrastruktur sein kann. Cloudflare, einer der weltweit größten Anbieter von Internet-Infrastruktur, erlitt eine weitreichende Störung, die Plattformen wie X (ehemals Twitter), ChatGPT, Spotify, Shopify, Indeed, Zoom, den Claude-Chatbot von Anthropic sowie unzählige kleinere Websites beeinträchtigte.
Cloudflare gehört zu einer Kategorie von Unternehmen, die als Content Delivery Networks (CDNs) und Anbieter von Internet-Infrastruktur bekannt sind; im Wesentlichen das unsichtbare Rückgrat des modernen Internets. Diese Unternehmen betreiben geografisch verteilte Netzwerke aus Servern und Rechenzentren, um Inhalte schnell und zuverlässig an Endnutzer*innen weltweit auszuliefern. Sie fungieren als Vermittler*innen zwischen Websites und Besucher*innen, indem sie Inhalte näher an den Nutzer*innen zwischenspeichern, um Ladezeiten zu reduzieren. Zu den weiteren großen CDN-Anbietern zählen Akamai, Amazon CloudFront, Fastly und Google Cloud CDN.
Was CDNs tun
CDNs funktionieren, indem sie Kopien von Website-Inhalten wie Bilder, Skripte, statische Assets für Apps (z. B. Icons, Logos und User-Interface-Elemente), Schriftarten, herunterladbare Dateien, Video- und Audiodateien, JavaScript-Dateien sowie andere statische Inhalte auf weltweit verteilten Servern speichern. Anstatt dass jeder Nutzerin eine Verbindung zum Ursprungsserver herstellt, der tausende Kilometer entfernt sein kann, leiten CDNs Anfragen an den nächstgelegenen Server weiter. Wenn Sie sich in München befinden und Musik auf Spotify streamen möchten, erhalten Sie statische Assets wie Bilder, Skripte und Albumcover von einem CDN-Knoten in Frankfurt und nicht von der Ursprungsinfrastruktur von Spotify in Schweden. Das sorgt für eine deutlich bessere Nutzer*innen-Erfahrung.
CDNs sind wie große Supermärkte (Rewe, Edeka, Aldi, Kaufland), die alles, was Sie wollen und brauchen, in Ihrer Nähe bereithalten. Anstatt für jedes Produkt (Wein aus Italien, Obst aus Thailand, Gewürze aus Indien), um die halbe Welt zu reisen, lagert der Supermarkt diese Artikel in Ihrer Nähe, sodass Sie sie schnell greifen können. Ohne den Supermarkt müssten Sie diese langen Reisen selbst unternehmen, was Zeit kostet, teurer wäre und zu Verzögerungen führen würde.
Laut Business Insider, „A Cloudflare spokesperson told Business Insider that the company first saw “unusual traffic” to one of its services at 6:20 a.m. ET, with a status update on its website around 30 minutes later saying it was experiencing “internal service degradation. The cause of the outage was a configuration file that is automatically generated to manage threat traffic.”
Einfach ausgedrückt bedeutet „Servicebeeinträchtigung“, dass die Systeme zwar liefen, aber nicht mit voller Kapazität, vergleichbar mit einer Autobahn, auf der zwei von drei Spuren gesperrt sind. Cloudflare bemerkte diese Verlangsamung und versuchte, das Problem durch die Anwendung einer Konfigurationsdatei zu beheben. Diese Datei ist im Grunde eine Sammlung von Anweisungen, wie Server den Datenverkehr handhaben sollen. Leider war die Datei falsch konfiguriert, sodass die beiden Spuren weiterhin gesperrt blieben und sich der Datenverkehr weiter staute.
Die Störung dauerte etwa drei Stunden und nicht Tage oder Wochen, weil die Ursache schnell gefunden wurde. Trotz einer Flut von Warnmeldungen konnte Cloudflare die Probleme dank erstklassiger Observability und Detectability-Tools präzise identifizieren.
Die eigentliche Lösung: Unified Observability & Detectability
amasol ist ein führender IT-Berater und Managed Service Provider, der sich auf Monitoring-Konzepte spezialisiert hat, die Usability, Observability, Detectability und IT-Reliability fördern. Unsere Kunden schätzen unsere Expertise bei der Auswahl, Implementierung und dem Betrieb modernster Softwarelösungen zur Schaffung intuitiver, leistungsfähiger und sicherer IT-Umgebungen.
amasol ist offizieller Partner von Dynatrace, Broadcom, Exeon, CrowdStrike, Splunk und Keysight Technologies. Alle diese Lösungen können während einer Störung unterstützen, indem sie irrelevante oder nicht-kritische Warnmeldungen herausfiltern, die eigentliche Ursache identifizieren und Services schnell wieder online bringen.
Dynatrace: AI-Powered Observability
Kurz zusammengefasst, wie die Tools unserer Technologiepartner helfen können: Dynatrace bietet KI-gestützte Observability über Anwendungen, Infrastruktur und Cloud-Services hinweg. Die Davis® AI nutzt kausale KI, um Metriken, Logs, Traces und Events automatisch zu korrelieren und führt eine Echtzeit-Topologieanalyse durch, um die genaue Ursache eines Vorfalls zu identifizieren. Während einer Störung mit einer Flut von Warnmeldungen konsolidiert Dynatrace zusammenhängende Anomalien zu einem einzigen Problem und liefert kontextbezogene Handlungsempfehlungen, wodurch die Mean Time to Repair (MTTR) um bis zu 90 % reduziert wird. Über die reaktive Fehlerbehebung hinaus prognostiziert und verhindert Davis AI potenzielle Vorfälle, sodass Teams auf echte Probleme reagieren nicht auf Symptome.
Broadcom DX NetOps & Spectrum: Network Fault Isolation
Broadcom DX NetOps combined with DX Spectrum, delivers advanced network fault management and root cause analysis across complex, multi-vendor environments. These solutions automatically model network topology and apply intelligent event correlation to suppress symptomatic alarms, pinpointing the exact component, whether a device, link or configuration error, responsible for service degradation or outages. By providing a single source of truth, DX Spectrum eliminates finger-pointing between teams and accelerate fault isolation, reducing mean time to repair (MTTR). We don’t know what tools Cloudflare uses to detect and pinpoint the root cause in a configuration file, but you can achieve the same with Broadcom DX NetOps.
Exeon: Network Detection & Response (NDR)
Exeon.NDR bietet fortschrittliche Network Detection & Response, indem es KI und Machine Learning nutzt, um Netzwerk-Metadaten, nicht Rohpakete, zu analysieren und so maximale Effizienz und Datenschutz zu gewährleisten. Es erkennt Anomalien, laterale Bewegungen und versteckte Bedrohungen, selbst in verschlüsseltem Datenverkehr.
Während einer Störung kann Unsicherheit die Wiederherstellung verlangsamen. Exeon hilft dabei zu bestätigen, ob die Unterbrechung rein technisch bedingt ist oder durch einen Cyberangriff verschärft wird. Das risikobasierte Alerting und die Verhaltensanalyse minimieren False Positives und ermöglichen eine schnelle Priorisierung, sodass Security-Teams sich auf echte Bedrohungen konzentrieren, statt Geister zu jagen.
CrowdStrike Falcon: Endpoint Protection and Response (EDR)
CrowdStrike Falcon ist eine führende cloud-native Endpoint-Protection-Plattform, die Next-Gen Antivirus (NGAV), EDR sowie integrierte Threat Intelligence kombiniert. Sie überwacht kontinuierlich die Aktivitäten von Endpunkten, erkennt verdächtiges Verhalten und ermöglicht Echtzeit-Isolierung und -Behebung. Wenn Endpunkte während einer Störung kompromittiert werden, bietet Falcon vollständige Transparenz über Angriffsketten, priorisiert Vorfälle und erlaubt die sofortige Isolation infizierter Geräte, um weitere Unterbrechungen zu verhindern und die Wiederherstellung zu beschleunigen.
Splunk: cutting through alert storms
Splunk bietet unvergleichliche Transparenz, Intelligenz und Automatisierung, um Bedrohungen schnell zu erkennen, zu untersuchen und darauf zu reagieren, durch Kernfunktionen wie Security Information and Event Management (SIEM), das Sicherheitsdaten zentralisiert und korreliert, um eine schnellere Erkennung und Reaktion zu ermöglichen. Advanced Threat Detection nutzt Machine Learning und Verhaltensanalysen, um versteckte Bedrohungen aufzudecken. Dies ist während einer Störung besonders hilfreich, da Splunk Warnmeldungsfluten durchdringen und Ereignisse über Logs, Metriken und Traces hinweg korrelieren kann.
Keysight: proactive network monitoring
Keysight bietet fortschrittliche Lösungen für Testing, Visualisierung und Sicherheit, um die optimale Anwendungsperformance in physischen und virtuellen Netzwerken sicherzustellen. Die Hawkeye-Plattform ermöglicht aktives Netzwerk-Monitoring und synthetisches Testing, indem sie realen Datenverkehr simuliert, um die Performance zu validieren und kontinuierlich QoS und QoE in Ihrer IT-Umgebung zu überwachen. Während einer Störung unterstützt Hawkeye die proaktive Erkennung und schnelle Behebung von Netzwerk-Engpässen, Latenzen und Verbindungsfehlern. So können IT-Expert*innen Probleme isolieren und Services so schnell wie möglich wiederherstellen.
amasol als Ihr strategischer Partner
Diese Tools sind leistungsstark, aber sie benötigen Expert*innen, um nahtlos zusammenzuarbeiten oder Ihnen genau das zu liefern, was Sie wirklich brauchen, ohne zusätzliche Kosten für Lösungen, die Ihre Organisation nicht benötigt. Wir wissen, dass Budgets knapp sind und jede Technologieinvestition messbaren Mehrwert bringen muss. Deshalb setzt amasol stark auf BizOps, was für Business Operations steht. BizOps ist eine Denkweise, die IT-Performance direkt mit Geschäftsergebnissen verknüpft. amasol steht für:
• Technologieentscheidungen an messbare Geschäftsergebnisse ausrichten.
• Die Lücke zwischen IT-Betrieb und finanziellen KPIs schließen.
• Sicherstellen, dass alle IT-Investitionen echten Mehrwert liefern.
amasol ist ein herstellerneutraler Managed Service Provider. Das bedeutet, wir sind nicht an ein einzelnes Produkt oder eine Plattform gebunden. Stattdessen bewerten wir Ihre spezifischen Herausforderungen und empfehlen die effektivste Lösung aus unserem Ökosystem vertrauenswürdiger Partner. Anders als einzelne Anbieter, die naturgemäß ihre eigenen Tools bevorzugen, bietet amasol objektive Beratung, basierend darauf, was Ihr Problem tatsächlich löst.
Mit amasol als strategischem Partner verfügt Ihre Organisation über eine proaktive Strategie, um Ausfälle zu verhindern und, falls sie auftreten, diese innerhalb von Stunden und nicht Tagen oder Wochen zu beheben. Wir helfen Ihnen, Ausfallzeiten zu reduzieren, Ihre IT-Umgebung sicher zu halten und ihre Performance auf höchstem Niveau zu gewährleisten. Mehr als Technologie liefern wir Klarheit, Resilienz und Vertrauen in einer komplexen digitalen Welt, in der eine einzige fehlerhafte Konfigurationsdatei große Plattformen lahmlegen kann, wie wir es bei Cloudflare gesehen haben. Deren Ausfall dauerte nur drei Stunden, weil sie die richtigen Observability- und Detectability-Tools hatten. Wenn Ihre Organisation wiederkehrende Ausfälle erlebt oder proaktiv werden möchte, kontaktieren Sie uns noch heute für ein unverbindliches Erstgespräch