Sind Cloud-Giganten zu fragil? Lektionen aus dem weltweiten Azure-Ausfall
Ein mehrstündiger Ausfall bei Microsoft am 29. Oktober 2025 hat erneut gezeigt, dass selbst die größten Cloud-Plattformen anfällig für simple Fehler bleiben. Für deutsche IT-Verantwortliche, die sich zunehmend auf US-Hyperscaler stützen, wirft der Vorfall wichtige Fragen zu Resilienz, Risikoplanung und der Geschwindigkeit auf, mit der ein Unternehmen sich erholen kann, wenn sein digitales Rückgrat plötzlich wegbricht.
Die Störung begann gegen Mittag US-Zeit und erfasste alle Azure-Regionen. Betroffen waren unter anderem Microsoft 365, Outlook, Xbox Live, Minecraft sowie diverse Systeme im Einzelhandel und bei Fluggesellschaften.
Große Unternehmen wie Starbucks sowie die US-Carrier Alaska Airlines und Hawaiian Airlines meldeten Probleme, weil zentrale Anwendungen und Datenströme nicht mehr erreichbar waren. Kurzzeitig kursierten Gerüchte, auch Amazon Web Services sei betroffen, doch AWS bestätigte einen normalen Betrieb seiner Plattformen.
Wie ein einzelner Fehler eine Lawine auslöste
Microsoft erklärte später, dass eine versehentliche Konfigurationsänderung in Azure Front Door, der globalen Routing- und Content-Delivery-Schicht, eine Kaskade von DNS- und Traffic-Fehlern auslöste. Als die Routing-Pfade ins Stocken gerieten, fielen auch Tools und Analyseplattformen aus, die an Azure gekoppelt sind. Um die Systeme zu stabilisieren, stoppte Microsoft weitere Konfigurationsänderungen, schaltete die fehlerhafte Route ab und stellte einen zuvor funktionierenden Zustand wieder her.
Die Wiederherstellung erfolgte schrittweise: Ingenieur*innen verteilten den Traffic neu und luden Knoten-Konfigurationen nach, um Überlastungen zu vermeiden. Die meisten Dienste waren am Abend wieder online, Gaming-Plattformen brauchten jedoch länger. Der Ausfall traf kurz vor Microsofts Quartalszahlen und lenkte zusätzliche Aufmerksamkeit auf die Azure-Performance. Dennoch meldete das Unternehmen starkes Cloud-Wachstum und eine steigende Nachfrage nach seinen KI-basierten Copilot-Produkten.
Beobachter*innen betonten, dass eine einzige fehlerhafte Einstellung ausreichte, um weltweit Millionen von Nutzer*innen zu beeinträchtigen. Internet-Performance-Expert*innen warnten, dass ähnliche Schwachstellen in globalen Cloud-Systemen weiterbestehen, und forderten, Redundanz, Monitoring und Resilienzplanung auf Vorstandsebene als dauerhafte Pflicht statt als optionale Versicherung zu behandeln.