Könnten wir hier ein exklusives Post-Mortem bekommen?
Würde mich persönlich interessieren was vorgefallen ist. Daraus können ja unter Umständen alle was lernen.
Hallo nan0,
gerne stelle ich euch im Sinne der Transparenz, die ihr von uns zurecht erwartet, weitere Informationen zu dem Ausfall und dessen Ursache zur Verfügung:
Bitte habt Verständnis dafür, dass wir aus Gründen des Schutzes unseres Betriebsgeheimnisses nicht jedes Detail offen legen können. Dennoch ist es uns wichtig, zu erläutern, was der Grund für eine Einschränkung war und welche Maßnahmen wir getroffen haben, um ein erneutes Auftreten dieser, soweit möglich, zu vermeiden.
Am 25.05.2022 kam es zu einem Ausfall beider netcup-DNS-Resolver. Im Rahmen der Störung waren über beide Resolver keinerlei DNS-Auflösungen mehr möglich. Systeme, welche die netcup Resolver als alleinige zuständige DNS-Server konfiguriert hatten, konnten somit keinerlei DNS-Auflösungen mehr vornehmen. Darunter waren auch zahlreiche Dienste von netcup selbst, so dass es z.B. im Bereich des Webhostings zu Störungen kam. Der Ausfall begann um ca. 13:28 Uhr und dauerte bis ca. 15:17 Uhr an (zu diesem Zeitpunkt waren DNS-Auflösungen wieder fehlerfrei möglich), um 15:39 Uhr wurde die Störung offiziell als behoben angesehen und gemeldet.
Um 13:28 Uhr, zum Beginn der Störung, wurde seitens eines Mitarbeiters des Operations-Teams ein Befehl auf beiden Resolvern ausgeführt, der bisher problemfrei genutzt werden konnte und zum Standard-Funktionsumfang eines DNS-Resolvers gehört. Es handelte sich hierbei um eine normale und übliche Handlung, die nicht vermuten ließ, dass daraus eine Störung resultieren könnte. Nach Ausführung des Befehls sind sofort beide Resolver ausgefallen.
Ein erneutes Starten der DNS-Server-Software war möglich, allerdings waren beide Resolver massiv ausgelastet. Es wurden verschiedene Wege getestet, der DNS-Server-Software mehr Leistungskapazitäten zu geben. Dies war jedoch nicht erfolgreich.
Daher wurde, noch während des laufenden Ausfalls, eine neue, deutlich leistungsfähigere DNS-Server-Software installiert, die nun auf beiden DNS-Resolvern die DNS-Auflösung durchführt. Seitdem sind keine weiteren Einschränkungen dieser Art mehr aufgetreten. Auch können wir anhand der auslesbaren Statistiken auf beiden Systemen erkennen, dass die Systemlast deutlich reduziert ist.
Die genaue Ursache für den Ausfall beider Resolver mit der vorherigen Software ließ sich leider nicht zweifelsfrei bestimmen. Es gab jedoch auch in der Vergangenheit schon Einschränkungen mit der Software, welche allerdings keine unmittelbaren Ausfälle für Kunden verursachten und in der Regel durch ein Update gelöst werden konnten. Es gibt also zwei realistische Optionen, was den Ausfall bedingte: Eine Überlastung der verwendeten Software (Mitigation durch Wechsel auf ein performanteres Programm), oder ein Fehler im Programmcode der verwendeten Software (Mitigation durch Wechsel auf ein in dieser Hinsicht fehlerfreies Programm), bzw. eine Kombination beider potenzieller Ursachen.