Umgang mit Sicherheitslücken in CPUs (Meltdown & Spectre)

DerRené · 11. Januar 2018

Zitat von tiri

Bei den neuesten Webhosting Tarifen sollte keine downtime entsteht, da diese als HA Cluster aufgebaut sind.

Nun ja.... Theorie und Praxis, nicht wahr?

Webhosting 4000 heute: Total Downtime: 04:17:36 (laut externer Messung, ich konnte es nur sporadisch gegentesten und bestätigen)

Bei einer solch langen Downtime hätte ich mir schon eine explizite Ankündigung per Mail, wie sie die Serverkunden bekamen, gewünscht. Oder ist schlicht das komplette Cluster ausgefallen? Eigentlich sollten diese sowas ja abfangen Mir ist selbstverständlich bewusst, dass Netcup derzeit sehr viel zu tun hat und im Großen und Ganzen auch einen guten Job macht und außerordentlich gut kommuniziert (von der fehlenden Benachrichtung des 4 Stündigen Ausfalls mal abgesehen). Daher soll dies einfach nur als Verbesserungsvorschlag für's nächste Mal verstanden werden - es wird ja bekanntermaßen nicht das letzte Update gewesen sein..

Gruß

René

tiri · 11. Januar 2018

Zitat von arneboeses

Hallo,

heute morgen sind zwei der 5 Server abgeschossen worden. Zwar mit Email Ankündigung, aber ohne sauberen Shutdown. Ein dritter Server wurde ein zweites Mal neugestartet (ohne Ankündigung) und ebenfalls via Abschuss. Vielleicht sind 5min einfach zu wenig, wenn auf den Servern Jails laufen, die ebenfalls Zeit zum Herunterfahren benötigen.

Schnelles fixen von Sicherheitslücken ist großartig, aber bitte nicht um jeden Preis. NetCup hat hier in den letzten Tagen an Reputationen verloren, wenn man sich mal in den diversen Foren umsieht. Die abgeschossenen Systeme hinterlassen mehr als nur einen faden Beigeschmack und das nicht einmal zu Unrecht.

Da man immer mit etwas positiven aufhören sollte - Daumen hoch für die Kommunikation hier

Alles anzeigen

Das kann ich leider nicht bestätigen.

Ankündigung: 12:18 Uhr

Abschaltung: 13:18 Uhr mit ACPI

Abgeschlossen: 13:35 Uhr

Verfügbarkeit: 13:42 Uhr

VPS - CentOS7

Netcup: Vielen Dank für die super Arbeit.

vladat · 11. Januar 2018

Kann es sein, dass wenn auf einem Node der ACPI Shutdown Befehl betätigt wird, alle darin laufenden KVM-Instanzen anfangen gleichzeitig herunterzufahren?

Wenn ja, dann ist auch klar warum vereinzelt vServer abgeschossen werden. Alles wird einfach langsam, weil jegliche Dienste anfangen ihre Daten auf die Festplatten zu schreiben. Bei sowas kann dann eine Datenbank (wie in meinem Fall) deutlich mehr als 5 Minuten brauchen, um alles aus dem RAM auf die Festplatte zu bringen.

Lob für die Kommunikation & Co.

Große Kritik für das harte Herunterfahren.

Steini · 11. Januar 2018

Zitat von citecite
Liebes Netcup-Team,

seid ihr sicher, dass ihr das mit dem ACPI-Shutdown gefixed hat? Mein Server wurde definitiv nicht sauber heruntergefahren. Die letzte Meldung via rsyslog/TCP:
Code
  Jan 10 11:53:51 astarte kernel: [173040.616307] sd 2:0:0:0: [sda] tag#0 abort
Nach dem Reboot war zudem IPv6 nicht operabel, erst nach einem erneuten Reboot der VM hat das wieder funktioniert.

Bei mir das gleiche. War erst verwundert, dass der Server bei manchen Anwendungen geht, andere nicht. Ließ sich dann aber recht schnell auf kaputtes IPv6 eingrenzen. Ein manueller Neustart hat das behoben. Leider habe ich das etwas spät bemerkt..

[netcup] Felix P. · 11. Januar 2018

Guten Abend,

wie geschrieben gibt es aktuell Nodes die sich ohne unser Zutun hart abschalten. Daran arbeiten wir.

Statusupdate #8:

Wir sind mit den Updates bei folgenden Systemen fertig: Root-Server, VPS, Storage-Server, managed vServer, managed pServer, gesamte Webhosting-Cloud.

Es folgen nun noch managed dedizierte Server die wir in Rücksprache mit den Kunden mit Updates versorgen.

Mit freundlichen Grüßen

Felix Preuß

Godzilla · 11. Januar 2018

Sind denn wirklich alle Rootserver durch? Wir warten immer noch auf den Neustart, der ist bisher noch nicht erfolgt.

KORN3Y · 11. Januar 2018

Erfolgt auch ein Update auf den Mailservern, SOGo und Datenbank-Servern? Ich habe in diesen bereichen bisher keinen Ausfall wahrgenommen...

Michael83 · 12. Januar 2018

Moin,

wahrscheinlich wisst ihr es schon, aber die unvorhergesehenen Neustarts liegen wohl an einem Fehler in Patch: http://winfuture.de/news,101459.html

Gruß

Michael

[netcup] Felix P. · 12. Januar 2018

Godzilla :

So soll das zumindest sein. Wir lassen jetzt zur Sicherheit nochmal einen Check über alle Nodes laufen. Bitte wenden Sie sich ggf. an unseren Support. Dieser kann prüfen, ob hier etwas schief gelaufen ist.

KORN3Y :

Selbstverständlich wird es hier Updates geben, auch wenn hier die Sicherheitlücken hier nach aktuellen Kenntnisstand nicht ausnutzbar sind. Um hier die Anzahl der Neustarts gering zu halten, werden wir diese erst durchführen wenn es weitere, erforderliche, Patches gibt und diese auch sicher laufen.

Michael83 :

Das riecht danach. Wir haben jetzt eventuell eine Möglichkeit gefunden, selbst die Systeme zu patchen. Dieser Patch wird aktiv, sobald es einen ungeplanten Restart gibt. Die Systeme die wir mit den Patch versehen haben, sind bislang nicht mehr neu gestartet (das ist jetzt 12 Stunden her). Wir beobachten das weiter und hoffen sehr das Intel(R) endlich mit offenen Karten spielt.

Statusupdate #9:

Wie bereits angekündigt, haben wir unterschiedliche Distributionen auf den Wirtssystemen im Einsatz. Auch gibt es hier Unterschiede bei der eingesetzten Hardware-Generation, da es noch nicht für jede Hardware Patches von den Herstellern gibt.

Die Entwickler von Debian sind z.B. noch dabei einen Patch für ibrs zu entwickeln. CentOS hat hier z.B. bereits Updates herausgebracht. In ersten internen Tests deutet es sich allerdings an, dass diese nicht wirklich gegen die Angriffsszenarien von Spectre schützen. Auch hier wird es sicherlich von den Entwicklern noch Updates geben.

Spectre kann in einer auf KVM basierten Virtualisierungsumgebung nach aktuellen Kenntnisstand nicht wirklich für einen Datenzugriffsmissbrauch angewendet werden. Da viele Patches in sehr kurzer Zeit entwickelt wurden, sind diese zum Teil fehlerhaft. Die Sicherheitslücken und die fehlerhaften Patches halten seit dem 04.01.2018 die gesamte IT-Branche in Atem. Heute wurde bekannt, dass Intel(R) bei einigen CPU-Generationen wieder fehlerhafte Patches veröffentlicht hat. Wir werden aus diesen Gründen die Patches erst nach ausgiebigen Tests einspielen. Gegen das deutlich gefährlichere Angriffsszenario Meltdown sind alle unsere Systeme abgesichert. Gegen Spectre sind alle Nodes geschützt, die auf CentOS basieren, wobei diese Patches nach neuen Kenntnissen, wie oben geschrieben, auch nicht ausreichend sind und Updates erhalten werden.

Wann wir genau die weiteren Updates einspielen können, ist Stand heute überhaupt nicht voraussagbar. Mehrere Mitarbeiter testen Rund um die Uhr alle Patches um so schnell wie möglich zu einer Entscheidung zu kommen, wann diese eingespielt werden können. Wir werden Sie dazu in einer separaten E-Mail und auch auf http://www.netcup-status.de informieren. Auch am bevorstehenden Wochenende werden wir für Sie arbeiten.

Wir bitten um Ihr Verständnis und um Ihre Geduld. Wir sind nach wie vor in der Sache involviert und werden nach der ersten großen Patchwelle jetzt im Hintergrund für Sie arbeiten. Sollten neue, akute Probleme auftauchen, werden wir sofort aktiv werden und Sie nach Möglichkeit vorausschauend informieren.

Ich wünsche uns allen ein erholsames Wochenende, nach der vermutlich aufregendsten Woche der IT-Branche. So viele Überstunden haben unsere Mitarbeiterinnen und Mitarbeiter noch nie in einer Woche angesammelt. Alles was mit dem deutschen Arbeitszeitgesetz vereinbar war wurde von ihnen geleistet. Führungskräfte haben wenige Stunden geschlafen und durchgearbeitet.

Mit freundlichen Grüßen

Felix Preuß

Tags