Absicherung gegen Spectre-NG: "Foreshadow"

[netcup] Felix P. · 27. August 2018

Sehr geehrte Kundinnen und Kunden,

derzeit sichern wir unsere Cloud gegen Spectre-NG: "Foreshadow" ab. Das bedeutet, dass wir sämtliche Systeme einmal neu starten müssen. Wir informieren Sie dazu aktuell per E-Mail. In dieser E-Mail kündigen wir möglichst genau den Zeitpunkt des Reboots an. Haben Sie die E-Mail bzgl. des Reboots noch nicht erhalten, wird dieses die nächsten 14 Tage erfolgen.

Dieser Beitrag dient für Ihre Fragen und zum Austausch zu dem wichtigen Thema.

Falls Sie noch nicht wissen was Spectre-NG: "Foreshadow" ist, empfehlen wir Ihnen folgende Artikel:

https://www.heise.de/security/…-Prozessoren-4137209.html

oder

https://www.golem.de/news/fore…speicher-1808-136008.html

Mit freundlichen Grüßen

Felix Preuß

Tobias992 · 27. August 2018

Ich habe eben die E-Mail für meine RS bekommen. Dann wollen wir mal hoffen, das der Updateprozess reibungsloser verläuft als die letzte Welle zum Thema Spectre/Meltdown. Bitte fahrt die Server vernünftig runter...

mfnalex · 27. August 2018

Es gab damals Probleme mit dem ACPI-Signal. Afaik wurde das laut [netcup] Felix P. schon behoben.

EDIT: https://forum.netcup.de/administration-eines-server-vserver/vserver-server-kvm-server/p88955-umgang-mit-sicherheitslücken-in-cpus-meltdown-spectre/#post88955

RHA · 27. August 2018

Habe für einen meiner Server auch eine Mail bekommen. Zur Vorsicht nochmal auf den Server gegangen, Updates gemacht, Server runtergefahren, und wollte dann einen Neustart machen. Da hatte ich dann erstmal den drehenden Kreis für eine Ewigkeit in Dauerschleife. Seite neu aufgebaut (F5), da hatte ich wieder das Menü. Nochmal auf Server starten geklickt, und wieder den Kreis in Dauerschleife. Nach einiger (viel) Zeit meldete sich das Menü, und ein Fehler wurde angezeigt. Im Statusfenster des Servers konnte man aber sehen das er startet. Habe dann gewartet, und siehe da, er ist tatsächlich komplett durchgestartet.

Unter dem Strich lief der Neustart aber nicht sauber ab. Also können wir wirklich hoffen das alles sauber läuft bei der Wartung.

Studi · 28. August 2018

Ich habe ebenfalls bereits die ersten zwei Reboots im Bereich 10:20 - 12:20 Uhr.

Es wäre wirklich sehr hilfreich, die Reboots nicht während der Business Rush Hour durchzuführen. Warum könnt Ihr das nicht ab 20:00 Uhr oder besser nachts machen? Dann herrscht auch viel weniger Last auf den Muttersystemen und der Reboot läuft entspannter. Ich denke man kann davon ausgehen, dass die meisten Netcup Kunden in der CET beheimatet sind. Kostengünstige Produkte hin oder her, sowas muss drin sein, denn nur das ist professionell.

hase · 28. August 2018

@Studi: Da bin ich gerade anderer Meinung. Ich finds gut das die Reboots dieses Mal während der Arbeitszeit stattfinden und nicht mitten in der Nacht wo sich keiner um die Server kümmern kann.

Studi · 28. August 2018

hase: Betreust Du geschäftlich genutzte Server?

Meine Kunden finden Reboots in der Geschäftszeit gar nicht gut, vor allem dann, wenn sie so kurzfristig angekündigt werden. Ich bin daher gerne bereit den Reboot auch nachts zu begleiten. Wenn die Server Boot-Safe getestet sind, sollte man sich aber auch hier nicht sehr viele Sorgen machen.

Die letzten Spectre/Meltdown Reboots waren einfach nur stressig. Obwohl die Server wieder online waren, waren vieler meiner vServer deutlich länger als angekündigt kaum erreichbar, weil die Mutterhardware durch den Anlauf der virtuellen Server und wartenden Anfragen einfach überlastet war. Dies würde sich nachts deutlich entspannen. Bootprobleme und Dateninkonsistenzen können so minimiert werden.

Mir ist der Interessenkonflikt an dieser Stelle sehr wohl bewusst, da die Netcup Kunden zu einem großen Teil im privaten Bereich angesiedelt sind. Es war halt nur ein gut gemeinter Vorschlag.

Paul · 28. August 2018

Da ich selbst in der Brancher arbeite, kann ich aus Erfahrung sagen, dass es immer besser ist, Wartungsarbeiten tagsüber (während den Bürozeiten) durchzuführen, da

1. Die Mitarbeiter wach und konzentriert sind (Nachts ist das "menschliche" Fehlerrisiko deutlich höher)

2. Wenn wirklich mal was schief geht, ist zur Not die ganze "Mannschaft" da und kann helfen.

3. Der Kunde ist besser zu erreichen (Mitteilungen) und kann die Systeme leichter kontrollieren.

Systeme, die wirklich keine Downtime vertragen, sollte nach Möglichkeit HA gebaut werden, da es auch sonst jederzeit zu einem Ausfall kommen kann.

Downtimes und Reboots sind immer unangenehm. Keine Frage. Aber sowas gehört leider dazu. Gerade bei produktiven Systemen muss man sowas mit einplanen.

hase · 28. August 2018

Studi: Ja, daher ist es mir wichtig das die Reboots in ein normales Arbeitszeitfenster fallen. Reboots mitten in der Nacht sind für mich persönlich ein absolutes NoGo, außer es geht wirklich nicht anders.

julian-w · 28. August 2018

Könnte man in die Benachrichtigung E-Mails nicht den Spitznamen des Servers einfügen?

Mit diesem kann ich mehr anfangen wie mit der v22016XXXXXXXXXXXXX Nummer die mir meist gar nichts sagt. So muss ich immer nachsehen welcher Spitzname der Server hat um herauszufinden welches System jetzt neugestartet wird.

[netcup] Felix P. · 28. August 2018

Guten Tag,

ich habe den Verdacht, dass die hier geschilderten Reboots / Ausfälle nichts mit Spectre-NG zu tun haben. In der E-Mail die dazu versendet wird, wird darauf explizit Bezug genommen und auch dieser Beitrag wird verlinkt.

Wer sehr hohe Verfügbarkeit benötigt, dem empfehle ich zwei Root-Server samt Failover-IP zu buchen. Wir stellen sicher, dass im Rahmen der Updates nicht gleiche Produkte parallel neu gestartet werden. So ist immer eines Ihrer Systeme online. Diese Regelung gilt für Root-Server und Storage-Server, nicht für VPS.

Eben da wir nur eine begrenzte Parallelität bei den Reboots fahren und da wir sehr viele Systeme haben die zeitnah neu gestartet werden müssen, können wir leider nicht darauf Rücksicht nehmen ob ein System nachts oder tagsüber neu gestartet wird. Wir werden nicht, wie einige Mitbewerber es tun, sämtliche VMs auf einen Schlag neu starten.

Zitat

Könnte man in die Benachrichtigung E-Mails nicht den Spitznamen des Servers einfügen?

Leider nein, da die Spitznamen nicht dem Prozess bekannt sind, der die Reboots organisiert.

Mit freundlichen Grüßen

Felix Preuß

peda · 28. August 2018

Ich finde es auch gut wenn die Restarts außerhalb der Geschäftszeiten wären - meine Kunden finden es nicht gut, wenn ich Ihnen mit weniger als 48 Stunden Vorlauf eine Downtime mitten in der Geschäftszeit ankündige. Unser System ist zwar auf Redundanz ausgelegt aber einige unserer Server haben das Wartungsfenster mit nur 20 Minuten Abstand - wenn da beim Restart des vorherigen Servers etwas schiefgeht stehen die Kunden ohne System da.

Wenn wir selbst Wartungsarbeiten machen so legen wir diese auch immer außerhalb der Geschäftszeiten unserer Kunden um die Störungen möglichst gering zu halten. Wenn schon innerhalb der Geschäftszeiten, da würde ich mir längere Vorlaufzeiten und evtl. ein Mitspracherecht beim Zeitpunkt wünschen ....

Lukay · 28. August 2018

Zitat von peda

Wenn schon innerhalb der Geschäftszeiten, da würde ich mir längere Vorlaufzeiten und evtl. ein Mitspracherecht beim Zeitpunkt wünschen ....

Dann bist du (meiner Meinung nach) beim falschen Anbieter.

Für diese Art von "Service" müsstest du wahrscheinlich etwas mehr zahlen..

KB19 · 28. August 2018

Sorry, aber Mitspracherecht? Bei virtuellen Systemen? Du bist nicht alleine auf dem Host! Dann wirst Du um einen dedizierten Server nicht herum kommen.

Ich finde es gut, wenn netcup schnell reagiert. Unnötige künstliche Verzögerungen sind bei solchen Themen fast schon fahrlässig. Das will niemand…

peda · 28. August 2018

Mir ist durchaus klar was virtuelle Systeme sind und dass da mehrere Kunden drauf laufen - aber (fast) alle virtuellen Hosts eines Kunden nacheinander im Abstand von nur wenigen Minuten offline zu nehmen ist nicht nur suboptimal sondern nahezu fahrlässig. Da hilft der beste Fail-Over nichts wenn ich 5-10 Minten zum Restart und Funktionstest meiner Systeme habe.

Und wenn es die Möglichkeit gäbe bei Netcup für diesen Service mehr zu bezahlen wäre ich dazu bereit ... und gleich in die Ankündigung reinzuschreiben: "Anfragen dazu werden nicht von unserem Support per E-Mail beantwortet werden" ist meiner Ansicht nach einfach nur frech.

Alle meine Kunden zu informieren, dass es möglicherweise zu Downtimes mit 24-48 Stunden Vorlaufzeit kommt und mich dann anjammern zu lassen, wenn es wirklich dazu kommt kostet am Ende deutlich mehr.

Wir müssen jetzt jedenfalls kurzfristig Resourcen von anderen Aufgaben abziehen um unseren Cluster um weitere Server bei anderen Cloud-Anbietern zu ergänzen, damit ein Fail-Over für die Kunden bei möglichst gleichbleibender Leistung möglich ist.

Caspar · 28. August 2018

Zitat von peda

Und wenn es die Möglichkeit gäbe bei Netcup für diesen Service mehr zu bezahlen wäre ich dazu bereit ...

....

Gibt es, sogar genau auf Ihre Anforderungen zugeschnitten -> https://www.netcup.de/professional/

Kostet allerdings 2-3 Euro mehr als nur ~8,- Euro für eine Virtuelle Maschine.

YGWYPF!

Just my 2 cents.

Gelöscht05 · 28. August 2018

Zitat von peda

Und wenn es die Möglichkeit gäbe bei Netcup für diesen Service mehr zu bezahlen wäre ich dazu bereit ... und gleich in die Ankündigung reinzuschreiben: "Anfragen dazu werden nicht von unserem Support per E-Mail beantwortet werden" ist meiner Ansicht nach einfach nur frec

netcup hat mehr als 60.000 Kunden. Es mag nicht jeder einzelne einen Server beziehen, aber an der Zahl werden es sicher deutlich mehr als Kunden sein, wenn ich sehe, wieviele Systeme hier allein einzelne Forennutzer haben. Was glaubst du, was da los ist, wenn jeder so etwas für sich beansprucht? Noch dazu kommt, dass dann der gesamte Host dadran hängt. - Was ist, wenn jemand anderes auf diesem, eine andere Zeit wünscht?

Ich betreibe keinerlei Geschäft mit solchen Dienstleistungen, aber in der IT-Branche sollte man immer mit so etwas rechenen... Es könnte ja auch von jetzt auf gleich mal der Strom ausfallen - da muss auch unangekündigt jemand ran.

CmdrXay · 28. August 2018

Hay,

Zitat von 03simon10

Es könnte ja auch von jetzt auf gleich mal der Strom ausfallen

wenn ich Dir bei den anderen Punkten recht gebe (und ich verwalte Kundensysteme, mir ist es auch lieber, es nicht während der Nacht zu tun), so kann ich die andere Seite komplett verstehen. Ich war vorher für einen Betrieb zuständig, der am Tag einfach laufen MUSSTE und es ist nicht alles redundant aufbaubar (Budgetgrenzen, nicht technisch). Da habe ich immer drauf gedrängt, solche Wartungen nach 18:00 Uhr zu legen. Aber selbst dann, mit Vorankündigung von ein paar Tagen hätten die Schichten so organisiert werden können, dass man zwei Stunden mal offline ist.

Und zum Strom ausfallen... das ist eine Störung ganz anderer Kategorie, die ist eben nicht planbar ist (aber wogegen sich ein gutes Rechenzentrum weitestgehend absichert mit mindestens zwei Zuleitungen von außen, 3 Generatoren, zwischenpuffernde Batterie, zwei getrennte Zuleitung zu den Racks und zwei Netzteile pro Server).

CU, Peter

vmk · 28. August 2018

Zitat von 03simon10

Es könnte ja auch von jetzt auf gleich mal der Strom ausfallen - da muss auch unangekündigt jemand ran

Der Vergleich ist unpassend. Ein Stromausfall ist eine andere Kategorie als ein "Verlust" aller Kundendaten.

Zitat von peda

Wir müssen jetzt jedenfalls kurzfristig Resourcen von anderen Aufgaben abziehen um unseren Cluster um weitere Server bei anderen Cloud-Anbietern zu ergänzen, damit ein Fail-Over für die Kunden bei möglichst gleichbleibender Leistung möglich ist.

Wie hast du bisher den Failover bei einem Admin-Fehler, DDOS-Attacke, Crash vom Server, etc gehandhabt? Das hat doch viel mehr Impact als eine angekündigte Downtime von 15min.

peda · 28. August 2018

Zitat von 03simon10

Ich betreibe keinerlei Geschäft mit solchen Dienstleistungen, aber in der IT-Branche sollte man immer mit so etwas rechenen... Es könnte ja auch von jetzt auf gleich mal der Strom ausfallen - da muss auch unangekündigt jemand ran.

Für Stromausfälle gibt es Notstromaggregate - das sollte eigentlich in keinem modernen Rechenzentrum zu Problemen führen. Und wer lesen kann hat auch schon erkannt, dass unsere Infrastruktur redundant und als Cluster ausgelegt ist. Normalerweise sollte es dadurch bei uns zu keinen Ausfällen sondern lediglich zu eingeschränkter Performance kommen. Es gibt darüber hinaus auch eine komplette Notfall-Infrastruktur (mit weniger Leistung) bei einem anderen Anbieter auf die wir umschalten können.

Aber das ist halt ein Notfall-System (mit weniger Leistung) - darauf in der normalen Arbeitszeit (mit viel Last) geplant umzuschalten möchte ich meinen Kunden eigentlich nicht zumuten.

Diese Umschaltung auf das Notfall-System wäre aber nicht notwendig wenn nicht ein Großteil unserer Server in sehr kurzem Abstand die Wartung hätte. Durch diese kurzen Abstände kann ich nämlich nicht garantieren, dass die einen Server schon wieder gestartet und überprüft wurden bevor die nächsten offline gehen. Dadurch besteht das Risiko, dass unser System auf den Netcup-Servern gänzlich ausfällt. In diesem Fall wäre es theoretisch möglich, dass die 2-Wege-Replikation auf die Notfall-Infrastruktur nicht 100%ig auf den letzten Stand ist und es zu einem (wenn auch äußerst geringem) Datenverlust kommt (das lässt sich bei verteilten Systemen leider nie 100%ig ausschließen). Im Disaster-Fall ist das ein notwendiges Übel - bei geplanten Arbeiten aber für uns und unsere Kunden allerdings völlig inakzeptabel. Deshalb müssen wir vorab auf das Notfall-System umschalten. Da unsere Kunden aber fast einen gesamten Arbeitstag am Notfall-System arbeiten müssen wir dort nun eben zusätzliche Kapazitäten hinzufügen.

Was mich daran ärgert ist vor allem die Tatsache, dass man es so kurzfristig ankündigt - weder der Bug noch der zugehörige Bugfix sind erst seit gestern bekannt - sondern bereits wesentlich länger. Man hätte hier durchaus zumindest 2 oder 3 Tage für die Vorankündigung wählen können. Die Information für eine Downtime (am 29. August) am 27. um 18:20 auszuschicken ist äußerst knapp. Die Ankündigung wird am nächsten Arbeitstag (dem 28.) gelesen - dann muss man die Auswirkungen analysiert, dann noch die Kunden informieren und die notwendigen Maßnahmen ergreifen.

Ich habe bereits Systeme für Großkunden mit mehreren tausend, international verteilten, Servern geplant und betrieben und was wie man ausfallsichere Systeme betreibt - ich brauche also keine Belehrung über Risikomanagement bei IT-Systemen.

Zitat von Caspar

Gibt es, sogar genau auf Ihre Anforderungen zugeschnitten -> https://www.netcup.de/professional/

Kostet allerdings 2-3 Euro mehr als nur ~8,- Euro für eine Virtuelle Maschine.

Mir ist das Professional Angebot von Netcup durchaus bekannt und wir verwenden auch nicht die 8 Euro vServer - mir sind allerdings Infrastrukturen lieber die auf einer großen Anzahl von vServern verteilt laufen - da man dadurch eine viel höhere Redundanz (und somit Ausfallsicherheit) erreicht als mit einer geringeren Anzahl Dedicated-Servern. Auch ist es mit virtuellen Servern einfacher, günstiger und schneller möglich kurzfristig oder dauerhaft die Leistung zu erhöhen als mit dedizierten Servern.

Zitat

Wie hast du bisher den Failover bei einem Admin-Fehler, DDOS-Attacke, Crash vom Server, etc gehandhabt? Das hat doch viel mehr Impact als eine angekündigte Downtime von 15min.

Siehe oben - außerdem ist die Downtime nicht 15min sondern das Fenster von Netcup ist je Server mit 1:50 angegeben - mit dem Hinweis, dass die Downtime "30 Minuten" in diesem Zeitfenster beträgt - nur weiß ich halt nicht ob wir am Ende 1:20 oder nur 5 Minuten haben um die Server zu überprüfen bevor die nächsten offline gehen.

Tags