Umgang mit Sicherheitslücken in CPUs (Meltdown & Spectre)

  • Hi,


    bei mir lief das Update heute morgen durch. Leider hat der Server mittlerweile aber keine Verbindung zur Außenwelt mehr. Habe mal neugestartet und bekomme beim Reboot jetzt jedes mal eine Verzögerung von 5 Minuten beim Punkt "a start job is running for raise network interfaces". Irgendjemand ein ähnliches Problem nach dem Update? Kann den Server auch nicht anpingen, komme nur noch über die VNC Console drauf.

  • Hallo,


    zwei von drei meiner kleineren RSxxxG7 "Root-Server" wurden neu gestartet. Der Shutdown ging reibungslos. Der reboot nach etwa12 min war etwas holprig wegen fehlender Netzwerkverbindungen. Deswegen habe ich für den dritten Server den "Autostart" deaktiviert - ich werde den Server händisch neu starten sobald sich der Node stabilisiert hat. Ich bekam auch zwei emails vorher, eine 18 Minuten vor dem Restart, die andere 3 Minuten vorher.

  • Dass das Update nötig ist keine Frage. Aber warum bekommt ihr es nicht hin, jedem Kunden vor dem Shutdown eine (automatisierte) Nachricht/Ankündigung zu schreiben, dass man zumindest etwas planen und ggf. Vorkehrungen treffen kann? Und warum könnt ihr in kritischen Fällen die Zeiträume nicht auf die Nachtstunden legen? Wir als Online-Händler haben jetzt in einer unserer Hauptverkaufszeiten mittags das Problem, das unsere Kunden nicht in den Shop kommen. Hätten wir wenigstens eine Ankündigung vorher nochmal bekommen (ganz abgesehen davon, dass lt. eurer E-Mail am 4.1. der Patch bei allen binnen 72h durchgeführt worden sein sollte), hätten wir zumindest temporär eine Weiterleitung auf unseren mobile-Shop über einen Drittanbieter einrichten können?


    Dürfen wir euch den Verdienstausfall für die Zeit dann in Rechnung stellen?


    Viele Grüße

  • Baby Sweets habt ihr einen Server mit 100% Uptimegarantie gebucht? So einen hätte ich auch gerne.


    Ich glaube eine solche Lücke gab es in der Geschichte der IT-Branche noch nicht. Daher musste schnell gehandelt werden, bevor irgendwelche Exploits in Umlauf kommen. Der Reboot dauert pro Node laut meiner Erfahrung rund 30 Minuten. Ein durchaus akzeptabler Wert. Einige Leute berichten über Netzwerkprobleme nach dem Reboot, diese sollten sich aber an der Hotline schnell lösen lassen sollten (jedenfalls nicht hier in diesem Thread!).


    Ich bin mit der Arbeit von NetCup in diesem Zusammenhang mehr als zufrieden. Aktuell sind rund 50% meiner Server neu gestartet worden.

  • Zur Beruhigung von einigen, welchen ihren Restart noch nicht hatten: bei mir erfolgte dieser heute Morgen nach einem Ankündigungsmail, dass das Host-System in den darauf folgenden 60 Minuten frisch gestartet wird. Hat alles tiptop geklappt und spätesten 30' nach dem Herauffahren waren keine Geschwindigkeitseinbussen zu spüren. Ich bin somit voll und ganz zufrieden - Danke!

  • Gauss - natürlich nicht, es geht auch nicht um die Uptime des Servers, das steht ja außer Frage.


    Vielmehr - auch wenn hier schnell gehandelt werden muss - kann man dies sicherlich kontrollierter machen.

    Es freut mich natürlich, dass du mit dem Support seitens netcup zufrieden bist, wir haben leider insbesondere bei telefonischen Support-Anfragen nahezu immer "sehr freundliche" Kollegen dran gehabt, die nicht wirklich hilfs-, auskunfts- und kritikbereit waren.


    Schauen wir mal...

  • radio_24 - schön, dass diese bei dir kam. Leider kam bei uns rein gar nichts! Und der Support-Mitarbeiter am Telefon meinte nur ganz selbstverständlich (wohlbemerkt, dass die 72Std lt. Ankündigungs-E-Mail schon lange rum sind und wir mit nichts mehr gerechnet haben), dass ja gerade der Patch und Neustart stattfindet!

  • Sorry netcup - eurer Support ist echt der letzte *****. Wie kann es bitte sein, dass nach dem Patch und Neustart der Server nicht auf volle Funktionsfähigkeit geprüft wird? Von eurem netten Telefon-Support bekommt man dann zu hören "joa der Server sollte seit 1 Stunde wieder problemlos laufen". WIE BITTE? Ist das echt euer Ernst?


    Der Höhepunkt ist dann, dass der Telefonsupport, anstatt das ganze direkt mit PRIO an die Technik zu geben den tollen Hinweis gibt "bitte schicken Sie uns dazu eine schriftliche Anfrage, damit wir es bearbeiten können!".


    Sorry, das geht nicht in meinen Kopf rein!!!!


    P.S.: Es handelt sich um einen managed (!) vServer - das nicht vergessen!

    • Official Post

    Sorry netcup - eurer Support ist echt der letzte *****. Wie kann es bitte sein, dass nach dem Patch und Neustart der Server nicht auf volle Funktionsfähigkeit geprüft wird? Von eurem netten Telefon-Support bekommt man dann zu hören "joa der Server sollte seit 1 Stunde wieder problemlos laufen". WIE BITTE? Ist das echt euer Ernst?


    Der Höhepunkt ist dann, dass der Telefonsupport, anstatt das ganze direkt mit PRIO an die Technik zu geben den tollen Hinweis gibt "bitte schicken Sie uns dazu eine schriftliche Anfrage, damit wir es bearbeiten können!".


    Sorry, das geht nicht in meinen Kopf rein!!!!

    Guten Tag,


    vielen Dank für Ihr Feedback. Das von Ihnen geschriebene Ticket wurde innerhalb von höchstens 5 Minuten an die Technik weitergeleitet und von der Technik bearbeitet. Ich kann hier den schlechten Support nicht erkennen. Das Problem wurde meines Wissens behoben. Die entstandenen Unannehmlichkeiten bitte ich selbstverständlich zu entschuldigen.

  • Liebes Netcup-Team,


    seid ihr sicher, dass ihr das mit dem ACPI-Shutdown gefixed hat? Mein Server wurde definitiv nicht sauber heruntergefahren. Die letzte Meldung via rsyslog/TCP:

    Code
      Jan 10 11:53:51 astarte kernel: [173040.616307] sd 2:0:0:0: [sda] tag#0 abort

    Nach dem Reboot war zudem IPv6 nicht operabel, erst nach einem erneuten Reboot der VM hat das wieder funktioniert.

  • Entschuldigt bitte, aber ich wünsche mir hier Sachlichkeit und Menschlichkeit. Manche vergessen wohl, was es heisst mit Mitmenschen umzugehen und das internet Anonymität keine Entschuldigung für inakzeptables Benehmen ist.

    Power on! -Archlinux- -Seafile- -nginx-

  • Dürfen wir euch den Verdienstausfall für die Zeit dann in Rechnung stellen?

    Sie sollten evtl. mal ihre Vertragsunterlagen genaustens studieren.

    Bei einer vertraglich garantierten Verfügbarkeit von 99,9% im Jahresmittel darf ihr System bis zu 8,76h nicht erreichbar sein (bei 99,6% resp. 35,04h).

    Insbesondere bei einem solchen Bug ist Schnelligkeit gefragt. Aber auch so dürfte ich mir nicht aussuchen, wann ich denn die 8,76h Ausfall haben möchte.


    Stichwort Risiko. Um ein Risiko zu minimieren kann man nun auf mehrere Server zurückgreifen (z.B. zwei Loadbalancer + zwei Applikationsserver).

    So wie sich das bei mir abzeichnet arbeitet bei NC derzeit die ganze Mannschaft und auch der Geschäftsführer nachts und am Wochenende, um die Systeme zu patchen. Das verdient meinen Respekt - das Team macht eine super Arbeit. Deswegen kann ich Ihren Beitrag nur als Frechheit abstempeln.


    Wo gehobelt wird fallen Spähne. Alle sonstigen Probleme die derzeit auftreten müssen natürlich behandelt werden, jedoch sollte der besondere Umstand der vorliegt beachtet werden und auch mit dem nötigen Weitblick betrachtet werden.

  • @[netcup] Yannik Danke, es läuft nun auch wieder alles. Nach unserem Support-Verständnis gehört es vor allem bei einem managed Server dazu, dass nach einem Patch, Neustart oder was auch immer ALLE Funktionen geprüft werden und nicht auf unser Zutun erst ein Ticket geschrieben werden muss, damit ein Problem behoben wird, was uns erst aufgefallen ist. Sicherlich habt ihr viel um die Ohren - wir aber auch - und wenn es sich um Ihren Verdienstausfall handeln würde (wieso kam eigentlich keine Ankündigung bei uns???), dann würden Sie auch anders reagieren!


    Musashi Nichtsdestotrotz darf man doch wohl seine Meinung kundtun. Vielmehr regt es mich auf, dass auf unsere geschrieben Punkte nicht mal eingegangen wird und es abgetan wird mit "geht doch jetzt wieder"! :(

  • H6G Bitte vorherigen Beitrag lesen - um die Uptime geht es mir nicht und wir sind genauso froh, dass der Patch zeitnah durchgeführt wurde!


    Es geht mir rein um den (von uns mit einem managed Server ebenfalls gebuchten) Support, der aus unserer Sicht nicht zum ersten Male zu wünschen übrig lässt (man sieht ja, dass auf unsere angesprochenen Punkte nicht mal eingegangen wird!) - vor allem wenn man dann mit Standardfloskeln abgetan wird bzw. sich Probleme nicht mal vollumfänglich angeschaut werden. Das ist aber ein anderes Blatt und gehört nicht hierher!

  • Aktuell 1 von 2. Es lief alles einigermaßen gut. Downtime ca. 20min. Das System kam danach sauber hoch (reagierte etwas träge) und hat nun auch den neuen Kernel und den reboot ohne Probleme vollbracht.

  • Heute morgen um ~10 Uhr wurden 2/4 Produktivsystemen Neugestartet, jetzt ca. 4h später wurden genau die bereits gepatchten Maschinen neugestartet und die Devs beschweren sich zu Recht massiv das Gitlab etc. down ist .


    Es ist ja gut das die Patches eingespielt werden aber das muss sauberer klappen, zumal die Updates am 4.1 innerhalb von 72h angekündigt wurden!