Umgang mit Sicherheitslücken in CPUs (Meltdown & Spectre)

  • Heute morgen um ~10 Uhr wurden 2/4 Produktivsystemen Neugestartet, jetzt ca. 4h später wurden genau die bereits gepatchten Maschinen neugestartet und die Devs beschweren sich zu Recht massiv das Gitlab etc. down ist .


    Es ist ja gut das die Patches eingespielt werden aber das muss sauberer klappen, zumal die Updates am 4.1 innerhalb von 72h angekündigt wurden!

    Bitte dazu eine kurze Meldung an den Support. Unsere Script prüfen ob ein node bereits neu gestartet wurde. Das verhalten sollte also so nie auftreten. Haben Sie hier auch 2 Reboot Ankündigungen erhalten?

  • Einer unserer acht Server hier wurde soeben neu gestartet. Dabei handelt es sich um einen RS 2000 SSD G7SEa3.


    Der Shutdown-Befehl kam wie angekündigt via ACPI und nur 9 Minuten später war der Server wieder erreichbar. Ohne Schaden, bislang merkliche Einbußen o.ä.

    Also für den ersten Server bei uns erstmal: Danke, top Job, netcup! :)


    Das einzige was nicht klappte: Es gab keine Ankündigungsmail im Voraus. Das war etwas doof und es war erstmal leichtes "schwitzen" angesagt. ^^



    Beste Grüße

    Patrick

  • Bitte dazu eine kurze Meldung an den Support. Unsere Script prüfen ob ein node bereits neu gestartet wurde. Das verhalten sollte also so nie auftreten. Haben Sie hier auch 2 Reboot Ankündigungen erhalten?



    Supportmitarbeiter (NC#2018011010021217) wrote:

    Leider kommt es in vereinzelten Fällen vor, dass ein Wirtsystem nach Patch und Neustart nicht auf Anhieb sauber läuft und nochmals neu gestartet werden muss. Seien Sie versichert, dass unsere Techniker bemüht sind, die Unterbrechungen der Verfügbarkeit auf das absolut unumgängliche Minimum zu beschränken.

  • Bei uns das gleiche Spiel, Managed Server, keine Benachrichtigung, Server war für knapp eine Dreiviertelstunde nicht erreichbar. Musste erst selbst den Support daraufhinweisen, danach lief der Server wieder innerhalb von Minuten.


    Lief also absolut nicht so wie angekündigt.

  • Das ist nicht nett:


    Code
    1. 2018-01-10 15:36:12.982 CET [3830] LOG: database system was interrupted; last known up at 2018-01-10 15:23:07 CET
    2. 2018-01-10 15:36:59.048 CET [3830] LOG: database system was not properly shut down; automatic recovery in progress


    Obwohl aus dem SCP per ACPI Shutdown alles vorher geklappt hat, wurde ein vServer trotzdem "abgeschossen".

  • soeben wurden bei mir zwei Server ordnungsgemäß per ACPI heruntergefahren und ca. 30 Minuten später war wieder alles schick. Und das ohne Netzwerkprobleme oder Kernel Panic Probleme :)

  • confirmed. Mein Testserver wurde zweimal neu gestartet, Es kam genau eine Mail. Neustart per acpi, Datenbank kam nicht mehr hoch, das mag aber an der langen uptime und einem fehlgeschlagenen upgrade vorher gelegen haben - also nochmal update, noch ein Neustart, alles ist gut.

  • Heute Morgen wurde der Reboot meines Servers mit 60 Min Zeitspanne angekündigt und passierte dann auch. Das ist gut!

    Nach dem Reboot habe ich meine Anwendungen auf dem Server wieder in Marsch gesetzt.


    Heute Abend der Schock: der Server wurde heute Mittag nochmal neu gestartet. Unangekündigt! Meine Anwendungen liefen also bis heute Abend (dann gemerkt) nicht mehr. DAS IST NICHT GUT!


    Sind die Reboots jetzt fertig?

  • Heute Abend der Schock: der Server wurde heute Mittag nochmal neu gestartet. Unangekündigt! Meine Anwendungen liefen also bis heute Abend (dann gemerkt) nicht mehr. DAS IST NICHT GUT!

    Mal abgesehen davon, dass der zweite Reboot natürlich nicht gut ist: Du solltest deine Anwendungen so einrichten, dass alles wichtige nach einem Neustart selbst wieder auf die Beine kommt.


    Mein Server wurde auch zweimal neugestartet (beide Male Shutdown per ACPI), hat aber beide Reboots problemlos überlebt.

  • Mein Server wurde Montag neugestartet und es lief direkt wieder alles, habe die E-Mail erst danach gesehen (gesehen!).

    Nur aufgrund einer neuen KVM Version musste ich den Server nochmal neustarten, obwohl ich das am Wochenende bereits getan hab, wonach der Hinweis aus dem SCP auch wieder weg war. Waren also letztlich 3 Neustarts, einer seitens netcup.

  • Guten Abend,



    zunächst möchte ich unser Bedauern dafür ausdrücken, dass die Updates länger brauchen als zunächst angenommen. Wir haben bewusst die 72 Stunden als voraussichtlich angekündigt und auf diesen Beitrag verwiesen. Auch auf netcup-status.de gibt es entsprechende Informationen. Wer diesen Beitrag aufmerksam verfolgt weiß, dass wird alles länger dauern als 72 Stunden.


    Die gesamte IT-Branche ist gezwungen auf täglich erscheinende Updates zu reagieren. Es gibt Betriebssysteme wie Windows 10 aber auch CentOS die nicht mit den aktuellen Patches zurecht kommen, die es wiederum gegen die Sicherheitslücken gibt, um ein Beispiel zu nenne warum das Thema Spectre und Meltdown so kompliziert ist. Hinzu kommen viele Inkompatibilitäten da die Patches zum Teil unter enormen Zeitdruch veröffentlicht wurden. Hinzu kommt das auch wir leider Fehler machen. Ein großer Teil unserer Mitarbeiterinnen und Mitarbeiter ist seit Bekanntwerden der Sicherheitslücken mit dem Thema beschäftigt und wir tun wirklich unser bestmögliches um der Sache Herr zu werden.


    Gründe warum wir keinen genauen Zeitplan vorgeben können und warum wir - und alle anderen IT-Dienstleister in Deutschland und vermutlich der gesamten Welt auch - so schnell wie möglich reagieren müssen haben wir genannt. Zumindest in Deutschland würden IT-Dienstleister gegen geltendes Recht verstoßen, wenn sie nicht alles daran setzen um die Daten ihrer Kunden zu schützen. Wer die Berichte in den Medien zu Meltdown und Spectre verfolgt, weiß sicherlich was dieses bedeutet.


    Ich muss nochmals dazu auffordern in diesem Beitrag sachlich zu bleiben. Jeder unserer Kunden muss die Möglichkeit haben diesen Beitrag zu verfolgen. Es ist nicht erwünscht das hier Doppelpost entstehen, die das selbe Thema haben. Wenn dieses nicht klappt, müssen wir diesen Beitrag leider moderieren.


    Ich muss nochmal folgende Sätze aus dem ersten Thema zu diesem Beitrag aufgreifen:


    Damit dieser Forenbeitrag übersichtlich bleibt, bitten wir darum hier keine Spekulationen zu führen. Bitte stellen Sie Fragen oder versorgen Sie diesen Beitrag mit Informationen aus verlässlichen Quellen.


    Alle Beiträge die nicht in diesen Thread passen werden gelöscht werden. Bitte eröffnen Sie ggf. ein separates Thema dafür.


    Vielen Dank!



    Mit freundlichen Grüßen


    Felix Preuß

  • Seit Ihrem KVM Update von gestern abend geht zumindest CentOS jedoch doch. Darf ich fragen, was das Problem war?

    Es gab ein weiteres Update für Qemu. Vermutlich konnte Qemu von seinen Entwicklern so angepasst werden, dass auch CentOS 7 wieder funktioniert hat. Das ist jetzt allerdings eine rein spekulative Aussage. Details habe ich nicht geprüft.