Absicherung gegen Spectre-NG: "Foreshadow"

H6G · 30. August 2018

Zitat von peda

Weil ein Big-Data Datenbank Cluster drauf läuft und wenn ich die Server nich vorher rausnehme, dann muss ich während der Geschäftszeiten einen Re-Balance machen um die Integrität im Falle eines weiteren Server-Ausfalls sicher zu stellen (ja, auch während Wartungsarbeiten können andere Server ungeplant ausfallen)

Du legst also deine geschäftskritischen Datenbanksysteme auf n+1 Redundanz aus?

Angenommen du hast Rootserver, so darf jeder davon 8h pro Jahr ausfallen, ansonsten musst du deine Redundanz auf n+1 Rechenzentren erhöhen.

Ins Blaue geraten: Apache Cassandra. Cassandra lässt eine höhere Redundanz zu und so ein Cluster verträgt den kurzfristigen Austieg mehrerer Nodes perfekt.

peda · 30. August 2018

Zitat von H6G

Du legst also deine geschäftskritischen Datenbanksysteme auf n+1 Redundanz aus?

Angenommen du hast Rootserver, so darf jeder davon 8h pro Jahr ausfallen, ansonsten musst du deine Redundanz auf n+1 Rechenzentren erhöhen.

Ins Blaue geraten: Apache Cassandra. Cassandra lässt eine höhere Redundanz zu und so ein Cluster verträgt den kurzfristigen Austieg mehrerer Nodes perfekt.

Nein und nochmal Nein - leider gleich 2 mal falsch geraten

Es gibt N nodes im Cluster und von den Daten gibt es M Replikate - wenn nun aber M Server gleichzeitig ausfallen dann sind einige Datensätze möglicherweise vorübergehend nicht mehr erreichbar. So lange nur M-1 Server ausfallen ist es kein Problem. Aber bereits beim Ausfall von M-1 Servern kann es bei einzelnen Datensätzen zu Verlangsamungen kommen da im Worst-Case nur noch 1 Server diesen Datensatz hält und er somit zum Flaschenhals wird.

In diesem Fall müsste man aus Gründen der Datensicherheit sofort einen Rebalance machen um im nun verkleinerten Cluster wider M Replikate sicher zu stellen - das würde aber auf dem ohnehin schon stark belasteten Server eine auf jeden Fall spürbare Verlangsamung auslösen. Im Disaster-Fall wäre das natürlich noch immer besser als ein Totalausfall, aber eben nichts was man sich bei geplanten Wartungsarbeiten antut. Deshalb entferne ich lieber vorher die Nodes und füge sie später wieder hinzu. So ist die Zusatzbelastung von einem Rebalance außerhalb der Stoßzeiten.

Zusätzlich gibt es noch einen 2. Cluster (Notfall-System) bei einem anderen Hoster - dorthin gibt es eine Cross-Data-Center-Replikation - d.h. dort sind alle Daten nochmal vorhanden (bis auf ein ganz kleines Delay - schwankt meist zwischen 30 und 400ms) und wenn am Hauptsystem tatsächlich mehr als M-Nodes gleichzeitig ausfallen würden, so wären die Daten am Notfall-System mit verringerter Leistung noch immer abrufbar.

Und bei der Datenbank handelt es sich im Couchbase und nicht um Cassandra.

gunnarh · 30. August 2018

Zitat von [netcup] Kai

Man hat einen Node mit z.b. 10 Kunden mit jeweils einer VM. Jeder Kunde hat andere Zeiträume angekreuzt wodurch es dann quasi keine bzw nur sehr wenige Überschneidungen gibt.

Verstehe. Ich ging davon aus, dass die VMs im Zuge dieser Wartungsmaßnahmen auf andere Hostsysteme verschoben werden. Also: fertig gepatchtes (leeres) Hostsystem steht bereit, VMs werden heruntergefahren, verschoben auf das vorbereitete Hostsystem und dort wieder gestartet. Sobald ein ungepatchter Host leer geräumt ist wird dieser gepatcht und steht dann für die nächsten VMs als Ziel-Host bereit.

vmk · 30. August 2018

Das wäre ja automatisiert möglich

update: Ich hatte das ja auch gehofft. Aber mal so jede VM einmal durch die Gegend schubsen freut sicherlich auch das Netzwerk.

[netcup] Felix P. · 31. August 2018

Zitat von gunnarh

Verstehe. Ich ging davon aus, dass die VMs im Zuge dieser Wartungsmaßnahmen auf andere Hostsysteme verschoben werden. Also: fertig gepatchtes (leeres) Hostsystem steht bereit, VMs werden heruntergefahren, verschoben auf das vorbereitete Hostsystem und dort wieder gestartet. Sobald ein ungepatchter Host leer geräumt ist wird dieser gepatcht und steht dann für die nächsten VMs als Ziel-Host bereit.

Das geht in Einzelfällen und wir tun das ja auch bereits bei Wartungsarbeiten an einzelnen Nodes. Wenn wir jedoch je Node 20 TB an Daten und so in drei Tagen 40000 TB bewegen müssten, würde die IO-Leistung massiv zusammenbrechen und auch der gesamte Migrationsprozess sehr lange dauern. Bei den kleinen schnelles SSD-Nodes sieht das natürlich etwas einfacher aus. Bei den SAS-Nodes würde das leider niemals klappen.

Mit freundlichen Grüßen

Felix Preuß

fibis · 31. August 2018

Es scheint sich was getan zu haben, denn ich habe eben Mails für meine Server bekommen, dass diese am 4. September gewartet werden. Somit wurde wohl die Vorankündigungszeit erhöht.

Hecke29 · 31. August 2018

Ich bekomme seit 14:30 Uhr für scheinbar alle meine 17 Server das voraussichtliche Wartungsfenster mitgeteilt Danke dafür

RHA · 31. August 2018

Zitat von fibis

Es scheint sich was getan zu haben, denn ich habe eben Mails für meine Server bekommen, dass diese am 4. September gewartet werden. Somit wurde wohl die Vorankündigungszeit erhöht.

Oder es liegt einfach am Wochenende dazwischen ....

Hecke29 · 31. August 2018

Zitat von RHA

Oder es liegt einfach am Wochenende dazwischen ....

Hab eine E-Mail für 05.09.2018 18:40 - 20:40 CEST bekommen und nachdem, was ich hier bisher so gelesen habe, ist das schon deutlich früher als bisher.

voja · 31. August 2018

Zitat von Hecke29

Ich bekomme seit 14:30 Uhr für scheinbar alle meine 17 Server das voraussichtliche Wartungsfenster mitgeteilt Danke dafür

Bei mir kamen heute auch hintereinander Mails für alle Server, während ich auf andere dringende Mails gewartet habe. ?

Heinrich · 31. August 2018

Hallo,

habe ich das richtig verstanden, dass die Rootserver automatisch per ACPI shutdown heruntergefahren werden? Werden sie nach dem Reboot des Hosts auch automatisch neu gestartet?

-Heinrich

perryflynn · 31. August 2018

Zitat von Heinrich

Werden sie nach dem Reboot des Hosts auch automatisch neu gestartet?

Wie Du willst. Siehe die entsprechende Einstellung im SCP.

Heinrich · 31. August 2018

Zitat von perryflynn

Wie Du willst. Siehe die entsprechende Einstellung im SCP.

Ok, "Activate autostart" habe ich gefunden, Danke!

Und der Shutdown vor der Wartung geht automatisch via ACPI shutdown?

-Heinrich

perryflynn · 31. August 2018

Zitat von Heinrich

Wartung geht automatisch via ACPI shutdown?

Jop. Wenn Dein Server auf den ACPI Button im SCP hört sollte es dann auch keine Probleme geben.

sven88 · 31. August 2018

Zitat von [netcup] Felix

Das geht in Einzelfällen und wir tun das ja auch bereits bei Wartungsarbeiten an einzelnen Nodes. Wenn wir jedoch je Node 20 TB an Daten und so in drei Tagen 40000 TB bewegen müssten, würde die IO-Leistung massiv zusammenbrechen und auch der gesamte Migrationsprozess sehr lange dauern. Bei den kleinen schnelles SSD-Nodes sieht das natürlich etwas einfacher aus. Bei den SAS-Nodes würde das leider niemals klappen.

Mit freundlichen Grüßen

Felix Preuß

Also zuerst sorry für das Messer in den Rücken, aber bei einer gut geplanten Infrastruktur muss da nicht mal 1 KB an Daten verschoben werden.

Das setzt natürlich voraus, dass der Storage nicht lokal auf dem Hostsystem läuft, oder zumindest verteilt auf mehrere Systeme. Dann kann via NFS / CIFS / SAN der Storage der VM´s einfach an ein anderes Muttersystem gehängt werden und die VM kann fast ohne Downtime auf das neue System verschoben werden.

Unsere Server bei Netcup sind natürlich nicht kritisch und können auch mal Tage weg sein, für unsere HA Anforderungen nutzen wir die M. Cloud - dort zahlen wir aber auch ein vielfaches mehr. Dort ist es zum beispiel wie oben gelöst, fällt ein Hostsystem aus, schwenken alle VM´s automatisch auf ein anderes Hostsystem und alles ist gut.

Sorry aber das konnte ich jetzt nicht so stehen lassen, denn andere Anbieter haben ein vielfaches an Servern, da wird auch nichts kopiert.

Lukay · 31. August 2018

Zitat von sven88

dort zahlen wir aber auch ein vielfaches mehr

Zitat von sven88

Sorry aber das konnte ich jetzt nicht so stehen lassen, denn andere Anbieter haben ein vielfaches an Servern, da wird auch nichts kopiert.

Wie du schon selbst erkannt hast, kosten andere Anbieter aber auch mehr.

Ich vermute mal, Netcup könnte uns nicht diese Preise bieten, wenn diese Art von Infrastruktur dahinter stecken würde.

KB19 · 31. August 2018

Zitat von sven88

Das setzt natürlich voraus, dass der Storage nicht lokal auf dem Hostsystem läuft, oder zumindest verteilt auf mehrere Systeme.

Ich möchte das Thema hier wirklich nicht ins Offtopic ziehen, aber von der Performance her ist lokal meiner Erfahrung nach meistens um Welten besser. Warum? Weil kein Netzwerk dazwischen hängt mit allen Nachteilen wie zusätzlicher Ressourcenbedarf und Latenz. So ein Setup kann sich außerdem schnell zum SPOF entwickeln, wenn nicht gut geplant wird. Klar, es gibt genügend Anwendungsfälle, wo so ein Setup Sinn macht. Die vServer von netcup würde ich eher nicht dazu zählen. Dafür würden sie zu wenig davon profitieren bzw. das Feature nicht erforderlich machen.

Bitte bei Bedarf einen neuen Thread dazu aufmachen oder im längsten Thema weiter diskutieren. Sonst wird es hier unübersichtlich…

peda · 1. September 2018

Zitat von sven88

Also zuerst sorry für das Messer in den Rücken, aber bei einer gut geplanten Infrastruktur muss da nicht mal 1 KB an Daten verschoben werden.

Das setzt natürlich voraus, dass der Storage nicht lokal auf dem Hostsystem läuft, oder zumindest verteilt auf mehrere Systeme. Dann kann via NFS / CIFS / SAN der Storage der VM´s einfach an ein anderes Muttersystem gehängt werden und die VM kann fast ohne Downtime auf das neue System verschoben werden.

Bei allen Cloud-Anbietern (egal ob AWS, Google, Azure, Digital Ocean, Rackspace, ...) gibt es lokale Disks und diese werden für vielerlei Anwendung auch verwendet, da sie einfach deutlich schneller sind. Ich kann mir bei den von dir genannten Cloud-Anbietern aber auch Block-Storage holen der dann irgendwo anders liegt. Das mag zwar in Punkte teilweise Datendurchsatz durchaus vergleichbar sein mit lokalen Festplatten die Latenzzeit ist deutlich höher. Für meine Anwendung wäre ein Block-Storage ein totales KO-Kriterium, für andere Anwendungen hingegen mag das durchaus das perfekte Speichersystem sein. Ein Block-Storage kann immer nur eine Ergänzung oder Alternative sein, aber er wird niemals lokale Festplatten ersetzen können.

sven88 · 1. September 2018

Zitat von peda

Bei allen Cloud-Anbietern (egal ob AWS, Google, Azure, Digital Ocean, Rackspace, ...) gibt es lokale Disks und diese werden für vielerlei Anwendung auch verwendet, da sie einfach deutlich schneller sind. Ich kann mir bei den von dir genannten Cloud-Anbietern aber auch Block-Storage holen der dann irgendwo anders liegt. Das mag zwar in Punkte teilweise Datendurchsatz durchaus vergleichbar sein mit lokalen Festplatten die Latenzzeit ist deutlich höher. Für meine Anwendung wäre ein Block-Storage ein totales KO-Kriterium, für andere Anwendungen hingegen mag das durchaus das perfekte Speichersystem sein. Ein Block-Storage kann immer nur eine Ergänzung oder Alternative sein, aber er wird niemals lokale Festplatten ersetzen können.

Sorry ich wollte nicht eure Welt auf den Kopf stellen. Ich kenne wirklich kein produktives System bei einem Konzern oder im Mittelstand das auf lokalen Festplatten läuft. Selbst die größten SAP Systeme die ich gesehen habe >30TB laufen auf ner 3Par oder Netapp ohne Probleme, da würde auch keiner auf die Idee kommen das auf lokalen festplatten abzubilden. Ich habe bei Azure z.b gar keine Möglichkeit lokale Festplatten zu verwenden, dass kannst du mir gerne mal zeigen oO?

Die lokalen festplatten werden jetzt erst durch hyper converged sehr interessant z.b Nutanix wäre evtl. was für Netcup.

Sorry noch mal ich wollte das ganze nicht ins Offtopic ziehen.

linuxUser123 · 3. September 2018

Vorschlag/Idee: Bei ähnlichen Ereignissen, bei denen eine Mail verschickt wird, eine ICS/iCalendar-Datei anhängen, damit man sie direkt in den Kalender importieren kann.

Tags