Weitere Root-Server bestellen - auf anderem Host?

  • Hi,


    ich habe aktuell einen Root-Server gemietet (RS 8000 SAS G8SE), VMX-Flags aktiviert, Proxmox installiert und VMs drauf. Funktioniert technisch bisher wundervoll.

    (Grund für diese Konstruktion ist schlichtweg, dass die korrekte Konfiguration des vServers/VPS so viel Zeit frisst, dass ich unbed. gern eine Virtualisierungsschicht dazwischen haben möchte, um im Zweifel die VM "schnell" auf ein größeres System migrieren zu können und es mit Wechsel der IP getan ist.)


    Die Produktbeschreibung besagt:

    • dedizierte CPU-Kerne
    • dedizierter garantierter RAM
    • aber shared RAID-10 .. .über 24(!) Platten

    Ich bin damit einverstanden - sonst hätt ichs nicht bestellt - und die Performance ist sehr zufriedenstellend... keine Frage.

    Die 24 HDDs im RAID-10 machen mir aber ein bischen Sorge, was die Ausfallsicherheit angeht.


    Zwei Fragen:


    1) Hält Netcup selbst Backups der VMs vor? Ich vermute mal nein... also werde ich was externes einrichten.

    2) ich überlege außerdem noch 2 weitere Root-Server vergleichbarer Kategorie zu bestellen und Proxmox im Cluster zu betreiben und die VMs zu replizieren. Das macht aber nur Sinn, wenn die 2 weiteren Server auf anderen Hosts betrieben werden. Kann man Netcup bitten, die Server auf getrennten Hosts zu betreiben?

  • Hallo cljk

    Hält Netcup selbst Backups der VMs vor?

    Nein.


    ich überlege außerdem noch 2 weitere Root-Server vergleichbarer Kategorie zu bestellen und Proxmox im Cluster zu betreiben und die VMs zu replizieren. Das macht aber nur Sinn, wenn die 2 weiteren Server auf anderen Hosts betrieben werden. Kann man Netcup bitten, die Server auf getrennten Hosts zu betreiben?

    Netcup versucht automatisch alle Root Server eines Kunden auf getrennte Hostsysteme zu lagern.

    Der Support kann aber auch Maschinen verschieben, wenn das notwendig ist.



    Die 24 HDDs im RAID-10 machen mir aber ein bischen Sorge, was die Ausfallsicherheit angeht.

    Was genau stört dich daran?

    12 Festplatten können ausfallen, erst danach tritt Datenverlust auf.

  • Danke für die Antwort.... dann werd ich das mal im Hinterkopf behalten und ggf. dann nach Bestellung Kontakt zum Support aufnehmen. Ich richte jetzt erstmal ein Offsite-Backup ein.



    Bzgl. RAID10: Nichts für Ungut... aber das stimmt so nicht ganz ;-)


    Es können bis zu(!) 12 HDDs ausfallen.... es können aber auch einfach 2 ausfallen - und wenn das die falschen sind, ist der Spiegel kaputt.

    Und die Wahrscheinlichkeit, dass das in einem 24er-Verbund passiert ist 12x so hoch, wie bei einem 2er-Verbund.


    Vermutlich ist es fast überflüssig, sich auf der Ebene Gedanken zu machen - sagen wir einfach: ich hab da ein ungutes Gefühl...

    Vielleicht belasse ich es aber tatsächlich bei einem Offsite-Backup, das schnell genug wiederhergestellt ist.

  • Das verstehe ich jetzt nicht so ganz. Wenn bei einem 2er-Verbund 2 Festplatten ausfallen dann ist die Wahrscheinlichkeit eines Datenverlusts ziemlich hoch ;)

  • Das verstehe ich jetzt nicht so ganz. Wenn bei einem 2er-Verbund 2 Festplatten ausfallen dann ist die Wahrscheinlichkeit eines Datenverlusts ziemlich hoch ;)

    Ja... die ist bei 100%. ;-)


    Der 24er Verbund R10 ist aber ein RAID-0-Stripe über 12 kleine 2er-Verbünde je RAID 1.

    Und die Wahrscheinlichkeit, dass einer der 12 2er-Verbünde kaputtgeht, weil nicht rechtzeitig ein Hotspare eingesetzt ist, ist eben 12x so hoch, wie dass ein einzelner 2er-Verbund hopps geht. Und wenn das passiert, ist der komplette große 24er-Verbund kaputt...


    Wie gesagt: vermutlich immernoch sehr sehr unwahrscheinlich - aber ich hab im lokalen RZ schonmal erlebt, wie in einem 6er-Verbund an einem Tag 2 Platten übern Jordan gegangen sind....

  • cljk Also ich bin hier bei netcup seit Jahren aktiv. Mit 2 Kundenkonten (privat und beruflich)


    Habe so ca. 10 Server am laufen. (Mal mehr mal weniger)

    Kann dir daher sagen das alle Server auf verschiedenen Nodes laufen (zumindest bei mir), das hat man bei Spectre Patch sehr gut gemerkt.

    Reboots wurden auch immer mit Abständen durchgeführt.


    Festplattenausfälle habe ich in all den Jahren nie miterlebt. Damit will ich nicht sagen das nicht mal eine Festplatte kaputt geworden ist.

    Aber gemerkt hätte ich es nie.


    Datenverlust hatte ich auch noch nie.



    Klar kann immer was passieren und Offsite Backups sind jedenfalls notwendig. Aber wie gesagt in all den Jahren hatte ich noch nie den Fall.


    Vielleicht beruhigt dich das etwas. :)

  • Und die Wahrscheinlichkeit, dass das in einem 24er-Verbund passiert ist 12x so hoch, wie bei einem 2er-Verbund.

    Der 24er Verbund R10 ist aber ein RAID-0-Stripe über 12 kleine 2er-Verbünde je RAID 1.

    Ich meine die Systeme sind anders aufgebaut. Angenommen jede SAS Platte schafft ihre 180 MB/s, dann sieht es mit 500 MB/s Write und 350 MB/s Read eher nicht nach deiner RAID10 Konfiguration aus.

  • 12 Festplatten können ausfallen, erst danach tritt Datenverlust auf.

    das ist leider falsch; ab 13 Festplatten tritt garantiert Datenverlust auf; dieser kann aber auch bereits bei 2 Festplatten auftreten;

    Grüße / Greetings

    Walter H.


    RS 1000 SAS G8 xRAM; RS 500 SSD G8; S 1000 G7; VPS 200 G8 Akt.; Webhost. 1000 m. 75%

  • Ich meine die Systeme sind anders aufgebaut. Angenommen jede SAS Platte schafft ihre 180 MB/s, dann sieht es mit 500 MB/s Write und 350 MB/s Read eher nicht nach deiner RAID10 Konfiguration aus.

    Netcup schreibt dazu nichts - ich vermute allerdings, das sind CEPH-Cluster.


    Das würde auch erklären, dass die Performance bei Anzahl der vielen Platten in der VM zwar sehr gut ist - aber nicht die Geschwindigkeit erreicht, die das System theor. erreichen könnte


    PS

    RAID10 steht in der offiziellen Doku - und was RAID10 ist, kann man ja nachlesen.

  • Und die Wahrscheinlichkeit, dass das in einem 24er-Verbund passiert ist 12x so hoch, wie bei einem 2er-Verbund.

    Das mit der Wahrscheinlichkeitstheorie überarbeiten wir aber nochmal ;-) Am Ende geht es ja um die Wahrscheinlichkeit der nicht-Verfügbarkeit, da sieht die Rechnung etwas anders aus. Insbesondere müssen die Festplatten ja gleichzeitig ausfallen, bzw. bevor die erste Defekte ausgetauscht und synchronisiert wurde. Zumindest wenn man davon ausgeht, dass die Ausfallwahrscheinlichkeit für jede Festplatte gleich groß ist und nicht korreliert (weil z.B. durch Überhitzung gleich 4 Festplatten nebeneinander sterben). Ich gehe bei Netcup aber davon aus, dass durch geeignete Überwachung ein langsames Sterben aufgrund von Alterung o.ä. vor dem eigentlichen Ausfall bemerkt wird und die entsprechende Platte getauscht. Ziemlich sicher werden hier hot-spares eingesetzt, sodass der Umtausch automatisch vorgenommen wird.

    Ich mag jetzt nicht den größten Erfahrungsschatz an Serverfestplatten haben, aber ich habe bisher noch nie erlebt, dass im "normalen" Betrieb eine Festplatte ohne Vorwarnung den Dienst einstellt. Sowas tritt eigentlich nur durch externe Faktoren auf wie ein defektes Netzteil mit ungünstiger Spannungsversorgung, Feuer, Wasser,...

    Ein externes Backup braucht man immer! Raid ist kein Backup und als Datensicherung ungeeignet, ein Raid sorgt nur für Ausfallsicherheit (hast du ja auch richtig geschrieben). Und hier bist du mit 24 Platten gegenüber 2 im Vorteil: Stirbt eine Platte und muss getauscht werden, so wirst du das als Endkunde beim 24er Verbund vermutlich garnicht mitbekommen. Beim 2er Verbund fällt das sicher an der Performance auf, bis die neue Platte vollständig eingebunden ist. (Willst du mehr Ausfallsicherheit, nimm einen zweiten Server)

    Problematischer ist der Ausfall eines Raidcontrollers. Das ist in der Vergangenheit auch durchaus schon vorgekommen[1], aber ich hoffe doch dass sich hier in den 6 Jahren was getan hat ;-) Siehe dazu auch den zweiten Beitrag von Felix aus 2013[2]. Verschlechtert hat sich der Zustand seit dem sicher nicht (mittlerweile halt Raid10 statt 50).


    [1] https://forum.netcup.de/admini…erherstellung-eines-raid/

    [2] https://forum.netcup.de/netcup…einer-festplatte-im-raid/

  • Problematischer ist der Ausfall eines Raidcontrollers. Das ist in der Vergangenheit auch durchaus schon vorgekommen[1], aber ich hoffe doch dass sich hier in den 6 Jahren was getan hat

    2017 - 18 gab es nach den Spectre / Meltdown Fixes sporadisch einige HPE Hosts, die nicht mehr wollten - ich meine es war der Raidcontroller.

    Netcup hatte eine Zeit lang genügend Ersatzteile, die waren am Ende aber auch erschöpft.


    Als Konsequenz wurde von HPE auf Dell Server gewechselt.