Ausfallsicherheit nc Root Server

  • Ich bin jetzt schon viele Jahre Kunde bei Netcup (>10 jahre) und habe in dieser Zeit noch nie Daten verloren aufgrund von Hardware-Defekten. Zwar wurde ab und zu mal ein Server auf einen anderen Node migriert, weil es wohl Probleme mit der Hardware gab, aber es hat definitiv nie Datenverlust gegeben. Ein Restrisiko besteht natürlich immer, auch bei einem Raid 10. Auch ein menschlicher Fehler könnte mal dazu führen. Aber genau dafür sollte man ja auch immer Backups haben ;-)


    Ich finde, Netcup macht diesbezüglich einen super Job! Und das ist sicherlich auch mit ein Grund, warum ich hier sehr zufrieden meine Server miete :-)

  • Die Annual Failure Rates von SSDs und HDDs liegen je nach konkretem Modell und Einsatz meist zwischen 0 und 10% (typischerweise wenn man keinen absoluten Fehlgriff an Disken hat bei 1-3%). Also von 100 Disks im Rechenzentrum werden pro Jahr 3 kaputt. Auch die AFR von SSDs dürfte in dieser Größenordnung liegen.


    Wir kennen den RAID-Aufbau der Netcup-Server nicht im Detail. Bei einigen Modellen ist z.B. Raid 10 angegeben, aber über wie viele Disken das Hostsystem verfügt ist für den Kunden so nicht transparent erkennbar. Angenommen es kommen 6 Disks zum Einsatz die jeweils eine AFR von 1% aufweisen, dann lautet die Rechnung meines Erachtens:


    Das Stripeset: 3 Disks je 1% = 3% AFR

    Der gesamte gespiegelte RAID-Verbund: durch die Spiegelung sollte sich das dann auf 3% ^2 = 0,9 Promille Wahrscheinlichkeit (Ausfall des kompletten RAID-Verbundes) reduzieren.


    Oder etwas plastischer: von 1000 Hostsystemen mit so einem Raid10-Verbund fällt im Schnitt einer pro Jahr aus.


    Wie immer: glaube keiner Statistik die Du nicht selbst frisiert hast. Ich denke aber die Größenordnung ist nicht ganz verkehrt. Meines Erachtens ist die Wahrscheinlichkeit Datenverlust durch menschliche Fehler (z.B. des Administrators) zu erleiden deutlich höher.

  • gunnarh man unterliegt hier aber der Boshaftigkeit der Statistik, auch wenn von 100 Platten "nur" 3 Platten kaputt gehen,

    kann es dennoch dazu führen, daß 100% der Daten eines vServers verloren sind ...


    bei 4 Platten die ein Raid10 bilden ist die Wahrscheinlichkeit eines Totalausfalles

    bei Ausfall einer Platte: 0

    bei Ausfall von 2 Platten: 1/2

    bei Ausfall von 3 od. mehr Platten: 1


    bei 6 Platten die ein Raid10 bilden ist die Wahrscheinlichkeit eines Totalausfalles

    bei Ausfall einer Platte: 0

    bei Ausfall von 2 Platten: 1/5

    bei Ausfall von 3 Platten: 3/5

    bei Ausfall von 4 od. mehr Platten: 1


    bei 8 Platten die ein Raid10 bilden ist die Wahrscheinlichkeit eines Totalausfalles

    bei Ausfall einer Platte: 0

    bei Ausfall von 2 Platten: 2/13

    bei Ausfall von 3 Platten: 4/9

    bei Ausfall von 4 Platten: 27/35

    bei Ausfall von 5 od. mehr Platten: 1


    und Prozentrechnung ist auch eher Teufelswerk:

    "um wieviel Prozent nimmt Dein Kontostand zu, wenn Du vorher 1 EUR im Minus warst und nachher 1000 EUR im Plus?":D

    Grüße / Greetings

    Walter H.


    RS 1000 SAS G7SE / RS 500 SAS G8 / VPS 100 G7SE / RS 2000 SAS Ostern 2018

  • und Prozentrechnung ist auch eher Teufelswerk:

    Stochastik und Kombinatorik mindern jetzt nicht gunnarh s Kommentar.

    Deine Aufstellung ist hingegen nicht richtig, da du immer noch von einem Raid10 ausgehst, wenn eine Platte bereits ausgefallen ist. Du müsstest das noch mit der Wahrscheinlichkeit kombinieren, dass mehr als eine Platte zeitgleich ausfallen bevor Netcup reagieren kann.

  • Klar, ich hab hier nur günstig durch möglich genommen, unbeachtet der von Dir H6G angedachten Wahrscheinlichkeit;

    ob eine defekte Platte automatisch durch eine sogenannte 'Hot Spare' ersetzt wird, wissen wir auch nicht;


    ich denke daß hier nc einen guten Job macht, aber wenn die Stricke reißen, und echt die 'falschen' Platten verbaut wurden,

    kann nc auch nichts vorgeworfen noch angelastet werden;


    Von daher ist ein Backup unerläßlich;

    Grüße / Greetings

    Walter H.


    RS 1000 SAS G7SE / RS 500 SAS G8 / VPS 100 G7SE / RS 2000 SAS Ostern 2018

  • Von daher ist ein Backup unerläßlich;

    Das ist zweifellos richtig. Wegen der velen Arten, Daten durch Fehlbedienung oder Softwarefehler zu verlieren.


    Aber die obigen Prozentrechnungen gehen von der Annahme aus, dass eine defekte Platte bis zum Jahresende nicht ersetzt wird. Die Annahme ist ziemlich sicher falsch. So bald eine defekte Platte ersetzt und wieder synchronisiert ist, ist der Normalzustand wiederhergestellt. Und die Profi-Plattensysteme, die ich kenne, haben Hot Spares ...

  • Hay,

    So bald eine defekte Platte ersetzt und wieder synchronisiert ist, ist der Normalzustand wiederhergestellt.

    deswegen bin ich ziemlich sicher, dass hier mit Hotspares gearbeitet wird. Denn ein Sync ist sehr belastend und führt dazu, dass die Ausfallwahrscheinlichkeit während eines Syncs drastisch ansteigt.


    Deswegen gehen die meisten RZs, bei denen es nicht auf Kostenersparnis (bzw. günstigeres netto-brutto-Verhältnis beim Speicherplatz), sondern auf Datensicherheit ankommt, mittlerweile auf Raid 10 und nicht mehr auf das klassische Raid 5 (abgesehen, dass Raid 5 langsamer ist): Die Parityplatte eines Raid 5 wurde immer viel stärker belastet als die reinen Datenplatten und ist deswegen häufiger ausgefallen. Wenn DIE dann auch noch gesynct werden muss...


    CU, Peter

  • CmdrXay wieso sprichst Du bei Raid5 von DER Parityplatte?

    ein Raid5 ist für 3 od. mehr Platten definiert,

    und im Falle von genau 3 Platten befindet sich auf jeder Platte jeweils 2/3 Nutzdaten und 1/3 Parity


    es gibt auch noch ein Raid6, welches ab 4 Platten definiert ist,

    und gegenüber einem Raid10 zwar langsamer ist, aber eine höhere Sicherheit bietet,

    was den Ausfall von Platten betrifft;

    Grüße / Greetings

    Walter H.


    RS 1000 SAS G7SE / RS 500 SAS G8 / VPS 100 G7SE / RS 2000 SAS Ostern 2018

  • Da ich hier auf meine Pi-mal-Daumen Schätzung mehrfach angesprochen wurde vielleicht auch noch meinerseits ein paar Worte.


    1. Ich habe keine Ahnung welche Disks zum Einsatz kommen. Alleine die Auswahl der Disks und der konkreten Charge lässt die Kalkulation schon um Zehnerpotenzen auseinander laufen.

    2. Ich habe keinen Einblick wie Netcup das Raid baut. Meine Annahme war die schlechtere (zuerst stripen, dann spiegeln). Wenn Netcup zuerst plattenweise spiegelt dann striped, und wenn vielleicht nicht 6 sondern nur 4 Platten für das RAID10 verwendet werden kommt auch gleich ein deutlich anderer (auch besserer) Wert raus.

    3. Ob eine Hot-Spare Platte zum Einsatz kommt, oder der diensthabende Techniker einfach bei Alarm des RAID-Systems zügig die Platte manuell ersetzt, ist in Bezug auf die Ausfallswahrscheinlichkeit des Gesamtraidverbundes nur mäßig relevant. Die Zahlen gelten für ein intaktes Raid mit aufrechter Redundanz. Sobald die Redundanz verloren ist, ist Feuer am Dach - dann liegt die Wahrscheinlichkeit eines Ausfalls plötzlich im Prozent- statt Promille-Bereich. Dass starke Aktivität (ReSync) hier zusätzlich stresst ist bekannt. Dass Platten aus der gleichen Tranche mit dem gleichen Lieferweg und gleicher Beanspruchung auch gerne mal zufällig recht zeitnah ausfallen ebenso. Wenn man hier signifikante Verbesserungen möchte, muss man einen RAID Verbund so bauen, dass auch bei Ausfall einer Platte weitere Redundanz noch garantiert vorhanden ist (und nicht nur in manchen Fällen, wie das bei RAID 10 bei einfacher Spiegelung der Fall ist).


    Es wurde nach der Wahrscheinlichkeit gefragt, dass ein Hardware-Fehler einen Datenverlust verursacht. Ich habe eine Schätzung abgegeben, die lediglich die Disken des RAID-Verbundes berücksichtigten. Menschliche Fehler (auch am Hostsystem), Fehler des RAID-Controllers selbst etc... blieben unberücksichtigt und sind ebenfalls signifikant.


    Meine best guess Kalkulation lautete: Statistisch gesehen fällt je 1000 Hosts pro Jahr ein Raid-Verbund mit Datenverlust aus.


    Setzt man andere Zahlen ein, oder baut den Raid-Verbund geringfügig anders, kommt man auf 1 Datenverlust je 100 Hosts oder auch auf 1 Datenverlust je 20000 Hosts. Datenverlust bedeutet dann, dass alle 10/20/50/100 Kunden am Hostsystem betroffen sind.


    Defekte Disks die zu tauschen sind, ist sicherlich Tagesgeschäft. Bei 1000 Hosts mit angenommen 6000 Disks sind vermutlich 50-200 Disks pro Jahr wegen Defekt zu tauschen. Also alle 2-3 Tage eine Disk. Das sollte Routine sein.

  • wie wahrscheinlich ist es denn, dass von einem der Root-Server Daten aufgrund eines Hardware-Defektes unwiederbringlich verloren gehen?

    Auf den Servern liegt ein RAID-Verbund vor. Dieses dient der Ausfallsicherheit (liegt ein Hardware-Defekt vor, geht der Normalbetrieb dennoch weiter). Ein RAID war noch nie dazu gedacht als Primäraufgabe der Datensicherung (Vorbeugung des Datenverlust) zu dienen. Ein RAID ist für Server üblich, da ein Festplattenausfall nicht selten vorkommt - in der Dimension in der diese in Rechenzentren verbaut werden -, um die Ausfallwahrscheinlichkeit des Servers mittels Redundanz zu verringern.


    Da ein Datenverlust ebenfalls zu einem Ausfall führt, hat natürlich auch netcup ein Interesse daran, dass dieser Fall nicht eintrifft, auch wenn natürlich viele andere Faktoren die Ausfallwahrscheinlichkeit beeinflussen. Mit einem SLA+ liegt also die Wahrscheinlichkeit eines Ausfalls (respektive Datenverlust) durch Hardwaredefekt bei Netcup unterhalb von 0,1%, um deine Frage auf theoretischer Basis zu beantworten.


    Ausfall und Verlust sind zwei verschiedene paar Schuhe, auch wenn sie sich gegenseitig beeinflussen. Im noch so unwahrscheinlichen Falle einer Überspannung würden alle verbauten Komponenten gleichzeitig ausfallen können. Nach einer Erdbebenkatastrophe in Japan haben sich deswegen auch Deutsche Datenretter über Aufträge gefreut (wobei wir hier in Deutschland keine Erdbeben zu erwarten haben). Wenn es also um Datensicherung geht, führt kein Weg darum herum die Daten an einem (geographisch/juristisch/organisatorisch/physikalisch) zweiten Ort zu speichern, je nachdem, vor welchem Risiko man sich absichern möchte. Auch auf anderen Ebenen, wie der politischen, gibt es Konzepte um Kontinuität und Sicherheit zu gewährleisten, wie konkret bspw. der Föderalismus hier in Deutschland. ;)


    • Datensicherung bei netcup:
      • Bei den Webhosting-Paketen legt netcup Backups an. Bei den Server-Paketen finden laut meinen Informationen keine automatischen Backups statt - da Umfang und Zeitpunkt von Backups immer auf die jeweiligen Anforderungen abgestimmt werden sollten. Selbst komplett Synchron laufende Rechenzentren in einigen Kilometer Entfernung, wie es sich große Anbieter leisten, schützen nicht vor "menschlichem Versagen" (wie Bedienfehler heutzutage genannt werden, als ob eine KI es besser könnte).
      • Die KVM Snapshot-Funktion von Netcup legt ein Snapshot auf der gleichen Platte an (inkrementell - Ressourcensparend), sodass man bspw. bei einem fehlgeschlagenen Wartung oder eines Hacks am vServer Änderungen leicht zurückschrauben kann.
      • Netcup bietet Storagespace an, den man zusätzlich zu seinem Server mieten kann. Dieser wird auf einen anderen Hardware bereitgestellt.
      • Daneben bietet Netcup separaten Backup-Speicher an (https://www.netcup.de/bestellen/produkt.php?produkt=43) bzw. es wird geraten für individuelle Wünsche sich mit dem Support in Verbindung zu setzen.
    • Mögliche Arten der Datensicherung:
      • organisatorisch: Ein Backup auf einem anderen System oder bei einem anderen Anbieter.
      • physikalisch: Ein Backup an einem anderen Ort
      • juristisch: Ein Backup in einem anderen Hoheitsgebieten (bspw. Russland)
      • physikalisch: Auf Band, Flash-Speicher, HDD, DVD, m-Disc

    Wenn dir wirklich viel an den Daten liegt, sollte dich keine Statistik der Welt davon abhalten Schutzmaßnahmen zu ergreifen. Denn wenn der unwahrscheinliche aber mögliche Einzelfall eintreten sollte - egal wie oft es zuvor glimpflich ausging, wird es zu spät sein, sich darüber Gedanken zu machen, wie uns damals die Schullektüre Homo Faber lehrte.


    Ich habe vollstes Vertrauen in netcup, doch im Zweifelsfall haben selbst Unternehmen wie Google Datenverluste und Ausfälle zu verzeichnen. Der DE-CIX hatte dieses Jahr in einem seiner Nodes ebenso einen Ausfall, ebenso wie erst kürzlich zum Prime Day 2018 der Serverriese Amazon. Ich persönlich betrachte für meine persönliche Einschätzung, wie kompetent das Auftreten eines Unternehmens ist und sehe mir hierfür elementar den äußern IT-Stack, fernab der Aufmerksamkeit der Marketing und HR-Abteilungen, an (HTML-Code der Homepage, IPv6 und DNSSEC-Support, TLS-Zertifikat-Chain, PIWIK-Nutzung etc.), von dem insbesondere eine IT-Unternehmen etwas verstehen sollte. Auf Basis solcher META-Informationen, die ich selbst über Einzelhandelsunternehmen oder politische Parteien als aufschlussreich erachte, bilde ich mir mein Urteil. Und wie man sieht fiel meine Wahl dabei auf netcup. ;)