Hohe DiskLatency / iowait

  • Hallo,


    Meine drei Storage-Server liegen was iowait und latency angeht etwas über allen anderen, aber dort findet auch relativ viel I/O statt (ceph-cluster), sodass das generell ok ist. Einer der drei Storage-Server sticht jedoch (negativ) heraus, was sich leider auch unmittelbar auf die Performance des Clusters auswirkt. Bei allen drei Servern handelt es sich um S 8000 G7.


    Als Quelle für meine Messungen habe ich mal munin herangezogen:


    Bezeichnung Server g Server i Server k
    CPU cpu_week_g.png
    Avg iowait:
    0.28
    cpu_week_i.png
    Avg iowait:
    0.69
    cpu_week_k.png
    Avg iowait:
    0.28
    Disk Latency
    Achtung:
    unterschiedliche Skalen
    diskstats_latency_week_g.png
    Avg (ms):
    50
    diskstats_latency_week_i.png
    Avg (ms):
    235
    diskstats_latency_week_k.png
    Avg (ms):
    50
    Disk Throughput diskstats_throughput_day_g.png
    Avg read / write (MB/s):
    5.3 / 3.7
    diskstats_throughput_day_i.png
    Avg read / write (MB/s):
    5.0 / 3.1
    diskstats_throughput_day_k.png
    Avg read / write (MB/s):
    6.7 / 3.2
    Disk Utilization Avg:
    0.32
    Avg:
    0.72
    Avg:
    0.39


    Gestern habe ich einen neuen Server eines anderen Anbieters mit als OSDs in den Cluster eingefügt, weshalb von k, g und i so viel gelesen wurde.

    i hat einen viel höheren iowait-Wert und Disk Latency als g und k bei vergleichbarem Durchsatz. Ich finde keine Erklärung dafür. Alle Server sind einzig und alleine dafür da, dem ceph-Cluster als OSD bereit zu stehen; es laufen keine sonstigen Anwendungen darauf, die nicht für den Betrieb notwenig sind (und selbst dann laufen sie auf allen drei Servern).


    Derzeit lasse ich i leer räumen, um ihn sauber rauszunehmen und einmal neu aufzusetzen & neu einzugliedern.


    Übersehe ich etwas? Woran kann es liegen? Hat jemand vielleicht ähnliche Probleme oder Ideen wie ich dem Ganzen auf die Spur kommen kann?


    Viele Grüße aus Hamburg

  • i hat einen viel höheren iowait-Wert und Disk Latency als g und k bei vergleichbarem Durchsatz. Ich finde keine Erklärung dafür. Alle Server sind einzig und alleine dafür da, dem ceph-Cluster als OSD bereit zu stehen; es laufen keine sonstigen Anwendungen darauf, die nicht für den Betrieb notwenig sind (und selbst dann laufen sie auf allen drei Servern).


    Übersehe ich etwas? Woran kann es liegen? Hat jemand vielleicht ähnliche Probleme oder Ideen wie ich dem Ganzen auf die Spur kommen kann?


    Du übersiehst eventuell, dass du dir das Hostsystem, auf dem unter anderem auch einer deiner virtuellen Maschinen S 8000 G7 installiert ist, noch mit weiteren Kunden teilst und du somit nicht exklusiv die Leistung des Hostsystem nutzen kannst. Von daher auch diese unterschiedlichen Ergebnisse der einzelnen VM´s S 8000 G7.

  • Habe zwei meiner drei Storage-Server (g+i) ordentlich gekündigt. Die disk latency und utilization ist zumindest für mein Anwendungsfall einfach nahezu mies (im Prinzip auf allen Systemen; i war einfach das extrem). Server k behalte ich vorerst nur, weil er aus der 20% Rabattaktion stammt und damit ich im gleichen Rechenzentrum, in dem auch die RADOS-Block-Devices verwendet werden zumindest noch einen node habe... Perspektivisch wird er wohl im nächsten Jahr auch nur noch als Backup-Space herhalten.


    //Edit: Server a, der von einem Konkurrenten (mit dem netcup meines Wissens nach eine gemeinsame Vergangenheit hat oder auch noch heute zusammen arbeitet) stammt, weist seineszeichen als dedizierter Server im gleichen Preissegment bessere Performance auf:

    diskstats_latency_week.png

  • //Edit: Server a, der von einem Konkurrenten (mit dem netcup meines Wissens nach eine gemeinsame Vergangenheit hat oder auch noch heute zusammen arbeitet) stammt, weist seineszeichen als dedizierter Server im gleichen Preissegment bessere Performance auf:

    diskstats_latency_week.png

    Eine Anmerkung von mir: Bei einem dedizierten Server (kein Root-Server, der virtualisiert ist), dessen Ressourcen man exklusive nutzt, sind solche Werte auch kein Problem zu erreichen. Selbst wenn er nur 1GB RAM und einen CPU-Kern hätte.

  • Eine Anmerkung von mir: Bei einem dedizierten Server (kein Root-Server, der virtualisiert ist), dessen Ressourcen man exklusive nutzt, sind solche Werte auch kein Problem zu erreichen. Selbst wenn er nur 1GB RAM und einen CPU-Kern hätte.

    Jo, deshalb hab ich der Fairness auch direkt dazu geschrieben, dass es ein dedizierter ist. Ich habe auch diese Performance nicht hier erwartet; aber so jetzt halt festgestellt, dass ein echter dedizierter Server besser zu meinen Anforderungen passt.

  • Hecke29 : Ich nehme mal an, dass wir hier den gleichen Provider meinen. Denn der hatte ja im letzten Monat aufgrund seines 20 jährigen Bestehens bis Ende des letzten Monats für bestimmte dedizierte Server die Setup-Gebühr erlassen. Dieses Angebot habe ich auch wahrgenommen und hatte dann schon nach ca. 15 Tagen Testphase für mich aufgrund der extrem guten Performance entschieden, dass unter anderem auch die Root-Server RS 6000 und RS 3000 bei netcup auf diesem dedizierten Server als virtuelle Standby-Server umgezogen werden. Dadurch spare ich jetzt nicht nur unterm Strich ca. 20 Euro pro Monat, sondern habe dadurch auch die Performance in Bezug des IO´s deutlich verbessert.

  • Guten Morgen,



    vielen Dank für Ihr Feedback!


    Unsere Storage-Server sind auf den Wunsch einiger Kunden entstanden. Hier war es in erster Linie wichtig, dass wir viel Speicherplatz zu einem günstigen Preis anbieten. CPU-Leistung, RAM und IO-Durchsatz stehen hier, nach dem Preis, an dritter Stelle.


    Wer viel IO haben möchte, fährt mit unseren Root-Server der SSD Variante unserer aktuellen Generation sicherlich sehr gut. Diese schaffen in der Regel einen weitaus besseren Durchsatz wie preisgleiche und zum Teil gar teurere dedizierte Server (500 MBytes/s - 900 MBytes/s schreiben). Ein auf Datensicherheit ausgelegtes RAID-System ist hier mit inbegriffen.


    Generell sollte auch beachtet werden, dass unsere vServer Produkte alle auf einer hoch redundant ausgelegten Infrastruktur arbeiten. Sie sind redundant an Strom und mehrfach redundant ans Netzwerk angebunden. Sollte eine Festplatte einmal ausfallen, tauscht unser Support diese automatisch aus, ohne das Sie als Kunde davon etwas mitbekommen. Im Fall eines totalen Hardwareausfalls (z.B. Mainboard defekt), wird Ihre VM innerhalb weniger Minuten auf einer Ersatzhardware neu gebootet. Dadurch können wir hier Verfügbarkeiten garantieren, die kostengünstige dedizierte Server nicht erreichen. Darüber hinaus bieten wir einen sehr guten Traffic-Mix an, auch zur DTAG, der vielen unserer Kunden wichtig ist.


    Last but not least haben unsere vServer einen sehr großen Funktionsumfang, den dedizierte Server in der Regel erst im hochpreisigen Segment haben.


    Soviel zur Erklärung und Werbung :) Es gibt sicherlich auch Gründe die für den Einsatz kostengünstiger dedizierter Server sprechen. Besonders wenn viel Storage und dedizierte Hardwareressourcen gebraucht werden. Das will ich hier niemanden streitig machen. Allerdings ist dieses nicht unser Business und den Mitbewerber aus Falkenstein können wir dafür wärmstens empfehlen.



    Mit freundlichen Grüßen


    Felix Preuß

  • Hallo,


    als Abschluss:

    Ich möchte das Statement von [netcup] Felix unbedingt unterstreichen und weiß die Annehmlichkeiten hier bei netcup im Bezug auf die angebotenen Produkte auch weiterhin zu schätzen. Ich Bereich der Root-Server werde ich gerne weiterhin hier Kunde sein und intensiv die Angebote nutzen - da bin ich mir sicher.
    Auch der verbleibende Storage-Server wird ja einem neuen Zweck zugeführt, mein geplantes Projekt jedoch lässt sich darauf nur bedingt abbilden.


    Ich wollte letztlich mit meinem Statement diesen Thread hier schließen, falls irgendwer da draußen auch auf die Idee kommen sollte ein Ceph-Cluster betreiben zu wollen. Das "Problem" dieser Software ist, dass sie mit Hardwaredefekten umgehen kann (z.B: Ausfall ganzer Nodes, Ausfall einzelner Festplatten); dafür ist sie entwickelt und kann dies auch sehr gut. Sprich: Man kann von der Abstraktionsebene im Bereich persistenten Speichers der hiesigen virtuellen Umgebungen kaum profitieren. Ob ich die hier gebotenen 3 Server mit je einer riesigen (virtuellen) 10 TB Platte habe, die "nie" ausfällt, oder 3 Server mit 4x4 TB, wo von den 12 HDDs ein, zwei oder drei HDDs gleichzeitig ausfallen ist für Ceph bei entsprechender Konfiguration halt egal. Hier sind einfach Zugriffszeiten und Durchsatzraten für den regulären Betrieb wichtiger.


    Wie erwähnt bin ich zufriedener Kunde bei netcup und dies auch nicht erst seit gestern. Ich wollte jedoch meine Erfahrungen und Handlungen für diesen konkreten Use-Case hier für die Nachwelt festhalten.


    In diesem Sinne wünsche ich allen ein angenehmes Wochenende aus Hamburg