Munin / steigendes I/O Wait

  • Ich grüße euch!


    Wir betreiben bei Netcup einen kleinen Root-Server mit 2 Kernen, 8GB Arbeitsspeicher und einer 500GB Festplatte.


    Über Munin sind wir auf die steigende Entwicklung der Festplattenwerte aufmerksam geworden. Obwohl die Auslastung der Festplatte in den letzten Monaten nicht signifikant gestiegen ist, hat sich z.B. die i/o wait time fast verdreifacht.


    Wie ist das zu erklären? Ist das normal oder habe ich Handlungsbedarf?


    Im Anhang findet ihr entsprechende Screenshots.


    Vielen Dank für eure Hilfe.

  • Hallo Vicman,


    mich würde mal interessieren warum im März plötzlich mal ein Knick nach unten war?


    Wenn das System tatsächlich nicht mehr schreibt kann es eigentlich nur die erhöhte Auslastung des Hosts sein.
    Wobei es für mich so aussieht als würdet ihr einfach mehr I/O machen. Sowohl schreiben als auch lesen.
    Das ist natürlich nicht abhängig vom Füllgrad der Festplatte...


    Thomas

  • Ja, der Knick im März ist uns natürlich auch aufgefallen. Ich hatte vielleicht an eine Defragmentierung gedacht, kann es aber nicht mehr nachvollziehen.


    Auf dem Server wird ein Online-Shop betrieben. Die Auslastung sollte in den letzten Monaten abgesehen von der stätig wachsenden Datenbank und entsprechendes Logfiles sehr gleichbleibend sein.


    Die Steigerung der Werte ist ja wirklich sehr linear. Ich kann es mir nicht erklären.

  • Was mir dazu einfällt: Ich hatte mal den seltsamen Effekt, dass mir Munin angezeigt hat, dass meine CPU-Load genauso linear ansteigt, wie das Deine IO-Wait in den Plots macht. Da es aber keine auffälligen Prozesse gab, die das ausgelöst haben könnten und die Load nach einer Woche bei einem Utopischen Wert von über 50 war, obwohl der Server ganz normal reagiert hat, hab ich einfach mal einen Neustart gemacht und seit dem waren die Werte wieder konstant unter 0.3 wo sie eigentlich immer sind.


    Ich würds mal ganz einfach mit einem Neustart versuchen und schauen, wie es danach aussieht...

  • Also die Werte von Munin kann man wirklich einfach ganz genau nachvollziehen.


    Erst mal über Telnet Port 4949 die Daten fetchen. Danach auf dem Client selber das Plugin ausführen und dann sieht man wie das sich die Werte ermittelt.
    Meistens kein Hexenwerk sondern einfachste Shellscripts.


    Außerdem kann ich mir nicht vorstellen dass der Server vom TO über 6 Monate lang nicht neu gestartet wurde.

  • Also, ich habe gestern Abend den Server neugestartet und auch die Deframentierung durchgeführt. Zusätzlich habe ich noch eine alte Snapshot-Instanz gelöscht, die seit einigen Monaten aktiv war.


    Leider keine positiven Veränderungen.


    Mal eine grundsätzliche Frage:
    Ist es denn normal, dass die Festplattenwerte stetig steigen? Oder sollten sie bei gleicher Auslastung auch über Monate gleichbleibend sein?

  • Bei meinen Kisten sind die Disk-Werte ziemlich konstant - da bei dir aber ja auch der Throughput ansteigt würde ich vermuten, dass daran eine Anwendung schuld ist.
    Steigt denn vllt. auch die Anzahl an Threads? Nach dem Neustart jetzt sind die werte wieder unten? Oder Steigen die Graphen von dort aus weiter, wo sie in deinem Screenshot waren?

  • Also ich habe insgesamt 8 Server auf denen unterschiedliche Betriebssysteme laufen (Ubuntu 14.04 & 16.04, Debian Wheezy & Debian Jessie) und auf keinem davon sind bei der IO-Wait irgendwelche Trends erkennbar. Selbst die Vermutung, dass eine vollere Festplatte automatisch zu höherem IO-Wait führt, scheint so pauschal nicht zu stimmen, denn auf einem der Server ist die Plattenauslastung im Lauf der Monate von 10% auf 90% gestiegen, ohne dass es sich auf die IO-Wait ausgewirkt hätte, ich denke das kommt erst, wenn man sehr nah an die Auslastung von 100% kommt.


    Deshalb halt auch meine Vermutung, dass es sich eher um ein Artefakt handelt. Bei mir war das übrigens kein Munin-Artifakt, sondern wohl ein Problem mit einem Ubuntu Kernel bei Betrieb mit KVM-Virtualisierung, wo die Loadberechnung anders erfolgt auf einem nicht virtualisieren System. Durch den Neustart wurde auch ein neuer Kernel gebootet, wo das Problem fehlerhafter Loadberechnung unter KVM gefixt war und es könnte zumindest auch sein, dass die Ursache in diesem Bereich liegt, weil der Anstieg so auffällig linear verläuft...

  • Guten Morgen,



    gerne beantworte ich Ihre Frage.


    Zitat

    Mal eine grundsätzliche Frage:


    Ist es denn normal, dass die Festplattenwerte stetig steigen? Oder
    sollten sie bei gleicher Auslastung auch über Monate gleichbleibend
    sein?

    Besonders bei vServern mit großen Festplatten, ist es zu erwarten das die IO-Last mit der Zeit zunimmt. Zum einen weil man in der Regel selbst mehr Daten ablegt, zum anderem auch weil andere das ebenso tun. Die gesamte IO-Last nimmt auf den Nodes zu. Dieses können wir so bestätigen. Genau aus dem Grund haben wir ja auch Root-Server mit SSD Festplatten im Angebot, deren Kapazität bewusst kleiner gehalten wird. Da diese Root-Server als Compute-Einheiten und eher selten als Data-Storage genutzt werden, ist hier die IO-Last fast gleichbleibend sehr gut.


    Als Kunde können Sie entscheiden ob Sie große SAS oder extrem schnelle SSD-Festplatten nutzen möchten. Selbstverständlich stellen wir sicher, dass kein vServer / Root-Server so viel IO Last erzeugen kann, dass andere Kunden einen Nachteil dadurch haben.



    Viele Grüße


    Felix Preuß

  • Wir betreiben bei Netcup einen kleinen Root-Server mit 2 Kernen, 8GB Arbeitsspeicher und einer 500GB Festplatte.


    Über Munin sind wir auf die steigende Entwicklung der Festplattenwerte aufmerksam geworden. Obwohl die Auslastung der Festplatte in den letzten Monaten nicht signifikant gestiegen ist, hat sich z.B. die i/o wait time fast verdreifacht.


    Wie ist das zu erklären? Ist das normal oder habe ich Handlungsbedarf?


    Wenn ich mir deine Diagramme so anschaue, würde ich eher mal darauf tippen, dass das Note im laufendem Jahr mehr und mehr an Last zugenommen hat und erst kurz vor Ende März mal neu durchgestartet wurde. Von daher würde ich an deiner Stelle mal bis zum nächsten Neustart des Note abwarten und danach die Werte noch mal mit den alten Werten vergleichen. Denn laut deiner Diagramme dürfte es bis zum Neustart nicht mehr lange dauern.


    Im Diagramm rechts oben trägt dein Laufwerk deines Servers noch die Bezeichnung vd (vda).
    Irgendwo hier im Forum habe ich mal gelesen, dass netcup mittlerweile alle Neu- und auch Altsysteme aus Gründen der besseren Performance von der bisherigen Laufwerksbezeichnung vd auf sd umstellt bzw. schon umgestellt hat, was sich aber bei Altsystemen erst nach einer Neuinstallation bemerkbar machen soll.