Regelmäßige IO Probleme

  • Hallo,


    Seit November habe ich mit einem meiner RS 2000 G9.5 enorme IO Probleme.

    Ich bin inzwischen fast jede Woche – jede 2. Woche mit dem Support in Verbindung, aber die einzige Lösung, die ich bekomme (wenn ich eine Antwort bekomme) ist, dass mein Server verschoben wird.

    Die Probleme lösen sich dadurch nie, es kommt nach ein paar Tagen wieder.


    Die IO Waits steigen mehrmals täglich auf Werte zwischen 60 und 90% bei durchschnittlich zwischen 10 und 20 IO/s und einer Datenrate von ~60-100 KB/s

    Bin ich hier der einzige, der derart schlecht Erfahrungen macht oder ist das hier inzwischen ein normaler Zustand?


    Anbei ein Bild aus meinem Dashboard, die Spikes sind jedes alles IO Waits


    LG,

    Dominik

    iowait.png

  • Also wenn mehrfaches verschieben nicht geholfen hat würde ich das Problem eventuell mal bei dir suchen. Welcher Prozess landet denn im IO Wait? Hast du potentiell IO intensive Prozesse drauf? Ist ausgeschlossen dass sich Cronjobs überholen und mehrfach laufen? Wie lange dauert es denn nach einem Neustart bis das Problem wieder auftritt?

  • Bei mir äußert sich das immer in der folgenden Grafik. Disk Queue Length des Root Device steigt und dann folgt die Kettenreaktion:
    pasted-from-clipboard.png


    Die Node ist Teil eines Clusterverbundes und alle schreiben die gleichen "persistenten" Daten. In der Vergangenheit war speziell nach den Sonderangeboten mehr Spikes zu erkennen. Daher habe ich bisher 3mal eine Node verschieben lassen und danach war auch auf absehbare Zeit erstmal wieder Ruhe.

  • Also wenn mehrfaches verschieben nicht geholfen hat würde ich das Problem eventuell mal bei dir suchen. Welcher Prozess landet denn im IO Wait? Hast du potentiell IO intensive Prozesse drauf? Ist ausgeschlossen dass sich Cronjobs überholen und mehrfach laufen? Wie lange dauert es denn nach einem Neustart bis das Problem wieder auftritt?

    Hallo,

    Es gibt keine IO intensiven Prozesse.

    Es läuft dort eine Postgres DB welche die meiste Zeit nichts tut. Alle anderen Prozesse sind CPU lastig, aber wie man an meiner Grafik sieht lasten die den Server noch lange nicht aus.

    Der Knoten dient als Standby in einem Cluster, als Aktiver Knoten kann sie aktuell nicht lange genutzt werden weil der Cluster aufgrund der IO Probleme immer umschaltet, weil das Betriebssystem teilweise nicht mehr reagiert.

    Mein aktueller aktiver Knoten hat diese Probleme nicht, also liegt das Problem definitiv nicht bei mir sondern bei Netcup

  • Also wenn mehrfaches verschieben nicht geholfen hat würde ich das Problem eventuell mal bei dir suchen. Welcher Prozess landet denn im IO Wait? Hast du potentiell IO intensive Prozesse drauf? Ist ausgeschlossen dass sich Cronjobs überholen und mehrfach laufen? Wie lange dauert es denn nach einem Neustart bis das Problem wieder auftritt?

    Nach dem Verschieben funktioniert es meistens ein paar Tage wieder normal, danach kommt das Problem wieder zurück.

    Ein Neustart bringt keine Besserung

  • Habe das auch seit heute Morgen. Führt auch schon zu CPU stalls


  • Ich dachte dass ich der einzige bin. Hatte das Problem auch bisher einmal, dann Serverwechsel, aber jetzt ist das Problem wieder zurück. Der Server läuft unter Windows, da zeigt sich das Problem so, dass die Datenträgerlast auf 100% hängt, dabei aber nur 3-8 Mbytes/s bewegt werden.

    RS Ostern L OST22 (~RS "3000" G9.5) (8C,24GB,960GB) | RS Cyber Quack (1C,2GB,40GB)

  • Zusatzinfos: Der Festplattendurchsatz auf der betroffenen Maschine is zu den betroffenen Zeiten (Problem ist mal ein paar Minuten da und dann wieder weg) unterirdisch. Problem tritt mit SCSI und virtio auf.


    Habe zum Beitrag oben weitere Screenshots hinzugefügt.


    Der Netcup Support möchte, dass ich das im Rettungssystem ebenfalls teste - ist natürlich immer etwas schwierig, ein zeitweise auftretendes Problem im Rettungssysem nachzustellen, während ein kurzer Blick auf den Host dieses Problem direkt sichtbar werden ließe...

  • Der Netcup Support möchte, dass ich das im Rettungssystem ebenfalls teste -

    Das wollten sie bei mir auch. Habe dann unter Windows einen 0Mbytes/s Durchsatz bei 100% Aktivität Screenshot geschickt. Hat wohl gereicht.

    RS Ostern L OST22 (~RS "3000" G9.5) (8C,24GB,960GB) | RS Cyber Quack (1C,2GB,40GB)

    Haha 2
  • Der Notfallsupport hat den Hardwaredefekt bestätigt und die VM verschoben. Erste Idee war, dass der RAID-Verbund oder RAID-Controller den Geist aufgegeben haben. Die Lösung war über den Notfallsupport gut, schnell und zielführend, aber ein Beigeschmack, warum ein solches Problem im Monitoring nicht auffällt / eskaliert wird, bleibt.


    Ergänzung für das volle Bild: Meine Anfrage beim "normalen" Support vom Donnerstagabend, blieb bis zum Anruf beim Notfallsupport am Samstagmorgen unbeantwortet. Schade, dass sich das niemand auch nur kurz angeschaut hat.

  • Der Notfallsupport hat den Hardwaredefekt bestätigt und die VM verschoben. Erste Idee war, dass der RAID-Verbund oder RAID-Controller den Geist aufgegeben haben. Die Lösung war über den Notfallsupport gut, schnell und zielführend, aber ein Beigeschmack, warum ein solches Problem im Monitoring nicht auffällt / eskaliert wird, bleibt.

    Dann fragt man sich, warum steht so eine Störung dann nicht mit auf der Störungsseite? Denn es betrifft ja mehrere Kunden.

  • Dann fragt man sich, warum steht so eine Störung dann nicht mit auf der Störungsseite? Denn es betrifft ja mehrere Kunden.

    Ich kenne persönlich keinen Anbieter, der das in der Form kommuniziert / automatisiert hat. Stelle mir auch die Frage wie man solche Dinge auf dem Wirtssystem sauber erkennen will, wenn einfach nur die Datenraten nicht in Ordnung sind, das Raid aber schon.

  • Ist halt schon bedenklich, dass da anscheinend mehrere Hosts und auch immer wieder betroffen sind.

    RS Ostern L OST22 (~RS "3000" G9.5) (8C,24GB,960GB) | RS Cyber Quack (1C,2GB,40GB)

    Gefällt mir 1
  • Bei mit heute auch: war ein Hardwaredefekt, ist behoben. Performance wieder auf üblichem Niveau. Im Januar hatte ich das aber auch schon...

    RS Ostern L OST22 (~RS "3000" G9.5) (8C,24GB,960GB) | RS Cyber Quack (1C,2GB,40GB)

    Gefällt mir 1
  • domett ich glaube, ich fühle mit dir. Wir fahren gute 100 RS bei netcup, der große Anteil der Server hat eine bestimmte Aufgabe ohne besondere Technologien wie Virtualisierung oder Containern. Teilweise betreiben wir Seiten mit ~100k Visits pro Tag, ihr könnt euch sicherlich vorstellen, wie ein solcher iowait Spike bei diesem verhalten aussieht und leider könnte ich gerade keinen einzigen Server nennen, der dieses Problem nicht hat. Bspw. dieser hier, auf dem nichts läuft außer ein idle nginx als fallback:


    idle.PNG


    Ist schon was her, dass ich das letzte mal darüber mit dem Support geschrieben habe, mit der Arbeit, die es mir macht, ins Rettungssystem zu booten und dann darauf zu hoffen, dass ich einen Spike irgendwie für den Support nachgewiesen bekomme, könnte ich eine Studi-Stelle ausfüllen.


    Unser k8s EventLog sieht auch ziemlich farbenfroh aus.. immerhin sind die Ausfälle hier nicht so schmerzhaft weil alles im HA und mit x replicas läuft.

  • Danke für diese Infos hier. Ich habe seit Monaten genau dieses Problem: mein Server steht jeden Tag mehrmals für 30-60 Sekunden nahezu still, obwohl sich da nur ein paar Container langweilen. Ein uptime zeigt in diesen Momenten regelmäßig ein Load von mindestens Zweistellig an.

    Habe schon an mir selbst gezweifelt.

  • Schreib ein Ticket. Bei mir wars, wie gesagt, ein HW Defekt auf dem Host. Bei mir ists Windows, aber ich würde vermuten dass Linux hier bei stoppender SSD Performance ein sehr hohes I/O Wait in top anzeigen würde.

    RS Ostern L OST22 (~RS "3000" G9.5) (8C,24GB,960GB) | RS Cyber Quack (1C,2GB,40GB)

    Einmal editiert, zuletzt von TBT ()

    Gefällt mir 1