Regelmäßige IO Probleme

  • Ein Ding, das mir auch bei SSDs aufgefallen ist: wenn diese sehr große Datentransfers zu bewältigen haben, ist häufig der DRAM oder SLC Cache irgendwann erschöpft und die hohe Performance bricht deutlich ein. Vielleicht sehen wir das hier ständig.

    RS Ostern L OST22 (~RS "3000" G9.5) (8C,24GB,960GB) | RS Cyber Quack (1C,2GB,40GB)

  • Muss das Thema wieder hochholen: aktuell ist es imho wieder recht schlimm mit 100% SSD Auslastung bei 5-15 Mbytes/s...

    RS Ostern L OST22 (~RS "3000" G9.5) (8C,24GB,960GB) | RS Cyber Quack (1C,2GB,40GB)

  • Mich plagt es auch, Support sagt leider sinngemäß „das ist kein Grund die VM auf einen anderen Host zu verschieben“. Muss da erst was brennen? Was ist denn ein guter Grund die VM zu verschieben?

  • Mich plagt es auch, Support sagt leider sinngemäß „das ist kein Grund die VM auf einen anderen Host zu verschieben“. Muss da erst was brennen? Was ist denn ein guter Grund die VM zu verschieben?

    Wobei das vermutlich auch nur eine temporäre Lösung ist, bis auch der neue Node entsprechend viele VMs hat und sich die IO Performance auch dort wieder verschlechtert. Das klingt ja alles eher nicht nach Hardware Problemen, sondern schlicht nach Überprovisionierung. Ich würde in diesem Fall einfach mal die iowait über einen längeren Zeitraum messen und falls die entsprechend hoch ist, damit zum Support gehen. Gerade wenn es ein RS ist. Bei VPS Servern hat man wohl einfach Pech gehabt. Wobei mich das auch nicht wundert, wenn hier alle den ganzen Tag über Yabs Benchmarks laufen lassen ;)

  • Habe zwei RS, einmal wurde der problematische mit Screenshot als Beweis mit 0-5 Mbytes/s bei 100% Auslastung schon verschoben.

    RS Ostern L OST22 (~RS "3000" G9.5) (8C,24GB,960GB) | RS Cyber Quack (1C,2GB,40GB)

  • Mich plagt es auch, Support sagt leider sinngemäß „das ist kein Grund die VM auf einen anderen Host zu verschieben“. Muss da erst was brennen? Was ist denn ein guter Grund die VM zu verschieben?

    Wobei das vermutlich auch nur eine temporäre Lösung ist, bis auch der neue Node entsprechend viele VMs hat und sich die IO Performance auch dort wieder verschlechtert. Das klingt ja alles eher nicht nach Hardware Problemen, sondern schlicht nach Überprovisionierung. Ich würde in diesem Fall einfach mal die iowait über einen längeren Zeitraum messen und falls die entsprechend hoch ist, damit zum Support gehen. Gerade wenn es ein RS ist. Bei VPS Servern hat man wohl einfach Pech gehabt. Wobei mich das auch nicht wundert, wenn hier alle den ganzen Tag über Yabs Benchmarks laufen lassen ;)


    Auch aus meiner Sicht wird ein Umzug mittlerweile nicht wirklich helfen. Denn schaut man sich folgendes Ergebnis genauer an, so rieht es eher danach aus, als werden mittlerweile aus Kostengründen die virtuellen Platten der virtuellen Server, egal ob VPS oder RS, auf sogenannte "Block Storage Volumes" ausgelagert. Mehr siehe folgendes Meßergebnis, welches ich auf einen RS 4000 G9.5 erstellt habe:

  • Auch aus meiner Sicht wird ein Umzug mittlerweile nicht wirklich helfen. Denn schaut man sich folgendes Ergebnis genauer an, so rieht es eher danach aus, als werden mittlerweile aus Kostengründen die virtuellen Platten der virtuellen Server, egal ob VPS oder RS, auf sogenannte "Block Storage Volumes" ausgelagert. Mehr siehe folgendes Meßergebnis, welches ich auf einen RS 4000 G9.5 erstellt habe:

    Habe ich gerade auch mal ausgeführt:


  • Denn schaut man sich folgendes Ergebnis genauer an, so rieht es eher danach aus, als werden mittlerweile aus Kostengründen die virtuellen Platten der virtuellen Server, egal ob VPS oder RS, auf sogenannte "Block Storage Volumes" ausgelagert.

    Ist das nicht eher sogar ein tolles Feature im Allgemeinen? Bisher ist es ja so, dass wenn der Host abraucht, zwangsläufig auch die Daten verloren sind, wenn die "Platten" in Mitleidenschaft gezogen worden sind. Dann könnte ich endlich an einigen Stellen Redundanz aufgeben da der Storagespace ja nicht für dauerhafte Nutzung geeignet ist.

  • Auch aus meiner Sicht wird ein Umzug mittlerweile nicht wirklich helfen. Denn schaut man sich folgendes Ergebnis genauer an, so rieht es eher danach aus, als werden mittlerweile aus Kostengründen die virtuellen Platten der virtuellen Server, egal ob VPS oder RS, auf sogenannte "Block Storage Volumes" ausgelagert. Mehr siehe folgendes Meßergebnis, welches ich auf einen RS 4000 G9.5 erstellt habe:

    Meinst du damit, der Storage läuft auf irgendwelchen SAN mit entsprechenden Caching welches dann die Grätsche macht?

  • Hallo zusammen,


    danke für euer Feedback bezüglich der I/O-Performance. Uns sind aktuell hier keine größeren, allgemeinen Probleme bekannt. Wir möchten euren Berichten daher auf jeden Fall detailliert nachgehen, um nachvollziehen zu können, wodurch dies in euren Fällen bedingt ist.


    Bitte lasst daher unserem Support via Kontaktformular oder direkt an mail@netcup.de folgende Informationen zukommen:

    • Name des Servers
    • Tritt das Problem sporadisch auf (gibt es z.B. immer wieder kurze "Hänger") oder ist die Performance dauerhaft schlecht?
    • Falls das Problem sporadisch auftritt: Zu welchen Zeiten könnt ihr dies beobachten? Gibt es bestimmte Zeiten, zu denen es besonders schlimm ist?
    • Ausgaben von I/O-Speedtests / anderen geeigneten Nachweisen des Problems, falls leicht erstellbar (z.B. wenn das Problem dauerhaft besteht), idealerweise im Rettungssystem erstellt.

    Dies ermöglicht es uns, Korrelationen zwischen den betroffenen Servern herzustellen und die Situation schnellstmöglich zu verbessern.


    Bitte weist in eurer Nachricht an den Support auf meinen Beitrag hier hin, damit dieser weiß, dass er es direkt an die zuständige Abteilung weiterleiten kann.

    Denn schaut man sich folgendes Ergebnis genauer an, so rieht es eher danach aus, als werden mittlerweile aus Kostengründen die virtuellen Platten der virtuellen Server, egal ob VPS oder RS, auf sogenannte "Block Storage Volumes" ausgelagert.

    Um eine höchstmögliche Performance für unsere Kunden sicherzustellen, werden alle Server-Images lokal auf dem Hostsystem gespeichert. Wir verwenden dafür keine Netzwerkspeicher-Systeme.


    Vielen Dank für eure Unterstützung!

  • Bei mir äußert sich das in hohem iowait, ein nano-Editor benötigt sporadisch Sekunden, um zu öffnen. Ein Ticket dazu habe ich vor ca. einem halben Jahr geöffnet, 80.000 Zeilen Log waren wohl nicht ausreichend und es wurde unbearbeitet geschlossen. ;(

    • Ausgaben von I/O-Speedtests / anderen geeigneten Nachweisen des Problems, falls leicht erstellbar (z.B. wenn das Problem dauerhaft besteht), idealerweise im Rettungssystem erstellt.


    Vielleicht wäre es dafür von Vorteil, wenn ihr das Rettungssystem mal aktualisiert. Momentan basiert es auf Debian oldoldoldoldstable, sodass man keinerlei Tools wie bspw. hdparm nachinstallieren kann.

  • Vielleicht wäre es dafür von Vorteil, wenn ihr das Rettungssystem mal aktualisiert. Momentan basiert es auf Debian oldoldoldoldstable, sodass man keinerlei Tools wie bspw. hdparm nachinstallieren kann.

    Hallo bjo,


    danke für dein Feedback.


    Ich habe es an das zuständige Team weitergegeben und darum gebeten, das zu prüfen. Das genannte Tool hdparm ist (neben anderen nützlichen Tools für Tests dieser Art, wie z.B. fio) bereits standardmäßig im Rettungssystem enthalten. Ich kann den Wunsch nach neueren und aktuellen Versionen, sowie der Möglichkeit, ohne Umwege Pakete zu installieren, aber natürlich gut nachvollziehen.

  • Hallo bjo,


    danke für dein Feedback.

    Ich habe es an das zuständige Team weitergegeben und darum gebeten, das zu prüfen. Das genannte Tool hdparm ist (neben anderen nützlichen Tools für Tests dieser Art, wie z.B. fio) bereits standardmäßig im Rettungssystem enthalten. Ich kann den Wunsch nach neueren und aktuellen Versionen, sowie der Möglichkeit, ohne Umwege Pakete zu installieren, aber natürlich gut nachvollziehen.


    Wegen eines Durchsatzproblems wurde ich mal vom Support gebeten, iperf3 vom Rettungssystem auszuführen - das ist jedoch nicht im Rettungssystem vorhanden und ließ sich aus og. Gründen auch nicht nachinstallieren.

  • Danke für diese Infos hier. Ich habe seit Monaten genau dieses Problem: mein Server steht jeden Tag mehrmals für 30-60 Sekunden nahezu still, obwohl sich da nur ein paar Container langweilen. Ein uptime zeigt in diesen Momenten regelmäßig ein Load von mindestens Zweistellig an.

    Habe schon an mir selbst gezweifelt.

    Das Problem besteht seit meinem damaligen Post (Mai) immer noch, aber es es viiiiel seltener geworden (Laut Monitoring und einem einfachen shell-Skript in tmux)

    Da ich häufig per ssh auf der Maschine bin, fällt es mir auch immer mal wieder auf: Diese Hänger sind mindestens 10-30 Sekunden lang, und fühlen sich wie totaler Stillstand an. Ich habe auch schon mit iostat, iotop und vmstat innerhalb der Schleife gespielt; das war alles komplett unauffällig.

    Ich habe mal ein Logfile von Anfang September bis heute an den Support geschickt und hoffe sehr auf eine Lösung :thumbup: