KVM Serverperformance grenzwertig > Analyse?

  • Skulduggery
    Die Virtualisierungstechnologie LXC und auch OpenVZ darf man nicht mit der Vollvirtualisierungstechnologie, wie z.B. KVM oder VMware verwechseln. Denn diese Virtualisierungstechnologien sind eher ein besseres chroot, die selber so gut wie keine zusätzlichen Ressourcen benötigen.


    Ich selber nutzte auch - aufgrund der schon durch jbr27 genannten Vorteile - auf meinem virtuellen Server OpenVZ 7 und bin mit der Leistung der einzelnen virtuellen OpenVZ-Container voll und ganz zufrieden.

  • Um zum Thema zurück zu kommen: Gibt es schon weitere Erkenntnisse? Auf meinem Server kann ich seit einigen Tagen auch beobachten, dass offenbar Festplattenzugriffe plötzlich teilweise extrem langsam sind und Prozesse sehr lange darauf warten müssen. Im Extremfall dauert dadurch der Aufruf diverser PHP Skripte (die noch nicht im Opcode-Cache sind) mehrere Sekunden.
    Das tritt allerdings erst seit einigen Tagen auf und dauert manchmal nur Minuten bis zu knappen Stunde, dann rennt es wieder wie gewohnt. Gibt es da irgendeine handhabe dagegen oder muss ich einfach damit leben, dass hier offenbar ein »Nachbar« alle Ressourcen zeitweilig für sich beansprucht? :S

  • Wenn wir zum Ausgangsthema zurückkehren: Was ist beim OP Mittwoch kurz nach 12 Uhr gelaufen? Dort gibt es für eine längere Zeit einen Unterschied (hohe IOWait bei gleichzeitig erhöhten Durchsatz).


    Ist dieser Prozess auch für einige weitere Ausschläge verantwortlich?

  • ... Gibt es da irgendeine handhabe dagegen oder muss ich einfach damit leben, dass hier offenbar ein »Nachbar« alle Ressourcen zeitweilig für sich beansprucht? :S


    Da du dir die Ressourcen auf dem Host mit weiteren Kunden teilst und Diese eventuell auch nicht per Hard-Quota für jeden einzelnen Kunden begrenzt werden bzw. sind, wirst du mit diesem Problem leider leben müssen.


    Eventuell bringt es was, wenn du mal den Support direkt wegen diesem Problem anschreibst.

  • Ich habe bis jetzt keinen kritischen Prozess finden können, der für die schlechte Performance verantwortlich ist.


    Gerade habe ich nochmals alle Services (apache2, mysql, postfix, dovecot, munin-node, seafile) gestoppt und ein sysbench laufen lassen:


    Was ich mit htop und iotop beobachten konnte ist, dass die Belastung während des Benchmarks wirklich nur sehr gering scheint. Es ist sekundenlang kein io sichtbar, dann mal einige kbit/sek. Dasselbe gilt für die Prozessornutzung.


    Zum Vergleich der gleiche Test auf einem anderen Server


    Das bedeutet für mich, das es "außerhalb" meines Systems zu starken Verzögerungen kommen muss. Anders kann ich mir das nichr erklären. Morgen werde ich Kontakt zum Support aufnehmen.


    Viele Grüße

    Kommt in die inoffizielle Netcup Support-Gruppe auf Telegram: https://t.me/nc_chat :*

  • Guten Tag,



    ich habe den Beitrag jetzt nicht im Detail verfolgt. Allerdings kann ich denke ich eine Empfehlung für unsere neuen Root-Server in der SSD Variante aussprechen. Bei diesen gibt es deutlich bessere IO-Performance als in den vorangegangenen SSD oder gar SAS Modellen.


    Unverbindliche Tests sind im Rahmen der Zufriedenheitsgarantie machbar.



    Viele Grüße


    Felix Preuß

  • Mein zusätzliches Logging mit atop hat ebenfalls ein paar "Schuldige" hervorbringen können.


    Zuallererst muss ich Skulduggery Recht geben, dass der Treiber vermutlich nicht mit den LXC-Containern auf einem bereits virtualisierten Hostsystem zurecht kommt. Ebenfalls mit der Ausführung des Monitorings auf dem zu überwachenden Server, lag er richtig.
    Die hohe Disk-Latenz tritt ausschließlich dann auf, wenn alle LXC-Container (natürlich gleichzeitig :D) ihre Prozesse ausführen und dann noch zusätzlich die jeweiligen Graphen in einem weiteren Container erzeugt werden. Ja, nicht gerade schlau von mir gelöst, aber aus der Mangel an einem weiteren Server, zurzeit nicht anders möglich.
    Ebenfalls erzeugt Spamassassin während seines Trainings (sa-learn) eine recht hohe Festplattenauslastung.


    Zusammengefasst treten die Spitzen über den Tag verteilt vielleicht für 20-30 Minuten auf und Munin verschafft sich zu seinen Messzeitpunkten selbst eine hohe Disk-Latenz.

  • Hol dir doch die 19 cent Krücke und bau da dein Monitoring hin und gut ist, meinet wegen kann ich mir auch die 2,49€ Kiste mieten und Check_Mk drauf schmeissen und dir einen Zugang geben. Alles besser als das was momentan bei dir läuft ;) Natürlich kannst du auch Felix seinen Rat folgen das Uneffiziente Zeug nehmen und auf Hardware schmeissen das Uneffizient schnell macht...


    https://www.netcup.de/bestellen/produkt.php?produkt=1539

  • Hol dir doch die 19 cent Krücke und bau da dein Monitoring hin und gut ist, meinet wegen kann ich mir auch die 2,49€ Kiste mieten und Check_Mk drauf schmeissen und dir einen Zugang geben. Alles besser als das was momentan bei dir läuft ;) Natürlich kannst du auch Felix seinen Rat folgen das Uneffiziente Zeug nehmen und auf Hardware schmeissen das Uneffizient schnell macht...
    https://www.netcup.de/bestellen/produkt.php?produkt=1539


    Vielen Dank für's Angebot! Habe selbst noch einen VPS50 von der damaligen Aktion, den ich momentan nur als sekundären Nameserver (keine Sorge ohne LXC und BTRFS) verwende. In der nächsten freien Zeit werde ich die Munin-Instanz darauf umziehen und schauen, ob er das noch zusätzlich packt.

  • Wobei es mich nicht wundern wurde, wenn die kleinen VPS-Kisten für Munin zu schwach sind… :)



    MfG Christian

    "Wer nur noch Enten sieht, hat die Kontrolle über seine Server verloren." (Netzentenfund)

  • Gesagt, getan. Heute angeschrieben und wenig später hat man mir schon geholfen. :thumbup:
    Nun liegen die Zugriffszeiten auf die Platte wieder im grünen Bereich.


    Ich habe gestern Abend ebenfalls mal den Support angeschrieben. Mir wurde mitgeteilt, dass keine Störung an meinem Node vorliegt, ich aber einmalig auf ein anderes System migriert werden könnte. Dieses habe ich aber abgelehnt, da ich den Fehler zuerst noch genauer analysieren will.


    Nunja, auf wundersame Weise hat sich die Disk-Latenz direkt nach meiner Korrespondenz mit dem Support drastisch verbessert und liegt nun wieder bei den Werten vor der Störung. Ich habe euch ein paar Munin-Graphen angehängt.


    Da der Support angeblich nichts gemacht hat, bin ich jetzt etwas verwundert ?(.

  • Auch ich habe den Support kontaktiert und nachdem "einige Verbesserungen durchgeführt" wurden, läuft wieder alles wie geschmiert.


    Besten Dank auch an dieser Stelle an Netcup!