VM resettet sich

  • Hallo Lars,


    vielen Dank für die Aktion!

    Bitte lasst uns dazu in jedem Fall folgendes zukommen:


    - Euren vServer-Namen
    ...
    - Zeitpunkte, zu denen das Problem aufgetreten ist...


    Danke für eure Unterstützung! :)


    Idee:

    Wollt ihr vielleicht eine extra Mailadresse (oder speziellen Betreff)

    einrichten für standardisierte Infos zu den Resets?


    vNNNN Datum/Uhrzeit kernel


    und vielleicht die jeweilige Ticket-Nummer (oder eine spezielle nur dafür).


    Dann könnt ihr das auch automatisiert auswerten und korrelieren ...


    Viele Grüße

    Falko Trojahn

    • Offizieller Beitrag

    Hallo lulatsch66,


    für den Moment diese Informationen bitte ganz normal an mail@netcup.de senden, meine Kollegen wissen Bescheid und wir können es so aktuell am einfachsten auswerten. Danke :)

  • Moin,


    bin mir nicht sicher, ob ich mich hier einreihen soll, oder nicht. Wir haben hier ein Setup bestehend aus.. 6 RS 8000 G9, 1 RS 4000 G9 und 1 RS 2000 G9

    auf allen Server läuft ein Ubuntu 20.04.3 LTS mit einem 5.4.0-89-generic Kernel (also std. Installation aus dem SCP) mit jeweils Docker und 1-2 Services, die sich je nach Aufgabe des Servers unterscheiden bspw. apache/php-fpm. Im großen aber eigentlich kein Hexenwerk und vor allem steht keiner Server unter voller Last. Unsere Server starten zwar nicht neu, aber die CPUs scheinen in irgendeiner Form unresponsiv zu werden. Das manifestiert sich auf unterschiedlichste weise, endet aber häufig mit einem 'soft lockup' oder vereinzelt auch mit einem 'rcu_sched' eintrag im dmesg journal und unser LoadAVG und andere Metriken im Monitoring gehen kurz darauf (vermutlich selbstverständlich) durch die Decke.


    Wir versuchen seit geraumer Zeit diesem Problem habhaft zu werden, der watchdog/kernel scheint sich in irgendeiner Form nach kurzer Zeit wieder zu fangen - aber auch 'microfreezes' der Server für wenige Sekunden bis zu 1-2 Minuten sind für unseren UseCase an für sich inakzeptabel.


    Was meint ihr, gehört das zusammen oder doch eher ein anderes Problem? [netcup] Lars S. hast du ggf. eine Meinung dazu? Danke euch

  • Ich war mal so frei. Habe eine Antwort bekommen:


  • Interessant hierzu wäre natürlich, ob "diese Änderung" RS G8, G9 (oder beides) und jeweils mit oder ohne VMX/SVM Flag betrifft.

    Ich hatte nachgefragt ob das auch für einen Intel RS gilt und die Frage wurde vom Support mit „ja“ beantwortet. Bei mir war es generell ohne Flag.

  • Nach langen Jahren der NetCup Abstinenz wollte ich nun (privat) zurückkehren mit Proxmox für LXC (kein nested KVM) und lese das hier und viele andere Beiträge hier im Forum und im Proxmox Forum, auf Reddit und sonstigen seiten.


    Gibts denn Jemand der LXC Problemlos mit Proxmox bet Netcup am laufen hat oder ist das Generell ein Ding der Unmöglichkeit? Oder gibts gute Alternativen zu Proxmox? Ich könnte mir auch Vorstellen LXC unter Debian 11 manuell zu verwenden, also ohne eine GUI wie Proxmox, aber lieber wäre es mir eigentlich wenns "einfach" und "klicki bunti" ist, bin generell faul.

  • Am 14.12. habe ich meine Nodes zuletzt runtergefahren und wieder gestartet, wie vom Support geschrieben. Bisher hat keiner der Nodes neu gebootet. Allerdings hatten auch die Problemnodes mal ne Woche Uptime. Ist noch etwas früh um Entwarnung zu geben.

  • Am 14.12. habe ich meine Nodes zuletzt runtergefahren und wieder gestartet, wie vom Support geschrieben. Bisher hat keiner der Nodes neu gebootet. Allerdings hatten auch die Problemnodes mal ne Woche Uptime. Ist noch etwas früh um Entwarnung zu geben.

    Kann ich von meiner Seite derzeit ebenfalls so bestätigen. Bei mir gabs fast täglich Reboots, seit dem 14.12. keine mehr. Hoffe das bleibt so. Wäre jetzt noch interessant was da von Seiten netcup geändert wurde...

  • Gibts denn Jemand der LXC Problemlos mit Proxmox bet Netcup am laufen hat oder ist das Generell ein Ding der Unmöglichkeit? Oder gibts gute Alternativen zu Proxmox? Ich könnte mir auch Vorstellen LXC unter Debian 11 manuell zu verwenden, also ohne eine GUI wie Proxmox, aber lieber wäre es mir eigentlich wenns "einfach" und "klicki bunti" ist, bin generell faul.


    Ja, habe zwei Proxmox Cluster (einer pve6, einer pve7 mit [noch] mixed pve6). Wenn dich Details interessieren -> neuer thread und ping mich gern an.
    Idee war: failover-IPs hängen an lxc mit haproxy, switchen per HA, die backend-lxc können entsprechend nach Belieben zwischen den nodes verschoben werden.
    Das funktioniert(e) grundsätzlich auch ... bis mehr und mehr G9-nodes die Resets zeigten.


    Vom Netcup support am 21.6.21:


    "... aus dem log kann ich herauslesen, das Sie proxmox benutzen. In Kombination mit unserem Kernel, proxmox und Debian kann es zu Umständen zu reboots kommen.

    Ich kann Ihnen empfehlen, das Standart-Image direkt von Debian zu beziehen und die Situation noch zu beobachten. Sollte es dennoch zu diesen Reboots kommen, können Sie sich gerne an uns wenden. "

    Daher hab ich mir etliche G8/Intel ertauscht, die das Problem nicht haben, und kündige die G9 nach und nach wieder. Aufgrund obiger Aussage und den anderen Beobachtungen hier im thread hatte ich nicht damit gerechnet, dass Netcup das doch noch löst.

    Nun ist ja hier durch den thread Bewegung in die Sache gekommen, ich hatte meine G9 nodes alle am 15.12. aus-/eingeschaltet und seitdem auch keine ungebührlichen Resets mehr beobachtet. Was ich jetzt weiter mit den G8/G9 mache, muss ich mir überlegen. Das ganze Problem hat sehr viel Zeit und letztlich auch Geld gekostet. Wäre schön, es gäbe eine Kulanz-Regelung, dass man ggf. eher als Laufzeit kündigen kann oder so, da das Problem ja jetzt offiziell bestätigt ist.

    HA-Modus: hab ich aktuell aus, weil da dann auch die G8 reboots gemacht hatten. Das würde ich aber nochmal in Ruhe testen, wenn die Resets in absehbarer Zeit nicht wieder auftreten.

  • Ich brauche eine Nachfolge für mein aktuelles System bis zum 03.01. und dachte ich würde bei Netcup fündig. Klingt mir aber irgendwie sehr Risiko behaftet und nicht stabil.

    Da bin ich wohl wo anders besser aufgehoben wo ich weiß das es auch funktioniert. :(


    Wenn man's wenigstens für nen Monat oder auch zwei auf monatlicher Abrechnung belassen kann zum test und wenns stabil ist auf jährlich umstellen. Oder geht das?

  • aPollO Bietet sich dafür nicht die Zufriedenheitsgarantie an? :)