VM resettet sich

  • Wobei die 21 Sekunden auch auf eine Live-Migration auf einen anderen Host hindeuten könnte, oder kommt die Meldung so oft vor?

    Die Meldung hab ich bisher nur 1 mal gesehen.

    Warum denn eine Live Migration? Wird das Problem etwa im Hintergrund still und heimlich aus der Welt geschaffen? (momentane Uptime: 3 Tage)

  • mein RS 2000 G9 resettet sich alle paar Stunden bis alle paar Tage. […]

    Support hat mit die VM schon auf einen anderen Host umgezogen, dennoch besteht das Problem.

    Ich sage ganz ehrlich, dass ich die AMD/G9-Root-Server-Angebote angesichts dieses Diskussionsfadens schlagartig deutlich unattraktiver finde, da es verschiedene Hosts betrifft…

  • Ah ok dann hast du wohl doch ein etwas anderes Setup. Ich habe das SVM (VMX unter Intel) Flag extra, habe aber auch die softlock meldungen und sehe dann (wie in den Screenshots) dieses CPU-Aufhänger inkl. Kernel-Meldung (wenn denn noch Zeit/Ressourcen für diese Meldung bleibt).

    Solange die Maschine läuft ist alles wunderbar und ich bin Froh um die Option das Flag zu haben, aber anscheinend ist Promox in der (netcup) VM noch nicht so stabil in der neuen Hardware, außer der Host fährt eine relativ neue Kernel-Version.. Kollegen unter älteren Intel-Servern von Netcup haben die Probleme nämlich wie zu erwarten nicht.

    (Edit: Um Missverständnisse zu vermeiden: Alles unter einem RS 4000 G9 für eine andere Bude. Der Host in meiner Signatur ist mein privater - da brauche ich aber auch keine Virtualisierung in der VM.)

  • Ich sage ganz ehrlich, dass ich die AMD/G9-Root-Server-Angebote angesichts dieses Diskussionsfadens schlagartig deutlich unattraktiver finde, da es verschiedene Hosts betrifft…

    Ich selber habe drei RS 8000 G9 und diese laufen schon seit ca. 75 Tagen ununterbrochen. Auch die Performance ist der älteren Generation G8 Haushoch überlegen.

  • Warum denn eine Live Migration? Wird das Problem etwa im Hintergrund still und heimlich aus der Welt geschaffen?

    Eine VM live auf einen anderen Host zu migrieren, ist ja generell schon ein nettes Feature. Das nutzt man vermutlich nicht nur, um irgendwelche "Probleme zu lösen". Wenn ich einen Host z.B. patchen möchte, kann ich die Maschinen einfach verschieben. Oder ich nehme während eines Raid-Rebuilds die Last vom System.

  • Wer sagt denn, dass die Zeitangabe des Watchdog richtig ist, oder dass es solche Hänger überhaupt wirklich gibt? Schalt' das Ding mal ab, entlade das Modul, und schau, ob er immer noch regelmäßig neu startet. Meiner tut das nämlich nicht.

  • Bin bei der Maschine jetzt auf Ubuntu mit LXD umgestiegen.

    Hast du zufälligerweise den Fehler gefunden? Und wenn ja: Was war denn das Problem? Denn ich habe auch mal testweise vor ca. 20 Tagen Proxmox Virtual Environment, Version 6.3 mit der Kernelversion 5.4.73-1-pve ... bei mir auf einer meiner VM´s (kein Root-Server) installiert, welches noch bis heute ununterbrochen störungsfrei mit einem installierten CentOS 7 LXD Container läuft.


    Da ich eher Virtuozzo 7 auf den Root-Servern einsetzte, bin ich auch kein Nutzer von Proxmox Virtual Environment, sondern schaue es mir nur mal interessehalber aufgrund der LXD Container näher an.

  • Es besteht laut Support wohl die Möglichkeit dass das Problem in 2021 bearbeitet wird, zumindest für Proxmox mit KVM flag unter den aktuelle AMD Servern. Am besten selber nochmal den Support anschreiben. Sollte auch bei der Priorität und Verbindlichkeit helfen.

  • Ggf. ist das Problem nicht neu. Mit einer älteren Proxmox Version auf einer älteren Generation KVM Server war einer meiner Server in unregelmäßigen Abständen am Neustarten. Ich hatte es damals mit ungewöhnlich hoher Last in Verbindung vermutet. An die genauen Umstände kann ich mich nicht mehr erinnern, das Problem hatte sich irgendwann erledigt, möglich von meiner Seite aus sind rein Updates, aber auch ein Wechsel auf eine folgende Proxmox Major Version oder ein Wechsel auf einen anderen KVM Server - also leider ziemlich unspezifisch.

  • Also hier noch ein paar Symptome:
    Eine bestimmte VM (nextcloud) schafft es immer wieder über ihre Limits hinaus zu gehen was den RAM angeht, bis der Host den KVM Prozess OOM killen muss. Dabei ist nur die RSS der VM auf dem Host linear am ansteigen. In der VM steigt nix.


    Außerdem hatte ich jetzt gerade 20 Minuten lang diesen Screen nach einem erzwungenem Neustart durch die Aufhänger bei Nested KVM auf einem RS:
    pasted-from-clipboard.png
    Allseits bekanntes Spiel: Nach einem Hartreset ging alles wieder.

    Offenbar wurde noch nichts geändert..