VM resettet sich

H6G · 23. November 2020

Hallo zusammen,

mein RS 2000 G9 resettet sich alle paar Stunden bis alle paar Tage.

Darauf laufend: Proxmox, Debian 10 ohne Gäste.

Kernel: 5.4.73-1-pve #1 SMP PVE 5.4.73-1 (Mon, 16 Nov 2020 10:52:16 +0100) x86_64 GNU/Linux

(auch mit vorheriger Kernelversion gab es Probleme)

ZFS ist im Einsatz, aber nicht als Root System.

Support hat mit die VM schon auf einen anderen Host umgezogen, dennoch besteht das Problem.

Journal schreibt persistent auf die Platte, allerdings gibt es keinen ersichtlichen Grund für die Resets.

Hat da jemand noch Ideen?

andreas. · 23. November 2020

Kannst du mal beschreiben, was du genau mit dem Reset meinst?

Falls du auch ein eigenes System Zuhause haben solltest, welches virtuelle Maschinen unter KVM ausführt, so würde ich an deiner Stelle diese problematische virtuelle Maschine auf das eigene System mal spiegeln, um dessen Verhalten zu beobachten.

H6G · 23. November 2020

Zitat von andreas.

Kannst du mal beschreiben, was du genau mit dem Reset meinst?

Er bootet einfach neu. Sehr gut zu sehen an der Uptime.

whoami0501 · 23. November 2020

Zitat von H6G

Er bootet einfach neu. Sehr gut zu sehen an der Uptime.

Das hatte ich bei meinem RS Rentier (auf Intel Basis) auch schon einige male. Laut Support liegt das an meinem Betriebssystem, auch wenn ich das ganz klar ausschließen kann und auch bewiesen habe. Trotz Nutzung des Beschwerdeformulars kam keine Einsicht seitens des Supports.

Ich habe das System mittlerweile gekündigt und zu einem anderen Hoster umgezogen.

aRaphael · 23. November 2020

Zitat von whoami0501

Laut Support liegt das an meinem Betriebssystem, auch wenn ich das ganz klar ausschließen kann und auch bewiesen habe.

Wie kann man denn so was zweifelsfrei beweisen?

andreas. · 23. November 2020

Zitat von H6G

Er bootet einfach neu. Sehr gut zu sehen an der Uptime.

Fährt denn das System laut Log sauber bzw. kontrolliert runter und wieder hoch? Oder ist es eher so als würde man den Stromstecker ziehen?

whoami0501 · 23. November 2020

Zitat von aRaphael

Wie kann man denn so was zweifelsfrei beweisen?

Wenn das OS crasht, dann kann das nicht einfach passieren, ohne dass irgendwo etwas geloggt wird. Selbst bei Kernelpanic muss etwas in der kern.log stehen... das war aber alles nicht der Fall, ich habe einen harten Logabriss mitten im Betrieb vorgefunden. Das Monitoring hat zu keinem Zeitpunkt Auffälligkeiten gezeigt, die auf einen derartigen Absturz des Systems o.Ä. hingedeutet hätten. Der Server war auch nicht unter großer Last oder so, der hat mit recht wenig Last seine normalen Aufgaben erfüllt. Eine Interaktion von einem Dritten hat nicht stattgefunden, sonst hätte dies in den SCP Logs gestanden bzw. stehen müssen.

Und da das ganze in der Form wie gesagt in unregelmäßigen (wenn auch recht großen) Abständen mehrfach passiert ist, muss da am Hypervisor etwas faul sein.

Zudem hatte ich 1:1 das selbe Szenario neulich mal bei einem Mitbewerber und ganz rein Zufällig meinte der Support dort, dass es deren Schuld sei, man sich entschuldige und analysieren würde, warum ich keine Benachrichtigung erhalten habe.

Und an der Stelle habe ich dann zu 100% keine Zweifel mehr, dass da nicht irgendetwas am Hostsystem ausgehakt haben muss.

Für mich ist es auch nicht die Sache, dass es passiert ist (das war eigentlich gar nicht mal soooo schlimm), sondern, wie vom Support damit umgegangen wird.

Und da der Netcup Support, wie auch in einigen anderen Situationen (und nicht nur bei mir), solche und andere Probleme, die noch eindeutiger deren Schuld sind, eiskalt abstreitet, anstatt sich darum zu kümmern, habe ich dann für mich meine Konsequenzen gezogen und gehandelt.

H6G · 23. November 2020

Well look at that. Gerade über Stunden die SSH Sitzung aufgehabt nebenbei - stderr zeigt da etwas.

Message from syslogd@beta at Nov 23 22:40:53 ... kernel:[26517.537956] watchdog: BUG: soft lockup - CPU#0 stuck for 21s! [kworker/u8:2:8097]

dmesg hat sogar einen Stacktrace - das Ereignis führte aber nicht zum Absturz. Festplattenzugriff.

Code

[26517.538111]  ata_scsi_queuecmd+0x124/0x350
[26517.538121]  scsi_queue_rq+0x696/0xa00

Die Logs der letzten Tage haben allerdings keinen Treffer, wenn ich nach dem Sprungaddressregister suche.

Zitat von andreas.

Oder ist es eher so als würde man den Stromstecker ziehen?

Dies. Letzte Logzeilen kommen nur von sshd mit einem gescheiterten Login.

Eigentlich sollte die Maschine sich nicht zurücksetzen, wenn der SCSI Stack klemmt, oder?

H6G · 23. November 2020

Hab ihm mal eine Falle gestellt.

Auf einem anderen Server läuft ein tmux mit einer ssh Sitzung in die betroffene VM. Evtl. komme ich da etwas zu lesen. Mal abwarten.

andreas. · 24. November 2020

Zitat von H6G

Auf einem anderen Server läuft ein tmux mit einer ssh Sitzung in die betroffene VM. Evtl. komme ich da etwas zu lesen. Mal abwarten.

Falls noch nicht geschähen, könntest du auch auf der Problem-VM noch logwatch mitlaufen lassen.

eripek · 24. November 2020

Kann es sein, dass Du ein AMD-Wirtssystem mit einem nicht unbekannten Soft-Lockup-Bug hast? Die Ryzen-Kerne der ersten Generation haben das gerne auf verschiedenen Boards gemacht, wenn die Stromsparfunktionen aktiviert waren. Das müsste dann auch die anderen Kunden betreffen.

H6G · 24. November 2020

Zitat von eripek

Kann es sein, dass Du ein AMD-Wirtssystem mit einem nicht unbekannten Soft-Lockup-Bug hast? Die Ryzen-Kerne der ersten Generation haben das gerne auf verschiedenen Boards gemacht, wenn die Stromsparfunktionen aktiviert waren. Das müsste dann auch die anderen Kunden betreffen.

Der Bug ist ja schon paar Tage älter (2017 / 2018) und die Epyc Reihe scheint davon nicht betroffen zu sein.

Es gibt da ein paar Maßnahmen, die getroffen werden können: z.B. rcu_nocbs, was aber nach einigen Quellen Kernel selber bauen bedeutet.

Die C States des Prozessors kann ich unmöglich einschränken, oder?

andreas. · 24. November 2020

Zitat von H6G

Die C States des Prozessors kann ich unmöglich einschränken, oder?

Eventuell hilft dir das Paket tuned weiter. Denn mit Hilfe dieses Pakets kannst du folgende Einstellungen vornehmen:

Code

Available profiles:
- balanced                    - General non-specialized tuned profile
- desktop                     - Optimize for the desktop use-case
- hpc-compute                 - Optimize for HPC compute workloads
- latency-performance         - Optimize for deterministic performance at the cost of increased power consumption
- network-latency             - Optimize for deterministic performance at the cost of increased power consumption, focused on low latency network performance
- network-throughput          - Optimize for streaming network throughput, generally only necessary on older CPUs or 40G+ networks
- powersave                   - Optimize for low power consumption
- throughput-performance      - Broadly applicable tuning that provides excellent performance across a variety of common server workloads
- virtual-guest               - Optimize for running inside a virtual guest
- virtual-host                - Optimize for running KVM guests

Alles anzeigen

eripek · 24. November 2020

Und ansonsten würde ich den Support anschreiben wegen eines Umzugs der VM auf ein anderes Hostsystem - aber nur, wenn der Host den „great reset“ macht.

aRaphael · 24. November 2020

Ist ja schon ohne Erfolg geschehen

Zitat von H6G

Support hat mit die VM schon auf einen anderen Host umgezogen, dennoch besteht das Problem.

Ente-Dank · 26. November 2020

Siehe auch https://forum.netcup.de/admini…312-cpu-softlock-mit-pve/ und https://forum.proxmox.com/thre…on-nested-kvm-host.77273/ Das liegt an Netcup unter AMD. Die betreiben 'ne alte/komischen Kernel bei dem es diese Fehler für nested-virt definitiv noch gibt. (Erst gestern wieder neu gestartet) Immerhin startet dein System von selbst neu.

H6G · 26. November 2020

Zitat von Proctrap

Siehe auch https://forum.netcup.de/admini…312-cpu-softlock-mit-pve/ und https://forum.proxmox.com/thre…on-nested-kvm-host.77273/ Das liegt an Netcup unter AMD. Die betreiben 'ne alte/komischen Kernel bei dem es diese Fehler für nested-virt definitiv noch gibt. (Erst gestern wieder neu gestartet) Immerhin startet dein System von selbst neu.

Danke für deine Antwort. Ich betreibe allerdings kein Nested KVM und hab auch nicht die VMX Flag auf dm System.

Code: lsmod

lsmod
Module                  Size  Used by
binfmt_misc            24576  1
ebtable_filter         16384  0
ebtables               36864  1 ebtable_filter
ip_set                 53248  0
ip6table_raw           16384  0
iptable_raw            16384  0
ip6table_filter        16384  0
ip6_tables             32768  2 ip6table_filter,ip6table_raw
ipt_REJECT             16384  9
nf_reject_ipv4         16384  1 ipt_REJECT
xt_multiport           20480  1
iptable_filter         16384  1
bpfilter               32768  0
softdog                16384  2
nfnetlink_log          20480  1
nfnetlink              16384  3 ip_set,nfnetlink_log
xfs                  1277952  1
libcrc32c              16384  1 xfs
zfs                  3891200  9
zunicode              331776  1 zfs
zlua                  143360  1 zfs
zavl                   16384  1 zfs
icp                   299008  1 zfs
hid_generic            16384  0
crct10dif_pclmul       16384  1
crc32_pclmul           16384  0
ghash_clmulni_intel    16384  0
aesni_intel           372736  0
crypto_simd            16384  1 aesni_intel
cryptd                 24576  2 crypto_simd,ghash_clmulni_intel
glue_helper            16384  1 aesni_intel
input_leds             16384  0
usbhid                 57344  0
bochs_drm              16384  0
drm_vram_helper        20480  1 bochs_drm
hid                   131072  2 usbhid,hid_generic
ttm                   106496  1 drm_vram_helper
drm_kms_helper        184320  3 bochs_drm
joydev                 24576  0
drm                   491520  5 drm_kms_helper,drm_vram_helper,bochs_drm,ttm
pcspkr                 16384  0
fb_sys_fops            16384  1 drm_kms_helper
syscopyarea            16384  1 drm_kms_helper
sysfillrect            16384  1 drm_kms_helper
sysimgblt              16384  1 drm_kms_helper
qemu_fw_cfg            20480  0
serio_raw              20480  0
mac_hid                16384  0
zcommon                86016  2 zfs,icp
znvpair                81920  2 zfs,zcommon
spl                   110592  5 zfs,icp,znvpair,zcommon,zavl
sunrpc                393216  1
vhost_net              32768  0
vhost                  49152  1 vhost_net
tap                    24576  1 vhost_net
ip_tables              28672  2 iptable_filter,iptable_raw
x_tables               45056  9 ebtables,ip6table_filter,ip6table_raw,iptable_filter,xt_multiport,ip6_tables,ipt_REJECT,iptable_raw,ip_tables
autofs4                45056  2
psmouse               155648  0
virtio_scsi            24576  4
i2c_piix4              28672  0
virtio_net             53248  0
net_failover           20480  1 virtio_net
failover               16384  1 net_failover
uhci_hcd               49152  0
ehci_hcd               86016  0
pata_acpi              16384  0
floppy                 81920  0

Alles anzeigen

Bachsau · 26. November 2020

Ich würde ja fast vermuten, dass dieser "watchdog" hier selbst das Problem ist. Der kann das System nämlich tatsächlich neu starten, wenn er glaubt, es würde etwas hängen. Keine Ahnug, wie er das feststellen will. Bei einer VM ist es ja normal, das dem System nicht 100% der CPU-Zeit zur Verfügung steht.

H6G · 26. November 2020

Zitat von Bachsau

Keine Ahnug, wie er das feststellen will. Bei einer VM ist es ja normal, das dem System nicht 100% der CPU-Zeit zur Verfügung steht.

Bei einem Root Server mit garantierten CPU Resourcen und einer garantierten CPU Steal von unter 3% sollte kein Prozess 21s verhungern müssen.

KB19 · 26. November 2020

Wobei die 21 Sekunden auch auf eine Live-Migration auf einen anderen Host hindeuten könnte, oder kommt die Meldung so oft vor?