Unerwarteter Serverneustart

  • Aus mir nicht erklärbaren Gründen ist mein RS 2000 G9 gestern (2020-06-16 18:15:03 CEST) neugestartet. In der kern.log sind zuvor (ab 16:32:38 CEST) zahlreiche Einträge "watchdog: BUG: soft lockup", "rcu_sched detected expedited stalls" und "rcu_sched self-detected stall" zu finden. Die CPU-Statistik im ServerControlPanel zeigt ab diesem Zeitpunkt einen rasanten Anstieg der OP/s, erst bei CPU0 und 20 Minuten später bei CPU2 und CPU3. Zu diesem Zeitpunkt liefen zumindest planmäßig keine netzwerk- oder rechenintensive Prozesse auf dem Server.


    Laut Support lagen auf dem Wirtssystem zu dieser Zeit keine Auffälligkeiten vor.


    Auf dem Server ist Proxmox 6.2 mit der neusten Kernelversion 5.4.41-1-pve installiert. Es laufen vier (unprivilegierte) LXC-Container und einige Docker-Container darauf. Bisher hat das Setting keine Probleme bereitet.


    Hat jemand eine Idee, wie ich am besten herausfinden kann, woran das Problem liegt?

  • Benutzt du evtl. unattended upgrades o.Ä., was dir deinen Server automatisch neustartet?


    Kannst du in den Logfiles Logins (im WebUI oder per SSH) feststellen, die dir unbekannt sind?

    "Denn der radikalste Zweifel ist der Vater der Erkenntnis."

    -Max Weber

  • Findest Du Hinweise auf einen korrekten Shutdown Deiner Dienste im Syslog? Oder war das ein harter Reset?

    "Wer nur noch Enten sieht, hat die Kontrolle über seine Server verloren." (Netzentenfund)

  • Ich habe keine nicht-autorisierten Zugriffe gefunden.


    Für mich sieht das eher so aus, als ob der Server gecrashed wäre. Manche Logs weisen zum Zeitpunkt des Neustarts nur noch NULL-Bytes auf. In den zwei Stunden wurden ganze 25.000 Zeilen kern.log generiert. Einiges wiederholt sich da so alle 20 - 30 Sekunden, mancher Fehler taucht nur ab und zu mal auf. Aber so richtig schlau werde ich da nicht. Insbesondere kann ich nicht identifizieren, welcher Prozess da im Zusammenspiel mit dem Kernel irgendwelche Probleme macht.

  • Irgendwas läuft da nicht rund. Ich würde mal ins Rettungssystem booten und dort beobachten, ob die gleichen Meldungen auftreten. Wenn ja (unwahrscheinlich) -> Support. Wenn nein -> nacheinander mal Dienste stoppen (bspw. Docker)


    PS: Debian 8 ist in ein paar Tagen EOL ;)

  • Es wird mir wahrscheinlich nichts anderes übrig bleiben, als alle Dienste nacheinander durchzuprobieren. Das Problem ist nur, dass das jetzt einmal in den letzten 2 Wochen aufgetreten ist. Das kann also sehr lang dauern.


    Wieso Debian 8? Unter der Haube läuft doch Debian 10.