RS 4000 SSDx4 G8SE BF19 stürzt ungefär alle 5 - 10 Stunden ab

  • Hat denn deine Logfile Analyse etwas ergeben? So ohne Grund startet ein Server ja nicht neu. So ohne weitere Hinweise werden wir hier auch nur ganz schwer weiterhelfen können. Ein paar mehr Informationen müsstest du uns schon geben.

    Leider nein, ich werde daraus irgendwie nicht schlau bzw. kann nichts entdecken was auf einen Absturz hindeutet. Ich habe einem Kollegen gebeten sich die Logs anzusehen.

    Ich warte noch ein paar stunden ab. Wenn wir nichts entdecken, werde ich versuchen hier die Log Files zur Verfügung zu stellen. Eventuell hat ja jemand von euch Langeweile und möchte dann einen Block auf die Logs werfen. Das wäre sehr nett.

    DevOps Engineer (Kubernetes Infrastruktur Manager)

  • Ich habe nun gestern am späten Abend den Server über das SCP komplet heruntergefahren und neu gebootet. Er läuft nun schon seit über 8 Stunden. Mal sehn ob das was geholfen hat. Beim nächsten Crash, werde ich das mit dem Rettungssystem ausprobieren. Danke für den Tipp.

    DevOps Engineer (Kubernetes Infrastruktur Manager)

  • status update: anscheinend ging beim Kernel Update etwas schief. Kdump hat jede menge Memory Dumps gespeichert. In den Logs konnten meine Kollegen und ich nichts feststellen. Als letzte Option war noch ein Kernel downgrade übrig. Somit habe ich über Grub in einen älteren gebootet.

    Und wer hätte es gedacht, das Ding läuft nun schon über 10 Stunden einwandfrei.


    Code
    $ uptime
    08:31:18 up 10:55,  1 user,  load average: 1.56, 1.89, 1.51
    $ uname -a
    Linux ## 3.10.0-957.12.1.el7.x86_64 #1 SMP Mon Apr 29 14:59:59 UTC 2019 x86_64 x86_64 x86_64 GNU/Linux



    Der alte Kernel von CentOS 7 geht mir zwar schon seit längerem sehr auf die Nerven, aber eine Node mit CentOS 8 macht noch viel mehr Probleme.

    DevOps Engineer (Kubernetes Infrastruktur Manager)