Gravierende Server Fehler einsehen

  • Guten Abend,


    Ich hatte seit gestern schon zwei mal einen Server Ausfall. Keinen von netcup geschuldeten, jedoch suche ich hier nach Rat.

    Der erste ist in der Nacht von Gestern auf Heute passiert. Ich habe es erst am Morgen mitbekommen und den Server einfach neugestartet.


    Bei den Statistiken kann man gut sehen wann der Ausfall statt gefunden hat.

    Am Nachmittag ist das selbe dann nochmal passiert, jedoch habe ich das recht schnell gemerkt und erstmal in die Console des SCPs gekuckt. Dort konnte ich einen abgeschnittenen Fehler sehen.


    Nach einem Neustart war es wieder weg und es war so als wäre es nie passiert.


    Nun ist meine Frage wie bekomme ich beim nächsten mal den kompletten Fehler? Wenn der Server natürlich komplett crashed funktionieren auch keine logging system weshalb in den Logs nichts zu finden war. Und "scrollen" kann man im SCP Bildschirm natürlich auch nicht. Eine Record Funktion wäre eigentlich ganz praktisch ^^ gibt es aber leider nicht, oder ich habe sie nicht gefunden.

    Das letzte was ich davor gemacht habe war ein docker-ce update zu installieren, so zwischen 19-21 Uhr.

    Auf dem Server befindet sich Debian.

    Code
    Linux v22017123158157745 3.16.0-4-amd64 #1 SMP Debian 3.16.51-3 (2017-12-13) x86_64 GNU/Linux


    Ich hoffe mir kann jemand helfen. Wenn mehr Informationen benötigt werden, weisen sie mich bitte darauf hin.


    LG

  • Moin,


    ich würde in einem solchen Fall erstmal in /var/log auf dem Server in die Logdateien schauen.

    Bei solch erheblichen anstiegen ist bestimmt was in /var/log/messages zu finden.


    Abhängig von dem was du da findest, muss dann entsprechend gehandelt und/oder vorgebeugt werden.


    Versuch einfach mal in den Logdateien auf deinem Server (nicht im SCP, direkt auf dem Server per SSH oder den SCP Terminal) zu recherchieren was zu den entsprechenden Uhrzeiten los war.


    Gruß Caspar

  • Vielen Dank. Nachdem ich wie in dem Artikel beschrieben einen Kernel Panic manual ausgelöst habe, sah die Fehlermeldung ähnlich der meine ungewollten aus. Also denke ich auch das es ein Kernel Panic war. Ich habe also erstmal Alles wie im Artikel beschrieben installiert. Jedoch wenn kdump den Server nach einem kernel panic neugestartet hat, starten meine Docker container nicht automatisch, oder eher gesagt können sie keine Netzwerkverbindung aufbauen. Das ist natürlich ein Problem. Gibt es da einen gute Lösung? Du meinst das du es noch nie nutzen musstest, aber vielleicht hast du doch einen Idee. Oder jemand anders.


    sar kann dir genauer sagen was los war zu dem Zeitpunkt, atop könnte dir auch den schuldigen Prozess zeigen (wenns keine Kernelpanic war).


    https://haydenjames.io/use-ato…ver-performance-analysis/

    Atop scheidet dann natürlich aus ^^ ich bedanke mich trotzdem für den Tipp. Kannte atop nicht, klingt aber interessant. Aber im Moment habe ich mit keinen Leistungsproblemen zu kämpfen.


    Ja zu finden ist halt nichts.

  • Ja zu finden ist halt nichts.

    Ich bin mir zwar sicher, dass es berücksichtigt wurde, aber der guten Ordnung halber möchte ich erwähnen, dass Kernel-Meldungen bei Debian standardmäßig, sofern ich mich richtig entsinne, in /var/log/kern.log landen. Dort habe ich auch schon einmal "last hope"-Meldungen/Infos zu Kernel-Panics gefunden.


    Auch könnte /var/log/debug vielleicht hilfreich sein.


    Einen schönen Start euch allen in das neue Jahr 2018.

  • Du betreibst Docker und wenn ich das richtig sehe hast du noch einen 3.16er kernel, also Jessie Release? Wenn ich das richtig im Kopf habe, bassiert Ubuntu 1.404 LTS auch auf und da haben/hatten wir in bestimmten Konstelationen auch Probleme mit Docker auf VMs. Es gab/gibt da wohl ein Problem mit Kernelmodulen. Du kannst einen Backport von Debian 9 Kernel probieren. Das war ein Ansatz bei uns. Kurz danach haben wir die Maschine eh auf die letzte LTS aktuallisiert.

  • Du betreibst Docker und wenn ich das richtig sehe hast du noch einen 3.16er kernel, also Jessie Release? Wenn ich das richtig im Kopf habe, bassiert Ubuntu 1.404 LTS auch auf und da haben/hatten wir in bestimmten Konstelationen auch Probleme mit Docker auf VMs. Es gab/gibt da wohl ein Problem mit Kernelmodulen. Du kannst einen Backport von Debian 9 Kernel probieren. Das war ein Ansatz bei uns. Kurz danach haben wir die Maschine eh auf die letzte LTS aktuallisiert.

    Ah ja danke. Durch killerbees19 Vorschlag konnte ich den Kernel Panic abfangen.

    Ich habe dieses Issue dazu gefunden: https://github.com/moby/moby/issues/13940

    Also ist wirklich der 3.16er Kernel schuld. Ich werde dann mal versuchen den Kernel zu updaten.