Unvermittelter Serverausfall

  • Guten Morgen,

    heute gegen 00:30 Uhr ist einer meiner Server unvermittelt unerreichbar geworden.

    Die CPU-Statistiken zeigen für den Zeitraum eine CPU-Verwendung des Kerns 4 von Konstant 953mOP/s und 0 für die restlichen.

    Für diesen Zeitraum wurden auch keine Logs mehr geschrieben.

    Zuletzt stieg die Auslastung (von Kern 4) ab 00:10 - 00:30.


    Der Rückgang ist durch einen erzwungenen Shutdown entstanden.

    Alle anderen Statistiken weisen in dem Zeitraum einen Wert von 0 auf.


    Ich kann mir da gerade kein pasendes Szenario vorstellen, was derartige Resultate provoziert... Hat jemand hier eine Idee, was passiert sein könnte ?load.JPG

  • Ein Prozess ist Amok gelaufen und/oder der Swap war voll. So ziemlich gegen Mitternacht könnte ein Cronjob gewesen sein.


    Du schriebst Ausfall - Wurdest du von Netcup informiert das es technische Probleme gegeben habe?

    "Security is like an onion - the more you dig in the more you want to cry"

  • Ein Prozess ist Amok gelaufen und/oder der Swap war voll. So ziemlich gegen Mitternacht könnte ein Cronjob gewesen sein.


    Du schriebst Ausfall - Wurdest du von Netcup informiert das es technische Probleme gegeben habe?

    Da fällt mir gerade auf, dass ich nicht mal Swap eingerichtet habe o_O.

    Der kann also schon mal nicht voll gewesen sein. Und im Normalfall (bzw. Notfall) sollte ja auch der Processreaper seinem Namen alle Ehre machen. Zumal ich eigentlich immer gut 16G/32G !Available! hatte (16G inkludieren SHMEM).


    Ich habe nur einen Cronjob, der um 02:00 Uhr ein paar Ordner für ein Backup "auf Fordermann" bringt.


    Und nope. Ich wurde von Netcup nicht informiert. Wieso auch ? Nach deren Daten lief der Server ja. (Zwar nur Singlethreaded, aber er lief. :D)

  • Das kann Hypervisor Schluckauf sein, meistens findest du in der Konsole Kernelnachrichten dazu.

    Hier hilft ein forcierter Neustart.

    Zumindest mein kern.log und syslog haben in dem fragwürdigen Zeitraum leider keine einzige Zeile geloggt. Daher kann ich sowas leider nicht zurückverfolgen.