CPU max-out und package loss

  • Hallo zusammen,


    seit etwa drei Wochen habe ich zwei Probleme mit meinem RS2000+. Das erste äußerst sich darin, dass jeden Montag pünktlich um 01:15 Uhr Nachts die CPU Auslastung auf 100% steigt und das System ab dann nicht mehr erreichbar ist (auch kein ssh, was dafür sorgt dass das ganze relativ schwer zu debuggen ist). Erst ein hard reset im scp sorgt dafür, dass das System wieder erreichbar ist. Hier ein Ausschnitt aus dem Monitoring: http://imgur.com/a/mhDX9


    Die syslogs verraten mir leider nichts: Bis 01:15 sind absolut keine Auffälligkeiten erkennbar und kurz nach (wenige Sekunden) 01:15 wird kein einziges log mehr geschrieben. Zusätzlich ist auf dem System kein cronjob o.Ä. eingetragen der zu diesem Zeitpunkt läuft.


    Das zweite Problem ist der package loss der regelmäßig (ca. alle 20-30 Minuten) auftritt wobei dann für 5-10 Sekunden alle (tcp, icmp, etc.) Pakete verworfen werden. Danach sinkt der package loss sofort wieder auf 0%.


    Leider bin ich bei beiden Problemen etwas ratlos wie ich diese debuggen kann. Hat vielleicht jemand Erfahrungen mit ähnlichen Problemen und ein paar Tips wie sich das debuggen lässt um herauszufinden ob es sich um einen Konfigurationsfehler meinerseits handelt oder ein Hardwareproblem ?


    Viele Grüße!

  • Auf die Idee mit der VNC Konsole bin ich tatsächlich noch nicht gekommen. Werde ich wenn das Problem das nächste mal auftritt mal ausprobieren.


    Bzgl. packet loss:
    Die einzigen iptables rules die aktiv sind, sind die, die von docker, fail2ban und ufw erstellt werden. Ansonsten habe ich keine weiteren eingetragen.
    Die Datenmenge die täglich über den Server läuft ist i.d.R < 5GB. Wobei sich das ganze relativ gleichmäßig über den gesamten Tag verteilt. Anti DDoS würde ich also ausschließen.

  • Wie es der Zufall so will, ist der Freeze am Montag ausgeblieben. Dafür gab es heute Nacht wieder ein Freeze mit folgendem log output: http://imgur.com/a/iHZ6G
    Leider werde ich aus dem log output auch nicht wirklich schlau. Hat vielleicht jemand eine Idee woran die Kernel panics liegen könnten ?


    Folgender Kernel läuft auf dem System:

    Code
    $ sudo uname -a
    Linux v22016092649537475 3.16.0-4-amd64 #1 SMP Debian 3.16.39-1+deb8u2 (2017-03-07) x86_64 GNU/Linux
  • Probier einmal den neueren Kernel aus Backports, ob es dann stabiler läuft.



    MfG Christian

    "Wer nur noch Enten sieht, hat die Kontrolle über seine Server verloren." (Netzentenfund)

  • Vielen Dank erst einmal für deine Antwort und sorry für die späte Rückmeldung. Ich habe jetzt vor einigen Tagen den backports Kernel installiert und tatsächlich hat das (zumindest bisher) nicht nur die kernel panics behoben sondern gleichzeitig auch noch den package loss. Jetzt hoffe ich einfach mal das es so bleibt :]