I/O Probleme auf vServer L v6

  • Hallo zusammen,


    ich habe jetzt zwei Wochen in Folge in der Nacht von Sonntag auf Montag (Montags gegen 01:51 Uhr) ein Problem mit meinem Root Server L v6.
    Nach einigen Auseinandersetzung mit dem Netcup Support weiß ich nicht mehr weiter und könnte etwas Hilfe gebrauchen.


    Der vServer verliert (meiner Meinung nach) mehrfach die Festplatte bis er sie irgendwann "nicht mehr wiederfindet".
    Logfile von heute Nacht ist Angehängt.


    Darauf hin habe ich den Netcup Support kontaktiert der mir folgendes sage:


    Zitat

    ... Uns liegen weder Störungs- noch Fehlermeldungen vor. Wie Sie Ihrer VNC-Konsole entnehmen können, war der Server zeitweise "Out of Memory" und aufgrund dessen wurden bestimmte Prozesse innerhalb Ihres Systems gestoppt.


    Ok, Netcup sagt OOM-Killer ging an und das sehe ich auf der der VNC Konsole.
    Auch ein Screenshot der VNC Konsole ist im Anhang.
    Wenn jemand auf dem Screenshot einen Hinweis auf Out-Of-Memory sieht dann wäre es toll wenn er mir das Erklären kann!


    Laut meinem Monitoring habe ich immer mehr als 50% freien Arbeitsspeicher - auch im Anhang.


    "Eigentlich" bin ich auf Grund der Logs und dem Verhalten des Servers von einem I/O Problem überzeugt.
    Ich habe mehrere vServer bei Netcup und es Betrifft immer nur diesen einen.
    Netcup bleibt auf dem Standpunkt das der Server OOM ging, ich es verkonfiguriert habe und sie mir nicht helfen wollen.


    Hat jemand eine Idee?


    Vielen Dank!
    Felix


    ---


    Technische Daten:
    OS: Ubuntu 14.04.3 LTS
    CPU: 4 x Intel(R) Xeon(R) CPU E5-2660 v3 @ 2.60GHz
    RAM: 12 GB DDR4
    HDD: 230 GB SSD
    Kernel: Linux HOSTNAME 3.13.0-67-generic #110-Ubuntu SMP Fri Oct 23 13:24:41 UTC 2015 x86_64 x86_64 x86_64 GNU/Linux

  • Also das Monitoring tut schon mal diese Banale Antwort OOM raus schmeissen, geht recht schwer bei 6,xxGB Unused nen OOM hin zu kriegen. Aber irgendwie läuft bei der CPU was nicht so rund. OOM ist mit Monitoring ausgeschlossen.

  • Wenn der Fehler erst seit 2 Wochen auftritt und Du sonst keine anderen Anhaltspunkte hast, würde ich es mal mit einem älteren Kernel versuchen. Ich nehme im Moment noch den 3.13.0-65-generic weil mir schon mehrfach seltsame Effekte bei den Ubuntu 14.04 Kerneln aufgefallen sind und seit dem update ich die nicht immer sofort wenn ein neuer rauskommt, sondern beobachte erstmal ob sie nicht ein paar Tage später den nächsten Bugfix-Kernel veröffentlichen... Von 65->66 gab es über 40 Kernel-Änderungen, normal sind es nur so 3 oder 4 deshalb habe ich mich auch entschieden auf .65 zu bleiben bis sicher ist, dass die Änderungen keine negaitven Nebeneffekte haben und da es bereits 2 verschiedene .66 und 2 .67 Versionen gibt, wo einiges wieder zurückgeändert wurde, würde ich mal das System mit .65 laufen lassen und beoabchten was am nächsten Wochenende passiert...

  • Hi,


    so ein ähnlichen Problem hatte ich auch mit fast identischen kernel.log einträgen. Ich hatte aber als OS CentOS7.
    Beim mir äußerte sich dieses Problem wie folgt, der vserver war zwischendurch sehr träge bis hin zu das dieser komplett eingefroren war.
    Ich habe die notwendigen Logauszüge an den Netcup Support geschickt und kurze Zeit später wurde ich gebeten meinen vserver einmal auszuschalten und wieder einzuschalten.
    Danach waren die Probleme behoben.


    Gruß
    #Frosty#

  • würde ich mal das System mit .65 laufen lassen und beoabchten was am nächsten Wochenende passiert...

    Was anders bleibt mir wohl nicht übrig... Werde ich mal Probieren.
    Vielen Dank!


    Ich habe die notwendigen Logauszüge an den Netcup Support geschickt und kurze Zeit später wurde ich gebeten meinen vserver einmal auszuschalten und wieder einzuschalten.
    Danach waren die Probleme behoben.

    Sollte es nächsten Montag wieder passieren werde ich das auch machen (genau so wie die letzten zwei mal).

  • Und heute Morgen wieder passiert:




    Ticket beim Netcup Support ist offen.

  • Über die genaue Ursache kann auch ich nur spekulieren, aber ich kann sagen, dass das auf keinen all ein amoklaufender OOM Killer ist.
    Das sieht "leicht" anders aus in den logs.
    [Blockierte Grafik: https://www.picflash.org/img/2015/11/14/sel-2015-11-14-145839-F105WT.png]



    Der wichtigste Punkt im log ist IMHO

    Code
    ata2: lost interrupt (Status 0x58)


    Könnte das vlt mit diesem alten ubuntu bug zusammenhängen? Genauere infos dazu sind hier zu finde.

  • Guten Morgen zusammen,


    Netcup hat am Freitag meinen vServer auf einen neuen Wirt umgezogen.
    Seit dem ist das Problem nicht mehr aufgetreten. Da das Problem vorrangig in der Nacht von Sonntag auf Montag aufgetreten ist (und es heute Nacht ruhig war) bin ich zuversichtlich.


    Ich werde es weiter beobachten.


    Falls das Problem hiermit wirklich gelöst sein sollte danke ich allen für ihre Mithilfe :)