Beiträge von heretic

    ggf. relevant: https://forum.netcup.de/admini…%A4%C3%9Fige-io-probleme/ (leider keine Lösung dabei imho).


    Ich bin mir sicher, dass man da noch was am timeout drehen kann aber faktisch hat es in meinem k8s cluster (8 Maschinen, meine ich) Versuch (mit etwas load) bei Netcup regelmäßig die Nodes als unerreichbar markiert. Was Longhorn dann auch nicht mehr so geil findet und wild replicas durch die gegend schiebt..

    domett ich glaube, ich fühle mit dir. Wir fahren gute 100 RS bei netcup, der große Anteil der Server hat eine bestimmte Aufgabe ohne besondere Technologien wie Virtualisierung oder Containern. Teilweise betreiben wir Seiten mit ~100k Visits pro Tag, ihr könnt euch sicherlich vorstellen, wie ein solcher iowait Spike bei diesem verhalten aussieht und leider könnte ich gerade keinen einzigen Server nennen, der dieses Problem nicht hat. Bspw. dieser hier, auf dem nichts läuft außer ein idle nginx als fallback:


    idle.PNG


    Ist schon was her, dass ich das letzte mal darüber mit dem Support geschrieben habe, mit der Arbeit, die es mir macht, ins Rettungssystem zu booten und dann darauf zu hoffen, dass ich einen Spike irgendwie für den Support nachgewiesen bekomme, könnte ich eine Studi-Stelle ausfüllen.


    Unser k8s EventLog sieht auch ziemlich farbenfroh aus.. immerhin sind die Ausfälle hier nicht so schmerzhaft weil alles im HA und mit x replicas läuft.

    Vielleicht denke ich gerade einfach zu kompliziert, in meinen Augen habe ich gerade folgende Optionen:


    1. Installation über Ubuntu 20.04 LTS Image von Netcup:

    - Installation hängt gefühlt ne Stunde im Status 'Die Installation wird fertig gestellt', bis es zu einer Art Timeout kommt und ich im SCP ein neues Passwort setzen kann. Ich habs mir nicht näher angesehen, gehe aber gerade davon aus, dass die Installation der Basispakete bereits fehlschlägt und ich deshalb nicht mal via SSH auf den Server komme (und somit auch nicht mit Ansible, selbst reines SSH wäre mir lieber als das WebVNC, copy und paste..). Jedenfalls wenn ich ein neues Passwort setze und mich via WebVNC einlogge, kann ich ja die DNS Server neu setzen, die Basispakete installieren und dann müsste die netplan config greifen.. nehme ich an.

    2. Installation via iso.

    - Dann muss ich mich durch die ganz normale Konfiguration klicken/hangeln via WebVNC, das ist vermutlich schneller (weil ich nicht auf den timeout warten muss) aber auch arbeitsaufwändiger, nehme ich an.

    3. Snapshot von einem funktionierenden Ubuntu Server machen und dann verteilen

    - Auch hier komme ich vermutlich nicht um die initiale Netzwerkkonfiguration via WebVNC drum rum.

    4. Ich nehme an, dass ich mir noch eine Iso selbst bauen und dadurch zumindest vorkonfigurieren kann.. bin mir aber nicht sicher, wie hier der aufwand ist.


    Wäre sehr glücklich, wenn es ein Denkfehler meinerseits ist oder es noch andere Optionen gibt.


    Danke

    Was ist denn hier die sinnigste Lösung, wenn man gerade ca 20 RS frisch gemietet hätte und eigentlich nen ubuntu 20.04 LTS auf allen installieren wollte? Komme ich da irgendwie drum rum mich bei jedem Server via WebVNC anzumelden und die DNS Server anzupassen (was auf mich noch wie die schnellste variante wirkt)?

    Hi [netcup] Lars S., wurde dieses Problem/die Kerneloption auf allen euren Hostsystemen gefixt oder sollte ich mich dazu nochmal explizit beim Support melden, damit es auch ggf. noch für unsere Hostsysteme gefixt wird? Hintergrund: Bevor ich dazu kam unsere Daten zusammenzutragen, wurde hier schon kommuniziert, dass das Problem behoben sei und zeitweise sah es in der Tat so aus, als würde dies auch für unsere Server gelten. Nur beobachten wir in den letzten Tagen leider wieder das gleiche Verhalten wie zuvor beschrieben: Vollständige Freezes unserer Server unabhängig von Services/Software und Last. (https://forum.netcup.de/admini…resettet-sich/#post170537)


    Viele Grüße und Danke

    Moin,


    bin mir nicht sicher, ob ich mich hier einreihen soll, oder nicht. Wir haben hier ein Setup bestehend aus.. 6 RS 8000 G9, 1 RS 4000 G9 und 1 RS 2000 G9

    auf allen Server läuft ein Ubuntu 20.04.3 LTS mit einem 5.4.0-89-generic Kernel (also std. Installation aus dem SCP) mit jeweils Docker und 1-2 Services, die sich je nach Aufgabe des Servers unterscheiden bspw. apache/php-fpm. Im großen aber eigentlich kein Hexenwerk und vor allem steht keiner Server unter voller Last. Unsere Server starten zwar nicht neu, aber die CPUs scheinen in irgendeiner Form unresponsiv zu werden. Das manifestiert sich auf unterschiedlichste weise, endet aber häufig mit einem 'soft lockup' oder vereinzelt auch mit einem 'rcu_sched' eintrag im dmesg journal und unser LoadAVG und andere Metriken im Monitoring gehen kurz darauf (vermutlich selbstverständlich) durch die Decke.


    Wir versuchen seit geraumer Zeit diesem Problem habhaft zu werden, der watchdog/kernel scheint sich in irgendeiner Form nach kurzer Zeit wieder zu fangen - aber auch 'microfreezes' der Server für wenige Sekunden bis zu 1-2 Minuten sind für unseren UseCase an für sich inakzeptabel.


    Was meint ihr, gehört das zusammen oder doch eher ein anderes Problem? [netcup] Lars S. hast du ggf. eine Meinung dazu? Danke euch

    ohne viel hier beitragen zu können würde mich mal interessieren welches Root-Server produkt du hier einsetzt?


    edit: benutzt du den korrekten disktreiber?


    mir ist soeben aufgefallen, dass einer meiner älteren RS L SSD auf virtio lief und ähnlich bescheidene ergebnisse produzierte..

    Code
    sudo hdparm -tT --direct /dev/vda1
     
    /dev/vda1:
     Timing O_DIRECT cached reads:   1142 MB in  2.00 seconds = 570.65 MB/sec
     Timing O_DIRECT disk reads:  54 MB in  3.29 seconds =  16.40 MB/sec


    nach wechsel auf den empfohlenen scsi treiber sah es dann besser aus (würde ein backup empfehlen)

    Code
    hdparm -tT --direct /dev/sda2
    
    
    
    
    /dev/sda2:
     Timing O_DIRECT cached reads:   1800 MB in  2.01 seconds = 896.30 MB/sec
     Timing O_DIRECT disk reads: 466 MB in  0.23 seconds = 2042.78 MB/sec

    also moment, du kannst local (aut dem RS) die ip aufrufen und bekommst den korrekten inhalt, aber von zuhause aus dem browser aus aber nicht?


    mein erste gedanke wäre da ne falsch konfigurierte firewall