Schlechte Erreichbarkeit und Verbindungsabbrüche

  • Hallo zusammen!


    Ich habe seit einiger Zeit einen dedicated Server bei netcup gemietet. Insgesamt bin ich sehr zufrieden; allerdings schleichen sich in letzter Zeit Probleme ein. Die Verbindung zu Webseiten und anderen Services dauert oft lang und bricht ab - das betrifft sowohl Webseiten, docker-Container, NodeJS-Anwendungen (sowohl über Plesk, in docker-Containern und nativ ausgeführt) und sogar die SSH-Verbindung, welche gerne mal für einige Sekunden einfriert oder ganz gekappt wird.


    Ich dachte das liegt evtl an der Last des Servers und habe ein Upgrade gebucht. Das hat leider nichts gebracht. Im Advanced Monitoring (ich nutze Plesk) ist die CPU-Last etc durchgehend niedrig. Der netcup-Kundendienst antwortet mir leider mit der immergleichen Aufforderung, einen MTR zu senden - auch wenn ich ebendiesen schon mehrmals geschickt habe. Nunja. Hat hier jemand eine Theorie, woran das liegen könnte? Irgendeiner Konfiguration irgendwo? DNS? nginx?


    Ich hänge euch den MTR an (sowohl von hier zum Server als auch vom Server zu mir). Das Problem tritt nicht nur von mir zuhaue auf, sondern auch bei Kolleg:innen in anderen Städten. Sagt gern Bescheid, falls ihr noch irgendetwas sehen wollt :)


    Viele Grüße!
    Jens

  • Wurde das MTR während eines solchen "Ausfalls" gemacht? Wenn nein, dann hat es keinerlei Aussagekraft, denn auf den von dir angehängten Bildern sind keine Paketverluste o.ä. erkennbar. In dem Fall dann das MTR bitte noch mal anfertigen während es zu Verbindungsproblemen kommt.


    Die Kolleg:innen haben unterschiedliche ISPs, oder sind auch alle bei Vodafone?

  • Hallo Mixus, danke dir für deine Antwort! Da hast du natürlich Recht; ich wusste nicht, dass das relevant ist. Evtl ist das auch der Grund für die wiederholte Nachfrage vom netcup Kundenservice.


    Da die Ausfälle immer nur wenige Sekunden lang sind weiß ich nicht, wie ich einen Trace zur "Ausfallzeit" erwischen kann. Gibt es hier einen Trick?


    Die Kolleg:innen haben andere ISPs; es tritt auch auf, wenn ich zB über einen Handy-Hotspot im Internet bin.

  • Frage Vorweg: Warum verschleierst du den ersten Hop nach dir und nicht deinen Host (superkabel.de)?
    Ist das ein VPS oder Root Server?
    Kannst du ggf. das MTR "einfach mal laufen lassen"?
    Vielleicht im Screen auf dem Server auch eins zu einem anderen externen Punkt.

    ggf. sollte man das vielleicht versuchen zu Scripten und dann Werte sichern und neu Starten.

    Dazu die Systemauslastung sichern z.B. mit Netdata mit Backend oder goaccess.io (da müsste man das auch einstellen können).

    Nicht das etwas auf dem System das verursacht (bzw. auf dem Host und das wirkt sich auf das System aus).

  • Zeigt der erste Screenshot nicht einen Packet Loss von 18% zum ersten externen Gerät an?


    Wenn du diese Probleme bei Netcup bemerkst, sind dann auch andere Seiten betroffen? Ist dein Upstream eventuell ausgelastet? Mach mal einen Speedtest während diese Probleme auftauchen, am besten mit einen Server von deinem ISP. Bei Vodafone in BW ist dies etwa speedtest.unitymedia.de

  • Zeigt der erste Screenshot nicht einen Packet Loss von 18% zum ersten externen Gerät an?

    Irrelevant. Bei MTR zählt nur die Statistik zum Zielhop. Alles andere dazwischen ist wertlos, da viele Router ICMP gar nicht oder nur mit geringer Priorität behandeln.


    Wenn wirklich 18% Paketverlust zum ersten Hop auftreten würden, wieso sind dann alle weiteren Hops wieder ok? Eben. Deshalb zählt nur der letzte Hop

  • Hallo zusammen! Vielen Dank für eure bisherige Unterstützung. Ich habe jetzt einmal den MTR über mehrere Tage laufen lassen. Das Ergebnis seht ihr im Anhang. Werden wir auf dem Wege zu einer Diagnose kommen, oder sollte ich nochmal was anderes versuchen?


    > Frage Vorweg: Warum verschleierst du den ersten Hop nach dir und nicht deinen Host (superkabel.de)?

    Weiß ich auch nicht so genau :D Das sah nach vielen Zahlen aus, da habe ich gedacht: vielleicht lieber rausnehmen


    > Ist das ein VPS oder Root Server?

    Ich habe einen RS 4000 G9 a1 12M Root Server gemietet.

  • Traten in der Zeit denn Fehler auf?

    Das Problem wird halt sein, wenn MTR dauerhaft läuft, hat man halt die Masse an Daten. Wenn dann für eine Kurz Zeit ein Fehler auftritt, dann ist dieser halt prozentual gesehen, klein.

    Dazu kann es ja auch sein, dass der Server in diesem Moment (iostats, cpu steal usw.) Probleme haben könnte, weil das Hostsystem vielleicht ein Problem hat oder ein Script amok läuft uw.)

  • Wenn es sich um einen Root Server handelt, warum war dann im ursprünglichen Beitrag von einem Dedi die Rede? Hab ich was verpasst?

    VPS Secret • VPS 200 G8 • 4x VPS piko G11s • 2x RS 1000 G9.5 SE NUE • RS Cyber Quack • VPS 1000 ARM G11 VIE

    c@compi.moe

  • Danke euch für eure Hilfe.


    RAD750 du hast natürlich Recht, im OP sollte "root" stehen und nicht dedicated. Beim Verfassen dachte ich noch das sei dasselbe, habe mich nun aber schlau gemacht.


    alhazred Ja, das Problem sehe ich auch. Ich weiß aber nicht, wie ich an bessere MTR-traces kommen kann, da die Probleme ja keinen 10-Minuten-Totalausfall auslösen, sodass ich schnell einen Trace anschmeißen kann. Viel mehr ist fast jede Verbindung zum Server Störanfällig - mal mehr, mal weniger. Jetzt grad habe ich eine sehr schnelle SSH-Session auf dem Server. An anderen Tagen warte ich Sekunden, damit die getippten Buchstaben erscheinen oder die Verbindung bricht komplett ab.


    Was könnte man denn an den MTRs ablesen? Kann man vielleicht anders auf die Quelle des Problems kommen? Oder gibt es irgendwo irgendwie professionelle Hilfe, die sich das mal anschauen könnte?


    Ihr merkt, ich stoße hier schon an meine Grenzen und bin umso dankbarer für eure Hilfe!

  • Dieses Mal war es ein größeres Problem mit dem decix, wurde hier dokumentiert: https://www.netcup-status.de/


    > Aufgrund einer Netzwerkstörung an dem Internet-Knotenpunkt DE-CIX, welcher von netcup genutzt wird, kam es heute, am 09.08.2021 gegen 15:22 Uhr, zu einem kurzzeitigen Netzwerkausfall bei netcup. Die Störung konnte von unserem Network Operation Center innerhalb von wenigen Minuten erfolgreich behoben werden.

    Es ist möglich, dass es temporär zu einem geänderten Routing mit verlängerten Latenzzeiten kommt.

  • In der Theorie weiß ich das - und wahrscheinlich jeder andere hier auch - in der Praxis macht mans dann halt doch nie weil das Kommando ja eh ned lang dauert :(

    Das Problem kenne ich! Habe mir mittlerweile angewöhnt, einfach immer direkt tmux zu öffnen, sobald ich mich über SSH wo anders anmelde. Bin damit selbst schon oft genug auf die Nase gefallen ...


    Hab gehört man kann sich das auch einfach in die bash_rc oder zsh_rc schreiben und bekommt automatisch eine Session aufgemacht.

  • Hallo ihr lieben! Danke nochmal für die bisherige Hilfe. Leider scheint der Weg über ein MTR nicht zu helfen. Gibt es denn noch alternative Möglichkeiten, die man probieren könnte? Was wäre denn zB, wenn der MTR beim Server viele Losses angezeigt hätte? Oder wo anders? Was wären dann die nächsten Schritte?


    Wir entwickeln grad eine NodeJS-Anwendung und müssen manchmal bis zu 5 Sekunden auf Antwort vom Server warten. So können wir die Anwendung nicht live schalten.

  • Hast du denn irgendeinen Anhaltspunkt dafür, dass deine Probleme auf Paketverluste zurückzuführen sind? Vielleicht sind es auch nur Prozesse, auf die gewartet wird? Reverse DNS Lookups sind typsiche Kandidaten dafür.