Server nicht erreichbar um eine bestimmte Uhrzeit (Paketverlust)

  • Guten Morgen,


    ich hab seit drei Tagen etwas kleinere Probleme mit meinem vServer. Immer zwischen 21.30 und 23.00 Uhr bekommt mein Server einen sehr hohen Paketverlust, im TS3 werden alle Benutzer kurz rausgeschmissen und dann verdoppeln sich alle Pings und der Paketverlust liegt bei über 50%.
    Der SSH zugriff ist in der Zeit auch nicht möglich, da es zu einem Timeout kommt.
    Der Support konnte mir bisher auch nicht helfen, werde heute Abend wenn das Problem weiterhin besteht in der Zeit alles mal im Rettungssystem starten.


    Meine Frage nun eher, gibt es Logs, bzw Möglichkeiten herauszufinden was um diese Uhrzeit diesen Traffic bzw. diese Auslastung verursacht?
    Also die System-Auslastung ist normalerweise bei mir bei zwischen 10-20 %, wenn das Problem auftaucht steigt sie auf 30-40 % an, aber mehr auch nicht.


    Daher denke ich das es eher am Traffic liegt.


    Mein System läuft mit Debian Jessie + Froxlor, ansonsten sind nur der TS3 Server drauf und eine Webseite, der Server langweilt sich also bisher.
    Das Problem ist auch erst seit drei Tagen da, den Treiber auf e1000 hab ich auch testweiße mal umgestellt, aber kein besserer Erfolg bisher.


    21.30 - NRW - ICH


    21.30 - Hamburg- Kollege



    22.00 - NRW - ICH

  • Mal unabhängig davon, ich hab die letzten Wochen auch mit Paketverlusten zu kämpfen. Bin aber bei einem anderen Serveranbieter. Ich selbst bin bei O2 / telefonica mit meinem Internetzugang. Wir sind da soweit das ein Carrier irgendwie ab 14Uhr Deutscher Zeit bis in die Nacht ständig Probleme hat. Die Pakete gehen dann auch sehr umständliche Routen.


    cogentco ist bei mir das Problem, Daten gehen Nachmittags nicht nur über Spanien sondern auch Nordamerika mit massiven Verlusten. :cursing:

  • Seit Freitag gab es keine Probleme mehr, komischerweise hatte ich nur die drei Tage damit zu kämpfen das genau um 21.30 alle Benutzer aus dem TS3 geflogen sind und ich keinen Zugang mehr zum Server hatte (SSH)...


    Hoffe das Problem hat sich damit erstmal erledigt.

  • Das Problem hatte ich die letzten Tage auch beobachtet. Heute um 20:47:50 ist das Problem auch wieder aufgetreten, dass kurz alle Verbindungen getrennt wurden.


    Das kann ich bestätigen, endlich mal eine Person die das gleiche Problem zurzeit mit mir hat.
    Die Uhrzeit stimmt, alle Benutzer wurden vom TS3 gekickt.
    Der SSH Zugang hat ewig gebraucht um eine Verbindung aufzubauen. Diesmal war es aber nur ein Einzelfall, der TS3 Server hat sich nach 5 Minunten beruhigt.


    Wie macht sich das ganze bemerkbar?
    Es werden alle Benutzer disconnected vom Server, und dann besteht ein Paketverlust von 40-60 % auf dem Server, bis er sich beruhigt.


    Suche schon die ganzen Tage nach Möglichkeiten das irgendwie mitzuloggen, da die normalen loggs rein gar nichts anzeigen.
    Es gibt einfach keine Fehler von meinem Programmen die laufen um diese Uhrzeiten.


    ifconfig eth0 zeigt keine Fehler an, und netstat -s weiß ich noch nicht ganz wie ich das deuten soll...


    Das nervige daran ist, das es sporadisch zwischen 21 und 22 uhr auftaucht, und auch nicht jeden Tag.
    Gestern war der Fehler so schnell wieder weg, das es keinen Sinn gemacht hat ins Rettungssystem zu starten.


    Code
    > ifconfig eth0
    eth0      Link encap:Ethernet  HWaddr 8a:xx:xx:xx:xx:xx
              inet addr:5.xx.106.x6  Bcast:5.45.107.255  Mask:255.255.252.0
              inet6 addr: xxxx::883exxxx:fe25:xxxd/64 Scope:Link
              UP BROADCAST RUNNING MULTICAST  MTU:1500  Metric:1
              RX packets:11985443 errors:0 dropped:0 overruns:0 frame:0
              TX packets:15321286 errors:0 dropped:0 overruns:0 carrier:0
              collisions:0 txqueuelen:1000
              RX bytes:1003820508 (957.3 MiB)  TX bytes:2650892262 (2.4 GiB)


  • Ich habe ebenfalls das Problem das es häufig, meist abends, zu Paketverlusten von 50% oder mehr kommt und die Pings in die höhe schießen. In letzter Zeit tritt das immer häufiger auf, was vor allem auf dem Teamspeak Server sehr lästig ist.

  • vermutlich ist das Problem auf Teamspeak zurück zu führen. Wie dieses herauszufinden ist, wurde hier ja bereits schon geschrieben.

    Auf meinem vServer wird kein TeamSpeak betrieben, lediglich eine mcabber Instanz und diverse Server-Dienste sind am laufen. Die letzten Tage ist mir das Phänomen allerdings nicht mehr aufgefallen.

  • Moin,

    seit längerer zeit haben wir auch diese Probleme.
    Dies betrifft aber nicht Jede Person von uns sondern so 1/3 - Die Hälfte der Anwesenden Personen im Teamspeak. (Es sind auch immer die Selben Personen)
    Ich Persönlich habe diese Probleme nicht. Ich beibe im Ts3 verbunden sowie auch andere.Ich bin beim Anbieter Kabel Deutschland und ein anderer Bei Unity Media wir haben Keine Probleme.
    Von 2 Personen die Verbindungsabbrüche haben weiß ich das sie bei der Telekom sind.




    Von einer Person habe ich auch ein Traceroute:Von der Person zum Server:

    Code
    |------------------------------------------------------------------------------------------||                                      WinMTR statistics                                   ||                       Host              -   %  | Sent | Recv | Best | Avrg | Wrst | Last ||------------------------------------------------|------|------|------|------|------|------||                            speedport.ip -    0 |  554 |  554 |    0 |    0 |    6 |    0 ||                   No response from host -  100 |  110 |    0 |    0 |    0 |    0 |    0 ||                            62.153.85.13 -    0 |  554 |  554 |   23 |   28 |  569 |   24 ||                          87.128.236.113 -    1 |  551 |  550 |   23 |   29 |  574 |   25 ||                          217.239.44.186 -    1 |  538 |  534 |   28 |   36 |  513 |   30 ||        ae0-3320.nyk10.core-backbone.com -    3 |  506 |  494 |    0 |   36 |  234 |   32 ||        ae2-2001.nbg30.core-backbone.com -    3 |  506 |  494 |    0 |   39 |  236 |   33 ||                  gw-cb30.nbg.netcup.net -    3 |  506 |  494 |    0 |   41 |  338 |   33 ||                     XXXXXXXXX.de -    3 |  506 |  494 |    0 |   38 |  339 |   33 ||________________________________________________|______|______|______|______|______|______|   WinMTR v0.92 GPL V2 by Appnor MSP - Fully Managed Hosting & Cloud Providerode]



    Vom Server zur Person:
    2 Beiträge weiter unten

    Ich habe mich damit auch schon an den Support von Netcup gewendet und die Haben mir auch schon mitgeteilt das es nicht im Einflussbereich von Netcup liegt sondern das ich mich an den Provider wenden soll.
    Deswegen habe ich mal ne E-mail an die Telekom geschickt und mal schauen was die dazu schreiben.

    Villeicht ist es ja das Selbe Problem wie bei euch?


    Ich werde euch auf dem Laufenden Halten.


    Mit freundlichen Grüßen

    Philippe

  • Der zweite MTR ist echt schlecht lesbar und deshalb bin ich mit meiner Aussage nicht ganz sicher, wenn ich den aber richtig auseinander gepflückt habe, kommt es bereits bei Core-Backbone zu einem Paketverlust von ca. 5%.
    Später aber auch im Telekomnetz (letzter POP in Richtung DSLAM) zu einen Verlust von knapp 50%

  • So hier nochmal ein neuer Versuch:



    Mal ne Frage zu Core Backbone ist das nicht noch das Rechenzentrum?

  • Wenn ich mich nicht täusche läuft entweder Netcup-Hardware bei CoreBackbone oder du bist bereits durchs Gateway das warum auch immer Packetverlust hat, kann bei Kupfer eine Leitungsüberlänge >100m sein, Runt-/Gigant frames, falsche MDIX Konfiguration bei einer Gegenstelle, knick oder zu starke krümmung im Glasfaserkabel. Da kann ich noch weiter machen öffne lieber ein Ticket mit verweis auf diesen Beitrag dann kann dir sicher richtig weiter geholfen werden.

  • Sonntag gegen 20.30 kam das Problem wieder, nach ca. 3 Wochen ruhe...
    tcpdump war aber diesmal an, folgendes ist dabei raus gekommen:



    tcp.analysis.lost_segment
    [Blockierte Grafik: http://www.fotos-hochladen.net/uploads/tcpanalysislo0j5yi4mxet.jpg]


    [Blockierte Grafik: http://www.fotos-hochladen.net/uploads/unbenanntrld7sait4e.jpg]


    tcp.analysis.retransmission
    [Blockierte Grafik: http://www.fotos-hochladen.net/uploads/tcpanalysisrewh0oljmdqz.jpg]


    Wie man bei den "tcp.analysis.lost_segment" schön sieht, werden alle TS3 (Port 41144) Benutzer gleichzeitig raus geworfen auch ein SSH (Port 998) Zugang ist nicht mehr möglich.


    Worauf muss ich nun im tcpdump achten? Woran erkenne ich das Problem?