Probleme mit TS3 seit letzter Störungsmeldung

  • Seit der letzten Störungsmeldung am 18.11.2016 (Routingstörungen am DECIX), welche laut Status-Seite am 21.11.2016 behoben wurde, habe ich massive Probleme mit meinem TS3-Server. In unregelmäßigen Abständen (meist im Bereich 15-50 Minuten) haben alle anwesenden User einen Disconnect. Zu diesen Zeitpunkten kommt dann auch kein Ping mehr durch. Nach einer kurzen Zeit (meist 2-15 Sekunden) hat sich das Ganze dann beruhigt, und die Verbindung zum TS3 wird automatisch wieder hergestellt, und die Pings kommen auch wieder durch.


    Am Server hatte sich Nichts verändert. Kein Update (weder System noch TS3-Server oder sonstige Server), keine Veränderung in den iptables, Nichts.


    Hat jemand eine Idee? Oder kann jemand von ähnlichen Problemen berichten? Kann ich etwas prüfen, bevor ich den Support befrage?


    Im Syslog kann ich immer wieder Meldungen der iptables sehen (SYN flood), welche aber auch vorher schon immer in gleichem Maße vorhanden waren. Ich glaube nicht, das es daran liegt. Wollte diese zwar mal in eine extra Datei schreiben lassen (extra .conf in rsyslog.d), habe dies aber aus irgendeinem Grund nicht zum Laufen bekommen.



    Wenn jemand eine Idee hat, immer her damit. Ich probiere gerne aus.

    9 von 10 Stimmen in meinem Kopf sagen ich bin nicht verrückt, die letzte summt ständig die Melodie von Tetris.

  • Die gleichen Symtome habe ich schon ein paar Wochen lang. Regelmaessig (meist 1-5 Mal pro Tag) ist der Server fuer ca eine Minute nicht per Ping erreichbar. Der Support meinte, dass ich Logs einreichen soll, danach konnte ich das Problem allerdings nicht mehr in dem Umfang feststellen. Vielleicht sieht es bei dir aehnlich aus?..

  • Also MTR's habe ich gestern schon mal erstellt (im normalen Betrieb), diese muss ich jetzt nochmal im Rettungsmodus durchführen. Die MTR's habe ich erstellt von einem zweiten vServer zu dem betroffenen vServer (also Netcup-Intern), von Zuhause zu dem betroffenen vServer und vom betroffenen vServer zu dem zweiten vServer. Es fehlt noch vom betroffenen vServer zu bspw. Google, und das ganze Prozedere im Rettungsmodus.


    Scheinbar ist der letzte Hop betroffen, allerdings nur von Zuhause zum vServer. Netcup-Intern konnte ich keine Paketverluste erkennen. Aber ich will hier nicht zu weit vorgreifen, die MTR's werden erstellt und dem Support zugesendet (kann aber noch einen Tag dauern).

    9 von 10 Stimmen in meinem Kopf sagen ich bin nicht verrückt, die letzte summt ständig die Melodie von Tetris.

  • Also zu meinem Problem mit den Verbindungsabbrüchen bin ich mit dem Support in Kontakt (dieser hilft auch freundlich weiter), leider noch ohne Erfolg.


    An dieser Stelle (der Support ist informiert, hier noch zur Vollständigkeit) muss ich noch erwähnen : Die Verbindungsabbrüche sind nicht nur auf das TS3 begrenzt, sondern betreffen alle Dienste, also http, ssh, ftp, Gameserver, ...


    Bei meinen bisher angefertigten MTR's ist verwunderlich, das von Privat zum vServer wohl im letzten Hop (also zum vServer) Paketverluste auftreten. Zur gleichen Zeit von einem anderen vServer (Netcup) zu dem betroffenen vServer treten keine Paketverluste auf. Vom betroffenen vServer nach Außen habe ich auch keine Paketverluste. Im Rettungsmodus ist scheinbar alles in Ordnung. Die Probleme sind mit und ohne iptables sowie mit und ohne gestartete Gameserver vorhanden.


    Hat irgendjemand eine Idee, was ich noch testen könnte, wobei ich nicht das System neu aufsetzen muss? Ein neues System würde ich gerne vermeiden, da der Aufwand nicht unerheblich ist.


    Ich kann mir im Moment nicht erklären, was hier evtl. seine Arbeit nicht mehr korrekt verrichtet. Wenn es am System liegt, muss es ein zeitlicher Zufall sein, das die Probleme ausgerechnet an dem Tag der letzten gemeldeten Störung begonnen haben. Aber .... Zufälle soll es ja geben. Ich hoffe der Support hat noch eine Idee, oder von euch kann mir noch einer helfen. Würde gerne wieder den Server normal nutzen können.

    9 von 10 Stimmen in meinem Kopf sagen ich bin nicht verrückt, die letzte summt ständig die Melodie von Tetris.

  • Muss ich etwas beachten, wenn ich die Netzwerkkarte von e1000 auf virtio umstellen möchte?


    Habe das noch nie gemacht, deshalb frage ich ein wenig blöd. Würde es aber gerne mal probieren, ob die Umstellung etwas bringen würde. Auf einem zweiten vServer läuft auch ein TS3-Server auf Ubuntu 14.04, und der schnurrt vor sich hin ohne Probleme. Bei dem ist virtio eingestellt, bei meinem Problemserver e1000.

    9 von 10 Stimmen in meinem Kopf sagen ich bin nicht verrückt, die letzte summt ständig die Melodie von Tetris.

  • Ich habe jetzt erst nochmal IPv6 komplett auf dem Server deaktiviert. Habe ich bisher eh nicht genutzt (auch Routing nicht im Servercontrolpanel aktiviert).


    Hat aber leider auch Nichts gebracht.

    9 von 10 Stimmen in meinem Kopf sagen ich bin nicht verrückt, die letzte summt ständig die Melodie von Tetris.

  • Habe die gleichen Symptome unter WS2012R2 (btw mit VirtIO als Netzwerkinterface).
    Das Problem trat außerhalb meines normalen Wartungsplans auf, heißt der Server lief ca. seit 2 Wochen ohne Probleme bis auf einmal besagte Verbindungsprobleme auftraten.
    Anfangs traten diese ca. alle 30 Minuten auf (was ungefähr 2 Wochen her ist), wobei ich jetzt innerhalb der letzten Tage nurnoch vereinzelt 1-2 mal am Tag 3-5 Sekunden lange Verbindungsabbrpche feststellen konnte.

  • Ich will mich nicht zu früh freuen, aber ....


    Nachdem ich alles probiert habe, was mir eingefallen ist, habe ich mich bereits damit abgefunden mein System dringend neu aufsetzen zu müssen. Ich habe mit Deaktivieren von vielen verschiedenen Diensten, Abschalten von IPv6, Abschalten von Gameservern, Umzug auf eine andere Node (vielen Dank an den Support), Wechsel des Netzwerktreibers und einigen anderen Dingen wirklich vieles getestet .... Nichts hat geholfen. Spätestens nach 20 Minuten ist man vom TS3-Server geflogen wegen Ping-Timeout.


    Heute hatte ich eine letzte Idee : Im Rettungsmodus waren die MTR's gut ... wo ist der Unterschied? Im Rettungsmodus arbeitet die Netzwerkkarte mit DHCP und nur einer IP!!! Im "normalen" Modus sind die Netzwerkeinstellungen statisch und mit einer 2. IP (Switch-Over-IP).


    Also .... die Switch-Over-IP deaktiviert, den Server auf DHCP umgestellt, und die IPs in den Voice-/Gameservern angepasst. Nun sind seit über 2 Stunden User im TS3 ohne Disconnect.



    Sollte es wirklich mit der 2. IP zusammen hängen?

    9 von 10 Stimmen in meinem Kopf sagen ich bin nicht verrückt, die letzte summt ständig die Melodie von Tetris.

  • Wie genau hast Du die Failover-IP konfiguriert? Über welche IP/Gateway wurden die Pakete abgesendet?



    MfG Christian

    "Wer nur noch Enten sieht, hat die Kontrolle über seine Server verloren." (Netzentenfund)

  • Meine IP hatte ich in /etc/network/interfaces wie folgt konfiguriert :


    Mit DHCP läuft der Server seit heute Mittag einwandfrei :D

    9 von 10 Stimmen in meinem Kopf sagen ich bin nicht verrückt, die letzte summt ständig die Melodie von Tetris.

  • Als Tipp fürs nächste Mal: Ich würde es lieber so hinzufügen, Aliase sind bei Debian/Ubuntu veraltet und können seltsam reagieren. (wobei ich nicht glaube, dass es nur daran lag)


    Code
    iface eth0 inet static
            address ...
            netmask ...
            gateway ...
    
    
    
    
            post-up ip -4 addr add .../32 dev $IFACE
            pre-down ip -4 addr del .../32 dev $IFACE


    Über welche IP lief der Traffic dann, der andauernd abgebrochen ist? Oder anders gefragt: Wofür hast Du die Failover-IP überhaupt, wenn Du sie offenbar so leicht deaktivieren kannst, ohne Anpassungen Deiner Dienste? :)



    MfG Christian

    "Wer nur noch Enten sieht, hat die Kontrolle über seine Server verloren." (Netzentenfund)

  • Der Traffic zum TS lief über die FailOver-IP (wie von ein paar anderen Diensten/Gameservern auch). Ich hatte mal vor diese Dinge auf einen weiteren Server zu ziehen, wenn der vorhandene mal knapp wird. Dann hätte ich den neuen Voice-/Gameserver vorbereiten können, und hätte dann nur geswitcht. An den Punkt bin ich aber nicht gekommen, daher lief der Server ständig so weiter. Jetzt habe ich halt von den betroffenen Diensten die Configs angepasst, damit alles wieder läuft. Die Webdienste sind mit der Main-IP eingerichtet, daher brauchte ich dort keine Anpassungen vornehmen.


    Die Form der IP-Zuweisung wie von dir vorgeschlagen kenne ich bisher gar nicht. Man arbeitet halt gerne mit gewohnten Dingen (solange es läuft). Ich werde aber erstmal die zweite IP weglassen.

    9 von 10 Stimmen in meinem Kopf sagen ich bin nicht verrückt, die letzte summt ständig die Melodie von Tetris.

  • Es gab aber schon ein paar Forenthreads mit dem von Dir geschilderten Verhalten. Der zusätzliche Hop (Gateway) dazwischen für die Failover-IP dürfte manchmal sehr eigenwillig sein. Vielleicht spielt auch die DDoS-Protection mit?


    So oder so könnte da maximal die Technikabteilung von netcup nachforschen. Persönlich hatte ich das Problem noch nie, bei mir läuft aber auch nur HTTP/HTTPS darüber.



    MfG Christian

    "Wer nur noch Enten sieht, hat die Kontrolle über seine Server verloren." (Netzentenfund)

  • Ich wollte nur nochmal abschließend mitteilen, das sich das Problem mit der Deaktivierung der Fail-Over-IP auf meinen vServer meine Probleme erledigt haben. Ich habe mittlerweile wieder von DHCP auf statische IP umgestellt, aber die Fail-Over ausgelassen, und alles rennt wie es soll.


    Ich habe weiterhin keine Ahnung wie das zusammen hängt.


    *ERLEDIGT*

    9 von 10 Stimmen in meinem Kopf sagen ich bin nicht verrückt, die letzte summt ständig die Melodie von Tetris.