Backbone / Routing Q&A

  • Hallo zusammen,


    das ist korrekt, es gibt (mal wieder) in Frankfurt einen großen "Fibrecut", ca. 900 Fasern müssen neu gespliced werden. Davon ist unteranderem unsere mehrfach 100G-Verbindung zwischen Nürnberg und Frankfurt betroffen und wir routen über Wien/Amsterdam. Sobald die Reparatur abgeschlossen ist, gehen alle Pakete wieder ihren gewohnten Gang ;)


    Danke für euer Verständnis,

    beste Grüße, Theo!

  • Muss leider nochmal auf mein Thema mit Verbindungen aus den USA (und Skandinavien) von letzte Woche zurück kommen.

    Leider ist das ganze, nach ein paar Tagen besserer Performance, inzwischen wieder unerträglich.


    Support sagt, es gibt (seit einer nicht näher beschriebenen Reparatur letzte Woche), nix mehr bei Netcup, was es auslöst, aber das kann ich ehrlich gesagt nicht wirklich glauben.

    Kunden melden das bei mir, und ich kann es nachstellen von 2 VPS in Chicago, LA, sowie einer unabhängigen EC2 AWS Instanz.

    Beispiel dafür:

    AWS Instanz:

    MTR im Anhang.


    iperf3, Download von netcup RS (202.61.251.201) (2.5Gbit) durch AWS EC2 (44.234.111.105):


    Und andersherum, Netcup Download vom Server in den USA:


    Ergo: Download top, Upload von Netcup aus ins Telia-Netz absoluter Flop...

    Betrifft leider alle meine Netcup-Server, und die verschiedensten Provider in den USA, und sowohl Endbenutzer als auch Server.


    Zu anderen Servern schafft die oben genannte AWS EC2 übrigens diese Werte im Download...gleiches gilt für einen weiteren Server, der ebenfalls über Telia peered.



    Zusatz: MTR von einem anderen Server an komplett anderem Standort mit dem gleichen Problem und zwei traceroutes von zwei Kunden mit dem gleichen Problem




    Ich brauche langsam echt eine echte Lösung, sonst muss ich Netcup zwangsweise verlassen, auch da mir der Support keine Aussicht auf weitere Maßnahmen gemacht hat.

    Daran sollte ja auch netcup gelegen sein, da es um die Senderichtung geht, und wie wir festgestellt haben, auch EU Kunden (Skandinavien) und sogar vereinzelt DE Kunden betroffen sind (anderer Thread, User aus München)


    LG

  • Da ich den Beitrag leider nicht mehr editieren kann:

    Gerade hat sich ein Kunde gemeldet, der das gleiche Problem hat....aber dieser Kunde peered über NTT....das spricht leider nochmal extra dafür, dass das Problem im Anexia Stack zu finden ist.

    Anbei der Traceroute und ein custom TCP Download test mit weiteren Informationen.


    Um das Problem nachzustellen....einfach einen VPS irgendwo in den USA besorgen (so scheint es, selbst AWS hat das Problem ja) und mehrere Downloads starten auf https://www.netcup.de/static/a…Map_DE_2019_12_NETCUP.svg - perfekte Dateigröße für den Test, und die netcup Seite hat das Problem auch.

    Anexia ist gleichzeitig völlig in Ordnung: https://anexia.com/fileadmin/i…ications/staatswappen.svg


    Ich muss sagen, mit all den Daten lässt sich ein "liegt nicht an uns", wie ich es zu hören habe, echt nicht mehr rechtfertigen. Und es betrifft wie gesagt nur die Upload-Richtung VON netcup aus ins internationale Peering.


    Beim Test mit dem SVG Netcup File oben werden wenige Downloads okay sein, aber entweder nach kurzer Zeit oder direkt fallen dann die Downloadspeeds rapide ab.


    So long, mehr kann ich echt nicht mehr liefern...

  • [Anexia] Theo V. kann es sein das es heute mehrere Ausfälle gab/gibt? Hatte heute mindestens zwei die nur wenige Minuten dauerten.

    In der Zeit konnte ich nichts bei Netcup erreichen, also weder meine Server noch netcup.de, forum, sonnst was.


    MTR während des Ausfalls

    Code
    My traceroute  [v0.92]
                                                                                 2021-06-09T17:01:01+0200
                                                                          Packets               Pings
     Host                                                      Loss%   Snt   Last   Avg  Best  Wrst StDev
     1. router.x.x.x.x                                          0.0%    60    0.5   0.4   0.3   0.8   0.1
     2. 10.145.192.1                                            0.0%    60    6.0   6.4   5.3  10.4   0.8
     3. asr9k-mae-ktz-01.kabsi.at                               0.0%    60    7.2   6.7   5.5   8.7   0.7
     4. be125.asr9k-upst-inx-01.net.kabelplus.at                0.0%    60    8.5   9.0   7.3  16.8   1.8
     5. et-2-0-5-1337.bbr01.anx03.vie.at.anexia-it.net          0.0%    60    7.7   8.9   7.1  21.3   2.2
     6. ???


    MTR normal also wo es dann wieder ging daher der hohe packet loss

    Matrix: @nan0:nan0.dev - IRC: nan0 on hackint.org - Discord? Nein danke!

  • [Anexia] Theo V. kann es sein das es heute mehrere Ausfälle gab/gibt? Hatte heute mindestens zwei die nur wenige Minuten dauerten.

    In der Zeit konnte ich nichts bei Netcup erreichen, also weder meine Server noch netcup.de, forum, sonnst was.

    nan0 unser DE-CIX Port ist heute zwei Mal geflappt, inzwischen haben wir diesen vorsichtshalber deaktiviert.
    Wir sind in Kontakt mit DE-CIX und dem Hersteller des Routers (Juniper), um hier die Ursache zu untersuchen.

  • Wie der Mitleidene oben schon erwähnt hat, ist das Telia Routing Problem von Netcup aus wohl leider wieder da. War 2-3 Tage gefixt und jetzt seit ner Woche ca. wieder aktiv. Wenn die Route komplett mit NTT gepeered wird gibt es keine Probleme, genauso wie wenn die Route vom User zu Netcup über Telia führt, aber über einen anderen Carrier zurück führt. Aber sobald Netcup über Telia Daten schicken will in die Welt, geht alles in den Keller.


    Nach ausführlichen Tests beliefert Netcup einen Teil folgender Länder derzeit nur mit 220 kbit/s oder 28 kb/s:

    -Italien
    -Spanien

    -Irland

    -Dänemark

    -Polen

    -Norwegen

    -Schweden

    -Finnland

    -Estland

    -Lettland

    -USA & Kanada


    Vermutlich sind noch mehr Länder betroffen von denen ich noch nichts gehört habe oder testen konnte. Sogar ein paar ISPs in Deutschland kann es ja bekanntlich treffen wenn Netcup zu ihnen mit Telia routed warum auch immer.


    Dass das Enttäuschend ist und Schädigend, ist milde ausgedrückt. Ich hoffe wirklich das der Support es diesesmal permanent gelöst kriegt.

  • dragonbane danke für deinen Post. Wir sind intensiv im Kontakt mit dem netcup Operations Team sowie Telia. Bis jetzt lässt sich die Ursache nicht auf eine spezifische Netzwerkübergabe (Telia, Anexia, netcup) oder auf eine bestimmte Komponente (Switch, Router, Port, Transceiver) eingrenzen. Wir arbeiten mit Hochdruck gemeinsam mit den genannten Teams an der Lösungsfindung. Sobald wir hier neue Informationen haben, teilen wir diese über den Support bzw. auch hier im Forum mit!

  • [Anexia] Theo V. Ich hatte euch die Tage schonmal ans NOC gemailt, von meinem Netcup-Server kam ich nicht per IPv6 zu AS56382, da war's nach dem AMSIX tot. v4 dagegen lief problemlos. Momentan rejected AS56382 euch am AMSIX deswegen und läuft über Transit.

  • [Anexia] Theo V. Ich hatte euch die Tage schonmal ans NOC gemailt, von meinem Netcup-Server kam ich nicht per IPv6 zu AS56382, da war's nach dem AMSIX tot. v4 dagegen lief problemlos. Momentan rejected AS56382 euch am AMSIX deswegen und läuft über Transit.

    Servus bjo,


    Weder wir(Anexia) noch die Kolleg*Innen von der Netcup finden etwas von dir in unseren noc-inboxen, kannst du das bitte nochmal als "gewöhnliches" support-ticket bei der netcup aufmachen, ich nehme an dort sind mehr Details zu finden, falls nicht lass uns bitte IPs und ggfs. traceroutes zum Ausfallzeitpunkt zukommen. Falls du bereits Ansprechpartner oder Tickets bei vserver.site hast wäre es super, wenn du uns diese auch mitteilst, dann können wir in den direkten Kontakt mit dem Netzbetreiber treten.

    Aktuell kann ich folgendes sagen:

    - Uns sind keine Probleme am AMS-IX bekannt und wir schieben gewohnte Trafficmengen zu anderen Peers dort

    - Wir peeren nicht direkt mit AS56382 am AMS-IX, die Verbindung muss also über die Route Server gehen

    - Die IPv6 IP vom AS56382 im AMS-IX peering LAN ist für uns via ICMP nicht erreichbar, und wir haben keinen IPv6 neighbor entry. Warum das so ist können wir nur in Zusammenarbeit mit deren NOC herausfinden.

    Weiteres dann nachdem wir mehr Details haben.

    Senior Network Architect

    ANEXIA Deutschland GmbH

  • Moin [netcup] Moritz F. !


    Vielen Dank für deine Antwort. Ich habe nun bezugnehmend auf deine Antwort ein "normales" Ticket eröffnet inkl. MTR und Ansprechpartner bei vserver.site. Dessen NOC hatte sich am 28.05. an noc <at> anexia-it.com gewandt, ich am Tag zuvor.

  • Moin [netcup] Moritz F. !


    Vielen Dank für deine Antwort. Ich habe nun bezugnehmend auf deine Antwort ein "normales" Ticket eröffnet inkl. MTR und Ansprechpartner bei vserver.site. Dessen NOC hatte sich am 28.05. an noc <at> anexia-it.com gewandt, ich am Tag zuvor.

    Danke, das Ticket kam an. Nur als kurzes Update: wir haben den Kontakt mit den KollegInnen aufgenommen und arbeiten gemeinsam an einer Lösung.

    Senior Network Architect

    ANEXIA Deutschland GmbH

  • Danke, das Ticket kam an. Nur als kurzes Update: wir haben den Kontakt mit den KollegInnen aufgenommen und arbeiten gemeinsam an einer Lösung.

    folgende prefixe laufen wieder über den AMS-IX, es gab probleme bei der IPv6 neighbor discovery.


    Code
    inet6.0: 119391 destinations, 815307 routes (118590 active, 1 holddown, 2178 hidden)
      Prefix		  Nexthop	       MED     Lclpref    AS path
    * 2a07:59c6:ee00::/40     2001:7f8:1::a505:6382:2                 56382 I
    * 2a07:59c6:ee02::/48     2001:7f8:1::a505:6382:2                 56382 I
      2a0f:5707:ab80::/44     2001:7f8:1::a505:6382:2                 56382 I

    Senior Network Architect

    ANEXIA Deutschland GmbH

  • Juchei, die Einbrüche beim Telia Peering sind nach einer Woche leider wieder da.

    Einbrüche im Download auf unter 1 Megabit/s, sowohl von unseren VPS als auch von Kunden gemeldet.




    und zurück (Traceroute)


    Wieder lässt sich das Problem eingrenzen auf Peerings mit Telia, allerdings nur Netcup-seitig. Wenn der Kunde den Hinweg über MTT peered, kommt es darauf an, wie die Rückroute peered - bei MTT alles gut, bei Telia alles hinüber.


    Was ist hier letzte Woche unternommen worden, und was könnte jetzt wieder hin sein?


    Langsam bin ich echt am Rande der Kündigung, nach so vielen Jahren :/

    DevOps Engineer, Musiker, Enthusiast


    1x VPS2000 G8

    1x RS 500 SSD G8

    1x VPS Ostern L OST20

    1x RS Fast Rabbit OST21

  • Kann ich leider auch bei meinem Server wieder nachvollziehen und werde wohl morgen den Support zum Dritten mal mittlerweile jetzt anschreiben. Woran es auch hakt, aber Netcup/Anexia sollten sich echt überlegen ob das mit dem aktuellen Telia Setup noch wirklich Sinn macht, wenn man größtenteils mit Geschwindigkeiten vor dem Jahr 2000 auskommen muss, jetzt schon seit deutlich über einem Monat.

  • Echt jetzt?

    Meine Webhostings hier habe ich ja inzwischen (fast) alle aufgegeben.

    Mit den Servern war ich bisher aber durchaus zufrieden und habe die auch weiterempfohlen.

    Wenn auf die aber nun auch kein Verlass mehr ist. :/

    Evtl. ist die Idee mit "best-price" doch nicht die Beste...

  • Hallo zusammen,


    ich wollte kurz einen Zwischenstand melden. Wir arbeiten seit dem erneuten Auftreten des Problems an dessen Eingrenzung, ich derzeit exklusiv. Leider erweist es sich als schwer zu fassen. Trotzdem können wir es inzwischen so reproduzieren, dass wir daraus eine Eingrenzung der möglichen Problemstellen vornehmen konnten.


    Das Problem tritt nur bei bestimmten Kombinationen aus fünf Werten auf die jedes TCP- oder UDP-Paket enthält:


    • Quell-IP
    • Ziel-IP
    • Quell-Port
    • Ziel-Port
    • Protokoll


    Bei der gleichen Quell- und Ziel-IP sowie dem gleichen Protokoll tritt das Problem nur bei manchen Kombinationen aus Quell-Port und Ziel-Port auf.


    Das alles weißt auf ein Problem hin welches bei sogenannten Port-Bundles (manchmal Port-Channel, Aggregated Interface o.ä. genannt) auftritt. Bei diesen Bundles werden mehrere physikalische Ports zu einem "Bündel" zusammengefasst und bilden ein logisches Interface. Diese Technik wird weltweit von allen Providern eingesetzt um die Bandbreite von Verbindungen zu erhöhen.


    Wenn Pakete über dieses Interface geschickt werden sollen, berechnet der Router aus den oben genannten Werten eine einzige Nummer (Hash-Wert) die einem der pyhsikalischen Ports in dem Bundle zugeordnet ist. Das wird gemacht damit Pakete der gleichen Verbindung nicht über unterschiedliche physikalische Ports gesendet werden was Probleme verursachen könnte.


    In unserem Fall kann es jetzt sein, dass einzelne physikalische Ports in diesem Bundle entweder voll sind (Das Hashing kann keine perfekte Verteilung garantieren) oder weil Fehler auf einem der physikalischen Ports auftreten. Dann leiden alle Verbindungen darunter die über diesen Port geschickt werden.


    Wir haben mit Verbindungen von mehreren weltweiten Locations getestet um gemeinsame "Problemstellen" auf dem Weg zu finden. Damit waren wir in soweit erfolgreich, dass wir diese auf eine Handvoll Router außerhalb unseres Netzes eingrenzen konnten.


    Wir werden testweise einzelne Links zu diesen Routern deaktivieren um festzustellen ob das Problem nur in bestimmten Kombinationen auftritt. Wir hoffen es dadurch noch weiter eingrenzen zu können um dann gemeinsam mit Telia das Problem endgültig zu beheben.

    Deshalb bitte ich noch um etwas Geduld, sobald es etwas neues dazu gibt melden wir uns wieder.

    Senior Network Architect

    ANEXIA Deutschland GmbH