Posts by peterbo

    Interessant ist folgendes - 2a00:11c0:47:3::32 ist ein Anexia Knotenpunkt, der ja von Netcup aus am Schnellsten erreichbar sein sollte. Wenn ich diesen von extern aus pinge, dann ist er schnell:


    Gleichzeitig pinge ich den Knotenpunkt von Netcup aus:



    Wenn man vom Teufel spricht: Die Pingzeiten gehen wieder durch die Decke und die Bandbreiten in die Knie. Wie sieht es bei Euch aus?


    Code
    1. HOST: ncdb-m Loss% Snt Last Avg Best Wrst StDev
    2. 1.|-- 2a03:4000:4e::2 0.0% 30 0.4 2.0 0.2 46.8 8.5
    3. 2.|-- 2a00:11c0:47:3::32 0.0% 30 21.0 35.6 19.3 57.8 9.7
    4. 3.|-- 2a01:4f8:0:e170::6 0.0% 30 21.9 34.5 18.5 55.4 9.3
    5. 4.|-- core12.nbg1.****.com 0.0% 30 22.1 34.4 17.7 54.4 9.3
    6. 5.|-- 2a01:4f8:0:e0c0::a002 0.0% 30 21.3 37.3 19.6 96.6 14.2
    7. 6.|-- 2a01:4f8:0:e0c0::a1a2 0.0% 30 22.6 34.2 21.0 52.4 8.3
    8. 7.|-- ??? 100.0 30 0.0 0.0 0.0 0.0 0.0
    9. 8.|-- 16837.your-cloud.host 0.0% 30 22.4 33.5 19.2 52.7 8.5
    10. 9.|-- hxapp 0.0% 30 24.3 34.4 20.8 52.9 8.3

    und als Kontrolle einen traceroute mit IPv6 von netcup weg machen?

    Klaro:


    Code
    1. Start: 2021-09-29T17:34:11+0200
    2. HOST: ncdb-m Loss% Snt Last Avg Best Wrst StDev
    3. 1.|-- 2a03:4000:4e::2 0.0% 30 0.3 3.1 0.2 57.5 11.1
    4. 2.|-- 2a00:11c0:47:3::32 0.0% 30 3.8 1.6 0.6 21.3 3.8

    Von NC nach extern:

    Code
    1. HOST: ncdb-m Loss% Snt Last Avg Best Wrst StDev
    2. 1.|-- 2a03:4000:4e::2 0.0% 30 0.6 3.8 0.3 65.4 12.4
    3. 2.|-- 2a00:11c0:47:3::32 0.0% 30 9.7 2.1 0.4 23.1 4.3
    4. 3.|-- 2a01:4f8:0:e170::6 0.0% 30 0.6 1.3 0.5 14.1 2.6
    5. 4.|-- core12.nbg1.het***.com 0.0% 30 0.8 2.2 0.5 8.9 2.6
    6. 5.|-- 2a01:4f8:0:e0c0::a002 0.0% 30 1.2 4.5 1.0 56.7 11.2
    7. 6.|-- 2a01:4f8:0:e0c0::a1a2 0.0% 30 28.5 2.9 1.0 28.5 5.8
    8. 7.|-- ??? 100.0 30 0.0 0.0 0.0 0.0 0.0
    9. 8.|-- 16837.your-cloud.host 0.0% 30 2.1 0.8 0.6 2.1 0.3
    10. 9.|-- hxapp 0.0% 30 1.1 0.7 0.6 1.5 0.2

    Sieht auf allen Servern ähnlich aus. Aber momentan gibt es ja auch kein Problem im Netzwerk, daher sind die Pingzeiten wunderbar.

    bei der Richtung zu netcup, hackt eigentlich nur der letzte Hop - Dein vServer?

    Nein, ich habe einige Server bei Netcup und auch einige bei Het*** in verschiedenen DCs. Es liegt sicher nicht am Server und die Probleme treten auch immer parallel zu Netzwerkfehlern bei Netcup auf. Ich bin mir nicht sicher, auf was Du genau hinaus möchtest. Natürlich kann man pingen und wenn das Netcup/Anexia Routing behoben ist, habe ich wieder einen Ping von 0,5ms, siehe letzter MTR.

    joas ich weiss; und peterbo fast; beim IPv6 ist dieser komische Host - joas wennst es so willst - nur in einer Richtung da;

    Das stimmt. Allerdings ist dieser Host auch da, wenn alles perfekt läuft, daher wird das schon seine Richtigkeit haben.

    peterbo kannst Du die selben Traces per IPv6 mal machen und vergleichen;

    hier erlebt man oft Überraschungen;

    decken sich die Routen?

    sind die Latenzen andere oder korrelieren diese mit denen bei IPv4?

    Also ähnliche Misere.

    peterbo der Host mit '???' scheint ein schwarzes Loch zu sein;

    ich denke nicht dass hier netcup/anexia dagegen was machen kann;

    Das sollten sie wahrscheinlich schon, da die beiden ja per PNI (gemeint sind Netcup/Anexia und Hetz***) verbunden sind. D.h. das schwarze Loch steht auf jeden Fall unter dem gleichen Dach. Falls nicht, dann läuft im Routing etwas falsch.

    Pünktlich um kurz nach 18 Uhr geht es nun hier auch wieder los mit dem Monitoring, das über erhöhte Latenzen klagt.



    Normalerweise sollte die Latenz um die 0,5ms sein. In diesen Phasen schwankt sie zwischen 5 und 80 Millisekunden. Interessanterweise ist es so, wenn ich verschiedene Server bei Het*** und Netcup anpinge, haben sie meistens bis auf die Millisekunde die gleichen Latenzzeiten (von Vodafone Kabel aus). In den Phasen der erhöhten Pings zwischen He*** und Netcup, ist auch die Latenz von Vodafone Kabel aus genau um diese Pingzeit höher.

    Seit gestern springen bei mir die Latenzen schon wieder im Dreieck. Seit Sonntag gegen 18 Uhr kommen immer wieder sporadische Meldungen vom Monitoring, dass die Latenzen stark springen. Dann einige Minuten wieder normal bis es wieder los geht. Es wäre klasse, wenn wir dem Problem auf den Grund gehen könnten.

    Hallo zusammen,


    leider gibt es auch bei mir, neben hohen Latenzen von extern, auch wieder hohe Latenzen am PNI zum Hoster mit dem roten H***. Seit Tagen meldet das Monitoring im Minutentakt schlechte Latenzen. Ich glaube am späten Sonntagnachmittag hat das begonnen.

    NC -> He***

    Hallo zusammen, seit gestern Abend meldet das Monitoring durchgehend erhöhte Pings zu Netcup-Servern, die über Failover-IPs angebunden sind.

    Das Monitoring misst dabei die Latenz zwischen mehreren H** Servern und meinen Netcup-Servern:


    Normalerweise ist die Latenz zwischen 0,5 und 1ms.


    Interessant ist, dass es die Latenz zum selben Server über die mitgelieferte IP-Adresse eine normale Latenz aufweist:


    Hier nochmal als "normale" ping Anfrage:

    Sind hier aktuell Routing/Anbindungs-Probleme bzgl. Failover-IPs bekannt?

    Besten Dank im Voraus und viele Grüße!

    Ist der Storage jetzt schon wieder bei jemandem verfügbar? Laut Mitteilung sollte es ja bis 16 Uhr durch sein. Im Control Panel wird mir "Started" angezeigt, aber beim Mounten gibt es weiterhin Fehlanzeige, Timeout.

    Noch nicht, geht nicht mal ein ping durch, geschweigedenn irgendetwas anderes. Das ist schon etwas bedenklich, insbesondere vor dem Hintergrund, dass auch an Tagen ohne Wartung und Ausfall das Logfile so aussieht:



    Daher hoffe ich inständig, dass es sich nciht nur um Wartungsarbeiten handelt, sondern das Produkt aufgewertet wird, bis es risikolos verwendbar wird.

    Die Wartung wurde tatsächlich am Mittwoch angekündigt. Allerdings finde ich das a) viel zu kurzfristig und b) ...Ausfall bei Storage-Wartung? Die 90er Jahre wollen ihre Probleme zurück! Die Storage-Volumes dienen hier nur als Backup-Space, daher haben wir dem keine große Beachtung beigemessen.


    Hier haben sich aber unvorhergesehene Probleme ergeben - die Auslastung der Server ist sprunghaft angestiegen und erstmal war die Ursache unbekannt; Dann ist aufgefallen, dass die Monitoring-Tools natürlich viel den Befehl "df" verwenden, der durch Nichtverfügbarkeit der Mounts in Status "D" festhängt (immer noch, obwohl nun alle Storage-Volumes ausgehängt wurden. Da hilft wohl nur ein reboot).


    Alles in allem also relativ unglücklich. Ich hoffe nur, dass der Storagespace im Zuge der Wartung ein update erhält, damit er etwas schneller wird... 8)

    Das ist aber nen wählbares Feld... Momentan nur mit der CPU aber vlt kommt ja mal was anderes :-D

    Bei der Konkurrenz ist vor ein paar Tagen die Cloud mit Zen3 EPYCs (7703) an den Start gegangen. Ob das bei Netcup auch bald kommt? Hat da jemand vielleicht Infos / Gerüchte?

    Hallo Theo,


    vielen Dank für's Kümmern und die Mühe!

    Wir haben jetzt noch mal Kontakt mit "H" aufgenommen und werden unsere PNI-Kapazitäten vorbeugend noch weiter aufbohren, auf 2x100GE über zwei Router verteilt, sodass es zukünftig keine Probleme mehr geben wird, wenn ein Router sowohl bei uns als auch bei "H" Probleme macht.

    Ganz großes Tennis, da bleibt kein Wunsch offen!


    Vielen Dank für die tolle Arbeit. Ich werde berichten, wie sich das in den nächsten Monaten entwickelt, aber ich weiß schon einmal Bescheid, dass das Problem dann sicher nicht auf NC/Anexia-Seite liegt. :)

    Viele Grüße

    Peter

    Hallo peterbo - danke für deine Meldung. Wir haben in den letzten Tagen leider immer wieder Probleme mit "H", Traffic wird uns auf unüblichen Wegen (via N-IX, statt über unseren PNI) zugestellt. Wir laufen dem leider im Moment reaktiv hinterher, vom H-NOC bekommen wir keine Rückmeldung. Wir haben jetzt grade noch mal etwas Traffic Engineering betrieben, kannst du bitte noch mal prüfen, ob das Problem noch besteht?

    Hallo Theo,
    besten Dank für die schnelle Antwort und den klasse Support!


    Derzeit läuft es wieder stabil. Ab dem 27.3 hat sich die Situation insgesamt wieder verbessert; Seit dem 1.1.21 meldet das Monitoring allerdings schon 20 Ausfallperioden des Peerings. Mittlere Länge der nicht-Nutzbarkeit (=Latenz >100ms und Paketloss, gemessen von 20+ H*** Maschinen und 4 Zielen bei Netcup) sind 15 Minuten, mit Spitzen von 45 Minuten. 5 Minuten können wir das kompensieren, danach fangen die Loadbalancer das Rotieren an. Insgesamt verlieren wir da also etwas das Vertrauen in die Stabilität - mit schlechteren Latenzen kommt die Topologie klar, aber Paketloss ist der Killer. Der Support von H* hält sich da leider sehr in Grenzen, hoffe aber sehr, dass dies auf deren Seite auch bald etwas höher priorisiert wird.

    Vielen Dank für Deinen Einsatz!!
    Peter

    Nachtrag mit Antwort des Supports (H):

    >der PNI zu Netcup/Anexia ist an dem ausgefallenen Router.

    >Deswegen ging dieser kurzfristig ueber den N-IX.

    >Heute geht dieser wieder direkt ueber den PNI.

    Allerdings wurde nicht beantwortet, warum dies seit dem 1.1. schon so oft vorkam bzw. ob nur jedesmal der defekte Router wiederbelebt (Abstauben und streicheln?), oder endlich mal getauscht wird/wurde; Oder noch besser: Redundant gemacht wurde.