Beiträge von peterbo

    Der Notfallsupport hat den Hardwaredefekt bestätigt und die VM verschoben. Erste Idee war, dass der RAID-Verbund oder RAID-Controller den Geist aufgegeben haben. Die Lösung war über den Notfallsupport gut, schnell und zielführend, aber ein Beigeschmack, warum ein solches Problem im Monitoring nicht auffällt / eskaliert wird, bleibt.


    Ergänzung für das volle Bild: Meine Anfrage beim "normalen" Support vom Donnerstagabend, blieb bis zum Anruf beim Notfallsupport am Samstagmorgen unbeantwortet. Schade, dass sich das niemand auch nur kurz angeschaut hat.

    Zusatzinfos: Der Festplattendurchsatz auf der betroffenen Maschine is zu den betroffenen Zeiten (Problem ist mal ein paar Minuten da und dann wieder weg) unterirdisch. Problem tritt mit SCSI und virtio auf.


    Habe zum Beitrag oben weitere Screenshots hinzugefügt.


    Der Netcup Support möchte, dass ich das im Rettungssystem ebenfalls teste - ist natürlich immer etwas schwierig, ein zeitweise auftretendes Problem im Rettungssysem nachzustellen, während ein kurzer Blick auf den Host dieses Problem direkt sichtbar werden ließe...

    Habe das auch seit heute Morgen. Führt auch schon zu CPU stalls


    Interessant ist folgendes - 2a00:11c0:47:3::32 ist ein Anexia Knotenpunkt, der ja von Netcup aus am Schnellsten erreichbar sein sollte. Wenn ich diesen von extern aus pinge, dann ist er schnell:


    Gleichzeitig pinge ich den Knotenpunkt von Netcup aus:



    Wenn man vom Teufel spricht: Die Pingzeiten gehen wieder durch die Decke und die Bandbreiten in die Knie. Wie sieht es bei Euch aus?


    Code
    HOST: ncdb-m                      Loss%   Snt   Last   Avg  Best  Wrst StDev
      1.|-- 2a03:4000:4e::2            0.0%    30    0.4   2.0   0.2  46.8   8.5
      2.|-- 2a00:11c0:47:3::32         0.0%    30   21.0  35.6  19.3  57.8   9.7
      3.|-- 2a01:4f8:0:e170::6         0.0%    30   21.9  34.5  18.5  55.4   9.3
      4.|-- core12.nbg1.****.com       0.0%    30   22.1  34.4  17.7  54.4   9.3
      5.|-- 2a01:4f8:0:e0c0::a002      0.0%    30   21.3  37.3  19.6  96.6  14.2
      6.|-- 2a01:4f8:0:e0c0::a1a2      0.0%    30   22.6  34.2  21.0  52.4   8.3
      7.|-- ???                       100.0    30    0.0   0.0   0.0   0.0   0.0
      8.|-- 16837.your-cloud.host      0.0%    30   22.4  33.5  19.2  52.7   8.5
      9.|-- hxapp                      0.0%    30   24.3  34.4  20.8  52.9   8.3

    und als Kontrolle einen traceroute mit IPv6 von netcup weg machen?

    Klaro:


    Code
    Start: 2021-09-29T17:34:11+0200
    HOST: ncdb-m                      Loss%   Snt   Last   Avg  Best  Wrst StDev
    1.|-- 2a03:4000:4e::2            0.0%    30    0.3   3.1   0.2  57.5  11.1
    2.|-- 2a00:11c0:47:3::32         0.0%    30    3.8   1.6   0.6  21.3   3.8

    Von NC nach extern:

    Code
    HOST: ncdb-m                      Loss%   Snt   Last   Avg  Best  Wrst StDev
    1.|-- 2a03:4000:4e::2            0.0%    30    0.6   3.8   0.3  65.4  12.4
    2.|-- 2a00:11c0:47:3::32         0.0%    30    9.7   2.1   0.4  23.1   4.3
    3.|-- 2a01:4f8:0:e170::6         0.0%    30    0.6   1.3   0.5  14.1   2.6
    4.|-- core12.nbg1.het***.com    0.0%    30    0.8   2.2   0.5   8.9   2.6
    5.|-- 2a01:4f8:0:e0c0::a002      0.0%    30    1.2   4.5   1.0  56.7  11.2
    6.|-- 2a01:4f8:0:e0c0::a1a2      0.0%    30   28.5   2.9   1.0  28.5   5.8
    7.|-- ???                       100.0    30    0.0   0.0   0.0   0.0   0.0
    8.|-- 16837.your-cloud.host      0.0%    30    2.1   0.8   0.6   2.1   0.3
    9.|-- hxapp                      0.0%    30    1.1   0.7   0.6   1.5   0.2

    Sieht auf allen Servern ähnlich aus. Aber momentan gibt es ja auch kein Problem im Netzwerk, daher sind die Pingzeiten wunderbar.

    bei der Richtung zu netcup, hackt eigentlich nur der letzte Hop - Dein vServer?

    Nein, ich habe einige Server bei Netcup und auch einige bei Het*** in verschiedenen DCs. Es liegt sicher nicht am Server und die Probleme treten auch immer parallel zu Netzwerkfehlern bei Netcup auf. Ich bin mir nicht sicher, auf was Du genau hinaus möchtest. Natürlich kann man pingen und wenn das Netcup/Anexia Routing behoben ist, habe ich wieder einen Ping von 0,5ms, siehe letzter MTR.

    joas ich weiss; und peterbo fast; beim IPv6 ist dieser komische Host - joas wennst es so willst - nur in einer Richtung da;

    Das stimmt. Allerdings ist dieser Host auch da, wenn alles perfekt läuft, daher wird das schon seine Richtigkeit haben.

    peterbo kannst Du die selben Traces per IPv6 mal machen und vergleichen;

    hier erlebt man oft Überraschungen;

    decken sich die Routen?

    sind die Latenzen andere oder korrelieren diese mit denen bei IPv4?

    Also ähnliche Misere.

    peterbo der Host mit '???' scheint ein schwarzes Loch zu sein;

    ich denke nicht dass hier netcup/anexia dagegen was machen kann;

    Das sollten sie wahrscheinlich schon, da die beiden ja per PNI (gemeint sind Netcup/Anexia und Hetz***) verbunden sind. D.h. das schwarze Loch steht auf jeden Fall unter dem gleichen Dach. Falls nicht, dann läuft im Routing etwas falsch.

    Pünktlich um kurz nach 18 Uhr geht es nun hier auch wieder los mit dem Monitoring, das über erhöhte Latenzen klagt.



    Normalerweise sollte die Latenz um die 0,5ms sein. In diesen Phasen schwankt sie zwischen 5 und 80 Millisekunden. Interessanterweise ist es so, wenn ich verschiedene Server bei Het*** und Netcup anpinge, haben sie meistens bis auf die Millisekunde die gleichen Latenzzeiten (von Vodafone Kabel aus). In den Phasen der erhöhten Pings zwischen He*** und Netcup, ist auch die Latenz von Vodafone Kabel aus genau um diese Pingzeit höher.

    Seit gestern springen bei mir die Latenzen schon wieder im Dreieck. Seit Sonntag gegen 18 Uhr kommen immer wieder sporadische Meldungen vom Monitoring, dass die Latenzen stark springen. Dann einige Minuten wieder normal bis es wieder los geht. Es wäre klasse, wenn wir dem Problem auf den Grund gehen könnten.

    Hallo zusammen,


    leider gibt es auch bei mir, neben hohen Latenzen von extern, auch wieder hohe Latenzen am PNI zum Hoster mit dem roten H***. Seit Tagen meldet das Monitoring im Minutentakt schlechte Latenzen. Ich glaube am späten Sonntagnachmittag hat das begonnen.

    NC -> He***

    Hallo zusammen, seit gestern Abend meldet das Monitoring durchgehend erhöhte Pings zu Netcup-Servern, die über Failover-IPs angebunden sind.

    Das Monitoring misst dabei die Latenz zwischen mehreren H** Servern und meinen Netcup-Servern:


    Normalerweise ist die Latenz zwischen 0,5 und 1ms.


    Interessant ist, dass es die Latenz zum selben Server über die mitgelieferte IP-Adresse eine normale Latenz aufweist:


    Hier nochmal als "normale" ping Anfrage:

    Sind hier aktuell Routing/Anbindungs-Probleme bzgl. Failover-IPs bekannt?

    Besten Dank im Voraus und viele Grüße!

    Ist der Storage jetzt schon wieder bei jemandem verfügbar? Laut Mitteilung sollte es ja bis 16 Uhr durch sein. Im Control Panel wird mir "Started" angezeigt, aber beim Mounten gibt es weiterhin Fehlanzeige, Timeout.

    Noch nicht, geht nicht mal ein ping durch, geschweigedenn irgendetwas anderes. Das ist schon etwas bedenklich, insbesondere vor dem Hintergrund, dass auch an Tagen ohne Wartung und Ausfall das Logfile so aussieht:



    Daher hoffe ich inständig, dass es sich nciht nur um Wartungsarbeiten handelt, sondern das Produkt aufgewertet wird, bis es risikolos verwendbar wird.

    Die Wartung wurde tatsächlich am Mittwoch angekündigt. Allerdings finde ich das a) viel zu kurzfristig und b) ...Ausfall bei Storage-Wartung? Die 90er Jahre wollen ihre Probleme zurück! Die Storage-Volumes dienen hier nur als Backup-Space, daher haben wir dem keine große Beachtung beigemessen.


    Hier haben sich aber unvorhergesehene Probleme ergeben - die Auslastung der Server ist sprunghaft angestiegen und erstmal war die Ursache unbekannt; Dann ist aufgefallen, dass die Monitoring-Tools natürlich viel den Befehl "df" verwenden, der durch Nichtverfügbarkeit der Mounts in Status "D" festhängt (immer noch, obwohl nun alle Storage-Volumes ausgehängt wurden. Da hilft wohl nur ein reboot).


    Alles in allem also relativ unglücklich. Ich hoffe nur, dass der Storagespace im Zuge der Wartung ein update erhält, damit er etwas schneller wird... 8)