Beiträge von peterbo

peterbo · 6. Mai 2023

Der Notfallsupport hat den Hardwaredefekt bestätigt und die VM verschoben. Erste Idee war, dass der RAID-Verbund oder RAID-Controller den Geist aufgegeben haben. Die Lösung war über den Notfallsupport gut, schnell und zielführend, aber ein Beigeschmack, warum ein solches Problem im Monitoring nicht auffällt / eskaliert wird, bleibt.

Ergänzung für das volle Bild: Meine Anfrage beim "normalen" Support vom Donnerstagabend, blieb bis zum Anruf beim Notfallsupport am Samstagmorgen unbeantwortet. Schade, dass sich das niemand auch nur kurz angeschaut hat.

peterbo · 5. Mai 2023

Das Rettungssystem bestätigt aber das Hardwareproblem:

hdparm misst einen Lesedurchsatz von satten 950KB/s:

peterbo · 5. Mai 2023

Zusatzinfos: Der Festplattendurchsatz auf der betroffenen Maschine is zu den betroffenen Zeiten (Problem ist mal ein paar Minuten da und dann wieder weg) unterirdisch. Problem tritt mit SCSI und virtio auf.

Code

root@xxx:~# hdparm -tT /dev/vda
/dev/vda:
 Timing cached reads:   14274 MB in  2.00 seconds = 7142.40 MB/sec
 Timing buffered disk reads: 134 MB in 21.32 seconds =   6.28 MB/sec


Als Referenz, ein anderer Server bei Netcup (der unter viel höherer I/O-Last steht):
root@xxx:# hdparm -tT /dev/sda
/dev/sda:
 Timing cached reads:   12874 MB in  2.00 seconds = 6444.20 MB/sec
 Timing buffered disk reads: 3556 MB in  3.00 seconds = 1184.37 MB/sec

Zweite Referenz, eine VM beim roten H:
root@xxx:~# hdparm -tT /dev/sda
/dev/sda:
 Timing cached reads:   34862 MB in  2.00 seconds = 17473.25 MB/sec
 Timing buffered disk reads: 6206 MB in  3.00 seconds = 2068.59 MB/sec

Alles anzeigen

Habe zum Beitrag oben weitere Screenshots hinzugefügt.

Der Netcup Support möchte, dass ich das im Rettungssystem ebenfalls teste - ist natürlich immer etwas schwierig, ein zeitweise auftretendes Problem im Rettungssysem nachzustellen, während ein kurzer Blick auf den Host dieses Problem direkt sichtbar werden ließe...

peterbo · 4. Mai 2023

Habe das auch seit heute Morgen. Führt auch schon zu CPU stalls

Code

watchdog: BUG: soft lockup - CPU#7 stuck for 58s! [kworker/7:2:27872]

[45791055.278039] rcu: INFO: rcu_sched detected stalls on CPUs/tasks:

Message from syslogd@xxx at May  4 20:52:07 ...
 kernel:[45787478.310296] Uhhuh. NMI received for unknown reason 30 on CPU 1.

Message from syslogd@xxx at May  4 20:52:07 ...
 kernel:[45787478.310296] Do you have a strange power saving mode enabled?

Message from syslogd@xxx at May  4 20:52:07 ...
 kernel:[45787478.310297] Dazed and confused, but trying to continue

Alles anzeigen

peterbo · 12. November 2021

Zitat von mainziman

Du willst Dein Serverhording erweitern

Genau so sieht es aus

peterbo · 12. November 2021

Sieht jemand in seiner kristallkugel, wann bei Netcup neue Server / CPUs released werden? Ich brauch mehr Power!!

peterbo · 29. September 2021

Interessant ist folgendes - 2a00:11c0:47:3::32 ist ein Anexia Knotenpunkt, der ja von Netcup aus am Schnellsten erreichbar sein sollte. Wenn ich diesen von extern aus pinge, dann ist er schnell:

Code

hxapp(extern):~# ping 2a00:11c0:47:3::32
PING 2a00:11c0:47:3::32(2a00:11c0:47:3::32) 56 data bytes
64 bytes from 2a00:11c0:47:3::32: icmp_seq=1 ttl=58 time=1.02 ms
64 bytes from 2a00:11c0:47:3::32: icmp_seq=2 ttl=58 time=1.01 ms
64 bytes from 2a00:11c0:47:3::32: icmp_seq=3 ttl=58 time=0.926 ms
64 bytes from 2a00:11c0:47:3::32: icmp_seq=4 ttl=58 time=0.953 ms

MTR:
Start: Wed Sep 29 20:14:01 2021
HOST: hxapp                       Loss%   Snt   Last   Avg  Best  Wrst StDev
  1.|-- fe80::                     0.0%    30    2.9   2.4   1.8   3.0   0.0
  2.|-- 16837.your-cloud.host      0.0%    30    0.3   0.3   0.2   0.5   0.0
  3.|-- 2a01:4f8:0:e0c0::4401      0.0%    30   14.0 125.3   2.9 630.6 182.0
  4.|-- 2a01:4f8:0:e110::16        0.0%    30    0.8   1.0   0.8   1.7   0.0
  5.|-- 2a01:4f8:0:e0c0::a1a1      0.0%    30    0.9   3.4   0.8  38.5   8.9
  6.|-- 2a01:4f8:0:e0c0::a0c1      0.0%    30    0.6   2.2   0.4  34.4   6.3
  7.|-- juniper3.rz2.****.de    0.0%    30   13.5   1.5   0.5  15.3   3.4
  8.|-- 2a00:11c0:47:3::32         0.0%    30    2.5   1.7   0.8  12.7   2.2

Alles anzeigen

Gleichzeitig pinge ich den Knotenpunkt von Netcup aus:

Code

ncdb-m(Netcup):~# ping 2a00:11c0:47:3::32
PING 2a00:11c0:47:3::32(2a00:11c0:47:3::32) 56 data bytes
64 bytes from 2a00:11c0:47:3::32: icmp_seq=1 ttl=63 time=26.3 ms
64 bytes from 2a00:11c0:47:3::32: icmp_seq=2 ttl=63 time=31.3 ms
64 bytes from 2a00:11c0:47:3::32: icmp_seq=3 ttl=63 time=37.8 ms
64 bytes from 2a00:11c0:47:3::32: icmp_seq=4 ttl=63 time=37.1 ms
64 bytes from 2a00:11c0:47:3::32: icmp_seq=5 ttl=63 time=33.1 ms
64 bytes from 2a00:11c0:47:3::32: icmp_seq=6 ttl=63 time=32.6 ms

MTR:
Start: 2021-09-29T20:14:07+0200
HOST: ncdb-m                      Loss%   Snt   Last   Avg  Best  Wrst StDev
  1.|-- 2a03:4000:4e::2            0.0%    30    0.3   4.8   0.2  63.6  15.6
  2.|-- 2a00:11c0:47:3::32         0.0%    30   15.7  24.3  10.4  39.2   8.3

Alles anzeigen

peterbo · 29. September 2021

Wenn man vom Teufel spricht: Die Pingzeiten gehen wieder durch die Decke und die Bandbreiten in die Knie. Wie sieht es bei Euch aus?

Code

HOST: ncdb-m                      Loss%   Snt   Last   Avg  Best  Wrst StDev
  1.|-- 2a03:4000:4e::2            0.0%    30    0.4   2.0   0.2  46.8   8.5
  2.|-- 2a00:11c0:47:3::32         0.0%    30   21.0  35.6  19.3  57.8   9.7
  3.|-- 2a01:4f8:0:e170::6         0.0%    30   21.9  34.5  18.5  55.4   9.3
  4.|-- core12.nbg1.****.com       0.0%    30   22.1  34.4  17.7  54.4   9.3
  5.|-- 2a01:4f8:0:e0c0::a002      0.0%    30   21.3  37.3  19.6  96.6  14.2
  6.|-- 2a01:4f8:0:e0c0::a1a2      0.0%    30   22.6  34.2  21.0  52.4   8.3
  7.|-- ???                       100.0    30    0.0   0.0   0.0   0.0   0.0
  8.|-- 16837.your-cloud.host      0.0%    30   22.4  33.5  19.2  52.7   8.5
  9.|-- hxapp                      0.0%    30   24.3  34.4  20.8  52.9   8.3

peterbo · 29. September 2021

Zitat von mainziman

und als Kontrolle einen traceroute mit IPv6 von netcup weg machen?

Klaro:

Code

Start: 2021-09-29T17:34:11+0200
HOST: ncdb-m                      Loss%   Snt   Last   Avg  Best  Wrst StDev
1.|-- 2a03:4000:4e::2            0.0%    30    0.3   3.1   0.2  57.5  11.1
2.|-- 2a00:11c0:47:3::32         0.0%    30    3.8   1.6   0.6  21.3   3.8

Von NC nach extern:

Code

HOST: ncdb-m                      Loss%   Snt   Last   Avg  Best  Wrst StDev
1.|-- 2a03:4000:4e::2            0.0%    30    0.6   3.8   0.3  65.4  12.4
2.|-- 2a00:11c0:47:3::32         0.0%    30    9.7   2.1   0.4  23.1   4.3
3.|-- 2a01:4f8:0:e170::6         0.0%    30    0.6   1.3   0.5  14.1   2.6
4.|-- core12.nbg1.het***.com    0.0%    30    0.8   2.2   0.5   8.9   2.6
5.|-- 2a01:4f8:0:e0c0::a002      0.0%    30    1.2   4.5   1.0  56.7  11.2
6.|-- 2a01:4f8:0:e0c0::a1a2      0.0%    30   28.5   2.9   1.0  28.5   5.8
7.|-- ???                       100.0    30    0.0   0.0   0.0   0.0   0.0
8.|-- 16837.your-cloud.host      0.0%    30    2.1   0.8   0.6   2.1   0.3
9.|-- hxapp                      0.0%    30    1.1   0.7   0.6   1.5   0.2

Sieht auf allen Servern ähnlich aus. Aber momentan gibt es ja auch kein Problem im Netzwerk, daher sind die Pingzeiten wunderbar.

peterbo · 29. September 2021

Zitat von mainziman

bei der Richtung zu netcup, hackt eigentlich nur der letzte Hop - Dein vServer?

Nein, ich habe einige Server bei Netcup und auch einige bei Het*** in verschiedenen DCs. Es liegt sicher nicht am Server und die Probleme treten auch immer parallel zu Netzwerkfehlern bei Netcup auf. Ich bin mir nicht sicher, auf was Du genau hinaus möchtest. Natürlich kann man pingen und wenn das Netcup/Anexia Routing behoben ist, habe ich wieder einen Ping von 0,5ms, siehe letzter MTR.

peterbo · 29. September 2021

Zitat von mainziman

joas ich weiss; und peterbo fast; beim IPv6 ist dieser komische Host - joas wennst es so willst - nur in einer Richtung da;

Das stimmt. Allerdings ist dieser Host auch da, wenn alles perfekt läuft, daher wird das schon seine Richtigkeit haben.

Code

HOST: hxapp                       Loss%   Snt   Last   Avg  Best  Wrst StDev
1.|-- 172.31.1.1                 0.0%    30    2.1   2.5   1.7   3.2   0.0
2.|-- 16837.your-cloud.host      0.0%    30    0.1   0.2   0.1   0.4   0.0
3.|-- ???                       100.0    30    0.0   0.0   0.0   0.0   0.0
4.|-- static.158.0.47.78.client  0.0%    30    0.8   3.1   0.7  32.3   7.7
5.|-- static.85.10.239.169.clie  0.0%    30    0.9   5.1   0.7  49.3  12.2
6.|-- core11.nbg1.het***.com    0.0%    30    2.4   8.5   1.1  32.6   7.2
7.|-- juniper6.dc2.nbg1.het***  0.0%    30    0.6   2.9   0.4  29.9   6.2
8.|-- ae9-0.bbr02.anx84.nue.de.  0.0%    30    0.7   0.9   0.4   3.5   0.6
9.|-- netcup-gw.bbr02.anx84.nue  0.0%    30    0.5   1.7   0.4  34.4   6.2
10.|-- ncdb-m.local               0.0%    30    0.6   0.6   0.5   0.8   0.0

Alles anzeigen

peterbo · 28. September 2021

Zitat von mainziman

peterbo kannst Du die selben Traces per IPv6 mal machen und vergleichen;

hier erlebt man oft Überraschungen;

decken sich die Routen?

sind die Latenzen andere oder korrelieren diese mit denen bei IPv4?

Code

Das ist der MTR über IPv6:Hetz*** -> Netcup
Start: Tue Sep 28 21:36:01 2021
HOST: hxapp 
Loss%   Snt   Last   Avg  Best  Wrst StDev
1.|-- fe80::                     0.0%    30    2.2   2.4   1.9   3.6   0.2
2.|-- 16837.your-cloud.host      0.0%    30    0.4   0.3   0.2   0.4   0.0
3.|-- 2a01:4f8:0:e0c0::4401      0.0%    30    5.0  35.4   0.6 324.7  76.8
4.|-- 2a01:4f8:0:e110::12        0.0%    30    1.4   2.8   0.8  32.7   6.4
5.|-- 2a01:4f8:0:e0c0::a1a5      0.0%    30    1.1   6.8   0.8  76.2  17.1
6.|-- 2a01:4f8:0:e0c0::a005      0.0%    30    4.7  13.7   1.8  43.4   9.4
7.|-- juniper4.rz2.het***.de    0.0%    30    1.3   0.8   0.4   3.5   0.7
8.|-- ae6-0.bbr01.anx84.nue.de.  0.0%    30    6.7   7.8   0.6  30.7   6.9
9.|-- 2a00:11c0:47:3::21         0.0%    30    2.9   2.7   0.5  61.5  11.1
10.|-- ncdb-m          0.0%    30   51.7  49.1  42.7  61.7   4.9


Netcup -> Hetz****
Start: 2021-09-28T21:37:27+0200
HOST: ncdb-m                      Loss%   Snt   Last   Avg  Best  Wrst StDev
1.|-- 2a03:4000:4e::2            0.0%    30    0.4   2.7   0.3  60.8  11.1
2.|-- 2a00:11c0:47:3::32         0.0%    30   43.2  41.1  32.8  48.4   4.3
3.|-- 2a01:4f8:0:e170::6         0.0%    30   43.3  41.9  33.8  48.4   4.0
4.|-- core12.nbg1.het***.com    0.0%    30   50.8  51.6  38.1  88.4  10.1
5.|-- 2a01:4f8:0:e0c0::a002      0.0%    30   44.0  45.1  35.6  72.1   8.1
6.|-- 2a01:4f8:0:e0c0::a1a2      0.0%    30   45.1  44.7  36.8  60.2   5.4
7.|-- ???                       100.0    30    0.0   0.0   0.0   0.0   0.0
8.|-- 16837.your-cloud.host      0.0%    30   43.6  42.0  33.8  51.0   4.2
9.|-- hxapp           0.0%    30   42.9  39.9  31.0  47.5   4.2

Alles anzeigen

Also ähnliche Misere.

peterbo · 28. September 2021

Zitat von mainziman

peterbo der Host mit '???' scheint ein schwarzes Loch zu sein;

ich denke nicht dass hier netcup/anexia dagegen was machen kann;

Das sollten sie wahrscheinlich schon, da die beiden ja per PNI (gemeint sind Netcup/Anexia und Hetz***) verbunden sind. D.h. das schwarze Loch steht auf jeden Fall unter dem gleichen Dach. Falls nicht, dann läuft im Routing etwas falsch.

peterbo · 28. September 2021

Pünktlich um kurz nach 18 Uhr geht es nun hier auch wieder los mit dem Monitoring, das über erhöhte Latenzen klagt.

Code

Het**** -> Netcup
Start: Tue Sep 28 19:07:03 2021
HOST: hxapp                       Loss%   Snt   Last   Avg  Best  Wrst StDev
  1.|-- 172.31.1.1                 0.0%    30    2.1   2.2   1.8   3.1   0.0
  2.|-- 16837.your-cloud.host      0.0%    30    0.2   0.1   0.1   0.3   0.0
  3.|-- ???                       100.0    30    0.0   0.0   0.0   0.0   0.0
  4.|-- static.158.0.47.78.client  0.0%    30    5.8   2.7   0.7  26.5   6.0
  5.|-- static.85.10.239.169.clie  0.0%    30    0.9   3.8   0.7  49.4   9.8
  6.|-- core11.nbg1.he****.com    0.0%    30   10.9   7.3   0.5  28.0   5.7
  7.|-- juniper6.dc2.nbg1.het****  0.0%    30    0.5   2.5   0.3  32.1   5.8
  8.|-- ae9-0.bbr02.anx84.nue.de.  0.0%    30    1.0   5.0   0.5  24.7   8.3
  9.|-- netcup-gw.bbr02.anx84.nue  0.0%    30   45.2  41.8  27.2  75.8  10.2
 10.|-- ncdb-m.local               0.0%    30   44.4  40.5  27.6  56.9   7.6

Netcup -> Hetz***
Start: 2021-09-28T19:07:08+0200
HOST: ncdb-m                      Loss%   Snt   Last   Avg  Best  Wrst StDev
  1.|-- 185.232.68.2               0.0%    30    7.2   2.5   0.2  39.7   7.7
  2.|-- ae3-4019.bbr02.anx84.nue.  0.0%    30   53.3  44.3  27.9  68.7   9.1
  3.|-- static.6.7.47.78.clients.  0.0%    30   52.1  44.0  28.9  57.7   7.7
  4.|-- 213-239-245-77.clients.yo  0.0%    30   64.3  50.7  34.3  64.3   9.0
  5.|-- static.85-10-228-86.clien  0.0%    30   56.9  50.3  27.8 140.1  23.6
  6.|-- static.85.10.248.218.clie  0.0%    30   66.3  45.2  29.4  83.2  10.8
  7.|-- ???                       100.0    30    0.0   0.0   0.0   0.0   0.0
  8.|-- 16837.your-cloud.host      0.0%    30   49.3  42.7  27.5  56.6   7.6
  9.|-- hxapp                      0.0%    30   48.4  43.2  27.4  56.9   7.3

Alles anzeigen

Normalerweise sollte die Latenz um die 0,5ms sein. In diesen Phasen schwankt sie zwischen 5 und 80 Millisekunden. Interessanterweise ist es so, wenn ich verschiedene Server bei Het*** und Netcup anpinge, haben sie meistens bis auf die Millisekunde die gleichen Latenzzeiten (von Vodafone Kabel aus). In den Phasen der erhöhten Pings zwischen He*** und Netcup, ist auch die Latenz von Vodafone Kabel aus genau um diese Pingzeit höher.

peterbo · 27. September 2021

Seit gestern springen bei mir die Latenzen schon wieder im Dreieck. Seit Sonntag gegen 18 Uhr kommen immer wieder sporadische Meldungen vom Monitoring, dass die Latenzen stark springen. Dann einige Minuten wieder normal bis es wieder los geht. Es wäre klasse, wenn wir dem Problem auf den Grund gehen könnten.

peterbo · 22. September 2021

Hallo zusammen,

leider gibt es auch bei mir, neben hohen Latenzen von extern, auch wieder hohe Latenzen am PNI zum Hoster mit dem roten H***. Seit Tagen meldet das Monitoring im Minutentakt schlechte Latenzen. Ich glaube am späten Sonntagnachmittag hat das begonnen.

NC -> He***

Code

Start: 2021-09-22T22:07:37+0200
HOST: ncdb-m                      Loss%   Snt   Last   Avg  Best  Wrst StDev
  1.|-- 185.232.68.2               0.0%    30    0.4   0.8   0.2  12.4   2.2
  2.|-- ae3-4019.bbr02.anx84.nue.  0.0%    30   42.5  46.0  37.2  65.3   6.0
  3.|-- static.6.7.47.78.clients.  0.0%    30   43.5  45.4  36.2  61.6   5.8
  4.|-- 213-239-245-77.clients.yo  0.0%    30   44.1  46.6  37.6  63.4   6.0
  5.|-- static.85-10-228-86.clien  0.0%    30   46.1  50.0  38.6  96.2  12.1
  6.|-- static.85.10.248.218.clie  0.0%    30   48.0  47.4  38.2  58.3   5.0
  7.|-- ???                       100.0    30    0.0   0.0   0.0   0.0   0.0
  8.|-- 16837.your-cloud.host      0.0%    30   43.5  43.6  34.9  51.2   4.8
  9.|-- hxapp                      0.0%    30   42.4  43.5  36.2  52.4   4.8


He*** -> NC

Start: Wed Sep 22 22:07:44 2021
HOST: hxapp                       Loss%   Snt   Last   Avg  Best  Wrst StDev
1.|-- 172.31.1.1                 0.0%    30    1.9   2.3   1.9   3.6   0.2
2.|-- 16837.your-cloud.host      0.0%    30    0.1   0.1   0.1   0.4   0.0
3.|-- ???                       100.0    30    0.0   0.0   0.0   0.0   0.0
4.|-- static.158.0.47.78.client  0.0%    30    3.3   1.5   0.7  17.8   3.1
5.|-- static.85.10.239.169.clie  0.0%    30    1.0   9.7   0.8  61.1  11.9
6.|-- core11.nbg1.h***.com    0.0%    30    0.5   2.8   0.3  10.2   3.0
7.|-- juniper6.dc2.nbg1.h****  0.0%    30    0.8   2.1   0.4  20.3   4.5
8.|-- ae9-0.bbr02.anx84.nue.de.  0.0%    30    0.6   1.9   0.5  27.0   5.0
9.|-- netcup-gw.bbr02.anx84.nue  0.0%    30   46.4  43.1  36.7  48.5   3.3
10.|-- ncdb-m.local               0.0%    30   43.0  41.2  35.1  46.8   3.3

Alles anzeigen

peterbo · 24. August 2021

Hallo zusammen, seit gestern Abend meldet das Monitoring durchgehend erhöhte Pings zu Netcup-Servern, die über Failover-IPs angebunden sind.

Das Monitoring misst dabei die Latenz zwischen mehreren H** Servern und meinen Netcup-Servern:

Code

root@hxapp:~# mtr -g -r -c 100 188.68.62.254 (failover ip)
Start: Tue Aug 24 11:44:52 2021
HOST: hxapp                       Loss%   Snt   Last   Avg  Best  Wrst StDev
  1.|-- 172.31.1.1                 0.0%   100    2.9   2.5   1.8   4.2   0.2
  2.|-- 16837.your-cloud.host      0.0%   100    0.2   0.1   0.1   0.4   0.0
  3.|-- ???                       100.0   100    0.0   0.0   0.0   0.0   0.0
  4.|-- static.154.0.47.78.client  0.0%   100    0.8   1.6   0.7  25.7   3.3
  5.|-- static.85.10.248.217.clie  0.0%   100    8.3   4.5   0.7  77.3  10.9
  6.|-- core11.nbg1.h****.com    0.0%   100    0.5   1.9   0.3  19.3   3.0
  7.|-- juniper5.dc2.nbg1.h***  0.0%   100    0.5   1.1   0.4  35.9   3.7
  8.|-- ae6-0.bbr01.anx84.nue.de.  0.0%   100    0.6   3.2   0.5  41.3   6.5
  9.|-- netcup-gw.bbr01.anx84.nue  0.0%   100    0.5   3.2   0.4  64.2  10.2
 10.|-- ncdb-m                     0.0%   100   44.0  30.4   6.0  84.0  14.8

Alles anzeigen

Normalerweise ist die Latenz zwischen 0,5 und 1ms.

Interessant ist, dass es die Latenz zum selben Server über die mitgelieferte IP-Adresse eine normale Latenz aufweist:

Code

root@hxapp:~# mtr -g -r -c 10 185.232.71.112
Start: Tue Aug 24 11:55:37 2021
HOST: hxapp                       Loss%   Snt   Last   Avg  Best  Wrst StDev
  1.|-- 172.31.1.1                 0.0%    10    2.7   2.5   2.1   3.1   0.0
  2.|-- 16837.your-cloud.host      0.0%    10    0.2   0.2   0.1   0.3   0.0
  3.|-- ???                       100.0    10    0.0   0.0   0.0   0.0   0.0
  4.|-- static.158.0.47.78.client  0.0%    10    0.9   0.9   0.8   1.0   0.0
  5.|-- static.85.10.239.169.clie  0.0%    10    1.0   1.1   0.7   2.4   0.3
  6.|-- core11.nbg1.h***.com    0.0%    10   10.9   7.3   0.4  18.6   5.8
  7.|-- juniper6.dc2.nbg1.***  0.0%    10    0.5   0.7   0.5   1.3   0.0
  8.|-- ae9-0.bbr02.anx84.nue.de.  0.0%    10    0.6   1.8   0.5  11.7   3.4
  9.|-- netcup-gw.bbr02.anx84.nue  0.0%    10   57.7   6.3   0.5  57.7  18.1
 10.|-- ncdb-m                     0.0%    10    0.6   0.6   0.5   0.8   0.0

Alles anzeigen

Hier nochmal als "normale" ping Anfrage:

Code

root@hxapp:~# ping 188.68.62.254 (failover ip)
PING 188.68.62.254 (188.68.62.254) 56(84) bytes of data.
64 bytes from 188.68.62.254: icmp_seq=1 ttl=56 time=13.5 ms
64 bytes from 188.68.62.254: icmp_seq=2 ttl=56 time=21.3 ms
64 bytes from 188.68.62.254: icmp_seq=3 ttl=56 time=17.7 ms
64 bytes from 188.68.62.254: icmp_seq=4 ttl=56 time=12.6 ms
64 bytes from 188.68.62.254: icmp_seq=5 ttl=56 time=11.3 ms
64 bytes from 188.68.62.254: icmp_seq=6 ttl=56 time=16.9 ms
64 bytes from 188.68.62.254: icmp_seq=7 ttl=56 time=12.1 ms
64 bytes from 188.68.62.254: icmp_seq=8 ttl=56 time=16.1 ms

root@hxapp:~# ping 185.232.71.112 (normale IP)
PING 185.232.71.112 (185.232.71.112) 56(84) bytes of data.
64 bytes from 185.232.71.112: icmp_seq=1 ttl=56 time=0.858 ms
64 bytes from 185.232.71.112: icmp_seq=2 ttl=56 time=0.583 ms
64 bytes from 185.232.71.112: icmp_seq=3 ttl=56 time=0.563 ms
64 bytes from 185.232.71.112: icmp_seq=4 ttl=56 time=0.511 ms
64 bytes from 185.232.71.112: icmp_seq=5 ttl=56 time=0.482 ms
64 bytes from 185.232.71.112: icmp_seq=6 ttl=56 time=0.514 ms
64 bytes from 185.232.71.112: icmp_seq=7 ttl=56 time=0.565 ms
64 bytes from 185.232.71.112: icmp_seq=8 ttl=56 time=0.512 ms
64 bytes from 185.232.71.112: icmp_seq=9 ttl=56 time=0.561 ms
64 bytes from 185.232.71.112: icmp_seq=10 ttl=56 time=0.567 ms

--- 185.232.71.112 ping statistics ---
10 packets transmitted, 10 received, 0% packet loss, time 9184ms
rtt min/avg/max/mdev = 0.482/0.571/0.858/0.103 ms

Alles anzeigen

Sind hier aktuell Routing/Anbindungs-Probleme bzgl. Failover-IPs bekannt?

Besten Dank im Voraus und viele Grüße!

peterbo · 21. Mai 2021

Zitat von Armag3ddon

Ist der Storage jetzt schon wieder bei jemandem verfügbar? Laut Mitteilung sollte es ja bis 16 Uhr durch sein. Im Control Panel wird mir "Started" angezeigt, aber beim Mounten gibt es weiterhin Fehlanzeige, Timeout.

Noch nicht, geht nicht mal ein ping durch, geschweigedenn irgendetwas anderes. Das ist schon etwas bedenklich, insbesondere vor dem Hintergrund, dass auch an Tagen ohne Wartung und Ausfall das Logfile so aussieht:

Code

May 16 00:12:45 mtm-003 kernel: [1474917.151294] nfs: server 46.38.248.211 not responding, still trying
May 16 00:12:49 mtm-003 kernel: [1474921.037141] nfs: server 46.38.248.211 OK
May 16 00:13:00 mtm-003 kernel: [1474932.254964] nfs: server 46.38.248.211 not responding, still trying
May 16 00:13:01 mtm-003 kernel: [1474932.841224] nfs: server 46.38.248.211 OK
May 16 00:14:05 mtm-003 kernel: [1474997.277619] nfs: server 46.38.248.211 not responding, still trying
May 16 00:14:08 mtm-003 kernel: [1475000.384623] nfs: server 46.38.248.211 OK
May 16 00:14:15 mtm-003 kernel: [1475007.261372] nfs: server 46.38.248.211 not responding, still trying
May 16 00:14:17 mtm-003 kernel: [1475008.901900] nfs: server 46.38.248.211 OK
May 16 00:14:25 mtm-003 kernel: [1475017.245195] nfs: server 46.38.248.211 not responding, still trying
May 16 00:14:27 mtm-003 kernel: [1475018.566737] nfs: server 46.38.248.211 OK
May 16 00:15:45 mtm-003 kernel: [1475097.115504] nfs: server 46.38.248.211 not responding, still trying
May 16 00:15:46 mtm-003 kernel: [1475098.003300] nfs: server 46.38.248.211 OK
May 16 00:16:35 mtm-003 kernel: [1475147.290455] nfs: server 46.38.248.211 not responding, still trying
May 16 00:16:37 mtm-003 kernel: [1475148.730373] nfs: server 46.38.248.211 OK
May 16 00:16:50 mtm-003 kernel: [1475162.138185] nfs: server 46.38.248.211 not responding, still trying
May 16 00:16:50 mtm-003 kernel: [1475162.249934] nfs: server 46.38.248.211 OK
May 16 00:17:00 mtm-003 kernel: [1475172.121997] nfs: server 46.38.248.211 not responding, still trying
May 16 00:17:03 mtm-003 kernel: [1475174.642667] nfs: server 46.38.248.211 OK
May 16 00:18:30 mtm-003 kernel: [1475262.232069] nfs: server 46.38.248.211 not responding, still trying
May 16 00:18:33 mtm-003 kernel: [1475264.933089] nfs: server 46.38.248.211 OK
May 16 00:18:55 mtm-003 kernel: [1475287.319571] nfs: server 46.38.248.211 not responding, still trying
May 16 00:18:56 mtm-003 kernel: [1475287.814300] nfs: server 46.38.248.211 OK
May 16 00:19:05 mtm-003 kernel: [1475297.303366] nfs: server 46.38.248.211 not responding, still trying
May 16 00:19:07 mtm-003 kernel: [1475298.769863] nfs: server 46.38.248.211 OK
May 16 00:19:50 mtm-003 kernel: [1475342.102476] nfs: server 46.38.248.211 not responding, still trying
May 16 00:19:53 mtm-003 kernel: [1475344.626089] nfs: server 46.38.248.211 OK
May 16 00:20:00 mtm-003 kernel: [1475352.086201] nfs: server 46.38.248.211 not responding, still trying
May 16 00:20:05 mtm-003 kernel: [1475357.110123] nfs: server 46.38.248.211 not responding, still trying
May 16 00:20:06 mtm-003 kernel: [1475357.976345] nfs: server 46.38.248.211 OK

Alles anzeigen

Daher hoffe ich inständig, dass es sich nciht nur um Wartungsarbeiten handelt, sondern das Produkt aufgewertet wird, bis es risikolos verwendbar wird.

peterbo · 21. Mai 2021

Die Wartung wurde tatsächlich am Mittwoch angekündigt. Allerdings finde ich das a) viel zu kurzfristig und b) ...Ausfall bei Storage-Wartung? Die 90er Jahre wollen ihre Probleme zurück! Die Storage-Volumes dienen hier nur als Backup-Space, daher haben wir dem keine große Beachtung beigemessen.

Hier haben sich aber unvorhergesehene Probleme ergeben - die Auslastung der Server ist sprunghaft angestiegen und erstmal war die Ursache unbekannt; Dann ist aufgefallen, dass die Monitoring-Tools natürlich viel den Befehl "df" verwenden, der durch Nichtverfügbarkeit der Mounts in Status "D" festhängt (immer noch, obwohl nun alle Storage-Volumes ausgehängt wurden. Da hilft wohl nur ein reboot).

Alles in allem also relativ unglücklich. Ich hoffe nur, dass der Storagespace im Zuge der Wartung ein update erhält, damit er etwas schneller wird...

peterbo · 30. April 2021

Wann kommen die neuen EPYC Milan/Zen3 Prozessoren für die Netcup-Server? Hat da jemand eine Info/Flurfunk/Gerücht/usw?

Beiträge von peterbo

Regelmäßige IO Probleme

Regelmäßige IO Probleme

Regelmäßige IO Probleme

Regelmäßige IO Probleme

Das längste Thema

Das längste Thema

Backbone / Routing Q&A

Backbone / Routing Q&A

Backbone / Routing Q&A

Backbone / Routing Q&A

Backbone / Routing Q&A

Backbone / Routing Q&A

Backbone / Routing Q&A

Backbone / Routing Q&A

Backbone / Routing Q&A

Backbone / Routing Q&A

Backbone / Routing Q&A

StoragePool

StoragePool

Das längste Thema