Ich habe mehr als nur 2 Failover-IPv4-Adressen und ein Failover-IPv6-Netz, die derzeit auf einem GW-Server geschaltet sind.
Was hältst du oder ihr von zwei GW-Servern, die im Master- Slave-Betrieb laufen würden und auf denen die Failover IPv4-Adressen und das Failover-IPv6-Netz im Störungsfall vollautomatisiert über einen zusätzlichen externen Monitoringdienst, der eventuell auch aus Kostengründen zuhause läuft, umgeschwenkt werden?
Am 21.12.2024 hatte ich aufgrund meiner Antwort #15 hier unter der Überschrift Failover IPv4- oder IPv6-Adresse aus der Ferne von Server A auf B umschwenken auch ein entsprechendes Beispiel abgelegt, mit dem z.B. sowas auch realisiert werden könnte.
Weil sich aber in der Vergangenheit gezeigt hat, dass die Verfügbarkeit bezüglich der Netzanbindung bei Netcup sehr hoch ist, kann ich auch mit meiner derzeitigen Konfiguration recht gut leben.
Display More
https://de.wikipedia.org/wiki/Murphys_Gesetz
Ich saß im Auto auf den Weg zum Bodensee, noch 4 Stunden Fahrzeit, als mein Monitoring mich darüber informierte, dass die Failover IP geschwenkt wurde und 1 Server weg ist. Ich konnte dann den Notfall Support erreichen und der konnte mir dann nach späteren Rückruf bestätigen, dass der Wirt ausgefallen war. 10 Minuten später kam dann auch die Meldung vom Support über den Ausfall. Ohne Automatisierung hätte ich den Rest des Tages mit Anrufen und Schlichtungen verbracht.
| über einen zusätzlichen externen Monitoringdienst,
Warum eine weitere Single Point of Failure Komponente dazufügen, wenn man genug Server hat und die API direkt vom Server erreicht?
| Failover IPv4- oder IPv6-Adresse aus der Ferne von Server A auf B umschwenken
Ich mache dir mal einen Gegenvorschlag:
Bei mir sind das 3 Server mit Keepalived Konfiguration, die dann über die API Schnittstelle vollautomatisiert schwenken ( Skript sind ähnlich deinen geposteten, weil gleicher Mechanismus). Diese stehen die ganze Zeit im Kontakt zueinander und prüfen verschiedenste Dienste lokal und nicht nur ob der Webserver selbst bspw läuft.
Auch gibt es Abstufungen / Unterschiede in der Gewichtung. Wenn die Gesamtpunktzahl nicht mehr stimmt und nicht innerhalb 1 Minute wieder healthy ist, wird geschwenkt. Es gibt auch einen Check der von außen mit in die Gewichtung fließt und prüft ob die externe Kommunikation wie erwartet funktioniert. Der lokale Check gegen die FailoverIP ist nicht ohne.
Vorteil ist auch, dass du die ganzen variablen Informationen aus dem Skript nicht erst selbst zusammen suchen muss, sondern diese auf dem System automatisiert abgreifen kannst oder per Ansible ausrollst.