Wir können leider nicht zu 100% den genauen Zeitpunkt nennen. Da die Reboots aber nacheinander stattfinden, stellen wir hier sicher das sie nicht genau zusammen stattfinden. In dem Zeitfenster haben wir ja eine kleine Zeitspanne für die eigentliche Nichterreichbarkeit genannt.
Entgegen der Darstellung in einigen Beiträgen hier sollen meine beiden RS 500 (selbes Produkt) in einem sich überschneidenden Zeitfenster neu gestartet werden. Ironischerweise habe ich tatsächlich vor, beide zu einem Cluster zusammenzuschalten, was in diesem Fall aber leider nicht helfen wird. Die Server IDs kann ich bei Bedarf gerne mitteilen, die beiden Zeitfenster sind
Diesmal habe ich mehr Glück mit meinen Zeiten (Abstand von mehreren Stunden bzw. Tagen zwischen den Servern) als beim letzten Update und die Vorlaufzeit ist auch deutlich länger (hatte das letzte Mal nicht ganz 24 Stunden, diesmal sind es mehrere Wochen) - dafür schon mal ein großes Danke an Netcup
Ich hatte beim letzten Update fast das gleiche Problem wie rbrt.mrz - der Abstand zwischen meinen Servern betrug exakt 10 Minuten - das ist auch mit einem HA-Cluster (wie in unserem Fall) ein Risiko. Zur Sicherstellung der Datenintegrität braucht man in bestimmten Fällen N/2 + 1 Nodes in Betrieb.
Der Neustart dauert ca. 5-7 Minuten, d.h. für den Rebalance bleiben 3-5 Minuten bevor die nächste Node runter fährt - das kann zu wenig sein und wenn das der Reihe nach so geht, kann es passieren, dass man am Ende mit weniger als N/2 + 1 Nodes mit aktuellem Datenbestand dasteht.
Wir mussten deshalb beim letzten Update einige zusätzliche Cloud-Server für die Zeit der Wartung anmieten und unseren HA-Cluster vergrößern, damit die Netcup Nodes weniger als N/2 Nodes darstellen.
Das wäre zwar am Ende nicht notwendig gewesen, da die Reboots sofort am Beginn des Zeitfensters erfolgt sind (und auch nur wenige Minuten dauerten) aber Vorsicht ist nun mal besser als Nachsicht.
@ felix
Wie bereits beim letzten Mal erwähnt, vielleicht kann man den Algorithmus dahingehend optimieren, dass zwischen Nodes des gleichen Kunden in der gleichen Generation zumindest 20-30 Minuten liegen - das sollte für (fast) jede Art von HA-Clustern reichen.