Also die etcd Warnung ("apply request took too long") ist eigentlich schon recht bedenklich mit einer Zeit von 5-6s. Ich habe jetzt schon recht viele Kubernetes Cluster aufgesetzt. Diese Warnungen bekomme ich auch sehr oft. Das ist eigentlich normal. Bei mir bewegen die sich aber dann meist im 100ms - 400ms Bereich (Warnung gibt es ab 100ms). Gut möglich, dass der 500er dann daher kommt.
Kannst du die Tests mal mit nur 1 Master durchführen? Einfach 1 RS1000 dafür nehmen. Der sollte von den Specs her eigentlich völlig ausreichen. In einem Cluster reicht es ja oft, wenn es 1 Node gibt, der die anderen ausbremst. Man sollte auch mal überprüfen, ob das VLAN sauber läuft. Nicht dass die Probleme durch Fehler in diesem Bereich auftreten (daher meine Überlegung mit nur 1 Master, dann hat man zumindest schon mal keinen etcd Cluster).
Die Graphen der Disk Auslastung sehen jetzt nicht so schlimm aus. Das sind ja noch recht niedrige Werte.
Wenn du produktive Kubernetes Cluster bei Netcup betreiben willst, hast du dir schon überlegt wie du das mit dem Storage und dem LB machen willst? Das sind eigentlich genau die 2 Punkte, warum ich es eher nicht empfehlen würde. Es gibt zwar diverse Storage Cluster Lösungen, die man deployen könnte, aber da man bei Netcup keine zusätzlichen Disks einbinden kann, muss das alles mit der gleichen Disk gemacht werden, auf der schon das OS und alle Container laufen. Nicht wirklich ideal. Man könnte jetzt noch einen zusätzlichen Server als NFS nutzen, aber das sind dann am Ende ein SPOF und gerade im produktiven Betrieb wieder riskant.
Das mit den VPS200 verstehe ich nur nicht so richtig. Die sind ja weder als Master noch als Worker zu gebrauchen (viel zu wenig CPU und RAM). Ich sehe da schon einen RS1000 als Minimum.