Kubernetes HA Setup

voja · 5. Oktober 2021

Hallo,

mich würde mal interessieren wie ihr einen kleinen HA fähigen Kubernetes Cluster bei Netcup dimensionieren würdet.

Auf dem Cluster sollen ein paar Anwendungen laufen, die jeweils 2-4 GB Speicher belegen.

Kann man etcd plus Controlplane auf einen RS 1000 packen (und davon dann drei Stück wegen HA)? Dazu würden sich dann mindestens drei Workernodes gesellen, dachte an RS 2000-4000.

Oder würdet ihr ein anderes Setup vorschlagen?

Viele Grüße

Volker

H6G · 6. Oktober 2021

Zitat von voja

RS 1000

VPS 500 dürfte als Master reichen, ggf. VPS 100

mlohr · 6. Oktober 2021

So richtig HA geht meiner Meinung nach mit Netcup nicht, da man nicht schnell genug und automatisiert die ölffentliche IP-Adresse des Clusters (müsste dann eine Failover-IP sein) umswitchen kann - jedenfalls habe ich das bisher nicht geschafft. Sollte jemand dafür eine Lösung haben... gerne her damit.

Was bei Netcup dafür noch fehlt wäre ein managed LoadBalancer, so wie es da beim roten H gibt.

michaeleifel · 6. Oktober 2021

Habe 3 Master im Einsatz die über ein CloudVLAN miteinander kommunizieren. Nach außen hin switche ich die FailoverIP, das ist <20 Sekunden eigentlich erledigt. Das passiert automatisch über Keepalived was Checks ausführt. Bspw wenn ich eine Node tainte, dann wird die IP verschoben.

Schneller geht`s beim Loadbalancer auch nicht unbedingt, es sei denn man hat sekündliche Healthchecks. VPS500 sollte reichen, wichtig ist auf jeden Fall ne 2C Maschine.

mlohr · 6. Oktober 2021

Könntest du deine keepalived-Config ggf. irgendwo posten? Das wäre super! Danke!

michaeleifel · 6. Oktober 2021

Code

#
# Ansible managed
#

global_defs {
  notification_email {
    ich@du.de
  }
  notification_email_from k8s-master-1
  smtp_server 127.0.0.1
  smtp_connect_timeout 30

  script_user root
  enable_script_security
}

vrrp_script chk_dns_resolver {
  script "/usr/bin/nc -w 2 -zv 127.0.0.53 53"
  weight 5
  timeout 3
  user nagios
}
vrrp_script chk_haproxy {
  script "/usr/bin/killall -0 haproxy"
  weight 5
  interval 2
  timeout 3
}
vrrp_script chk_haproxy_port {
  script "/usr/bin/curl -m 2 --silent --show-error --fail http://127.0.0.1:10254/healthz"
  weight 5
  interval 2
  timeout 3
}
vrrp_script chk_http_port {
  script "/usr/bin/curl -m 2 --silent --show-error --fail http://localhost/healthz"
  weight 5
  interval 3
  timeout 3
}
vrrp_script chk_kubelet_port {
  script "/usr/bin/curl -m 2 --silent --show-error --fail http://127.0.0.1:10248/healthz"
  weight 5
  interval 3
  timeout 3
}
vrrp_script chk_kubernetes_health {
  script "/etc/keepalived/keepalived_check_script.sh"
  weight 30
  timeout 3
}
vrrp_script chk_kubernetes_port {
  script "/usr/bin/nc -w 2 -zv localhost 6443"
  weight 3
  timeout 3
  user nagios
}
vrrp_script chk_sshd {
  script "/usr/bin/killall -0 sshd"
  weight 4
  interval 2
  timeout 3
}


vrrp_instance Netcup {
  interface eth1
  state BACKUP
  priority 101
  virtual_router_id 51
  advert_int 5

  smtp_alert

  authentication {
    auth_type AH
    auth_pass XXXXXXXX
  }

  virtual_ipaddress {
    XX.XX.XX.XX/32 dev eth0
  }

  virtual_ipaddress_excluded {
    XXXX:XXXX:XXXX:XXXX::1/64 dev eth0
  }

  preempt_delay 300


  track_script {
    chk_dns_resolver
    chk_etcd_client_port
    chk_etcd_peer_port
    chk_haproxy
    chk_haproxy_port
    chk_http_port
    chk_kubelet_port
    chk_kubernetes_health
    chk_kubernetes_port
    chk_sshd
  }


  vmac_xmit_base

  unicast_src_ip 172.16.0.11


  unicast_peer {
    172.16.0.12
    172.16.0.13
  }

  notify "/etc/keepalived/notifications.sh"
  notify_master "/etc/netcup/keepalived_master_ipv4.sh && /etc/netcup/keepalived_master_ipv6.sh"
}

Alles anzeigen

Kubernetes API Check-Skript: (Vorher entsprechenden Service Account / RBAC anlegen)

Bash

#!/bin/bash
TOKEN=XXXX
[ -z $(curl -m 2 -s -f -H "Authorization: Bearer $TOKEN" -k "https://localhost:6443/api/v1/nodes/$HOSTNAME" | jq -r '.spec.unschedulable | select(.==true)') ] && exit 0 || exit 1

Das rumschieben über die SOAP API absolvieren dann zwei Shellskript die als Daemon auf dem System laufen und von keepalived benachrichtigt werden.

Die Keepalived Konfiguration beinhaltet sowohl eine IPv4 als auch eine IPv6 Floating IP, welche über die gleiche Keepalived Instanz verwaltet werden, daher die etwas komische "virtual_ipaddress_excluded" Notation.

voja · 6. Oktober 2021

Zitat von H6G

VPS 500 dürfte als Master reichen, ggf. VPS 100

Nachdem was ich gelesen habe ist der etcd etwas anfällig wenn die Maschine ausgelastet ist. Da hätte ich bei VPS bedenken.

Daher hätte ich etcd+controlplane auf einem Node vorgesehen.

voja · 6. Oktober 2021

Zitat von michaeleifel

Habe 3 Master im Einsatz die über ein CloudVLAN miteinander kommunizieren. Nach außen hin switche ich die FailoverIP, das ist <20 Sekunden eigentlich erledigt. Das passiert automatisch über Keepalived was Checks ausführt. Bspw wenn ich eine Node tainte, dann wird die IP verschoben.

Schneller geht`s beim Loadbalancer auch nicht unbedingt, es sei denn man hat sekündliche Healthchecks. VPS500 sollte reichen, wichtig ist auf jeden Fall ne 2C Maschine.

Zum Verständnis: wo läuft der HA Proxy? Ist das auf dem Kubernetes Node wo etcd bzw. die Controlplane läuft? Oder läuft der innerhalb vom Kubernetes als Pod? Was läuft alles auf dem Master?

voja · 6. Oktober 2021

Zitat von mlohr

So richtig HA geht meiner Meinung nach mit Netcup nicht, da man nicht schnell genug und automatisiert die ölffentliche IP-Adresse des Clusters (müsste dann eine Failover-IP sein) umswitchen kann - jedenfalls habe ich das bisher nicht geschafft. Sollte jemand dafür eine Lösung haben... gerne her damit.

Ich habe auch ein Setup mit keepalived, das eine IPv4 und IPv6 Failover umschwenkt. Allerdings noch nicht mit Kubernetes zusammen. Manchmal dauert das Umschalten und ich musste für meine Anwendung Optimierungen einbauen, damit es zu keinem Nodeflapping (und damit längeren Downtimes) gibt.

michaeleifel · 6. Oktober 2021

Zitat von voja

Zum Verständnis: wo läuft der HA Proxy? Ist das auf dem Kubernetes Node wo etcd bzw. die Controlplane läuft? Oder läuft der innerhalb vom Kubernetes als Pod? Was läuft alles auf dem Master?

Der HAProxy läuft als Pod in Kubernetes, exposed aber per Konfiguration verschiedene Ports. Auf den Nodes / Workern läuft aber auch ein HAProxy der die Kubernetes API von den Master loadbalanced. Deswegen macht das Umschalten der Floating IP auch gar nichts im Cluster selbst sondern dadurch ist "nur" die Verbindung von draußen an die FloatingIP unterbrochen. Das der Ingress aber auch auf allen Nodes auf alle Requests reagiert und sie weiterleitet, kann jede beliebige Node auch bspw per "/etc/hosts" angesprochen werden.

voja · 6. Oktober 2021

Zitat von michaeleifel

Der HAProxy läuft als Pod in Kubernetes, exposed aber per Konfiguration verschiedene Ports. Auf den Nodes / Workern läuft aber auch ein HAProxy der die Kubernetes API von den Master loadbalanced. Deswegen macht das Umschalten der Floating IP auch gar nichts im Cluster selbst sondern dadurch ist "nur" die Verbindung von draußen an die FloatingIP unterbrochen. Das der Ingress aber auch auf allen Nodes auf alle Requests reagiert und sie weiterleitet, kann jede beliebige Node auch bspw per "/etc/hosts" angesprochen werden.

Okay, das verstehe ich jetzt.

Der keepalived läuft aber in dem Fall nicht als pod, oder? Der kann überall laufen, wo der Ingress Endpunkte hat. Die prüft der keepalived. Falls der master nicht mehr healthy ist, würde also einfach der nächste übernehmen, die IP umschalten und dann sind alle Ports direkt wieder erreichbar, nur eben auf dem anderen Node.

michaeleifel · 7. Oktober 2021

Zitat von voja

Okay, das verstehe ich jetzt.

Der keepalived läuft aber in dem Fall nicht als pod, oder? Der kann überall laufen, wo der Ingress Endpunkte hat. Die prüft der keepalived. Falls der master nicht mehr healthy ist, würde also einfach der nächste übernehmen, die IP umschalten und dann sind alle Ports direkt wieder erreichbar, nur eben auf dem anderen Node.

Soweit korrekt. Keepalived läuft auf der Node selber tatsächlich, konfiguriert / installiert per Ansible. Ich habe 3 Master. Die Worker Nodes sprechen immer lokal gegen einen HAProxy, der als Backends alle 3 API Endpunkte der Master hat.

Wenn jetzt Master 1 ausfällt, kratzt den Worker das nicht, weil er über den HAProxy immer noch mit den beiden anderen Mastern sprechen kann (loadbalanced API). Soweit zum Cluster internen Ablauf.

Externer Ablauf:

- Sowohl die IPv4 als auch die IPv6 werden über die Shellskripte umgeschaltet. Die IP Konfiguration ist in Keepalived hinterlegt, sodass nur der aktive Master auch wirklich die Floating IP auf dem Interface konfiguriert hat. In dem Moment wo ich keepalived beende, verschwindet auch die FloatingIP vom Interface, falls die Node Master war. Die Shellskripte prüfen jede Minute den Status von Keepalived und falls die Node Master ist, wird zusätzlich geprüft ob der Node die Floating IP zugewiesen ist. Falls nicht, wird diese zugewiesen. Dies trifft sowohl auf die Kubernetes API IP zu, als auch die Ingress IP über welche ich dann meine Seiten erreiche.

Bis auf die bereits erwähnten ca. 20 Sekunden fällt es mir nicht aktiv auf, wenn die IP rumgeschoben wird. Mein externes Monitoring prüft alle Seiten im 30 Sekundentakt und selbst dort ist es selten zu sehen. Mittlerweile hab ich auch in Icinga2 ein dynamisches Monitoring Skript für keepalived:

- prüfe ob Node master ist (keepalived status)

- Falls master. sind die FlaotingIPs auf dem Interface up

- Falls slave, Node sollte keine FloatingIP haben

Gruß

voja · 7. Oktober 2021

Vielen Dank michaeleifel für die ausführliche Erklärung! Ich werde mich mal am Wochenende hinsetzen und versuchen das mit meinem Ansible Playbook nachzubauen.

einheld · 20. Dezember 2022

Zitat von michaeleifel

Soweit korrekt. Keepalived läuft auf der Node selber tatsächlich, konfiguriert / installiert per Ansible. Ich habe 3 Master. Die Worker Nodes sprechen immer lokal gegen einen HAProxy, der als Backends alle 3 API Endpunkte der Master hat.

Wenn jetzt Master 1 ausfällt, kratzt den Worker das nicht, weil er über den HAProxy immer noch mit den beiden anderen Mastern sprechen kann (loadbalanced API). Soweit zum Cluster internen Ablauf.

Externer Ablauf:

- Sowohl die IPv4 als auch die IPv6 werden über die Shellskripte umgeschaltet. Die IP Konfiguration ist in Keepalived hinterlegt, sodass nur der aktive Master auch wirklich die Floating IP auf dem Interface konfiguriert hat. In dem Moment wo ich keepalived beende, verschwindet auch die FloatingIP vom Interface, falls die Node Master war. Die Shellskripte prüfen jede Minute den Status von Keepalived und falls die Node Master ist, wird zusätzlich geprüft ob der Node die Floating IP zugewiesen ist. Falls nicht, wird diese zugewiesen. Dies trifft sowohl auf die Kubernetes API IP zu, als auch die Ingress IP über welche ich dann meine Seiten erreiche.

Bis auf die bereits erwähnten ca. 20 Sekunden fällt es mir nicht aktiv auf, wenn die IP rumgeschoben wird. Mein externes Monitoring prüft alle Seiten im 30 Sekundentakt und selbst dort ist es selten zu sehen. Mittlerweile hab ich auch in Icinga2 ein dynamisches Monitoring Skript für keepalived:

- prüfe ob Node master ist (keepalived status)

- Falls master. sind die FlaotingIPs auf dem Interface up

- Falls slave, Node sollte keine FloatingIP haben

Gruß

Alles anzeigen

Hallo,

vielen Dank für die super Erklärung des HA Setup für die ControlPlane

aber wie macht ihr das mit Kubernetes LoadBalancern / Ingress im HA Umfeld?

wie kriege ich den Traffic von example.org auf meinem Frontend Service im Cluster?

Zeigt eure Frontend Domain dann per DNS auf die Failover IPv4? und die Master übernehmen das Routing per NGINX Ingress Controller? oder gebt ihr euch über BareMetal LoadBalancer wie MetalLB dann die Failover IP manuell?

Wie genau habt ihr das eingerichtet?

Es macht ja keinen Sinn einen speziellen Worker manuell anzusprechen per DNS von example.org, wenn ich HA haben will

Lieber Gruss

michaeleifel · 20. Dezember 2022

Mahlzeit,

bitte sehr.

Zitat von einheld

Zeigt eure Frontend Domain dann per DNS auf die Failover IPv4? und die Master übernehmen das Routing per NGINX Ingress Controller?

Jein. Es müssen nicht unbedingt die master sein, sondern die "Ingress" Nodes. In meinem Fall erledigt HAProxy das. Alle Dienste sind von allen Ingress Nodes erreichbar. Ich kann also auch meiner /etc/hosts den Domaineintrag gegen die Adresse eines Worker tauschen und erreiche trotzdem weiterhin alle Dienste. Das ist auch tatsächlich der DNS Fallback vom Anbieter, wenn die Failover IP doch mal nicht tut.

Gruß

Kubernetes HA Setup

Ähnliche Themen

Kubernetes HA Setup mit Netcup - Frage

Rancher und Longhorn auf netcup Servern aufbauen. Erfahrungen?

Failover-IPv4: Deadlock / RaceConditions erkennen?