Beiträge von michaeleifel

michaeleifel · 17. Dezember 2020

Ich glaube es würde helfen weitere Details zu kennen, vorher ist es Rätselraten:

- Läuft Windows auf der kIste?

- IP statisch konfiguriert?

- IPv6 konfiguriert?

- Was sagt das Monitoring zu dieser Zeit (falls vorhanden)

- Sind es nur pings oder welche Ressourcen sind nicht ansprechbar?

- Was für ne Maschine ist es (vps 200 g8?)

- Trtt das Problem nur bei Verbindung zu bestimmten Providern auf?

- Was läuft alles auf der Kiste?

- Welcher Netzwerktreiber ist im SCP eingestellt?

- Wurden Updates auf dem System eingespielt welche evtl. dieses Problem verursachen?

- Tritt das Problem nur auf 1 Server auf?

michaeleifel · 8. Dezember 2020

Im Artikel https://www.netcup-wiki.de/wiki/Abusehinweise ist ein Link drin wo du Stellung beziehen kannst und deine Optionen siehst. Falls SLA Zusatzvertrag hast, kannst dort auch anrufen.

michaeleifel · 7. Dezember 2020

Kurze Frage: Hast du die Generationen gewechselt? Ansonsten bietet sich doch ein Sidegrade an. Das dauert eigentlich max ~5 Min ( habs schon mehrmals gemacht). Die Gefahr bei Umzug innerhalb der Generationen ist halt bspw dass Interface Namen sich ändern, die Platte vda statt sda heißt etc. was dann auch Supportaufwand erzeugt.

Mir ist bisher auch kein Provider in der Preisregion bekannt der solche Aktionen unterstützt, wen nur als aufpreispflichtiger Service der pro Stunde dann abgerechnet wird. Die Beträge da sind dann natürlich vielfaches von den monatlichen Kosten. (45€ für ein Debian installer iso mounten bspw!). Hatte da schon im geschäftlichen Umfeld "viel Spaß".

Zum glück kann man bei Netcup ISO mounten, per preseed + ansible hab ich neue Server in ~7 min fertig und kann dann den Datenrestore per restic / rclone anschmeißen.

michaeleifel · 29. November 2020

Hallo Rudi,

nicht verzweifeln. Ich habe hier eine Wordpress Anleitung gefunden bei youtube:

Externer Inhalt www.youtube.com

Inhalte von externen Seiten werden ohne Ihre Zustimmung nicht automatisch geladen und angezeigt.

Durch die Aktivierung der externen Inhalte erklären Sie sich damit einverstanden, dass personenbezogene Daten an Drittplattformen übermittelt werden. Mehr Informationen dazu haben wir in unserer Datenschutzerklärung zur Verfügung gestellt.

Von den Schritten her könnte dir das auf die Sprünge helfen. Dass du momentan die WCP Seite siehst, könnte dran liegen dass entweder bspw. der DNS noch nicht auf das richtige Ziel zeigt oder im Webhosting Backend dann noch nicht der Pfad auf die Joomla Installation zeigt.

Gruß

michaeleifel · 3. November 2020

Kam gerade eben bei mir als Mail rein. Allerdings an meine "falsche" Adresse. Der Link selber führt dann auf ne Seite die 1:1 wie das CCP aussueht und nach Eingabe von "irgendwelchen" Daten kommt man dann auch tatsächlich zum CCP....

michaeleifel · 29. Oktober 2020

Zitat von DerFetzer

Wie hast du den Wechsel durchgeführt? Die RKE-Doku sagt, dass der Network Provider nicht verändert werden kann und in der Flannel-Doku steht auch, dass man das Backend nicht im Betrieb ändern soll.

Hab das beim "rke up" gesetzt. Die Doku schreibt den Satz halt rein weil es halt zu einer Unterbrechung kommt wenn bspw von Calico -> Flannel gehst etc oder auch beim Backendtype. Sofern man sich aber etwas "auskennt", lässt sich das nachts in einer geplanten Aktion einfach durchziehen. In der RKE config sieht das bei mir wie folgt dann aus (eth1 ist das cloud vlan, hab net.ifnames=0 in der grub und deswegen die alten Interface Namen.):

Code

network:
  plugin: canal
  options:
    canal_iface: eth1
    canal_flannel_backend_type: host-gw

Der relevante Eintrag stammt aus der Flannel Doku ( https://github.com/coreos/flan…Documentation/backends.md)

Im laufenden Betrieb (falls keine andere Möglichkeit sich ergibt) würde ich erst alle Deployments auf 0 setzen so dass nur der Kubernetes Core läuft (api, coredns, nodelocaldns), warten bis Ceph / Longhorn alles synced hat und dann die Änderung vornehmen. Weave hat anscheinend aktuell nen kleinen Bug der sich durch das bearbeiten des Daemonsets beheben lässt: https://github.com/weaveworks/weave/issues/3816

Gruß

michaeleifel · 28. Oktober 2020

Zitat von DerFetzer

michaeleifel Läuft das dann bei dir trotzdem über das Cloud-VLAN? Ich hatte auch mal überlegt, per Wireguard über die Public Interfaces zu kommunizieren, aber dann hat man auch wieder eine zusätzliche Fehlerquelle.

Hab mir extra dafür das (https://www.netcup.de/bestellen/produkt.php?produkt=2298 ) gegönnt da ich noch auf längere Zeit an G8 Server gebunden bin ( hatte kleine Fehlplanung und kurz vor G9 Launch fertig umgebaut...)

Ich nutze auf allen Systemen ein selbst provisioniertes Debian per preseed bei allen Providern am laufen das danach durch Ansible ergänzt wird. Somit hab ich überall das gleiche System und kann Fehlerquellen schnell eingrenzen. RancherOS hatte ich mal testweise am laufen aber irgendwie komme ich dann doch immer wieder zu Debian zurück, zumal nach der Installation es nur 800 mb an Festplatte nutzt da es minimalistisch gehalten ist. Per Backprots paar aktuelle Pakete wie Kernel.

Seit dem Wechsel auf Host Gw als Backend hab ich keine Probleme mehr. Wireguard hatte ich auch ne Zeit lang im Einsatz, das hatte allerdings bei nem anderen Provider Startup Zeiten von 30 Sekunden (liegt am eingesetzten Hypervisor des Provider Virt..zo) und deswegen habe ich micht einfachheitshalber für das Cloud VLAN entschieden. Kann mich nicht beschweren, keine wegknallenden Volumes, hier nen kleiner fio test:

Code

root@seafile-6578f846fd-j9nqg:/data# fio --name=random-write --ioengine=posixaio --rw=randwrite --bs=4k --numjobs=1 --size=4g --iodepth=1 --runtime=60 --time_based --end_fsync=1
random-write: (g=0): rw=randwrite, bs=(R) 4096B-4096B, (W) 4096B-4096B, (T) 4096B-4096B, ioengine=posixaio, iodepth=1
fio-3.12
Starting 1 process
random-write: Laying out IO file (1 file / 4096MiB)
Jobs: 1 (f=1): [w(1)][100.0%][eta 00m:00s]                          
random-write: (groupid=0, jobs=1): err= 0: pid=181846: Wed Oct 28 16:47:14 2020
  write: IOPS=9738, BW=38.0MiB/s (39.9MB/s)(4096MiB/107673msec); 0 zone resets
    slat (nsec): min=369, max=4548.8k, avg=5910.36, stdev=13077.23
    clat (nsec): min=177, max=232807k, avg=34796.15, stdev=254836.05
     lat (usec): min=9, max=232811, avg=40.71, stdev=255.43
    clat percentiles (usec):
     |  1.00th=[   10],  5.00th=[   14], 10.00th=[   15], 20.00th=[   17],
     | 30.00th=[   19], 40.00th=[   20], 50.00th=[   22], 60.00th=[   24],
     | 70.00th=[   27], 80.00th=[   32], 90.00th=[   44], 95.00th=[   70],
     | 99.00th=[  277], 99.50th=[  537], 99.90th=[ 1336], 99.95th=[ 1844],
     | 99.99th=[ 3949]
   bw (  KiB/s): min=58928, max=128464, per=100.00%, avg=95286.47, stdev=14999.21, samples=88
   iops        : min=14732, max=32116, avg=23821.57, stdev=3749.86, samples=88
  lat (nsec)   : 250=0.01%, 500=0.01%, 750=0.01%, 1000=0.01%
  lat (usec)   : 2=0.01%, 4=0.01%, 10=1.47%, 20=40.52%, 50=49.90%
  lat (usec)   : 100=5.13%, 250=1.84%, 500=0.55%, 750=0.25%, 1000=0.11%
  lat (msec)   : 2=0.14%, 4=0.03%, 10=0.01%, 20=0.01%, 50=0.01%
  lat (msec)   : 250=0.01%
  cpu          : usr=3.98%, sys=13.03%, ctx=1095405, majf=0, minf=59
  IO depths    : 1=100.0%, 2=0.0%, 4=0.0%, 8=0.0%, 16=0.0%, 32=0.0%, >=64=0.0%
     submit    : 0=0.0%, 4=100.0%, 8=0.0%, 16=0.0%, 32=0.0%, 64=0.0%, >=64=0.0%
     complete  : 0=0.0%, 4=100.0%, 8=0.0%, 16=0.0%, 32=0.0%, 64=0.0%, >=64=0.0%
     issued rwts: total=0,1048577,0,1 short=0,0,0,0 dropped=0,0,0,0
     latency   : target=0, window=0, percentile=100.00%, depth=1

Run status group 0 (all jobs):
  WRITE: bw=38.0MiB/s (39.9MB/s), 38.0MiB/s-38.0MiB/s (39.9MB/s-39.9MB/s), io=4096MiB (4295MB), run=107673-107673msec

Disk stats (read/write):
  rbd1: ios=0/95706, merge=0/3241, ticks=0/4193217, in_queue=4193217, util=89.28%

Alles anzeigen

Zitat von Darian

Ich nutze aktuell ein aktuelles Debian ohne dem Cloud vLAN.

Denkt ihr das Cloud vLAN würde was bringen, aktuell ist es so, dass das Free Cloud vLAN bei 100 Mbit langsamer wäre wie die aktuellen 1GBit die wir sowieso schon haben. Deswegen zögere ich da noch das auszuprobieren.

Meint ihr Cloud vLAN wäre trotzdem sinnvoll? Wenn es wirklich was bringt kann man sich ja noch immer ein schnelleres (bis 2,5 Gbit) besorgen.

Ich würde nicht nur die Geschwindigkeit an der Stelle beachten sondern auch wie die Anbindungen sind bzgl Latenz, Routing etc.

Bspw habe ich bei nem anderen Provider das Problem das wenn ich deren public interface nutze die Kommunikationswege zwischen den Nodes auch nur mit 99% SLA abgedeckt sind. Erst durch deren zusätzliches internes Netzwerk ist sichergestellt dass der kürzeste Weg zwischen den Nodes genommen wird was man auch massiv in der Latenz spürt. Eigentlich würde ich ja erwarten dass wenn das andere Ziel innerhalb vom RZ ist der Traffic nicht 1mal bis Frankfurt und zurück geht, allerdings kenne ich da einen Anbieter wo das tatsächlich der Fall ist, aber da sind auch DNS Resolv Zeiten von 2 Sekunden für die Hotline "normal".

Zuerst habe ich auch mit dem Free ausprobiert, aber eher halt bezogen auf Latenzen, Stabilität etc. Über das VLAN läuft auch sämtliche Kommunikation meiner Nodes und nach außen auf dem Public sind es dann nur eine handvoll Ports die dort überhaupt "lauschen". Ausprobieren mit dem Free kann ja nicht schaden, nur halt nicht Wunder erwarten bei der Geschwindigkeit.

Gruß

michaeleifel · 28. Oktober 2020

Hallo zusammen,

welches OS verwendet ihr denn? Nutzt ihr nen VLAN für die Kommunikation zwischen den Nodes oder das Public Interface?

Ich habe RKE (https://github.com/rancher/rke) im Einssatz (was ja bei Rancher zuerst deplyoed wird) mit Canal als CNI und Backend Host-GW ( https://coreos.com/flannel/docs/latest/backends.html ) Mit VxLAN, was der default ist, hatte ich in der Tat auch leichte Probleme.

Als Storage nutze ich Ceph und das läuft saustabil.

Gruß

michaeleifel · 27. Oktober 2020

Vielen Dank für die Kommentare und den Input.

Ich hatte mir das intern auch schon gedacht. Leider konnte ich den SOA Eintrag nicht modifizeren da dies vom bisherigen Anbieter "aus Sichterheitsgründen" nicht supported wird. Die Einträge selber haben bei mir in der Regel eine TTL von ~30 min ( für Lesestoff: https://blog.apnic.net/2019/11…idiculously-low-dns-ttls/). Als negatives Beispiel führe ich gerne das hier an:

Code

paymenthub.****.com. 300 IN     CNAME   ***.cloudapp.net.
***.cloudapp.net. 10 IN A XXX.XXX.XXX.XXX

Das verursacht einen Großteil unnötigen Traffic aus meiner Sicht und wäre mit einem LB eleganter gelöst da die Applikation ständig nur DNS am resolven und lässt sich nicht vernünftig cachen.

Die Domain löst nach den abgelaufenen 24 Stunden jetzt auch bei Netcup sauber auf. Falls jemand weiß welchen Upstream die nutzen könnte man evtl ja darüber die Sache was "beschleunigen".

Gruß

michaeleifel · 26. Oktober 2020

Bzgl nachträglich: Das schnellste was ich nach 3min google bisher gefunden habe: https://github.com/g2p/blocks#readme

Allerdings würde ich auch eher zu einem managed server in solch einer Situation greifen. Das wird vermutlich dann unter dem Aspekt "und müssen auch den Faktor Zeit bedenken" am meisten Sinn machen von dem was ich bisher hier lese.

michaeleifel · 25. Oktober 2020

Hallo zusammen,

ich habe bereits im Forum recherchiert zu dem Thema DNS. Aktuell hab ich eine Domain von Provider 1 zu Provider 2 Nameserver technisch umgezogen. TTL etc. hatte ich auf niedrigen Werten. Alle Internet Resolver liefern auch schon brave die neuen Einträge, allerdings hängen die im Wiki genannten Server ( https://www.netcup-wiki.de/wiki/Nameserver ) aktuell auf "SERVFAIL" fest. ,was auch kleine Lücken im Monitoring auslöst Da ich prinzipiell natürllich lieber die RZ internen Resolver nutzen wollte, stellte sich mir die Frage ob ich irgendwie "flush" ähnlich wie bei google, opendns etc. machen kann. Im Forum bin ich nur über ( https://forum.netcup.de/netcup…aum-domainumzug/?pageNo=1 ) gestolpert.

Die Domäne selber ist bei Netcup gekauft und nur die NS Einträge zeigen auf die externen Provider zwecks Vermeidung Single Point of Failures bei einzigem DNS Anbieter. Wäre nice wenn es dort was geben würde..

Hat jemand evtl. weiteren Input für mich oder hat schon mal die Situation gehabt?

Gruß,

Michael

michaeleifel · 15. Juli 2020

Ich gehe mal von aus dass die Konfiguration entsprechend auf die internen Interface gelegt ist und nicht rein zufällig doch die public nutzt?

Hatte zuerst glusters, mittlerweile Ceph und kann mich nicht über Performance beschweren. MTR zeigt avg. 0.4ms zwischen den Nodes bei meinen AdHoc Tests:

Code

HOST: srv1               Loss%   Snt   Last   Avg  Best  Wrst StDev
  1.|-- 172.16.0.11       0.0%   100    0.4   0.4   0.3   0.7   0.1

Hab auch mal in mein altes Ansible Playbook für glusterfs geguckt. Hab dabei immer die Internen IPs und keine Hostnamen etc. verwendet für alle Fälle. Hast du paar Details bereit welches OS, GlusterFS Version etc?

michaeleifel · 24. Juni 2020

SCD

Hallo Vm Nachbar

pasted-from-clipboard.png

Die Zeiten passen überein mit 1 von meinen Rootserver, beim 1 Ausfall hab ich die 24/7 Hotline angerufen, kurz nach der Bestätigung vom Mitarbeiter kam

dann auch die Netcup Mail.

Gruß

michaeleifel · 6. April 2020

Vielen Dank für das reinschauen in mein Github Issue. Hab leider nicht genug Erfahrugn mit programmierung um das sauber nieder schreiben zu können. Hab auch soeben mal ein Ticket beim Support zu dem Thema aufgemacht.

michaeleifel · 5. April 2020

Zitat von whoami0501

Did you made a reboot to the server, after you had configured it?

Have you told this to the support?

[netcup] Felix P. Because it seems that this is an bigger issue - may we can have a statement of netcup? Are there any other known reasons for this problems?

Yes, the Server were all completely shut down, also with the SCP Button "Power off" after being configured.

Funny things is that it seems random if it works currently or not. Like right now 1 of the 6 servers i can reach with IPv6, even though it takes a few seconds before the first ping comes back. And all of them can do ping6 netcup.de, but this does not mean i can also ping them from my home.

I did not reach out to Support yet for this as i happily don't need to rely on IPv6 only.

michaeleifel · 5. April 2020

Also experiencing the same issue. Sysctl values are set like written in wiki. Noticed this when i was trying to login to an pure ssh shell and not ansible anymore where it used the IPv4. OS is in all 6 Cases Debian Buster. Static IPv4 and IPv6 NIC Configuration like written in the wiki.

michaeleifel · 6. Januar 2020

Wenn ich die Webseite im Browser aufrufe sehe ich dass es nen selfsigned Certficate ist. Da steht kein CN drin, Zertifikat stammt nicht von einer offiziellen CA ab etc.

Insofern ist die Meldung doch valide.

michaeleifel · 3. Januar 2020

Den Tick Stack hatte ich vorher auch im Betrieb als ich noch im Versuch war mit 1 zentralen Lösung alles zu erschlagen. Da hatte ich ne ähnliche Konstruktion im Einsatz, allerdings hatte ich am Ende Probleme mit der Skalierbarkeit InfluxDB in der kostenlosen Version. Das aktuelle Setup sieht so aus:

1.) K8S Cluster 1:

- Prometheus mit 2 Tagen Retention, dynamische Konfiguration per ServiceMonitors

- Automatisch provisioniertes Grafana inkl Dashboards mit Prometheus als Datenquelle

2.) K8S Cluster 2:

- Icinga2 mit 2 Mastern und Mysql HA

- InfluxDB für schöne Graphen zu den Werten

- Automatisch provisioniertes Grafana inkl Dashboards mit InfluxDB und Prometheus als Datenquelle

- Prometheus mit 2 Tagen Retention, dynamische Konfiguration per ServiceMonitors

3.) K8S Cluster 3:

- Graylog mit ElasticSearch

- Prometheus mit 2 Tagen Retention, dynamische Konfiguration per ServiceMonitors

- Zentrales Prometheus das alle anderen Prometheus absaugt und dezeit 120 Tage die Daten vorhält. ( braucht so 12 GB Ram momentan alleine....)

- Automatisch provisioniertes Grafana inkl Dashboards mit Prometheusen als Datenquelle

Die Nodes sind Debian preseeded und mit Ansible anschließend standardisiert K8S Deployed. Jedes der Cluster lässt sich dank Backups, Ansible und den ganzen Deployments innerhalb von ~1 - 2 Stunden neu erzeugen.

Leider kann prometheus ja nicht mehrere Instanzen mit gleicher Konfiguration starten und die teilen sich die Arbeit wie bei Icinga2. Evtl ziehe ich noch Icinga2 und das zentrale Prometheus zusammen und lasse die 3 Icinga2 DeadManSwitch miteinander spielen

michaeleifel · 31. Dezember 2019

Zitat von whoami0501

Ich persönlich habe bisher Prometheus+NodeExporter genutzt und steige gerade auf Icinga2 um. Icinga2 ist ein bisschen pain in the Ass bei der Einrichtung und Gewöhnung, aber ich finde das Arbeiten mit Director und Co. sehr entspannt.

Das Datenbackend und die Visualisierung wollte ich eigentlich über InfluxDB und Grafana machen, aber da es noch andere Möglichkeiten gibt, will ich mich da vorher nochmal über die anderen Möglichkeiten informieren.

In Icinga2 kannst du dir dann je nach Anwendungszweck Vorlagen und Templates bauen, die kannst du sowohl für Webhosting, Server, Dienste und alles mögliche nutzen.

Dem kann ich nur zustimmen... Am Anfang hab ich mich sehr schwer getan, nachdem ich dann die Logik verstanden habe macht es nun Spaß in kurzer Zeit neue Checks mit einzubauen. Das Docker setup ist mittlerweile so weit gereift, dass nur noch 7 Dateien applyen muss und es wird automatisch das HA-Cluster mit Icingaweb und Director erzeugt.

Zitat von m_ueberall

...

Hier wäre ich aber durchaus sehr an Erfahrungsberichten von "Umsteigern" beider Hilfswerkzeuge auf größere/flexiblere/komplexere freie Lösungen interessiert, welche den obengenannten Einsatz mit mehreren unabhängigen Überwachungs-Instanzen ("Active/Active"-Modus) beibehalten haben.

Wie darf ich mir Active / Active vorstellen? In Prometheus würde ich dann einfach 2mal die gleiche Konfig deployen. Bei Icinga2 teilen sich die Master die Arbeit auf und führen das im Backend dann zum vollständigen Mosaik zusammen.

Prometheus mag ich solange, wie ich innerhalb von Kubernetes bin und mithilfe von ServiceMonitor relativ einfach ans Ziel komme. Auf Hosts selber wäre mir das viel zu viele Ports freischalten und der NodeExporter kann nichtmal BasicAuth von sich aus, so wie die meisten Exporter.

michaeleifel · 30. Dezember 2019

Ich habe meine Umgebung komplett auf HA gebaut und alles läuft in Docker. Hast du mehrere Systeme zur Verfügung oder wie möchtest du das Thema angehen?

Für das Monitoring nutze ich mehrere Wege:

1.) K8S WhiteBox Monitoring:

Prometheus Operator der alle Nodes und ServiceMonitore scraped sowie mehrere externe System die mit dem Blackbox Exporter Performance Metriken liefern

2.) K8S BlackBox Monitoring und weitere Hosts:
HA Cluster in dem Icinga2 mit mehreren Mastern läuft und gegen die alle Server registriert sind. Das Setup ist komplett automatisiert in K8S Deployments und Ansible. Einfach neuen Host angeben und innerhalb von 30 Sekunden ist der mit im Monitoring drinne. Die überwachten Services hab ich mal als Screenshots angehangen. Zu den jeweiligen Diensten gibt's dann direkt Graphen aus InfluxDB welche im Web-Interface angezeigt werden.

Beiträge von michaeleifel

Erreichbarkeit

Abuse-Wartezeit

Servermigration leider nicht so smooth, wie sie sein sollte

Neukunde und völlig erschlagen :-(

Das längste Thema

Rancher und Longhorn auf netcup Servern aufbauen. Erfahrungen?

Rancher und Longhorn auf netcup Servern aufbauen. Erfahrungen?

Rancher und Longhorn auf netcup Servern aufbauen. Erfahrungen?

DNS Flush Netcup interne DNS Server?

Debian Image Installation / Formatierung / KEIN SUPPORT AM TELEFON - DA NUR PRODUKTBERATUNG

DNS Flush Netcup interne DNS Server?

GlusterFS nicht nutzbar

Geht da der Wirt von meinem Server kaputt ?

DNS API - listallDomains freigeben

IPv6 network is down/unreachable

IPv6 network is down/unreachable

server certificate does NOT include an ID which matches the server name

Server Monitoring-System aufsetzen

Server Monitoring-System aufsetzen

Server Monitoring-System aufsetzen