Moin,
mein icinga2 fing irgendwann mal an für den eigenen Host alle Services als DOWN zu melden mit dem Kommentar "CHECK_NRPE: Error - Could not complete SSL-Handshake".
Dass der SSL-Handshake generell jedoch klappt war mir klar und konnte ich auch verifizieren. Ich hab also gedacht: Ok, vielleicht hat sich da etwas verhakt und einfach den icinga2 Prozess sowie den "nagios-nrpe-server"-Dienst neu zu starten. Aber dadurch ließ sich das Problem nicht beheben. Nach einem Neustart des Nodes kam es jedoch nach einigen Tagen wieder. Ich hab mir das mal als "zu untersuchen" mit niedriger Priorität vermerkt und es ist nun soweit, dass ich es bearbeiten möchte.
Jetzt ist mir aufgefallen: wenn diese Meldung vorkommt sind im Munin die #Threads an einem bestimmten Level und steigen nach Neustart auch intervalartig wieder an:Bildschirmfoto 2018-05-08 um 19.05.41.png
Man erkennt ganz gut, wo ich neugestartet habe (immer wenn es abfällt).
Also hab ich jetzt gewartet bis es wieder soweit ist (jetzt wie man sieht) und mal geschaut was mir ps so sagt.
Dabei sind mir viele Einträge mit folgendem Schema aufgefallen:
UID PID PENDING BLOCKED IGNORED CAUGHT STAT TTY TIME COMMAND
110 - 0000000000000000 0000000000000000 0000000000001000 0000000180004223 Ssl - 0:00 -
uid 110 ist "nagios" unter dem der Dienst nagios-nrpe-server u.a. läuft (dass ich auf den lokalen Host nicht per local-Conncetion, sondern per NRPE connecte sollte ja egal sein?).
Ein bisschen erschrocken war ich darüber wie viele solcher Threads existieren:
Ich weiß jetzt nicht, ob diese Thread-Schwelle ursächlich für den Fehlschlag der Nagios-NRPE-Checks ist, aber ich finde dass dort eine auffällige Korrelation besteht (quasi an der Threshold von 12k Threads). Hat jemand eine Idee
- ob es daran liegen könnte (etwas wie Threadlimit pro User hab ich im Kopf?)
- wieso die #Threads so intervalartig anspringen (der Server wird quasi nur zum Monitoren genutzt)
- warum überhaupt so viele Threads dieses Users offen sind
OS ist ein Ubuntu 16.04