Metrics Monitoring Software

  • Hallo @all,


    aktuell beschäftigt mich wieder mal das Thema Monitoring...


    Aktuell nutze ich ein TIG-Stack (Telegraf, InfluxDB, Grafana) und bin eigentlich zufrieden damit.


    Einzige Mankos:

    Die Alert-Möglichkeiten von Grafana sind begrenzt und können nicht immer an meine Bedürfnisse angepasst werden.

    Single point of failure da es zentral läuft. (Soweit ich nachgelesen habe kann man das auch nicht einfach ändern).

    Metrics werden gepusht.


    Als Alternative habe ich gerade Prometheus im Auge.


    Die Vorteile die ich sehe:

    Telegraf hat die Möglichkeit einen Endpoint für Prometheus zu machen somit müsste ich nicht viel ändern.

    Grafana Dashboards können weiterverwendet werden.

    Prometheus kann leicht im HA betrieben werden. (Einfach 2 idente Setups starten und die Alertmanager verbinden)

    Der Alertmanger kann soweit ich das jetzt gesehen habe doch um einiges mehr als Grafana.

    Metrics werden gepullt.



    Jetzt würde ich gerne wissen wie euer Monitoring aufgebaut ist und bzw. welche Software ihr dafür einsetzt?



    Vielen Dank und liebe Grüße,

    Nano

    Matrix: @nan0:nan0.dev - IRC: nan0 on hackint.org - Discord? Nein danke!

  • Prometheus <3

    Ich bin nie mit den anderen Tools warm geworden - also die Klassiker Icinga, Zabbix…


    Mein eigentliche Prometheus Konfiguration ist auch ziemlich nackt, denn die eigentlichen Targets kommen via Service Discovery herein.

  • Falls es jemand wissen will:


    Ich bin beim TIG-Stack geblieben.


    Hauptsächlich weil ich mit Telegraf alle Metrics sammeln kann die ich benötige und bei Prometheus mehrere Exporter brauche.

    Zusätzlich habe ich herausgefunden wie ich meine Alertings in Grafana so hinbekomme wie ich sie brauche und

    man in Telegraf das so einstellen kann das er die metrics buffert.


    Bedeutet sollte die zentralle InfluxDB mal nicht erreichbar sein, schreib er die Werte nach sobald die InfluxDB wieder erreichbar ist.

    Kann also jetzt ohne verlust von Metrics meine InfluxDB updaten und oder den Server neustarten.

    Matrix: @nan0:nan0.dev - IRC: nan0 on hackint.org - Discord? Nein danke!