False positives in Checkmk vermeiden

Wenn Sie ständig False positives, in Ihrer Checkmk Instanz haben, kann das auf die Dauer störend wirken. Sie verlieren den Überblick, über die wirklich wichtigen Meldungen und es verursacht unnötig Last auf dem Checkmk Server.

Desswegen schauen wir uns heute an, wie Sie False positives in Checkmk verneiden!Dazu gibt es, je nach Check, versschiedene Methoden:

1. Anzahl der Check-Versuche erhöhen

Stellen Sie in den Host- oder Service-Parametern die Regel Maximum number of check attempts for service (bzw. für Hosts) so ein, dass ein Problem erst nach mehreren fehlgeschlagenen Prüfungen als kritisch gilt. Standardmäßig prüft CheckMK alle 60 Sekunden, aber Sie können z.B. einstellen, dass erst nach 3 aufeinanderfolgenden Fehlern ein Alarm ausgelöst wird. So werden sporadische, kurzzeitige Aussetzer ignoriert und führen nicht zu Fehlalarmen.

Diese Einstellungen finden Sie unter den ‚Service monitoring rules‘ im ‚Setup‘ Bereich, in der linken, vertikalen Aktionssammlung.

Wenn Sie dieses Menü öffnenm können Sie dort nach dem Check Suchen, den Sie konfigurieren möchten und diesen entsprechend einstellen.

2. Verzögerte Benachrichtigungen aktivieren

Nutzen Sie die Möglichkeit, Benachrichtigungen zu verzögern. Das Monitoring verschickt die Benachrichtigung erst, wenn der Zustand über einen bestimmten Zeitraum bestehen bleibt und sich nicht zwischendurch wieder auf OK ändert. So vermeiden Sie, dass kurzzeitige Störungen sofort zu einer Benachrichtigung führen.

Auch das können Sie unter den ‚Service monitoring rules‘ einstellen.

3. Schwellenwerte und Zeitintervalle anpassen

Passen Sie die Prüfintervalle und Schwellwerte für Ihre Umgebung an. Wenn Sie wissen, dass es gelegentlich zu kurzen Netzwerkproblemen kommt, können Sie das Prüfintervall verlängern oder die Toleranz für kurze Ausfälle erhöhen.

Auch diesen Punkt finden Sie unter ‚Service monitoring rules‘.

4. Ursache für Aussetzer untersuchen

Falls die Aussetzer regelmäßig auftreten, ist es sinnvoll, die Ursache zu analysieren. Schauen Sie in die Agent-Logs (diese finden Sie unter /opt/omd/sites/[IhreSite]/var/log/) und prüfen Sie die Netzwerkverbindung zwischen Monitoring-Server und Agent, um dauerhafte Probleme zu beheben.

Zusammenfassung der wichtigsten Einstellungen

MaßnahmeEinstellung/Regel in CheckMKEffekt
Mehrere Check-VersucheMaximum number of check attempts for serviceAlarm erst nach mehreren Fehlern
Verzögerte BenachrichtigungDelay notificationAlarm erst nach anhaltendem Fehler
Prüfintervall anpassenNormal check interval for serviceWeniger häufige Prüfungen
Schwellenwerte anpassenThresholdsToleranz für kurze Aussetzer erhöhen

Mit diesen Maßnahmen können Sie die Zahl der false positives durch kurzzeitige Nichterreichbarkeit des Agents deutlich reduzieren und Ihr Monitoring zuverlässiger machen.

Schlusswort

Wie Sie sehen, können Sie mit einigen einfachen Schritten Ihr Monitoring verbessern und dafür sorge, dass kurzzeitige False Positives Sie nicht stören. So können Sie sich ganz auf die wichtigen Meldungen konzentrieren.

Natürlich sollte das aber kein Dauerzustand sein, weil die False Positives Last auf ihrem Server verursachen. Haben Sie ständige false positives muss das an der Checkmk Instanz, dem Agenten oder dem Host selber liegen. Pauschal zu sagen, woran das genau liegt, ist schwierig zu sagen. Benötigen Sie Hilfe, bei der Einrichtung oder Fehlersuche, Ihrer Checkmk Instanz, dann kontaktieren Sie uns! Wir unterstützen Sie gerne.

Haben Sie Interesse an anderen Themen, wie Nextcloud Installation, Bookstack Entwicklung, Icinga2 Monitoring und vielem mehr, dann besuchen Sie unsere Webseite! In den Infobereichen zu diesen Themen finden Sie alles was Sie dazu wissen müssen.