Plusieurs paramètres de configuration définissent le comportement du serveur Zabbix lorsqu’une vérification d’agent (Zabbix, SNMP, IPMI, JMX) échoue et qu’un hôte devient inaccessible.
Un hôte est considéré comme inaccessible après une vérification ayant échoué (erreur réseau, expiration du délai d'attente) par les agents Zabbix, SNMP, IPMI ou JMX. Notez que les vérifications actives de l'agent Zabbix n'influencent en aucune manière la disponibilité de l'hôte
À partir de ce moment, UnreachableDelay définit la fréquence à laquelle un hôte est revérifié à l'aide de l'un des éléments (y compris les règles de découverte de bas niveau) dans cette situation d'inaccessibilité. De tels revérifications seront déjà effectuées par des pollers d'inaccessibilité (ou des pollers IPMI pour les vérifications IPMI). Par défaut, c'est 15 secondes avant la prochaine vérification.
Dans le journal du serveur Zabbix, l'inaccessibilité des journaux est indiquée par des messages tels que :
Zabbix agent item "system.cpu.load[percpu,avg1]" on host "New host" failed: first network error, wait for 15 seconds
Zabbix agent item "system.cpu.load[percpu,avg15]" on host "New host" failed: another network error, wait for 15 seconds
Notez que l'élément exact qui a échoué est indiqué et le type d'élément (agent Zabbix).
Le paramètre Timeout affectera également la rapidité avec laquelle un hôte est revérifié pendant l’inaccessibilité. Si le délai d'attente est de 20 secondes et celui de UnreachableDelay de 30 secondes, la prochaine vérification aura lieu 50 secondes après la première tentative.
Le paramètre UnreachablePeriod définit la durée totale de la période d'inaccessibilité. Par défaut, UnreachablePeriod est de 45 secondes. UnreachablePeriod doit être plusieurs fois supérieur à UnreachableDelay, afin qu'un hôte soit revérifié plusieurs fois avant qu'un hôte ne devienne indisponible.
Si l'hôte inaccessible réapparaît, la surveillance revient automatiquement à la normale :
Une fois qu'UnreachablePeriod se termine et que l'hôte n'a pas réapparu, l'hôte est traité comme indisponible.
Dans le journal du serveur, cela est indiqué par des messages comme ceux-ci :
et dans l'interface web l'icône de disponibilité de l'hôte pour l'interface associée passe du vert (ou gris) au rouge (notez qu'au moment du survol, une info-bulle contenant la description de l'erreur s'affiche) :
Le paramètre UnavailableDelay définit la fréquence à laquelle un hôte est vérifié pendant son indisponibilité.
Par défaut, le délai est de 60 secondes (dans ce cas, "temporairement désactivé", comme indiqué dans le message de journal ci-dessus, signifie désactiver les contrôles pendant une minute).
Lorsque la connexion à l'hôte est restaurée, la surveillance redevient automatiquement à la normale :
After the UnreachablePeriod ends and the host has not reappeared, the host is treated as unavailable.
In the server log it is indicated by messages like these:
and in the frontend the host availability icon for the respective interface goes from green (or gray) to red (note that on mouseover a tooltip with the error description is displayed):
The UnavailableDelay parameter defines how often a host is checked during host unavailability.
By default it is 60 seconds (so in this case "temporarily disabling", from the log message above, will mean disabling checks for one minute).
When the connection to the host is restored, the monitoring returns to normal automatically, too: