Arrêt planifié

Introduction

Nagios vous permet de planifier des périodes d'arrêt pour les hôtes et les services que vous supervisez. Ceci est utile au cas où vous avez prévu d'arrêter un serveur pour maintenance, etc. Quand un hôte ou un service est dans une période d'arrêt planifié, les notifications pourt cet hôte ou ce service sont supprimées.

Fichier des arrêts planifiés

Les arrêts planifiés des hôtes et services sont stockés dans le fichier des arrêts planifiés défini par une directive dans le fichier de configuration principal.

Mémorisation des arrêts planifiés

Les arrêts planifiés sont mémorisés, même si Nagios est relancé. Au démarrage, Nagios va lire le fichier des arrêts planifiés, détruire toute entrée ancienne ou invalide, et planifier les arrêts pour les hôtes et services concernés.

Planifier l'arrêt

Vous pouvez planifier l'arrêt des hôtes et des services à travers le CGI d'informations complémentaires (en visualisant les informations soit d'un hôte soit d'un service). Cliquez le lien "Schedule downtime for this host/service" pour planifier l'arrêt.

Une fois l'arrêt d'un hôte ou d'un service planifié, Nagios ajoutera un commentaire à cet hôte/service indiquant que son arrêt est prévu durant la période que vous avez indiqué. Quand la période est passée, Nagios supprime automatiquement le commentaire ajouté. Pas mal, non ?

Type d'arrêts planifiés

Il y a deux types d'arrêts planifiés: les "fixes" et les "variables". Qaund vous positionnez un arrêt à travers l'interface web, on vous demande s'il est fixe ou variable [fixed][flexible]. Voici leur définition:

"Fixe" démarre et s'arrête à l'heure exacte programmée. Bon, celle-là était facile.

"Variable" est adapté à des arrêts dont vous savez qu'ils vont durer X minutes (ou heures), mais ne savez pas exactement quand cela va redémarrer. Quand vous choisissez "variable", Nagios va démarrer automatiquement au bon moment, quelque part entre l'heure de départ et l'heure de fin que vous avez spécifiées. L'arrêt durera aussi longtemps que la durée spécifiée. Ceci suppose que l'hôte ou service dont vous avez programmé l'arrêt soit s'arrête (ou devienne inaccessible) ou entre dans un état non-OK, quelque part entre votre heure de départ et heure d'arrêt.

L'heure à laquelle l'hôte ou le service aura un problème sera pour Nagios, l'heure de démarrage de l'arrêt planifié. Il durera ensuite aussi longtemps que vous l'avez spécifié, même si l'hôte ou le service revienne dans un état normal avant la fin de l'arrêt planifié.

Ceci est fait une simple et bonne raison.Comme nous le savons tous, vous pouvez penser qu'un problème est résolu complètement ( et redémarrer le serveur), au moins 10 fois avant que tout ce "merdier" se décide à vraiment marcher. :-)

C'est-y-pas astucieux, tout cela, hein ?

Comment l'arrêt planifié affecte les notifications

Quand un hôte ou un service arrive dans la période d'arrêt planifié, Nagios n'autorisera pas l'émissions des notifications pour cet hôte ou ce service. La supression des notifications se fait par l'ajout d'un filtre à la logique de notification. Vous ne verrez pas d'icône dans les CGI indiquant la désactivation des notifications pour cet hôte/service. Quand la période d'arrêt planifié sera passée, Nagios autorisera l'émission des notifications pour cet hôte ou service comme il le ferait normalement.

Chevauchement d'arrêts planifiés

J'aime appeler ceci le syndrome du "Putain, ça ne marche pas" [NdT : moi, j'aime bien les lois de Murphy: "Si quelque chose doit merder, ça merdera"] . Vous voyez de quoi je veux parler !! Vous arrêtez un serveur pour réaliser une mise à jour matérielle "de routine", pour réaliser plus tard que les drivers du S.E. ne fonctionnent pas, que le controleur RAID a fondu, ou que l'image disque a raté et rend vos disques originaux inutilisables. La morale de l'histoire est qu'une intervention de routine sur un serveur est susceptible de prendre trois ou quatre fois plus longtemps que ce que vous aviez prévu...

Prenons le scenario suivant :

Vous planifiez un arrêt de l'hôte A de 19h30 à 21h30 le lundi
Vous arrétez le serveur vers 19h45 lundi soir pour une mise à jour des disques durs
Après avoir perdu une heure et demie à vous battre avec des erreurs SCSI et des incompatibilités de drivers, vous arrivez finalement à booter la machine
A 21h15 vous vous apercevez qu'une de vos partitions a été cachée ou semble n'exister nulle part sur le disque
Sachant que la nuit va être longue, vous retournez planifier un arrêt supplémentaire pour l'hôte A de 21h20 lundi à 1h30 mardi matin.

Si vous planifiez des périodes d'arrêt qui se chevauchent pour un hôte ou un service (dans ce ca, les périodes étaient 19h30-21h30 et 21h20-1h30), Nagios attendra que la dernière période d'arrêt planifié soit écoulée avant d'autoriser l'émission des notifications pour cet hôte ou ce service. Dans cet example, les notifications seraient supprimées pour l'hôte A jusqu'à 1h30 mardi matin.