Supervision des équipements
La supervision est le cœur de Vigileos : l'agent surveille en continu l'état de vos équipements et remonte les données à la plateforme.
Mécanisme de surveillance
Ping ICMP
L'agent envoie un ping ICMP à chaque équipement supervisé toutes les 30 secondes et mesure :
- la joignabilité : l'équipement répond-il ?
- la latence : le temps de réponse, en millisecondes ;
- la perte de paquets : le pourcentage de pings sans réponse.
L'identité de l'équipement est confirmée par son adresse MAC (cache ARP) avant validation du résultat.
Pour limiter le trafic, l'agent ne transmet une mesure à la plateforme que lorsqu'elle change de façon significative, avec un point de présence régulier (heartbeat) au minimum toutes les 5 minutes.
SNMP (optionnel)
Pour les équipements compatibles, l'agent peut interroger le SNMP (v1, v2c ou v3 selon l'équipement) afin de récupérer des informations complémentaires :
- par défaut : la description et l'uptime du système ;
- via des profils dédiés (radios, switches PoE…) : des métriques spécialisées, comme la qualité du signal et le CPU/mémoire d'une radio, ou la puissance PoE et l'état d'alimentation par port d'un switch.
Les métriques SNMP sont collectées toutes les 5 minutes.
Détection intelligente (anti-flapping)
Pour éviter les fausses alertes, l'agent n'alerte pas dès le premier ping manqué : il applique une hystérésis dont le nombre de cycles dépend du type de connexion (plus tolérant pour les liens sans fil, naturellement plus instables).
| Type de connexion | Cycles avant « hors ligne » | Cycles avant retour « en ligne » |
|---|---|---|
| Filaire | 3 | 2 |
| Wi-Fi | 5 | 3 |
| Radio | 6 | 3 |
| LTE | 7 | 4 |
À 30 secondes par cycle, un équipement filaire doit donc être injoignable pendant 90 secondes avant d'être déclaré hors ligne. Tant que ce seuil n'est pas atteint, aucune alerte hors ligne n'est levée.
Si un équipement oscille trop souvent entre les états en ligne et hors ligne (flapping), le seuil est automatiquement durci et une alerte d'instabilité dédiée est levée, plutôt qu'une rafale d'alertes hors ligne. Cela évite le bruit lors des redémarrages planifiés, des micro-coupures ou d'une congestion temporaire.
Seuils de latence et de perte
Les seuils d'alerte de latence ne sont pas des valeurs fixes : l'agent apprend le comportement normal de chaque équipement (une baseline statistique) et alerte lorsque la latence s'écarte nettement de cette moyenne. Le seuil warning correspond à un écart modéré (de l'ordre du P95), le seuil critique à un écart fort (de l'ordre du P99). Un plancher minimal évite les alertes sur des micro-variations (quelques millisecondes en filaire).
Pour la perte de paquets, des seuils par défaut s'appliquent selon le type de connexion :
| Type de connexion | Perte (warning) | Perte (critique) |
|---|---|---|
| Filaire | 3 % | 5 % |
| Wi-Fi | 5 % | 10 % |
| Radio | 8 % | 15 % |
| LTE | 10 % | 20 % |
Résilience hors connexion
Si l'agent perd temporairement sa connexion avec le serveur, il continue de superviser les équipements et conserve les mesures dans un buffer local. À la reconnexion, les mesures récentes sont renvoyées dans l'ordre chronologique.
Les mesures trop anciennes (au-delà de quelques minutes) ne sont pas réémises, afin de ne pas saturer le serveur avec des données périmées. La supervision du site n'est donc pas interrompue par une coupure Internet, même si la continuité parfaite de l'historique n'est pas garantie sur de longues coupures.