Présentation du comportement et de la consignation Quality of Service (QoS)
Cette rubrique décrit les caractéristiques de QoS notamment le comportement du serveur et du contrôleur de serveur pendant les événements d'interruption, le déclenchement du basculement, ainsi que le contenu du fichier journal.
Evénements d'interruption QoS
- '
nsd -kill
' ne génère pas un nsd. mais uniquement un fichier kill_*. - Si et seulement si le serveur doit être redémarré, le contrôleur génère ses propres commandes '
nsd -stacks
' aux fins de dépannage. - Lorsque
QoSShutdownNSD=seconds
est défini dans le fichier notes.ini, une commande 'nsd -stacks
' est générée toutes lesQoSShutdownNSD
secondes si le serveur n'a pas été arrêté correctement dans un délai deQoSShutdownNSD
secondes. Ce paramètre notes.ini est utilisé pour le dépannage des serveurs qui mettent trop de temps à s'arrêter.
qosprobe
n'a pas pu ouvrir le fichier names.nsf du serveur (vue $Servers) dans le délai en millisecondes indiqué par QOS_PROBE_TIMEOUT
.Evénement | Action de contrôleur | Configuration ? |
---|---|---|
Délai d'analyse (qosprobe) | Le serveur est interrompu après un délai de 5 minutes, puis redémarré. | dcontroller.ini:QOS_PROBE_TIMEOUT=minutes |
Délai des applications à exécution longue | Le serveur est interrompu après un délai de 10 minutes, puis redémarré. | dcontroller.ini:QOS_APPS_TIMEOUT=minutes |
Descripteurs partagés épuisés sur le serveur | Le serveur est interrompu et redémarré. | non |
Tables de session épuisées sur le serveur | Le serveur est interrompu et redémarré. | non |
Mémoire brute épuisée sur le serveur | Le serveur est interrompu et redémarré. | non |
Descripteurs de mémoire partagée épuisés sur le serveur | Le serveur est interrompu et redémarré. | non |
Panne/emballement du serveur lors de l'exécution | Le serveur est redémarré après un délai de 5 minutes. | non |
Temps d'arrêt du serveur trop long ('quit') | Le serveur est interrompu après un délai de 5 minutes. | dcontroller.ini:QOS_SHUTDOWN_TIMEOUT=minutes |
Temps de redémarrage du serveur trop long ('restart server') | Le serveur est interrompu après un délai de 5 minutes, puis redémarré. | dcontroller.ini:QOS_RESTART_TIMEOUT=minutes |
Fin anormale du processus serveur | Le serveur est interrompu et redémarré. | non |
Déclenchement de basculement QoS
Une interruption intelligente QoS peut maintenir un serveur arrêté pendant une période pouvant aller jusqu'à 20 minutes. Le temps d'indisponibilité total peut inclure un temps de détection de dépassement de délai d'analyse d'environ 5 minutes, l'exécution de nsd en vue de collecter les données sur tous les processus (environ 3 minutes), l'interruption du serveur (environ 1 à 2 minutes) et le redémarrage (incluant la durée de la tâche gating - jusqu'à 10 minutes). Toute nouvelle demande conçue pour être traitée sur un serveur pour lequel QoS est défini bascule immédiatement sur une grappe correspondante dans les secondes suivant le moment où QoS détecte que le serveur doit être interrompu.
- Arrêt du serveur trop long
- Redémarrage du serveur trop long
- Blocage du serveur nécessitant un nettoyage QoS
QOS_DISABLE_FAILOVER_TRIGGER=1
. Lorsque ce paramètre est défini, le fichier triggerImmediateServerFailover
est toujours créé et supprimé, mais le serveur ne force pas le basculement de StaticHang.Fichier journal du contrôleur QoS
QoS place un nouveau fichier journal dans le répertoire de travail du serveur Domino®. Le fichier journal du contrôleur QoS contient les détails correspondant aux différents événements tels qu'ils ont été capturés ou traités par le contrôleur QoS, aux événements d'analyse QoS, au redémarrage de serveur par mesure de sécurité, aux blocages de serveur, aux interruptions QoS et à divers autres événements. Les sections suivantes décrivent ce fichier journal, son mode de fonctionnement et comment l'utiliser pour traiter un événement dans le service.
qoscntrlr201105171528.out
Cet horodatage indique l'heure à laquelle le contrôleur QoS a été démarré. Le nom de fichier indiqué den exmple peut être celui du journal du contrôleur QoS pour un démarrage du service le 17 mai 2011 à 3 h 28 PM. Si le service est arrêté, puis redémarré, le fichier qoscntrlrYYYYMMDDHHmm.out reçoit l'extension .log et un nouveau fichier qoscntrlrYYYYMMDDHHmm.out est créé avec l'heure actuelle. Ces fichiers qoscntrlrYYYYMMDDHHmm.log sont automatiquement supprimés lorsque le service est démarré s'ils datent de plus de 14 jours.
Convention de dénomination du fichier journal
qoscntrlr201105171528.out
Cet horodatage indique l'heure à laquelle le contrôleur QoS a été démarré. Le nom de fichier indiqué den exmple peut être celui du journal du contrôleur QoS pour un démarrage du service le 17 mai 2011 à 3 h 28 PM. Si le service est arrêté, puis redémarré, le fichier qoscntrlrYYYYMMDDHHmm.out reçoit l'extension .log et un nouveau fichier qoscntrlrYYYYMMDDHHmm.out est créé avec l'heure actuelle. Ces fichiers qoscntrlrYYYYMMDDHHmm.log sont automatiquement supprimés lorsque le service est démarré s'ils datent de plus de 14 jours.
Interprétation du fichier journal
2012/08/06 06:33:34 QoS Controller: Starting QOSPipeWatcher
2012/08/06 06:33:34 QoS Controller: QOS_PROBE_TIMEOUT=5 minutes
2012/08/06 06:33:34 QOSController: QOS_SHUTDOWN_TIMEOUT=5 minutes
2012/08/06 06:33:34 QOSController: QOS_RESTART_TIMEOUT=5 minutes
2012/08/06 06:33:34 QOSController: QOS_APPS_TIMEOUT=10 minutes
2012/08/06 06:33:34 QoS Controller: nsd Program Path=/opt/hcl/notes/latest/linux/nsd.sh
2012/08/06 06:33:34 QoS Controller: QOS_RESTART_LIMIT_MAXIMUM=3
2012/08/06 06:33:34 QoS Controller: QOS_RESTART_LIMIT_PERIOD=30 minutes
2012/08/06 06:33:34 QoS Controller: QOS_NOKILL=false
2012/08/06 06:33:34 QoS Controller: QOS_MAIL_TO=test/hcl
2012/08/06 06:33:34 QoS Controller: QOS_MAIL_SMTP_SERVER=xx
2012/05/08 00:15:09 QoS Controller: OpMsg=START Type=QOS ObjectType=ServerName ObjectValue=CN=rc45/O=dev ObjectType2=ProcessName ObjectValue2=nserver TimeDate=20120508T001506,95-04
2012/05/08 00:15:09 QoS Controller: OpMsg=START Type=SERVER TimeDate=20120508T001507,40-04
2012/05/08 00:15:21 QoS Controller: OpMsg=READY Type=SERVER TimeDate=20120508T001517,92-04
TimeDate=20120508T001506,95-04
2012/05/08 00:15:21 QoS Probe: message
2012/05/08 00:15:21 QoS Applications: message
2012/05/08 00:15:21 QoS Kill: message
Eléments à rechercher dans le fichier journal
Le tableau ci-dessous contient des exemples d'événements de consignation de base que vous pouvez voir dans le fichier journal du contrôleur QoS.
Evénement | Exemples de consignation dans le journal |
---|---|
Démarrage normal du serveur |
|
Arrêt normal du serveur |
|
Analyse QoS |
|
Applications à exécution longue |
|
Preuve d'un blocage serveur dans le fichier journal
2012/05/08 01:00:44 QoS Controller: OpMsg=CRASH Type=QOS ObjectType=ServerName ObjectValue=CN=rc45/O=dev TimeDate=20120508T010039,48-04
2012/05/08 01:00:44 QoS Controller: Server CN=rc45/O=dev has crashed.
2012/05/08 01:00:44 QoS Controller: Deactivating probe...
2012/05/08 01:00:44 QoS Controller: QoS Probe deactivated.
Preuve d'une interruption intelligente dans le fichier journal
2012/05/08 00:31:41 QoS Probe: SUCCESS (78ms)
2012/05/08 00:32:41 QoS Probe: SUCCESS (16ms)
2012/05/08 00:37:41 The probe thread has not received a message from qosprobe within the timeout period.
2012/05/08 00:37:41 QoS Probe: The qosprobe addin has timed out, is not responding, or is not running.
2012/05/08 00:37:41 QoS Controller: Deactivating probe...
2012/05/08 00:37:41 QoS Controller: QoS Probe deactivated.
2012/05/08 00:37:43 QoS Controller: OpMsg=TIMEOUT Type=PROBE TimeDate=null
2012/05/08 00:37:43 QoS Controller: The controller has received a probe timeout.
2012/05/08 00:37:43 QoS Kill: Triggering failover...
2012/05/08 00:37:47 QoS Kill: Running nsd...
2012/05/08 00:38:12 QoS Kill: Running nsd -kill
2012/05/08 00:38:16 QoS Kill: Setting kill complete.
2012/05/08 00:38:21 QoS Kill: Restarting DominoStarter thread