Identification et résolution des problèmes

Le processus d'identification et de résolution des problèmes est une approche systématique permettant d'apporter une solution à un problème. Il a pour but de déterminer la raison pour laquelle un élément ne fonctionne pas comme il devrait et de trouver la solution au problème.

La première étape du processus consiste à décrire le problème dans son intégralité. La description du problème vous facilite la tâche et celle de votre interlocuteur du service d'assistance qui dispose ainsi d'une piste de recherche de la cause de l'incident. Cette étape vous aide vous poser les bonnes questions :

Quels sont les symptômes de l'incident ?
Où le problème se produit-il ?
Quand le problème s'est-il produit ?
Dans quelles conditions l'incident se produit-il ?
L'incident peut-il être reproduit ?

La réponse à ces questions fournit généralement une description précise de l'incident et peut permettre de trouver la solution.

Quels sont les symptômes de l'incident ?

Cette question peut paraître simpliste mais vous pouvez la découper en une série de question plus ciblées afin d'acquérir une vision plus précise de l'incident. Ces questions peuvent inclure les points suivants :

Par qui ou par quel élément l'incident est-il signalé ?
Quels sont les messages et les codes d'erreur ?
Quelle est la nature de la panne du système ? Par exemple, s'agit-il d'une boucle, d'un blocage, d'un arrêt total, d'une détérioration des performances, ou d'un résultat incorrect ?

Où le problème se produit-il ?

Il n'est pas toujours aisé de déterminer où se produit l'incident, mais il s'agit pourtant de l'une des étapes les plus importantes. De nombreuses couches technologiques peuvent exister entre les composants signalés et les composants défectueux. Les réseaux, les disques et les pilotes ne sont que quelques-uns des composants à prendre en compte.

Les questions suivantes vous aideront à déterminer la source de l'incident, afin d'identifier la couche qui pose problème :

L'incident est-il spécifique à une plateforme ou à un système d'exploitation, ou se produit-il sur toutes les plateformes et tous les systèmes d'exploitation ?
L'environnement et la configuration courants sont-ils pris en charge ?

La couche qui signale l'incident n'est pas forcément celle où il a son origine. L'identification de l'origine d'un problème consiste en partie à comprendre l'environnement dans lequel il survient. Prenez le temps de décrire l'environnement de manière aussi détaillée que possible : système d'exploitation et version, logiciels utilisés et versions, informations sur le matériel. Assurez-vous que vous travaillez dans un environnement correspondant à une configuration prise en charge. Bon nombre d'incidents sont liés à l'exécution de versions de logiciels incompatibles, qui ne sont pas prévues pour être utilisées simultanément ou qui n'ont pas été entièrement testées à cet effet.

Quand le problème s'est-il produit ?

Reconstituez la chronologie détaillée des événements qui ont conduit à la panne, surtout celle des défaillances qui ne se sont produites qu'une fois. Pour établir facilement une chronologie, procédez à l'envers : partez du moment où une erreur a été signalée (aussi précisément que possible, même à la milliseconde près), et remontez en arrière à l'aide des journaux et des informations disponibles. Il suffit généralement de remonter jusqu'au premier événement suspect trouvé dans un journal de diagnostic.

Pour établir la chronologie détaillée des événements, répondez aux questions ci-dessous :

Le problème se produit-il uniquement à une certaine heure du jour ou de la nuit ?
Quelle est la fréquence de l'incident ?
Quelle est la suite d'événements qui conduit au moment où l'incident est signalé ?
L'incident se produit-il après une modification de l'environnement, par exemple la mise à niveau ou l'installation d'un composant logiciel ou matériel ?

La réponse à ce type de questions fournit un cadre de référence pour effectuer les recherches sur l'incident.

Dans quelles conditions l'incident se produit-il ?

Il est très important de savoir quelles applications et quels systèmes étaient en cours d'exécution lorsque l'incident s'est produit. Les questions suivantes concernant votre environnement vous aident à identifier la cause première de l'incident :

L'incident se produit-il systématiquement lors de l'exécution d'une tâche particulière ?
L'incident se produit-il chaque fois suite à une séquence d'événements ?
Une défaillance apparaît-elle simultanément au niveau d'une ou plusieurs autres applications ?

La réponse à ces questions vous aide à avoir une idée plus claire de l'environnement dans lequel survient l'incident et à mettre en corrélation les dépendances éventuelles. Notez cependant que si plusieurs incidents se produisent de manière quasi-simultanée, cela ne signifie pas nécessairement que ces incidents sont liés.

L'incident peut-il être reproduit ?

Dans le contexte du processus d'identification et de résolution des incidents, un incident idéal est celui qui peut être reproduit. Généralement, lorsqu'un incident peut être reproduit, vous disposez d'un plus large éventail d'outils ou de procédures pour faire votre recherche. Par conséquent, les incidents que vous pouvez reproduire sont souvent plus faciles à déboguer et à résoudre. Toutefois, ces problèmes présentent un inconvénient : si le problème en question a un impact commercial considérable, vous ne voulez pas qu'il se reproduise. Si possible, recréez l'incident dans un environnement de test ou de développement afin de disposer de davantage de souplesse et de maîtrise pendant vos investigations.

L'incident peut-il être reproduit sur un système de test ?
Plusieurs utilisateurs ou applications rencontrent-ils le même type d'incident ?
L'incident peut-il être recréé en exécutant une commande unique, un ensemble de commandes ou une application particulière ?