La sûreté de fonctionnement est la science de la maîtrise des pannes qui affectent le fonctionnement d’un système.

Cette activité souvent réalisée en parallèle de l’architecture ou pire, après coup (vous l’aurez compris, je prône une activité safety prise en charge par l’équipe architecture), est une activité très importante, plus spécialement dans les systèmes dits critiques. On entend par critique un système dont la panne peut avoir un effet catastrophique. On pense tout de suite à une centrale nucléaire, un avion, une auto. Mais un système d’information au ministère des finances, ou un canal de communication entre la maison blanche et le Kremlin pendant la guerre froide peuvent aussi être considérés comme catastrophiques.

Il faut considérer que le risque critique peut être une perte de vie humaine, mais également économique, écologique ou une perte de réputation par exemple.

Des lors que l’on conçoit un système et que l’on pressent des pannes comme potentiellement critiques, on devrait effectuer :

  1. une analyse des risques et dommages.
    1. On identifie tout d’abord les potentielles pannes du système,
    2. Puis on définit des situations de notre système en lien avec les cas d’utilisation,
    3. Pour chacun de ces cas d’utilisation, on va qualifier le trio
      1. sévérité de la panne dans cette situation,
      2. probabilité d’occurrence de la situation,
      3. détection de la panne ou capacité à maîtriser la situation,
    4. Le produit ou la somme (suivant les standards et les industries) de ces trois attributs (sévérité, probabilité, détection) va donner une classification (A à D ou 1 à 9 par exemple) de la panne dans une situation donnée,
    5. La réalisation de cette activité d’analyse des risques est une identification des risques associés aux pannes et une classification qualitative de l’effort à appliquer sur ces pannes redoutées en prenant la classification la plus sévère de toutes les situations.
  2. Identifier les exigences décrites dans les standards découlant de la classification des pannes et définir les éléments du système qui sont à risque dans le développement de ces pannes
  3. Allouer ces exigences aux différents éléments composant le système (je reviendrai dessus dans un autre billet) et suivre le même processus que pour des exigences classiques

L’activité de sûreté de fonctionnement va venir considérer ces 4 thèmes :

  • Disponibilité : capacité du système à délivrer les services lorsque c’est demandé,
  • Fiabilité : capacité du système à délivrer les services comme spécifié,
  • Sûreté : capacité du système à opérer sans pannes catastrophiques (en lien avec les risques identifiés),
  • Sécurité : capacité du système à se protéger contre des tentatives d’intrusion accidentelles ou délibérées.

Au-delà de ces 4 attributs qualitatifs d’un système que va couvrir l’activité sûreté de fonctionnement, j’ai noté que les organisations qui embarquaient dans des pratiques de sûreté de fonctionnement vertueuses, empruntaient naturellement le chemin de l’amélioration continue et de la qualité. La maîtrise de l’activité sûreté de fonctionnement implique des pratiques nécessaires à l’amélioration de la qualité d’une organisation industrielle.

Je compte développer deux autres billets en lien avec la safety :

  • Comment gérer l’activité de safety à l’interface de deux composants d’un système,
  • Comment analyser un système pour identifier les éléments à risques et la propagation des pannes.

Si vous souhaitez développer d’autres sujets, faites le nous savoir

Posted by Matthieu Aubron

System Thinker for complex industrial projects Consultant en ingénierie système et plus globalement en organisationnel pour l'industrie.