La numérisation sans business continuity ? Oubliez cela !

La continuité des activités joue un rôle de plus en plus important dans un monde VUCA

La numérisation des processus commerciaux doit permettre d’offrir une meilleure expérience et de gagner en efficacité. Mais ces avantages ont aussi souvent pour conséquence que les parties prenantes deviennent de plus en plus dépendantes des systèmes informatiques utilisés. Dans cet article, j’aborde donc le thème de plus en plus important, mais toujours volontiers oublié ou abordé uniquement sous l’angle technique, de la Business Continuity.

Plus haut, plus loin, plus vite : c’est ainsi que l’on pourrait qualifier le credo de nombreuses initiatives de numérisation qui sont actuellement lancées à de nombreux niveaux de notre société. Les systèmes informatiques jouent un rôle de plus en plus central, qu’il s’agisse de payer soi-même à la caisse du supermarché, de réserver un voyage de vacances, d’aller chez le médecin (parfois même plus du tout nécessaire) ou même d’élire un nouveau gouvernement. Les utilisateurs de ces systèmes informatiques se fient donc de plus en plus à leur bon fonctionnement – parfois même trop. Une réflexion sur le thème de la Business Continuity contribue entre autres à répondre à cette attente.

La numérisation accroît souvent la complexité de l’ensemble du système

Malgré tous les avantages que présente le déroulement de processus de création de valeur (potentiellement critiques) via des systèmes informatiques, il existe toutefois un inconvénient majeur : la complexité supplémentaire engendrée par l’utilisation des piles logicielles et/ou matérielles nécessaires. Celle-ci a pour conséquence que les processus commerciaux numérisés peuvent potentiellement être plus facilement perturbés ou même interrompus. Le principe de l’espoir ne doit pas être appliqué dans ce contexte : Ce n’est qu’une question de temps avant que les systèmes informatiques ne tombent en panne ou que les « alentours » ne changent brusquement et de manière potentiellement disruptive, influençant ainsi leur fonctionnement – malheureusement souvent pas pour le mieux.

La panne qui s’est produite cette année chez Meta (anciennement Facebook) en est un bon exemple : non seulement les services WhatsApp, Facebook et Instagram, très utilisés, n’étaient plus accessibles, mais les collaborateurs de Meta n’étaient même plus en mesure de pénétrer dans certains bâtiments de l’entreprise et salles de conférence ou d’envoyer des e-mails externes. Un « coup de balai » complet, en quelque sorte.

Trafficvolumen in bits für Facebook-Services am 04.10.2021 - Facebook Outage 2021
Volume de trafic en bit/s pour les services de Facebook au 04.10.2021 (CC BY 4.0) Source : https://en.wikipedia.org/wiki/2021_Facebook_outage. Consulté le : 28.12.2021

Comment le problème a-t-il finalement été résolu ? Selon les rumeurs, une équipe de techniciens a dû être envoyée dans un centre de données en Californie pour redémarrer manuellement les serveurs concernés. Un exemple éblouissant d’une erreur système soudaine (qui s’est avérée être due à un changement de configuration) qui a eu un impact global profond et dont l’adressage et la résolution finale ont été gérés par des processus qui ont dû être mis en place de manière ad hoc. Un bel exemple de continuité des activités.

Qu’est-ce que la Business Continuity ?

La notion de continuité des activités décrit la capacité d’une entreprise ou d’une organisation à poursuivre la fourniture de produits ou de services dans une mesure définie à l’avance lorsqu’un événement perturbateur se produit.

Dans la plupart des cas, un événement perturbateur n’est pas une simple panne d’un système informatique (par exemple, la panne du système d’accès d’un site d’entreprise n’est pas nécessairement considérée comme telle, bien qu’elle soit potentiellement perturbatrice), mais un événement qui entraîne une perturbation brutale de chaînes de création de valeur entières. On peut citer ici l’exemple de la variante « Omicron » du SRAS-CoV-2 qui sévit actuellement et qui a entraîné l’annulation de milliers de vols dans le monde entier pendant les fêtes de fin d’année, car le personnel navigant infecté a dû se mettre en quarantaine.

Identifier et hiérarchiser les risques

« Premièrement, on préfère penser et deuxièmement, les choses se passent autrement ». Cette modification de la maxime populaire doit indiquer qu’il vaut généralement la peine de prendre des dispositions en cas d’événements perturbateurs. Même si l’événement se distingue en théorie grise et en réalité « colorée », on a au moins sensibilisé les collaborateurs à son apparition et, le cas échéant, on s’est même déjà procuré les ressources nécessaires, auxquelles on n’aurait pas facilement accès en cas de catastrophe. L’exemple des masques de protection au début de la pandémie susmentionnée est certainement encore familier à tout le monde, mais qu’en est-il par exemple de l’acquisition de générateurs de secours pour pouvoir continuer à faire fonctionner les systèmes principaux en cas de panne ou de coupure de courant ?

En conséquence, la base la plus importante de la continuité des activités est que les événements perturbateurs soient identifiés, analysés et gérés dans toute l’entreprise. Dans le cas le plus simple, on tient à jour une liste des événements potentiels, de leurs conséquences et des mesures appropriées pour les limiter en cas d’urgence. Pour établir une telle liste, il est préférable de faire appel à des sources générales des autorités ainsi qu’à des analyses spécifiques au secteur et de la compléter par des événements à risque identifiés au niveau de l’organisation. Une catégorisation des événements, par exemple dans des catégories telles que « social », « politique » ou « technique », les rend plus faciles à gérer et à communiquer.

Soyons honnêtes : étant donné que la préparation à des événements hypothétiques n’est pas dans la nature de l’homme, ni, par conséquent, dans celle de groupes de personnes, il vaut la peine, lors de la mise en œuvre de mesures, de les planifier en fonction d’une hiérarchisation des risques associés. Cela permet de concentrer les ressources et de limiter les efforts nécessaires à la mise en œuvre des mesures, ce qui rend plus probable la mise à disposition des moyens correspondants.

Une estimation simple de la criticité pour un événement individuel peut par exemple être effectuée comme suit :

Criticité de l’événement = probabilité d’occurrence de l’événement (p. ex. par an) x conséquences de l’événement (p. ex. de nature financière ou comme métrique alternative).

Pour une liste d’événements, on peut ainsi estimer individuellement leur criticité et prioriser la mise en œuvre des mesures qui concernent les événements les plus critiques. Par exemple, lors d’une évaluation globale des événements perturbateurs pour une entreprise fictive, il s’est avéré que les risques « pénurie d’électricité » et « difficultés de livraison de composants semi-conducteurs » sont considérés comme les plus critiques.

Les mesures « Acquisition de générateurs de secours » et « Constitution de stocks de composants semi-conducteurs » devraient donc être mises en œuvre en priorité et les projets correspondants lancés. Les mesures relatives à d’autres événements perturbateurs seront prises ultérieurement ou, si leur criticité a été relevée, elles seront reportées dans le temps (voir plus loin).

Déduction et mise en œuvre de mesures en tant que processus continu

La question se pose naturellement de savoir quelles mesures peuvent être prises pour garantir une continuité suffisante des activités en cas de survenance de l’événement en question. Comme nous l’avons mentionné au début, il faut pour cela différentes mesures qui décrivent la mesure dans laquelle les processus de création de valeur concernés continuent à fournir des produits ou des services.

Les approches possibles sont la définition de paramètres de qualité se rapportant à la qualité du produit ou du service, et la définition de périodes de temps au cours desquelles le processus de création de valeur limité doit être rétabli. En ce qui concerne ces derniers, on connaît surtout ce que l’on appelle le Recovery Time Objective (RTO) et le Recovery Point Objective (RPO), mais il ne faut pas non plus hésiter à créer ses propres métriques.

Quels types de mesures peuvent être prises ? Les mesures visant à assurer la continuité des activités peuvent être prises à différents niveaux, par exemple sur

  • niveau de l’organisation de la structure
  • au niveau de l’organisation du déroulement ou des processus
  • niveau technique
  • niveau juridique

bien que d’autres types de mesures, par exemple au niveau de la communication d’entreprise, soient tout à fait possibles.

Exemple de catégorisation des risques mondiaux par le World Economic Forum (WEF)
Exemple de catégorisation des risques mondiaux par le World Economic Forum (WEF)

Les organisations du secteur des TIC, en particulier, ont souvent tendance à se concentrer sur les mesures techniques et à négliger d’autres aspects. Or, il est extrêmement important que les plans de continuité des activités (PCA) soient élaborés et mis en œuvre de la manière la plus globale possible, faute de quoi le maintien de la pleine création de valeur ne peut être garanti.

Permettez-moi de vous donner un exemple : L’intégration des commandes en ligne dans l’application mobile de votre boutique en ligne fictive a eu pour conséquence qu’une grande partie des utilisateurs l’utilisent désormais pour passer des commandes. Un mauvais vendredi après-midi, votre hotline d’assistance reçoit soudain des tas d’appels dans lesquels les gens se plaignent de ne plus pouvoir passer de commandes dans l’application mobile.

Après quelques tergiversations, il s’avère que votre plateforme de commande, hébergée chez un fournisseur de cloud, a été touchée par une panne à cet endroit. Ce n’est que dans le courant de l’après-midi du samedi que la situation se détend, lorsque le fournisseur annonce que les perturbations dans la zone de disponibilité (AZ) où est hébergée votre plateforme de commande ont été résolues. Bien entendu, à ce moment-là, de nombreuses réclamations (y compris de nature « non publicitaire » sur les médias sociaux) ont déjà été formulées et de nombreux clients ont décidé de passer commande ailleurs. Le préjudice financier est considérable.

Quelles mesures auriez-vous alors pu prendre en amont pour aborder ce risque dans l’optique de la continuité des activités ? Sur le plan technique, il aurait certainement été avantageux que votre organisation d’entreprise soit informée à temps de la panne chez le fournisseur de cloud (par exemple par des notifications correspondantes) et, en outre, que votre plate-forme de commande soit hébergée sur différentes ZA.

De plus, si un processus correspondant avait été mis en place, le service d’assistance aurait pu être informé de la panne existante afin de pouvoir renseigner directement les clients qui appellent et éventuellement leur proposer une autre possibilité de commande (par exemple via un formulaire web).

Enfin, vous auriez pu – nous supposons qu’il s’agit d’une solution COTS – veiller, dans le contrat de maintenance de votre plateforme de commande, à ce que les éventuelles interruptions de service soient compensées financièrement. Vous et moi aurions certainement d’autres mesures à prendre à ce stade. Mais n’oubliez pas qu’ici aussi : Toutes les mesures n’ont pas le même impact, c’est pourquoi elles doivent être priorisées.

Déduction et mise en œuvre de mesures en tant que processus continu

Vous aurez peut-être remarqué que la déduction et la mise en œuvre de mesures de continuité des activités n’est pas une mince affaire, mais qu’elle prend du temps. Mais il y a plus grave : étant donné que la nature des événements qui menacent une organisation dans sa création de valeur change en permanence, il ne suffit pas de déduire et de mettre en œuvre des mesures une seule fois. Il vaut mieux considérer la continuité des activités et sa garantie par le biais de mesures comme un processus continu qui s’organise en cycle de Deming.

En conséquence, vous devriez suivre le modèle simple Plan – Do – Check – Act et vérifier régulièrement le bien-fondé et l’efficacité de vos mesures et les corriger le cas échéant. Je suis conscient que ce n’est pas une tâche facile et que c’est parfois tout simplement impossible. Mais même des exercices d’urgence isolés – dans le cas ci-dessus, par exemple, une maintenance de la plateforme de commande non communiquée à l’organisation de soutien – peuvent contribuer à vérifier la qualité de la mise en œuvre d’une mesure. En bref : restez à l’écoute.

La continuité des activités devient de plus en plus importante dans un monde VUCA

L’acronyme « VUCA« , qui signifie « Volatilité, incertitude, complexité, ambiguïté », est souvent utilisé pour décrire l’état actuel de notre monde. Il n’est pas nécessaire d’être pessimiste pour attribuer une certaine véracité à cette caractérisation. C’est précisément cet environnement dynamique, de plus en plus difficile à prévoir, associé à l’augmentation de la complexité technique qui va de pair avec la numérisation, qui rend le thème de la continuité des activités de plus en plus important pour les organisations de toutes tailles. Restez donc à l’écoute – même les petits pas comptent.

Was Georg Hauzenberger antreibt, ist das Schaffen von Mehrwert für die Allgemeinheit durch neue Denkansätze und Werkzeuge. Neue Technologien sind dabei Nebensache. Georg suchte früh Disruption, als er aus einem geisteswissenschaftlichen Fokus an die ETH Zürich wechselte. Er verschrieb sich danach der Innovation. Momentan treibt er bei der Schweizerischen Rettungsflugwacht Rega die Digitalisierung des Rettungswesens und deren agile Transformation voran.

Comments are closed.