Digitalisierung ohne Business Continuity Plan? Vergessen Sie es!

Business Continuity spielt eine immer wichtigere Rolle in einer VUCA-Welt

By Georg Hauzenberger Last updated 6. Januar 2022

Die Digitalisierung von Geschäftsprozessen soll dazu führen, dass diese ein besseres Erlebnis bieten und effizienter werden. Diese Vorteile führen aber auch oft dazu, dass Stakeholder immer abhängiger von den verwendeten IT-Systemen werden. In diesem Artikel beleuchte ich daher das immer wichtigere, aber immer auch gern vergessene oder nur technisch adressierte Thema der Business Continuity.

Höher, weiter, schneller: So könnte man das Credo vieler Digitalisierungsinitiativen bezeichnen, die momentan auf vielen Ebenen unserer Gesellschaft angestossen werden. IT-Systeme spielen dabei eine immer zentralere Rolle, sei es beim selbstständigen Zahlen an der Supermarktkasse, bei der Buchung einer Ferienreise, beim (manchmal gar nicht mehr nötigen) Gang zum Arzt oder sogar bei der Wahl einer neuen Regierung. Die Benutzer dieser IT-Systeme verlassen sich also immer mehr auf deren korrektes Funktionieren – manchmal sogar zu viel. Eine Auseinandersetzung mit dem Thema Business Continuity trägt unter anderem dazu bei, diese Erwartungshaltung zu adressieren.

Index

Digitalisierung steigert oft die Komplexität des Gesamtsystems

Bei allen Vorteilen, die eine Abwicklung von (potenziell kritischen) Wertschöpfungsprozessen über IT-Systeme bringt, gibt es jedoch einen grossen Nachteil: die zusätzliche Komplexität, die durch die Verwendung der benötigten Software- und/oder Hardwarestacks entsteht. Diese führt dazu, dass digitalisierte Geschäftsprozesse potenziell einfacher gestört oder sogar unterbrochen werden können. Das Prinzip Hoffnung darf dabei nicht zur Anwendung kommen: Es ist nur eine Frage der Zeit, bis IT-Systeme ausfallen oder sich das «Drumherum» abrupt und potenziell disruptiv verändert und damit deren Betrieb beeinflusst – leider oft nicht zum Guten.

Ein gutes Beispiel ist der Ausfall, der sich bei Meta (ehemals Facebook) in diesem Jahr ereignete: Nicht nur waren die vielfältig genutzten Dienste WhatsApp, Facebook und Instagram nicht mehr aufrufbar, sondern Meta-Mitarbeiter waren nicht einmal mehr in der Lage, gewisse Firmengebäude und Konferenzräume zu betreten oder externe E-Mails zu versenden. Ein voller «Rundumschlag», sozusagen.

Trafficvolumen in bits für Facebook-Services am 04.10.2021 - Facebook Outage 2021 — Trafficvolumen in bit/s für Facebook-Services am 04.10.2021 (CC BY 4.0) Quelle: https://en.wikipedia.org/wiki/2021_Facebook_outage. Abgerufen am: 28.12.2021

Wie wurde das Problem schlussendlich gelöst? Es wird gemunkelt, dass ein Team von Technikern zu einem Data Center in Kalifornien entsandt werden musste, um die betroffenen Server manuell neu zu starten. Ein blendendes Beispiel also für einen abrupt auftretenden Systemfehler (welcher, wie sich herausstellte, aufgrund einer Konfigurationsänderung auftrat), der tiefgreifende globale Auswirkungen hatte und dessen Adressierung und schlussendliche Behebung über Prozesse gesteuert wurde, die teilweise ad-hoc etabliert werden mussten. Ein schönes Beispiel für Business Continuity.

Was ist Business Continuity?

Der Begriff Business Continuity beschreibt die Fähigkeit eines Unternehmens oder einer Organisation, die Lieferung von Produkten oder Dienstleistungen in einem im Vorhinein festgelegten Ausmass fortzuführen, wenn ein disruptives Ereignis eintritt.

Ein disruptives Ereignis ist dabei in den meisten Fällen kein einfacher Ausfall eines IT-Systems (so ist der Ausfall des Zutrittssystems an einem Unternehmensstandort nicht unbedingt so zu werten, obwohl potenziell auch disruptiv), sondern ein Ereignis, das zur abrupten Beeinträchtigung von ganzen Wertschöpfungsketten führt. Als Beispiel wäre hier die aktuell grassierende Variante «Omicron» von SARS-CoV-2 anzuführen, aufgrund derer tausende Flüge weltweit über die Weihnachtsfeiertage ausfielen, weil infiziertes Flugpersonal sich in Quarantäne begeben musste.

Risiken identifizieren und priorisieren

«Erstens denkt man lieber und zweitens kommt es anders.» Diese Abwandlung des populären Spruchs soll darauf hinweisen, dass es sich meistens lohnt, Vorkehrungen für disruptive Ereignisse zu treffen. Selbst wenn sich das Ereignis in grauer Theorie und in «bunter» Realität unterscheiden sollte, hat man dennoch zumindest die Mitarbeiter für dessen Auftreten sensibilisiert und allenfalls bereits sogar notwendige Ressourcen beschafft, an die man im Desasterfall nicht einfach herankommen würde. Das Beispiel der Schutzmasken am Anfang der oben erwähnten Pandemie ist sicher noch jedem geläufig, aber wie steht es beispielsweise um die Beschaffung von Notstromgeneratoren, um bei Stromausfällen oder -abschaltungen weiterhin Kernsysteme betreiben zu können?

Entsprechend ist die wichtigste Grundlage für Business Continuity, dass disruptive Ereignisse unternehmensweit erkannt, analysiert und bewirtschaftet werden. Im einfachsten Fall pflegt man eine aktuelle Liste von potenziellen Ereignissen, deren Auswirkungen und von passenden Massnahmen, um diese im Ernstfall zu begrenzen. Am besten zieht man für die Erstellung einer derartigen Liste sowohl behördliche, allgemeine Quellen, als auch branchenspezifische Analysen hinzu und ergänzt diese mit risikobehafteten Ereignissen, die auf Stufe der Organisation erkannt wurden. Eine Kategorisierung der Ereignisse, beispielsweise in Kategorien wie «sozial», «politisch» oder «technisch», macht diese einfacher pflegbar und vermittelbar.

Seien wir ehrlich: Da die Vorbereitung auf hypothetische Ereignisse nicht in der Natur des Menschen liegt und, folglich, auch nicht von Gruppen von Menschen, lohnt es sich bei der Umsetzung von Massnahmen, diese anhand einer Priorisierung der verbundenen Risiken zu planen. Damit können Ressourcen fokussiert werden und der Aufwand zur Umsetzung der Massnahmen klein gehalten werden, was die Bereitstellung von entsprechenden Mitteln wahrscheinlicher macht.

Eine einfache Abschätzung der Kritikalität für ein einzelnes Ereignis kann man beispielsweise wie folgt machen:

Kritikalität Ereignis = Eintrittswahrscheinlichkeit des Ereignisses (bspw. pro Jahr) x Auswirkungen des Ereignisses (bspw. finanzieller Natur oder als alternative Metrik)

Für eine Liste von Ereignissen kann man so einzeln deren Kritikalität abschätzen und die Umsetzung derjenigen Massnahmen priorisieren, die die kritischsten Ereignisse betreffen. Ein Beispiel: Bei einer global durchgeführten Bewertung von disruptiven Ereignissen für ein fiktives Unternehmen hat sich ergeben, dass die Risiken «Strommangellange» und «Lieferschwierigkeiten von Halbleiterkomponenten» als am kritischsten einzustufen sind.

Die abgeleiteten Massnahmen «Anschaffung von Notstromgeneratoren» und «Aufbau Lager von Halbleiterkomponenten» sollten entsprechend prioritär umgesetzt und entsprechende Projekte lanciert werden. Massnahmen zu anderen disruptiven Ereignissen werden entweder später ergriffen oder, falls deren Kritikalität hochgestuft wurde, zeitlich nach vorne verschoben (siehe weiter unten).

Ableitung und Umsetzung von Massnahmen als andauernder Prozess

Nun stellt sich natürlich die Frage, welche Massnahmen überhaupt ergriffen werden können, damit ausreichende Business Continuity bei Eintreten des jeweiligen Ereignisses gewährleistet werden kann. Wie eingangs erwähnt, benötigt es hierzu verschiedene Messgrössen, die das Ausmass beschreiben, zu dem die betroffenen Wertschöpfungsprozesse weiterhin Produkte oder Dienstleistungen erbringen.

Mögliche Ansätze sind hier die Definition von Qualitätsparametern, die sich auf die Güte des Produkts oder der Dienstleistung beziehen, und die Definition von Zeitperioden, innerhalb derer der eingeschränkte Wertschöpfungsprozess wiederhergestellt sein muss. Bei Letzteren sind vor allem das sogenannte Recovery Time Objective (RTO) und Recovery Point Objective (RPO) bekannt, aber man sollte sich auch nicht vor der Erstellung eigener Metriken scheuen.

Welche Arten von Massnahmen können ergriffen werden? Massnahmen zur Sicherstellung der Business Continuity können auf verschiedenen Ebenen ergriffen werden, beispielsweise auf

aufbauorganisatorischer Ebene
ablauforganisatorischer oder Prozessebene
technischer Ebene
rechtlicher Ebene

wobei auch durchaus andere Arten von Massnahmen, beispielsweise auf Ebene der Unternehmenskommunikation, möglich sind.

Beispiel für Kategorisierung globaler Risiken durch das World Economic Forum (WEF) Quelle: WEForum Abgerufen am: 28.12.2021

Vor allem Organisationen aus der ICT-Branche neigen oft dazu, den Fokus auf technische Massnahmen zu legen, und vernachlässigen dabei andere Aspekte. Dabei ist es äusserst wichtig, dass Business Continuity Pläne (BCP) möglichst ganzheitlich erstellt und umgesetzt werden, da sonst nicht die Aufrechterhaltung der vollen Wertschöpfung gewährleistet werden kann.

Lassen Sie mich Ihnen ein Beispiel geben: Die Integration von Onlinebestellungen in die Mobile-App Ihres fiktiven Onlineshops hat dazu geführt, dass ein Grossteil der Benutzer diese nun für Bestellungen verwendet. Eines schlechten Freitagnachmittags erhält Ihre Supporthotline auf einmal haufenweise Anrufe, in denen sich die Leute darüber beschweren, dass sie in der Mobile-App keine Bestellungen mehr tätigen können.

Nach einigem Hin und Her stellt sich heraus, dass Ihre Bestellplattform, die bei einem Cloudprovider gehostet ist, von einem Ausfall dort betroffen war. Erst im Verlauf des Samstagnachmittags entspannt sich die Situation, als der Provider bekanntgibt, dass die Störungen in der Availability Zone (AZ), in der Ihre Bestellplattform gehostet ist, behoben sind. Natürlich gab es bis zu diesem Zeitpunkt bereits zahlreiche Reklamationen (auch «unwerbeträchtiger» Natur auf Social Media) und viele Kunden beschlossen, woanders zu bestellen. Der finanzielle Schaden ist beträchtlich.

Welche Massnahmen hätten Sie nun vorab ergreifen können, um dieses Risiko im Sinne der Business Continuity zu adressieren? Auf technischer Ebene wäre es sicher von Vorteil gewesen, wenn Ihre Betriebsorganisation frühzeitig über die Störung beim Cloudprovider informiert gewesen wäre (bspw. über entsprechende Notifikationen) und, zusätzlich, Ihre Bestellplattform über verschiedene AZs hinweg gehostet gewesen wäre.

Zusätzlich hätte bei Vorhandensein eines entsprechenden Prozesses der Support über die bestehende Störung informiert werden können, um den anrufenden Kunden direkt Auskunft geben zu können und Ihnen eventuell eine alternative Bestellmöglichkeit zu offerieren (beispielsweise per Webformular).

Zu guter Letzt hätten Sie – wir nehmen an, dass es sich um eine COTS-Lösung handelt – beim Wartungsvertrag Ihrer Bestellplattform darauf achten können, dass allfällige Serviceausfälle finanziell kompensiert werden. An dieser Stelle würden Ihnen und mir sicher noch weitere Massnahmen einfallen. Bedenken Sie aber auch hier: Nicht alle Massnahmen erzielen gleich viel Wirkung, weshalb auch diese priorisiert werden sollten.

Ableitung und Umsetzung von Massnahmen als andauernder Prozess

Ihnen wird vielleicht aufgefallen sein, dass die Ableitung und Umsetzung von Business Continuity Massnahmen keine Kleinigkeit ist, sondern einige Zeit in Anspruch nimmt. Es kommt aber noch dicker: Da sich die Natur der Ereignisse, die eine Organisation in ihrer Wertschöpfung bedrohen, fortlaufend ändert, reicht es nicht, nur einmal Massnahmen abzuleiten und umzusetzen. Betrachten Sie besser Business Continuity und dessen Sicherstellung über Massnahmen als fortlaufenden Prozess, der sich als Demingzyklus ausgestaltet.

Entsprechend sollten Sie dem simplen Muster Plan – Do – Check – Act folgen und regelmässig die Sinnhaftigkeit und Wirksamkeit Ihrer Massnahmen überprüfen und gegebenenfalls korrigieren. Mir ist bewusst, dass dies kein einfaches Unterfangen ist und teilweise schlichtweg auch nicht möglich. Selbst isolierte Notfallübungen – im obigen Fall beispielsweise eine der Supportorganisation nicht bekannt gemachte Wartung der Bestellplattform – können aber schon dazu beitragen, die Güte der Umsetzung einer Massnahme zu überprüfen. Kurz gesagt: Bleiben Sie dran.

Business Continuity wird immer wichtiger in einer VUCA-Welt

Zur Beschreibung des aktuellen Zustands unserer Welt wird häufig das Akronym «VUCA» herbeigezogen, welches für «Volatility, Uncertainty, Complexity, Ambiguity» steht. Man muss nicht zwangsläufig Pessimist sein, um dieser Charakterisierung einen gewissen Wahrheitsgehalt beizumessen. Genau diese dynamische, immer schwerer berechenbare Umwelt gepaart mit dem Zuwachs an technischer Komplexität, der mit der Digitalisierung einhergeht, lässt das Thema Business Continuity für Organisationen jeglicher Grösse immer wichtiger werden. Bleiben Sie also dran – auch kleine Schritte zählen.

Georg Hauzenberger

Was Georg Hauzenberger antreibt, ist das Schaffen von Mehrwert für die Allgemeinheit durch neue Denkansätze und Werkzeuge. Neue Technologien sind dabei Nebensache. Georg suchte früh Disruption, als er aus einem geisteswissenschaftlichen Fokus an die ETH Zürich wechselte. Er verschrieb sich danach der Innovation. Momentan treibt er bei der Schweizerischen Rettungsflugwacht Rega die Digitalisierung des Rettungswesens und deren agile Transformation voran.