Ein Brand, Stromausfall, Server-Versagen, beschädigte Netzwerkkomponenten oder eine Krankheitswelle beim IT-Personal sind reale Szenarien, die Unternehmen unerwartet vor enorme Herausforderungen stellen. Schon wenige Stunden Ausfall der Informations- und Kommunikationstechnik können je nach Branche oder Unternehmen gravierende oder gar existenzbedrohende Folgeschäden für den Geschäftsbetrieb mit sich bringen. So waren bei dem weltweit größten Online-Versandhändler Amazon etwa 2010 aufgrund eines Hardware-Fehlers mehrere europäische Websites zeitweise ausgefallen, wodurch mitten in der Weihnachtszeit signifikante Umsatzeinbußen entstanden. Das Gebot der Stunde lautet im Störungs- oder Komplettausfall, die Geschäftskontinuität wiederherzustellen, betriebswirtschaftliche Schäden zu reduzieren und die Existenz des Unternehmens auch bei einem größeren Schadensereignis zu sichern. IT Service Management Spezialist Jochen Möller zeigt auf, wie Unternehmen frühzeitig Risiken identifizieren, ungeplante Downzeiten minimieren, ihre Mitarbeiter auf den Ernstfall vorbereiten und ein zuverlässiges Informations- und Notfallmanagement gewährleisten können.
Früher oder später machen die meisten Unternehmen unliebsame Erfahrungen mit Datenverlusten, Störungen von Kern- oder Subsystemen und ähnlichen IT-Notfall-Szenarien – ob direkt oder indirekt. Denn die komplexen Strukturen unserer globalen Kollaborationsnetzwerke, Lieferketten und ineinandergreifenden Produktionsprozesse (Stichwort:-„Just-in-Time“) machen uns in hohem Maße abhängig von einem kontinuierlichen, störungsfreien Geschäftsbetrieb zwischen allen Prozessbeteiligten. Maßnahmen zur Sicherung der IT-Betriebsbereitschaft und die Etablierung eines Notfallmanagements bzw. Desaster Recovery Konzeptes sind daher heute wichtiger denn je.
„Dennoch hat im Schnitt jedes zweite Unternehmen in Deutschland für Störfälle in der IT keine adäquate Notfallplanung parat, um negative Auswirkungen auf den laufenden Geschäftsbetrieb zu vermeiden oder zu minimieren. Ein Grund dafür liegt u.a. darin, dass die Verantwortlichkeiten für die Initiierung einer IT-Notfallplanung im Unternehmen nicht immer klar geregelt sind. Leider wird dieses Thema daher häufig erst dann mit dem notwendigen Engagement vorangetrieben, wenn das Kind schon in den Brunnen gefallen ist. Im Ernstfall fehlt es dann jedoch an dem methodischen Knowhow, so dass oftmals keine strukturierte Herangehensweise mehr möglich ist – die Folge sind unproduktive Mehrzeiten und Umsatzeinbußen“, weiß Jochen Möller, Geschäftsführer der Hamburger mIT solutions GmbH.
Checkliste für den Ernstfall
Um auf einen IT-Notfall angemessen zu reagieren, benötigen Unternehmen eine strukturierte IT-Notfallkonzeption, die verschiedene Eventualitäten bereits im Vorfeld beleuchtet. Bei Eintritt einer Notfallsituation in der IT-Umgebung beschreibt sie die Vorgehensweise, wie in einer angemessenen Zeit zum einen der Notfallbetrieb und zum anderen die vollständige Verfügbarkeit der IT und der Daten sichergestellt werden kann. „Orientierung gibt hier der IT Service Continuity Management (ITSCM) Standard nach ITIL 2011, der als vier-stufiger Leitfaden zur Behebung von „Major Incidents“ und zur Realisierung einer gezielten Wiederherstellungsplanung von IT-Services verfasst wurde. Um Unternehmen bei der zuverlässigen IT-Notfallplanung zu unterstützen und die ITSCM Maßnahmen unter Berücksichtigung individueller Strukturen erfolgreich umzusetzen, hat mIT solutions für den IT-Notfall ein ganzheitliches Best-Practice-Modell entwickelt. Dieses umfasst sowohl die Identifikation relevanter IT-Services und Konzeptionierung der Notfallprozess-Planung als auch die Einrichtung eines Notfall Desks und Informationsbereitstellung für den Wirtschaftsprüfer. Am Ende erhält das Unternehmen eine vollständige, Software-gestützte Dokumentation mit allen relevanten Informationen an die Hand, so dass die notwendigen Schritte zur Wiederherstellung der IT wie eine Checkliste abzuarbeiten sind“, erklärt Jochen Möller.
Entwicklung eines Notfallplanes
Ein Notfall entsteht zumeist durch eine Verkettung von einzelnen Störungen, die jeweils für sich genommen nicht kritisch gewesen wären. Die Notfallplanung erfüllt daher nicht nur den Zweck, eine systematische Wiederherstellung des Betriebes und der Daten zu gewährleisten, sondern auch Risiken präventiv zu managen und zu verhindern, dass Notfälle überhaupt entstehen können. Am Anfang des Planungsprozesses bei mIT solutions steht daher eine Risiko- (Business-Impact-) Betrachtung. Die Identifikation, Analyse sowie die Bewertung und Dokumentation der Risiken in Bezug auf Eintrittswahrscheinlichkeit und Auswirkungen stellen dabei die Basis für die weiteren Notfallpläne dar. Daraus lassen sich sowohl die kritischen Ausfallzeiten, quasi die „Überlebensdauer“ des Unternehmens im Hinblick auf bestehende Verträge und SLA´s, als auch Schwachstellen auf Prozessebene, IT-Risiken und geeignete Gegenmaßnahmen ermitteln.
In dieser Analysephase wird ebenfalls definiert, welche Systeme für die Leistungserbringung des Unternehmens als kritisch einzustufen sind, wie diese zusammenspielen und welche Bedingungen zur Auslösung bestimmter Workflows gegeben sein müssen. Auf dieser Grundlage wird schließlich festgelegt, wann eine Störung zu einem Notfall bzw. wann ein Notfall zu einer Krise wird sowie welche Kommunikationswege und Abläufe zur Wiederherstellung zu initiieren sind. Im Anschluss folgt die Ausgestaltung der Notfallprozessplanung und Wiederanlaufplanung zur Beseitigung der Störung. Anhand einer „Notfall-Checkliste“ kann der verantwortliche Mitarbeiter die Einhaltung sämtlicher Prozessschritte von A bis Z überwachen.
Der Faktor Mensch – Sicherheit durch Training und Tests
Störfälle treten im Unternehmensalltag immer wieder zutage. Wichtig dabei ist, dass aus den Störfällen keine Krisen entstehen. Beim Umgang mit kritischen Situationen sind daher auch psychologische Komponenten auf Mitarbeiterebene und der Faktor „Mensch“ zu beachten. Der arbeitsorganisatorischen Vorbereitung und Übung von Notfall-Szenarien kommt daher eine große Bedeutung zu, um alle Beteiligten mit den jeweiligen Aufgaben im Krisenfall vertraut zu machen und das Zusammenspiel aller Akteure und Prozesse zu trainieren. Mit Hilfe von Reviews können Schwachstellen identifiziert und die Testkonzepte bzw. Ablaufpläne in einem iterativen Prozess stetig verbessert werden.
Krisen-, Prozess- und IT Service Management integriert abwickeln
„In einer Notfallsituation müssen alle Rädchen ineinandergreifen und alle Beteiligten müssen schnell reagieren. Wer übernimmt welche Aufgaben? Wer ist zu benachrichtigen und wer hat welche Entscheidungsbefugnisse? Welche Dokumentationen sind vorhanden und wo sind diese hinterlegt? Welche Systeme müssen zuerst wiederhergestellt werden? Welche Fristen sind unbedingt einzuhalten? Wie erreiche ich verantwortliche Systemspezialisten und welche Vertreterregelungen gibt es? Die Mitarbeiter müssen die anfallenden Fragen nicht nur ad hoc beantworten können, sondern müssen durch diesen Prozess effektiv geleitet werden, da Menschen in Extremsituationen anders „funktionieren“. Ein zentrales Element des Notfallmanagements ist daher neben regelmäßigen Übungsszenarios die Software-Unterstützung der Notfall-Prozesse“, so Jochen Möller.
Mit der konsequent prozessorientierten IT Service Management Suite EcholoN liefert die mIT solutions gleich das passende Werkzeug, um ein perfektes Zusammenspiel von Krisen-, Prozess- und Service Management zu ermöglichen. Die Lösung gewährleistet als zentrales Element der Notfallplanung die automatisierte Steuerung sämtlicher Abläufe bis zur Systemwiederherstellung. Mitarbeiter werden so auf effektive Weise eingebunden, über Alerts in Kenntnis gesetzt und an Aktivitäten erinnert. Jeder prozessbeteiligte Mitarbeiter ist somit über den aktuellen Stand der Maßnahmen informiert und weiß, welche Schritte als nächstes zu tun sind. Die erforderlichen IT-Services für den Notbetrieb, wie etwa notwendige Sofortmaßnahmen, die Systembetreuung im Notbetrieb, die Wiederherstellung der Infrastruktur und schließlich die Rückkehr zum Normalbetrieb, werden dabei durch EcholoN implementiert und bereitgestellt. Sämtliche Hardware, Workflows und Process-Owner können dabei direkt im System verwaltet und gepflegt werden. Im Ausfallszenario sind Unternehmen so in der Lage, dynamische Prozesse und aktuelle Informationen mit einer automatischen Eskalationsroutine effektiv zu verbinden. Bereits im Standard bietet EcholoN eine Vielzahl von Notfall-Prozess Vorlagen, die an die Vorgaben des ITSCM nach ITIL angelehnt sind.