Обеспечение непрерывности бизнес-процессов и управление кризисными ситуациями
В настоящее время невозможно представить себе бизнес без использования информационных технологий в XXI веке. С их помощью компании становятся эффективнее и конкурентоспособнее. Однако, вместе с этим, информационные технологии могут представлять и значительные риски для компаний.
При оборудовании важнейших бизнес-процессов информационными технологиями, постоянная работа ИТ сервисов становится ключевым элементом. В случае, если сервисы перестают работать, то компания сталкивается с некоторыми негативными последствиями. Лучшим случаем является временное простое и возможные возмещения финансовых убытков, а худший сценарий - это катастрофические последствия делового провала.
Профилактика от подобных сценариев - это обеспечение безопасности и независимости в работе информационных технологий, и наша статья объяснит, как это достичь.
Современный бизнес, основанный на использовании информационных технологий, нуждается в надежной системе кризис-менеджмента, которая бы обеспечивала бесперебойность процессов. Это становится особенно актуально для кредитно-финансовых, телекоммуникационных и высокотехнологичных компаний, а также предприятий непрерывного производственного цикла, включая атомные электростанции. Однако, готовность к возможным кризисным ситуациям не менее важна и для ритейл-сетей, электронной коммерции и государственных учреждений.
В некоторых отраслях существуют специальные регуляторные акты, которые имеют отношение к обеспечению непрерывности бизнеса и должны соблюдаться для получения соответствующей лицензии. Высокая степень риска, связанная с сбоем в работе ИТ-сервисов, может привести к большим материальным потерям для банков, которые не могут позволить себе непродолжительный перерыв в работе. Авария на предприятии ТЭК или авиакомпании может повлечь за собой не только финансовые потери, но и потерю человеческих жизней.
Причины возникновения бизнес-рисков могут быть различными, например, природные бедствия, аварии в энергосистемах или киберпреступления. В связи с этим, важность обеспечения информационной безопасности общеизвестна.
Компания DEAC провела опрос в 2019 году, который продемонстрировал, что наиболее восприимчивыми к рискам непрерывности бизнеса являются финансовая и информационная сферы. Значительная часть опрошенных не может продолжать работу более одного часа в случае недоступности ИТ-систем, что подчеркивает важность обеспечения непрерывности бизнес-процессов.
Существуют инструменты кризис-менеджмента, которые обеспечивают безопасность бизнеса в целом. Это BCM (Business Continuity Management), BCP (Business Continuity Planning) и DRP (Disaster Recovery Planning). Они наследуют методологию ИБ и имеют основные принципы: анализ рисков, контроль и управление инцидентами, стратегическое и тактическое планирование непрерывности информационно-коммуникационных технологий.
BCM (BCP & DRP) являются неотъемлемой частью системы ИБ и обеспечивают не только непрерывность бизнеса, но и безопасность в целом. Управление ИБ является основой BCM, и их требования учитываются при выборе дата-центра для хранения информации, а также при внедрении стандартов, включая ISO/IEC 27001 и ISO 22301:2012.
Важно отметить, что BCM постепенно охватила практически все аспекты деловой активности и превратилась в целостную структуру взглядов на методы обеспечения непрерывности бизнеса. Она стала устойчивостью организации к всевозможным сбоям, разрушениям и потерям, в первую очередь финансовым.
Управление непрерывностью бизнеса (BCM) — важный инструмент, позволяющий организациям оставаться оперативными в условиях любых незапланированных инцидентов, таких как сбои оборудования, технологические аварии, кибератаки, экологические катастрофы и прочее. В рамках BCM можно выделить несколько основных видов управления, каждый из которых направлен на устранение конкретных последствий инцидентов.
Первый уровень — управление инцидентами (Incident management, IM). Оно ориентировано на работу с отдельными происшествиями, которые не приводят к большим потерям для компании. В рамках IM решаются задачи, связанные с сохранением, доступностью и целостностью информации, а также отказоустойчивостью оборудования.
Второй уровень — управление непрерывностью бизнеса и аварийным восстановлением (Business continuity & disaster recovery management). Этот уровень направлен на предотвращение инцидентов, которые могут серьезно нарушить работу организации и привести к приостановке важнейших процессов. Возможные последствия таких инцидентов могут быть крайне серьезными, вплоть до банкротства. Как показывают исследования, ежегодные потери от простоев приложений в мире превышают 20 млн долларов, а в России — 19,8 млн долларов.
Третий уровень — управление чрезвычайными ситуациями (Crisis & emergency management). Он направлен на предотвращение катастрофических последствий опасных ситуаций, связанных с экологическими катастрофами, гуманитарными кризисами, инфраструктурными разрушениями и другими крайне редкими, но крайне опасными инцидентами. Надежность управления непрерывностью деятельности важна для отраслей, таких как топливная и энергетическая промышленности.
Получение значительных убытков от инцидентов вполне возможно, как показывают реальные примеры. В том числе, 12 мая 2017 года весь мир был атакован вирусом-вымогателем WannaCry, который привел к множеству сбоев и нанес огромный экономический ущерб многим компаниям, включая больницы и правительственные учреждения. Статистика говорит о том, что корпорации, успешно восстановившие деятельность после инцидента, через год получают дополнительный доход, сверх нормы, в размере 10%, в то время как компании без внедренной BCM понимают убытки в подобном размере. Управление непрерывностью бизнеса — важный залог сохранности вложенных владельцами и акционерами средств.
Внедрение BCM: какие этапы необходимо пройти
Планирование и стратегия - так начинается управление непрерывностью бизнеса (BCM). В этом процессе часто используются инструменты риск-менеджмента (RM). Чтобы реализовать BCM в организации, необходимо пройти целый ряд этапов. Они включают в себя овладение техническими и программными средствами, регламентацию действий, распределение ответственности и обучение персонала. Взять на себя эти задачи компании может быть проблематично. В таком случае стоит обратиться за помощью к ИТ-экспертам. Они не только разработают план мероприятий и найдут наилучшие решения для компании, но и помогут перевести проект в реальность.
Анализ бизнес-процессов (Business Environment Analysis, BEA) позволяет определить риски, которые могут возникнуть в зависимости от характера деятельности компании. Например, отказ в работе системы учета пациентов медицинского учреждения является менее критичным по сравнению со сбоем в работе высокотехнологичного реанимационного оборудования. При этом в телекоммуникационной компании отказ приложения для автоматизации совместной деятельности рабочих групп вероятно не остановит бизнес-процессы, однако сбой в системе биллинга приведет к затратам на финансовые потери. Таким образом, точки критичности могут быть различны для каждого типа бизнеса, и анализ бизнес-процессов позволяет выявить эти точки и определить степень их влияния на деловую активность компании.
Анализ рисков (Risk Analysis, RA) позволяет выделить зависимые и независимые от информационных технологий (ИТ) риски. После выделения и градации бизнес-процессов по важности для компании следует определить группу ИТ-зависимых бизнес-процессов. Затем необходимо проверить технические и организационные механизмы по предотвращению перебоев в работе бизнес-процессов, выделить уязвимые точки и оценить угрозы. В результате можно выделить группы рисков, которые влияют на ИТ, и классифицировать их по мере важности.
Оценка влияния на бизнес (Business Impact Analysis, BIA) основана на карте ключевых бизнес-процессов с указанием нарушений, которые могут привести к убыткам. После этого строится модель, отображающая связь между нарушениями и категориями возможных потерь, которые могут быть оценены как количественно, так и качественно. К группам потерь могут относиться: деловая репутация, рыночная стоимость, уровень операционных издержек, возврат на инвестиции, штрафные санкции из-за нарушения контрактных обязательств и др. Такой подход позволяет провести детальную оценку влияния на бизнес и определить возможные потери.
Для аналитиков имеет большое значение получение достоверной информации о финансах бизнеса и текущей ситуации в ИТ-комплексе, а также о планах его расширения.
Также необходимо провести детальный анализ информационных сервисов, связанных с бизнес-процессами и информационными потоками. Оценка возможного ущерба позволит получить полную картину бизнеса, отразив уровень критичности всех бизнес-процессов и нарушений их функционирования в соответствии с потерями.
Аудит, проводимый аналитиками перед началом сотрудничества, поможет решить все вышеперечисленные задачи. В процессе такой всесторонней оценки будут выявлены слабые места в системе информационной безопасности клиента, которые затем можно будет укрепить.
Расчет экономического эффекта (стоимости простоя бизнес-процессов) предполагает определенные допущения о вероятности возможных инцидентов в ближайшее время, что позволяет определить наиболее подходящую стратегию.
Для успешного функционирования в условиях чрезвычайных ситуаций важно определиться с несколькими параметрами, которые позволят быстро и эффективно восстановить работу компании. Эту задачу должны решить собственники и руководство компании совместно с аналитиками. Специалисты рекомендуют установить так называемые тайм-ауты и производительную мощность для отдельных бизнес-процессов.
Один из параметров, который необходимо установить - это допустимое время восстановления (Recovery Time Objective, RTO). RTO представляет собой интервал времени, в течение которого должна быть восстановлена работоспособность системы после возникновения чрезвычайной ситуации. Важно учитывать, что RTO может быть сведен практически к секундам, однако иногда его установка не является экономически оправданной из-за дороговизны системы восстановления.
Еще одним параметром, который нужно установить, является целевая точка восстановления (Recovery Point Objective, RPO). RPO определяет временной диапазон перед наступлением ЧС, за который все данные могут быть утрачены. На сегодняшний день RPO может быть сведен к нулю благодаря частоте и технологии резервного копирования информации.
Наконец, третий параметр - это уровень непрерывности бизнеса (Level of Business Continuity, LBC) или допустимый уровень производительности (доли нагрузки) в чрезвычайных ситуациях в процентах от режима штатной работы. Он позволяет оценить потери в случае возникновения аварийных ситуаций и понимать, какие меры необходимо предпринимать для быстрого восстановления бизнес-процессов.
Таким образом, совместное определение этих параметров поможет компании успешно справиться с любыми возникшими трудностями и обеспечить бесперебойную работу в условиях чрезвычайных ситуаций.
Планирование – это процесс, который должен быть постоянным и динамическим, а не отдельной процедурой, и важно поддерживать его в актуальном и "синхронизированном" состоянии. Для этого необходимо регулярно проверять планы и дополнять их свежими данными по мере необходимости.
Определение стратегии непрерывности бизнеса является ключевым этапом планирования. Эта стратегия должна включать меры по обеспечению безопасности сотрудников, обеспечению рабочих помещений, технических средств и необходимых материалов, доступ к критической информации, а также обеспечивать беспрепятственные коммуникации с партнерами, клиентами, поставщиками и другими заинтересованными сторонами. Каждое направление должно иметь отдельную подстратегию, которая поможет "навигировать" к скорейшему восстановлению в соответствии с параметрами, определенными на этапах анализа рисков. Обеспечение непрерывности ссылается на три стадии: реагирование на ЧС, продолжение выполнения критически важных процессов для бизнеса в условиях ЧС и восстановление штатной работы.
Выбор организационных и технических решений зависит от стратегии BCM (Business Continuity Management). Необходимо разработать политики, которые определят приоритетные цели и задачи поддержания непрерывности бизнеса, процедуры реагирования и области распространения системы BCM, а также установить кадровые потребности и степень вовлеченности персонала в реализацию программы внедрения BCM (проекта).
Создание технической и организационной системы BCM очень важно для непрерывности бизнеса. В настоящее время все большую популярность приобретают "облачные" услуги. Одним из решений для защиты информации при помощи облака является DRaaS (Disaster-Recovery-as-a-Service). Суть этого решения заключается в том, чтобы предоставить услугу аварийного восстановления данных в облачных средах корпоративного уровня. Это позволяет снизить расходы на обеспечение безопасности и одновременно поддерживать ее на уровне принятых в индустрии стандартов. Существуют разные варианты, но все они основаны на резервном копировании ИТ-инфраструктуры или ее наиболее критичных элементов.
Согласно первому варианту резервные копии ИТ-инфраструктуры создаются по расписанию, который задается в соответствии с требуемым временем восстановления (RTO) и точкой восстановления (RPO), а затем помещаются в хранилище. Восстановление занимает до нескольких часов. Такая схема подходит для малого бизнеса, где непрерывность не является критичной, но важна экономия и надежность сохранения данных. Однако, такое резервное копирование не обеспечивает комплексную защиту.
Второй вариант заключается в том, чтобы копировать все инфраструктуру, а изменения проводить в непрерывном режиме, чтобы они переносились в облако. Информацию можно извлечь и восстановить за несколько минут.
Третий вариант заключается в том, чтобы запустить резервную облачную инфраструктуру, которая будет полностью идентичной основной. Обновления в обоих инфраструктурах происходят синхронно, что позволяет восстанавливать работу за несколько секунд. Такое решение актуально для крупных финансовых и ИТ-компаний, государственных организаций и любых других компаний, где нельзя терять ни минуты на простой.
Построение отказоустойчивых ЦОДов является важным аспектом для различных бизнесов. В случае необходимости, можно провести оптимизацию существующих центров обработки данных или построить новые, более энергоэффективные и отказоустойчивые. Реализация данной задачи включает в себя комплекс мероприятий, таких как: строительство специализированных зданий, организация инженерной, телекоммуникационной и ИТ-инфраструктуры, их автоматизация, сервисное сопровождение подсистем ЦОДов или создание мобильного ЦОДа. Также, есть более простой путь - доверить организацию ИТ-инфраструктуры надежному провайдеру.
При росте бизнеса и усложнении ИТ-систем компании, вычислительные центры могут стать фактором угрозы непрерывности деловой активности. Поэтому необходимо разработать план восстановления системы после инцидента (DRP), который является составной частью более крупного плана обеспечения непрерывности бизнеса (BCP). DRP помогает быстро восстановить работоспособность критичных ИТ-систем и обычных операций, в то время как BCP обеспечивает восстановление бизнес-процессов в целом.
Для обеспечения нормального функционирования системы BCM необходимо формировать программу сопровождения и эксплуатации, определять периодичность проверок и разрабатывать меры реагирования обслуживающего персонала на возникновение инцидентов. Также важным аспектом является интеграция процессов в корпоративную культуру, которая включает разработку мер и осведомление персонала о мерах, предпринимаемых в случае возникновения угроз, а также о мерах по устранению последствий внештатной ситуации. Компетентный персонал является важным фактором для успешного планирования восстановления после происшествия.
Одним из ключевых аспектов успешной работы предприятия является внедрение высокоэффективной системы управления. Однако, необходимо учитывать, что внедрение информационных технологий требует значительных ресурсов, которых не всегда хватает у компаний.
Одним из показателей успешности внедрения в систему управления является готовность организации к продолжению работы даже в случае сбоя в ИТ-системах. Координированный противопожарный механизм и подготовленный персонал являются главными условиями для быстрого реагирования в экстренной ситуации и, в свою очередь, позволяют сохранять работоспособность компании.
Кроме того, необходимо также учитывать вероятность простоя или недоступности информационных систем в случае возникновения внештатной ситуации, что может привести к значительным материальным потерям. Правильно оцененная рискованность и защитные меры помогут свести к минимуму возможные негативные последствия.
Другим показателем эффективности внедрения системы является соответствие требованиям регулирующих органов. Пройдя процедуру аудита и полностью соответствуя требованиям, компания приобретает надежность и доверие со стороны заказчиков и партнеров.
Однако, стоит учитывать, что создание и внедрение высокоэффективной системы управления – непростая задача, требующая значительных затрат и временных ресурсов. Такие ресурсы далеко не всегда доступны для каждой компании, поэтому часто необходимо прибегать к внешней помощи.
Фото: freepik.com