Пожалуйста, обратите внимание: книга представлена в нескольких форматах, но для комфортного просмотра содержащихся в ней графических материалов и таблиц мы рекомендуем формат pdf.
Вопросы и комментарии просим направлять по адресу [email protected].
encoding and publishing house
© Издательство «Aegitas», 2024
Об авторах
Тарас Чирков – директор по эксплуатации ЦОД Linx Datacenter. Тарас обладает обширным опытом работы в ИТ-сфере: ранее занимался развитием ИТ-инфраструктуры компании Beeline в Северо-Западном регионе, управлял ИТ-инфраструктурой олимпийских объектов в компании AtoS на Олимпийских играх 2014 г. в Сочи.
Более десяти лет Тарас со своей командой обеспечивает бесперебойную работу ЦОД Linx Datacenter, управление системами обеспечения жизнедеятельности дата-центра, физической и информационной безопасности. Накопленный опыт лег в основу нового направления консультационных услуг в сфере эксплуатации ЦОД, обучающих курсов на базе АНО КС ЦОД и публикаций.
Под руководством Тараса Linx Datacenter подготовлен к аудиту на соответствие международным стандартам: Management & Operations Stamp of Approval от Uptime Institute, ISO 9001, ISO 27001, ISO 22301 с последующим подтверждением сертификации Британским институтом стандартов BSI, PCI DSS, SAP Cloud and Infrastructure Operations.
Тарас имеет сертификации в области управления дата-центрами – Accredited Operations Specialist от Uptime Institute и Certified Data Centre Facilities Operations Manager. Он сертифицированный ведущий аудитор BS ISO/IEC 27001:2013.
Константин Нагорный – главный инженер Linx Datacenter в Санкт-Петербурге. Присоединился к команде Linx в 2009 г. и за несколько лет прошел путь от рядового инженера ЦОД до главного инженера.
Основные достижения его профессиональной деятельности: участие в проекте строительства и запуске в эксплуатацию ЦОД Linx Datacenter в Санкт-Петербурге, бесперебойная работа ЦОД с момента его основания, руководство проектом разработки и внедрения системы мониторинга ЦОД, организация процессов и разработка документации, регламентирующих работу и обучение персонала службы эксплуатации ЦОД.
Константин имеет сертификацию Accredited Tier Designer от Uptime Institute. Читает курс лекций по эксплуатации дата-центров на базе тренингового центра АНО КС ЦОД.
Андрей Чеснов – главный энергетик Linx Datacenter в Санкт-Петербурге, в Linx работает более 10 лет. Ранее был главным энергетиком на крупном производственном предприятии, принимал участие в его строительстве и эксплуатации.
Андрей имеет богатый опыт обслуживания и эксплуатации различных инженерных систем, отвечает за организацию производственных процессов и поддержание безопасной и бесперебойной работы систем жизнеобеспечения ЦОД, осуществил модернизацию системы резервного энергоснабжения.
Андрей прошел обучение по направлению «Сертифицированный специалист в области ЦОД» (Certified Data Center Specialist (CDCS) от Hewlett Packard Enterprise. Читает курс лекций по эксплуатации дата-центров на базе тренингового центра АНО КС ЦОД.
Авторы руководили подготовкой ЦОД Linx Datacenter к прохождению аудита Uptime Institute на соответствие инфраструктуры и процессов ее эксплуатации требованиям Management & Operations Stamp of Approval в 2018, 2020, 2021 и 2023 г.
Приветственное слово от генерального директора Linx
Уважаемые читатели!
Рад представить вам книгу «Эксплуатация ЦОД: практическое руководство» – превосходный инструмент для всех, кто стремится улучшить процессы эксплуатации в уже действующем дата-центре или организовывает их с нуля. Авторами пособия являются сотрудники нашей компании, уже более 20 лет предоставляющей решения в сфере хранения и обработки данных на базе собственных дата-центров.
ЦОД как площадка для хранения данных и размещения стремительно развивающихся облачных сервисов играет важную роль в обеспечении безопасности и операционной устойчивости ключевых процессов работы любой компании. Команда специалистов, создавшая данное практическое пособие, не только обладает богатым опытом по организации бесперебойной работы ЦОД, но и единственная в России четыре раза прошла аудит Management & Operations от Uptime Institute, благодаря чему ЦОД Linx вошел в топ-15 дата-центров в мире с подтвержденной высокой экспертизой в области эксплуатации ЦОД.
Книга «Эксплуатация ЦОД: практическое руководство» предлагает читателям практические советы и рекомендации, разработанные на базе лучших практик отрасли и адаптированные с учетом требований российского законодательства и реалий. Это руководство – идеальный помощник для всех, кто хочет выстроить процессы эксплуатации своего дата-центра в соответствии с самыми высокими стандартами отрасли.
Я горжусь тем, что могу представить вам данное руководство. Уверен, что вы найдете в нем ценные сведения, которые будут способствовать стабильной работе ЦОД и развитию бизнеса вашей компании.
С наилучшими пожеланиями,
Михаил Ветров,
генеральный директор Linx
Вступление от научного редактора
Российский рынок беден печатными изданиями, посвященными центрам обработки данных (ЦОД). Еще менее доступны источники, освещающие принципы и подходы к организации служб эксплуатации таких объектов. Между тем, учитывая важность и значимость ЦОД в нашей повседневной жизни и ограниченность информации о них, источники знаний о данной теме жизненно необходимы. В этой связи появление книги, посвященной эксплуатации ЦОД, – более чем важное событие.
Подходить к данной теме можно по-разному. Та информация, которую можно найти в интернете и немногочисленных публикациях, зачастую кажется очень общей по характеру изложения, и, хотя и, безусловно, способствует углублению знаний и пониманию тематики, но не дает конкретных, практических указаний по реализации принципов организации эксплуатации и технического обслуживания ЦОД. Отрадно видеть, что настоящее издание фокусируется именно на конкретных указаниях и живых примерах того, как эти принципы реализуются в повседневной работе.
ЦОД бывают разными – по назначению, сфере применения, масштабу, принципам построения и особенностям использования. Однако их роднит то, как реализуются принципы их повседневной эксплуатации. Реализация этих принципов может быть различной, но, применяя существующие на мировом рынке методологии и механизмы оценки уровня эксплуатации, можно выделять те объекты, которые стоят в авангарде отрасли. В этом контексте ЦОД Linx Datacenter – уникальный объект, четырехкратно награжденный оценкой Management and Operations Stamp of Approval. Эту оценку присуждает консалтинговая компания Uptime Institute – признанный отраслевой лидер мирового масштаба в сфере сертификации ЦОД по уровням Tier, отражающим степень надежности и качество эксплуатации центров обработки данных.
ЦОД Linx Datacenter на сегодняшний день – единственный в России (а, возможно, и в Европе), четырежды успешно прошедший аудит Management and Operations и получивший высокие оценки Uptime Institute. Стремление ключевых сотрудников данного объекта поделиться своим опытом в сфере эксплуатации нельзя расценивать иначе, как значительный вклад в популяризацию знаний об эксплуатации критических объектов.
Данная книга – особенная. Она идет много дальше общих рекомендаций по эксплуатации и дает массу практических советов, сопровождаемых примерами и иллюстрациями, о том, как подобрать необходимый персонал службы эксплуатации и рассчитать его численность, сформировать программы технического обслуживания инженерной инфраструктуры ЦОД, сформулировать и описать необходимые процессы и процедуры эксплуатации, корректно документировать их и обеспечить их доступность для службы эксплуатации, как управлять уровнем оказания услуг объекта, как отслеживать состояние складов, наличие необходимых инструментов, управлять повседневными операциями на объекте, обеспечивать безопасность труда и многое-многое другое.
Несмотря на кажущуюся очевидность того, как следует построить эксплуатацию объекта, ее практическая реализация – весьма нетривиальная задача, успешно решить которую под силу не каждому. В этом ключе данный труд – настоящий подарок для каждого участника отрасли ЦОД.
Эта книга станет незаменимым пособием по организации повседневной эксплуатации ЦОД для их владельцев, технических директоров, руководителей служб эксплуатации, ответственных лиц в данной сфере и линейных сотрудников служб эксплуатации. Учитывая универсальность излагаемых принципов и подходов, книга применима даже шире, нежели исключительно в отрасли ЦОД, – излагаемые знания и практические указания применимы для любых критических объектов.
Константин Королев,
директор по развитию бизнеса
в России и СНГ, Uptime Institute
Введение
Центры обработки данных (ЦОД) приобретают все более важное и критическое значение для повседневной жизни. Особенность их функционирования – беспрерывная и круглосуточная работа. Даже минутные простои могут иметь катастрофические по степени финансового и репутационного ущерба последствия для организации или, в случае отказа каких-либо популярных сервисов, стать заметными по всему миру даже для людей, не связанных с ИТ-индустрией.
По опубликованным данным[1] опросов представителей отрасли, до 79 % респондентов испытывали проблемы, связанные с жизнедеятельностью ЦОД, за последние три года. По нашей собственной десятилетней статистике инцидентов, это число составляет примерно 65 %. Согласно статистическим исследованиям Uptime Institute, 75 %[2] отказов в ЦОД связаны с человеческим фактором. Когда мы только начинали переосмыслять работу службы эксплуатации в 2015 г., эта цифра достигала лишь 70 %.
Человеческий фактор включает в себя ошибки дежурного персонала ЦОД, но, что более важно, также говорит о принятии неверных управленческих решений в отношении подбора сотрудников, выстраивания процессов обслуживания, обучения и общей тщательности выполнения работ по техническому обслуживанию или повседневной деятельности. Независимо от топологии инфраструктуры дата-центра, человеческий фактор представляет наибольший риск для его работоспособности, так как на долю отказов оборудования приходится относительно малая часть инцидентов. Следовательно, целесообразно направлять усилия на устранение большего процента рисков, связанного с человеческими ошибками при эксплуатации. Из них 48 %[3] связано с неверным выполнением процедур, 41 % – с неверно организованными процессами или процедурами.
При правильно организованной системе эксплуатации, даже с несовершенной инженерной инфраструктурой и незначительным уровнем резервирования, ЦОД может иметь лучшее время беспрерывной работы, чем ЦОД с высоким уровнем резервирования систем, но с плохо выстроенной и организованной эксплуатацией. Недостатки инфраструктуры и низкий уровень резервирования можно компенсировать продуманными организационными мерами.
Мы – команда, которая уже более 10 лет занимается эксплуатацией ЦОД, – хотим поделиться с вами своим опытом организации современной модели эксплуатации ЦОД.
Современный подход к управлению эксплуатацией охватывает не только организацию качественной эксплуатации инфраструктуры ЦОД, но и контроль других сопряженных направлений – ИТ/телеком, службы поддержки, уборки, охраны, порядка доступа и пребывания сотрудников ЦОД, клиентов и подрядчиков на территории ЦОД.
Отметим, что описанная ниже модель эксплуатации даст результат только в случае реального осмысления принципов, описанных в этой книге, адаптации их под ваши процессы и самостоятельного внедрения с каждодневным использованием. В этом случае вы получите самоподдерживающуюся экосистему процессов и документации, позволяющую сохранять информированность сотрудников и качество процессов на уровне, позволяющем пройти любой аудит без предварительной подготовки.
В случае же разового точечного внедрения данной системы с целью пройти конкретный аудит вы, конечно же, достигнете временного результата, но все ваши усилия будут напрасны в долгосрочной перспективе, и каждый новый аудит будет вызывать страх и авральные приготовления как руководства, так и рядового персонала.
Мы также не рекомендуем заказывать услуги по созданию документации службы эксплуатации «под ключ». Это внедрение приведет к аналогичному временному результату. Без участия персонала – как руководящего звена, так и рядовых дежурных сотрудников – это все не будет работать. Важно платить деньги не за готовые формальные документы, а за качественное обучение вашего персонала, который сам уже потом применит полученные знания и создаст все требуемые процессы и инструкции, возможно, даже где-то улучшив предложенную концепцию.
Также следует бороться с формальным подходом к процессам со стороны дежурных инженеров ЦОД. Чаще всего он выражается в некачественном ведении отчетности, недостаточном контроле за работой подрядчиков, заполнении чек-листов не в процессе выполнения задачи, а задним числом (например, обход объекта без чек-листа и заполнение его потом). Руководству требуется вести непрерывный контроль, разъяснительную работу, мотивирование и выборочные проверки качества выполнения процедур дежурными, иначе все усилия руководителей могут быть перечеркнуты отношением сотрудников. А лучшим стимулом является собственный пример. Одновременно надо оценивать внедряемые процедуры и документы на предмет минимизации всего того, что требуется заполнять или отправлять в виде отчета. Новые процессы и документы должны упрощать работу руководителей и сотрудников, а не усложнять ее.
Виды ЦОД
Согласно ГОСТ Р 58811–2020, п. 3.1.13, «Центр обработки данных; ЦОД: Специализированный объект, представляющий собой связанную систему ИТ-инфраструктуры и инженерной инфраструктуры, оборудование и части которых размещены в здании или помещении, подключенном к внешним сетям, как инженерным, так и телекоммуникационным».
С точки зрения процессов под центрами обработки данных (ЦОД) мы будем подразумевать такие ИТ-площадки, которые достигли некоторого объема и зрелости процессов внутри организации, позволяющих организовывать эксплуатацию инженерной инфраструктуры отдельно от ИТ-инфраструктуры. В противном случае, когда поддержкой инженерной инфраструктуры ЦОД по старой памяти продолжает заниматься команда ИТ-отдела, это малоэффективно.
Наилучшее решение здесь – использование услуг колокации.
Колокация, колокейшн (от англ. colocation, сокращенно colo) – услуга, состоящая в том, что провайдер услуги размещает оборудование клиента в своем дата-центре, подключает его к электричеству, обеспечивает обслуживание и подключение к каналам связи с высокой пропускной способностью[4].
Данная услуга востребована, так как для поддержания инженерной инфраструктуры ЦОД неспециализированной ИТ-компании потребуется достаточно большое количество непрофильных для нее процессов и специалистов, таких как электрики, механики и т. д.
По построению инфраструктуры и организации эксплуатации ЦОД условно можно разделить на три категории:
• Корпоративные ЦОД. Для внутренних ИТ-нужд организаций.
• Гиперскейл-ЦОД[5], дата-центры крупных интернет-компаний, мировых лидеров ИТ-индустрии.
• Колокейшн-провайдер ЦОД[6]. Коммерческие дата-центры.
Корпоративные ЦОД в большинстве случаев относительно просты по уровню резервирования и обслуживания. Круг решаемых задач очевиден и формулируется заранее, что позволяет выбрать, например, однотипное оборудование с низкими требованиями к параметрам окружающей среды. У таких ЦОД лишь один внутренний клиент, с которым достаточно просто договориться об остановке ЦОД для проведения каких-либо работ. Естественно, есть корпоративные ЦОД, отказ которых может быть видимым для всех, и к таким ЦОД предъявляются самые жесткие требования по инженерной структуре и бесперебойной работе. Но обычно это характерно лишь для достаточно крупных организаций, а в остальных случаях корпоративный ЦОД – просто «серверная комната».
Гиперскейл-ЦОД – гипермасштабируемые ЦОД, зачастую имеют меньшее резервирование компонентов инженерной инфраструктуры, так как падение ЦОД может быть компенсировано другими ЦОД этой же организации, что значительно удешевляет строительство ЦОД при мощности в сотни мегаватт. Такие ЦОД могут позволить себе использовать специально заказанное у вендора ИТ- и телеком-оборудование, способное работать в гораздо более широких температурных диапазонах с очень низкими запросами к внешней среде (например, нормальная температура эксплуатации до +40 °C без требований к уровню влажности), позволяя упростить системы охлаждения и требования к ним.
Колокейшн-провайдеры – компании, предоставляющие места в своих ЦОД для коммерческих клиентов. Тут применяются наиболее жесткие требования по беспрерывной работе и температурно-влажностным режимам по причине того, что диапазон размещаемого оборудования может быть очень широк по своим эксплуатационным параметрам и ЦОД должен соответствовать самым жестким требованиям. Для колокейшн-провайдеров характерны дополнительные специфические аспекты, которые требуют четкой регламентации, например наличие службы физической безопасности и отдела поддержки клиентов.
Соответствие сертификационным стандартам и действующим нормам
Для ЦОД, особенно коммерческих, важно соответствие международным стандартам. В данном случае мы будем говорить только о тех стандартах или частях стандартов, которые относятся к службе эксплуатации ЦОД, не затрагивая аспекты строительства инфраструктуры, безопасности и т. д. Даже если вы не проходите официальную сертификацию, существуют еще и внутренние аудиты от клиентов ЦОД или внутренних служб, которые должны удостоверять, что эксплуатация выстроена правильно. Таким образом, целесообразно оценивать свою деятельность именно по существующим стандартам.
Для этого мы рассмотрим основные зарубежные и отечественные стандарты и нормативные документы, регламентирующие операционную деятельность ЦОД.
Uptime Institute Tier Standard: Topology (TS: T)
Стандарт американской консалтинговой компании Uptime Institute знаменит тем, что именно в нем излагается разработанная компанией и ставшая широко известной по всему миру классификация ЦОД по четырем уровням надежности (Tier), многократно повторенная позже в других стандартах.
Поскольку мы по ходу изложения будем упоминать эти уровни, напомним читателю об их сути и принципиальных отличиях.
• Tier I предполагает наличие базового набора элементов, позволяющего ЦОД выполнять свои функции;
• Tier II подразумевает наличие резервирования активных компонентов инфраструктуры (ДГУ, ИБП, чилеры, внутренние блоки системы кондиционирования и пр.);
• Tier III определяется такой топологией, которая позволяет проводить плановое обслуживание систем и любых их компонентов без прерывания работы ЦОД;
• Tier IV обеспечивает работоспособность ЦОД при любом единичном отказе в любой точке инфраструктуры.
С точки зрения эксплуатации ЦОД, Tier I и Tier II предполагают вынужденные остановки ЦОД на обслуживание, в то время как Tier III и Tier IV позволяют выполнять все необходимые работы по обслуживанию ЦОД без прерывания сервисов. Это обстоятельство, наряду со сравнительной простотой реализации ЦОД уровня Tier III по сравнению с Tier IV, обуславливает широкое распространение ЦОД уровня Tier III как в России, так и за рубежом.
Однако данный стандарт, излагая классификацию и принципы реализации ЦОД всех четырех уровней, никак не затрагивает подходы к эксплуатации и техническому обслуживанию ЦОД. Они описаны в другом стандарте Uptime Institute, о котором мы говорим далее.
Uptime Institute Tier Standard: Operational Sustainability (TS: OS)
На наш взгляд, это наиболее полный по содержанию документ, в общих принципах описывающий все аспекты эксплуатации ЦОД. Стандарт состоит из трех разделов: 1) Management and Operations («Управление и эксплуатация»); 2) Building Characteristics («Характеристики здания»); 3) Site Location («Место расположения здания»).
Первый раздел затрагивает следующие категории:
• подбор персонала и организация работ;
• обслуживание;
• обучение;
• планирование, координация и управление;
• условия эксплуатации.
Выполнение только первого раздела дает аттестацию Management and Operations (M&O), проводимую Uptime Institute. Второй и третий разделы требуются для прохождения полноценной сертификации Operational Sustainability («Эксплуатационная устойчивость») как завершающей части еще двух сертификаций: Design Documentation («Проектная документация») и Constructed Facility («Построенный объект»).
Второй раздел стандарта – Building Characteristics – также содержит требования к приемо-сдаточным испытаниям оборудования, что является неочевидным с точки зрения регламентирования этого требования. Наличие раздела Site Location также вызывает вопросы, так как на этапе оценки эксплуатационной устойчивости уже поздно оценивать само здание, хотя и можно учесть существующие риски природного, техногенного и антропогенного характера.
В данном стандарте не рассматриваются вопросы безопасности труда, пожарной защиты и физической безопасности.
Причина отсутствия регламента пожарных систем и безопасности труда у Uptime Institute достаточно логична – слишком много внутренних регуляторных документов внутри каждой страны для создания единого стандарта. По физической безопасности, вероятно, и так есть значительное количество других, профильных регламентирующих стандартов.
Можно утверждать, что при выполнении требований первой части стандарта (Management & Operations) в полном объеме бóльшая часть документов, описанных в этой книге, будет у вас готова в той или иной степени автоматически.
Следует также отметить, что стандарт описан достаточно общими понятиями, и это затрудняет его внедрение без специальной подготовки и консультаций, получения примеров и наработок из внешних источников.
EN50600 Information Technology – Data Centre Facilities and Infrastructures
Это группа стандартов от СENELEC[7] – Европейского комитета электротехнической стандартизации. EN в наименовании стандарта обозначает Europäische Normung (нем. «европейские нормы»). Тексты стандартов EN50600 рассматривают различные аспекты построения и эксплуатации ЦОД; непосредственно к эксплуатации в EN50600 относится часть 3–1, называемая Management and Operational Information.
Помимо вопросов, связанных с организацией эксплуатации и общих с предыдущим стандартом, в EN50600–3–1 немалое внимание уделено вопросам построения инфраструктуры, а значительная часть стандарта посвящена оценкам энергоэффективности (в соответствии с «зеленой» европейской повесткой) и содержит много информации по расчетам различных видов энергоэффективности, из которых нам традиционно знаком только PUE (Power Usage Effectiveness). В этом же стандарте мы можем увидеть расчеты не только PUE или WUE (Water Usage Effectiveness[8]), но и экзотические для нас REF (Renewable Energy Factor[9]) или CUE (Carbon Usage Effectiveness[10]).
В отличие от Uptime Institute, этот стандарт достаточно подробно рассматривает системы физической безопасности и организацию противопожарных систем.
В целом документ можно иметь под рукой как дополнительный чек-лист для самопроверки при подготовке эксплуатации ЦОД, так как здесь отражено то, что должно быть сделано, но не даются ответы на вопрос «как?».
ANSI/BICSI 002–2019 Data Center Design and Implementation Best Practices
Это стандарт, выпущенный в США профессиональной ассоциацией BICSI (The Building Industry Consulting Service International Inc., Международная консалтинговая служба в строительной отрасли) и аккредитованный Американским национальным институтом по стандартизации (ANSI).
Строго говоря, этот документ является не стандартом как таковым, а, как следует из его названия, best practices, то есть сборником методических указаний на основе практического опыта участников ассоциации BICSI. Этот американский отраслевой стандарт периодически упоминается в различных статьях. В основном он посвящен построению инфраструктуры ЦОД, хотя в нем есть и раздел, посвященный эксплуатации ЦОД. Ничего дополнительного по сравнению с вышеперечисленным этот стандарт не дает.
BICSI 009-2019 Data Center Operations and Maintenance Best Practices
Чтобы полноценно осветить область управления и обслуживания ЦОД, BICSI выпустила стандарт 009. Этот документ уже непосредственно относится к эксплуатации ЦОД и рекомендуется к изучению теми, кто в этот процесс вовлечен. Внимание уделено не только повседневной жизни ЦОД – безопасности труда, хранению материалов, техническому обслуживанию, ведению документации, – но и другим, не менее важным аспектам жизнедеятельности ЦОД: организации физической безопасности, сервис-менеджменту, процессам для руководства ЦОД и пр. Отметим, что стандарт содержит достаточно конкретные указания и его можно использовать при организации процессов обслуживания ЦОД.
Тем не менее полным и всеобъемлющим этот стандарт также назвать нельзя. Например, из всего набора документации ЦОД в нем подробно описываются только процессы, связанные с аварийными процедурами, другая необходимая документация не указана. Очень подробно описаны процессы управления изменениями, хотя это область общеприменимого сервис-менеджмента, которую рассматривают и другие стандарты. Виртуализация и кибербезопасность, упоминаемые в стандарте, также излишни для подобного документа.
EPI DCOS Data Center Operations Standard 2021
Стандарт, выпущенный отраслевой консалтинговой организацией EPI (Enterprise Products Integration). Представляет краткое описание процессов, которые должны быть организованы в ЦОД. Описание достаточно условное и по большей части ориентировано на процессы верхнего уровня – для менеджмента, без конкретных деталей. Стандарт можно использовать как общее описание процессов, которое хорошо сочетается с обучающими курсами (CDFOM – Certified Data Center Facilities Operations Manager, CDCS – Certified Data Center Specialist и др.) от этой же организации, содержащими много конкретных деталей и мелочей по каждому из пунктов.
ISO/IEC TS 22237–7:2018 Information technology – Data centre facilities and infrastructures – Part 7: Management and operational information
Разработка Международной организации по стандартизации (The International Organization for Standardization, ISO[11]), посвященная вопросам строительства инфраструктуры ЦОД. Состоит из семи частей, каждая из которых относится к отдельному направлению построения ЦОД: общая концепция, строительство здания, распределение питания, климатика, телекоммуникации, безопасность и информация для менеджмента и управления. Интересующие нас процессы, связанные с организацией эксплуатации, находятся в последнем разделе. По содержанию практически полностью дублирует EN50600–3–1, описанный ранее[12].
ГОСТ Р ИСО 9001–2015 / ISO 9001–2015 Quality Management
Стандарты ISO выпускаются Международной организацией по стандартизации (The International Organization for Standardization, ISO) и имеют применение по всему миру. В частности, стандарт ISO 9001 был локализован и выпущен Росстандартом как российский государственный стандарт (ГОСТ Р).
Стандарт ISO 9001 «Система менеджмента качества» особенно распространен в производственном секторе и для индустрии ЦОД не является профильным. Тем не менее достаточно многие требования стандарта применимы и здесь.
В данном стандарте мы находим много общего с требованиями TS: OS от Uptime Institute, например:
• Раздел «Цели в области качества и планирование их достижения» можно отнести к контролю функционирования ЦОД в рамках KPI и других параметров жизнедеятельности, к постановке целей менеджменту по достижению и контролю задач.
• Раздел «Обеспечение» регламентирует наличие персонала, необходимой инфраструктуры, ресурсов для мониторинга параметров качества. Тут мы вспоминаем отчетности, BMS, датчики систем и т. д. Также регламентируется наличие базы знаний, доступной всем на объекте и регулярно обновляемой.
• В разделе «Компетентность» указаны требования к квалификации – точно так же, как и в требованиях TS: OS.
• Отдельный раздел посвящен ведению и обновлению документации и управлению ею. Это важный момент, ему уделяется одинаково много внимания как в зарубежных стандартах, так и в отечественных регламентах.
• Важный момент в 9001 – контроль выполнения качества работ поставщиками. Это одна из основных задач команды эксплуатации ЦОД.
• Естественно, требуются постоянное улучшение практик, выявление несоответствий и корректирующие действия.
• Как и в других стандартах ISO, требуется наличие регулярных внутренних аудитов, что действительно полезно для поддержания уровня компетентности сотрудников.
Можно сказать, что выполнение требований ISO 9001 хорошо дополнит стандарт TS: OS, так как здесь есть детальные указания по документации, работе с поставщиками и несоответствиями. Немаловажен и значительный объем совпадений с требованиями российской нормативной документации, необходимой для функционирования ЦОД.
ГОСТ Р ИСО/МЭК 27001–2021/ISO 27001:2021 Information Security
Стандарт ISO 27001 «Информационная безопасность», на первый взгляд, к эксплуатации ЦОД применим мало. Традиционно этот стандарт, рассматривающий ИТ-безопасность и физическую безопасность, понимают как сборник требований, направленных на безопасность носителей информации и самой информации. На самом деле действие стандарта распространяется гораздо шире, в том числе и относительно эксплуатации.
Для понимания, почему информационная безопасность (ИБ) относится и к жизнедеятельности ЦОД, вспомним о том, что и понятие информационной безопасности, и оценка рисков исходят из трех составляющих CIA:
С – Confidentiality. Конфиденциальность, секретность. То, что обычно и связывают с информационной безопасностью.
I–Integrity. Целостность. Тут мы можем рассматривать как традиционное для ИБ резервное копирование, которое нужно проверить на корректность восстановления, так и целостность оборудования (физическая сохранность, отсутствие повреждений, работоспособность) ЦОД, которая должна обеспечиваться различными способами.
A – Availability. Доступность, или готовность. ГОСТ 27.102–2021 «Готовность (объекта): способность объекта выполнять требуемые функции в заданных условиях, в заданный момент или период времени при условии, что все необходимые внешние ресурсы обеспечены».
Для ЦОД это ключевое понятие, и именно оно позволяет утверждать, что этот стандарт имеет отношение к эксплуатации ЦОД, – вся его суть направлена на обеспечение максимальной доступности.
Помимо разделов, перечисленных в ISO 9001 и общих для всех стандартов по управлению осведомленностью, коммуникациями, документацией, анализом менеджмента и непрерывному улучшению, в ISO 27001 можно выделить следующие разделы:
• оценку рисков информационной безопасности. Для нас особо важны аспекты I и А;
• управление активами. Наличие и актуализация как складов, так и установленного оборудования имеет важное значение для ЦОД;
• оборудование. Размещение и защита оборудования, обслуживание оборудования, его утилизация. Один из подпунктов, «Служба обеспечения», гласит, что «оборудование должно быть защищено от перебоев в электроснабжении». Как мы видим, это уже напрямую описывает работу таких объектов, как ЦОД;
• отношения с поставщиками. Для ЦОД особенно важны безопасные отношения с поставщиками услуг, электроэнергии, топлива, подрядчиками по выполнению ТО. Безопасность тут может быть различная, от заключаемых SLA до наличия складов ЗИП на объектах;
• непрерывность информационной безопасности. Здесь мы опять вспоминаем про ключевой для ЦОД параметр Availability и всю деятельность службы эксплуатации, направленную на непрерывность работы ЦОД. В рамках этого стандарта традиционно подразумевается DRP (Disaster Recovery Plan[13]), но, если идти дальше, это будут также и тренировки, и документы по устранению аварийных ситуаций, и различные схемы резервирования оборудования.
ГОСТ Р ИСО 22301–2014 / ISO 22301:2019 Business Continuity
«Управление непрерывностью бизнеса» – по названию наиболее подходящий под деятельность ЦОД стандарт ISO. После выполнения требований предыдущих двух стандартов имеет совсем немного добавлений, тем не менее важных для обеспечения непрерывности работы ЦОД.
Что добавилось сейчас, помимо вышеперечисленных общих частей?
• В Политике непрерывности бизнеса задекларировано, почему и каким образом мы будем защищаться от перерывов в работе (с точки зрения ЦОД основные риски – энергетика, охлаждение и т. д.).
• Оценка рисков организации уже требовалась для ISO 27001; здесь к ней добавляется Business Impact Analysis[14]. Что это дает с точки зрения эксплуатации? Например, у нас заканчивается мощность ДГУ, но они дорогие и нарастить их число в короткий срок невозможно. Вы вынуждены использовать резервный ДГУ в качестве основного. К чему может привести потеря резерва? Во время прерывания подачи электроэнергии на объекте и выхода из строя одного из ДГУ не будет достаточной мощности, чтобы поддержать ЦОД. Тут можно сопоставить стоимость дополнительной ДГУ и ту сумму штрафов, что мы заплатим за нарушение SLA, и понять, что приведет к большим затратам. Далее мы принимаем соответствующее решение: возможно, экономически целесообразнее будет иногда падать, то есть допускать отключение нагрузки.
• Также в стандарте описано, как реализовывать стратегию непрерывности работы. Все это будет являться составными элементами в ходе технического обслуживания, аварийных тренировок и деятельности по эксплуатации ЦОД в целом. Стандарт оперирует понятиями Business Continuity Plans[15], но это могут быть как DRP, так и противоаварийные мероприятия, сценарии и тренировки по пожаротушению, альтернативные контракты с поставщиками критических ресурсов и т. д.
• Добавлен раздел «Восстановление», касающийся действий после наступления каких-либо критических ситуаций.
• Раздел учений и тренировок. Ранее он не был выделен, но в этом стандарте он играет немаловажную роль. Значимость тренировок подчеркивается везде, особенно в TS: OS от Uptime Institute.
В целом, если вы планируете сертифицироваться по всем процессам в соответствии со стандартами ISO, мы бы предлагали делать это именно в приведенной последовательности, так как с каждым разом объем наработок, накопленных с прошлыми стандартами, будет все больше.
Правила технической эксплуатации электроустановок потребителей (ПТЭЭП)
Важный нормативный документ, содержащий множество ранее перечисленных аспектов организации эксплуатации оборудования, аналогичных по своим требованиям международным стандартам.
Правила по охране труда при эксплуатации электроустановок (ПОТЭЭ)
Этот документ помогает организовывать процессы безопасной работы с персоналом ЦОД и подрядчиками в соответствии с требованиями российского законодательства. Он также имеет множество совпадений с требованиями международных стандартов.
В процессе нашей работы мы проходили множество внутренних и внешних аудитов, как международных сертификаций, так и проверок локальными инспекторами Ростехнадзора, и в результате отметили много общего в требованиях различных документов. Хотя они сформулированы несколько по-разному, но суть того, что хотят увидеть аудиторы, – одна. Мы пришли к выводу, что было бы очень удобно создать одну универсальную экосистему документации, позволяющую проходить любые применимые аудиты, от Ростехнадзора до Uptime Institute. Как это возможно? Мы приведем пример далее, разбирая, насколько схожи требования Uptime Institute и ПТЭЭП\ПОТЭЭ.
Соответствие Tier Standard: Operational Sustainability и Правил технической эксплуатации электроустановок потребителей (ПТЭЭП)
Как мы уже упомянули выше, требования действующих в России норм и правил часто полностью совпадают с требованиями сторонних стандартов. В большинстве случаев их можно объединить и выполнить одновременно.
На некоторые критические системы ЦОД нормы не распространяются (так называемые неподназдорные системы). Несмотря на это, в ЦОД огромный объем действительно критических факторов для обеспечения непрерывности оборудования. Поэтому далее по тексту книги мы будем постоянно переносить требования норм к электрооборудованию на все критическое оборудование, например на системы охлаждения.
Давайте осмыслим, адаптируем и применим такие требования ко всем критическим системам ЦОД.
Например, по ПТЭЭП (пункт 1.4.5.2) для допуска нового дежурного электрика к работе ему необходимо пройти:
• вводный/первичный инструктаж;
• стажировку в дневные часы под контролем опытного сотрудника[16];
• дублирование функций дежурного в смену под контролем опытного дежурного;
• проверку знаний (аттестацию) и получение допуска к самостоятельной работе;
• оформление всего вышеперечисленного приказами.
Давайте ответим на вопрос: с точки зрения надежности ЦОД чем дежурный электрик отличается от дежурного сотрудника, отвечающего за системы охлаждения (дежурный механик), или дежурного сотрудника, отвечающего за СКС (дежурный по ИТ/телеком-системам), или даже охранника, отвечающего за доступ в машинный зал ЦОД посетителей? Ответ: ничем. Ошибка любого из них может быть фатальной с точки зрения SLA.
Следовательно, к этим сотрудникам применимы аналогичные процессы предоставления допуска к самостоятельной работе. При этом в отношении электрика мы выполняем требования и норм, и стандартов, в отношении остальных – только требования стандартов.
Такой подход мы применяем к любым системам ЦОД. Читаем нормы и заменяем в них «электрооборудование» на «критическое оборудование». В итоге, во-первых, решается важная задача: пропадает необходимость ведения двойной документации – одной для Uptime Institute, второй для Ростехнадзора и пр.; во-вторых, применяется единый подход для всех остальных подразделений службы эксплуатации.
Давайте сравним, насколько похожи требования современного международного стандарта TS: OS от Uptime Institute и отечественных, вроде бы несовременных, существующих со времен СССР правил ПТЭЭП и ПОТЭЭ (Таблица 1). Для нас было удивительно при пошаговом сравнении увидеть столько совпадений.
Таблица 1
Сравнение требований современного международного стандарта TS: OS от Uptime Institute и отечественных правил ПТЭЭП и ПОТЭЭ
Мы видим множество совпадений, хотя и описанных по-разному, но имеющих одну суть. Кроме того, в обоих документах большое внимание уделено подготовке и допуску нового персонала к работе, что подчеркивает важность этого процесса. В отличие от стандарта TS: OS, в пунктах ПТЭЭП (1.4.11 и 1.4.14) указаны конкретные сроки подготовки, например четкие цифры длительности стажировок персонала. Процесс дублирования и стажировки в итоге занимает в сумме от 4 до 26 смен (стажировка 2–14 смен, дублирование 2–12 смен). При сменном режиме работы сутки через трое обучение нового сотрудника может занимать до 3 месяцев, хотя мы и не советуем так делать ввиду длительности процесса. В спорных ситуациях, например при аудитах и сертификации, рекомендуем использовать эти данные.
Также ПТЭЭП уделяет особое внимание разделу документации, повторяя эти требования почти в каждом разделе.
Основные отличия TS: OS от ПТЭЭП состоят в рассмотрении клининга и финансовых процессов, что обуславливается ориентацией первого из документов на ЦОД.
В целом, как видно из таблицы, ПТЭЭП практически совпадает в требованиях с TS: OS, что говорит о единстве требований в мировой практике. Мы рекомендуем рассматривать требования норм и проверку Ростехнадзора как одну из разновидностей сертификации и аудита, критически важную для ЦОД, но не противоречащую мировым практикам. Как мы писали выше, локальные нормы и правила должны стать базой для создания документации по лучшим практикам.
Еще раз отметим, что создание рекомендуемого нами объема документации позволит вам исполнить требования как отечественных норм и правил, так и многих международных стандартов.
В процессе создания и ведения документации самое главное – понимать, что инженеры ЦОД должны не только владеть знаниями о технологиях и оборудовании, используемых в ЦОД, но и знать принципы организации процессов и базовой документации ЦОД. Они должны иметь информацию, где находится документация, как ее применять, постоянно обновляя и совершенствуя свои знания. Это достигается регулярным обучением, тренировками и проверками знаний (аттестацией). Только в этих случаях риски отключений в ЦОД, вызванных человеческим фактором, будут сведены к минимуму.
Когда будет организована система документации на критические системы, ничто не мешает пойти дальше и построить аналогичные алгоритмы для других, уже некритических действий и систем, в итоге получив законченный комплекс эксплуатационной деятельности ЦОД.
Потребители (клиенты) услуг ЦОД и уровень SLA
Это важный вопрос для определения концепции будущего ЦОД и, следовательно, принципов построения службы эксплуатации.
Если в случае коммерческого ЦОД уровень предоставляемой клиенту услуги очевиден и зафиксирован в договоре, то в случае корпоративного ЦОД зачастую бывает так, что текущие требования потребителя и его будущие потребности заранее не определены.
В рамках консультационной практики у нас был пример, когда одна финансовая организация, не рассматривающая перемещение мощностей своих ЦОД на коммерческую площадку, хотела организовать внутренние процессы по стандарту TS: OS – Tier Standard: Operational Sustainability[17].
В ходе первичных консультаций при определении объемов задач и текущей ситуации в организации выяснилось, что внутренние требования к ЦОД своих же внутренних клиентов – ИТ-отдела – никак не зафиксированы и даже не определены, а существуют на уровне «должно работать». Более того, люди, которым поставлена задача привести эксплуатацию ЦОД в соответствие со стандартом TS: OS, слабо ориентируются в подразделениях компании, являющихся их внутренними заказчиками. Соответственно, оказалось невозможным как выстроить концепцию функционирования ЦОД и службы эксплуатации, так и определить объем и квалификацию персонала, который требовался для работы ЦОД.
Какие из этого проистекают проблемы для проектировщиков и службы эксплуатации:
• Если мы не знаем, допускает ли ЦОД технологические перерывы в работе и какова приемлемая длительность таких перерывов, мы не можем оценить достаточность уровня резервирования инфраструктуры.
• Если мы не знаем логику работы приложений, то мы также не можем оценить достаточность уровня резервирования инфраструктуры, ведь организация, имея два ЦОД, вполне может использовать их как основной и резервный. При такой схеме в случае аварии в одном из ЦОД используется другой, обладающий репликами[18] приложений.
• Мы не можем понять, какая численность службы эксплуатации требуется, так как непонятно, нужно ли держать инженеров на объектах 24 × 7.
• Не зная требований к непрерывности, мы не можем понять требования к подрядчикам по обслуживанию сложных и критических узлов инженерной инфраструктуры, установить сроки реагирования на неисправности, установить количество необходимого ЗИП[19] на складе.
Во избежание всех указанных проблем и неясностей во взаимодействии необходимо определить, сформулировать и зафиксировать уровень сервиса между ЦОД и клиентом, внутренним или внешним.
Соглашение об уровне обслуживания (SLA) и его важность
Теперь Вам стала понятна важность определения уровня сервиса между ЦОД и клиентом. Для этого требуется составление и проведение формальных процедур принятия обеими сторонами документов, называемых SLA или OLA.
SLA (Service Level Agreement), соглашение об уровне услуг, – это документ, характерный прежде всего для ЦОД колокейшн-провайдера, заключаемый между заказчиком и исполнителем, описывающий параметры предоставляемой услуги или сервиса.
SLA с клиентом чаще всего характеризуется требованиями к параметрам окружающей среды, указанным производителями оборудования и используемым клиентами ЦОД. Эти параметры необходимо учитывать в максимально широком диапазоне, чтобы иметь возможность эксплуатировать оборудование с более строгими параметрами по температуре и влажности.
Также существует OLA (Operational Level Agreement), соглашение об уровне операционного обслуживания, – аналогичный SLA внутренний документ компании, определяющий параметры услуги, оказываемой друг другу внутренними подразделениями компании.
• При соотнесении требований этих документов важно учитывать три аспекта:
• требования к любым SLA должны быть более жесткими по сравнению c OLA;
• требования к SLA ваших подрядчиков и поставщиков услуг должны быть более жесткими или как минимум равными с SLA, заключенными вами с клиентом;
• в договорах с подрядчиками и поставщиками услуг необходимы санкции за нарушение SLA, симметричные санкциям от клиентов ЦОД.
Если данные условия не соблюдаются, это может приводить к негативным событиям. Например, согласно SLA ваш поставщик услуг связи может допускать перерыв в предоставлении услуг на два часа в месяц без санкций, а по SLA с вашим клиентом допусти́м перерыв лишь в один час; это означает невозможность выполнения условий контракта с клиентом вашего ЦОД.
Отделы внутри компании также взаимозависимы и используют внутренние сервисы, параметры которых должны быть описаны. Важность наличия внутренних задокументированных взаимоотношений с разными отделами трудно переоценить. Несмотря на этот, казалось бы, формализм подхода, у вас будут четкие критерии того объема работы и уровня сервиса, который вы предоставляете другим. Информация не останется на уровне «договоренностей в почтовой переписке» между сотрудниками компании, которые могут ее покинуть и не оставить следов договоренностей. Также, опираясь на задокументированные условия OLA, можно обосновать те или иные затраты на резервирование и уровень обслуживания вашей инфраструктуры.
Например: для корпоративного ЦОД планировалась установка сетевого оборудования одного из вендоров. Выяснилось, что данному оборудованию присущи технологические особенности, а именно – подача охлаждающего воздуха к нему осуществляется от одной боковой стороны к другой, а также низкая температурная устойчивость: при 35 °C уже фиксировался перегрев. Эксплуатационной команде ЦОД пришлось не только демонтировать все боковые стенки уже установленных стоек холодных коридоров, но и понижать температуру подаваемого холодного воздуха до минимально возможной в 16 °C, чтобы сохранить температуру в пределах рабочего диапазона этого сетевого оборудования.
Для ЦОД крайне важно понимать требования SLA с клиентами и, исходя из них, иметь определенные зафиксированные SLA с поставщиками, так как это напрямую влияет на жизнеспособность ЦОД. SLA с поставщиками должны давать возможность ЦОД обеспечить SLA перед клиентами. Поэтому важно иметь фиксированные и прозрачно измеряемые метрики, по которым клиенты могут оценить качество и непрерывность предоставляемых им сервисов ЦОД.
В контексте данной книги мы не будем рассматривать все составляющие SLA между клиентом и ЦОД, так как это в основном коммерческие вопросы. В любом случае в SLA будут присутствовать требования о непрерывности подачи электроэнергии в каком-либо виде, допустимые диапазоны температуры и влажности. Так как это коммерчески значимая информация, все цифры должны иметь различные инструментальные источники подтверждения параметров, указанных в SLA (BMS[20], поверенные средства измерения и т. д.).
Основные параметры SLA для ЦОД
Обрисуем параметры SLA по отдельности.
1. Подача электроэнергии
Очевидно, что электропитание – самый критичный параметр, который требуется обеспечивать службе эксплуатации. Его потеря или даже ухудшение параметров на доли секунды приводит к отключениям.
Например: в одном из крупных ЦОД были установлены слишком широкие параметры ИБП по допустимому диапазону частоты (50 ± 4 Гц). Это не было отслежено на этапе ПНР, и в итоге при частоте ниже 47 Гц у клиентов стало перезапускаться оборудование при сохранении электропитания в стойке. Сложность выявления этой проблемы заключалась в том, что не все оборудование реагировало на изменения частоты, что не позволяло однозначно идентифицировать проблему на стороне инженерной инфраструктуры ЦОД.
В зависимости от коммерческих условий процент непрерывности подачи электроэнергии может быть разным. Также могут существовать дополнительные условия, по которым предусмотрена ответственность за работу только одного ввода питания или обоих (если вводов питания два).
Тем не менее есть важные моменты, которые службе эксплуатации следует учитывать в любом случае: даже если вы имеете договорные отношения с клиентом о том, что вы обеспечиваете непрерывность только одного ввода из двух (а это стандартное условие для большинства ЦОД), то в случае неверно организованных клиентом подключений внутри стойки с неправильным распределением парных нагрузок часть оборудования может отключаться. Это вызовет негативную реакцию клиентов на работу ЦОД, несмотря на то, что юридически вы будете правы.
Во избежание этого мы рекомендуем:
• проводить информирование клиентов о способах правильного подключения. В качестве соответствующих мер можно предложить размещение информационных плакатов в машинном зале, проведение совместных аудитов подключений с электриком ЦОД;
• обеспечить проактивный мониторинг обычных и парных нагрузок на PDU. Это позволит информировать об угрозе ошибки при приближении к критическим параметрам.
2. Температура
Температура не так критична, как электропитание, и незначительные ее колебания не приведут к немедленной остановке работы ИТ- и телеком-оборудования. Тем не менее это также важнейший параметр ЦОД, зафиксированный в SLA с клиентом.
Традиционно для России и СНГ клиент ЦОД видит этот параметр в пределах температуры 22 ± 2 °C. В современных реалиях производители серверного оборудования расширяют диапазоны приемлемых температур, и этот параметр теоретически может быть увеличен до 26 ± 2 °C. Для его изменения следует избавиться от всего серверного и телекоммуникационного оборудования, требующего прежних параметров, и обновить SLA/OLA в договорах с клиентами.
Так, например, все европейские ведущие колокейшн-провайдеры уже несколько лет работают в новых диапазонах. Это, разумеется, ведет к экономии средств, затрачиваемых на охлаждение, что в пересчете на десятки и сотни мегаватт складывается в весьма значительные суммы.
На наш взгляд, российский консерватизм имеет исторические корни, следуя традиции использования «из поколения в поколение». Зачастую сами клиенты ЦОД не представляют, почему им необходимы именно эти параметры, – они это где-то слышали, прочитали и т. п.
Если посмотреть на эволюционные изменения температур от ASHRAE[21], можно понять, что когда-то это было действительно актуально, но за прошедшие годы изменилось практически все, кроме сознания людей.
Сравнение версий рекомендованных параметров воздуха от 2004, 2008/2011, 2015 и 2021 гг.
Даже если технически возможно повысить температуру охлаждающего воздуха, раз вы представляете коммерческий ЦОД, вы должны будете учитывать настроения клиентов, которые могут выбрать другого провайдера только потому, что «у него холоднее».
С точки зрения службы эксплуатации также лучше тем или иным способом обеспечить более низкую температуру для ИТ-оборудования, так как у вас будет больше времени на реакцию и предотвращение аварий, вызванных перегревом оборудования. В любом случае необходимо помнить о балансе между экономикой и эксплуатацией.
3. Влажность
Влажности уделяется традиционно меньшее внимание. Все знают, что при низкой влажности в зимнее время есть риски повреждения оборудования статическим электричеством. Но это теория, а на практике ЦОД с антистатическими фальшполами и работающим заземлением – не то место, где накапливается статика.
С высокой влажностью борются еще меньше: считается, что система кондиционирования осушает воздух и влажность не может достигнуть пределов, опасных для оборудования. Тем не менее также не стоит доводить влажность до крайних значений.
Например: при запуске одного корпоративного ЦОД стояли четкие сроки начала тестовых испытаний ИТ-систем. К моменту, когда все было готово, система вентиляции и кондиционирования еще не функционировала из-за сложностей с поставками. Тем не менее было принято решение запускать ЦОД без охлаждения, так как изначальная мощность ИТ-оборудования не прогревала пространство ЦОД настолько, чтобы требовалось теплоотведение. При этом влажность была свыше 90 % – характерная для субтропического климата. Спустя несколько месяцев на серверном оборудовании, которое работало в таких условиях, стали появляться «синие экраны смерти». Опытным путем было установлено, что вследствие большой влажности произошло окисление планок памяти. Далее, после запуска систем кондиционирования и вентиляции, такого более не происходило.
На практике влажность трудно поддерживать в заданных режимах. И если вам повезло не иметь ограничений данного параметра в SLA – просто избегайте экстремальных значений в обе стороны, руководствуясь теми же современными требованиями ASHRAE.
Если же в SLA указаны параметры влажности – надо стремиться их соблюдать. Зимой помогают пароувлажнители, летом влага конденсируется на теплообменниках кондиционеров и происходит осушение воздуха. Если на улице экстремальные условия и возможностей системы кондиционирования недостаточно, то остается одно – выключить приточную вентиляцию. К этому способу прибегают нечасто, но он помогает вернуть показатели влажности в рамки SLA, хотя и в ущерб свежести воздуха в серверном помещении.
Определение параметров SLA
При определении параметров SLA следует учитывать сроки реакции ваших поставщиков (например, сервисных компаний, провайдеров) на какое-либо аварийное событие, то есть время реакции поставщика в SLA должно быть меньше времени возможного прерывания сервиса ЦОД для клиента.
На практике это фактически нереально из экономических соображений: чем короче сроки реакции, тем выше стоимость сервисного контракта. Можно даже организовать круглосуточные службы поддержки поставщиками на площадке ЦОД с проживанием, но это приведет к невероятной стоимости контракта.
Что делать в этом случае? Предотвращать возможные проблемы различными компенсирующими мерами.
Например: SLA с компанией, осуществляющей ремонт ИБП, оговаривает срок прибытия в ЦОД в пределах 4 часов, а восстановления – не более 8 часов. У вас выходит из строя один из ИБП, и один из вводов остается без гарантированного питания от ИБП. Какие меры может предпринять служба эксплуатации своими силами, чтобы обеспечить бесперебойную работу в таких условиях?
• Заранее определить компоненты, способные выйти из строя, и иметь их на складе в ЦОД.
• Запустить ДГУ на 8 часов, то есть на максимальное время восстановительных работ по SLA, чтобы второй ввод имел гарантированное питание до момента устранения неисправности.
• Заранее обучить персонал работе с оборудованием и провести тестовые тренировки по ликвидации аварийных ситуаций.
• Применять типы ИБП, позволяющие заменять узлы модулями в горячем режиме, без необходимости отключения оборудования, силами дежурной смены (без выезда сервис-инженера) для экономии средств и времени.
Разумеется, эти действия потребуют подготовительной работы руководителей службы эксплуатации. Но тем самым грамотно и спланированно, при сохранении высокого уровня доступности будет достигнута значительная экономия бюджета – по сравнению со стоимостью контракта с вендором/поставщиком на поддержку такого же уровня.
Служба эксплуатации ЦОД
Прежде всего мы должны установить и определить, что такое служба эксплуатации ЦОД.
Служба эксплуатации – это ключевое структурное подразделение ЦОД, команда которого, эксплуатируя инженерное оборудование и системы согласно действующим нормам, правилам и стандартам, обеспечивает предоставление услуг заранее определенного уровня.
Многие считают, что служба эксплуатации отвечает в ЦОД за все. Это, конечно же, не так. Служба эксплуатации отвечает за работу критически важных инженерных систем, список которых приведен в соответствующей главе. Важно понимать, что служба эксплуатации не отвечает за сети передачи данных (за исключением прокладки и коммутации кабелей) и серверное оборудование с программным обеспечением (за исключением подачи электричества и охлаждения).
Служба эксплуатации ЦОД вообще может не представлять, какие именно данные обрабатываются на серверах, размещенных в ЦОД (особенно актуально для коммерческих ЦОД), но должна понимать совместно с клиентом, что необходимо обеспечить, чтобы эти сервера работали.
Задачи службы эксплуатации ЦОД
В действующем Своде правил (СП) «Здания и сооружения. Правила эксплуатации. Основные положения» можно найти достаточно верное определение службы эксплуатации:
Служба эксплуатации зданий (сооружений) обеспечивает самостоятельно или с привлечением специализированных организаций выполнение комплекса работ по эксплуатационному контролю и обслуживанию зданий (сооружений):
• участие при вводе в эксплуатацию здания (сооружения) с правом визирования документов;
• взаимодействие с организациями, выполняющими монтажные и пусконаладочные работы…;
• поддержание эксплуатационных показателей строительных конструкций зданий (сооружений)…;
• эксплуатационный контроль и обслуживание систем инженерно-технического обеспечения…;
• круглосуточное диспетчерское обслуживание систем инженерно-технического обеспечения и коммуникаций…;
• эксплуатация производственного оборудования…;
• при необходимости создание собственной службы по обеспечению работ по устранению аварийных ситуаций и своевременный вызов аварийных служб в случае невозможности ликвидировать аварийную ситуацию собственными силами;
• исполнение нормативных актов, нормативных документов и технической документации по эксплуатации собственными силами или с привлечением сторонних организаций;
• ведение технической эксплуатационной документации, в том числе внесение изменений, возникших при эксплуатации объекта…;
• взаимодействие с подрядными организациями и контроль их работы;
• работы по уборке и благоустройству территории…[22]
Несмотря на то, что здесь описывается служба эксплуатации зданий, по своей сути ее задачи не отличаются от службы эксплуатации ЦОД. Забегая вперед, можно сказать, что тут указаны почти все аспекты деятельности ЦОД, которые будут раскрыты далее.
В свою очередь, европейский стандарт EN50600–3–1 эту же задачу выражает более емко одной фразой:
The aim… is to keep the data center at the status of normal operations[23].
Давайте попробуем сформулировать основные задачи, характерные для ЦОД:
• Предоставление потребителям услуг определенного уровня согласно SLA/OLA.
• Организация постоянно совершенствующихся процессов эксплуатации согласно действующим нормам, правилам и международным стандартам.
• Раскрытие всего потенциала инженерных систем и рациональное расходование ресурсов.
Наверняка вы можете назвать и другие задачи; ниже мы приводим аргументы, почему мы в качестве задач выбрали именно эти.
Предоставление услуг клиентам согласно SLA
Данная задача является «вершиной пирамиды» работы службы эксплуатации. Клиенты должны получать услуги с параметрами, прописанными в договоре.
Для расстановки приоритетов внутри службы эксплуатации на случай устранения нескольких одновременных инцидентов можно разделять критичность различных параметров SLA. Например, краткосрочное отключение электропитания стойки, очевидно, намного критичнее долгосрочного незначительного превышения уровня влажности, хотя с формальной точки зрения ЦОД должен предоставить именно те уровни сервиса, которые прописаны в договоре, независимо от их критичности для оборудования клиента. Именно за нарушение SLA с клиентами руководители и сотрудники службы эксплуатации ЦОД должны лишаться премий или увольняться в первую очередь, и, напротив, их нужно поощрять за отсутствие таких нарушений. Подробнее об этом написано в главах «Мотивация и KPI» и «Потребители услуг ЦОД и важность SLA».
Организация процессов эксплуатации
По действующим нормам и правилам
Это классическая задача для службы эксплуатации любого предприятия. Мы работаем в правовом поле, требующем от нас соблюдения правил электробезопасности, пожарной безопасности, охраны труда и т. п. Сотрудники должны быть обучены и аттестованы исходя из требований к эксплуатируемому оборудованию, документация должна вестись надлежащим образом. Если этого не происходит, есть риск получения законных претензий со стороны контролирующих органов, от штрафов до приостановки деятельности. Служба эксплуатации всегда должна быть готова пройти любой аудит со стороны надзорных органов.
Так как задача организации процессов службы эксплуатации согласно нормам и правилам – типовая для любого предприятия, то она должна быть на 100 % качественно выполнена службой эксплуатации, а требования норм и правил рассматриваются как необходимый минимум для безопасного и качественного построения всех остальных процессов эксплуатации.
По требованиям международных стандартов и best practice[24]
Опыт показывает, что соблюдение норм и правил – только фундамент для организации процессов. Дальше необходимо выбрать ту модель построения процессов службы эксплуатации, которая обеспечит требуемую надежность. Данная модель определяет экосистему документации и процессов, их взаимосвязь между собой. При этом важно избежать двойной документации, совместив документацию «для норм» с документацией для best practice. Служба эксплуатации всегда должна быть готова пройти любой аудит со стороны независимых аудиторов.
На данный момент общепринятой эффективной best practice моделью является Method of Procedure (MOP). Если изучить его историю, то становится понятно, что данный метод не придуман специально для ЦОД, а пришел из других, более старых объектов критической инфраструктуры, в частности, с морского флота. Далее мы очень подробно рассмотрим все аспекты этого метода.
Раскрытие всего потенциала инженерных систем и рациональное расходование ресурсов
Пункт 1.2.2 ПТЭЭП[25] обязывает: «Потребитель обязан обеспечить учет, рациональное расходование электрической энергии и проведение мероприятий по энергосбережению».
Пункт 1.5.1 ПТЭЭП гласит: «Система управления электрохозяйством Потребителя электрической энергии… должна обеспечивать: …эффективную работу электрохозяйства путем совершенствования энергетического производства и осуществления мероприятий по энергосбережению».
В распоряжении службы эксплуатации ЦОД находятся высокотехнологичные инженерные системы с заложенной в них избыточностью (резервированием). Грамотно выстроив процессы эксплуатации необходимо использовать этот, заложенный в системы, потенциал, для недопущения влияния аварий единичного оборудования на итоговый уровень SLA перед клиентами.
Любое оборудование имеет оптимальные параметры работы, при которых соблюдается баланс между эффективностью и износом. Если откинуть пафос слов о природе и глобальном потеплении, нужно просто помнить, что в руках службы эксплуатации ЦОД находится условный нагревательный прибор, мощность которого измеряется в мегаваттах. Незначительными настройками оборудования и режимов его работы, даже без влияния на надежность, можно легко варьировать мощность этого нагревательного прибора в разумных пределах. А если помнить, что таких нагревательных приборов в мире все больше и больше, то становится очевидным, что режимы работы оборудования должны быть выбраны таким образом, чтобы обеспечивать требуемую надежность, но при этом не расходовать лишнюю энергию.
Роль службы эксплуатации на различных этапах построения ЦОД
Перед началом непосредственного использования объект нужно построить, протестировать и сдать в эксплуатацию. Чтобы переход от построения ЦОД к эксплуатации был максимально гладким и организованным, а уровень сервиса – высоким с первых дней работы ЦОД, требуется участие службы эксплуатации на всех этапах создания ЦОД, начиная с написания технического задания. Надо учитывать, что служба эксплуатации не обладает таким опытом, как проектные организации, сдающие по несколько ЦОД в год, но тем не менее она определяет важные нюансы, которые улучшат или облегчат функционирование ЦОД в дальнейшем.
Поэтому крайне важно начинать формировать службу эксплуатации еще до начала работ по проектированию ЦОД, чтобы иметь свою внутреннюю команду для контроля выполнения задач проектировщиками. Эта команда будет максимально заинтересована в получении результата – ведь именно ей в дальнейшем придется эксплуатировать данный ЦОД.
Какие задачи будут выполняться на начальном этапе:
* Значение аббревиатур SCP, SOP, MOP, EOP будет объяснено далее по тексту.
Пусконаладочные работы, приемка в эксплуатацию
После того как ЦОД построен, он проходит пусконаладочные работы и приемо-сдаточные испытания, которые являются начальной точкой эксплуатации и предваряют дальнейшее повседневное управление ЦОД. Собственно пусконаладочные работы, испытания и сдача ЦОД в эксплуатацию (commissioning) состоят из нескольких достаточно широко известных этапов, которые, в частности, предлагает Uptime Institute:
1. Заводское тестирование производителем критически важного инженерного оборудования (Factory Acceptance Test, FAT, или Factory Witness Test, FWT).
Может быть проведено как в присутствии представителя команды эксплуатации, так и без него, с приложением результатов заводского тестирования к комплекту документов.
2. Получение, установка и предварительное функциональное тестирование критически важного инженерного оборудования (Installation Acceptance Test, IAT).
Получение, первичная установка оборудования, оценка комплектности и соответствия спецификации, проверка правильности монтажных работ в соответствии с проектом.
3. Функциональное тестирование, автономное тестирование критически важного инженерного оборудования и начальная конфигурация предварительного пуска системы (Component Test, CT).
Настройка и тестирование оборудования.
4. Запуск системы, ОЕМ-тестирование и индивидуальное тестирование систем (Site Acceptance Test, SAT).
Испытания конкретного оборудования по соответствующей программе, с нагрузкой и без.
5. Интегрированные эксплуатационные испытания (Integrated Site Acceptance Test, ISAT).
Комплексные испытания всех систем ЦОД одновременно на расчетную нагрузку.
Важно понимать, что все эти стадии приемки оборудования в эксплуатацию происходят не только во время начала работы ЦОД, но и при всех последующих расширениях различных систем.
Влияние службы эксплуатации на проектирование
В процессе создания ЦОД каждый должен выполнять свою роль. Часто между проектировщиками и службой эксплуатации возникают споры из-за технических решений. И на самом деле споры – это хорошо. Если люди готовы слушать аргументы, то в спорах рождается лучшее решение.
Ниже опишем некоторые часто встречающиеся примеры из нашей практики, неочевидные для проектировщиков и жизненно важные для эксплуатации и потребителей услуг ЦОД.
Требования к внешнему электроснабжению
Зачастую заказчики и проектировщики пытаются повысить надежность проектируемого ЦОД путем ужесточения требований к внешнему электроснабжению. В результате напрасно расходуется время на поиски площадки с возможностью выделения двух независимых городских вводов электричества для обеспечения первой или второй категории надежности энергоснабжения[26], при этом подключение по более высокой категории оплачивается по повышенным ставкам (технологическое присоединение по второй категории надежности будет значительно дороже по сравнению с третьей). Кроме того, срок технологического присоединения увеличится, так как для присоединения по более высокой категории потребуется больше времени на проектирование, согласование проекта в Ростехнадзоре и получение разрешительных документов. При этом подходящие площадки, имеющие только один ввод внешнего электроснабжения, отвергаются априори.
Однако если открыть стандарт Tier Standard: Topology (TS: T) компании Uptime Institute, то мы увидим в пункте 2.5, что «энергогенерирующие системы площадки (например, двигатель-генераторы, топливные элементы) рассматриваются в качестве основного источника электроснабжения ЦОД. Местная электрическая сеть является экономичной альтернативой…».
Далее, если мы обратимся к статье «Система классификации Tier: мифы и заблуждения»[27], то узнаем, что, «согласно стандарту Tier Standard: Topology, единственным надежным источником электропитания для ЦОД является генераторная установка. Это связано с тем, что электроснабжение подвержено незапланированному отключению даже в местах с надежными электросетями. Число внешних фидеров, подстанций и электросетей, к которым подключен ЦОД, не определяет его уровень Tier и никак не влияет на него. Как следствие, подключение к электросети общего назначения даже не требуется для сертификации».
К этому выводу можно было прийти и самостоятельно, просто внимательно прочитав определение категорий электроснабжения в Правилах устройства электроустановок (ПУЭ).
ПУЭ, п. 1.2.19. Электроприемники первой категории в нормальных режимах должны обеспечиваться электроэнергией от двух независимых взаимно резервирующих источников питания, и перерыв их электроснабжения при нарушении электроснабжения от одного из источников питания может быть допущен лишь на время автоматического восстановления питания.
ПУЭ, п. 1.2.20. Электроприемники второй категории в нормальных режимах должны обеспечиваться электроэнергией от двух независимых взаимно резервирующих источников питания. Для электроприемников второй категории при нарушении электроснабжения от одного из источников питания допустимы перерывы электроснабжения на время, необходимое для включения резервного питания действиями дежурного персонала или выездной оперативной бригады.
В приведенных пунктах ПУЭ мы видим две важные вещи:
А) В обоих случаях источники должны быть взаимно резервирующими, а это те источники, на которых, согласно ПУЭ, п. 1.2.10, «сохраняется напряжение в послеаварийном режиме в регламентированных пределах при исчезновении его на другом или других источниках питания», то есть резерв источников должен быть 2N. Не следует путать это резервирование с двумя линиями от одной подстанции (резерв линий 2N). Наличие резерва 2N по линиям от одного источника, например от ДГУ, вполне логично, так как позволяет обслуживать одну линию без выведения всего комплекса ДГУ из работы. Наличие двух линий от городской подстанции тоже имеет смысл, так как позволит вам не переходить на ДГУ при обслуживании одной из этих линий. Но две линии от одного источника – это все равно третья категория надежности.
Б) Время пропадания электричества равно времени ручного переключения для второй категории и времени автоматического переключения – для первой. При этом в обоих случаях пропадание допустимо и время этого переключения не нормировано, хотя, скорее всего, предполагается, что время ручного переключения исчисляется в минутах (а может, и в часах), а автоматического – в секундах, если другое явно не указано в договоре на электроснабжение. Теперь представьте себе, что электроснабжающая организация согласится добавить себе в договор дополнительные временны́е обременения и, естественно, штрафы за их неисполнение, а они равны штрафам, которые клиенты выставят ЦОД. Считаете ли вы такое развитие событий вероятным?
Подведем итог:
При любой категории внешнего электроснабжения надо понимать, что его безотказная работа находится не в вашей зоне ответственности. Другое дело – всецело принадлежащий вам источник электроснабжения (чаще всего это ДГУ). За его состояние и работоспособность несет ответственность служба эксплуатации, то есть вы сами.
Согласно Uptime Institute Tier Standard: Topology (TS: T), п. 2.5, «перебои в электрической сети (внешней) считаются не аварийной ситуацией, а ожидаемым рабочим условием, к которому площадка полностью подготовлена». Подготовить площадку к такому событию возможно путем проведения плановых работ по переключению на локальные источники генерации электричества и обратно с целью убедиться в надежной работе такого переключения. Однако, по нашему опыту, во многих ЦОД опасаются производить настоящее отключение внешнего электроснабжения для тестирования ДГУ, а следовательно, и тестирования всей энергосистемы в комплексе, считая, что такое переключение может пройти со сбоями и повлиять на сервисы, предоставляемые клиентам. Тем не менее без регулярного проведения таких полноценных запусков ДГУ быть уверенным в безотказной работе ЦОД не представляется возможным.
В результате мы видим, что, с точки зрения стандарта Tier Standard: Topology, категория электроснабжения ЦОД никак не влияет на уровень надежности ЦОД, а служба эксплуатации ЦОД может рассчитывать только на источники электричества, находящиеся в собственном управлении ЦОД (чаще всего это ДГУ), и должна быть всегда готова к вероятному отключению внешних источников электроснабжения, которые рассматриваются как вспомогательные. Однако это утверждение не отменяет положительного влияния на надежность, которое дает наличие двух взаиморезервирующих вводов электроснабжения площадки от одного источника энергии или подстанции. Эту схему нельзя называть второй категорией электроснабжения, так как источник один, но она позволяет сохранять электроснабжение площадки при аварии или обслуживании снабжающих площадку линий, ячеек, трансформаторов.
При наличии одной кабельной линии вся нагрузка будет запитана только через нее. Получается единая точка отказа: это либо трансформатор, либо кабельная линия, либо вводной автомат. При отказе одного из этих элементов потребуется долгосрочный и дорогостоящий ремонт, а вы все это время будете вынуждены работать от собственных источников – ДГУ. В итоге использование двух независимых кабельных линий – это хорошо, но дорого. Однако стоит понимать, что при выборе второй или первой категории надежности стоимость подключения возрастает минимум в два раза относительно присоединения по третьей категории надежности. Ведь для энергоснабжения по первой или второй категории необходимы два источника питания, а присоединение к каждому из них стоит примерно одинаково.
Мощности ЦОД на стадии запуска
К сожалению, не всем очевидно, что ЦОД не запускается на полную мощность сразу же. Поэтому к выбору оборудования следует подходить очень осознанно. Следует выбирать оборудование с таким расчетом, при котором КПД будет наиболее эффективным при поэтапном увеличении мощности ЦОД. Это достигается за счет постепенного наращивания единиц оборудования. Согласно рекомендациям производителей, для обеспечения стабильной работы, например ДГУ, нагрузка на нее не должна быть ниже 30 % номинальной мощности. Режим работы на пониженной нагрузке является неблагоприятным и грозит выходом из строя двигателя, так как при нагрузке ниже 30 % происходит неполное сгорание топлива в камере, что в итоге приводит к выходу из строя форсунок двигателя и неполадкам в поршневой группе.
Для проведения ПНР рекомендуем использовать специальные нагрузочные модули, имитирующие полную проектную ИТ-нагрузку ЦОД. Тем самым нагружается вся технологическая цепочка ЦОД: ДГУ – ГРЩ – ИБП – система распределения электропитания – система охлаждения потребителей ЦОД.
Рис. 1. Применение нагрузочных модулей
Нагрузочные модули лучше брать в аренду, а не покупать для постоянного использования. После запуска ЦОД у вас будет свой нагрузочный модуль – это работающий ЦОД, а проверка систем резервного электроснабжения будет осуществляться путем планового отключения основного источника электроснабжения, что опять же позволит протестировать всю технологическую цепочку систем ЦОД. Не следует бояться такого способа тестирования ЦОД, ведь именно он продемонстрирует работоспособность всего оборудования при возникновении реального отключения питания, которого может не происходить годами.
«Грязная зона» разгрузки
В ЦОД доставляется множество грузов, водители автомобилей и грузчики попадают на территорию ЦОД, посещают туалет и просто прогуливаются около автомобиля. Для упрощения процессов контроля и снижения рисков от присутствия посторонних лиц имеет смысл выделить «грязную зону» в виде разгрузочного тамбура, в котором будет гостевой туалет, кулер, место для отдыха и т. п. В этом случае не потребуется проводить процедуры оформления доступа для водителей и грузчиков.
Достаточная зона разгрузки
Проектировщики не всегда предусматривают достаточно большие однообъемные площади для складирования оборудования, стоек и т. п. Представим себе: в ЦОД приехало оборудование для двух холодных коридоров[28], например 50 стоек, к ним 8 кондиционеров и 2 ИБП для расширения. Вы заняли все пространство склада (если оно вообще способно это вместить), а к вам приехали клиенты с еще одной фурой оборудования и не имеют возможности разгрузиться.
«Грязная зона» входной группы
Аналогично с парадной стороны ЦОД есть входная зона, куда приходят потенциальные клиенты, простые посетители и курьеры. Многие посетители проводят здесь совещания и деловые встречи. Нет смысла устанавливать для этой входной зоны регистрацию посетителей или какой-то особый пропускной режим, но далее из этой зоны через полноростовой турникет в ЦОД должны попадать только авторизованные посетители. Удобно организовать во входной зоне несколько переговорных, кафетерий, туалеты, стойку охраны.
Пороги в противопожарных дверях
Часто проектировщик не думает об удобстве персонала, который потом будет эксплуатировать ЦОД, и выбирает самые дешевые двери с порогами, мешающими свободно перемещать тележки с ИТ-оборудованием. На самом деле существуют модели дверей без порогов, что очень сильно упрощает жизнь дежурных и клиентов в будущем.
Размеры коридоров (холодного или горячего) в серверных комнатах и количество дверей
Многие связывают этот вопрос с пожарными рисками, расчет которых часто допускает установку одной двери в довольно длинном ряду стоек. Это неверно. По нашему опыту, в коридоре обязательно должно быть две двери и максимум 12 стоек в ряду. Почему не более 12 в ряд? Чтобы не получился слишком большой путь от пятой-шестой стоек для работы с задней стороны стойки. Почему два выхода? В противном случае посетители и персонал будут вынуждены проделывать очень долгий путь от фасада самой дальней стойки к ее задней части. А в случае проведения работ в холодном коридоре в первой стойке выдвинутый и разобранный сервер сразу же блокирует весь остальной доступ.
Резервирование подъемных механизмов
У вас когда-нибудь ломался лифт? Вы оценивали преимущества наличия второго? Так и в ЦОД часто используются различные подъемные площадки для доставки оборудования на уровень фальшпола. Если одна сломалась или находится на техническом обслуживании, то дежурным не придется поднимать оборудование вручную.
Использование АВР[29]
Как мы знаем, все системы в ЦОД имеют резервирование, причем не только по количеству оборудования, но и по питанию. И был у нас один пример, который наглядно показал, что проектная группа далека от реальной эксплуатации. К нам попал на рассмотрение проект ЦОД. В нем, в частности, на системе охлаждения были установлены кондиционеры, имеющие по два ввода на каждый. Что интересно, переключение между вводами производилось только в ручном режиме.
Получается, что при отключении одного из вводов переключение на другой ввод должен осуществлять дежурный персонал. Учитывая, что в одном машинном зале было установлено более 30 кондиционеров, а таких модулей несколько штук, временные затраты на включение затянулись бы на часы с неизбежным несоблюдением всех SLA с клиентами. Также при таком количестве устройств серьезную роль играет человеческий фактор – можно забыть сделать какие-либо переключения.
После нашего вмешательства в проект этот недочет был устранен и между вводами на каждом кондиционере установили АВР.
Что касается клиентского оборудования, имеющего один блок питания, мы настоятельно рекомендуем такое оборудование не применять. Или в крайнем случае для снижения рисков также использовать стоечный АВР, при этом учитывая, что сам АВР является единой точкой отказа.
Режим работы ДГУ
В процессе эксплуатации ЦОД периодически приходится сталкиваться с отключением внешнего источника электроснабжения. Отключения внешней сети бывают долгими и кратковременными, однократными или следующими одно за другим. В последнем случае мы можем столкнуться с частыми запусками ДГУ, которые приведут к преждевременному разряду батарей ИБП. Чтобы избежать этого, рекомендуем на этапе проектирования предусмотреть задержку запуска ДГУ минимум в 5 секунд после пропадания электроснабжения на внешнем вводе. Это позволяет избежать многократных запусков ДГУ за короткий промежуток времени в случае быстрого восстановления нормальных параметров электроснабжения внешней электрической сети. При восстановлении основного электроснабжения и появлении напряжения на вводных шинах рекомендуем сделать задержку и на обратное переключение на внешний ввод – такую же, как и при отключении. Это поможет автоматике не реагировать на ситуации, когда внешняя сеть появилась и сразу пропала или ее параметры неудовлетворительны.
Из нашего опыта при запуске ДГУ целесообразнее подавать сигнал на запуск сразу всех машин одновременно (если их несколько). Одновременный запуск всех ДГУ повышает надежность системы резервного электроснабжения: при незапуске, аварии, сбое в работе одной из ДГУ система в целом останется в работе, не нужно будет тратить время на повторный перезапуск и тем самым не будет повторного перехода на аккумуляторные батареи, а после получения сигнала на отключение ДГУ они должны остаться в работе на холостом ходу в течение минимум двух минут для охлаждения систем двигателя и обеспечения ускоренного возврата ЦОД на резервное питание в случае повторного отказа основного питания. Тем самым вы убьете двух зайцев: охладите турбины двигателя и, в случае повторного отключения, сбережете емкость батарей.
Иногда возникает ситуация, когда питание на вводе то появляется, то пропадает с периодами, бóльшими, чем выставленные задержки на включение АВР, а также имеют место частые колебания частоты входного напряжения, то есть городская сеть работает нестабильно. Это может негативно сказаться на времени автономной работы от АКБ. В таком случае надо предусмотреть в АВР функцию «изменение приоритетного ввода». Данная функция будет полезна и при необходимости тестирования ДГУ на корректное энергоснабжение нагрузок ЦОД, когда вместо ручных переключений персонал ЦОД нажатием одной кнопки может запустить ДГУ и перевести ЦОД на питание от нее в автоматическом режиме.
Тип ИБП
Сегодня в отрасли дата-центров идет тихая революция. Она касается сферы источников бесперебойного питания (ИБП). От классических моноблочных аппаратов центры обработки данных (ЦОД) переходят к модульным решениям, однако многие проектировщики по привычке продолжают использовать моноблочные решения, достоинства которых уже неочевидны.
В моноблочных источниках бесперебойного питания выходная мощность обеспечивается одним силовым блоком. В модульных ИБП основные компоненты выполнены в виде отдельных модулей, которые размещаются в унифицированных шкафах и работают сообща. Каждый из этих модулей оснащается управляющим процессором, зарядным устройством, инвертором, выпрямителем и представляет собой полноценную силовую часть ИБП.
Модульная архитектура в ИБП предполагает сборку устройства в стойке из нескольких функциональных элементов определенной мощности. Так достигается возможность масштабировать производительность решения с определенным шагом, быстро наращивая или снижая общую мощность. В случае моноблочного ИБП такая маневренность невозможна: вы покупаете и запускаете строго определенный объем ресурса источника бесперебойного питания.
Несколько преимуществ:
1. Модульные ИБП позволяют получать экономически эффективную модель потребления с оплатой новых мощностей по мере роста, минимизируют эксплуатационные расходы и повышают отказоустойчивость. Модульная архитектура позволяет добиться лучшей унификации узлов и компонентов ИБП. Это, в свою очередь, существенно снижает себестоимость изделия, увеличивает КПД системы и уменьшает время восстановления работы после аварийного отказа любого компонента, так как требуется иметь в запасе меньшее количество запасных частей и узлов. При этом запасные модули уже могут находиться на территории пользователя для сокращения времени транспортировки на объект.
2. Больше свободного пространства. Модульные ИБП существенно компактнее моноблочных. Так, например, система на 500 кВт занимает объем одной телекоммуникационной стойки, а моноблок потребует 2–2,5 стойки.
3. Масштабируемость. Несмотря на компактные размеры, модульные шкафы поддерживают установку дополнительных силовых модулей, что обеспечивает ЦОД большую гибкость в наращивании мощности в соответствии с требованиями бизнеса и без дополнительной площади.
Архитектура модульных ИБП позволяет дата-центрам увеличивать мощность постепенно, более точно подбирая объем в соответствии с нагрузкой. В результате мощность системы может быть увеличена во много раз по сравнению с первоначально установленной. Существующие решения этого профиля сегодня позволяют обеспечивать расширение сети ИБП посредством запуска в параллельную работу до нескольких единиц оборудования.
4. Высокая доступность ресурса. Непрерывное электропитание обеспечивает доступность IT-систем и имеет решающее значение для работы дата-центра. В моноблочном ИБП для технического обслуживания или масштабирования может потребоваться временное отключение от сети, то есть запланированный простой. В модульных системах работает функция горячей замены (hot swap): модули добавляются или заменяются за несколько минут без остановки ИБП в целом. Данные действия по горячей замене модулей вполне осуществимы силами персонала пользователя при минимальном уровне знаний.
С моноблочными источниками бесперебойного питания ситуация значительно сложнее. Их ремонт выполнить настолько быстро не получится. На это может уйти от нескольких часов до нескольких дней. Кроме того, замена узлов и компонентов в моноблоке является сложным процессом, и производить ее могут только обученные специалисты сервисной службы, имеющие достаточный опыт производства подобных работ. Таким образом, любой отказ конденсатора или платы питания приводит к полному выходу ИБП из строя на продолжительное время.
5. Низкое энергопотребление. Моноблочная система требует значительно бóльших энергозатрат, потому что она обладает большей избыточностью. Для сравнения, КПД модульной системы на начальном этапе существенно выше, чем у моноблока, поскольку возможно обеспечить более высокий уровень загрузки модульного ИБП. Это достигается посредством установки минимально необходимого числа силовых модулей на начальном этапе эксплуатации и наращивания дополнительных модулей по мере необходимости сообразно росту нагрузки. Например, для модульного ИБП на начальном этапе при нагрузке в 100 кВт потребуется три модуля по 50 кВт (с учетом обеспечения резервирования N + 1), а не установка моноблока на 500 кВт одномоментно. Для первого примера коэффициент использования составляет 0,67, а для моноблочного решения – 0,2. Далее с ростом нагрузки количество модулей увеличивается с шагом в 50 кВт. Также можно отметить, что модульная система тише и за счет более высокого КПД выделяет меньше тепла по сравнению с моноблоком.
6. Высокая надежность. Исходя из требований нагрузки, можно предусмотреть минимальное число компонентов, потеря которых не вызовет простоя системы, и обеспечить их избыточность за счет установки резервных модулей. При этом избыточность обеспечивается как для силовых узлов, так и для модулей управления или коммуникации, а также батарейных элементов.
Рис. 2. Замена модуля ИБП силами дежурного электрика ЦОД
Приведем наглядный пример из нашего опыта. На ИБП в результате отказа элемента вышел из строя один из модулей, и система мониторинга зафиксировала аварию. Однако на работоспособности всей системы это никак не сказалось, ведь мы потеряли только часть избыточного резерва, который в нормальном режиме не был задействован нагрузкой. В данном случае нам всего лишь потребовалось самостоятельно заменить вышедший из строя модуль и продолжить работу. При этом мы не только не потеряли часть системы бесперебойного электроснабжения одного из лучей, но и устранили неисправность своими силами в короткое время, не прибегая к помощи сервисной службы вендора, обеспечивающего скорость реакции в 4 часа.
7. Стоимость обеспечения резервирования для моноблочных систем несравнимо меньше. Так, чтобы обеспечить избыточность N + 1 модульной системы, вам необходим лишь один дополнительный модуль в 50 кВт, имеющий сравнительно невысокую стоимость. В случае использования моноблочных ИБП для обеспечения того же уровня резервирования вам потребуется дополнительный моноблок, по мощности эквивалентный основному, что существенно дороже.
По сравнению с моноблочными системами модульные ИБП отличаются более легкой масштабируемостью, минимальным временем восстановления после аварии. Такие системы оптимальны для наращивания мощности ЦОД до любых пределов с минимальными затратами.
Выбор аккумуляторных батарей
Зачастую приходится сталкиваться с проектировщиками, которые указывают в проекте минимальное время автономной работы от аккумуляторов ИБП 5 минут. Как показывает практика, этого времени недостаточно в силу ряда причин:
1. Как правило, минимальное время рассчитывается для новых ИБП, что подразумевает использование новых аккумуляторов. Однако со временем емкость батарей падает, количество батарей в линейке уменьшается, что приводит время автономии в нашем примере почти к нулевому значению.
2. Может случиться, что ДГУ в момент запуска в силу ряда причин дадут сбой и для их перезапуска потребуется больше времени, чем ожидалось. В этом случае емкости батарейного массива просто не хватит до выхода ДГУ на рабочий режим.
В связи с этим мы рекомендуем не пренебрегать временем автономной работы и в ТЗ указывать его на уровне 10–15 минут в конце жизненного цикла батарей.
Так, согласно стандарту ANSI/TIA-942-B в редакции 2017 г., рекомендуемое минимальное время автономной работы в конце жизненного цикла батарей составляет 10 минут для любого уровня надежности ЦОД.
Фрагмент ANSI/TIA-942-B в редакции 2017 г. Время автономии в конце жизненного цикла
В некоторых встречающихся в интернете неофициальных переводах стандарта на русский язык не говорится о времени автономии в конце жизненного цикла (см. фрагмент таблицы ниже), что, на наш взгляд, очень серьезное упущение, в корне меняющее подход к проектированию. В этой связи предлагаем вам опираться на оригинальный англоязычный текст стандарта.
Пример неофициального перевода стандарта
Отказ от использования локальных устройств бесперебойного электропитания в пользу централизованных ИБП
Пожарные и охранные системы традиционно имеют свои блоки питания с небольшими батареями, а для рабочих мест операторов зачастую используются локальные ИБП. Таких элементов может быть очень много, и они распределены по всей территории ЦОД, доставляя службе эксплуатации массу хлопот как при проведении ТО батарей, так и при устранении аварий. Чтобы избежать этих сложностей, достаточно подключить блоки питания к системе бесперебойного электроснабжения ЦОД, тем самым избавившись от сотен точек обслуживания и потенциальных отказов. Стоит заметить, что в данном случае возникает риск отключения подключенных систем при пропадании питания от ИБП; для минимизации этого риска можно подключать щиты пожарной сигнализации и охранных систем к двум независимым линиям ИБП.
Удобство обслуживания и эксплуатации оборудования
От качественного выбора оборудования зависят простота и удобство монтажных работ и дальнейшая эксплуатация этого оборудования. К данному вопросу надо подходить очень осторожно.
Например, в некоторых моделях модульных ИБП известных брендов внутренняя компоновка элементов выполнена таким образом, что во время эксплуатации при переключениях оборудования приходится нагибаться практически до самого пола, чтобы отключить или включить вводной автомат.
Аналогично и с силовыми модулями. Вот еще пример: при компоновке силовых модулей в верхней части ИБП замена верхних модулей становится невозможной силами дежурной смены. Ведь модуль надо будет поднять на уровень выше 2 м при массе до 50 кг. Во-первых, это неудобно, а во-вторых, один работник просто не сможет этого сделать. К тому же центр тяжести такого оборудования будет расположен высоко, что скажется на устойчивости оборудования.
А если в одиночку силовой модуль не заменить, значит, такие модульные ИБП теряют часть своих преимуществ.
Помимо качественного выбора оборудования, хотелось бы сказать о его однотипности. К такому оборудованию можно отнести, например, ИБП, аккумуляторы, кондиционеры и т. д. Использование однотипного оборудования способно во многом облегчить жизнь службе эксплуатации: это и взаимозаменяемость узлов и компонентов, и сокращение расходов на проведение ТО, уменьшение склада ЗИП, упрощение повседневных манипуляций, уменьшение количества необходимых инструкций и сопутствующей документации. Однако у применения однотипного оборудования существует и обратная сторона, которая потенциально может повышать риски для ЦОД. Прежде всего это проблемы, возникающие при прекращении производства и поддержки вендором того или иного оборудования. В такой ситуации придется заменить весь парк используемого однотипного оборудования; серьезной проблемой может стать необходимость получения запчастей и расходных материалов. Кроме того, период пандемии 2020–2021 гг. и в особенности внешнеполитические события 2022 г., повлекшие разрушение цепочек поставок оборудования, продемонстрировали рациональные стороны использования разнородного оборудования для тех или иных задач. Довольно любопытной в этом контексте является рекомендация стандарта ANSI/BICSI-002–2019 по использованию в ЦОД (по крайней мере высокого уровня готовности) именно разнородного оборудования различных производителей. Несмотря на усложнение процессов обслуживания и эксплуатации, это позволяет застраховаться от рисков, вызываемых применением однородного оборудования.
Какую из этих стратегий выбрать – решать вам. Мы в свое время остановились на использовании однотипного оборудования, но с полным осознанием возможных рисков такой стратегии.
Резервирование систем
При проектировании, построении и дальнейшей эксплуатации ЦОД очень важную роль играет резервирование оборудования. Резервирование является ключевым фактором в обеспечении надежности систем и дает возможность непрерывной эксплуатации ЦОД при проведении необходимых работ по техническому обслуживанию оборудования. Поскольку мы будем часто обращаться к этому понятию по мере изложения, давайте рассмотрим подробнее, что такое резервирование и каковы те схемы резервирования, которые применяются при построении инженерных систем.
ГОСТ Р 27.102–2021 «Надежность в технике. Надежность объекта. Термины и определения» формулирует термин «резервирование» как «способ обеспечения надежности объекта за счет использования дополнительных средств и/или возможностей сверх минимально необходимых для выполнения требуемых функций». Как следует из определения, резервирование предполагает избыточность компонентов системы, позволяющую использовать эти избыточные компоненты при отказе какого-либо базового компонента без прерывания работы системы в целом. Таким образом, базовая модель резервирования может описываться формулой N + R, где N[30] обозначает число элементов, необходимых для нормальной работы, а R[31] – число дополнительных избыточных компонентов. Такое резервирование часто называют резервированием на уровне компонентов. Простейшей и наиболее распространенной схемой резервирования[32] является N + 1, однако встречаются варианты N + 2 или с большим числом элементов R.
Несмотря на очевидную простоту и эффективность резервирования по схеме N + R, ее не всегда бывает достаточно для обеспечения необходимого уровня надежности. Существуют системы, где, несмотря на избыточность отдельных компонентов, сохраняются единые точки отказа, являющиеся уязвимым местом системы в целом. В качестве примера можно привести систему бесперебойного электропитания из нескольких ИБП с общим байпасом. Для устранения рисков выхода таких систем из строя применяют резервирование более высокого уровня – не на уровне компонентов, а на уровне систем. На практике это означает установку двух (или более) идентичных взаиморезервирующих систем, а само резервирование в таком случае обозначают формулой ХN, где N – система из N компонентов, а Х – число таких систем. Наиболее частой схемой резервирования такого рода является 2N, где устанавливаются две идентичные системы. Такая схема резервирования является сравнительно дорогой (фактически необходимо приобрести удвоенное количество оборудования), однако именно она позволяет обеспечить для ИТ-нагрузки два независимых ввода питания и/или контура охлаждения, что необходимо для безостановочной работы ИТ-оборудования и, следовательно, непрерывной работы сервисов, предоставляемых ЦОД.
Зачастую используется комбинация двух оговоренных выше схем резервирования – и на уровне систем, и на уровне компонентов. В этом случае формула приобретает вид X(N + R). Сравнительно популярной схемой такого рода является 2(N + 1), широко применявшаяся в первом десятилетии XXI в.; сегодня ее можно встретить все реже, что обусловлено высокой стоимостью ее реализации.
Выше мы отметили, что резервирование XN (обычно 2N) позволяет обеспечить для нагрузки независимые линии электропитания. Данное преимущество имеет обратную сторону в виде удвоенной стоимости системы электропитания. Для сохранения возможности обеспечения двух независимых линий электропитания нагрузки и при этом снижения вложений в систему электропитания в последние годы все чаще используются дробные схемы резервирования, которые можно выразить в формате (X/Y)N. В этом случае X означает число установленных элементов в системе, а Y – число групп нагрузок, подключенных к каждому из элементов. Иными словами, суть построения таких систем заключается в сегментировании нагрузки и применении элементов меньшей мощности, нежели в случае резервирования 2N. Поясним это на примере систем ИБП на схемах ниже.
Отношение мощности ИБП к мощности нагрузки можно понимать как коэффициент загрузки оборудования. Чем меньше это соотношение, тем эффективнее загрузка. То есть при резервировании 2N загрузка оборудования составляет 50 %, при резервировании (3/2)N – 66,7 %, а при резервировании (4/3)N – 75 %.
Как можно заметить, во всех приведенных случаях каждая группа нагрузок получает электропитание от двух независимых линий, однако при этом уровень затрат на систему электропитания снижается за счет установки менее мощных (и, следовательно, более дешевых) устройств и понижения общего уровня установленной мощности системы электропитания.
При построении систем с дробным уровнем резервирования усложняется система кабельной разводки, увеличивается объем необходимых материалов и работ. Также схемы, отражающие работу подобных систем, менее наглядны для персонала и трудны для понимания, что увеличивает риск человеческой ошибки. Однако стоимость систем при низких уровнях дробного резервирования все равно сравнительно невелика. Предел рациональности при построении систем с дробным резервированием достигается на уровне (6/5)N; более сложные уровни резервирования перестают быть привлекательными как в силу значительного усложнения систем, так и в силу потери экономических преимуществ.
Рис. 3. Резервирование 2N
Рис. 4. Резервирование (3/2)N
Рис. 5. Резервирование (4/3) N
Оценка текущего уровня процессов службы эксплуатации. Чек-лист для проверки ЦОД
Как руководителю определить текущий уровень процессов службы эксплуатации своего предприятия? Каким образом можно оценить состояние службы эксплуатации ЦОД для потенциального размещения своего оборудования? Во втором случае мы говорим исключительно об оценке эксплуатационной деятельности, не затрагивая вопросы резервирования и прочего, а также вопросов физической безопасности службы поддержки клиентов, так как это отдельные большие темы.
Для этого требуется посетить ЦОД, просмотреть эксплуатационную документацию, совершить обход как серверных помещений, так и помещений с инженерным оборудованием, провести беседы с руководителями эксплуатации и дежурным персоналом.
Примерный чек-лист для определения уровня зрелости службы эксплуатации ЦОД
• Есть ли проактивные меры по уменьшению загрязнений (бахильная машина, липкие ковры)?
• Не просрочены ли огнетушители или газ в системе газового тушения? Даты поверки и заправки указаны на огнетушителях и баллонах с газом?
• Чисто ли на территории? Нет ли посторонних предметов в серверных, не относящихся к деятельности ЦОД (например, шкафы, мебель, упаковочные материалы и т. п.)?
• Есть ли посторонние предметы в стойках (например, коробки и пакеты)?
• Присутствуют ли заглушки в холодных коридорах, закрыты ли излишние отверстия и щели в полу?
Рис. 6. Применение бахильной машины
Рис. 7. Применение липких ковров
• Есть ли заглушки на выключенных кондиционерах, препятствующие обратному перетоку холодного воздуха?
• Поддерживается ли подпор подаваемого вентиляцией воздуха внутри серверных помещений? Каким образом это контролируется?
• Каково состояние подфальшпольного пространства? Нет ли мусора под фальшполом?
Рис. 8. Мусор под фальшполом
• Есть ли документ, описывающий процедуру уборки? Указано ли там, где и каким способом следует ее проводить?
• Есть ли маркировка оборудования в едином формате? Хорошо ли она видна?
• Есть ли в щитовом оборудовании, кондиционерах, задвижках и т. д. маркировка положений по умолчанию? Запишите положение выключателей любого щита. Запишите положение любой задвижки. Это пригодится дальше.
• Аккуратно ли хранятся материалы на складе? Как происходит учет материалов и мест их хранения? Сфотографируйте одну из полок стеллажа на складе. Это пригодится дальше.
• Есть ли оборудование, в данный момент выведенное из работы? Запишите его маркировку (если имеется), зафиксируйте, какое именно это оборудование и где оно находится. Сверьтесь с дежурным инженером, может ли он подтвердить все это документально.
• Есть ли информация о версионности документов, доступных вам для обозрения? Помните, что схемы не должны быть старше двух лет, а документация – старше трех лет от текущей даты.
О чем спросить главного инженера / руководителя ЦОД (желательно без предварительной подготовки со стороны службы эксплуатации):
• За организацию эксплуатации каких систем он отвечает? Записано ли это в его должностной инструкции?
• Актуальный список обслуживания оборудования, не выполненного в срок за последний год. Где его можно посмотреть?
• Актуальный список дежурных инженеров, не прошедших плановые тренировки в текущем месяце. Где его можно посмотреть?
• История всех отказов и обслуживания кондиционера ХХ (подставьте номер, который вы запомнили из предыдущего обхода) за последний год.
• Сколько подобных аварий было на другом аналогичном оборудовании? Есть ли учет ошибок и их анализ?
• При каком уровне нагрузки ЦОД надо начинать закупку дополнительных новых ИБП? Задокументировано ли это, есть ли планирование, можно ли все подтвердить документально?
• Какие риски существуют на данный момент для вашего ЦОД? Где это задокументировано?
• Что такое парные нагрузки? Как вы контролируете парные нагрузки? Какие именно парные нагрузки контролируете?
• Спросите о выведенном из работы оборудовании, которое вы отметили в прошлой части во время обхода. Есть ли соответствующие записи в отчете дежурных за смену?
• В каком виде и где хранится текущая документация по эксплуатации, внутренние политики и процедуры?
Затем посетите дежурную смену без руководителя и спросите по очереди дежурных инженеров (лучше в режиме один на один):
• За оперативное управление какими системами отвечает дежурный? Почему и где это записано?
• Кому дежурный отправляет отчеты при передаче смены? Почему и где это записано?
• Использует ли дежурный на обходе чек-лист? Почему и где это записано?
• Как дежурный контролирует работу подрядчиков? Почему и где это записано? (Во всех этих ответах информация должна совпадать с рассказом главного инженера.)
• В каком штатном положении должны быть выключатели из щита, который вы отметили? Почему и где это записано?
• В каком штатном положении должна быть задвижка, которую вы отметили? Почему и где это записано?
• Что хранится на полки Х стеллаже Y склада? Сравните данные из файла учета склада с фотографией, сделанной ранее.
• В какой момент надо заказывать материалы на склад? Почему и где это записано?
• Что дежурный будет делать в случае пожара, повышения температуры, отключения внешнего электроснабжения (любая аварийная ситуация на ваш выбор) и почему именно так? Может ли он рассказать, когда он в последний раз тренировался действовать в такой ситуации?
• Когда следующая тренировка у дежурного и на какую тему?
• Где хранится отчет о последнем ТО оборудования, за которое отвечает дежурный?
• Опять спросите о выведенном из работы оборудовании. Есть ли эти данные? Совпадают ли с информацией главного инженера?
Методики оценки
В беседах с персоналом, от руководителей до инженеров (в последнем случае это особенно важно), мы всегда оцениваем три вещи, на которые ориентируются практически все аудиторы. Для оценки используется принцип PDCA: Plan – Do – Check – Act, где:
• PLAN – установлены ли цели, запланированы ли ресурсы, процессы?
• DO – выполняется ли запланированное?
• CHECK — отслеживается и измеряется ли этот процесс? Есть ли понимание, что должно быть на выходе? Как это проверяется и каким способом?
• ACT – есть ли действия по улучшению процесса по выявленным замечаниям?
Применительно к процессу эксплуатации ЦОД приведем простой пример.
Для оценки регулярного технического обслуживания мы проверяем календарь технического обслуживания (выполняем PLAN ), далее смотрим, выполняются ли в сроки задачи ТО, есть ли отложенное обслуживание (выполняем DO ). Каковы результаты выполненного ТО? Есть ли подтверждающие документы? Ведется ли контроль качества выполнения работ? Указано ли это в явном виде (выполняем CHECK )? И далее – смотрим, были ли замечания во время ТО (выполняем ACT ).
Uptime Institute предлагает более сокращенную версию, соответствующую тем же принципам:
• Проактивность. Есть ли совершенствование процессов, процедур?
• Практическое использование. Применяются ли в реальности описываемые в документах процессы, процедуры?
• Информированность. Все ли сотрудники знают о документах, необходимых им для выполнения служебных обязанностей? Знают ли места хранения?
Мы указали примерный и выборочный список вопросов, которые могут быть заданы при оценке ЦОД и ответы на которые будут понятны даже неспециалисту в области эксплуатации ЦОД.
Если вы хотите провести глубокую оценку состояния эксплуатации ЦОД, то можно использовать следующие документы:
• Facility Operations Maturity Model[33] с методологией оценки уровня зрелости процессов – опросник, который в полной мере охватывает деятельность ЦОД. Можно использовать как чек-лист.
• BICSI 009-2019 Datacenter Operations and Maintenance Best Practices (пункт 5.4.3. Datacenter Operations and Maintenance Assessment), менее подробный рекомендательный план для оценки состояния эксплуатации.
• На ресурсе Uptime Institute Inside Track также можно найти материалы для оценки, например Data Center Walkthrough Checklist для быстрой и углубленной оценки соответственно. В кратком виде материалы представлены в общедоступной брошюре Executive Handbook: Risk Management for IT Infrastructure[34].
Если сотрудники уверенно и без подготовки дают ответы на подобные вопросы, то, скорее всего, уровень процессов службы эксплуатации довольно высокий, и эта книга будет лишь инструментом для возможного их улучшения.
В противном случае следует обратить пристальное внимание на организацию работы службы эксплуатации и в дополнение к этой книге для оценки реального состояния привлечь компании, специализирующиеся на организации процессов эксплуатации и обучении персонала. Такое решение поможет вам сэкономить несколько лет непрерывной самостоятельной работы по освоению стандартов и практике их внедрения. В очередной раз напомним, что не стоит недооценивать важность хорошо построенной и организованной службы эксплуатации, ведь в противном случае даже ЦОД уровня Tier IV, в инфраструктуру которого вложены миллиарды рублей, не будет защищен от падений и простоев.
Персонал службы эксплуатации
Качество организации процессов управления персоналом напрямую влияет на надежность ЦОД. Как многократно упоминалось, основной фактор, влияющий на надежность ЦОД, – человеческая ошибка.
В большинстве случаев все эти ошибки – результат недоработок управляющего звена ЦОД (недостаточность персонала, непроработанные сценарии аварий, недостаточность документации, недостаточность знаний персонала, отсутствие тренировок и контроля знаний и т. д.).
За отправную точку при формировании службы эксплуатации принимаются требования действующего законодательства, которые дополняются требованиями различных стандартов и систем сертификаций, уже упомянутых выше. При этом следует помнить о необходимости применять процессы к сотрудникам ЦОД, отвечающим за все критические системы ЦОД, а не только за электроустановки, как того требуют нормы российского законодательства.
Приведем ключевые задачи руководителей и сотрудников службы эксплуатации ЦОД.
Руководитель должен:
• оценить объем предполагаемой сферы деятельности, наметить необходимый объем документации;
• написать обязательные и полные инструкции, процедуры и т. п.;
• ознакомить сотрудников с документацией;
• провести тренировки по этим инструкциям;
• обучить новых сотрудников, не допустить к работе неготовых сотрудников;
• периодически проверять качество подготовки сотрудников;
• создать условия для работы сотрудников, снабдить их инструментом, одеждой, комфортными местами отдыха и приема пищи во время смены;
• обеспечить комфортный график работы без превышения допустимого уровня переработок, чтобы сотрудники выполняли свои задачи качественно;
• установить четкие критерии оценки успешной работы каждого сотрудника и регулярно отслеживать их выполнение.
Сотрудник в созданных ему условиях должен:
• четко знать свои должностные обязанности и полностью выполнять их;
• знать перечень систем, за которые он отвечает, и принципы работы оборудования этих систем;
• знать относящиеся к его сфере деятельности инструкции, процедуры и другие документы;
• неукоснительно следовать инструкциям и процедурам в повседневной деятельности;
• принимать меры по устранению аварийных ситуаций согласно введенным инструкциям и процедурам;
• поддерживать свои знания по документации и оборудованию в актуальном состоянии;
• уделять внимание самостоятельному образованию, повышению уровня знаний и расширению профессионального кругозора.
Необходимая численность персонала ЦОД
Как вы знаете, ЦОД бывают разные: отличающиеся по своим размерам, задачам, требуемым SLA и пр.; следовательно, не существует универсальной формулы для определения численности и состава сотрудников, в каждом случае требуется индивидуальный подход. Тем не менее при формировании команды следует руководствоваться описываемыми ниже принципами.
Достаточность персонала в первую очередь определяется действующими нормами (он не может быть меньше определенной численности), а во-вторых, требованиями различных стандартов, которым предполагается соответствовать. Важно понимать, что у большого количества дежурного персонала и руководителей, занимающихся эксплуатацией, в должностной инструкции (ДИ) может не быть явного указания на системы, за которые они отвечают. В итоге с формальной точки зрения аудитора и проверяющих органов (например, Ростехнадзора) за эти системы никто не отвечает. То есть необходимо распределить и записать все критические системы в ДИ ответственным сотрудникам и их заместителям.
Далее, нужно руководствоваться следующим принципом: для каждой критической системы должны быть определены ответственный за нее руководитель и оперативный персонал.
Один руководитель может отвечать за несколько систем, но у каждого ответственного сотрудника должен быть его дублер, способный выполнить те же обязанности.
Например: главный энергетик, отвечающий за ДГУ, уходит в отпуск, и его замещает другой сотрудник. Это может быть как компетентный руководитель другого направления того же уровня, так и, например, старший электрик, работающий в дневном графике. Такое замещение должно быть записано в ДИ заместителя и отражено в соответствующей схеме заместителей по всем направлениям службы эксплуатации ЦОД.
Чтобы это замещение было максимально эффективным, вам потребуется универсальная система документации (которая будет описана ниже), позволяющая максимально упростить процесс замещения сотрудника, не оставляя без внимания вопросы предварительной подготовки, аттестации знаний и пр.
При определении оптимальной численности персонала необходимо учесть следующие важные моменты:
• Соблюдение численности персонала, требуемой нормами, – это необходимый минимум.
• Достаточность персонала для обеспечения операционной устойчивости – желательный оптимум.
• Нельзя допустить раздувания штата сотрудников и наличия работников, не имеющих постоянных задач большую часть рабочего времени.
• Нужно исключить превышение допустимого уровня переработок. Трудовой кодекс РФ ограничивает допустимый уровень переработки 120 часами в год, а Uptime Institute допускает объем переработок, не превышающий 10 % основного рабочего времени.
Аутсорсинг эксплуатации
Аутсорсинг сейчас очень популярен, и некоторые руководители хотят применить его во всех возможных плоскостях. Следует сразу пояснить, о каком именно аутсорсинге идет речь у нас. Задачу выбора модели технического обслуживания оборудования (Concept of Maintenance) часто путают с моделью эксплуатации (Сoncept of Operations). В первом случае речь идет о функции сервис-инженера, а во втором – о функции дежурного инженера, и это две принципиально разные задачи. Действующая служба эксплуатации ЦОД находится на стыке между ними. Вопрос о выборе концепции технического обслуживания подробно рассмотрен в соответствующей главе.
Uptime Institute уделяет очень большое внимание вопросу выбора между своим персоналом и внешним, наемным исполнителем при построении службы эксплуатации ЦОД; в обучающих материалах этому посвящена целая глава. По факту для территории РФ такой подход не слишком актуален, так как подобных сервисов аутсорсинга очень немного. Все примеры использования внешнего персонала в качестве службы эксплуатации ЦОД – это исключительно аутстаффинг, когда по разным причинам в штате организации – владельца ЦОД нет места для инженерных служб.
Рассмотрим этот вопрос более детально на примере аутсорсинга служб эксплуатации, охраны, уборки ЦОД.
Вспомним основные плюсы аутсорсинга:
• быстрое предоставление персонала требуемой квалификации;
• опыт работы (что актуально при выборе модели эксплуатации с самого начала работы ЦОД);
• легкая замена сотрудника по любой причине, ведь он не у вас в штате, и все проблемы с его увольнением ложатся на компанию, предоставляющую услуги аутсорсинга;
• отсутствие необходимости получать лицензию (например, лицензию частного охранника).
Эти плюсы отлично оправдываются в классических аутсорс-задачах – охране и клининге, а также в службах эксплуатации бизнес-центров, где нет высоких требований к надежности и квалификации персонала (в результате чего, впрочем, на таких объектах существует видимая даже сторонним взглядом неразбериха).
С эксплуатацией критического объекта ЦОД вопрос сложнее:
• Квалификация сотрудника должна быть не на уровне «электрик для замены ламп», а на уровне «электрик для эксплуатации ИБП и ДГУ». Согласитесь, это разные уровни сложности.
• Необходима не только высокая квалификация сотрудника, но и прохождение всех процедур обучения на технологически сложном объекте. В итоге сотрудник не может приступить к работе немедленно, и плюс аутсорсинга относительно опыта работы тут неприменим. Требуется длительное вводное обучение нового, пусть даже и опытного сотрудника. Он должен понять логику документации, узнать проект, запомнить принципы работы ЦОД и его топологию.
• Как было сказано выше, квалификация дежурного персонала и его подготовка на конкретном объекте является ключевым фактором надежности ЦОД. Стоит ли отдавать эту роль в чужие руки? Даже возложив ответственность за отключение клиентов на аутсоринг-компанию, как вы исключите репутационные риски?
• После того как вы нашли сотрудника с требуемой квалификацией и потратили время (примерно месяц) на обучение этого сотрудника, радоваться опции его легкой замены – не лучшая идея. Если сотрудник вам не подходит, он должен быть отсеян на стадии обучения и испытательного срока. Даже если подготовка будет происходить на стороне подрядчика – в любом случае это длительный процесс.
• Лицензирования функций службы эксплуатации не предусмотрено, за исключением допусков Ростехнадзора к работе в электроустановках и лифтах, так что это преимущество аутсорсинга также незначимо.
В результате, на наш взгляд, именно в случае со службой эксплуатации ЦОД плюсы аутсорсинга не работают, а минусы, наоборот, сильно проявляются. Косвенным подтверждением этого является очень малое число примеров на рынке.
Теоретически, конечно, такие службы могут быть применены для однотипных проектов ЦОД – модульных решений или стандартных ЦОД гиперскейлеров с одинаковыми наборами оборудования, – но в любом случае это требует значительной подготовки.
Что можно порекомендовать, если хочется воспользоваться внешними услугами при построении службы эксплуатации? Найти консультантов с большим опытом в эксплуатации и получить внешние услуги, по которым вы составите эффективную оргструктуру. Вам покажут, какая документация должна быть на объекте и в каком объеме, как подойти к обучению персонала; тогда вам не придется тратить годы на постижение всего этого на собственном опыте. Это особенно актуально, если вы планируете сертифицировать вашу службу эксплуатации.
Состав службы эксплуатации ЦОД
В этом разделе мы рассмотрим состав службы эксплуатации ЦОД, который можно условно разделить на три типа: технические руководители, дежурные инженеры и технические эксперты. Изучим подробнее каждую из этих категорий.
Технические руководители ЦОД
Классические роли руководителей ЦОД
Технический директор / руководитель ЦОД, менеджер дата-центра – отвечает за все процессы по организации эксплуатации и поддержанию высокого уровня качества предоставления услуг клиентам ЦОД на данной площадке. Также он может отвечать за службы охраны и поддержки клиентов. Этими службами удобно управлять из одной точки, так как они тесно взаимосвязаны на объекте и постоянно взаимодействуют по различным процедурным вопросам.
Роль руководителя ЦОД важна и в том случае, когда ваша организация состоит из нескольких ЦОД и для центрального управления эффективнее иметь одного ответственного сотрудника в каждом ЦОД, который держит на контроле все вопросы, связанные с аспектами эксплуатации ЦОД, а также ставит задачи по всем направлениям.
Главный инженер, главный энергетик – отвечают за эксплуатацию систем, являются «технологами» ЦОД, то есть понимают, как взаимосвязаны системы ЦОД между собой, как они влияют друг на друга и т. п.
Опять же намного эффективнее иметь выделенного сотрудника на каждый ЦОД. На него и его заместителей возложена ответственность за электрохозяйство, тепловые установки, пожарную безопасность. Справится ли с этим объемом один сотрудник или их необходимо иметь больше – зависит от размеров вашего ЦОД. Руководители чаще всего имеют ненормированный рабочий день, и предполагается, что они способны сами организовать свой график так, чтобы не подвергаться чрезмерной нагрузке и иметь ресурсы для замещения себя по ряду функций. Если руководители не могут организовать правильную загрузку и штатную структуру на своем уровне, то вряд ли они смогут организовать ее и на уровнях ниже. Кроме того, важно организовать взаимодействие руководителей так, чтобы они могли относительно эффективно заменять друг друга на случай болезней или отпусков. Это потребуется для сохранения непрерывности бизнеса. У вас не должно быть единичных, уникальных исполнителей или носителей информации.