[Управление персоналом, Инженерные системы] Аттестация сотрудников ЦОДа: как и зачем ее проводят в Linxdatacenter

Автор Сообщение
news_bot ®

Стаж: 6 лет 9 месяцев
Сообщений: 27286

Создавать темы news_bot ® написал(а)
25-Мар-2021 15:31

Ранее мы уже рассказывали о том, как проходили аттестацию Uptime Institute Management & Operations Stamp of Approval в 2018 году и подтверждали уровень соответствия его требованиям в 2020. 
Сегодня поговорим о тренировке и проверке знаний инженеров ЦОДа – это опыт Linxdatacenter в Санкт-Петербурге, который сертифицирующая организация взяла на вооружение в своей работе. 
Напомним, о чем идет речь: стандарт Management & Operations отраслевого экспертного института Uptime Institute оценивает качество управления инженерных служб дата-центров и направлен на снижение количества отказов из-за человеческого фактора. 
Он появился в результате анализа 6000 эпизодов отказов ЦОДов за 20 лет наблюдений за отраслью и является частью (одной из трех) более емкого отраслевого стандарта Operational Sustainability.
Помимо M&O (управление и эксплуатация) туда входят также Building Characteristics (характеристики здания) и Site Location (расположение площадки). Вопросы управления и эксплуатации ЦОДа в этой иерархии играют главную роль в эксплуатационной устойчивости площадки. 
Более 75% всех сбоев обусловлено человеческим фактором: он включает как прямые ошибки оператора, так и принятие неверных управленческих решений при комплектовании штата, выстраивании процессов обслуживания, обучения и общего подхода к работе. 
Обучение персонала, инструкции по действиям в различных ситуациях и регламентное обслуживание сокращают количество отказов минимум в 3 раза.
Аттестация зрелости 
Одно из базовых положений стандарта, на котором мы и развернули программу аттестации персонала, гласит: «Наличие надлежащего количества квалифицированных сотрудников имеет решающее значение для достижения долгосрочных целей. Без надлежащего количества квалифицированных сотрудников и правильной организации их труда, у ЦОД не будет ресурсов для успешного функционирования». 
Обеспечить себя такими сотрудниками стандарт рекомендует через качественный подбор персонала и выработку комплексного подхода к обслуживанию ЦОДа. Такая программа состоит из профилактического обслуживания (PM), политики уборки, системы управления техническим обслуживанием (MMS) для отслеживания работ, а также соглашения об уровне обслуживания (SLA).
Чем выше уровень Tier дата-центра, чем быстрее растут целевые показатели его производительности, строже становятся требования к организации, поскольку сложность и детализация каждого из этих элементов увеличивается. 
Стандарт предлагает в качестве решения комплексную программу обучения персонала, формализованную и опирающуюся на отдельный блок документации. 
Только такой подход обеспечивает согласованность эксплуатации и технического обслуживания инфраструктуры ЦОД. Цитируя стандарт еще раз: «Весь персонал должен понимать политики, процедуры и уникальные требования к работе в ЦОД, чтобы избежать незапланированных простоев и реагировать на ожидаемые события». 
Собственно, отсюда и берет начало наша система аттестации. 
Вторая ее «идеологическая опора» — стандарт ISO 22301 «Security and resilience — Business continuity management systems» — «Безопасность и устойчивость – Системы управления операционной непрерывностью бизнеса». 
Этот стандарт непосредственно регулирует шаги компаний (во всех сферах, не только ИТ) по обеспечению непрерывного характера своей деятельности вне зависимости от наступления экстренных ситуаций и неблагоприятных внешних условий. 
Один из его пунктов указывает, что организация должна определить необходимые компетенции лиц, выполняющих работу, которая влияет на обеспечение ее бесперебойного функционирования. И далее по тексту, на компании накладываются обязательства по обеспечению компетенций этих лиц на основе соответствующего образования, подготовки или практического опыта. 
Этот процесс нужно поддерживать, совершенствовать и оценивать его результаты, сохраняя соответствующую документально подтвержденную информацию в качестве доказательства компетентности.
Наконец, третий «столп» нашей программы – собственный опыт нескольких лет последовательной работы над повышением скоординированности и эффективности работы инженерных служб. Этот опыт нашел отражение в нашей документации по процедурам аварийной эксплуатации (EOP – Emergency Operations Procedures), в том числе в части аттестации персонала. 
Четко задокументированные и формализованные процедуры в структуре бизнес-процессов площадки в Санкт-Петербурге позволяют оценивать профессиональный уровень работника и выявлять соответствие его квалификации занимаемой должности или выполняемой им работы.
Прохождение аттестации на знание инструкций, сценариев реагирования на чрезвычайные и штатные ситуации, распределение ролей и зон ответственности между участниками дежурной смены и т. д. является обязанностью работников. 
Основные виды и главные задачи 
Зачем нам это нужно? С одной стороны – да, работали как-то без аттестации раньше, без нее также обходятся масса (да почти все) коллег по отрасли. 
С другой, следует понимать, что дата-центр – сложнейший инженерный объект, состоящий из множества подсистем, управление которыми требует высочайшей квалификации, ответственности и внимания. 
Мы постоянно занимаемся апгрейдом инженерных подсистем и групп процессов управления дата-центром. Только за последнее время были внедрены процессы профилактического ухода за дизель-генераторными установками и анализа качества поставляемого топлива для них, контроль уровня давления и «подпора» воздуха в серверных в помещениях и комплекс мер по предотвращению загрязнения воздуха. Также была проведена серьезная модернизация системы управления зданием (BMS), внедрен в эксплуатацию широкий спектр компонентов системы LOTO.
В ходе этих работ мы неоднократно убеждались, что любые методики контроля качества приносят хороший результат, только если они формализованы и применяются на регулярной основе – это еще одна причина ввода обязательной аттестации.
Кроме того, такие проверки помогают стимулировать рост эффективности и качества труда, определить необходимость повышения квалификации и «подтягивания» уровня знаний конкретных специалистов, а также организовать правильную расстановку кадров с учетом уровня их профессиональных знаний и навыков.
Перед плановой аттестацией руководители проводят подготовительную консультационную работу, а именно – за две недели аттестуемому персоналу сообщаются критерии аттестации, вопросы для экзамена, проводят разъяснительные консультации.
Все вопросы сопровождаются подробно разобранными ответами со ссылками на нормативные документы и инструкции. 
Процедура по сути
Аттестацию проводит комиссия в составе не менее трех человек, процедура состоит из двух этапов. 
На первом проводится тестирование аттестуемого работника в рамках опросников и тестов.  Общее количество вопросов – 60-70 в зависимости от специализации. Во время аттестации случайным образом выбираются 15.   Около 80% вопросов касаются непосредственно профессии, остальные 20% – смежных областей знаний и компетенций коллег по ЦОДу. 
Для проведения аттестации был разработан специальный внутренний портал, который позволил автоматизировать и сделать прохождение аттестации регистрируемым процессом


Примеры вопросов для сотрудников различных департаментов  
Механики 
Раздел «Maintenance» (Обслуживание)
  • Когда запланировано следующее ТО систем, за которые вы отвечаете?
  • Сколько сотрудников указано в списке на доступ от подрядчика, который будет проводить следующее ТО?
  • Какая текущая версия и дата утверждения документа с контактами и SLA поставщиков? 
  • Что такое Предупредительное обслуживание? (Predictive maintenance)? Дайте ссылку на инструкцию по Predictive maintenance и график его проведения.
  • Какие виды технического обслуживания проводятся в ЦОД? Чем они отличаются? Где можно увидеть списки такого обслуживания?

Раздел EOP
  • При какой температуре в помещениях ИБП нужно начинать выполнение EOP?
  • При каком давлении в системе ХС нужно начинать выполнение EOP?
  • Укажите действия при неисправности фанкойла «Water loss alarm».

ИТ-инженеры 
Раздел «Оборудование»
  • Укажите ближайшую дату поверки средства измерения (и его тип) по вашим системам.
  • Приложите ссылку на папку с документацией к любому оборудованию, относящемуся к вашим системам.
  • Приложите ссылку на исполнительную документацию по любой из обслуживаемых вами систем.
  • Приложите ссылку на папку с альбомом последних версий схем по обслуживаемым вами системам.

Раздел «Работа в системе инцидент-менеджмента»
  • Как определить, какой приоритет нужно поставить обращению? 
  • Если для решения проблемы нужна дополнительная информация от клиента, какой статус нужно выставить в тикете?
  • Ваши действия при поступлении высокоприоритетных обращений в нерабочее время.
  • Как правильно запросить дополнительную информацию от клиента?
  • В чем разница в статусах On Hold и Waiting? Учитываются ли эти статусы при расчете времени решения обращения?

Инженеры-электрики 
Раздел «Общие инструкции, Приказы (Common Instructions, Orders)»
  • Укажите ваши действия при пожаре в ЦОД и при пожаре в ДГУ.
  • Укажите ваши действия при появлении неисправностей на пожарной панели ЦОД или ДГУ.
  • Укажите ваши действия при ложном срабатывании систем пожаротушения ЦОД или ДГУ.
  • Каким документом регламентируются работы в действующих электроустановках?
  • Что должен сделать контролирующий системы мониторинга при появлении аварийных и предупредительных сообщений (за исключением периода перехода между источниками энергии)?
  • Где располагается мастер-ключ для экстренного доступа в стойки клиентов?
  • В каких инструкциях указаны меры по работе во время пандемии и какие они?

Как видно из приведенных примеров, мы учитываем текущие реалии, в которых работаем. В данном случае это вопросы по состоянию на декабрь 2020 года. 
Второй этап процедуры аттестации состоит из личного собеседования комиссии со специалистом. В работе аттестационной комиссии обязательное участие принимает непосредственный руководитель аттестуемого работника. 
Основными критериями, исходя из которых оцениваются профессиональные компетенции работника, являются уровень его подготовки, в том числе профессиональные навыки, итоги работы за определенный период времени, а также соответствие требованиям к занимаемой должности.
Решение принимается открытым голосованием большинством голосов.
Вердикты 
По результатам аттестации выносится заключение: 
  • занимаемой должности соответствует; 
  • соответствует, но не полностью (рекомендуется повторная аттестация); или 
  • не соответствует занимаемой должности. 

В первом случае сотрудника могут включить в резерв на вышестоящую должность, условия трудовых соглашений с ним не меняются. В последнем же рассматривается вопрос либо о переводе на другую работу, требующую более низкой квалификации, либо о расторжении трудового договора по п. 3 ч. 1 ст. 81 ТК РФ. 
Неполное соответствие чревато переводом с согласия сотрудника на другую работу, а также направлением на курсы повышения квалификации (дополнительного обучения).
Тяжело в учении – легко в бою 
Большую роль в процессе обучения сотрудников служб эксплуатации дата-центра играет практический аспект – тренировки и учения. 
В качестве примера приведем выдержки из итогового протокола учений по отработке действий сотрудников дежурной смены и охраны ЦОДа в Санкт-Петербурге.  
«Хронология событий
1050 – Произошел пожар (имитация) помещении 107. Сработала пожарная сигнализация и система голосового оповещения. 
1050 – Руководитель смены охраны объекта связался с дежурной сменой ЦОДа, сообщив им о месте пожара и поставил задачу сотруднику охраны по организации эвакуации клиентов ЦОДа.

1207 – Сотрудник охраны выдвинулся в ЦОД для проверки путей эвакуации, разблокировки калиток на путях эвакуации, проверки разблокировки полноростового турникета, организации эвакуации людей. Сотрудник охраны экипирован электрическим фонарем, изолирующим противогазом и рацией для связи.

1207 – Звонок сотрудника охраны ЦОДа старшему смены охраны ПСБ «СКАЙ-ТРЕЙД» с сообщением о происшествии в ЦОДе.
1208 – Начало эвакуации людей, не задействованных в обнаружении и локализации (ликвидации) пожара, из помещений ЦОДа.
1209 – Сотрудники дежурной смены ЦОДа выдвинулись для проверки причин срабатывания пожарной сигнализации и организации эвакуации людей из ЦОДа.

1211 – Сотрудники дежурной смены ЦОДа подошли к месту предполагаемого пожара. Сотрудники экипированы электрическими фонарями и изолирующими противогазами.

1212 – Доклад сотрудника охраны о том, что все помещения свободны и люди из ЦОДа эвакуированы.
1212 – Эвакуация завершена.

1215 – Перевод системы пожарной сигнализации и голосового оповещения из режима «Пожар» в дежурный режим. Окончание пожарно-технической тренировки».
Это – отчет о событийной канве мероприятия, которая, как мы видим, укладывается во временной промежуток продолжительностью чуть более одного часа.  Далее лица, ответственные за проведение учений, указывают выявленные несоответствия и перечисляют решения, принятые в отношении команды. 
В данном конкретном случае не был сымитирован звонок сотрудника дежурной смены на пульт пожарной охраны – поэтому оценка только «4». 
Рекомендовано повторить порядок действий при сигнале о пожаре в соответствии с инструкцией и проводить подобные учения для каждой смены персонала не реже 1 раза в квартал. 
Выводы и планы развития 
Формализация и документирование процессов помогают обеспечить историчность (отслеживание динамики), а также объективность оценок. 
На данном этапе развития направления нам удалось реализовать комплексный подход к обучению и проверке уровня знаний персонала ЦОДа, от которых зависят такие показатели, как непрерывность работы площадки, и, в конечном итоге, SLA для клиентов. 
В целом, реализованная нами система подтверждения знаний и умений – это общий тренд развития направления в будущем. Все решения по обеспечению непрерывности бизнеса строятся на архитектуре тесно увязанных между собой специалистов, политик, процедур и процессов, а также организационной структуры и ресурсов компании. 
И люди в этом перечне – на первом месте.
===========
Источник:
habr.com
===========

Похожие новости: Теги для поиска: #_upravlenie_personalom (Управление персоналом), #_inzhenernye_sistemy (Инженерные системы), #_tsod (цод), #_attestatsija_personala (аттестация персонала), #_sertifikatsija (сертификация), #_ekspluatatsija_tsod (эксплуатация цод), #_datatsentr (дата-центр), #_trening (тренинг), #_proverka_znanij (проверка знаний), #_inzhenernaja_sluzhba (инженерная служба), #_blog_kompanii_linxdatacenter (
Блог компании Linxdatacenter
)
, #_upravlenie_personalom (
Управление персоналом
)
, #_inzhenernye_sistemy (
Инженерные системы
)
Профиль  ЛС 
Показать сообщения:     

Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы

Текущее время: 22-Ноя 18:18
Часовой пояс: UTC + 5