[Системное администрирование] Короткая заметка по инциденту с перегревом RAID-контроллера LSI в сервере в холодном ЦОДе
Автор
Сообщение
news_bot ®
Стаж: 6 лет 9 месяцев
Сообщений: 27286
TL;DR; настройка режима работы системы охлаждения сервера Supermicro Optimal не обеспечивает стабильность работы LSI-контроллера MegaRAID 9361-8i в холодном ЦОД-е.
Мы стараемся не использовать аппаратные контроллеры RAID, но есть у нас один клиент, который предпочитает именно конфигурации c LSI MegaRAID. Сегодня мы столкнулись с перегревом карты MegaRAID 9361-8i в связи с тем, что платформа не чувствовала перегрева, а RAID-контроллер его чувствовал.
Вид платформы с RAID-картой представлен на рисунках ниже:
Несколько важных моментов, связанных с этим сервером и средой эксплуатации:
Инженер, собиравший платформу специально поставил напротив карты два вентилятора, поскольку знает, что LSI-контроллеры сильно греются. Обратите внимание на материнскую плату, она под контроллер практически не заходит, заканчиваясь через 3 см после слота PCI-E.
Как видите, все вентиляторы подключены штатно к материнской плате Supermicro и в режиме Optimal "дуют" в зависимости от сенсоров на ней, температуры CPU.
В данной платформе стоит Xeon E-2236 — весьма холодный CPU, который у клиента, видимо, сильно и не нагревался.
ЦОД, в котором стоит данный сервер весьма холодный — холодный коридор дает 18-20 градусов.
Совокупность этих факторов привела к весьма интересному явлению — перегреву RAID-контроллера.
Вероятная цепочка, как это произошло:
- холодный процессор и материнская плата сообщали вентиляторам о том, что дуть можно слабо.
- материнская карта под RAID-ом отсутствовала и не было датчиков, которые бы фиксировали перегрев.
- Вентиляторы, будучи сконфигурироваными, в режиме Optimal дули слабо, согласно потребностям материнской платы и CPU.
- Контроллер, не получая достаточного потока воздуха перегрелся.
Что сделали
Переключили вентиляторы в режим "Standard", при необходимости переведем в более высокий режим производительности.
Выводы
Скорее всего, если бы холодный коридор ЦОД-а был бы не таким холодным, или клиент бы интенсивно использовал CPU, данная проблема могла бы и не произойти, поскольку вентиляторы бы работали в более интенсивном режиме.
Для себя мы решили обязательно менять режим работы вентиляторов на серверах с RAID с Optimal на режим с повышенной частотой вращения.
===========
Источник:
habr.com
===========
Похожие новости:
- [DevOps, Kubernetes, Серверное администрирование, Системное администрирование] Логирование в Kubernetes: EFK против PLG (перевод)
- [Настройка Linux, Системное администрирование, Облачные вычисления, Серверное администрирование, DevOps] Основы Ansible, без которых ваши плейбуки — комок слипшихся макарон, часть 2
- [Системное администрирование] Clickhouse против Postgres — какую базу данных использовать для анализа логов nginx (перевод)
- [Django, IT-инфраструктура, Разработка под Linux, Системное администрирование] Как мы автоматизировали весь жизненный цикл серверов
- [Системное администрирование] Zimbra — Генерация HTML подписи на основе данных LDAP
- [DevOps, Kubernetes, Системное администрирование] Валидация Kubernetes YAML на соответствие лучшим практикам и политикам (перевод)
- [Информационная безопасность, Сетевые технологии, Системное администрирование] SIGRed — новая критическая уязвимость в Windows Server. Как защититься?
- [Сетевые технологии, Системное администрирование] Zextras запускает собственную версию почтового сервера Zimbra 9 Open Source
- [Системное администрирование, Хостинг] Apache & Nginx. Связаны одной цепью
- [DevOps, Системное администрирование] Новые подходы автоматизации Wildfly
Теги для поиска: #_sistemnoe_administrirovanie (Системное администрирование), #_raid_kontroller (raid контроллер), #_megaraid, #_lsi_sas, #_supermicro, #_tsod (ЦОД), #_sistemnoe_administrirovanie (системное администрирование), #_sistemnoe_administrirovanie (
Системное администрирование
)
Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Текущее время: 23-Ноя 00:23
Часовой пояс: UTC + 5
Автор | Сообщение |
---|---|
news_bot ®
Стаж: 6 лет 9 месяцев |
|
TL;DR; настройка режима работы системы охлаждения сервера Supermicro Optimal не обеспечивает стабильность работы LSI-контроллера MegaRAID 9361-8i в холодном ЦОД-е. Мы стараемся не использовать аппаратные контроллеры RAID, но есть у нас один клиент, который предпочитает именно конфигурации c LSI MegaRAID. Сегодня мы столкнулись с перегревом карты MegaRAID 9361-8i в связи с тем, что платформа не чувствовала перегрева, а RAID-контроллер его чувствовал. Вид платформы с RAID-картой представлен на рисунках ниже: Несколько важных моментов, связанных с этим сервером и средой эксплуатации: Инженер, собиравший платформу специально поставил напротив карты два вентилятора, поскольку знает, что LSI-контроллеры сильно греются. Обратите внимание на материнскую плату, она под контроллер практически не заходит, заканчиваясь через 3 см после слота PCI-E. Как видите, все вентиляторы подключены штатно к материнской плате Supermicro и в режиме Optimal "дуют" в зависимости от сенсоров на ней, температуры CPU. В данной платформе стоит Xeon E-2236 — весьма холодный CPU, который у клиента, видимо, сильно и не нагревался. ЦОД, в котором стоит данный сервер весьма холодный — холодный коридор дает 18-20 градусов. Совокупность этих факторов привела к весьма интересному явлению — перегреву RAID-контроллера. Вероятная цепочка, как это произошло:
Что сделали Переключили вентиляторы в режим "Standard", при необходимости переведем в более высокий режим производительности. Выводы Скорее всего, если бы холодный коридор ЦОД-а был бы не таким холодным, или клиент бы интенсивно использовал CPU, данная проблема могла бы и не произойти, поскольку вентиляторы бы работали в более интенсивном режиме. Для себя мы решили обязательно менять режим работы вентиляторов на серверах с RAID с Optimal на режим с повышенной частотой вращения. =========== Источник: habr.com =========== Похожие новости:
Системное администрирование ) |
|
Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Текущее время: 23-Ноя 00:23
Часовой пояс: UTC + 5