[Машинное обучение, Искусственный интеллект, Сетевое оборудование] Обучение с подкреплением и эвристический анализ на коммутаторах ЦОД: предпосылки и преимущества

Автор Сообщение
news_bot ®

Стаж: 6 лет 9 месяцев
Сообщений: 27286

Создавать темы news_bot ® написал(а)
29-Ноя-2020 17:31

Перед конференцией AI Journey, которую Huawei поддерживает как титульный партнёр и на которой выступит несколько наших спикеров, мы решили поделиться предварительной информацией о наших наработках, и в частности о том, как используем искусственный интеллект в умных сетях ЦОД. И заодно пояснить, почему устоявшихся технологий недостаточно для построения современных сетей ЦОД и нам нужна «дружеская помощь» от ИИ.

Что происходит в сфере условных lossless-сетей
За годы, когда среды передачи данных переживали бурное развитие, инженеры успели столкнуться со множеством явлений, препятствующих успешной реализации сетей хранения данных и высокопроизводительных кластеров вычислений на Ethernet: потерями, негарантированной доставкой информации, deadlock, microburst и другими малоприятными вещами.
Как следствие, считалось правильным строить референсную выделенную сеть под определённый сценарий:
  • IB для кластеров высоконагруженных вычислений;
  • FC для классической сети хранения;
  • Ethernet для сервисной задачи.

Попытки добиться универсальности выглядели приблизительно как на иллюстрации.

По каким-то задачам векторы могли совпадать (примерно как у лебедя и рака), и ситуативно универсальность достигалась, хоть и с меньшим КПД, чем при выборе узкоспециализированного сценария.
Сегодня Huawei видит будущее в многозадачных конвергентных фабриках и предлагает своим заказчикам решение AI Fabric, рассчитанное, с одной стороны, на сценарии повышения производительности сети без потерь (до 200 Гбит/с на порт сервера в 2020 году), с другой — на увеличение производительности самих приложений (переход к RoCEv2).
О технической составляющей AI Fabric у нас, кстати, был отдельный подробный пост.
Что нуждается в оптимизации
Прежде чем рассуждать об алгоритмах, имеет смысл уточнить, что конкретно они призваны улучшить.
Static ECN приводит к тому, что с увеличением числа серверов-отправителей при едином получателе вырисовывается, мягко говоря, неоптимальная картина трафика (мы имеем дело с так называемой many-to-one incast моделью).

В традиционном Ethernet нам придётся вручную добиваться баланса между коэффициентами вероятности потерь на сети и низкой производительностью самой сети.

Те же предпосылки мы увидим также при использования связки PFC/ECN в случае реализации без постоянного тюнинга (см. рис. ниже).

Для решения описанных проблем мы задействуем алгоритм AI ECN, суть работы которого заключается в своевременном изменении порогов ECN. Как это выглядит, показано на схеме ниже.

Раньше, когда мы использовали связку «чипсет Broadcom + ИИ-процессор Ascend 310», у нас было ограниченное количество возможностей по тюнингу таких параметров.
Такой вариант мы можем условно назвать Software AI ECN, так как логика делается на отдельном чипе и уже «проливается» в коммерческий чипсет.

У моделей, которые снабжены чипсетом P5 производства Huawei, «ИИ-возможности» существенно шире (особенно на свежем релизе), благодаря тому, что на нём реализована значительная часть необходимой для этого функциональности.

Как используем алгоритмы
Используя Ascend 310 (или встроенный в P-карты модуль), мы начинаем анализировать трафик и сравнивать его с эталонной базой известных приложений.

В случае с известными приложениями показатели трафика оптимизируются «на лету», в случае с неизвестными происходит переход к следующему шагу.

Ключевые моменты:
  • Производится обучение с подкреплением DDQN, исследование, накопление большого количества конфигураций базовых линий и исследование лучшей стратегии соответствия ECN.
  • Классификатор CNN идентифицирует сценарии и определяет, является ли рекомендуемый порог DDQN надёжным.
  • Если рекомендуемый порог DDQN ненадёжен, для его коррекции используется эвристический метод, с тем чтобы убедиться, что решение является обобщённым.

Такой подход позволяет скорректировать механизмы работы с неизвестными приложениями, а при большом желании можно и задать модель для своего приложения, используя Northbound API к системе управления коммутаторами.

Ключевые моменты:
  • DDQN накапливает большое количество образцов памяти для конфигурации базовой линии и глубоко исследует логику согласования состояния сети и конфигурации базовой линии для изучения политик.
  • Классификатор нейронных сетей CNN идентифицирует сценарии, чтобы избежать рисков, которые могут возникнуть, когда ненадёжные конфигурации ECN рекомендуются в неизвестных сценариях.

Что получаем
После такого цикла адаптации и изменения дополнительных сетевых порогов и настроек становится возможным избавиться от проблем сразу нескольких типов.
  • Проблемы производительности: низкая пропускная способность, длительная задержка, потеря пакетов, джиттер.

  • Проблемы с PFC: PFC-тупик, HOL, штормы и т. д. PFC-технология вызывает множество проблем системного уровня.

  • Проблемы приложений RDMA: ИИ / высокопроизводительные вычисления, распределённое хранение и их сочетания. RDMA-приложения чувствительны к производительности сети.

Резюме
В конечном счёте дополнительные алгоритмы машинного обучения помогают нам решить классические проблемы «неотзывчивой» сетевой среды Ethernet. Таким образом, мы ещё на шаг приближаемся к экосистеме прозрачных и удобных сквозных сетевых сервисов — в противовес набору разрозненных технологий и продуктов.
***
Материалы по решениям Huawei продолжают появляться в нашей онлайн-библиотеке. В том числе по темам, затронутым в этом посте (например, до построении полноразмерных ИИ-решений под различные сценарии «умных» ЦОДов). А список наших вебинаров на ближайшие недели вы найдёте по ссылке.
===========
Источник:
habr.com
===========

Похожие новости: Теги для поиска: #_mashinnoe_obuchenie (Машинное обучение), #_iskusstvennyj_intellekt (Искусственный интеллект), #_setevoe_oborudovanie (Сетевое оборудование), #_huawei, #_huawei_enterprise, #_huawei_ai_ecn, #_ecn, #_ai_fabric, #_ascend_310, #_umnyj_tsod (умный цод), #_ddqn, #_mashinnoe_obuchenie (машинное обучение), #_blog_kompanii_huawei (
Блог компании Huawei
)
, #_mashinnoe_obuchenie (
Машинное обучение
)
, #_iskusstvennyj_intellekt (
Искусственный интеллект
)
, #_setevoe_oborudovanie (
Сетевое оборудование
)
Профиль  ЛС 
Показать сообщения:     

Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы

Текущее время: 22-Ноя 14:17
Часовой пояс: UTC + 5