[Машинное обучение, Искусственный интеллект, Сетевое оборудование] Обучение с подкреплением и эвристический анализ на коммутаторах ЦОД: предпосылки и преимущества

Ответить на тему

Автор

Сообщение

news_bot ^®

Стаж: 7 лет 4 месяца
Сообщений: 27286

news_bot ^® написал(а)
29-Ноя-2020 17:31

Цитировать

Перед конференцией AI Journey, которую Huawei поддерживает как титульный партнёр и на которой выступит несколько наших спикеров, мы решили поделиться предварительной информацией о наших наработках, и в частности о том, как используем искусственный интеллект в умных сетях ЦОД. И заодно пояснить, почему устоявшихся технологий недостаточно для построения современных сетей ЦОД и нам нужна «дружеская помощь» от ИИ.

Что происходит в сфере условных lossless-сетей
За годы, когда среды передачи данных переживали бурное развитие, инженеры успели столкнуться со множеством явлений, препятствующих успешной реализации сетей хранения данных и высокопроизводительных кластеров вычислений на Ethernet: потерями, негарантированной доставкой информации, deadlock, microburst и другими малоприятными вещами.
Как следствие, считалось правильным строить референсную выделенную сеть под определённый сценарий:

IB для кластеров высоконагруженных вычислений;
FC для классической сети хранения;
Ethernet для сервисной задачи.

Попытки добиться универсальности выглядели приблизительно как на иллюстрации.

По каким-то задачам векторы могли совпадать (примерно как у лебедя и рака), и ситуативно универсальность достигалась, хоть и с меньшим КПД, чем при выборе узкоспециализированного сценария.
Сегодня Huawei видит будущее в многозадачных конвергентных фабриках и предлагает своим заказчикам решение AI Fabric, рассчитанное, с одной стороны, на сценарии повышения производительности сети без потерь (до 200 Гбит/с на порт сервера в 2020 году), с другой — на увеличение производительности самих приложений (переход к RoCEv2).
О технической составляющей AI Fabric у нас, кстати, был отдельный подробный пост.
Что нуждается в оптимизации
Прежде чем рассуждать об алгоритмах, имеет смысл уточнить, что конкретно они призваны улучшить.
Static ECN приводит к тому, что с увеличением числа серверов-отправителей при едином получателе вырисовывается, мягко говоря, неоптимальная картина трафика (мы имеем дело с так называемой many-to-one incast моделью).

В традиционном Ethernet нам придётся вручную добиваться баланса между коэффициентами вероятности потерь на сети и низкой производительностью самой сети.

Те же предпосылки мы увидим также при использования связки PFC/ECN в случае реализации без постоянного тюнинга (см. рис. ниже).

Для решения описанных проблем мы задействуем алгоритм AI ECN, суть работы которого заключается в своевременном изменении порогов ECN. Как это выглядит, показано на схеме ниже.

Раньше, когда мы использовали связку «чипсет Broadcom + ИИ-процессор Ascend 310», у нас было ограниченное количество возможностей по тюнингу таких параметров.

Такой вариант мы можем условно назвать Software AI ECN, так как логика делается на отдельном чипе и уже «проливается» в коммерческий чипсет.

У моделей, которые снабжены чипсетом P5 производства Huawei, «ИИ-возможности» существенно шире (особенно на свежем релизе), благодаря тому, что на нём реализована значительная часть необходимой для этого функциональности.

Как используем алгоритмы
Используя Ascend 310 (или встроенный в P-карты модуль), мы начинаем анализировать трафик и сравнивать его с эталонной базой известных приложений.

В случае с известными приложениями показатели трафика оптимизируются «на лету», в случае с неизвестными происходит переход к следующему шагу.

Ключевые моменты:

Производится обучение с подкреплением DDQN, исследование, накопление большого количества конфигураций базовых линий и исследование лучшей стратегии соответствия ECN.
Классификатор CNN идентифицирует сценарии и определяет, является ли рекомендуемый порог DDQN надёжным.
Если рекомендуемый порог DDQN ненадёжен, для его коррекции используется эвристический метод, с тем чтобы убедиться, что решение является обобщённым.

Такой подход позволяет скорректировать механизмы работы с неизвестными приложениями, а при большом желании можно и задать модель для своего приложения, используя Northbound API к системе управления коммутаторами.

Ключевые моменты:

DDQN накапливает большое количество образцов памяти для конфигурации базовой линии и глубоко исследует логику согласования состояния сети и конфигурации базовой линии для изучения политик.
Классификатор нейронных сетей CNN идентифицирует сценарии, чтобы избежать рисков, которые могут возникнуть, когда ненадёжные конфигурации ECN рекомендуются в неизвестных сценариях.

Что получаем
После такого цикла адаптации и изменения дополнительных сетевых порогов и настроек становится возможным избавиться от проблем сразу нескольких типов.

Проблемы производительности: низкая пропускная способность, длительная задержка, потеря пакетов, джиттер.
Проблемы с PFC: PFC-тупик, HOL, штормы и т. д. PFC-технология вызывает множество проблем системного уровня.
Проблемы приложений RDMA: ИИ / высокопроизводительные вычисления, распределённое хранение и их сочетания. RDMA-приложения чувствительны к производительности сети.

Резюме
В конечном счёте дополнительные алгоритмы машинного обучения помогают нам решить классические проблемы «неотзывчивой» сетевой среды Ethernet. Таким образом, мы ещё на шаг приближаемся к экосистеме прозрачных и удобных сквозных сетевых сервисов — в противовес набору разрозненных технологий и продуктов.
***
Материалы по решениям Huawei продолжают появляться в нашей онлайн-библиотеке. В том числе по темам, затронутым в этом посте (например, до построении полноразмерных ИИ-решений под различные сценарии «умных» ЦОДов). А список наших вебинаров на ближайшие недели вы найдёте по ссылке.
===========
Источник:
habr.com
===========
Похожие новости:

Теги для поиска: #_mashinnoe_obuchenie (Машинное обучение), #_iskusstvennyj_intellekt (Искусственный интеллект), #_setevoe_oborudovanie (Сетевое оборудование), #_huawei, #_huawei_enterprise, #_huawei_ai_ecn, #_ecn, #_ai_fabric, #_ascend_310, #_umnyj_tsod (умный цод), #_ddqn, #_mashinnoe_obuchenie (машинное обучение), #_blog_kompanii_huawei (
Блог компании Huawei
), #_mashinnoe_obuchenie (
Машинное обучение
), #_iskusstvennyj_intellekt (
Искусственный интеллект
), #_setevoe_oborudovanie (
Сетевое оборудование
)

Профиль ЛС

Ответить на тему

Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы

Текущее время: 01-Июл 02:45
Часовой пояс: UTC + 5