[Сетевое оборудование, Сетевые технологии] Huawei CloudFabric 2.0: какими должны быть сетевые решения для ЦОДов в умном цифровом банкинге
Автор
Сообщение
news_bot ®
Стаж: 6 лет 9 месяцев
Сообщений: 27286
На прошедшей в онлайн-режиме Huawei FSI Week 2020 технический директор линейки продуктов Huawei для передачи данных Дэниел Тан (Daniel Tang) доступным языком рассказал про новейшие достижения компании по части сетевых решений для дата-центров, которые обеспечивают превращение ЦОДа из «просто облачного» в по-настоящему интеллектуальный. А заодно сделал короткий экскурс в предысторию этого превращения.
Что изменилось в банкинге для потребителя
В Китае ещё каких-то пять лет назад получить кредит было делом небыстрым — для простого смертного уж точно. Требовалось заполнить уйму бумаг, отправить или отнести их в отделение банка, возможно даже отстояв в очереди, и назад домой, ждать решения. Сколько ждать? А как выйдет, от недели до нескольких месяцев.
К 2020 году эта процедура упростилась разительно. Недавно я провёл маленький эксперимент — попробовал получить кредит с помощью мобильного приложения своего банка. Несколько тапов по экрану смартфона — и система обещает дать мне ответ самое позднее через четверть часа. Но уже меньше чем через пять минут мне падает push-уведомление с указанием того, на заём какого размера я вправе рассчитывать. Согласитесь, впечатляющий прогресс в сравнении с ситуацией пятилетней давности. Любопытно, на что требовались целые дни и недели в недавнем прошлом.
Так вот, раньше большая часть времени уходила на проверку данных и скоринг вручную. Все сведения из анкет и прочих бумаг нужно было внести в IT-систему банка. Но это было лишь началом мытарств: сотрудники банка лично проверяли вашу кредитную историю, после чего принимали итоговое решение. Покидали офис они в 17:00 или 18:00, на выходных отдыхали, и процесс, как следствие, мог затянуться надолго.
В наши дни всё иначе. Человеческий фактор во многих задачах цифрового банкинга вообще вынесен за скобки. Оценка, включая антифрод- и AML-проверки, выполняется автоматически, с применением умных алгоритмов. Машинам отдых ни к чему, поэтому функционируют они без выходных и круглосуточно. Кроме того, изрядный объём сведений, необходимых для принятия решений, уже хранится в банковских базах данных. А значит, вынесение вердикта осуществляется за гораздо более короткий период, чем в «айтишной древности».
Вообще, раньше банковский дата-центр задействовался скорее под решение задач «регистрационного» типа. Долгое время он оставался лишь учётным центром и сам ничего не производил. Сегодня же становится всё больше «умных» дата-центров, где создаётся продукт. Они применяются для сложных вычислений и помогают получать на основе сырых массивов данных интеллектуальные выкладки — по сути, знания с высокой добавленной ценностью. Вдобавок постоянный дата-майнинг — если, конечно, правильно его готовить — в конечном счёте дополнительно повышает эффективность процессов.
Такие преобразования происходят не только в финансах, но и практически во всех бизнес-вертикалях. Для компаний самого разного профиля (и для нас, как производителя решений) дата-центры сейчас главная опора в мире, где как никогда остра конкуренция интеллектуальных разработок. Ещё лет пять назад было мейнстримом рассуждать в русле того, что дата-центр вписан в мир облачных технологий, и это предполагало возможности гибко масштабировать общий распределяемый пул ресурсов для вычислений и хранения данных. Но на дворе эра умных решений, и в ЦОДе мы можем на постоянной основе производить интеллектуальный анализ данных, конвертируя полученные результаты в экстраординарный рост производительности. В финансовом секторе эти изменения как раз и приводят — в числе многих прочих результатов — к тому, что вынесение оценки по запросам на выдачу кредитов радикально ускоряется. Или, например, дают возможность моментально рекомендовать наиболее подходящие конкретному клиенту банка финансовые продукты.
В госсекторе, в телекоме, в энергетике интеллектуальная работа с данными сегодня способствуют цифровой трансформации с кардинальным увеличением продуктивности организации. Естественно, новые обстоятельства будут формировать новый запрос, причём не только по отношению к вычислительным ресурсам и системам хранения данных, но и по отношению к сетевым решениям для дата-центров.
Каким должен быть «умный ЦОД»
Мы в Huawei выделили три главных вызова для дата-центров в эпоху «интеллектуальных ЦОДов».
Во-первых, для работы с неиссякающими потоками новых данных необходима экстраординарная пропускная способность. По нашим наблюдениям, за последние пять лет объём хранимых в дата-центрах данных вырос вдесятеро. Но что ещё больше впечатляет, так это какой трафик генерируется при обращении к таким данным. В дата-центрах «регистрационного типа» вся эта информация использовалась для решения задач учётного характера и нередко лежала мёртвым грузом, а в ЦОДах нового типа она «работает» — нам необходимо обеспечивать постоянный data mining. Как следствие, при доступе к единице хранимых данных производится в 10–1000 раз больше итераций, чем прежде. Скажем, при обучении ИИ-моделей практически нон-стоп фоново выполняются вычислительные задачи с постоянным функционированием алгоритмов нейросети, ради того чтобы повысить «интеллектуальность» системы. Таким образом, растут не только объёмы хранимых данных, но и трафик, который формируется при обращении к ним. Так что вовсе не по прихоти телеком-вендоров на новых моделях цодовских серверах всё больше сто- и двухсотгигабитных портов.
Во-вторых, отсутствие потерь пакетов данных в 2020 году абсолютный the must. Во всяком случае, с нашей точки зрения. Раньше такие потери не были головной болью для инженеров банковских ЦОДов. Узкими местами были вычислительная мощность и эффективность хранения данных. Но средние по индустрии значения и того и другого показателя за минувшие пять лет в мировом масштабе существенно повысились. Закономерно, что бутылочным горлышком в работе дата-центров оказалась эффективность сетевой инфраструктуры. При работе с одним из наших ведущих клиентов мы установили, что каждый процент, добавляющийся к показателю потери пакетов данных, грозит снизить эффективность обучения ИИ-моделей вдвое. Отсюда огромное влияние на продуктивность и результативность использования вычислительных ресурсов и систем хранения данных. Вот что необходимо преодолеть, чтобы поддержать превращение простого дата-центра в дата-центр интеллектуальной эпохи.
В-третьих, важно предоставлять сервис бесшовно и беспрерывно. Современный цифровой банкинг приучил, и приучил совершенно правильно, людей к тому, что услуги финансовых организаций могут, вернее, даже должны быть доступны 24/7. Обычная ситуация: замотавшийся предприниматель со сбитым распорядком дня, остро нуждающийся в дополнительных средствах, просыпается ближе к полночи и хочет выяснить, на какую кредитную линию ему рассчитывать. Пути назад отрезаны: у банка больше нет возможности планово приостановить работу ДЦ, чтобы что-то починить или провести апгрейд.
Наше решение CloudFabric 2.0 как раз и предназначено для того, чтобы справляться с перечисленными вызовами. Оно поддерживает высочайшую пропускную способность, интеллектуальное управление сетями ЦОД и безукоризненное функционирование сетей с автономным управлением (англ. autonomous driving networks — ADN).
Что есть в CloudFabric 2.0 для «умных ЦОДов»
Что касается высокой пропускной способности, мы закладываемся не только на масштабирование своих сетевых решений, но и на гибкость в работе с ними. Например, цодовские коммутаторы Huawei линейки CloudEngine стали первыми в индустрии устройствами такого класса со встроенным процессором для «нейросетевых» вычислений в режиме реального времени, помогающим в том числе решать проблемы внутри сетевой инфраструктуры и не допускать потери пакетов данных (это достигается применением алгоритма iLossless, в том числе для сценария iNOF RoCE). Но, разумеется, имеет значение и собственно пропускная способность. В том числе важна поддержка интерфейсов 400 Гбит/с, равно как и обратная совместимость с распространёнными на текущий момент десяти-, сорока- и стогигабитными подключениями.
Опорным узлам инфраструктуры должна быть под силу и работа с высокой плотностью подключений (так называемые high-density-сценарии), при возможности значительного масштабирования решения. В нашей флагманской цодовской модели CloudEngine 16800 реализована поддержка до 48 портов по 400 Гбит/с на слот — втрое больше, чем у ближайшего к ней аналога от наших конкурентов.
Что касается системы в целом, возможности по расширению пропускной способности в расчёте на шасси (per chassis scalability) тоже впечатляющие — 768 портов по 400 Гбит/с на одно шасси, или вшестеро больше, чем позволяют решения других игроков рынка. Это даёт нам основания называть CloudEngine 16800 самым производительным коммутатором для ЦОДа в эпоху победившего ИИ.
На передний план выходит и интеллектуальная составляющая сетевого решения. В частности, необходима она и для того, чтобы обеспечивать нулевой уровень потерь пакетов данных. Для достижения такого результата мы применяем самые передовые свои технологические достижения, включая встроенный ИИ-процессор для «нейросетевых» вычислений, а также ранее упомянутый алгоритм iLossless. Делая проекты для своих ведущих заказчиков, мы убедились в том, что эти решения способны существенно повысить производительность систем по меньшей мере в двух распространённых сценариях.
Первый — обучение ИИ-моделей. Оно требуется постоянного обращения к данным и вычислений по огромным матрицам или «тяжеловесных» операций с TensorFlow. Наш iLossless способен увеличивать производительность обучения ИИ-моделей на 27% процентов — доказано на реальных кейсах и подтверждено тестом лаборатории The Tolly Group. Второй сценарий — повышение эффективности систем хранения данных. Её, в свою очередь, применение наших разработок способно поднять приблизительно на 30%.
Помимо всего прочего, вместе со своими заказчиками мы стремимся опробовать новые возможности, которые открывают наши разработки. Уверены, посредством улучшения завязанной на Ethernet коммутационной «фабрики» (switching fabric) для дата-центра нам под силу преобразовать высокопроизводительную цодовскую «фабрику» с сетью хранения данных в единую, целостную основанную на Ethernet инфраструктуру. Так, чтобы не только поднять производительность процессов обучения ИИ-моделей и улучшить доступ к программно-определяемым хранилищам данных, но и ощутимо оптимизировать совокупную стоимость владения дата-центром путём взаимной интеграции и объединения вертикальных, независимых на физическом уровней сетей.
Многим нашим клиентам нравится обкатывать эти новые возможности. И один из таких клиентов — сама Huawei. В частности, входящая в состав нашей группы компаний Huawei Cloud. Тесно сотрудничая с нашими коллегами из этого подразделения, мы удостоверились в том, что, гарантировав им отсутствие потерь пакетов данных, дали импульс к заметному улучшению их бизнес-процессов. Наконец, среди своих «внутренних» достижений отметим тот факт, что в Atlas 900, самом крупном ИИ-кластере в мире, мы в состоянии обеспечивать вычислительную мощность, задействуемую под обучение искусственного интеллекта, на отметке выше 1 тыс. петафлопс — высочайший показатель в компьютерной индустрии на сегодняшний день.
Другой остроактуальный сценарий — облачное хранение данных с использованием All-Flash-систем. По меркам отрасли это очень «трендовый» сервис. При наращивании вычислительных ресурсов и расширении хранилищ естественным образом требуются и передовые технологии из сферы цодовских сетевых решений. Так что мы продолжаем работать с Huawei Cloud и воплощаем всё новые и новые прикладные сценарии с применением своих сетевых решений.
Что умеют сегодня ADN-сети
Обратимся к сетям с автономным управлением (ADN). Спору нет, программно-определяемые сети (software-defined networks) с точки зрения технологий — уверенный шаг вперёд в управлении сетевой составляющей дата-центра. Прикладное воплощение концепции SDN значительно ускоряет инициализацию и конфигурирование сетевого слоя ЦОДа. Но, конечно, предоставляемых ею возможностей недостаточно для того, чтобы полностью автоматизировать O&M дата-центра. Чтобы пойти дальше, нужно справиться с тремя первоочередными вызовами.
Во-первых, в сетевой инфраструктуре дата-центров всё больше возможностей, связанных с предоставлением сервисов и настройками их функционирования, в финансовом секторе — особенно. Важно иметь возможность автоматически переводить запрос сервисного уровня (service-level intent) на сетевой уровень.
Во-вторых, дело упирается и в верификацию таких инкрементальных команд (incremental provisioning commands). Понятное дело, в сетях ЦОДов многое сконфигурировано давным-давно, на базе крепко укоренившихся или даже устаревших подходов. Как убедиться в том, что дополнительная настройка не нарушит отлаженных процедур? Без автоматической верификации новых дополнительных настроек не обойтись. Именно автоматической, поскольку совокупность существующих настроек в ЦОДе обычно непомерно велика. Вручную с ней практически не совладать.
В-третьих, встаёт вопрос о действенном оперативном устранении проблем в сетевой инфраструктуре. Когда автоматизация достигает высокого уровня, у администраторов и сервисных инженеров дата-центра уже не получается в режиме реального времени отслеживать, что творится в сети. Им нужен инструментарий, способный сделать сеть с тысячами изменений в день устойчиво прозрачной для них, а также сформировать базы данных, построенные на графах знаний, — чтобы быстро справляться с проблемами.
Сети класса ADN могут помочь нам ответить на эти вызовы, которые сопряжены с переходом к подлинно «умным» дата-центрам. И идеология сетей с автономным управлением (она перекочевала в мир дата-центров из соседней индустрии — на стыке IoT и V2X, в частности) позволяет пересмотреть подходы к автоматизации на разных уровнях сети ЦОДа.
На текущий момент в автономности управлении сетей для дата-центров мы достигли уровня L3 (conditional automation). Это означает высокую степень автоматизации ЦОДа, при которой вмешательство человека требуется точечно и лишь при определённых условиях.
Между тем в ряде сценариев возможна и полная автоматизация. С нашими клиентами мы уже работаем в рамках совместной программы по реализации инноваций для всесторонней автоматизации сетей ЦОДов в соответствии с концепцией ADN, прежде всего в разрезе устранения проблем в сети, и применительно к самым злободневным и трудоёмким из них добились успехов: так, с помощью наших интеллектуальных технологий автоматически удаётся закрыть около 85% наиболее часто развивающихся сценариев сбоев в сетях дата-центров.
Эта функциональность реализуется в рамках нашей концепции O&M 1-3-5: минута на установление того факта, что сбой произошёл, или на обнаружение риска сбоя, три минуты на то, чтобы определить его первопричину, и пять минут на то, чтобы предложить, как его ликвидировать. Само собой, пока для принятия окончательных решений необходимо человеческое участие — в частности, выбрать одно из возможных решений и отдать команду на его исполнение. Кто-то должен брать на себя ответственность за выбор. Однако, отталкиваясь от практики, мы полагаем, что система и в нынешнем её исполнении предлагает весьма квалифицированные и уместные решения.
Вот вкратце наиболее сложные вызовы, которые стоят перед архитекторами «умных» ЦОДов в 2020 году, и мы с ними уже фактически справились. Например, функциональность для перевода запросов с сервисного уровня на сетевой и для автоматической верификации настроек уже входит в CloudFabric 2.0.
Нам приятно, что наши достижения были оценены — и в этом году мы получили награду «Выбор клиентов» в рамках рейтинга Gartner Peer Insights, а также F&S Global Data Center Switch Technology Leadership Award — за коммутатор CloudEngine 16800, который был отмечен за выдающуюся пропускную способность, высочайшую плотность 400-гигабитных интерфейсов и общую масштабируемость системы, а также за интеллектуальные технологии, позволяющие, в частности, свести к нулю уровень потери пакетов данных.
===========
Источник:
habr.com
===========
Похожие новости:
- [Информационная безопасность, Сетевое оборудование, Сетевые технологии, Системное администрирование] 3. NGFW для малого бизнеса. Беспроводная передача данных: WiFi и LTE
- [Open source, Децентрализованные сети, Информационная безопасность, Криптография, Сетевые технологии] Почему я использую Matrix вместо Telegram
- [Распределённые системы, Сетевые технологии, Тестирование IT-систем] RIPE Atlas
- [Информационная безопасность, Сетевые технологии] Концепция Network 2030: как изменится интернет через 10 лет
- [IT-инфраструктура, Информационная безопасность, Сетевые технологии] 1. Group-IB. Комплексная защита сети. Архитектура TDS
- [Информационная безопасность, Сетевые технологии, Системное администрирование] 1. Check Point SandBlast Agent Management Platform
- [C, C++, Компиляторы, Системное программирование] Что такое LLVM и зачем он нужен?
- [Беспроводные технологии, Будущее здесь, Сетевое оборудование, Сетевые технологии] Wi-Fi 6: нужен ли новый стандарт беспроводной связи обычному пользователю и если да, то зачем?
- [Информационная безопасность, Системное администрирование, Сетевые технологии, Сетевое оборудование] 2. NGFW для малого бизнеса. Распаковка и настройка
- [IT-компании, Процессоры, Компьютерное железо] TSMC официально подтвердила, что больше не принимает заказы от Huawei
Теги для поиска: #_setevoe_oborudovanie (Сетевое оборудование), #_setevye_tehnologii (Сетевые технологии), #_huawei, #_huawei_enterprise, #_datatsentry (дата-центры), #_tsody (цоды), #_cloud_fabric, #_cloud_fabric_2.0, #_cloudengine, #_cloudengine_16800, #_adn, #_ilossless, #_blog_kompanii_huawei (
Блог компании Huawei
), #_setevoe_oborudovanie (
Сетевое оборудование
), #_setevye_tehnologii (
Сетевые технологии
)
Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Текущее время: 22-Ноя 12:10
Часовой пояс: UTC + 5
Автор | Сообщение |
---|---|
news_bot ®
Стаж: 6 лет 9 месяцев |
|
На прошедшей в онлайн-режиме Huawei FSI Week 2020 технический директор линейки продуктов Huawei для передачи данных Дэниел Тан (Daniel Tang) доступным языком рассказал про новейшие достижения компании по части сетевых решений для дата-центров, которые обеспечивают превращение ЦОДа из «просто облачного» в по-настоящему интеллектуальный. А заодно сделал короткий экскурс в предысторию этого превращения. Что изменилось в банкинге для потребителя В Китае ещё каких-то пять лет назад получить кредит было делом небыстрым — для простого смертного уж точно. Требовалось заполнить уйму бумаг, отправить или отнести их в отделение банка, возможно даже отстояв в очереди, и назад домой, ждать решения. Сколько ждать? А как выйдет, от недели до нескольких месяцев. К 2020 году эта процедура упростилась разительно. Недавно я провёл маленький эксперимент — попробовал получить кредит с помощью мобильного приложения своего банка. Несколько тапов по экрану смартфона — и система обещает дать мне ответ самое позднее через четверть часа. Но уже меньше чем через пять минут мне падает push-уведомление с указанием того, на заём какого размера я вправе рассчитывать. Согласитесь, впечатляющий прогресс в сравнении с ситуацией пятилетней давности. Любопытно, на что требовались целые дни и недели в недавнем прошлом. Так вот, раньше большая часть времени уходила на проверку данных и скоринг вручную. Все сведения из анкет и прочих бумаг нужно было внести в IT-систему банка. Но это было лишь началом мытарств: сотрудники банка лично проверяли вашу кредитную историю, после чего принимали итоговое решение. Покидали офис они в 17:00 или 18:00, на выходных отдыхали, и процесс, как следствие, мог затянуться надолго. В наши дни всё иначе. Человеческий фактор во многих задачах цифрового банкинга вообще вынесен за скобки. Оценка, включая антифрод- и AML-проверки, выполняется автоматически, с применением умных алгоритмов. Машинам отдых ни к чему, поэтому функционируют они без выходных и круглосуточно. Кроме того, изрядный объём сведений, необходимых для принятия решений, уже хранится в банковских базах данных. А значит, вынесение вердикта осуществляется за гораздо более короткий период, чем в «айтишной древности». Вообще, раньше банковский дата-центр задействовался скорее под решение задач «регистрационного» типа. Долгое время он оставался лишь учётным центром и сам ничего не производил. Сегодня же становится всё больше «умных» дата-центров, где создаётся продукт. Они применяются для сложных вычислений и помогают получать на основе сырых массивов данных интеллектуальные выкладки — по сути, знания с высокой добавленной ценностью. Вдобавок постоянный дата-майнинг — если, конечно, правильно его готовить — в конечном счёте дополнительно повышает эффективность процессов. Такие преобразования происходят не только в финансах, но и практически во всех бизнес-вертикалях. Для компаний самого разного профиля (и для нас, как производителя решений) дата-центры сейчас главная опора в мире, где как никогда остра конкуренция интеллектуальных разработок. Ещё лет пять назад было мейнстримом рассуждать в русле того, что дата-центр вписан в мир облачных технологий, и это предполагало возможности гибко масштабировать общий распределяемый пул ресурсов для вычислений и хранения данных. Но на дворе эра умных решений, и в ЦОДе мы можем на постоянной основе производить интеллектуальный анализ данных, конвертируя полученные результаты в экстраординарный рост производительности. В финансовом секторе эти изменения как раз и приводят — в числе многих прочих результатов — к тому, что вынесение оценки по запросам на выдачу кредитов радикально ускоряется. Или, например, дают возможность моментально рекомендовать наиболее подходящие конкретному клиенту банка финансовые продукты. В госсекторе, в телекоме, в энергетике интеллектуальная работа с данными сегодня способствуют цифровой трансформации с кардинальным увеличением продуктивности организации. Естественно, новые обстоятельства будут формировать новый запрос, причём не только по отношению к вычислительным ресурсам и системам хранения данных, но и по отношению к сетевым решениям для дата-центров. Каким должен быть «умный ЦОД» Мы в Huawei выделили три главных вызова для дата-центров в эпоху «интеллектуальных ЦОДов». Во-первых, для работы с неиссякающими потоками новых данных необходима экстраординарная пропускная способность. По нашим наблюдениям, за последние пять лет объём хранимых в дата-центрах данных вырос вдесятеро. Но что ещё больше впечатляет, так это какой трафик генерируется при обращении к таким данным. В дата-центрах «регистрационного типа» вся эта информация использовалась для решения задач учётного характера и нередко лежала мёртвым грузом, а в ЦОДах нового типа она «работает» — нам необходимо обеспечивать постоянный data mining. Как следствие, при доступе к единице хранимых данных производится в 10–1000 раз больше итераций, чем прежде. Скажем, при обучении ИИ-моделей практически нон-стоп фоново выполняются вычислительные задачи с постоянным функционированием алгоритмов нейросети, ради того чтобы повысить «интеллектуальность» системы. Таким образом, растут не только объёмы хранимых данных, но и трафик, который формируется при обращении к ним. Так что вовсе не по прихоти телеком-вендоров на новых моделях цодовских серверах всё больше сто- и двухсотгигабитных портов. Во-вторых, отсутствие потерь пакетов данных в 2020 году абсолютный the must. Во всяком случае, с нашей точки зрения. Раньше такие потери не были головной болью для инженеров банковских ЦОДов. Узкими местами были вычислительная мощность и эффективность хранения данных. Но средние по индустрии значения и того и другого показателя за минувшие пять лет в мировом масштабе существенно повысились. Закономерно, что бутылочным горлышком в работе дата-центров оказалась эффективность сетевой инфраструктуры. При работе с одним из наших ведущих клиентов мы установили, что каждый процент, добавляющийся к показателю потери пакетов данных, грозит снизить эффективность обучения ИИ-моделей вдвое. Отсюда огромное влияние на продуктивность и результативность использования вычислительных ресурсов и систем хранения данных. Вот что необходимо преодолеть, чтобы поддержать превращение простого дата-центра в дата-центр интеллектуальной эпохи. В-третьих, важно предоставлять сервис бесшовно и беспрерывно. Современный цифровой банкинг приучил, и приучил совершенно правильно, людей к тому, что услуги финансовых организаций могут, вернее, даже должны быть доступны 24/7. Обычная ситуация: замотавшийся предприниматель со сбитым распорядком дня, остро нуждающийся в дополнительных средствах, просыпается ближе к полночи и хочет выяснить, на какую кредитную линию ему рассчитывать. Пути назад отрезаны: у банка больше нет возможности планово приостановить работу ДЦ, чтобы что-то починить или провести апгрейд. Наше решение CloudFabric 2.0 как раз и предназначено для того, чтобы справляться с перечисленными вызовами. Оно поддерживает высочайшую пропускную способность, интеллектуальное управление сетями ЦОД и безукоризненное функционирование сетей с автономным управлением (англ. autonomous driving networks — ADN). Что есть в CloudFabric 2.0 для «умных ЦОДов» Что касается высокой пропускной способности, мы закладываемся не только на масштабирование своих сетевых решений, но и на гибкость в работе с ними. Например, цодовские коммутаторы Huawei линейки CloudEngine стали первыми в индустрии устройствами такого класса со встроенным процессором для «нейросетевых» вычислений в режиме реального времени, помогающим в том числе решать проблемы внутри сетевой инфраструктуры и не допускать потери пакетов данных (это достигается применением алгоритма iLossless, в том числе для сценария iNOF RoCE). Но, разумеется, имеет значение и собственно пропускная способность. В том числе важна поддержка интерфейсов 400 Гбит/с, равно как и обратная совместимость с распространёнными на текущий момент десяти-, сорока- и стогигабитными подключениями. Опорным узлам инфраструктуры должна быть под силу и работа с высокой плотностью подключений (так называемые high-density-сценарии), при возможности значительного масштабирования решения. В нашей флагманской цодовской модели CloudEngine 16800 реализована поддержка до 48 портов по 400 Гбит/с на слот — втрое больше, чем у ближайшего к ней аналога от наших конкурентов. Что касается системы в целом, возможности по расширению пропускной способности в расчёте на шасси (per chassis scalability) тоже впечатляющие — 768 портов по 400 Гбит/с на одно шасси, или вшестеро больше, чем позволяют решения других игроков рынка. Это даёт нам основания называть CloudEngine 16800 самым производительным коммутатором для ЦОДа в эпоху победившего ИИ. На передний план выходит и интеллектуальная составляющая сетевого решения. В частности, необходима она и для того, чтобы обеспечивать нулевой уровень потерь пакетов данных. Для достижения такого результата мы применяем самые передовые свои технологические достижения, включая встроенный ИИ-процессор для «нейросетевых» вычислений, а также ранее упомянутый алгоритм iLossless. Делая проекты для своих ведущих заказчиков, мы убедились в том, что эти решения способны существенно повысить производительность систем по меньшей мере в двух распространённых сценариях. Первый — обучение ИИ-моделей. Оно требуется постоянного обращения к данным и вычислений по огромным матрицам или «тяжеловесных» операций с TensorFlow. Наш iLossless способен увеличивать производительность обучения ИИ-моделей на 27% процентов — доказано на реальных кейсах и подтверждено тестом лаборатории The Tolly Group. Второй сценарий — повышение эффективности систем хранения данных. Её, в свою очередь, применение наших разработок способно поднять приблизительно на 30%. Помимо всего прочего, вместе со своими заказчиками мы стремимся опробовать новые возможности, которые открывают наши разработки. Уверены, посредством улучшения завязанной на Ethernet коммутационной «фабрики» (switching fabric) для дата-центра нам под силу преобразовать высокопроизводительную цодовскую «фабрику» с сетью хранения данных в единую, целостную основанную на Ethernet инфраструктуру. Так, чтобы не только поднять производительность процессов обучения ИИ-моделей и улучшить доступ к программно-определяемым хранилищам данных, но и ощутимо оптимизировать совокупную стоимость владения дата-центром путём взаимной интеграции и объединения вертикальных, независимых на физическом уровней сетей. Многим нашим клиентам нравится обкатывать эти новые возможности. И один из таких клиентов — сама Huawei. В частности, входящая в состав нашей группы компаний Huawei Cloud. Тесно сотрудничая с нашими коллегами из этого подразделения, мы удостоверились в том, что, гарантировав им отсутствие потерь пакетов данных, дали импульс к заметному улучшению их бизнес-процессов. Наконец, среди своих «внутренних» достижений отметим тот факт, что в Atlas 900, самом крупном ИИ-кластере в мире, мы в состоянии обеспечивать вычислительную мощность, задействуемую под обучение искусственного интеллекта, на отметке выше 1 тыс. петафлопс — высочайший показатель в компьютерной индустрии на сегодняшний день. Другой остроактуальный сценарий — облачное хранение данных с использованием All-Flash-систем. По меркам отрасли это очень «трендовый» сервис. При наращивании вычислительных ресурсов и расширении хранилищ естественным образом требуются и передовые технологии из сферы цодовских сетевых решений. Так что мы продолжаем работать с Huawei Cloud и воплощаем всё новые и новые прикладные сценарии с применением своих сетевых решений. Что умеют сегодня ADN-сети Обратимся к сетям с автономным управлением (ADN). Спору нет, программно-определяемые сети (software-defined networks) с точки зрения технологий — уверенный шаг вперёд в управлении сетевой составляющей дата-центра. Прикладное воплощение концепции SDN значительно ускоряет инициализацию и конфигурирование сетевого слоя ЦОДа. Но, конечно, предоставляемых ею возможностей недостаточно для того, чтобы полностью автоматизировать O&M дата-центра. Чтобы пойти дальше, нужно справиться с тремя первоочередными вызовами. Во-первых, в сетевой инфраструктуре дата-центров всё больше возможностей, связанных с предоставлением сервисов и настройками их функционирования, в финансовом секторе — особенно. Важно иметь возможность автоматически переводить запрос сервисного уровня (service-level intent) на сетевой уровень. Во-вторых, дело упирается и в верификацию таких инкрементальных команд (incremental provisioning commands). Понятное дело, в сетях ЦОДов многое сконфигурировано давным-давно, на базе крепко укоренившихся или даже устаревших подходов. Как убедиться в том, что дополнительная настройка не нарушит отлаженных процедур? Без автоматической верификации новых дополнительных настроек не обойтись. Именно автоматической, поскольку совокупность существующих настроек в ЦОДе обычно непомерно велика. Вручную с ней практически не совладать. В-третьих, встаёт вопрос о действенном оперативном устранении проблем в сетевой инфраструктуре. Когда автоматизация достигает высокого уровня, у администраторов и сервисных инженеров дата-центра уже не получается в режиме реального времени отслеживать, что творится в сети. Им нужен инструментарий, способный сделать сеть с тысячами изменений в день устойчиво прозрачной для них, а также сформировать базы данных, построенные на графах знаний, — чтобы быстро справляться с проблемами. Сети класса ADN могут помочь нам ответить на эти вызовы, которые сопряжены с переходом к подлинно «умным» дата-центрам. И идеология сетей с автономным управлением (она перекочевала в мир дата-центров из соседней индустрии — на стыке IoT и V2X, в частности) позволяет пересмотреть подходы к автоматизации на разных уровнях сети ЦОДа. На текущий момент в автономности управлении сетей для дата-центров мы достигли уровня L3 (conditional automation). Это означает высокую степень автоматизации ЦОДа, при которой вмешательство человека требуется точечно и лишь при определённых условиях. Между тем в ряде сценариев возможна и полная автоматизация. С нашими клиентами мы уже работаем в рамках совместной программы по реализации инноваций для всесторонней автоматизации сетей ЦОДов в соответствии с концепцией ADN, прежде всего в разрезе устранения проблем в сети, и применительно к самым злободневным и трудоёмким из них добились успехов: так, с помощью наших интеллектуальных технологий автоматически удаётся закрыть около 85% наиболее часто развивающихся сценариев сбоев в сетях дата-центров. Эта функциональность реализуется в рамках нашей концепции O&M 1-3-5: минута на установление того факта, что сбой произошёл, или на обнаружение риска сбоя, три минуты на то, чтобы определить его первопричину, и пять минут на то, чтобы предложить, как его ликвидировать. Само собой, пока для принятия окончательных решений необходимо человеческое участие — в частности, выбрать одно из возможных решений и отдать команду на его исполнение. Кто-то должен брать на себя ответственность за выбор. Однако, отталкиваясь от практики, мы полагаем, что система и в нынешнем её исполнении предлагает весьма квалифицированные и уместные решения. Вот вкратце наиболее сложные вызовы, которые стоят перед архитекторами «умных» ЦОДов в 2020 году, и мы с ними уже фактически справились. Например, функциональность для перевода запросов с сервисного уровня на сетевой и для автоматической верификации настроек уже входит в CloudFabric 2.0. Нам приятно, что наши достижения были оценены — и в этом году мы получили награду «Выбор клиентов» в рамках рейтинга Gartner Peer Insights, а также F&S Global Data Center Switch Technology Leadership Award — за коммутатор CloudEngine 16800, который был отмечен за выдающуюся пропускную способность, высочайшую плотность 400-гигабитных интерфейсов и общую масштабируемость системы, а также за интеллектуальные технологии, позволяющие, в частности, свести к нулю уровень потери пакетов данных. =========== Источник: habr.com =========== Похожие новости:
Блог компании Huawei ), #_setevoe_oborudovanie ( Сетевое оборудование ), #_setevye_tehnologii ( Сетевые технологии ) |
|
Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Текущее время: 22-Ноя 12:10
Часовой пояс: UTC + 5