[Big Data, Машинное обучение, Статистика в IT, Искусственный интеллект, Data Engineering] Обзор Gartner MQ 2020: Платформы Машинного Обучения и Искусственного Интеллекта

Автор Сообщение
news_bot ®

Стаж: 6 лет 9 месяцев
Сообщений: 27286

Создавать темы news_bot ® написал(а)
18-Авг-2020 18:33

Невозможно объяснить причину, зачем я это прочел. Просто было время и было интересно, как устроен рынок. А это уже полноценный рынок по Gartner с 2018го года. С 2014-2016 называлось продвинутой аналитикой (корни в BI), в 2017 – Data Science (не знаю, как перевести это на русский). Кому интересны передвижения вендоров по квадрату – можно здесь посмотреть: https://www.kdnuggets.com/2019/02/gartner-2019-mq-data-science-machine-learning-changes.html
А я буду говорить про квадрат 2020го года, тем более, что изменения там с 2019го минимальные: выехал SAP и Altair купил Datawatch.
Это не систематизированный разбор и не таблица. Индивидуальный взгляд, еще с точки зрения геофизика. Но мне всегда любопытно читать Gartner MQ, они прекрасно некоторые моменты формулируют. Так что тут вещи, на которые я обратил внимание и в техническом плане, и в рыночном, и в философском.
Это не для людей, которые глубоко в теме ML, но для людей, которые интересуются тем, что вообще происходит на рынке.
Сам DSML рынок логично гнездится между BI и Cloud AI developer services.

Сначала понравившееся цитаты и термины:
  • «A Leader may not be the best choice» — Лидер рынка – это совершенно необязательно то, что нужно вам. Очень насущно! Как следствие отсутствия функционального заказчика вечно ищут все «лучшее» решение, а не «подходящее».
  • «Model operationalisation» — сокращается как MOPs. И с мопсами у всех тяжеловато! –(прикольная тема мопсик заставляет модель работать).
  • «Notebook environment» – важный концепт, где код, комментарии, данные и результаты объединяются вместе. Это очень понятно, перспективно и может существенно сократить объем UI кода.
  • «Rooted in OpenSource» — хорошо сказано – укореняется в опенсорсе.
  • «Citizen Data Scientists» — такие легкие чуваки, ламеры такие, не эксперты, которым нужна среда визуальная и всякие вспомогательные штуки. Кодить они не будут.
  • «Democratise» — часто используется в значении “сделать доступным более широкому кругу людей”. Можно говорить «democratise the data» вместо опасного «free the data», который мы раньше использовали. «Democratise» — это всегда long tail и за ним все вендоры бегут. Потерять в наукоемкости — выиграть в доступности!
  • «Exploratory Data Analysis – EDA» — рассматривание данными подручными средствами. Немного статистики. Немного визуализации. То, что все делают в той или иной степени. Не знал, что для этого есть название
  • «Reproducability» — максимальное сохранение всех параметров среды, входов и выходов с тем, чтобы можно было повторить эксперимент однажды проведенный. Важнейший термин для экспериментальной тестовой среды!

Итак:
Alteryx
Прикольный интерфейс прямо игрушечный. С масштабируемостью, конечно, туговато. Соотвественно коммьюнити Citizen инженеров вокруг таких же с цацками поиграть. Аналитика своя все свое в одном флаконе. Напомнило мне комплекс спектрально-корреляционного анализа данных Coscad, который программировали в 90х.
Anaconda
Коммьюнити вокруг Python и R экспертов. Опенсорса большая соотвественно. Выяснилось, что мои коллеги постоянно используют. А я не знал.
DataBricks
Состоит из трех opensource проектов — разработчики Spark денег подняли адово количество с 2013. Я прям должен процытировать wiki:
“In September 2013, Databricks announced that it had raised $13.9 million from Andreessen Horowitz. The company raised additional $33 million in 2014, $60 million in 2016, $140 million in 2017, $250 million in 2019 (Feb) and $400 million in 2019 (Oct)”!!!
Великие какие-то люди Spark пилили. Не знаком жаль!
А проекты такие:
  • Delta Lake — ACID на Spark совсем недавно отрелизили (то о чем мы мечтали над Elasticsearch) — превращает его в БД: жесткая схема, ACID, аудит, версии…
  • ML Flow — трекинг, упаковка, управление и хранение моделей.
  • Koalas — Pandas DataFrame API на Spark — Pandas — Python API для работы с табличками и данными вообще.

Посмотреть можно про Spark, кто вдруг не знает или забыл: https://www.youtube.com/watch?v=TgiBvKcGL24&t=12s
Видосики посмотрел с примерами от немного занудных но детальных консалт-дятлов:
DataBricks для Data Science [/url][url=https://www.youtube.com/watch?v=GlICHrJ8MsE]https://www.youtube.com/watch?v=GlICHrJ8MsE
и для Data Engineering [/url][url=https://www.youtube.com/watch?v=F92auAXqoPg]https://www.youtube.com/watch?v=F92auAXqoPg
Короче Databricks вытаскивает Spark. Кто хочет Spark нормально поюзать в облаке берет DataBricks не задумываясь, как и задумывалось :) Spark – здесь главный дифференциатор.
Узнал, что Spark Streaming — это не настоящий fake realtime или microbatching. А если нужен настоящий Real Real time — это в Apache STORM. Еще все говорят и пишут, что Spark круче MapReduce. Лозунг такой.
DATAIKU
Прикольная штучка end-to-end. Рекламы много. Не понял, чем от Alteryx отличается?
DataRobot
Paxata для подготовки данных классно – это отдельная компания, которую в Декабре 2019 купили Дата Роботы. Подняли 20 MUSD и продались. Все за 7 лет.
Подготовка данных в Paxata, а не в Excel – здесь посмотреть: [/url][url=https://www.youtube.com/watch?v=hn4HxRyj5fo]https://www.youtube.com/watch?v=hn4HxRyj5fo
Автоматические лукапчики там и предложения join’ов между двумя датасетами. Отличная вещь — чтобы поразбираться с данными, еще бы побольше упора на текстовую информацию https://www.youtube.com/watch?v=YsK3H9rW1b0
Data Catalogue – отличный каталог никому не нужных “живых” датасетов.
Тоже интересно как каталоги формируются в Paxata [/url][url=https://www.youtube.com/watch?v=XEEuw_itzzo]https://www.youtube.com/watch?v=XEEuw_itzzo
«According to analyst firm Ovum, the software is made possible through advances in predictive analytics, machine learning and the NoSQL data caching methodology.[15] The software uses semantic algorithms to understand the meaning of a data table's columns and pattern recognition algorithms to find potential duplicates in a data-set.[15][7] It also uses indexing, text pattern recognition and other technologies traditionally found in social media and search software.»
Основной продукт Data Robot это здесь: https://www.youtube.com/watch?v=RrbJLm6atwc
Их лозунг — от Модели к корпоративному приложению! Обнаружил консалтинг для нефтянки в связи с кризисом, но очень банальный и неинтересный: https://blog.datarobot.com/leveraging-machine-learning-in-the-new-oil-gas-reality
Посмотрел их видео по Mops или MLops. https://www.youtube.com/watch?v=wb40aEVzf2g
Это такой Франкенштейн собранный из 6-7 аквизишенов различных продуктов.
Конечно становиться понятно, что большая команда Data Scientists должна иметь именно такую среду для работы с моделями, а то они наплодят их множество и ничего никогда не задеплоят. А в нашей нефтегазовой upstream реальности — одну модельку бы удачную создать и это уже большой прогресс!
Сам процесс очень напомнил работу проектными системами в геологии-геофизике, например Petrel https://www.software.slb.com/products/petrel.
Все кому не лень делают и модифицируют модели. Собирают в модели данные. Потом сделали эталонную модель и передают в производство! Те между скажем геологической моделью и ML моделью можно найти много общего.
Domino
Упор на открытую платформу и на коллаборейшн. Бизнес пользователей пускают бесплатно. Их Data Lab сильно напоминает шарепоинт. (А от названия сильно отдает IBMом).
Все эксперименты линкуют к исходному датасету. Как это знакомо :)
Как в нашей практике – какие-то данные в модель затащили, потом там в модели почистили и привели в порядок и все это там уже живет в модели и концов в исходных данных не найти.
У Domino крутая инфраструктурная виртуализация. Собрал машинку сколько надо ядер за секунду и поехал считать. Как сделано — не совсем понятно сразу. Везде Docker. Много свободы! Любые воркспейсы последних версий можно подключать. Параллельный запуск экспериментов. Трэкинг и отбор удачных.
То же что и DataRobot — результаты публикуются для бизнес пользователей в виде приложений. Для особо одаренных «стейкхолдеров». И еще мониторится собственно использование моделей. Все для Мопсов!
Не понял до конца как сложные модели в продакшн уходят. Какое-то API предоставляется, чтобы их накормить данными и получать результаты.
H2O
Driveless AI — очень компактная и понятная система для Supervised ML. Все в одной коробочке. Про бэкэнд не понятно до конца сразу.
Модель автоматически упаковывают в REST сервер или Java App. Это отличная идея. Многое сделано для Interpretability и Explainability. Интерпретация и объяснение результатов работы модели (Что по своей сути не должно быть объяснимо, иначе и человек может то же посчитать?).
Впервые подробно рассматривается кейс про неструктурированные данные и NLP: https://www.h2o.ai/products-dai-nlp/
Качественная архитектурная картинка. И вообще картинки понравились.
Есть большой опенсорс фреймворк H2O не совсем понятно (набор алгоритмов/библиотек?). Собственный ноутбук визуальный без програмирования как Jupiter https://towardsdatascience.com/getting-started-with-h2o-using-flow-b560b5d969b8
Еще почитал про Pojo и Mojo — модели H2O обернутые в яву. Первое в лоб, второе с оптимизацией.
H20 -единственные!, кому Gartner вписал текстовую аналитику и NLP в сильные стороны, а так же их усилия в отношении Explanability. Это очень важно!
Там же: высокая производительность, оптимизация и стандарт для отрасли в области интеграции с железами и облаками.
А в слабости логично — Driverles AI слабоват и узковат по сравнению с их же опенсорсом. Подготовка данных хромает по сравнению с той же Paxata! И игнорируют индустриальные данные — stream, graph, geo. Ну не может прямо все быть хорошо.
KNIME
Понравились 6 очень конкретных очень интересных бизнес кейсов на заглавной странице. Сильный OpenSource.
Gartner из лидеров опустил в визионеры. Плохо деньги зарабатывают — хороший знак для пользователей, учитывая что Лидер – не всегда лучший выбор.
Ключевое слово как и в H2O — augmented это значит помощь убогим citizen data scientists. Впервые кого-то в обзоре поругали за производительность!!! Интересно? То есть вычислительных мощностей столько, что производительность вообще не может быть системной проблемой?
Про это слово “Augmented” у Gartner есть отдельная статья, до которой добраться не удалось. https://www.gartner.com/en/documents/3956374/four-real-world-case-studies-implement-augmented-dsml-to
И KNIME в обзоре кажется первый неамериканец!
(И дизайнерам нашим очень их лэндинг понравился. Странные люди :)
MathWorks
MatLаb – старый почетный товарищ известный всем! Тулбоксы для всех областей жизни и ситуаций. Что-то очень другое. Фактически много-много-много математики на все вообще случаи жизни!
Дополнительный продукт Simulink для дизайна систем. Закопался в тулбоксы для Цифровых Двойников — ничего про это не понимаю, а тут прямо много написано.
https://www.mathworks.com/discovery/digital-twin.html для нефтянки: https://www.mathworks.com/videos/series/matlab-oil-and-gas-conference-2019.html
В общем это принципиально другой продукт из глубин математики и инженерии. Для подбора тулкитов математики конкретной.
Согласно Гартнеру у них проблемы все как у умных инженеров — никакой коллаборации — каждый в своей модели роется, никакой демократии, никакого эксплейнабилити.
RapidMiner
Много и сталкивался и слышал ранее (наряду с Матлабом) в контексте хорошего опенсорса. Закопался немного в TurboPrep как обычно. Интересует меня как из грязных данных чистые получать :)
Снова видно, что люди хорошие по маркетинговым материалам 2018 года и ужасно говорящим по английски людям на feature demo :)
А люди из Дортмунда с 2001 c сильным немецким прошлым)

Так и не понял из сайта что именно в опенсорсе доступно — нужно глубже закапываться.
Хорошие видосики про деплоймент и AutoML их концепции.
Про бэкенд RapidMiner Server тоже ничего особого нет. Наверное это будет компактно и хорошо работать on premice out of the box. В Docker упаковывается. Шаред environment только на сервере RapidMiner. И еще есть Radoop, данные из хадупа, считалки из Spark в Studio workflow.
Подвинули их вниз как и ожидалось молодые горячие вендоры «продавцы полосатых палочек». Гартнер однако пророчит им будущий успех в Enterprise пространстве. Денег там поднять можно. Немцы это умеют свят-свят :) Don’t mention SAP!!!
Для ситизенов много делают! Но по странице видно как Gartner и говорит, что с инновационностью продаж туговато у них и они не борются за широту покрытия, но за прибыльность.
Остались SAS и Tibco типичные BI вендоры для меня… И оба в самом топе, что подтверждает мою уверенность в том, что нормальный DataScience логически растет
из BI, а не из облаков и Hadoop инфраструктур. Из бизнеса т.е., а не из IT. Как в Газпромнефть например: https://admin.opensystems.ru/data/conf//bigdata2020//presentations/chernicyn.pdf зрелая DSML среда вырастает из прочной BI практики. Но может она и с душком и перекосом на MDM и прочие дела, кто знает.
SAS
Нечего сказать особо. Только очевидные вещи.
TIBCO
Стратегия читается в списке покупок на странице в Wiki длинной со страницу. Да, долгая история, но 28!!! Карл. подкупила BI Spotfire (2007) еще во времена моей техно-молодости. И еще репортинг Jaspersoft (2014), далее аж трех вендоров предиктивной аналитики Insightful (S-plus) (2008), Statistica (2017) and Alpine Data (2017), обработка событий и стриминг Streambase System (2013), MDM Orchestra Networks (2018) и Snappy Data (2019) in-memory платформа.
Привет, Фрэнки!

===========
Источник:
habr.com
===========

Похожие новости: Теги для поиска: #_big_data, #_mashinnoe_obuchenie (Машинное обучение), #_statistika_v_it (Статистика в IT), #_iskusstvennyj_intellekt (Искусственный интеллект), #_data_engineering, #_dsml, #_gartner, #_data_science, #_artificial_intelligence, #_mashinnoe_obuchenie (машинное обучение), #_iskusstvennyj_intellekt (искусственный интеллект), #_bolshie_dannye_i_mashinnoe_obuchenie (большие данные и машинное обучение), #_big_data, #_mashinnoe_obuchenie (
Машинное обучение
)
, #_statistika_v_it (
Статистика в IT
)
, #_iskusstvennyj_intellekt (
Искусственный интеллект
)
, #_data_engineering
Профиль  ЛС 
Показать сообщения:     

Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы

Текущее время: 22-Ноя 09:40
Часовой пояс: UTC + 5