[Big Data, Машинное обучение, Статистика в IT, Искусственный интеллект, Data Engineering] Обзор Gartner MQ 2020: Платформы Машинного Обучения и Искусственного Интеллекта

Ответить на тему

Автор

Сообщение

news_bot ^®

Стаж: 8 лет 4 месяца
Сообщений: 27286

news_bot ^® написал(а)
18-Авг-2020 18:33

Цитировать

Невозможно объяснить причину, зачем я это прочел. Просто было время и было интересно, как устроен рынок. А это уже полноценный рынок по Gartner с 2018го года. С 2014-2016 называлось продвинутой аналитикой (корни в BI), в 2017 – Data Science (не знаю, как перевести это на русский). Кому интересны передвижения вендоров по квадрату – можно здесь посмотреть: https://www.kdnuggets.com/2019/02/gartner-2019-mq-data-science-machine-learning-changes.html
А я буду говорить про квадрат 2020го года, тем более, что изменения там с 2019го минимальные: выехал SAP и Altair купил Datawatch.
Это не систематизированный разбор и не таблица. Индивидуальный взгляд, еще с точки зрения геофизика. Но мне всегда любопытно читать Gartner MQ, они прекрасно некоторые моменты формулируют. Так что тут вещи, на которые я обратил внимание и в техническом плане, и в рыночном, и в философском.
Это не для людей, которые глубоко в теме ML, но для людей, которые интересуются тем, что вообще происходит на рынке.
Сам DSML рынок логично гнездится между BI и Cloud AI developer services.

Сначала понравившееся цитаты и термины:

«A Leader may not be the best choice» — Лидер рынка – это совершенно необязательно то, что нужно вам. Очень насущно! Как следствие отсутствия функционального заказчика вечно ищут все «лучшее» решение, а не «подходящее».
«Model operationalisation» — сокращается как MOPs. И с мопсами у всех тяжеловато! –(прикольная тема мопсик заставляет модель работать).
«Notebook environment» – важный концепт, где код, комментарии, данные и результаты объединяются вместе. Это очень понятно, перспективно и может существенно сократить объем UI кода.
«Rooted in OpenSource» — хорошо сказано – укореняется в опенсорсе.
«Citizen Data Scientists» — такие легкие чуваки, ламеры такие, не эксперты, которым нужна среда визуальная и всякие вспомогательные штуки. Кодить они не будут.
«Democratise» — часто используется в значении “сделать доступным более широкому кругу людей”. Можно говорить «democratise the data» вместо опасного «free the data», который мы раньше использовали. «Democratise» — это всегда long tail и за ним все вендоры бегут. Потерять в наукоемкости — выиграть в доступности!
«Exploratory Data Analysis – EDA» — рассматривание данными подручными средствами. Немного статистики. Немного визуализации. То, что все делают в той или иной степени. Не знал, что для этого есть название
«Reproducability» — максимальное сохранение всех параметров среды, входов и выходов с тем, чтобы можно было повторить эксперимент однажды проведенный. Важнейший термин для экспериментальной тестовой среды!

Итак:
Alteryx
Прикольный интерфейс прямо игрушечный. С масштабируемостью, конечно, туговато. Соотвественно коммьюнити Citizen инженеров вокруг таких же с цацками поиграть. Аналитика своя все свое в одном флаконе. Напомнило мне комплекс спектрально-корреляционного анализа данных Coscad, который программировали в 90х.
Anaconda
Коммьюнити вокруг Python и R экспертов. Опенсорса большая соотвественно. Выяснилось, что мои коллеги постоянно используют. А я не знал.
DataBricks
Состоит из трех opensource проектов — разработчики Spark денег подняли адово количество с 2013. Я прям должен процытировать wiki:

“In September 2013, Databricks announced that it had raised $13.9 million from Andreessen Horowitz. The company raised additional $33 million in 2014, $60 million in 2016, $140 million in 2017, $250 million in 2019 (Feb) and $400 million in 2019 (Oct)”!!!

Великие какие-то люди Spark пилили. Не знаком жаль!
А проекты такие:

Delta Lake — ACID на Spark совсем недавно отрелизили (то о чем мы мечтали над Elasticsearch) — превращает его в БД: жесткая схема, ACID, аудит, версии…
ML Flow — трекинг, упаковка, управление и хранение моделей.
Koalas — Pandas DataFrame API на Spark — Pandas — Python API для работы с табличками и данными вообще.

Посмотреть можно про Spark, кто вдруг не знает или забыл: https://www.youtube.com/watch?v=TgiBvKcGL24&t=12s
Видосики посмотрел с примерами от немного занудных но детальных консалт-дятлов:
DataBricks для Data Science [/url][url=https://www.youtube.com/watch?v=GlICHrJ8MsE]https://www.youtube.com/watch?v=GlICHrJ8MsE
и для Data Engineering [/url][url=https://www.youtube.com/watch?v=F92auAXqoPg]https://www.youtube.com/watch?v=F92auAXqoPg
Короче Databricks вытаскивает Spark. Кто хочет Spark нормально поюзать в облаке берет DataBricks не задумываясь, как и задумывалось :) Spark – здесь главный дифференциатор.
Узнал, что Spark Streaming — это не настоящий fake realtime или microbatching. А если нужен настоящий Real Real time — это в Apache STORM. Еще все говорят и пишут, что Spark круче MapReduce. Лозунг такой.
DATAIKU
Прикольная штучка end-to-end. Рекламы много. Не понял, чем от Alteryx отличается?
DataRobot
Paxata для подготовки данных классно – это отдельная компания, которую в Декабре 2019 купили Дата Роботы. Подняли 20 MUSD и продались. Все за 7 лет.
Подготовка данных в Paxata, а не в Excel – здесь посмотреть: [/url][url=https://www.youtube.com/watch?v=hn4HxRyj5fo]https://www.youtube.com/watch?v=hn4HxRyj5fo
Автоматические лукапчики там и предложения join’ов между двумя датасетами. Отличная вещь — чтобы поразбираться с данными, еще бы побольше упора на текстовую информацию https://www.youtube.com/watch?v=YsK3H9rW1b0
Data Catalogue – отличный каталог никому не нужных “живых” датасетов.
Тоже интересно как каталоги формируются в Paxata [/url][url=https://www.youtube.com/watch?v=XEEuw_itzzo]https://www.youtube.com/watch?v=XEEuw_itzzo

«According to analyst firm Ovum, the software is made possible through advances in predictive analytics, machine learning and the NoSQL data caching methodology.[15] The software uses semantic algorithms to understand the meaning of a data table's columns and pattern recognition algorithms to find potential duplicates in a data-set.[15][7] It also uses indexing, text pattern recognition and other technologies traditionally found in social media and search software.»

Основной продукт Data Robot это здесь: https://www.youtube.com/watch?v=RrbJLm6atwc
Их лозунг — от Модели к корпоративному приложению! Обнаружил консалтинг для нефтянки в связи с кризисом, но очень банальный и неинтересный: https://blog.datarobot.com/leveraging-machine-learning-in-the-new-oil-gas-reality
Посмотрел их видео по Mops или MLops. https://www.youtube.com/watch?v=wb40aEVzf2g
Это такой Франкенштейн собранный из 6-7 аквизишенов различных продуктов.
Конечно становиться понятно, что большая команда Data Scientists должна иметь именно такую среду для работы с моделями, а то они наплодят их множество и ничего никогда не задеплоят. А в нашей нефтегазовой upstream реальности — одну модельку бы удачную создать и это уже большой прогресс!
Сам процесс очень напомнил работу проектными системами в геологии-геофизике, например Petrel https://www.software.slb.com/products/petrel.
Все кому не лень делают и модифицируют модели. Собирают в модели данные. Потом сделали эталонную модель и передают в производство! Те между скажем геологической моделью и ML моделью можно найти много общего.
Domino
Упор на открытую платформу и на коллаборейшн. Бизнес пользователей пускают бесплатно. Их Data Lab сильно напоминает шарепоинт. (А от названия сильно отдает IBMом).
Все эксперименты линкуют к исходному датасету. Как это знакомо :)
Как в нашей практике – какие-то данные в модель затащили, потом там в модели почистили и привели в порядок и все это там уже живет в модели и концов в исходных данных не найти.
У Domino крутая инфраструктурная виртуализация. Собрал машинку сколько надо ядер за секунду и поехал считать. Как сделано — не совсем понятно сразу. Везде Docker. Много свободы! Любые воркспейсы последних версий можно подключать. Параллельный запуск экспериментов. Трэкинг и отбор удачных.
То же что и DataRobot — результаты публикуются для бизнес пользователей в виде приложений. Для особо одаренных «стейкхолдеров». И еще мониторится собственно использование моделей. Все для Мопсов!
Не понял до конца как сложные модели в продакшн уходят. Какое-то API предоставляется, чтобы их накормить данными и получать результаты.
H2O
Driveless AI — очень компактная и понятная система для Supervised ML. Все в одной коробочке. Про бэкэнд не понятно до конца сразу.
Модель автоматически упаковывают в REST сервер или Java App. Это отличная идея. Многое сделано для Interpretability и Explainability. Интерпретация и объяснение результатов работы модели (Что по своей сути не должно быть объяснимо, иначе и человек может то же посчитать?).
Впервые подробно рассматривается кейс про неструктурированные данные и NLP: https://www.h2o.ai/products-dai-nlp/
Качественная архитектурная картинка. И вообще картинки понравились.
Есть большой опенсорс фреймворк H2O не совсем понятно (набор алгоритмов/библиотек?). Собственный ноутбук визуальный без програмирования как Jupiter https://towardsdatascience.com/getting-started-with-h2o-using-flow-b560b5d969b8
Еще почитал про Pojo и Mojo — модели H2O обернутые в яву. Первое в лоб, второе с оптимизацией.
H20 -единственные!, кому Gartner вписал текстовую аналитику и NLP в сильные стороны, а так же их усилия в отношении Explanability. Это очень важно!
Там же: высокая производительность, оптимизация и стандарт для отрасли в области интеграции с железами и облаками.
А в слабости логично — Driverles AI слабоват и узковат по сравнению с их же опенсорсом. Подготовка данных хромает по сравнению с той же Paxata! И игнорируют индустриальные данные — stream, graph, geo. Ну не может прямо все быть хорошо.
KNIME
Понравились 6 очень конкретных очень интересных бизнес кейсов на заглавной странице. Сильный OpenSource.
Gartner из лидеров опустил в визионеры. Плохо деньги зарабатывают — хороший знак для пользователей, учитывая что Лидер – не всегда лучший выбор.
Ключевое слово как и в H2O — augmented это значит помощь убогим citizen data scientists. Впервые кого-то в обзоре поругали за производительность!!! Интересно? То есть вычислительных мощностей столько, что производительность вообще не может быть системной проблемой?
Про это слово “Augmented” у Gartner есть отдельная статья, до которой добраться не удалось. https://www.gartner.com/en/documents/3956374/four-real-world-case-studies-implement-augmented-dsml-to
И KNIME в обзоре кажется первый неамериканец!
(И дизайнерам нашим очень их лэндинг понравился. Странные люди :)
MathWorks
MatLаb – старый почетный товарищ известный всем! Тулбоксы для всех областей жизни и ситуаций. Что-то очень другое. Фактически много-много-много математики на все вообще случаи жизни!
Дополнительный продукт Simulink для дизайна систем. Закопался в тулбоксы для Цифровых Двойников — ничего про это не понимаю, а тут прямо много написано.
https://www.mathworks.com/discovery/digital-twin.html для нефтянки: https://www.mathworks.com/videos/series/matlab-oil-and-gas-conference-2019.html
В общем это принципиально другой продукт из глубин математики и инженерии. Для подбора тулкитов математики конкретной.
Согласно Гартнеру у них проблемы все как у умных инженеров — никакой коллаборации — каждый в своей модели роется, никакой демократии, никакого эксплейнабилити.
RapidMiner
Много и сталкивался и слышал ранее (наряду с Матлабом) в контексте хорошего опенсорса. Закопался немного в TurboPrep как обычно. Интересует меня как из грязных данных чистые получать :)
Снова видно, что люди хорошие по маркетинговым материалам 2018 года и ужасно говорящим по английски людям на feature demo :)
А люди из Дортмунда с 2001 c сильным немецким прошлым)

Так и не понял из сайта что именно в опенсорсе доступно — нужно глубже закапываться.
Хорошие видосики про деплоймент и AutoML их концепции.
Про бэкенд RapidMiner Server тоже ничего особого нет. Наверное это будет компактно и хорошо работать on premice out of the box. В Docker упаковывается. Шаред environment только на сервере RapidMiner. И еще есть Radoop, данные из хадупа, считалки из Spark в Studio workflow.
Подвинули их вниз как и ожидалось молодые горячие вендоры «продавцы полосатых палочек». Гартнер однако пророчит им будущий успех в Enterprise пространстве. Денег там поднять можно. Немцы это умеют свят-свят :) Don’t mention SAP!!!
Для ситизенов много делают! Но по странице видно как Gartner и говорит, что с инновационностью продаж туговато у них и они не борются за широту покрытия, но за прибыльность.
Остались SAS и Tibco типичные BI вендоры для меня… И оба в самом топе, что подтверждает мою уверенность в том, что нормальный DataScience логически растет
из BI, а не из облаков и Hadoop инфраструктур. Из бизнеса т.е., а не из IT. Как в Газпромнефть например: https://admin.opensystems.ru/data/conf//bigdata2020//presentations/chernicyn.pdf зрелая DSML среда вырастает из прочной BI практики. Но может она и с душком и перекосом на MDM и прочие дела, кто знает.
SAS
Нечего сказать особо. Только очевидные вещи.
TIBCO
Стратегия читается в списке покупок на странице в Wiki длинной со страницу. Да, долгая история, но 28!!! Карл. подкупила BI Spotfire (2007) еще во времена моей техно-молодости. И еще репортинг Jaspersoft (2014), далее аж трех вендоров предиктивной аналитики Insightful (S-plus) (2008), Statistica (2017) and Alpine Data (2017), обработка событий и стриминг Streambase System (2013), MDM Orchestra Networks (2018) и Snappy Data (2019) in-memory платформа.
Привет, Фрэнки!

===========
Источник:
habr.com
===========
Похожие новости:

Теги для поиска: #_big_data, #_mashinnoe_obuchenie (Машинное обучение), #_statistika_v_it (Статистика в IT), #_iskusstvennyj_intellekt (Искусственный интеллект), #_data_engineering, #_dsml, #_gartner, #_data_science, #_artificial_intelligence, #_mashinnoe_obuchenie (машинное обучение), #_iskusstvennyj_intellekt (искусственный интеллект), #_bolshie_dannye_i_mashinnoe_obuchenie (большие данные и машинное обучение), #_big_data, #_mashinnoe_obuchenie (
Машинное обучение
), #_statistika_v_it (
Статистика в IT
), #_iskusstvennyj_intellekt (
Искусственный интеллект
), #_data_engineering

Профиль ЛС

Ответить на тему

Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы

Текущее время: 19-Июн 01:24
Часовой пояс: UTC + 5