[Машинное обучение, Искусственный интеллект] Инструменты для участников соревнований по машинному обучению
Автор
Сообщение
news_bot ®
Стаж: 6 лет 9 месяцев
Сообщений: 27286
Соревнования по машинному обучению — относительно новое явление.
Появилось вследствие развития технологий искусственного интеллекта.
В данный момент очень активно развивается и привлекает множество заинтересованных людей.
Преимущества, которые получают организаторы соревнований:
- Большое количество квалифицированных людей, которые работают над их задачей и стараются решить ее лучше остальных
- Относительно небольшие (в сравнении с наймом специалистов) финансовые затраты
- Решение задачи, наиболее качественное и подходящее для нее
И участники соревнований также получают пользу:
- Публичное признание высокой квалификации
- Денежные призы
- И просто удовольствие от участия и победы
В этой статье я хочу рассмотреть несколько инструментов, которые могут помочь участникам организовать процесс качественнее и эффективнее, увеличить вероятность побед, и в целом стать более квалифицированным специалистом.
Приступим!
Determined
Платформа для тренировки моделей глубокого обучения.
- Ускоренное обучение моделей, с помощью state-of-the-art распределенного обучения, без изменения кода модели
- Автоматический поиск высококачественных моделей, с расширенной настройкой гипер-параметров — от создателей Hyperband
- Умное планирование использования своих GPU и сокращение расходов на облачные GPU, за счет использования вытесняемых инстансов
- Отслеживание и воспроизводство экспериментов, включая версии кода, показатели, контрольные точки и гипер-параметры
- Легкость интеграции с популярными DL-фреймворками
- Позволяет больше времени тратить на создание моделей, чем на управление инфраструктурой
Compose
Инструмент машинного обучения для автоматизированного прогнозирования.
- Структурирование задач прогнозирования и создание меток для обучения с учителем
- Поиск обучающих примеров исходя из конечного желаемого результата, заданного функцией разметки
- Передача результата в Featurepools для автоматизированного проектирования признаков
- Передача результата в EvalML для автоматизированного машинного обучения
Featuretools
Фреймворк для автоматизированного проектирования признаков.
- Преобразование временных и реляционных наборов данных в матрицы признаков
- Возможность автоматически генерировать описания признаков на английском языке
EvalML
Библиотека AutoML для создания, оптимизации и оценивания пайплайнов машинного обучения с использованием целевых функций для конкретной предметной области.
- В сочетании с Featuretools и Compose позволяет создавать end-to-end ML-решения для обучения с учителем
Pandas Profiling
Создает отчеты профиля из DataFrame Pandas.
- Вместо df.describe() — функция df.profile_report()
- Быстрый анализ данных
- Интерактивный HTML-отчет со столбцами
- Вывод типа: определение типов
- Основы: тип, уникальные значения, отсутствующие значения
- Квантильные статистические данные: минимум, Q1, медиана, Q3, максимум, диапазон, межквартильный размах
- Описательная статистика: среднее, мода, стандартное отклонение, сумма, среднее абсолютное отклонение, коэффициент вариации, эксцесс, асимметрия
- Наиболее частые значения
- Гистограмма
- Корреляции сильно зависимых переменных: матрицы Спирмана, Пирсона и Кендалла
- Матрица пропущенных значений: количество, тепловая карта и дендрограмма
- Анализ текста: категории (прописные буквы, пробел), кодировка (латиница, кириллица) и блоки (ASCII) в текстовых данных
- Анализ файлов и изображений: размеры файлов, даты создания, усеченные изображения и изображения, содержащие EXIF
Tpot
Инструмент машинного обучения, который оптимизирует пайплайны с использованием генетического программирования.
- Автоматизирует самую утомительную часть машинного обучения, интеллектуально исследуя тысячи возможных пайплайнов, чтобы найти лучшие из ваших данных
- После завершения поиска предоставляет код Python для лучшего найденного пайплайна
- Сделан на основе Scikit-learn
Shap
Теоретико-игровой подход к объяснению результатов любой ML-модели.
- Имеет точный алгоритм для ансамбля деревьев
- Может использоваться в моделях глубокого обучения
Feature-engine
Библиотека с множественными трансформерами фичей для использования ML-моделях.
- Позволяет выбирать переменные, которые вы хотите преобразовать
- Трансформеры для отсутствующих данных, категориальных переменных, дискретизации, преобразований переменных, выбросов, создания и выбора переменных
Lale
Библиотека для полуавтоматической обработки данных и выбора алгоритма настройки гипер-параметров.
- Делает лучше автоматизацию, проверку правильности и совместимость
- Для автоматизации — высокоуровневый интерфейс инструментов поиска по пайплайну
- Для проверки корректности — использование схемы JSON для обнаружения ошибок несоответствий между гипер-параметрами и их типом или между данными и оператором
- Для совместимости — растущая библиотека преобразователей и оценок из других популярных библиотек
Biome
Инструмент для работы с неструктурированными данными.
- Автоматическая классификация — короткие и шумные тексты, длинные тексты; инструменты мониторинга и анализа результатов классификации; простой в использовании пользовательский интерфейс аннотаций; предварительно сконфигурированные и расширяемые классификаторы
- Извлечение данных — табличные данные, длинные документы; встроенные готовые объекты (дата, время, количество, вес, размер, единицы измерения), поддержка нескольких форматов файлов (PDF, Word, Excel, HTML, E-mail или простой текст); настраиваемые объекты, атрибуты и отношения; реляционный вывод объектов, отношений, ролей и атрибутов на основе графов знаний
- Сравнение — настраиваемые сервисы семантического сходства для предложений, абзацев и текстового контента в базах данных; аналитические пользовательские интерфейсы для поиска наиболее похожих и непохожих элементов
DataSketch
Инструмент для вероятностных структур данных.
- обработка и поиск больших объемов данных очень быстро
- очень маленькая потеря точности
PyTextRank
Инструмент для работы с текстом.
- Извлечение самых популярных фраз из текстовых документов
- Выполнение незатратного извлекающего суммирования текстовых документов
- Вывод ссылок из неструктурированного текста в структурированные данные
- Поддержка связывания объектов
- Графовые алгоритмы (в частности, центральность собственных векторов)
- Построение графа лемм для представления ссылок между фразами и поддерживающим языком
- Включение глаголов в граф (но не в результирующие фразы)
- Использование предварительной обработки с помощью разделения существительных и распознавания именованных объектов
- Извлекающая суммаризация на основе ранжированных фраз
Joblib
Набор инструментов для легкого создания пайплайнов.
- Простые параллельные вычисления
- Прозрачное кэширование функций и ленивая переоценка
- Оптимизирован для быстрой и надежной обработки больших данных и массивов
- Удобный повторный перезапуск экспериментов
- Отделение логики выполнения потока от логики предметной области и кода
- Параллельный помощник — упрощение написания читаемого параллельного кода и его отладки
- Замена Pickle для работы с объектами, содержащими большие данные
Shampoo
Алгоритм предварительной обработки с учетом структуры.
- Более быстрая работа, чем у других оптимизаторов
- Поддерживает набор предварительно подготовленных матриц, которые действуют в одном измерении, сокращаясь в остальных
- Имеет гарантии сходимости в стохастической выпуклой ситуации
Michelangelo
Платформа машинного обучения от Uber.
- Обеспечение непрерывного рабочего процесса
- Централизованное хранилище функций
- Распределенная инфраструктура обучения
- Оценка и визуализация моделей с деревьями решений
- Средства развертывания моделей
- Прогнозирование и маршрутизация
- API для подключения конвейеров
Hasty.ai
Инструмент для создания меток изображений.
- Быстрая разметка данных
- Автоматизация процесса разметки
- Обучение помогающей модели прямо во время разметки
- Поиск вероятных ошибок
Cortex
Инструмент для крупномасштабных рабочих нагрузок.
- Развертывание моделей в качестве API реального времени или пакетного
- Высокая доступность с зонами доступности и автоматическим перезапуском экземпляров
- Логический вывод экземпляров по запросу или спотовых экземпляров с резервными копиями по запросу
- Автомасштабирование для обработки производственных рабочих нагрузок с поддержкой избыточного выделения запросов
Weights & Biases
Набор инструментов для машинного обучения.
- Отслеживание экспериментов
- Оптимизация гипер-параметров
- Версионирование моделей и датасетов
- Панель инструментов — просмотр эксперимента в реальном времени
- Оптимизация моделей с помощью масштабируемого инструмента поиска гипер-параметров
- Отслеживание артефактов — сохранение всех деталей непрерывного пайплайна
- Совместные документы — исследование результатов и обмен выводами
SpeedRun
Набор инструментов для развертывания и управления ML-экспериментами.
- Чтение файлов конфигурации и управление каталогами экспериментов
- Логирование в Weights & Biases
- Настройка и запуск гипер-параметров с помощью Weights & Biases
- Запись текста или изображений в файл, индикаторы выполнения
- Преобразование фигур matplotlib в изображения
- Визуализация многомерных изображений
- Ожидание завершения запущенных процессов и освобождения ресурсов
Great Expectations
Работа с данными — тестирование, документирование и профилирование.
- Автоматическое документирование данных
- Генерирование документации из тестов
- Автоматическое профилирование данных
Keras Tuner
Платформа для для оптимизации гипер-параметров.
- Определение пространства поиска
- Поиск наилучших значений
- Встроенные алгоритмы байесовской оптимизации
NanoEdge AI Studio
Десктопное приложение для AI-библиотек, предназначенное для разработчиков встроенных приложений и MCU C кода.
- Поиск лучших библиотек для встроенных проектов
- Включение возможности машинного обучения в MCU C код
- Запуск библиотек на любых Arm Cortex-M микроконтроллерах и оптимизированных для них
- Очень маленький размер памяти модели (1-20kB RAM/Flash)
- Ультра быстрые модели (1-20ms вывод на M4 80MHz)
- Автоматическая проверка качества данных
- Автоматический поиск лучшей AI модели
- Сбор и импорт данных через последовательный порт в реальном времени
- Эмулятор для тестирования библиотеки перед встраиванием
- Простота развертывания C библиотек
- Модели могут обучены напрямую, без использования MCU
- Для создания и развертывания моделей не требуется опыт и экспертиза в ML
LabelBox
End-to-end платформа для создания и управления высококачественными данными.
- Автоматизированная разметка
- Общее рабочее пространство для работы с данными и коллективного взаимодействия внутренних и внешних команд
- Отслеживание активности и прогресса работы
- Управление доступом и ролями
- API (Python, GraphQL) и SDK
- Работа с изображениями: классификация, распознавание и сегментация
- Работа с видео: производительный редактор видео, метки на видео до 30 FPS с уровнем кадра, аналитика признаков меток
- Работа с текстом: классификация, распознавание именованных сущностей, поддержка сложных онтологий с встроенными классификациями
- Предварительная маркировка на основе моделей и активного обучения
- Приоритизация очереди маркировки наиболее важных данных с помощью API
LabelML
Организация ML-экспериментов и мониторинг процесса обучения с мобильного.
- Легкая интеграция (2 строчки кода)
- Хранение лога экспериментов, включая гит-коммитs, настройки и гипер-параметры
- Хранение лога Tensorboard
- Панель управления в локальном браузере
- Хранение контрольных точек
- API для настраиваемой визуализации
PyCaret
Low-code ML-библиотека.
- Быстрый процесс — от подготовки данных до деплоинга модели
- Фокусировка на бизнес-задачах вместо кодинга
- Легкость использования и построения полного процесса эксперимента
- Анализ производительности модели (более 60 графиков)
- Подготовка данных (недостающие значения, трансформинг категориальных данных, создание признаков, настройка гипер-параметров модели)
- Поддержка алгоритма Боруты
CometML
Инструмент для быстрого создания моделей
- Отслеживание, сравнение, объяснение и оптимизация экспериментов и моделей
- Быстрая интеграция
- Сравнение экспериментов — код, гипер-параметры, метрики, предсказания, зависимости, системные метрики
- Отладка моделей — просмотр, анализ, получение информации и визуализация данных
- Рабочее пространство для взаимодействия команды
ClearML
Решение для объединения ML-инструментов (MLOps).
- Один набор инструментов для автоматизации подготовки, выполнения и анализа экспериментов
- Управление экспериментами — параметры, задания, артефакты, метрики, отладочные данные, метаданные и логи
- Управление и оркестровка GPU/CPU ресурсов, автоматическое масштабирование на облачных и локальных машинах
- Хранилище данных — версионирование анализа; создание и автоматизация пайплайнов данных; ребалансировка, смешивания и сочетания датасетов
Благоприятная обстановка
Создает комфорт, удобство, приятность, душевность и способствует творческому вдохновению
- Комната с приятной обстановкой
- Классическая музыка
- Хорошее настроение
Заключение.
Разумеется, одного описания инструментов недостаточно, чтобы всегда побеждать.
Успех зависит от очень многих других факторов — знать, где и когда тот или иной инструмент применять или не применять, какие есть ограничения, как можно инструменты комбинировать и т.д. и т.п.
Надеюсь, что все же эта статья будет для вас полезной и ваше участие в соревнованиях станет более плодотворным и результативным.
Вперед, к победам!
===========
Источник:
habr.com
===========
Похожие новости:
- [Машинное обучение, Научно-популярное, Искусственный интеллект] Исследователи обучили ИИ познавать мир путем поиска спрятанных вещей
- [Обработка изображений, Машинное обучение, Искусственный интеллект, Медгаджеты, Мозг] Модель машинного обучения восстановила изображения, которые видел человек
- [Python, Big Data, Машинное обучение, Natural Language Processing] Как с помощью нейросети определить лучшую дату отправки email и повысить доход рассылки в 8,5 раз
- [Python, Машинное обучение, Искусственный интеллект] Генерация текста с помощью GPT2 и PyTorch (перевод)
- [Параллельное программирование, Исследования и прогнозы в IT, Распределённые системы, Искусственный интеллект] Вычислительная система пятого поколения
- [Машинное обучение, Искусственный интеллект] Исследователи создали систему на ИИ, которая тренирует собак
- [Python, Программирование, Машинное обучение] Ранжирование текстов по похожести на опорные тексты при помощи модели TF-IDF в реализации GENSM
- [Машинное обучение, IT-компании] Как датасеты аккумулируют в себе расизм и сексизм (перевод)
- [История IT, Научно-популярное, Искусственный интеллект, Мозг] Взгляд из прошлого. Перевод отрывка лекции легендарного Ричарда Фейнмана (перевод)
- [Разработка под e-commerce, Интернет-маркетинг, Управление e-commerce, Управление продажами] Аналитические онлайн-сервисы для управления интернет-магазином
Теги для поиска: #_mashinnoe_obuchenie (Машинное обучение), #_iskusstvennyj_intellekt (Искусственный интеллект), #_ii (ИИ), #_mashinnoe_obuchenie (машинное обучение), #_glubokoe_obuchenie (глубокое обучение), #_nejroseti (нейросети), #_nejronnye_seti (нейронные сети), #_mashinnoe_obuchenie (
Машинное обучение
), #_iskusstvennyj_intellekt (
Искусственный интеллект
)
Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Текущее время: 22-Ноя 21:10
Часовой пояс: UTC + 5
Автор | Сообщение |
---|---|
news_bot ®
Стаж: 6 лет 9 месяцев |
|
Соревнования по машинному обучению — относительно новое явление. Появилось вследствие развития технологий искусственного интеллекта. В данный момент очень активно развивается и привлекает множество заинтересованных людей. Преимущества, которые получают организаторы соревнований:
И участники соревнований также получают пользу:
В этой статье я хочу рассмотреть несколько инструментов, которые могут помочь участникам организовать процесс качественнее и эффективнее, увеличить вероятность побед, и в целом стать более квалифицированным специалистом. Приступим! Determined Платформа для тренировки моделей глубокого обучения.
Compose Инструмент машинного обучения для автоматизированного прогнозирования.
Featuretools Фреймворк для автоматизированного проектирования признаков.
EvalML Библиотека AutoML для создания, оптимизации и оценивания пайплайнов машинного обучения с использованием целевых функций для конкретной предметной области.
Pandas Profiling Создает отчеты профиля из DataFrame Pandas.
Tpot Инструмент машинного обучения, который оптимизирует пайплайны с использованием генетического программирования.
Shap Теоретико-игровой подход к объяснению результатов любой ML-модели.
Feature-engine Библиотека с множественными трансформерами фичей для использования ML-моделях.
Lale Библиотека для полуавтоматической обработки данных и выбора алгоритма настройки гипер-параметров.
Biome Инструмент для работы с неструктурированными данными.
DataSketch Инструмент для вероятностных структур данных.
PyTextRank Инструмент для работы с текстом.
Joblib Набор инструментов для легкого создания пайплайнов.
Shampoo Алгоритм предварительной обработки с учетом структуры.
Michelangelo Платформа машинного обучения от Uber.
Hasty.ai Инструмент для создания меток изображений.
Cortex Инструмент для крупномасштабных рабочих нагрузок.
Weights & Biases Набор инструментов для машинного обучения.
SpeedRun Набор инструментов для развертывания и управления ML-экспериментами.
Great Expectations Работа с данными — тестирование, документирование и профилирование.
Keras Tuner Платформа для для оптимизации гипер-параметров.
NanoEdge AI Studio Десктопное приложение для AI-библиотек, предназначенное для разработчиков встроенных приложений и MCU C кода.
LabelBox End-to-end платформа для создания и управления высококачественными данными.
LabelML Организация ML-экспериментов и мониторинг процесса обучения с мобильного.
PyCaret Low-code ML-библиотека.
CometML Инструмент для быстрого создания моделей
ClearML Решение для объединения ML-инструментов (MLOps).
Благоприятная обстановка Создает комфорт, удобство, приятность, душевность и способствует творческому вдохновению
Заключение. Разумеется, одного описания инструментов недостаточно, чтобы всегда побеждать. Успех зависит от очень многих других факторов — знать, где и когда тот или иной инструмент применять или не применять, какие есть ограничения, как можно инструменты комбинировать и т.д. и т.п. Надеюсь, что все же эта статья будет для вас полезной и ваше участие в соревнованиях станет более плодотворным и результативным. Вперед, к победам! =========== Источник: habr.com =========== Похожие новости:
Машинное обучение ), #_iskusstvennyj_intellekt ( Искусственный интеллект ) |
|
Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Текущее время: 22-Ноя 21:10
Часовой пояс: UTC + 5