[Машинное обучение, Искусственный интеллект, Natural Language Processing] Google обучила языковую модель ИИ на триллионе параметров
Автор
Сообщение
news_bot ®
Стаж: 6 лет 9 месяцев
Сообщений: 27286
Исследователи Google разработали метод, который, по их утверждению, позволил обучить языковую модель, содержащую более триллиона параметров. Они заявили, что новая модель с 1,6 трлн параметров, по-видимому, является крупнейшей в своем классе на сегодняшний день.
Данная модель достигла ускорения в 4 раза по сравнению с более ранней, самой крупной языковой моделью Google T5-XXL. Исследователи применили Switch Transformer, метод «редко активируемого», который использует только подмножество весов модели или параметры, которые преобразуют входные данные в модели.
Концепция Switch Transformer состоит в том, чтобы объединить несколько моделей, специализирующихся на различных задачах, внутри более крупной и встроить «стробирующую сеть», выбирающую, к какой из этих моделей обращаться в конкретном случае.
Switch Transformer использует графические процессоры и блоки тензорной обработки (TPU) Google. В распределенной системе обучения модели распределяют уникальные веса по разным устройствам, поэтому сохраняется управляемая память и вычислительные ресурсы на каждом устройстве.
В ходе эксперимента исследователи предварительно обучили несколько различных моделей Switch Transformer, используя 32 ядра TPU на Colossal Clean Crawled Corpus, наборе данных размером 750 ГБ, взятом из Reddit, Wikipedia и других веб-источников. Они поставили перед моделями задачу предсказывать пропущенные слова в отрывках, где 15% слов были замаскированы, а также решать другие задачи, такие как поиск текста для ответа на список из все более сложных вопросов.
Исследователи утверждают, что их модель с 2048 внутренних моделей Switch-C показала «отсутствие обучающей нестабильности вообще» в отличие от предшественника Switch-XXL, содержащей 395 млрд параметров и 64 внутренних модели.
Предварительное обучение модели удалось ускорить более чем в 7 раз при использовании того же количества вычислительных ресурсов.
В будущей работе исследователи планируют применить Switch Transformer к работе с изображениями и текстом. Они считают, что разреженность моделей может дать преимущества в целом ряде различных сред, а также в мультимодальных моделях.
К сожалению, в работе исследователей не учитывалось влияние крупных языковых моделей на реальный мир, так как они часто отражают предубеждения, закодированные в общедоступных данных. Исследовательская компания ИИ OpenAI отмечает, что это может привести к размещению таких слов, как «непослушный» рядом с женскими местоимениями и «ислам» рядом с такими словами, как «терроризм».
Другие исследования от Intel, MIT и канадской инициативы CIFAR в области искусственного интеллекта уже обнаружили высокий уровень стереотипных предубеждений в некоторых популярных моделях, включая Google BERT и XLNet, OpenAI GPT-2 и Facebook RoBERTa.
Уже зафиксировано несколько сомнительных эпизодов применения новой языковой модели GPT-3 от OpenAI. Осенью прошлого года на Reddit появился блог, который фактически вел GPT-3. Он отвечал на вопросы о самоубийствах, домогательствах, теориях заговора, иммиграции, расизме и другие.
А исследователи из французской компании Nabla использовали систему генерации текста для создания медицинского чат-бота. Во время имитационного сеанса с пациентом бот посоветовал ему убить себя.
===========
Источник:
habr.com
===========
Похожие новости:
- [Open source, Машинное обучение, Звук] Modern Portable Voice Activity Detector Released
- [Open source, Python, Data Mining, Машинное обучение, Звук] Мы опубликовали современный Voice Activity Detector и не только
- [Python, Программирование, Машинное обучение] Соревнование KAGGLE по определению риска дефолта заемщика. Разработка признаков
- [Машинное обучение, Искусственный интеллект] Доббль: практичный подход с OpenCV и NumPy
- [Машинное обучение, Искусственный интеллект] Исследователи выяснили, что системы ИИ не различают предложения с перемешанными словами
- [Алгоритмы, Математика, Машинное обучение, Искусственный интеллект] Алгоритм обучения нейронных сетей с помощью нового вида чисел
- [Машинное обучение, Экология] Глубокое обучение в экологии: прогнозирование вспышек численности жука-короеда (перевод)
- [Программирование, Машинное обучение] Введение: Соревнование от финансовой группы HOME CREDIT по определеню риска дефолта заемщика
- [Python, Программирование, Машинное обучение, DIY или Сделай сам] Пора избавляться от мышки или Hand Pose Estimation на базе LiDAR за 30 минут
- [Машинное обучение, GTD] Прогрессивное конспектирование III: Чем быстрее забываешь, тем быстрее учишься (перевод)
Теги для поиска: #_mashinnoe_obuchenie (Машинное обучение), #_iskusstvennyj_intellekt (Искусственный интеллект), #_natural_language_processing, #_google_ai, #_jazykovye_modeli (языковые модели), #_mashinnoe_obuchenie (машинное обучение), #_iskusstvennyj_intellekt (искусственный интеллект), #_nlp_(natural_language_processing), #_mashinnoe_obuchenie (
Машинное обучение
), #_iskusstvennyj_intellekt (
Искусственный интеллект
), #_natural_language_processing
Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Текущее время: 22-Ноя 09:53
Часовой пояс: UTC + 5
Автор | Сообщение |
---|---|
news_bot ®
Стаж: 6 лет 9 месяцев |
|
Исследователи Google разработали метод, который, по их утверждению, позволил обучить языковую модель, содержащую более триллиона параметров. Они заявили, что новая модель с 1,6 трлн параметров, по-видимому, является крупнейшей в своем классе на сегодняшний день. Данная модель достигла ускорения в 4 раза по сравнению с более ранней, самой крупной языковой моделью Google T5-XXL. Исследователи применили Switch Transformer, метод «редко активируемого», который использует только подмножество весов модели или параметры, которые преобразуют входные данные в модели. Концепция Switch Transformer состоит в том, чтобы объединить несколько моделей, специализирующихся на различных задачах, внутри более крупной и встроить «стробирующую сеть», выбирающую, к какой из этих моделей обращаться в конкретном случае. Switch Transformer использует графические процессоры и блоки тензорной обработки (TPU) Google. В распределенной системе обучения модели распределяют уникальные веса по разным устройствам, поэтому сохраняется управляемая память и вычислительные ресурсы на каждом устройстве. В ходе эксперимента исследователи предварительно обучили несколько различных моделей Switch Transformer, используя 32 ядра TPU на Colossal Clean Crawled Corpus, наборе данных размером 750 ГБ, взятом из Reddit, Wikipedia и других веб-источников. Они поставили перед моделями задачу предсказывать пропущенные слова в отрывках, где 15% слов были замаскированы, а также решать другие задачи, такие как поиск текста для ответа на список из все более сложных вопросов. Исследователи утверждают, что их модель с 2048 внутренних моделей Switch-C показала «отсутствие обучающей нестабильности вообще» в отличие от предшественника Switch-XXL, содержащей 395 млрд параметров и 64 внутренних модели. Предварительное обучение модели удалось ускорить более чем в 7 раз при использовании того же количества вычислительных ресурсов. В будущей работе исследователи планируют применить Switch Transformer к работе с изображениями и текстом. Они считают, что разреженность моделей может дать преимущества в целом ряде различных сред, а также в мультимодальных моделях. К сожалению, в работе исследователей не учитывалось влияние крупных языковых моделей на реальный мир, так как они часто отражают предубеждения, закодированные в общедоступных данных. Исследовательская компания ИИ OpenAI отмечает, что это может привести к размещению таких слов, как «непослушный» рядом с женскими местоимениями и «ислам» рядом с такими словами, как «терроризм». Другие исследования от Intel, MIT и канадской инициативы CIFAR в области искусственного интеллекта уже обнаружили высокий уровень стереотипных предубеждений в некоторых популярных моделях, включая Google BERT и XLNet, OpenAI GPT-2 и Facebook RoBERTa. Уже зафиксировано несколько сомнительных эпизодов применения новой языковой модели GPT-3 от OpenAI. Осенью прошлого года на Reddit появился блог, который фактически вел GPT-3. Он отвечал на вопросы о самоубийствах, домогательствах, теориях заговора, иммиграции, расизме и другие. А исследователи из французской компании Nabla использовали систему генерации текста для создания медицинского чат-бота. Во время имитационного сеанса с пациентом бот посоветовал ему убить себя. =========== Источник: habr.com =========== Похожие новости:
Машинное обучение ), #_iskusstvennyj_intellekt ( Искусственный интеллект ), #_natural_language_processing |
|
Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Текущее время: 22-Ноя 09:53
Часовой пояс: UTC + 5