Открыт код Jina Embedding, модели для векторного представления смысла текста
Автор
Сообщение
news_bot ®
Стаж: 6 лет 9 месяцев
Сообщений: 27286
Компания Jina открыла под лицензией Apache 2.0 модель машинного обучения для векторного представления текста - jina-embeddings-v2. Модель позволяет преобразовать произвольный текст, включающий до 8192 знаков, в небольшую последовательность вещественных чисел, образующих вектор, сопоставленный с исходным текстом и воспроизводящий его семантику (смысл). Jina Embedding стала первой открытой моделью машинного обучения, обладающей характеристиками, не уступающими пропретарной модели векторизации текста от проекта OpenAI (text-embedding-ada-002), также способной обрабатывать тексты, насчитывающие до 8192 токенов.
Расстояние между двумя сформированными векторами можно использовать для определения смысловой взаимосвязи исходных текстов. На практике сформированные векторы могут применяться для анализа похожести текстов, организации поиска близких по тематике материалов (ранжирование результатов по семантической близости), группировки текстов по смыслу, формирования рекомендаций (предложение списка похожих текстовых строк), выявления аномалий, определения плагиата и классификации тестов. В качестве примеров областей использования упоминается задействование модели для анализа юридических документов, для бзнесс-аналитики, в медицинских исследованиях для обработки научных статей, в литературной критике, для разбора финансовых отчётов и для повышения качества обработки чат-ботами сложных вопросов.
Для загрузки доступны два варианта модели jina-embeddings (базовая - 0.27 ГБ и сокращённая - 0.07 ГБ), обученные на 400 миллионах пар текстовых последовательностей на английском языке, охватывающих различные области знаний. При обучении использовались последовательности, размером 512 токенов, которые были экстраполированы до размера 8192 при помощи метода ALiBi (Attention with Linear Biases).
Базовая модель включает в себя 137 млн параметров и рассчитана на использовании на стационарных системах с GPU. Сокращённая модель включает 33 млн. параметров, обеспечивает меньшую точность и нацелена на применение на мобильных устройствах и на системах с небольшим объёмом памяти. В ближайшее время также планируют опубликовать крупную модель, которая будет охватывать 435 млн параметров. В разработке также находится многоязычный вариант модели, который в настоящее время сосредоточен на поддержке немецкого и испанского языков. Отдельно подготовлен плагин для использования модели jina-embeddings через инструментарий LLM.
===========
Источник:
OpenNet.RU
===========
Похожие новости
- Главная ссылка к новости (https://jina.ai/news/jina-ai-l...)
- OpenNews: Facebook открыл код библиотеки классификации текста fastText
- OpenNews: DeepMind представил систему машинного обучения для генерации кода по текстовому описанию задачи
- OpenNews: Открыт код системы машинного обучения для генерации реалистичных движений человека
- OpenNews: Facebook опубликовал звуковой кодек EnCodec, использующий машинное обучение
- OpenNews: Система машинного обучения Stable Diffusion адаптирована для синтеза музыки
Похожие новости:
- Новая версия POP3 и IMAP4 сервера Dovecot 2.3.21
- Три критические уязвимости в Exim, позволяющие удалённо выполнить код на сервере
- Релиз векторной графической библиотеки Cairo 1.18.0
- Выпуск дистрибутива Tails 5.17
- Компания JetBrains объявила о поддержке Wayland в IDE IntelliJ и OpenJDK
- Google создаёт прецедент, подрывающий нахождение в общественном достоянии контента, сгенерированного ИИ
- Выпуск дистрибутива Tails 5.16
- Выпуск Savant 0.2.4, фреймворка компьютерного зрения и глубокого обучения
- Google предложил Device Memory TCP для сетевой передачи данных между устройствами
- Вышел Savant 0.2.3, Python-фреймворк для компьютерного зрения и видеоаналитики
Теги для поиска: #_embedding, #_text, #_ai
Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Текущее время: 23-Ноя 14:36
Часовой пояс: UTC + 5
Автор | Сообщение |
---|---|
news_bot ®
Стаж: 6 лет 9 месяцев |
|
Компания Jina открыла под лицензией Apache 2.0 модель машинного обучения для векторного представления текста - jina-embeddings-v2. Модель позволяет преобразовать произвольный текст, включающий до 8192 знаков, в небольшую последовательность вещественных чисел, образующих вектор, сопоставленный с исходным текстом и воспроизводящий его семантику (смысл). Jina Embedding стала первой открытой моделью машинного обучения, обладающей характеристиками, не уступающими пропретарной модели векторизации текста от проекта OpenAI (text-embedding-ada-002), также способной обрабатывать тексты, насчитывающие до 8192 токенов. Расстояние между двумя сформированными векторами можно использовать для определения смысловой взаимосвязи исходных текстов. На практике сформированные векторы могут применяться для анализа похожести текстов, организации поиска близких по тематике материалов (ранжирование результатов по семантической близости), группировки текстов по смыслу, формирования рекомендаций (предложение списка похожих текстовых строк), выявления аномалий, определения плагиата и классификации тестов. В качестве примеров областей использования упоминается задействование модели для анализа юридических документов, для бзнесс-аналитики, в медицинских исследованиях для обработки научных статей, в литературной критике, для разбора финансовых отчётов и для повышения качества обработки чат-ботами сложных вопросов. Для загрузки доступны два варианта модели jina-embeddings (базовая - 0.27 ГБ и сокращённая - 0.07 ГБ), обученные на 400 миллионах пар текстовых последовательностей на английском языке, охватывающих различные области знаний. При обучении использовались последовательности, размером 512 токенов, которые были экстраполированы до размера 8192 при помощи метода ALiBi (Attention with Linear Biases). Базовая модель включает в себя 137 млн параметров и рассчитана на использовании на стационарных системах с GPU. Сокращённая модель включает 33 млн. параметров, обеспечивает меньшую точность и нацелена на применение на мобильных устройствах и на системах с небольшим объёмом памяти. В ближайшее время также планируют опубликовать крупную модель, которая будет охватывать 435 млн параметров. В разработке также находится многоязычный вариант модели, который в настоящее время сосредоточен на поддержке немецкого и испанского языков. Отдельно подготовлен плагин для использования модели jina-embeddings через инструментарий LLM. =========== Источник: OpenNet.RU =========== Похожие новости
|
|
Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Текущее время: 23-Ноя 14:36
Часовой пояс: UTC + 5