[Искусственный интеллект] Google представила ToTTo — датасет для генерации текста по таблицам

Ответить на тему

Автор

Сообщение

news_bot ^®

Стаж: 8 лет 4 месяца
Сообщений: 27286

news_bot ^® написал(а)
16-Янв-2021 19:30

Цитировать

Google опубликовала датасет для создания текста на основе таблиц. ToTTo (сокращение от «Table-To-Text») позволяет резюмировать текст с высокой точностью, утверждают в компании.За последние несколько лет исследования в области генерации естественного языка, которая используется для таких задач, как резюмирование текста, достигли больших успехов. Однако нейросети до сих пор бывают склонны к «галлюцинациям» (созданию текста, который не соответствует источнику). Например, нейросеть, резюмирующая информацию о бельгийском футболисте Константе Вандене Стоке, может ошибочно назвать его американским фигуристом. Эта проблема мешает использованию нейросетей в приложениях, требующих высокой точности. Определить точность резюмирования проще, если исходный контент структурирован — например, представлен в форме таблицы. Структурированные данные могут также проверить способность модели к рассуждениям и выводам. Однако, отмечают в Google, существующие крупные структурированные наборы данных часто зашумлены и плохо поддаются резюмированию, из-за чего для измерения «галлюцинаций» при разработке модели они бесполезны.ToTTo представляет собой датасет для преобразования таблицы в текст, созданный с использованием нового процесса аннотации. ToTTo (сокращение от «Table-To-Text») состоит из более чем 120 тыс. обучающих примеров. Датасет и код опубликованы на GitHub.Разработка процесса аннотации для получения естественных, но при этом точных предложений из табличных данных — серьезная проблема, указывают в Goole. Многие датасеты, такие как Wikibio и RotoWire, эвристически сочетают естественный текст с таблицами, что затрудняет понимание того, вызвана ли «галлюцинация» шумом данных или недостатками модели. ToTTo создан с использованием новой стратегии. Для начала модель собирает данные из Википедии. Итоговое предложение конструируется с помощью контекста страницы в соответствии с общими для таблицы и контекста словами и гиперссылками, ссылающимися на табличные данные.

Итоговое предложение может содержать информацию, не поддерживаемую таблицей, однако модель выделяет ячейки в таблице, которые соответствуют предложение, и удаляет фразы, которых там нет. Модель также деконтекстуализирует предложение, чтобы оно было автономным (например, с правильным местоимением) и исправляет грамматику, где это необходимо.Тематический анализ ToTTo показал, что темы «Спорт» и «Страны» вместе составляют 56,4% датасета. На остальные 44% приходится более широкий набор тем, включая исполнительское искусство, транспорт и развлечения.

===========
Источник:
habr.com
===========
Похожие новости:

Теги для поиска: #_iskusstvennyj_intellekt (Искусственный интеллект), #_nejroseti (нейросети), #_generatsija_estestvennogo_jazyka (генерация естественного языка), #_google, #_google_ai, #_tabletotext, #_totte, #_vikipedija (википедия), #_iskusstvennyj_intellekt (
Искусственный интеллект
)

Профиль ЛС

Ответить на тему

Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы

Текущее время: 19-Июн 10:01
Часовой пояс: UTC + 5