[Data Mining, Открытые данные] Винный гид России. Аналитика

Автор Сообщение
news_bot ®

Стаж: 6 лет 9 месяцев
Сообщений: 27286

Создавать темы news_bot ® написал(а)
12-Мар-2021 11:32

Эта статья, как ни странно, про российское вино. Достопочтенную публику прошу не злиться, во-первых, на Хабре уже есть несколько статей на винную тематику, а, во-вторых, речь не столько про само вино, сколько про открытые данные и их анализ.Статья абсолютно пятничная и по смыслу, и по духу. Почему же я публикую её сегодня? Потому что завтра в это время я буду пить вино, а значит мне будет не до статей. Так что держите пятничную статью в четверг. Надеюсь, она будет интересна любителям вина. Особенно российского. Месяц назад Роскачество презентовало очередной выпуск ежегодника "Винный гид России". Он посвящен (внезапно!) российским винам. Но не всем, а лишь находящимся в ценовом сегменте до ±1000 рублей и широко представленным в обычных продуктовых сетях. В общем, винные снобы могут сразу пройти мимо, речь пойдет о самом что ни на есть масс-маркете. Гид доступен в печатном и электронномвиде. Последний представляет собой, по сути, рейтинг вин, которые можно отфильтровать по различным критериям. Это позволяет легко найти конкретное вино, его оценку и прочую информацию о нем. Но вот на более общие вопросы с помощью этого сайта я ответить не смог. А именно:
1. Какова картина в целом? Большинство вин откровенно плохи? Или наоборот прекрасны?2. Не хочу запоминать и искать конкретные вина. Какие винодельни стабильно показывают достойное качество?3. Как цена влияет на качество? Есть ли разница между вином за 150 рублей и за 500? А за 500 vs 1000?
Но раз есть сайт с данными, значит их можно спарсить и ответить на все свои вопросы самостоятельно. Так что все те, кому интересен мир российского вина, и кто не воротит нос при фразе "вино дешевле 1000 за бутылку", добро пожаловать под кат!
Помните, что чрезмерное употребление алкоголя, в том числе вина, вредит вашему здоровью. Употребляйте ответственно или не употребляйте вовсе.

Немного сувениров из недавней поездки по российским винодельнямОглавлениеПара слов о методологияхОбщая картинаРейтинг виноделенКак влияет цена на оценку?ИтогиПара слов о методологияхПредупреждение о рекламе (её отсутствии)В тексте будет много ссылок и упоминаний, в том числе на конкретные вина, сайты, людей и т.д. Ничто из этого не является рекламой, меня никто об этом не просил и, тем более, мне не платил.Как относиться к самому Роскачеству в целом я не знаю, никогда не интересовался его работой. Но главный идеолог и автор конкретно этого проекта – Артур Саркисян. Человек несомненно уважаемый и авторитетный в мире российского виноделия. Подробная методология исследования изложена на сайте Роскачества. Для тех кому лень читать, приведу ее вкратце ниже. Кому лень читать даже это – просто запомните:
дегустация была слепой, вино оценивалось до 100-балльной шкале (не Паркера, но похожей). Чем выше балл, тем лучше: 81 балл и больше – очень хорошо, 71 и меньше – очень плохо. Всё вино российское, из масс-маркета, ценник <=1000 рублей. Исследовались: тихие красные, белые, розовые; игристые, ликерные.
Методология исследования Роскачества (краткое изложение)Вина закупались в обычных продуктовых сетях. Цена почти всех – до 1000 рублей. Повторюсь, если вы считаете, что за такие деньги пить вино в принципе нельзя – вы не целевая аудитория ни данного исследования, ни данной статьи :) Впрочем, ниже по тексту будет пара аргументов против такой позиции. Всего 5 категорий: тихие красные, тихие белые, тихие розовые; игристые, ликерные. Внутри этих категорий отдельных номинаций по уровню сахара не было, красное полусладкое и красное сухое в итоге попадало в один рейтинг. К сожалению, до конца непонятно, как именно отбирались вина, но очевидно, что в рейтинг вошла далеко не вся продукция виноделов (и не всех виноделов), подходящая под заданные условия. После закупки проводилась слепая дегустация от группы экспертов, на основе которой выставлялась оценка по 100-балльной шкале. Нет, это не шкала Паркера, как можно было бы подумать, а шкала из ГОСТ 32051-2013  Продукция винодельческая. Методы органолептического анализа. И трактовка у нее (по версии Роскачества) тоже своя:
  • менее 71 балла – вина с явными недостатками;
  • менее 78 – простые "плоские" вина без явных недостатков;
  • менее 81 – нормальные вина "на каждый день";
  • 81 и выше – хорошее вино, на которое стоит обратить внимание
Вам кажется, что шкала занижена? Давайте не спешить с выводами, посмотрим на результаты. После выставления оценок они специальным образом обрабатывались и усреднялись, чтобы избежать выбросов и прочих необъективностей.Все данные были взяты мноюс сайта Роскачества, никак не изменялись и не модифицировались. Исключение – названия брендов, они были приведены к единообразию (удалил разные варианты названий одного и того же бренда: например, "ZB" и "Золотая балка" стали просто "ZB" и т.д.). Гид доступен за три года 2018-2020, я брал данные всех трех лет, поскольку вина в разных годах не повторяются. Говнокод и исходные датасеты выложены тут, при желании можете брать и пользоваться.Связан ли я как-то с винной отраслью и производством? Нет, я не работаю с вином ни в каком качестве (разве что утилизатором на собственной кухне) и считаю себя дилетантом в этой области. Все мои суждения и выводы могут быть банальны, наивны или ошибочны. Напоследок стандартное для моих статей примечание:Стандартное примечаниеЗдесь и далее речь идет лишь о данных, указанных в "Винном гиде России". Выборка не является репрезентативной для всех вин России и тем более других стран. Приведенные оценки вин не являются истиной в последней инстанции. На другом конкурсе 70-балльное вино из Гида может получить под 100 очков, а конкретно вам не понравиться настолько, что вы его выльете в раковину. Это нормально.Для удобства я буду говорить «вина в среднем стоят N рублей и получают R баллов…». Но в действительности это означает: «вина, включенные в Винный гид России, в среднем по информации из Винного гида России стоят N рублей и получают по оценке экспертов Винного гида России R баллов…»
Общая картинаДля начала посмотрим, какие вообще вина участвовали в исследовании:
Распределение вин по типу и уровню сахараБольше всего, как и ожидалось, красных, белых и игристых (суммарно почти тысяча образцов). Откровенно сладких среди них почти не встречается, а вот полусладких еще достаточно. Особенно среди игристых (традиционно для российского рынка). Тем не менее, две трети белых/розовых и 80% красных – вина сухие, что не может не радовать. Про сахарКак влияет уровень сахара на оценки мы поговорим чуть позже. Но поскольку в самом гиде вина не разделяются на подкатегории исходя из сладости, мы тоже разделять не будем. Какие же оценки ставились этим винам?
Распределение оценок вин по типам. Линии – нижняя граница уровней вин согласно классификации РоскачестваЛикерные в среднем получают оценки чуть выше (вероятно, связано с многолетним опытом виноделов в этой сфере – Солнечная долина, Массандра занимаются креплёными винами с позапрошлого века). У остальных все четко: 1-2 квартили – простые вина, 2-3 – повседневные, 4 – хорошие. Согласно трактовке оценок от Роскачества, конечно же. На первый взгляд всё адекватно. Но меня очень смущает, что ни одно вино не добралось даже до 88 баллов. Почему? Может, оценки ГОСТа настолько жесткие, что 90 – это уже великое вино, а всё что выше – недостижимые высоты, вин для которых еще не создали? Но на самом деле, согласно самому ГОСТу (а не Роскачеству) градация оценок следующая:
  • 71 и выше – хорошо
  • 86 и выше – очень хорошо
  • 100 – превосходно (я не понял, зачем делать целый уровень под одну оценку, ну да ладно).
То есть лишь единицы из рассматриваемых вин дотянулись хотя бы до уровня "очень хорошо", если пользоваться трактовкой из ГОСТа. Тогда, может, вина у нас в исследовании больно дешевые, а потому посредственные, вот и не смог ни один образец из 1000 дойти даже до 90 баллов? На первый взгляд, адекватная гипотеза, ибо подавляющая часть вин имеет цену ниже 500 рублей за бутылку, а медиана – 350, что даже меня, крайне демократичного в подобных вопросах, немного смущает:
Распределение цены за 0.75л (руб.)Но вот, например, трехсотрублевый брют от Фанагории получает 90 баллов на авторитетном Decanter World Wine Awards (к вопросу о том, что недорогие вина не бывают хорошими). А в нашем рейтинге он получает всего80.73! Почти 10 баллов разницы! И если посмотреть результаты конкурса, можно найти и кучу другихпримеров недорогих российских вин с высокими оценками (например, Саперави от Шато Тамань за те же 300рэ с теми же 90 баллов).Итак, у меня нет ответа на вопрос, почему оценки Гида настолько консервативны. Лишь гипотезы:
  • система оценок ГОСТа очень жесткая. Настолько, что никто никогда не дотягивает до уровня "очень хорошо" и это нормально. Чтобы это проверить, надо найти результаты других винных конкурсов, использовавших эту систему, но я таковых не нашел;
  • недорогие вина в большинстве своем очень средние и ожидаемо не дотягивают до уровня "очень хорошо". На международные конкурсы при этом посылается какое-то особое вино, которое берет медали. В эту гипотезу верится слабо: уж из 1000 образцов хоть парочка, да должна быть за 90, а про "подложные вина" и вовсе похоже на теорию заговора;
  • дегустаторы знали, что образцы – российские вина из масс-маркета, поэтому осторожничали в оценке, чтоб не поставить слишком высокую.
Если у вас есть другие версии или вы достоверно знаете в чем дело – пожалуйста, поделитесь в комментариях. Тем не менее, вин с откровенными недостатками оказалось всего ничего, а значит можно что-то из этого выбрать! И если для этого лень запоминать конкретные вина, нам поможет следующий раздел. Рейтинг виноделенПосмотрим, какие винодельни лучше остальных. Для этого взглянем на средний рейтинг их вин. Но важны не только высокие оценки сами по себе, но и их стабильность. Поэтому я позволил себе исключить из рейтинга винодельни, имеющие менее 5 оцененных образцов (это позволит уменьшить шум в данных). Для полноты информации на последней вкладке представлен рейтинг по всем винодельням, но его обсуждать мы не будем. Также я вывел в табличку стандартное отклонение, чтоб показать (не) стабильность получаемых оценок. Белое виноИзвините, данный ресурс не поддреживается. :( В топе не нуждающиеся в особенном представлении "зубры" с юга материковой России – Мысхако, многострадальная Юбилейная (надеюсь, недавнее вхождение в концерн Абрау даст ей новую жизнь), Фанагория и Шато Тамань. Выделяется Поместье Голубицкое, ибо по объемам производства оно сильно уступает вышеозвученным конкурентам. Первая крымская винодельня встречается на 6 месте и замыкает число тех, кто перевалил за 80 баллов. Причем, обратите внимание, какой высокий относительно остальных у Alma Valley разброс оценок. Связано это с их заигрываниями с полусладкими и сладкими винами, которые и "тянут вниз" в плане оценок (зато, уверен, "тянут вверх" в плане выручки). Поэтому на второй вкладке я отдельно составил рейтинг без учета сладких и полусладких вин, так сравнение будет более честным. Альма сразу же и поднимается повыше, и СКО уменьшает.Замыкает рейтинг Долина. Насколько я понимаю, основная часть их продукции, это разлитый балк (кстати, недавний закон сильно усложняет жизнь производителям, использующим заграничный виноматериал, так что не факт, увидим ли мы её уже в следующем ежегоднике). Товарищи по дну рейтинга – Коктебель, до сих пор находящийся в процессе модернизации и перехода собственности, а также Усадьба Саркел– их вина я вообще был удивлен обнаружить в Гиде, совсем небольшая частная винодельня. КрасноеИзвините, данный ресурс не поддреживается. :( Знакомые всё лица! На этот раз в топе еще одни крымчане – Esse, а также Усадьба Мысхако. Её не стоит принимать за обычное "Мысхако". "Усадьба..." – старое название новой гравитационной винодельни Chateau Pinot. Я был у них недавно на экскурсии (остался очень доволен увиденным), и именно поэтому знаю об этих перипетиях с названиями, иначе точно запутался бы. А среди сухих в лидеры вышла уже известная нам винодельня Альма (кстати, тоже "гравитационщики"). И снова с не стабильными оценками (на этот раз даже среди сухих). На ней я тоже побывал и был приятно удивлен производством и планами развития. Кроме объема вложенных в производство сил и денег винодельня интересна тем, что производит айсвайны (единственные в России по классической технологии) и TBA (не помню, единственные ли в России или нет).
Alma valley. Фото из недавней поездкиРозовое виноРозовых вин мало, поэтому разбивать на отдельные вкладки не буду. Комментировать тоже не буду.Извините, данный ресурс не поддреживается. :( ИгристыеИзвините, данный ресурс не поддреживается. :( Без сюрпризов, в топе Шато Тамань, знаменитое Абрау-Дюрсо, Фанагория. Новое лицо – Aristov (на самом деле это подбренд Кубань-вино, но объединять их я посчитал неправильным). Крымчане Инкерман и Золотая Балка замыкают ТОП "восьмидесятников" наравне с Мысхако. ЛикерныеИзвините, данный ресурс не поддреживается. :( Позволил себе в этом рейтинге включить в ТОП крупных производителя всего с 4 образцами, ибо такие высокие и стабильные баллы от производителя из Дагестана для меня открытие. Остальные строчки без особых сюрпризов – недавно сменившая владельцев (и потому вызывающая тревожные чувства)Массандра и вполне себе стабильная Солнечная долина берут многолетним качеством и многолитровым количеством. ИтогоЕсли вам лень запоминать какая винодельня в каком вине хороша, то абсолютными чемпионами во всех основных категориях (красное, белое, игристое) являются идущие ноздря-в-ноздрю Фанагория, Мысхако и Шато Тамань:Извините, данный ресурс не поддреживается. :( .Зависимость оценки от ценыЗависит ли оценка от цены за бутылку? Линейная регрессия говорит нам, что очень слабо:
У розового и ликерного коэффициенты и вовсе не значимы, у других вин хоть и значимы, но R-squared нигде не поднимается выше 0.1
То, что цена вина складывается далеко не только из его органолептических свойств – не новость. Начиная с какого-то момента вы платите за бренд, за терруар, за редкость, за имя винодела и т.д. и т.п. Вообще говоря, тема ценообразования в винной индустрии слишком сложная и выходит за рамки этой статьи и моих познаний. Более того, в принципе нельзя ожидать связи "вино в 7 раз дороже – значит будет в 7 раз лучше". Минимальная граница не дефектного вина по ГОСТу – 56 баллов. А максимально можно набрать не более 100. Получается, что наибольшая разница в оценке, которую мы можем зафиксировать между минимально приемлемым и великим вином – 2 раза. При том, что цена на них может отличаться на порядки. Это так же автоматически означает, что наилучшее соотношение цена-качество всегда будет у дешевых вин и использовать его "в лоб" не стоит. На первом графике распределение оценок вин по ценовым сегментам с шагом в 200 рублей, на втором – сколько баллов рейтинга приходится на 1 рубль.
Распределение оценок вин по ценовым сегментам. Сколько рейтинга приходится за 1 рубльТакой артефакт можно попробовать полечить отнормировав рейтинг (чтобы самое плохое вино имело 0 баллов, а самое хорошее – 100) и поиграв с ценой (например, логарифмируя). Но принципиально картину на наших данных это не изменит – я проверял. Да и смысл, плачу в магазине то я рублями, а не ln(RUB). И все же на этом графике важно отметить, что в самом дешевом сегменте чуда не произошло – вина за 150 рублей покупать не стоит, в оценках резкий провал. А вот дальше, как нам и говорила регрессия, эффект от увеличения цены не такой явный, а порою и нулевой. Так что, стоит ли брать вино за 300-400 рублей и не париться, поскольку качество все равно будет сопоставимо с более дорогими? Не знаю, каждый решит для себя сам. Понимаю, что многим обсуждение подобного уровня цен покажется смешным, но данные есть данные. И лично меня они подтолкнули, пускай, не к переходу на более дешевые вина, но к проведению пары слепых дегустаций с винами из разных ценовых сегментов. По крайней мере, это может оказаться интересным. Хоть связь между ценой и рейтингом мне достоверно обнаружить и не удалось, но зато удалось найти влияние другого фактора. Это, конечно же, сахар.Полусухих, экстра-брютов и сладких вин слишком мало, чтобы всерьез их рассматривать, а вот сухие с полусладкими сравнить можно (к тому же, это классическое для нашей страны противостояние).
Распределение оценок в зависимости от уровня сахараРазличия стат значимы (t-test, MW, p_value<0.01; правда, для белых вин t-тест выдал p_value=0.03, но не будем придираться).Хоть различия и значимы, внимательный читатель заметит, что они совсем небольшие. Но это не значит, что полусладкое вино почти не отличается от сухого, просто критерии приемки у таких вин наверняка отличаются. И то что допустимо для п/сл неприемлемо в сухом. ИтогиВо-первых, очень круто, что государственные структуры все больше идут в открытые данные, причем делают это качественно. На сайте Роскачества можно посмотреть исчерпывающую информацию о каждом исследованном вине – от стоимости, до скана протокола исследования. Такая открытость всегда приятна. На прошлом месте работы я и сам участвовал в государственном проекте, связанным с открытыми данными (статья на Хабре). И знаю, что порою это совсем не просто. Тем приятнее, что это направление развивается. В этом году Гид так же вышел и в печатной версии (счастливым обладателем которой я стал благодаря тг-каналу "Вино и люди"). К ней тоже лично у меня нет нареканий – ни по качеству печати, ни по содержимому. Её приятно и просто держать в руках, и читать.Хотя у меня остались вопросы о распределении оценок (см. выше), а так же хотелось бы видеть еще бОльшую и репрезентативную выборку, я рад, что такой проект существует и сделан со знанием дела.Если же говорить об утилитарных целях исследования, то абсолютными лидерами в общем зачете стали такие винодельни как Фанагория, Мысхако и Chateau Tamagne. Что не исключает лидерства других производителей в отдельных категориях – Голубицкое, Альма, Абрау-Дюрсо и др. Серьезной же зависимости оценки вина от его цены выявить не удалось, разве что лишний раз убедились, что вино за 150 рублей лучше не брать. Ну и сухие в среднем лучше полусладких (вот так открытие). Так что идеальный выбор вина на основании представленных данных – бутылка сухого от Фанагории за 500 рублей. Шучу, конечно. Идеальный выбор у каждого свой.Надеюсь, моя статья была познавательна и подогрела чей-нибудь интерес к российским винам. У нашего виноделия несомненно куча проблем, но оно самобытно, интересно и, я верю, имеет огромный потенциал.Спасибо за внимание. Пейте российское любое хорошее вино и помните: in vino veritas, in aqua sanitas!
===========
Источник:
habr.com
===========

Похожие новости: Теги для поиска: #_data_mining, #_otkrytye_dannye (Открытые данные), #_vino (вино), #_roskachestvo (роскачество), #_analitika (аналитика), #_otkrytye_dannye (открытые данные), #_parsing (парсинг), #_nikto_ne_chitaet_tegi (никто не читает теги), #_vinnyj_gid_rossii (винный гид россии), #_data_mining, #_data_analysis, #_analiz_dannyh (анализ данных), #_data_mining, #_otkrytye_dannye (
Открытые данные
)
Профиль  ЛС 
Показать сообщения:     

Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы

Текущее время: 22-Ноя 12:58
Часовой пояс: UTC + 5