[Data Mining, Big Data, Data Engineering] Таксономия очистки данных форматов времени и дат (перевод)
Автор
Сообщение
news_bot ®
Стаж: 6 лет 9 месяцев
Сообщений: 27286
A Taxonomy of Dirty Time-Oriented Data (2012 г.)Достаточно часто каждый аналитик сталкивается с ситуацией, когда загрузил данные в блок анализа, а в ответ – тишина, хотя в тестовом режиме все работает. Причина обычно в том, что данные недостаточно очищены, где в этой ситуации искать аналитику засаду и с чего начинать обычно задачка не из легких. Можно конечно использовать механизмы сглаживания, но каждый знает, что если из черного ящика с красными и зелеными шарами отсыпать килограмм шаров и вместо них вбросить килограмм белых, то в понимании распределения красных и зеленых это мало приблизит.Когда находишься в ситуации «а с чего начать» помогает таксономия «грязных данных». Хотя в учебниках и дают список проблем, но он обычно неполный, вот постоянно искал исследования, которые рассматривают эту тему подробней. Попалась работа T.Gschwandtner, J.Gartner, W.Aigner, S.Miksch хотя они ее делали для рассмотрения способов очистки данных связанных с датами и временем но, на мой взгляд, это оказалось исключение, которое потребовало разобраться с правилами поглубже чем в учебниках. По собственному опыту знаю, что сопряжение дат и времени «вынос мозга» практически в прямом смысле и поэтому и зацепился за исследование этих авторов.В своей работе они проанализировали несколько работ других авторов и составили мощный список «загрязнений данных» логика их анализа заслуживает уважения и, с другой стороны, дает возможность более «со стороны» посмотреть на любую задачу очистки данных. Все это видно когда сопоставляешь всю совокупность работ, по которым они делают сравнительный анализ. Поэтому и сделал перевод самых используемых ими 5 статей, список с ссылками на эти переводы ниже.Это первая статья из цикла. 1. Таксономия форматов времени и дат в неочищенных данных, 2012 г. 2. Очистка данных: проблемы и современные подходы 2000 г. 3. Таксономия «грязных данных» 2003 г.4. Проблемы, методы и вызовы комплексной очистки данных 2003 г.5. Формальное определение проблем качества данных 2005 г.6. Обзор инструментов качества данных 2005 г. Sorry, если ссылки не работают, это временно так как пока не залил их на Хабр.Предисловие Качество данных - важная тема для бизнес-аналитики, позволяющая получать точную информацию и принимать правильные решения во многих отраслях, требующих больших объемов данных. Несмотря на то, что существуют систематические подходы к классификации, обнаружению и устранению проблем с качеством данных, особые характеристики данных форматов времени и дат, практически не принимаются во внимание. Однако время является важным измерением данных с отличными характеристиками, которые требуют особого внимания в контексте грязных данных. Основываясь на существующей таксономии общих проблем с качеством данных, мы обращаемся к «грязным» ориентированным на время данным, то есть к ориентированным на время данным с потенциальными проблемами качества. В частности, мы исследовали эмпирически полученные проблемы, которые возникают с различными типами данных форматов времени и дат (например, моменты времени, интервалы времени), и привели различные примеры проблем качества данных форматов времени и дат. Предоставляя систематизированную информацию, относящуюся к существующим таксономиям, мы создаем основу для дальнейших исследований в области грязных данных форматов времени и дат и для формулирования необходимых проверок качества при предварительной обработке данных форматов времени и дат. 1. Введение Грязные данные приводят к неверным результатам и вводящей в заблуждение статистике [1]. Вот почему очистка данных - является предварительным условием любой задачи обработки данных. Грубо говоря, очистка данных - это процесс обнаружения и исправления грязных данных (например, повторяющихся данных, отсутствующих данных, несогласованных данных и просто ошибочных данных, включая данные, которые не нарушают никаких ограничений, но все же являются неправильными или непригодными для использования) [2]. Грязные данные включают ошибки и несоответствия в отдельных источниках данных, а также ошибки и несоответствия при интеграции нескольких источников. Проблемы качества данных могут происходить из разных источников, таких как системы федеративных баз данных, информационные системы на базе Интернета или просто из-за ошибочного ввода данных [1]. Грязные форматы времени и дат Процесс очистки данных, описанный в [1], включает несколько шагов:- Анализ данных;- Определение рабочего процесса преобразования и правил отображения;- Проверка рабочего процесса преобразования и определений преобразования;- Преобразование;- Замена грязных данных очищенными данными в первоисточниках. Другие описывают различные этапы, такие как аудит данных, спецификация рабочего процесса, выполнение рабочего потока и постобработка/контроль [3]. В любом случае необходимо проанализировать предоставленные данные, прежде чем можно будет выполнить какую-либо фактическую очистку. С этой целью большое значение имеет классификация «грязных» данных, служащая ориентиром для выявления имеющихся ошибок и несоответствий. Существует несколько различных общих подходов к созданию таксономии «грязных» данных, например [1-5].Другие интересные исследования качества данных включают Sadiq et al. [6], которые представляют список тем и ключевых слов, взятых из статей, посвященных исследованиям качества данных за последние 20 лет, Madnick and Wang [7], которые дают обзор различных тем и методов проектов качественных исследований, а также Neely and Cook [8], которые сочетают принципы качества продуктов и услуг с ключевыми элементами (например, обязанностями руководства, эксплуатационными расходами и гарантиями, исследованиями и разработками, производством, распределением, управлением персоналом и юридической функцией) качества данных на протяжении всего жизненного цикла данных. Однако ни один из этих подходов не позволяет систематически выстраивать таксономию проблем качества данных.При обнаружении ошибок в данных форматов времени и дат, следует учитывать особые аспекты. Данные форматов времени и дат, имеют отчетливые характеристики, поэтому их стоит рассматривать как отдельный тип данных [9-11].Примеры таких характеристик: Данные, ориентированные на время, могут быть предоставлены либо для определенного момента времени, либо для временного интервала. Хотя интервалы можно легко смоделировать по двум временным точкам, они добавляют сложности, если учитывать взаимосвязь таких интервалов. Например, Allen [12] описывает 13 различных качественных ориентированных на время отношения интервалов. Кроме того, интервалы достоверности могут иметь значение для экспертов в предметной области, но не могут быть явно указаны в данных. Имея дело со временем, мы обычно интерпретируем его с помощью календаря, и его единицы времени важны для рассуждений о времени. Однако эти календари имеют сложную структуру. Например, в григорианском календаре продолжительность месяца колеблется от 28 до 31 дня, а недели не совпадают с месяцами и годами. Кроме того, доступные данные могут быть измерены с разными уровнями временной точности. Учитывая эту сложную структуру времени, возможны дополнительные ошибки, и, соответственно, конкретная таксономия может помочь в решении этих проблем.Для начала мы даем схему и резюмируем таксономию общих проблем качества данных в Разделе 2. В Разделе 3 мы более подробно рассматриваем различные типы временных данных, которые требуют особого рассмотрения. Мы вводим некоторые термины для различных типов ориентированных на время данных в Разделе 3.1, прежде чем продолжить подробное описание нашего основного вклада - категоризации грязных данных форматов времени и дат, в разделе 3.2. В разделе 4 мы даем краткий обзор дальнейшей работы, которую мы запланировали провести в этой области, а в разделе 5 мы подводим итоги нашей работы.2. Работы других авторовПри подготовке нашей таксономии грязных данных, ориентированных на время, и проблем с качеством данных мы начинаем с обзора некоторых общих таксономий. Более конкретно, мы смотрим на общие разделы, используемые в этом исследовании (например, проблемы с одним источником по сравнению с проблемами с несколькими источниками), но особенно заинтересованы в «списках таксономий», то есть о тех типах возможных ошибок, которые достаточно специфичны должны быть охвачены конкретным решением (например, дубликаты, пропущенные значения, противоречивые значения).Списки, упомянутые в этих общих таксономиях, сведены в обзорную таблицу (см. Табл. 1). Rahm and Do [1] дают классификацию проблем, которые необходимо решить с помощью очистки данных. Они различают проблемы с одним источником и проблемы с несколькими источниками, а также проблемы, связанные со схемой и экземпляром (см. Рис. 1). Проблемы с несколькими источниками возникают, когда необходимо интегрировать несколько источников данных, например, разные представления данных, перекрывающиеся или противоречащие данные. Проблемы данных, связанные со схемой - это проблемы качества, которые можно предотвратить с помощью соответствующих правил целостности или улучшенного структуры схемы, в то время как проблемы, связанные с записью, нельзя предотвратить на уровне схемы (например, орфографические ошибки).
Рис. 1. Классификация проблем качества данных Rahm and Do [1]«Грязные» данные форматов времени и дат Позже Kim et al. [2] опубликовали исчерпывающую классификацию грязных данных. Они были нацелены на обеспечение основы для понимания того, как возникают грязные данные и какие аспекты необходимо учитывать при очистке данных, чтобы иметь возможность предоставлять надежные входные данные для дальнейших этапов обработки. С этой целью они представляют таксономию, состоящую из 33 примитивных типов грязных данных. Однако на практике грязные данные могут быть комбинацией нескольких типов грязных данных. Kim et al. Советует: «Начните с корневого узла только с двумя дочерними узлами - отсутствующими данными и не пропущенными данными - и продолжайте дальнейшее совершенствование этих категорий, используя стандартный подход «последовательного иерархического уточнения» (см. рис. 2)». Таким образом, они сохраняют коэффициент разветвления на каждом нелистовом узле небольшим, чтобы сделать интуитивно очевидным, что перечислены все значимые дочерние узлы. Кроме того, они различают неправильные данные с точки зрения того, можно ли их предотвратить с помощью методов, поддерживаемых в сегодняшних системах реляционных баз данных (т.е. автоматическое соблюдение ограничений целостности). Когда Kim et al. говоря о своей категории «устаревших временных данных», они относятся к моменту времени или временному интервалу, в течение которого данные действительны (например, род занятий сотрудника может больше не быть действительным, когда сотрудник получает повышение).
Рис 2. Классификация грязных данных Kim et al. [2]Muller and Freytag описывают более грубую классификацию аномалий данных [3]. Они начинаются с разграничения синтаксических аномалий, семантических аномалий и аномалий покрытия (пропущенных значений). Синтаксические аномалии включают лексические ошибки, ошибки формата области и нарушения, касающиеся неравномерного использования значений (например, использование разных валют). Семантические аномалии включают нарушения ограничений целостности, противоречия (например, несоответствие между возрастом и датой рождения), повторяющиеся записи и недопустимые кортежи. В этом контексте недопустимые записи кортежа не представляют действительные сущности из области значений, но все же не нарушают никаких ограничений целостности. Аномалии охвата можно разделить на отсутствующие значения и отсутствующие записи (кортежи) (см. рис. 3).
Рис. 3. Классификация аномалий данных Muller and Freytag [3]Oliveira et al. систематизируют свою таксономию грязных данных по уровням детализации [4]. Они действуют, исходя из предположения, что данные хранятся в нескольких источниках данных, каждый из которых состоит из нескольких отношений с взаимосвязями между ними. Более того, отношение содержит несколько кортежей, и каждый кортеж состоит из ряда атрибутов. Следовательно, они различают проблемы на уровне атрибутов/кортежей (например, пропущенные значения, орфографические ошибки, наличие синонимов в нескольких кортежах), проблемы на уровне одного отношения (например, повторяющиеся кортежи, нарушение ограничений бизнес-области), проблемы на уровне множественных отношений (например, нарушение ссылочной целостности, неоднородность синтаксиса, неправильные ссылки) и проблемы на уровне нескольких источников данных (например, неоднородность синтаксиса, наличие синонимов/омонимов, повторяющиеся кортежи) (см.рис. 4).
Рис. 4. Классификация проблем качества данных Oliveira et al. [4]Barateiro and Galhardas опубликовали статью [5] об инструментах качества данных, включая классификацию «грязных» данных, которая содержит проблемы, очень похожие на проблемы Kim et al. [2]. Однако кластеризация этих проблем отличается от кластеризации в [2]. Вместо этого он показывает некоторое сходство с кластеризацией Rahm and Do [1]. Они разделяют проблемы качества данных на проблемы уровня схемы (т.е. проблемы, которых можно избежать с помощью существующих систем управления реляционными базами данных (РСУБД) или улучшенного дизайна схемы) и экземпляров, проблемы уровня (т.е. проблемы, которых нельзя избежать с помощью лучшего определения схемы, потому что они связаны с содержанием данных). Более того, проблемы с данными на уровне схемы делятся на проблемы, которых можно избежать с помощью СУБД, и проблемы, которых нельзя. Проблемы с данными на уровне записи подразделяются на проблемы, связанные с отдельными записями данных, и проблемы, связанные с несколькими записями данных (см. рис. 5).
Рис. 5. Классификация проблем качества данных Barateiro and Galhardas [5]Эти подходы совершенно по-разному строят и разделяют свои таксономии грязных данных. Однако, когда дело доходит до реальных проблем с листьями грязного ата, они приходят к очень похожим результатам (см. Табл. 1). Мы опустили категорию «Целостность, гарантированная посредством управления транзакциями» из Kim et al. [2] он содержит проблемы «Потерянное обновление», «Грязное чтение», «Неповторимое чтение» и «Потерянная транзакция», поскольку мы не рассматриваем подобные технические проблемы в контексте данной статьи. Более того, мы не включали различие между проблемами уровня схемы и проблемами уровня экземпляра, потому что мы хотели исследовать проблемы качества данных на более общем уровне, а не ограничивать наше исследование областью базы данных. Далее мы вводим некоторые определения и объясняем нашу производную таксономию грязных данных, ориентированных на время, используя примеры для облегчения понимания.Таблица 1. Сравнение таксономий общих проблем качества данных. (• - включено в таксономию; o – после последующего уточнения было включено в исходную задачу).
3. «Грязные» данные форматов времени и датПри расширении таксономии «грязных» данных на «грязные данные» форматов времени и дат, мы фокусируем наше исследование на типах грязных данных, ориентированных на время, которые отличаются от общих ошибок, перечисленных в обзоре существующих таксономий выше. То есть мы стараемся добавлять аспекты, которые помогают подумать о возможных ошибках, построить тесты для обнаружения этих ошибок и, возможно, их исправления.Один из авторов является CEO поставщик решений time intelligence и имеет большой бизнес-опыт в решении реальных проблем грязных данных форматов времени и дат.В его проектах многочисленные ориентированные на время наборы данных, предоставляемые клиентами, используются для поддержки решения вопросов организации труда (например, рабочего времени, уровня укомплектования персоналом, уровня обслуживания) с помощью программных решений, специально разработанных для этих целей [13, 14]. Типичный проект может состоять из 5-20 различных типов файлов данных, некоторые из которых имеют более или менее структурированные форматы Excel [15], а другие экспортируются из баз данных. Некоторые из этих файлов данных могут быть очень маленькими (например, список активных сотрудников), другие могут быть средними (например, рабочее время 1000 сотрудников в течение многих лет), а иногда и довольно большими (> 10 миллионов записей). . Всего за последние годы было реализовано более 50 таких проектов, и проблемы с качеством данных всегда были существенной и болезненной частью общих проектов.Прежде чем мы фактически представим таксономию проблем качества, мы введем некоторые термины для различных типов данных, ориентированных на время. Классификация происходит из наблюдения, что проверка данных для данных проблем оказывается различной для этих различных типов данных форматов времени и дат.3.1 Определения: типы форматов времени и датИнтервал - это отрезок времени, который может быть представлен двумя моментами времени, обозначающими начало и конец интервала. В качестве альтернативы интервалы могут быть смоделированы как время начала (т.е. момент времени) в сочетании с его продолжительностью (т.е. заданное количество секунд, минут, часов и т.д.) Или как продолжительность в сочетании со временем окончания [9] . Например, 08:00 - 09:00; 08:17 - 17:13; 8:17 + 50’.Интервальные данные можно определить как фрагмент времени без промежутков, состоящий из интервалов (обычно одинаковой длины). Например, интервал 30 секунд, который обычно выровнен с более грубыми единицами времени: 00: 00-00: 30; 00: 30-01: 00.Интервал - это единица времени, составляющая интервал: «час», «день», «неделя» или 30’. В исключительных случаях интервалы также могут иметь неравномерную длину, например, для временной единицы «месяц».Более того, интервалы могут иметь атрибуты, такие как «будний день», «праздник», «час работы», «рабочий час», «школьный день» или «рождественский сезон». Следовательно, существуют атрибуты, которые можно вычислить (например, атрибут «день недели»), и атрибуты, требующие дополнительной информации (например, атрибут «праздник»).Однако данный набор интервальных данных может содержать промежутки между интервалами, например данные о продажах с пропусками по выходным и праздничным дням.В целом мы предлагаем различать следующие типы времени, поскольку они могут по-разному покрывать ошибки:1. Точки времени без интервалов.2. Интервалы без тела интервала (т.е. начало + конец, начало + продолжительность или продолжительность + конец):(a) Начало/конец интервалов (моменты времени без тела интервала).(b) Продолжительность интервалов.3. Интервальныее моменты времени4. Интервалы с телом интервала (т.е. начало + конец, начало + продолжительность или продолжительность + конец):(a) Начало/конец интервалов (интервальные моменты времени)(б) Продолжительность интервалов.Например, интервальные данные, ориентированные на время, могут иметь явные ошибки. С одной стороны, сам интервал может быть нарушен (например, набор данных, протянутый на почасовой основе, который содержит интервал минут). С другой стороны, атрибуты интервалов могут указывать на неверные значения данных (например, значения продаж в нерабочее время), или значения внутри интервалов могут нарушать некоторые ограничения, такие как «каждый интервал должен содержать значение больше 0 для заданный атрибут данных. Кроме того, при решении проблем качества данных, ориентированных на время, необходимо учитывать еще один тип данных, а именно значения, зависящие от времени, такие как «продажи в день».3.2 Категоризация проблем с данными форматов времени и датС методологической точки зрения, мы применили итеративный подход, основанный на смешанных инициативах, сочетающий методику основанной снизу вверх теории [16] с теорией, ориентированной сверху вниз. С одной стороны, наша работа собрала, смоделировала и итеративно закодировала ряд ориентированных на время проблем с качеством данных, которые возникали в наших проектах анализа реальных данных. Эти проекты привели к созданию большого количества примеров проблем качества данных, ориентированных на время, в различных отраслях промышленности и различных видов данных. С другой стороны, мы проанализировали, сравнили и объединили существующие таксономии, обсужденные выше, которые нацелены на моделирование аспектов грязных данных (см. Раздел 2 и табл. 2-4).В ходе интеграции проблем качества данных, ориентированных на время, с категоризацией общих проблем качества данных, мы реорганизовали, уточнили, расширили и опустили некоторые категории в соответствии с нашими потребностями и практическим опытом. Мы сохранили концепцию классификации проблем качества данных на проблемы, которые возникают, когда набор данных происходит из одного источника, и те, которые возникают, когда необходимо объединить два или более наборов данных из нескольких источников. Проблемы с одним источником, конечно, могут возникать и в наборах данных с несколькими источниками, но предоставленный список проблем с несколькими источниками фокусируется на проблемах, которые конкретно возникают при работе с наборами данных из нескольких источников (как упоминалось Rahm and Do [1]). Кроме того, мы исключили некоторые категории проблем качества, которые не относятся к какому-либо временному аспекту, например, «несогласованные пространственные данные».Мы разделили рассматриваемые типы данных на точечныее и интервальные данные. Каждая категория содержит временные единицы «момент времени» и «интервал» - последний определяется либо двумя моментами времени (т.е. началом и концом интервала), либо его началом (т.е. одним моментом времени) и его продолжительностью, либо его концом и его продолжительностью (как определено в разделе 3.1). Помимо временных единиц, мы особенно рассматриваем значения, зависящие от времени (например, все события в заданный момент времени, все события в заданном интервале). В отношении этих категорий мы указываем, какие проблемы качества данных возникают для каждого типа данных (обозначены маркерами в табл. 2). Первые два столбца таблиц отражают общие категории, полученные из существующих таксономий. В третьем столбце приведены описания и примеры конкретных зависящих от времени проблем качества для каждой категории.В ходе исследования проблем качества данных из реальных проектов мы поняли, что типы проблем, о которых идет речь в этой статье (например, неправильные, дублированные, отсутствующие, несогласованные данные и т.д.), Не единственные, которые необходимо быть идентифицированным и решенным. Такие задачи, как проверка достоверности записей данных, которые нельзя легко классифицировать как «неправильные», или преобразование таблицы данных в определенный формат, который подходит для дальнейших этапов обработки, тесно связаны с процессом очистки данных и требуют особого внимания. Кроме того, соответствующее количество проблем возникает в результате очистки / преобразования набора данных, поэтому такая грязь может быть создана самим процессом.Таблица 2. Проблемы качества данных форматов времени и дат (• ... необходимо проверить для этого типа данных)
4. Дальнейшая РаботаСформированная таксономия служит важной основой для дальнейших запланированных инициатив по поддержке ориентированных на время вопросов качества данных. В частности, мы планируем разработать прототип, который:1. Проверяет временные данные на наличие таких проблем качества,2. Генерирует отчет о найденных проблемах,3. Визуализирует "грязность" набора данных и его прогресс,4. Предоставляет инструменты для очистки данных:— средства задания автоматических преобразований и— Методы визуализации информации [17] для интерактивного манипулирования всем набором данных, а также выбранными записями.5. Поддерживает управление различными версиями и исправлениями / частичными обновлениями набора данных.Для очистки большинства типов грязных данных требуется вмешательство специалиста по предметной области [2]. Таким образом, сочетание средств для одновременного преобразования всего набора данных со средствами для интерактивного исследования проблем с данными и управления отдельными записями таблицы или группами записей таблицы кажется многообещающим решением. Поскольку зрение - это сенсор с максимальной пропускной способностью, мы считаем, что визуализация - это хороший способ дать краткий обзор «грязности» данных, а также указать пользователю на те случаи проблем с качеством данных, когда требуется ручное вмешательство. . Кроме того, мы планируем реализовать прототип интерактивной визуализации информации [17], который позволяет напрямую управлять набором данных. Это не только упростило бы задачу очистки данных, но также обеспечило бы немедленную визуальную обратную связь с действиями пользователя. «Грязные» форматы времени и дат Другой важной проблемой очистки данных является преобразование данной таблицы данных в структуру таблицы, которая подходит для последующих этапов обработки, таких как разделение / объединение столбцов, удаление дополнительных строк (например, сводных строк и комментариев) или агрегирование временные кортежи в растровые интервалы. Для помощи в этом преобразовании существует пара программных инструментов [13, 18-20]. Однако необходимы дальнейшие исследования того, какие виды преобразований следует поддерживать и как поддерживать их наиболее эффективно, а также как организовать управление различными версиями и обновлениями.5. ЗаключениеКаталог общих проблем качества данных, который объединяет различные таксономии, дает исчерпывающую картину проблем, которые необходимо учитывать при работе с качеством данных в целом. Он служит справочным материалом при формулировании ограничений целостности или проверок качества данных.В этой статье мы исследовали различные подходы к классификации проблем качества данных. Мы изучили ряд соответствующих таксономий грязных данных и выявили их сходства и различия. Кроме того, мы сосредоточились на проблемах качества данных, которые возникают, в частности, при работе с данными, ориентированными на время. Мы вывели ряд проблем качества данных, ориентированных на время, из нашего опыта в многочисленных проектах в различных отраслях промышленности, и мы объединили результаты обзора литературы по существующим таксономиям с нашими практическими знаниями в работе с данными, ориентированными на время.В частности, мы представили интегрированный и последовательный взгляд на общие проблемы качества данных и таксономии. Таким образом, мы предоставили полезный каталог проблем качества данных, которые необходимо учитывать при выполнении общих задач очистки данных. В частности, мы предоставляем категоризированную информацию о проблемах качества данных, ориентированных на время. Таким образом, мы создали информационную базу, необходимую для дальнейших исследований в области грязных данных, ориентированных на время, и для формулировки необходимых проверок качества при предварительной обработке данных, ориентированных на время.Измерение времени подразумевает особые характеристики, которые вызывают определенные проблемы с качеством данных. Таким образом, каталог проблем качества данных с упором на проблемы, вызванные временем, дает преимущества. Несмотря на его объем, мы не претендуем на полноту классификации проблем с данными, ориентированными на время. Тем не менее, мы предоставляем сборник многочисленных проблем из реальных проектов, который составляет важную основу для дальнейших исследований. Более того, мы интегрировали эту коллекцию с существующими систематиками общих проблем качества данных, чтобы обеспечить систематизированную и унифицированную справочную информацию. Эта ссылка включает несколько важных аспектов, которые необходимо учитывать при работе с качеством данных, ориентированных на время. Благодарности. Исследование, приведшее к этим результатам, получило финансирование от Центра науки и технологий визуальной аналитики CVAST (финансируется Федеральным министерством экономики, семьи и молодежи Австрии в рамках исключительной инициативы центров передового опыта Лауры Басси). References 1. Rahm E., Do H.H.: Data Cleaning: Problems and Current Approaches. IEEE Techn. Bulletin on Data Engineering 31 (2000)2. Kim, W., Choi, B.-J., Hong, E.-K., Kim, S.-K., Lee, D.: A Taxonomy of Dirty Data. Data Mining and Knowledge Discovery 7, 81-99 (2003)3. Muller, H., Freytag, J.-C.: Problems, Methods, and Challenges in Comprehensive Data Cleansing. Technical report HUB-IB-164, Humboldt University Berlin (2003)4. Oliveira, P., Rodrigues, F., Henriques, P.: A Formal Definition of Data Quality Problems. In: International Conference on Information Quality (MIT IQ Confer-ence) (2005)5. Barateiro, J., Galhardas, H.: A Survey of Data Quality Tools. Datenbankspektrum 14, 15-21 (2005)6. Sadiq, S., Yeganeh, N., Indulska, M.: 20 Years of Data Quality Research: Themes, Trends and Synergies. In: 22nd Australasian Database Conference (ADC 2011), pp. 1-10. Australian Computer Society, Sydney (2011)7. Madnick, S., Wang, R., Lee, Y., Zhu, H.: Overview and Framework for Data and In- formation Quality Research. Journal of Data and Information Quality (JDIQ) 1(1), 1-22 (2009)8. Neely, M., Cook, J.: A Framework for Classification of the Data and Informa- tion Quality Literature and Preliminary Results (1996-2007). In: 14th Americas Conference on Information Systems 2008 (AMICS 2008), pp. 1-14 (2008)9. Aigner, W., Miksch, S., Schumann, H., Tominski, C.: Visualization of Time- Oriented Data. Springer, London (2011)10. Andrienko, N., Andrienko, G.: Exploratory Analysis of Spatial and Temporal Data: A Systematic Approach. Springer, Berlin (2006)11. Shneiderman, B.: The Eyes Have It: A Task by Data Type Taxonomy for Information Visualizations. In: IEEE Symposium on Visual Languages, pp. 336-343. IEEE Computer Society Press (1996)12. Allen, J.: Towards a General Model of Action and Time. Artificial Intelligence 23(2), 123-154 (1984)13. XIMES GmbH: Time Intelligence Solutions - [TIS], http://www.ximes.com/en/software/products/tis (accessed March 30, 2012)14. XIMES GmbH: Qmetrix, http://www.ximes.com/en/ximes/qmetrix/background.php (accessed March 30, 2012)15. Microsoft: Excel, http://office.microsoft.com/en-us/excel/ (accessed March 30, 2012)16. Corbin, J., Strauss, A.: Basics of Qualitative Research: Techniques and Procedures for Developing Grounded Theory, 3rd edn. Sage Publications, Los Angeles (2008)17. Card, S., Mackinlay, J., Shneiderman, B.: Readings in Information Visualization: Using Vision to Think. Morgan Kaufmann, San Francisco (1999)18. Raman, V., Hellerstein, J.: Potter’s Wheel: An Interactive Data Cleaning System. In: 27th International Conference on Very Large Data Bases (VLDB 2001), pp. 381-390.Morgan Kaufmann, San Francisco (2001)19. Kandel, S., Paepcke, A., Hellerstein, J., Heer, J.: Wrangler: Interactive Visual Specification of Data Transformation Scripts. In: ACM Human Factors in Computing Systems (CHI 2011), pp. 3363-3372. ACM, New York (2011)20. Huynh, D., Mazzocchi, S.: Google Refine, http://code.google.com/p/google-refine (accessed March 30, 2012)
===========
Источник:
habr.com
===========
===========
Автор оригинала: Theresia Gschwandtner, Johannes Gartner, Wolfgang Aigner, Silvia Miksch
===========Похожие новости:
- [Big Data, Хранение данных, Hadoop, Data Engineering] Пилотный Cloudera митап про новую платформу CDP пройдет 25.03 в 16:00
- [Администрирование баз данных, Хранение данных, Data Engineering] О разных данных на бытовом уровне
- [Big Data, Машинное обучение] Как управлять проектами машинного обучения и data science (перевод)
- [Поисковые технологии, Big Data, DevOps, Искусственный интеллект] Ещё один поиск Вк по фото
- [Big Data, Открытые данные, Терминология IT] Новый сервис от Google ставит под вопрос защиту персональных данных
- [Тестирование IT-систем, Big Data, Хранилища данных] Как QA в управлении хранилища данных эволюционировал. Часть 2
- [Data Mining, Big Data, Разработка под e-commerce, Data Engineering] Data-driven митап
- [Серверное администрирование, Data Engineering] Установка и настройка Airflow на Ubuntu Server 20
- [Машинное обучение, DevOps, Kubernetes, Data Engineering] MLOps без боли в облаке: как развернуть Kubeflow в продакшен-кластере Kubernetes
- [Data Mining, Data Engineering] How to Recover Data From a Hikvision DVR
Теги для поиска: #_data_mining, #_big_data, #_data_engineering, #_dirty_data_timeoriented_data, #_data_cleansing, #_data_quality, #_grjaznye_dannye (грязные данные), #_ochistka_dannyh (очистка данных), #_data_mining, #_big_data, #_data_engineering
Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Текущее время: 22-Ноя 19:46
Часовой пояс: UTC + 5
Автор | Сообщение |
---|---|
news_bot ®
Стаж: 6 лет 9 месяцев |
|
A Taxonomy of Dirty Time-Oriented Data (2012 г.)Достаточно часто каждый аналитик сталкивается с ситуацией, когда загрузил данные в блок анализа, а в ответ – тишина, хотя в тестовом режиме все работает. Причина обычно в том, что данные недостаточно очищены, где в этой ситуации искать аналитику засаду и с чего начинать обычно задачка не из легких. Можно конечно использовать механизмы сглаживания, но каждый знает, что если из черного ящика с красными и зелеными шарами отсыпать килограмм шаров и вместо них вбросить килограмм белых, то в понимании распределения красных и зеленых это мало приблизит.Когда находишься в ситуации «а с чего начать» помогает таксономия «грязных данных». Хотя в учебниках и дают список проблем, но он обычно неполный, вот постоянно искал исследования, которые рассматривают эту тему подробней. Попалась работа T.Gschwandtner, J.Gartner, W.Aigner, S.Miksch хотя они ее делали для рассмотрения способов очистки данных связанных с датами и временем но, на мой взгляд, это оказалось исключение, которое потребовало разобраться с правилами поглубже чем в учебниках. По собственному опыту знаю, что сопряжение дат и времени «вынос мозга» практически в прямом смысле и поэтому и зацепился за исследование этих авторов.В своей работе они проанализировали несколько работ других авторов и составили мощный список «загрязнений данных» логика их анализа заслуживает уважения и, с другой стороны, дает возможность более «со стороны» посмотреть на любую задачу очистки данных. Все это видно когда сопоставляешь всю совокупность работ, по которым они делают сравнительный анализ. Поэтому и сделал перевод самых используемых ими 5 статей, список с ссылками на эти переводы ниже.Это первая статья из цикла. 1. Таксономия форматов времени и дат в неочищенных данных, 2012 г. 2. Очистка данных: проблемы и современные подходы 2000 г. 3. Таксономия «грязных данных» 2003 г.4. Проблемы, методы и вызовы комплексной очистки данных 2003 г.5. Формальное определение проблем качества данных 2005 г.6. Обзор инструментов качества данных 2005 г. Sorry, если ссылки не работают, это временно так как пока не залил их на Хабр.Предисловие Качество данных - важная тема для бизнес-аналитики, позволяющая получать точную информацию и принимать правильные решения во многих отраслях, требующих больших объемов данных. Несмотря на то, что существуют систематические подходы к классификации, обнаружению и устранению проблем с качеством данных, особые характеристики данных форматов времени и дат, практически не принимаются во внимание. Однако время является важным измерением данных с отличными характеристиками, которые требуют особого внимания в контексте грязных данных. Основываясь на существующей таксономии общих проблем с качеством данных, мы обращаемся к «грязным» ориентированным на время данным, то есть к ориентированным на время данным с потенциальными проблемами качества. В частности, мы исследовали эмпирически полученные проблемы, которые возникают с различными типами данных форматов времени и дат (например, моменты времени, интервалы времени), и привели различные примеры проблем качества данных форматов времени и дат. Предоставляя систематизированную информацию, относящуюся к существующим таксономиям, мы создаем основу для дальнейших исследований в области грязных данных форматов времени и дат и для формулирования необходимых проверок качества при предварительной обработке данных форматов времени и дат. 1. Введение Грязные данные приводят к неверным результатам и вводящей в заблуждение статистике [1]. Вот почему очистка данных - является предварительным условием любой задачи обработки данных. Грубо говоря, очистка данных - это процесс обнаружения и исправления грязных данных (например, повторяющихся данных, отсутствующих данных, несогласованных данных и просто ошибочных данных, включая данные, которые не нарушают никаких ограничений, но все же являются неправильными или непригодными для использования) [2]. Грязные данные включают ошибки и несоответствия в отдельных источниках данных, а также ошибки и несоответствия при интеграции нескольких источников. Проблемы качества данных могут происходить из разных источников, таких как системы федеративных баз данных, информационные системы на базе Интернета или просто из-за ошибочного ввода данных [1]. Грязные форматы времени и дат Процесс очистки данных, описанный в [1], включает несколько шагов:- Анализ данных;- Определение рабочего процесса преобразования и правил отображения;- Проверка рабочего процесса преобразования и определений преобразования;- Преобразование;- Замена грязных данных очищенными данными в первоисточниках. Другие описывают различные этапы, такие как аудит данных, спецификация рабочего процесса, выполнение рабочего потока и постобработка/контроль [3]. В любом случае необходимо проанализировать предоставленные данные, прежде чем можно будет выполнить какую-либо фактическую очистку. С этой целью большое значение имеет классификация «грязных» данных, служащая ориентиром для выявления имеющихся ошибок и несоответствий. Существует несколько различных общих подходов к созданию таксономии «грязных» данных, например [1-5].Другие интересные исследования качества данных включают Sadiq et al. [6], которые представляют список тем и ключевых слов, взятых из статей, посвященных исследованиям качества данных за последние 20 лет, Madnick and Wang [7], которые дают обзор различных тем и методов проектов качественных исследований, а также Neely and Cook [8], которые сочетают принципы качества продуктов и услуг с ключевыми элементами (например, обязанностями руководства, эксплуатационными расходами и гарантиями, исследованиями и разработками, производством, распределением, управлением персоналом и юридической функцией) качества данных на протяжении всего жизненного цикла данных. Однако ни один из этих подходов не позволяет систематически выстраивать таксономию проблем качества данных.При обнаружении ошибок в данных форматов времени и дат, следует учитывать особые аспекты. Данные форматов времени и дат, имеют отчетливые характеристики, поэтому их стоит рассматривать как отдельный тип данных [9-11].Примеры таких характеристик: Данные, ориентированные на время, могут быть предоставлены либо для определенного момента времени, либо для временного интервала. Хотя интервалы можно легко смоделировать по двум временным точкам, они добавляют сложности, если учитывать взаимосвязь таких интервалов. Например, Allen [12] описывает 13 различных качественных ориентированных на время отношения интервалов. Кроме того, интервалы достоверности могут иметь значение для экспертов в предметной области, но не могут быть явно указаны в данных. Имея дело со временем, мы обычно интерпретируем его с помощью календаря, и его единицы времени важны для рассуждений о времени. Однако эти календари имеют сложную структуру. Например, в григорианском календаре продолжительность месяца колеблется от 28 до 31 дня, а недели не совпадают с месяцами и годами. Кроме того, доступные данные могут быть измерены с разными уровнями временной точности. Учитывая эту сложную структуру времени, возможны дополнительные ошибки, и, соответственно, конкретная таксономия может помочь в решении этих проблем.Для начала мы даем схему и резюмируем таксономию общих проблем качества данных в Разделе 2. В Разделе 3 мы более подробно рассматриваем различные типы временных данных, которые требуют особого рассмотрения. Мы вводим некоторые термины для различных типов ориентированных на время данных в Разделе 3.1, прежде чем продолжить подробное описание нашего основного вклада - категоризации грязных данных форматов времени и дат, в разделе 3.2. В разделе 4 мы даем краткий обзор дальнейшей работы, которую мы запланировали провести в этой области, а в разделе 5 мы подводим итоги нашей работы.2. Работы других авторовПри подготовке нашей таксономии грязных данных, ориентированных на время, и проблем с качеством данных мы начинаем с обзора некоторых общих таксономий. Более конкретно, мы смотрим на общие разделы, используемые в этом исследовании (например, проблемы с одним источником по сравнению с проблемами с несколькими источниками), но особенно заинтересованы в «списках таксономий», то есть о тех типах возможных ошибок, которые достаточно специфичны должны быть охвачены конкретным решением (например, дубликаты, пропущенные значения, противоречивые значения).Списки, упомянутые в этих общих таксономиях, сведены в обзорную таблицу (см. Табл. 1). Rahm and Do [1] дают классификацию проблем, которые необходимо решить с помощью очистки данных. Они различают проблемы с одним источником и проблемы с несколькими источниками, а также проблемы, связанные со схемой и экземпляром (см. Рис. 1). Проблемы с несколькими источниками возникают, когда необходимо интегрировать несколько источников данных, например, разные представления данных, перекрывающиеся или противоречащие данные. Проблемы данных, связанные со схемой - это проблемы качества, которые можно предотвратить с помощью соответствующих правил целостности или улучшенного структуры схемы, в то время как проблемы, связанные с записью, нельзя предотвратить на уровне схемы (например, орфографические ошибки). Рис. 1. Классификация проблем качества данных Rahm and Do [1]«Грязные» данные форматов времени и дат Позже Kim et al. [2] опубликовали исчерпывающую классификацию грязных данных. Они были нацелены на обеспечение основы для понимания того, как возникают грязные данные и какие аспекты необходимо учитывать при очистке данных, чтобы иметь возможность предоставлять надежные входные данные для дальнейших этапов обработки. С этой целью они представляют таксономию, состоящую из 33 примитивных типов грязных данных. Однако на практике грязные данные могут быть комбинацией нескольких типов грязных данных. Kim et al. Советует: «Начните с корневого узла только с двумя дочерними узлами - отсутствующими данными и не пропущенными данными - и продолжайте дальнейшее совершенствование этих категорий, используя стандартный подход «последовательного иерархического уточнения» (см. рис. 2)». Таким образом, они сохраняют коэффициент разветвления на каждом нелистовом узле небольшим, чтобы сделать интуитивно очевидным, что перечислены все значимые дочерние узлы. Кроме того, они различают неправильные данные с точки зрения того, можно ли их предотвратить с помощью методов, поддерживаемых в сегодняшних системах реляционных баз данных (т.е. автоматическое соблюдение ограничений целостности). Когда Kim et al. говоря о своей категории «устаревших временных данных», они относятся к моменту времени или временному интервалу, в течение которого данные действительны (например, род занятий сотрудника может больше не быть действительным, когда сотрудник получает повышение). Рис 2. Классификация грязных данных Kim et al. [2]Muller and Freytag описывают более грубую классификацию аномалий данных [3]. Они начинаются с разграничения синтаксических аномалий, семантических аномалий и аномалий покрытия (пропущенных значений). Синтаксические аномалии включают лексические ошибки, ошибки формата области и нарушения, касающиеся неравномерного использования значений (например, использование разных валют). Семантические аномалии включают нарушения ограничений целостности, противоречия (например, несоответствие между возрастом и датой рождения), повторяющиеся записи и недопустимые кортежи. В этом контексте недопустимые записи кортежа не представляют действительные сущности из области значений, но все же не нарушают никаких ограничений целостности. Аномалии охвата можно разделить на отсутствующие значения и отсутствующие записи (кортежи) (см. рис. 3). Рис. 3. Классификация аномалий данных Muller and Freytag [3]Oliveira et al. систематизируют свою таксономию грязных данных по уровням детализации [4]. Они действуют, исходя из предположения, что данные хранятся в нескольких источниках данных, каждый из которых состоит из нескольких отношений с взаимосвязями между ними. Более того, отношение содержит несколько кортежей, и каждый кортеж состоит из ряда атрибутов. Следовательно, они различают проблемы на уровне атрибутов/кортежей (например, пропущенные значения, орфографические ошибки, наличие синонимов в нескольких кортежах), проблемы на уровне одного отношения (например, повторяющиеся кортежи, нарушение ограничений бизнес-области), проблемы на уровне множественных отношений (например, нарушение ссылочной целостности, неоднородность синтаксиса, неправильные ссылки) и проблемы на уровне нескольких источников данных (например, неоднородность синтаксиса, наличие синонимов/омонимов, повторяющиеся кортежи) (см.рис. 4). Рис. 4. Классификация проблем качества данных Oliveira et al. [4]Barateiro and Galhardas опубликовали статью [5] об инструментах качества данных, включая классификацию «грязных» данных, которая содержит проблемы, очень похожие на проблемы Kim et al. [2]. Однако кластеризация этих проблем отличается от кластеризации в [2]. Вместо этого он показывает некоторое сходство с кластеризацией Rahm and Do [1]. Они разделяют проблемы качества данных на проблемы уровня схемы (т.е. проблемы, которых можно избежать с помощью существующих систем управления реляционными базами данных (РСУБД) или улучшенного дизайна схемы) и экземпляров, проблемы уровня (т.е. проблемы, которых нельзя избежать с помощью лучшего определения схемы, потому что они связаны с содержанием данных). Более того, проблемы с данными на уровне схемы делятся на проблемы, которых можно избежать с помощью СУБД, и проблемы, которых нельзя. Проблемы с данными на уровне записи подразделяются на проблемы, связанные с отдельными записями данных, и проблемы, связанные с несколькими записями данных (см. рис. 5). Рис. 5. Классификация проблем качества данных Barateiro and Galhardas [5]Эти подходы совершенно по-разному строят и разделяют свои таксономии грязных данных. Однако, когда дело доходит до реальных проблем с листьями грязного ата, они приходят к очень похожим результатам (см. Табл. 1). Мы опустили категорию «Целостность, гарантированная посредством управления транзакциями» из Kim et al. [2] он содержит проблемы «Потерянное обновление», «Грязное чтение», «Неповторимое чтение» и «Потерянная транзакция», поскольку мы не рассматриваем подобные технические проблемы в контексте данной статьи. Более того, мы не включали различие между проблемами уровня схемы и проблемами уровня экземпляра, потому что мы хотели исследовать проблемы качества данных на более общем уровне, а не ограничивать наше исследование областью базы данных. Далее мы вводим некоторые определения и объясняем нашу производную таксономию грязных данных, ориентированных на время, используя примеры для облегчения понимания.Таблица 1. Сравнение таксономий общих проблем качества данных. (• - включено в таксономию; o – после последующего уточнения было включено в исходную задачу). 3. «Грязные» данные форматов времени и датПри расширении таксономии «грязных» данных на «грязные данные» форматов времени и дат, мы фокусируем наше исследование на типах грязных данных, ориентированных на время, которые отличаются от общих ошибок, перечисленных в обзоре существующих таксономий выше. То есть мы стараемся добавлять аспекты, которые помогают подумать о возможных ошибках, построить тесты для обнаружения этих ошибок и, возможно, их исправления.Один из авторов является CEO поставщик решений time intelligence и имеет большой бизнес-опыт в решении реальных проблем грязных данных форматов времени и дат.В его проектах многочисленные ориентированные на время наборы данных, предоставляемые клиентами, используются для поддержки решения вопросов организации труда (например, рабочего времени, уровня укомплектования персоналом, уровня обслуживания) с помощью программных решений, специально разработанных для этих целей [13, 14]. Типичный проект может состоять из 5-20 различных типов файлов данных, некоторые из которых имеют более или менее структурированные форматы Excel [15], а другие экспортируются из баз данных. Некоторые из этих файлов данных могут быть очень маленькими (например, список активных сотрудников), другие могут быть средними (например, рабочее время 1000 сотрудников в течение многих лет), а иногда и довольно большими (> 10 миллионов записей). . Всего за последние годы было реализовано более 50 таких проектов, и проблемы с качеством данных всегда были существенной и болезненной частью общих проектов.Прежде чем мы фактически представим таксономию проблем качества, мы введем некоторые термины для различных типов данных, ориентированных на время. Классификация происходит из наблюдения, что проверка данных для данных проблем оказывается различной для этих различных типов данных форматов времени и дат.3.1 Определения: типы форматов времени и датИнтервал - это отрезок времени, который может быть представлен двумя моментами времени, обозначающими начало и конец интервала. В качестве альтернативы интервалы могут быть смоделированы как время начала (т.е. момент времени) в сочетании с его продолжительностью (т.е. заданное количество секунд, минут, часов и т.д.) Или как продолжительность в сочетании со временем окончания [9] . Например, 08:00 - 09:00; 08:17 - 17:13; 8:17 + 50’.Интервальные данные можно определить как фрагмент времени без промежутков, состоящий из интервалов (обычно одинаковой длины). Например, интервал 30 секунд, который обычно выровнен с более грубыми единицами времени: 00: 00-00: 30; 00: 30-01: 00.Интервал - это единица времени, составляющая интервал: «час», «день», «неделя» или 30’. В исключительных случаях интервалы также могут иметь неравномерную длину, например, для временной единицы «месяц».Более того, интервалы могут иметь атрибуты, такие как «будний день», «праздник», «час работы», «рабочий час», «школьный день» или «рождественский сезон». Следовательно, существуют атрибуты, которые можно вычислить (например, атрибут «день недели»), и атрибуты, требующие дополнительной информации (например, атрибут «праздник»).Однако данный набор интервальных данных может содержать промежутки между интервалами, например данные о продажах с пропусками по выходным и праздничным дням.В целом мы предлагаем различать следующие типы времени, поскольку они могут по-разному покрывать ошибки:1. Точки времени без интервалов.2. Интервалы без тела интервала (т.е. начало + конец, начало + продолжительность или продолжительность + конец):(a) Начало/конец интервалов (моменты времени без тела интервала).(b) Продолжительность интервалов.3. Интервальныее моменты времени4. Интервалы с телом интервала (т.е. начало + конец, начало + продолжительность или продолжительность + конец):(a) Начало/конец интервалов (интервальные моменты времени)(б) Продолжительность интервалов.Например, интервальные данные, ориентированные на время, могут иметь явные ошибки. С одной стороны, сам интервал может быть нарушен (например, набор данных, протянутый на почасовой основе, который содержит интервал минут). С другой стороны, атрибуты интервалов могут указывать на неверные значения данных (например, значения продаж в нерабочее время), или значения внутри интервалов могут нарушать некоторые ограничения, такие как «каждый интервал должен содержать значение больше 0 для заданный атрибут данных. Кроме того, при решении проблем качества данных, ориентированных на время, необходимо учитывать еще один тип данных, а именно значения, зависящие от времени, такие как «продажи в день».3.2 Категоризация проблем с данными форматов времени и датС методологической точки зрения, мы применили итеративный подход, основанный на смешанных инициативах, сочетающий методику основанной снизу вверх теории [16] с теорией, ориентированной сверху вниз. С одной стороны, наша работа собрала, смоделировала и итеративно закодировала ряд ориентированных на время проблем с качеством данных, которые возникали в наших проектах анализа реальных данных. Эти проекты привели к созданию большого количества примеров проблем качества данных, ориентированных на время, в различных отраслях промышленности и различных видов данных. С другой стороны, мы проанализировали, сравнили и объединили существующие таксономии, обсужденные выше, которые нацелены на моделирование аспектов грязных данных (см. Раздел 2 и табл. 2-4).В ходе интеграции проблем качества данных, ориентированных на время, с категоризацией общих проблем качества данных, мы реорганизовали, уточнили, расширили и опустили некоторые категории в соответствии с нашими потребностями и практическим опытом. Мы сохранили концепцию классификации проблем качества данных на проблемы, которые возникают, когда набор данных происходит из одного источника, и те, которые возникают, когда необходимо объединить два или более наборов данных из нескольких источников. Проблемы с одним источником, конечно, могут возникать и в наборах данных с несколькими источниками, но предоставленный список проблем с несколькими источниками фокусируется на проблемах, которые конкретно возникают при работе с наборами данных из нескольких источников (как упоминалось Rahm and Do [1]). Кроме того, мы исключили некоторые категории проблем качества, которые не относятся к какому-либо временному аспекту, например, «несогласованные пространственные данные».Мы разделили рассматриваемые типы данных на точечныее и интервальные данные. Каждая категория содержит временные единицы «момент времени» и «интервал» - последний определяется либо двумя моментами времени (т.е. началом и концом интервала), либо его началом (т.е. одним моментом времени) и его продолжительностью, либо его концом и его продолжительностью (как определено в разделе 3.1). Помимо временных единиц, мы особенно рассматриваем значения, зависящие от времени (например, все события в заданный момент времени, все события в заданном интервале). В отношении этих категорий мы указываем, какие проблемы качества данных возникают для каждого типа данных (обозначены маркерами в табл. 2). Первые два столбца таблиц отражают общие категории, полученные из существующих таксономий. В третьем столбце приведены описания и примеры конкретных зависящих от времени проблем качества для каждой категории.В ходе исследования проблем качества данных из реальных проектов мы поняли, что типы проблем, о которых идет речь в этой статье (например, неправильные, дублированные, отсутствующие, несогласованные данные и т.д.), Не единственные, которые необходимо быть идентифицированным и решенным. Такие задачи, как проверка достоверности записей данных, которые нельзя легко классифицировать как «неправильные», или преобразование таблицы данных в определенный формат, который подходит для дальнейших этапов обработки, тесно связаны с процессом очистки данных и требуют особого внимания. Кроме того, соответствующее количество проблем возникает в результате очистки / преобразования набора данных, поэтому такая грязь может быть создана самим процессом.Таблица 2. Проблемы качества данных форматов времени и дат (• ... необходимо проверить для этого типа данных) 4. Дальнейшая РаботаСформированная таксономия служит важной основой для дальнейших запланированных инициатив по поддержке ориентированных на время вопросов качества данных. В частности, мы планируем разработать прототип, который:1. Проверяет временные данные на наличие таких проблем качества,2. Генерирует отчет о найденных проблемах,3. Визуализирует "грязность" набора данных и его прогресс,4. Предоставляет инструменты для очистки данных:— средства задания автоматических преобразований и— Методы визуализации информации [17] для интерактивного манипулирования всем набором данных, а также выбранными записями.5. Поддерживает управление различными версиями и исправлениями / частичными обновлениями набора данных.Для очистки большинства типов грязных данных требуется вмешательство специалиста по предметной области [2]. Таким образом, сочетание средств для одновременного преобразования всего набора данных со средствами для интерактивного исследования проблем с данными и управления отдельными записями таблицы или группами записей таблицы кажется многообещающим решением. Поскольку зрение - это сенсор с максимальной пропускной способностью, мы считаем, что визуализация - это хороший способ дать краткий обзор «грязности» данных, а также указать пользователю на те случаи проблем с качеством данных, когда требуется ручное вмешательство. . Кроме того, мы планируем реализовать прототип интерактивной визуализации информации [17], который позволяет напрямую управлять набором данных. Это не только упростило бы задачу очистки данных, но также обеспечило бы немедленную визуальную обратную связь с действиями пользователя. «Грязные» форматы времени и дат Другой важной проблемой очистки данных является преобразование данной таблицы данных в структуру таблицы, которая подходит для последующих этапов обработки, таких как разделение / объединение столбцов, удаление дополнительных строк (например, сводных строк и комментариев) или агрегирование временные кортежи в растровые интервалы. Для помощи в этом преобразовании существует пара программных инструментов [13, 18-20]. Однако необходимы дальнейшие исследования того, какие виды преобразований следует поддерживать и как поддерживать их наиболее эффективно, а также как организовать управление различными версиями и обновлениями.5. ЗаключениеКаталог общих проблем качества данных, который объединяет различные таксономии, дает исчерпывающую картину проблем, которые необходимо учитывать при работе с качеством данных в целом. Он служит справочным материалом при формулировании ограничений целостности или проверок качества данных.В этой статье мы исследовали различные подходы к классификации проблем качества данных. Мы изучили ряд соответствующих таксономий грязных данных и выявили их сходства и различия. Кроме того, мы сосредоточились на проблемах качества данных, которые возникают, в частности, при работе с данными, ориентированными на время. Мы вывели ряд проблем качества данных, ориентированных на время, из нашего опыта в многочисленных проектах в различных отраслях промышленности, и мы объединили результаты обзора литературы по существующим таксономиям с нашими практическими знаниями в работе с данными, ориентированными на время.В частности, мы представили интегрированный и последовательный взгляд на общие проблемы качества данных и таксономии. Таким образом, мы предоставили полезный каталог проблем качества данных, которые необходимо учитывать при выполнении общих задач очистки данных. В частности, мы предоставляем категоризированную информацию о проблемах качества данных, ориентированных на время. Таким образом, мы создали информационную базу, необходимую для дальнейших исследований в области грязных данных, ориентированных на время, и для формулировки необходимых проверок качества при предварительной обработке данных, ориентированных на время.Измерение времени подразумевает особые характеристики, которые вызывают определенные проблемы с качеством данных. Таким образом, каталог проблем качества данных с упором на проблемы, вызванные временем, дает преимущества. Несмотря на его объем, мы не претендуем на полноту классификации проблем с данными, ориентированными на время. Тем не менее, мы предоставляем сборник многочисленных проблем из реальных проектов, который составляет важную основу для дальнейших исследований. Более того, мы интегрировали эту коллекцию с существующими систематиками общих проблем качества данных, чтобы обеспечить систематизированную и унифицированную справочную информацию. Эта ссылка включает несколько важных аспектов, которые необходимо учитывать при работе с качеством данных, ориентированных на время. Благодарности. Исследование, приведшее к этим результатам, получило финансирование от Центра науки и технологий визуальной аналитики CVAST (финансируется Федеральным министерством экономики, семьи и молодежи Австрии в рамках исключительной инициативы центров передового опыта Лауры Басси). References 1. Rahm E., Do H.H.: Data Cleaning: Problems and Current Approaches. IEEE Techn. Bulletin on Data Engineering 31 (2000)2. Kim, W., Choi, B.-J., Hong, E.-K., Kim, S.-K., Lee, D.: A Taxonomy of Dirty Data. Data Mining and Knowledge Discovery 7, 81-99 (2003)3. Muller, H., Freytag, J.-C.: Problems, Methods, and Challenges in Comprehensive Data Cleansing. Technical report HUB-IB-164, Humboldt University Berlin (2003)4. Oliveira, P., Rodrigues, F., Henriques, P.: A Formal Definition of Data Quality Problems. In: International Conference on Information Quality (MIT IQ Confer-ence) (2005)5. Barateiro, J., Galhardas, H.: A Survey of Data Quality Tools. Datenbankspektrum 14, 15-21 (2005)6. Sadiq, S., Yeganeh, N., Indulska, M.: 20 Years of Data Quality Research: Themes, Trends and Synergies. In: 22nd Australasian Database Conference (ADC 2011), pp. 1-10. Australian Computer Society, Sydney (2011)7. Madnick, S., Wang, R., Lee, Y., Zhu, H.: Overview and Framework for Data and In- formation Quality Research. Journal of Data and Information Quality (JDIQ) 1(1), 1-22 (2009)8. Neely, M., Cook, J.: A Framework for Classification of the Data and Informa- tion Quality Literature and Preliminary Results (1996-2007). In: 14th Americas Conference on Information Systems 2008 (AMICS 2008), pp. 1-14 (2008)9. Aigner, W., Miksch, S., Schumann, H., Tominski, C.: Visualization of Time- Oriented Data. Springer, London (2011)10. Andrienko, N., Andrienko, G.: Exploratory Analysis of Spatial and Temporal Data: A Systematic Approach. Springer, Berlin (2006)11. Shneiderman, B.: The Eyes Have It: A Task by Data Type Taxonomy for Information Visualizations. In: IEEE Symposium on Visual Languages, pp. 336-343. IEEE Computer Society Press (1996)12. Allen, J.: Towards a General Model of Action and Time. Artificial Intelligence 23(2), 123-154 (1984)13. XIMES GmbH: Time Intelligence Solutions - [TIS], http://www.ximes.com/en/software/products/tis (accessed March 30, 2012)14. XIMES GmbH: Qmetrix, http://www.ximes.com/en/ximes/qmetrix/background.php (accessed March 30, 2012)15. Microsoft: Excel, http://office.microsoft.com/en-us/excel/ (accessed March 30, 2012)16. Corbin, J., Strauss, A.: Basics of Qualitative Research: Techniques and Procedures for Developing Grounded Theory, 3rd edn. Sage Publications, Los Angeles (2008)17. Card, S., Mackinlay, J., Shneiderman, B.: Readings in Information Visualization: Using Vision to Think. Morgan Kaufmann, San Francisco (1999)18. Raman, V., Hellerstein, J.: Potter’s Wheel: An Interactive Data Cleaning System. In: 27th International Conference on Very Large Data Bases (VLDB 2001), pp. 381-390.Morgan Kaufmann, San Francisco (2001)19. Kandel, S., Paepcke, A., Hellerstein, J., Heer, J.: Wrangler: Interactive Visual Specification of Data Transformation Scripts. In: ACM Human Factors in Computing Systems (CHI 2011), pp. 3363-3372. ACM, New York (2011)20. Huynh, D., Mazzocchi, S.: Google Refine, http://code.google.com/p/google-refine (accessed March 30, 2012) =========== Источник: habr.com =========== =========== Автор оригинала: Theresia Gschwandtner, Johannes Gartner, Wolfgang Aigner, Silvia Miksch ===========Похожие новости:
|
|
Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Текущее время: 22-Ноя 19:46
Часовой пояс: UTC + 5