Data Mining - lecture 2 - 2014
-
Upload
andrii-gakhov -
Category
Education
-
view
604 -
download
6
Transcript of Data Mining - lecture 2 - 2014
ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ
Data Mining
Харьковский национальный университет имени В. Н. Каразина Факультет компьютерных наук
Подготовил: доцент каф. искусственного интеллекта и программного обеспечения, к.ф.-м. н. Гахов Андрей Владимирович 2014/2015 уч. год
ЛЕКЦИЯ 2Узнаем больше о своих данных. Часть 1
ТИПЫ АТРИБУТОВ
АТРИБУТ• Атрибут - это поле данных, представляющие характеристику или свойство объекта данных
• Очень часто понятия атрибут , размерность , с в о й ст в о и л и п е р е м е н н а я п р и м е н яю т с я взаимозаменяемо
• Тип атрибута определяется множеством возможных значений, которые может принимать данный атрибут
• Пример: Объект данных автомобиль может иметь атрибуты марка, цвет и объем двигателя
НОМИНАТИВНЫЕ АТРИБУТЫ• Термин “номинативный” означает, что атрибут связан с некоторым наименованием
• Значения номинативных атрибутов - символы или имена вещей
• Как правило, значение номинативного атрибута представляет некую категорию, код или состояние, поэтому номинативные атрибуты называют также градационными переменными, описывающими категории объекта
• Значениям номинативных атрибутов можно поставить в соответствие некие числовые значения
• Однако, т.к. номинативные атрибуты не имеют н и к а к о г о о т н о ш е н и я п о р я д к а ( н е количественные), тогда нет смысла сравнивать и их числовые значения
• Номинативные атрибуты используются только для классификации объектов исследования по качественным признакам.
• Пример: Рассмотрим атрибуты объекта данных человек: цвет волос и семейное положение
• Пусть возможные значения для атрибута цвет волос будут: черный, коричневый, белый, седой и рыжий.
• Пусть возможные значения для атрибута семейное положение будут: замужем, не замужем
• Оба данных атрибута являются номинативными атрибутами
БИНАРНЫЕ АТРИБУТЫ• Бинарные (дихотомические) атрибуты - это номинативные атрибуты, принимающие только 2 значения: 0 (атрибут отсутствует) и 1 (атрибут присутствует)
• Бинарные атрибуты называются симметричными, если оба значения одинаково важны и имеют один и тот же вес
• Бинарные атрибуты называются асимметричными, если одно из значений более важно
• Пример: атрибут пол (принимает значения мужской и женский, которые могут быть представлен как 0/1) - симметрический бинарный атрибут
• Пример: атрибут результат ВИЧ теста (принимает значения положительный и отрицательный ) - асимметрический бинарный атрибут, т.к. 1 (положительный) является более редким и важным
ПОРЯДКОВЫЙ АТРИБУТ• Порядковый атрибут - это атрибут , которые принимает значения , позволяющие установить отншение порядка (лучше/хуже), но без возможности учета разности между величинами (лучше в 5 раз/хуже в 5 раз).
• Порядковые атрибуты применяются когда невозможно установить точное различие между принимаемыми значениями
• Порядковый атрибут относится к качественным характеристикам
• Пример: Атрибут оценка (принимает значения A+, A, A-, B+ и т.д.) является пордяковым атрибутом, т.к. можно упорядочить значения, считая A+ лучше A-, однако нельзя сказать во сколько раз A+ лучше.
• Значениям порядкового атрибута также можно поставить в соответствия некие числа, которые можно упорядочивать
• Пример: Значения атрибута удовлетворенность покупателя можно представить в виде: 0 - ужасно, 1 - плохо, 2 - нормально, 3 - хорошо, 4 - отлично
ЧИСЛЕННЫЕ АТРИБУТЫ
• Численные атрибуты - это количественные характеристики, которые можно измерить и представить в виде целых или вещественных значений
• Численные атрибуты бывают двух видов - интервальные атрибуты и атрибуты отношений
• Интервальные атрибуты это численные атрибуты, которые измеряются относительно некоторой шкалы
• Значения интервального атрибута имеют порядок и могут быть положительными, отрицательными или равными 0
• За единицу измерения интервальной переменной (за ее «размер») принимается одна и та же величина, равная интервалу между двумя соседними значениями
• Интервальные атрибуты позволяют сравнивать разности (интервалы) между значениями
• Пример : атрибут температура воздуха , принимающий значения по шкале Цельсия.
• Шкала Цельсия не имеет абсолютного нуля (точки отсчета), т.к. 0º - не отвечает значению “нет температуры”
• Мы можем сказать, что температура в 40º на 10º выше, чем температура в 30º. Мы также можем сказать, что увеличение (разница) от 20º до 40º в два раза больше, чем увеличение от 30º до 40º.
• Мы не можем сказать, что 10º в три раза холоднее, чем 30º
• За нуль для значений интервального атрибута может быть принята любая точка отсчета.
• Интервальные переменные величины позволяют нам не только ранжировать по порядку измеряемые признаки, но также и представлять их в количественной форме и, кроме того, сравнивать величины разностей между ними.
• Атрибуты отношений - это интервальные атрибуты, которые имеют абсолютный ноль (единую точку отсчета)
• Только для атрибутов отношений можно говорить, что одно значение “больше в столько-то раз”, чем другое
• Пример: атрибут температура, принимающий значения по шкале Кельвина. Шкала Кельвина (в отличие от Цельсия) имеет абсолютный ноль (0ºK = -273.15ºC)
НЕПРЕРЫВНЫЕ И ДИСКРЕТНЫЕ АТРИБУТЫ
• Дискретные атрибуты принимают конечное или счетное множество значений, которые могут к а к представлять ся , та к и не представляться как целые числа
• Если атрибут не является дискретным, то он называется непрерывным . Непрерывные атрибуты представляются вещественными значениями
• Пример : атрибут уровень дохода , принимающий значения высокий, средний и низкий является дискретным номинативным атрибутом
• Пример : атрибут заработная плата , принимающая значения в некотором интервале значений, является непрерывным атрибутом отношения
БАЗОВОЕ СТАТИСТИЧЕСКОЕ ОПИСАНИЕ ДАННЫХ
ИЗМЕРЕНИЕ ЦЕНТРАЛЬНОЙ ТЕНДЕЦИИ• Меры центральной тенденции измеряют расположение середины или центра распределения данных
• Отвечаем на вопрос: “Где располагаются большинство значений некоторого атрибута данных?”
• Измерение центральной тенденции включает среднее (арифметическое), медиану и моду
• Пусть x1, x2, … xN - множество значений (наблюдений) численного атрибута x
• Средним арифметическим называется величина
!
• Пример: пусть атрибут зарплата принимает следующие значения (тыс. грн): 3.0, 3.6, 4.7, 5.0, 5.2, 5.6, 6.0, 6.3, 7.0, 7.0, 11.0
• Среднее арифметическое будет 69.6 / 12 = 5.8 • Средняя зарплата составляет 5800 грн
СРЕДНЕЕ АРИФМЕТИЧЕСКОЕ
N
x1 + x2 + … + xNx = -
• Иногда для управлением влиянием, важностью или для отображения частоты каждое значение xi может быть ассоциировано с некоторым весом wi, i=1…N
• Взвешенное среднее (арифметическое) может быть вычислено по формуле:
!w1 + w2 + … + wN
w1 • x1 + w2 • x2 + … + wN • xNx = -
• Основной проблемой среднего (арифметического) я в л я е т с я б о л ьш а я ч у в ст в ите л ь н о ст ь к экстремальным значениям (например, аномалиям). Для борьбы с данной чувствительностью можно применять т.н. усеченное среднее
• Усеченное среднее - это среднее значение для имеющегося набора данных, из которого исключены k% наибольших и k% наименьших значений.
• Как правило процент удаляемых значений устанавливается в диапазоне от 5% до 25%.
МЕДИАНА• Медиана - возможное значение атрибута, которое делит упорядоченную по возрастанию совокупность значений этого атрибута на две равные части: 50% «нижних» значений будут иметь значение атрибута не больше, чем медиана, а «верхние» 50% - значения атрибута не меньше, чем медиана.
• Медиана играет особенно важную роль для асимметричных данных
• Если N - четное, тогда медиана не уникальна и равна двум ближайшим к центру значениям, а также любым значениям между ними (на практике , используют среднее арифметическое этих значений)
МОДА• Мода - это значение атрибута, которое встречается особенно часто
• Мода может быть определена как для количественных, так и для качественных характеристик
• Если набор данных содержит только 1 моду, он называется одномодальным . Различают также бимодальные , тримодальные и многомодальные наборы данных
• Для одномодальных атрибутов без явной асимметрии: выполняется соотношение:
среднее - мода ≈ 3 • (среднее - медиана)
медиана
модасреднее
медиана
мода среднее
медианамодасреднее
Симметрические данные
Асимметрические данныеположительный перекос отрицаельный перекос