Data Mining - lecture 2 - 2014

26
ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ Data Mining Харьковский национальный университет имени В. Н. Каразина Факультет компьютерных наук Подготовил: доцент каф. искусственного интеллекта и программного обеспечения, к.ф.-м. н. Гахов Андрей Владимирович 2014/2015 уч. год

Transcript of Data Mining - lecture 2 - 2014

Page 1: Data Mining - lecture 2 - 2014

ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ

Data Mining

Харьковский национальный университет имени В. Н. Каразина Факультет компьютерных наук

Подготовил: доцент каф. искусственного интеллекта и программного обеспечения, к.ф.-м. н. Гахов Андрей Владимирович 2014/2015 уч. год

Page 2: Data Mining - lecture 2 - 2014

ЛЕКЦИЯ 2Узнаем больше о своих данных. Часть 1

Page 3: Data Mining - lecture 2 - 2014

ТИПЫ АТРИБУТОВ

Page 4: Data Mining - lecture 2 - 2014

АТРИБУТ• Атрибут - это поле данных, представляющие характеристику или свойство объекта данных

• Очень часто понятия атрибут , размерность , с в о й ст в о и л и п е р е м е н н а я п р и м е н яю т с я взаимозаменяемо

• Тип атрибута определяется множеством возможных значений, которые может принимать данный атрибут

• Пример: Объект данных автомобиль может иметь атрибуты марка, цвет и объем двигателя

Page 5: Data Mining - lecture 2 - 2014

НОМИНАТИВНЫЕ АТРИБУТЫ• Термин “номинативный” означает, что атрибут связан с некоторым наименованием

• Значения номинативных атрибутов - символы или имена вещей

• Как правило, значение номинативного атрибута представляет некую категорию, код или состояние, поэтому номинативные атрибуты называют также градационными переменными, описывающими категории объекта

Page 6: Data Mining - lecture 2 - 2014

• Значениям номинативных атрибутов можно поставить в соответствие некие числовые значения

• Однако, т.к. номинативные атрибуты не имеют н и к а к о г о о т н о ш е н и я п о р я д к а ( н е количественные), тогда нет смысла сравнивать и их числовые значения

• Номинативные атрибуты используются только для классификации объектов исследования по качественным признакам.

Page 7: Data Mining - lecture 2 - 2014

• Пример: Рассмотрим атрибуты объекта данных человек: цвет волос и семейное положение

• Пусть возможные значения для атрибута цвет волос будут: черный, коричневый, белый, седой и рыжий.

• Пусть возможные значения для атрибута семейное положение будут: замужем, не замужем

• Оба данных атрибута являются номинативными атрибутами

Page 8: Data Mining - lecture 2 - 2014

БИНАРНЫЕ АТРИБУТЫ• Бинарные (дихотомические) атрибуты - это номинативные атрибуты, принимающие только 2 значения: 0 (атрибут отсутствует) и 1 (атрибут присутствует)

• Бинарные атрибуты называются симметричными, если оба значения одинаково важны и имеют один и тот же вес

• Бинарные атрибуты называются асимметричными, если одно из значений более важно

Page 9: Data Mining - lecture 2 - 2014

• Пример: атрибут пол (принимает значения мужской и женский, которые могут быть представлен как 0/1) - симметрический бинарный атрибут

• Пример: атрибут результат ВИЧ теста (принимает значения положительный и отрицательный ) - асимметрический бинарный атрибут, т.к. 1 (положительный) является более редким и важным

Page 10: Data Mining - lecture 2 - 2014

ПОРЯДКОВЫЙ АТРИБУТ• Порядковый атрибут - это атрибут , которые принимает значения , позволяющие установить отншение порядка (лучше/хуже), но без возможности учета разности между величинами (лучше в 5 раз/хуже в 5 раз).

• Порядковые атрибуты применяются когда невозможно установить точное различие между принимаемыми значениями

• Порядковый атрибут относится к качественным характеристикам

Page 11: Data Mining - lecture 2 - 2014

• Пример: Атрибут оценка (принимает значения A+, A, A-, B+ и т.д.) является пордяковым атрибутом, т.к. можно упорядочить значения, считая A+ лучше A-, однако нельзя сказать во сколько раз A+ лучше.

• Значениям порядкового атрибута также можно поставить в соответствия некие числа, которые можно упорядочивать

• Пример: Значения атрибута удовлетворенность покупателя можно представить в виде: 0 - ужасно, 1 - плохо, 2 - нормально, 3 - хорошо, 4 - отлично

Page 12: Data Mining - lecture 2 - 2014

ЧИСЛЕННЫЕ АТРИБУТЫ

• Численные атрибуты - это количественные характеристики, которые можно измерить и представить в виде целых или вещественных значений

• Численные атрибуты бывают двух видов - интервальные атрибуты и атрибуты отношений

Page 13: Data Mining - lecture 2 - 2014

• Интервальные атрибуты это численные атрибуты, которые измеряются относительно некоторой шкалы

• Значения интервального атрибута имеют порядок и могут быть положительными, отрицательными или равными 0

• За единицу измерения интервальной переменной (за ее «размер») принимается одна и та же величина, равная интервалу между двумя соседними значениями

• Интервальные атрибуты позволяют сравнивать разности (интервалы) между значениями

Page 14: Data Mining - lecture 2 - 2014

• Пример : атрибут температура воздуха , принимающий значения по шкале Цельсия.

• Шкала Цельсия не имеет абсолютного нуля (точки отсчета), т.к. 0º - не отвечает значению “нет температуры”

• Мы можем сказать, что температура в 40º на 10º выше, чем температура в 30º. Мы также можем сказать, что увеличение (разница) от 20º до 40º в два раза больше, чем увеличение от 30º до 40º.

• Мы не можем сказать, что 10º в три раза холоднее, чем 30º

Page 15: Data Mining - lecture 2 - 2014

• За нуль для значений интервального атрибута может быть принята любая точка отсчета.

• Интервальные переменные величины позволяют нам не только ранжировать по порядку измеряемые признаки, но также и представлять их в количественной форме и, кроме того, сравнивать величины разностей между ними.

Page 16: Data Mining - lecture 2 - 2014

• Атрибуты отношений - это интервальные атрибуты, которые имеют абсолютный ноль (единую точку отсчета)

• Только для атрибутов отношений можно говорить, что одно значение “больше в столько-то раз”, чем другое

• Пример: атрибут температура, принимающий значения по шкале Кельвина. Шкала Кельвина (в отличие от Цельсия) имеет абсолютный ноль (0ºK = -273.15ºC)

Page 17: Data Mining - lecture 2 - 2014

НЕПРЕРЫВНЫЕ И ДИСКРЕТНЫЕ АТРИБУТЫ

• Дискретные атрибуты принимают конечное или счетное множество значений, которые могут к а к представлять ся , та к и не представляться как целые числа

• Если атрибут не является дискретным, то он называется непрерывным . Непрерывные атрибуты представляются вещественными значениями

Page 18: Data Mining - lecture 2 - 2014

• Пример : атрибут уровень дохода , принимающий значения высокий, средний и низкий является дискретным номинативным атрибутом

• Пример : атрибут заработная плата , принимающая значения в некотором интервале значений, является непрерывным атрибутом отношения

Page 19: Data Mining - lecture 2 - 2014

БАЗОВОЕ СТАТИСТИЧЕСКОЕ ОПИСАНИЕ ДАННЫХ

Page 20: Data Mining - lecture 2 - 2014

ИЗМЕРЕНИЕ ЦЕНТРАЛЬНОЙ ТЕНДЕЦИИ• Меры центральной тенденции измеряют расположение середины или центра распределения данных

• Отвечаем на вопрос: “Где располагаются большинство значений некоторого атрибута данных?”

• Измерение центральной тенденции включает среднее (арифметическое), медиану и моду

Page 21: Data Mining - lecture 2 - 2014

• Пусть x1, x2, … xN - множество значений (наблюдений) численного атрибута x

• Средним арифметическим называется величина

!

• Пример: пусть атрибут зарплата принимает следующие значения (тыс. грн): 3.0, 3.6, 4.7, 5.0, 5.2, 5.6, 6.0, 6.3, 7.0, 7.0, 11.0

• Среднее арифметическое будет 69.6 / 12 = 5.8 • Средняя зарплата составляет 5800 грн

СРЕДНЕЕ АРИФМЕТИЧЕСКОЕ

N

x1 + x2 + … + xNx = -

Page 22: Data Mining - lecture 2 - 2014

• Иногда для управлением влиянием, важностью или для отображения частоты каждое значение xi может быть ассоциировано с некоторым весом wi, i=1…N

• Взвешенное среднее (арифметическое) может быть вычислено по формуле:

!w1 + w2 + … + wN

w1 • x1 + w2 • x2 + … + wN • xNx = -

Page 23: Data Mining - lecture 2 - 2014

• Основной проблемой среднего (арифметического) я в л я е т с я б о л ьш а я ч у в ст в ите л ь н о ст ь к экстремальным значениям (например, аномалиям). Для борьбы с данной чувствительностью можно применять т.н. усеченное среднее

• Усеченное среднее - это среднее значение для имеющегося набора данных, из которого исключены k% наибольших и k% наименьших значений.

• Как правило процент удаляемых значений устанавливается в диапазоне от 5% до 25%.

Page 24: Data Mining - lecture 2 - 2014

МЕДИАНА• Медиана - возможное значение атрибута, которое делит упорядоченную по возрастанию совокупность значений этого атрибута на две равные части: 50% «нижних» значений будут иметь значение атрибута не больше, чем медиана, а «верхние» 50% - значения атрибута не меньше, чем медиана.

• Медиана играет особенно важную роль для асимметричных данных

• Если N - четное, тогда медиана не уникальна и равна двум ближайшим к центру значениям, а также любым значениям между ними (на практике , используют среднее арифметическое этих значений)

Page 25: Data Mining - lecture 2 - 2014

МОДА• Мода - это значение атрибута, которое встречается особенно часто

• Мода может быть определена как для количественных, так и для качественных характеристик

• Если набор данных содержит только 1 моду, он называется одномодальным . Различают также бимодальные , тримодальные и многомодальные наборы данных

• Для одномодальных атрибутов без явной асимметрии: выполняется соотношение:

среднее - мода ≈ 3 • (среднее - медиана)

Page 26: Data Mining - lecture 2 - 2014

медиана

модасреднее

медиана

мода среднее

медианамодасреднее

Симметрические данные

Асимметрические данныеположительный перекос отрицаельный перекос