Откривање законитости у подацима...

40
Откривање законитости у подацима - ОЗП (енг. Data mining) Факултет организационих наука Центар за пословно одлучивање Deskriptivne metode

Transcript of Откривање законитости у подацима...

Page 1: Откривање законитости у подацима ОЗПodlucivanje.fon.bg.ac.rs/wp-content/uploads/04-ozp... · 2016. 10. 31. · •Компанија моб. телефоније

Откривање законитости у подацима - ОЗП

(енг. Data mining)

Факултет организационих наука Центар за пословно одлучивање

Deskriptivne metode

Page 2: Откривање законитости у подацима ОЗПodlucivanje.fon.bg.ac.rs/wp-content/uploads/04-ozp... · 2016. 10. 31. · •Компанија моб. телефоније

Законитост

• Ад-хок упити и извештаји (ручно)

• Законитост

– пример: “људи који су вешти са рачунарима најчешће воле рок музику”

• Законитости представљају знање, чијим познавањем се стичу компететивне предности

– “законитост”, “патерн”, “правилност”, “знање”

– одсуство случајности

Page 3: Откривање законитости у подацима ОЗПodlucivanje.fon.bg.ac.rs/wp-content/uploads/04-ozp... · 2016. 10. 31. · •Компанија моб. телефоније

Откривање законитости

• Традиционално: – претпоставка о законитости (хипотеза) – провера хипотезе на подацима (статистички)

• (Аутоматско) откривање законитости из података (примера) – из великих количина података – без конкретне хипотезе: нпр. “које оцене

студената указују на оцене из других предмета?”

– откривено: “висока оцена из математике указује да ће бити висока оцена и из статистике”

• Законитост ≠ Каузалност

Page 4: Откривање законитости у подацима ОЗПodlucivanje.fon.bg.ac.rs/wp-content/uploads/04-ozp... · 2016. 10. 31. · •Компанија моб. телефоније

Подаци

• База података (ОЛТП или ОЛАП)

• Екстракција и припрема у форми табеле – скуп података (енг. dataset)

– објекти (инстанце, случајеви) и атрибути (особине)

Page 5: Откривање законитости у подацима ОЗПodlucivanje.fon.bg.ac.rs/wp-content/uploads/04-ozp... · 2016. 10. 31. · •Компанија моб. телефоније

Случај продавнице

• Велики ланац супермаркета жели да у циљу повећања профита унапреди:

– подстицање додатне куповине (cross-sell)

– организацију продавнице (merchandising)

– потражњу за специфичним производима

(boosting)

• Како да искористи податке о продаји?

Page 6: Откривање законитости у подацима ОЗПodlucivanje.fon.bg.ac.rs/wp-content/uploads/04-ozp... · 2016. 10. 31. · •Компанија моб. телефоније

Подаци

• Анализа потрошачке корпе:

Page 7: Откривање законитости у подацима ОЗПodlucivanje.fon.bg.ac.rs/wp-content/uploads/04-ozp... · 2016. 10. 31. · •Компанија моб. телефоније

Подаци

• Анализа потрошачке корпе:

Page 8: Откривање законитости у подацима ОЗПodlucivanje.fon.bg.ac.rs/wp-content/uploads/04-ozp... · 2016. 10. 31. · •Компанија моб. телефоније

Асоцијација

• Веза између особина – пример: “ако је болест: рак простате, онда је пол:

мушки” – пример: “ако је боја: златна, онда су примања:

велика”

• Уочавање из примера • Пример Osco Drug inc - Анализа потрошачке корпе

– 1.2 милиона рачуна из 25 продавница – “мушки купци када год поподне купе пиво, купе и

пелене” – Ако “пиво” онда “пелене” – Како искористити ову законитост? – Cross-sell

Page 9: Откривање законитости у подацима ОЗПodlucivanje.fon.bg.ac.rs/wp-content/uploads/04-ozp... · 2016. 10. 31. · •Компанија моб. телефоније

Асоцијација

• Аутоматско уочавање свих “релевантних” асоцијација у облику ако-онда правила – Ако: <услов>, онда:<исход>

• Колико укупно правила треба проверити? – Pn (P-број производа, n-дужина правила)

• Када је правило “релевантно”? – када из услова правила (“ако”) довољно често

важи и закључак правила (“онда”) - поверење

– када довољно случајева подржава правило, тј. услови се дешавају довољно често - подршка

Page 10: Откривање законитости у подацима ОЗПodlucivanje.fon.bg.ac.rs/wp-content/uploads/04-ozp... · 2016. 10. 31. · •Компанија моб. телефоније

Асоц. правила - Пример

Page 11: Откривање законитости у подацима ОЗПodlucivanje.fon.bg.ac.rs/wp-content/uploads/04-ozp... · 2016. 10. 31. · •Компанија моб. телефоније

Евалуација правила

• Правило: A ⇒ B

• Мере квалитета:

– Подршка (енг. support)

– Поверење (енг. confidence)

– Лифт рацио (“<1” “=1” “>1”)

Page 12: Откривање законитости у подацима ОЗПodlucivanje.fon.bg.ac.rs/wp-content/uploads/04-ozp... · 2016. 10. 31. · •Компанија моб. телефоније

Априори алгоритам

• Паметно претражује простор свих правила • Захтева да му се дефинише минимални услови:

подршка и поверење • Проналази сва (!) правила која задовољавају дати

услов • Кораци:

1. за величине скупа од 1 до n: 1. рачунање фреквенције свих скупова дате величине 2. чување честих скупова (минимална подршка) 3. повећање величине скупа

2. за све честе скупове израчунати поверење и задржати оне који испуњавају услов

• Трик: подскуп увек има већу подршку од надскупа (тј. додавање атрибута у скуп смањује подршку)

Page 13: Откривање законитости у подацима ОЗПodlucivanje.fon.bg.ac.rs/wp-content/uploads/04-ozp... · 2016. 10. 31. · •Компанија моб. телефоније

Априори алгоритам - пример

Преузето са: https://mathematicaforprediction.wordpress.com/2013/10/06/movie-genre-associations/

Page 14: Откривање законитости у подацима ОЗПodlucivanje.fon.bg.ac.rs/wp-content/uploads/04-ozp... · 2016. 10. 31. · •Компанија моб. телефоније

Априори алгоритам - пример

Преузето са: https://mathematicaforprediction.wordpress.com/2013/10/06/movie-genre-associations/

Page 15: Откривање законитости у подацима ОЗПodlucivanje.fon.bg.ac.rs/wp-content/uploads/04-ozp... · 2016. 10. 31. · •Компанија моб. телефоније

Дискусија

• У којим ситуацијама се може радити асоцијација?

• На које начине се може искористити знање о откривеним законитостима?

• Колики ефекти се могу очекивати применом тих законитости?

• Колико је сигурно да ће бити корисних правила у бази? – од чега то зависи?

Page 16: Откривање законитости у подацима ОЗПodlucivanje.fon.bg.ac.rs/wp-content/uploads/04-ozp... · 2016. 10. 31. · •Компанија моб. телефоније

Примери откривања асоцијација

• Подаци о купцима (CRM)

• Подаци о продајама

• Подаци о пацијентима

• Подаци о студентима

• Подаци о запосленима (LinkedIn)

• Подаци о производима

Page 17: Откривање законитости у подацима ОЗПodlucivanje.fon.bg.ac.rs/wp-content/uploads/04-ozp... · 2016. 10. 31. · •Компанија моб. телефоније

Случај телком • Компанија моб. телефоније у САД. Има највећи број

корисника и тржишно учешће од око 70%. На тржиште су почели да улазе и други моб. оператери и компанија је почела да губи свој тржишни удео. Компанија: – жели да упозна своје потрошаче како би понудила услуге

које су њима потребне и тако их задржи у присуству конкуренције

– води податке о рачунима (задужења, плаћања, врсте услуга) за своје потрошаче

• Питања: 1. Како спровести промоцију? Како искористити постојеће

податке? 2. Како формирати цене?

3. Како формирати пакете?

4. Да ли треба омогућити кориснику да направи свој пакет?

Page 18: Откривање законитости у подацима ОЗПodlucivanje.fon.bg.ac.rs/wp-content/uploads/04-ozp... · 2016. 10. 31. · •Компанија моб. телефоније

Подаци о кориснику

• Држава: категорички, 50 САД држава и Колумбија дистрикт

• Дужина рачуна: целобројни, колико је дуго рачун активан

• Код области: категорички

• Тел. број: део кључа за рачун

• Секретарица: биномни, да или не

• Укупна минута на дан: континуални, потрошени минути

• Укупан број позива: целобројни

• Укупно дневно задужење: континуални, базиран на претходна два

• Укупнио интернационалних минута: континуални,потрошени минути

• Укупан број интернационалних позива: целобројни

• Укупно интернационални задужење: континуални

• Број позива ка корисничком сервису: целовбројни тип

Page 19: Откривање законитости у подацима ОЗПodlucivanje.fon.bg.ac.rs/wp-content/uploads/04-ozp... · 2016. 10. 31. · •Компанија моб. телефоније

Подаци о кориснику

Page 20: Откривање законитости у подацима ОЗПodlucivanje.fon.bg.ac.rs/wp-content/uploads/04-ozp... · 2016. 10. 31. · •Компанија моб. телефоније

Статистика

Page 21: Откривање законитости у подацима ОЗПodlucivanje.fon.bg.ac.rs/wp-content/uploads/04-ozp... · 2016. 10. 31. · •Компанија моб. телефоније

Статистика

Page 22: Откривање законитости у подацима ОЗПodlucivanje.fon.bg.ac.rs/wp-content/uploads/04-ozp... · 2016. 10. 31. · •Компанија моб. телефоније

Корелација података

Page 23: Откривање законитости у подацима ОЗПodlucivanje.fon.bg.ac.rs/wp-content/uploads/04-ozp... · 2016. 10. 31. · •Компанија моб. телефоније

Профил потрошача

• Ко је наш потрошач?

• Просечан потрошач?

– проблем?

• Сваки потрошач посебан?

=> Сегменти потрошача

• Типови (врсте) потрошача!

• Како дефинисати сегменте?

Page 24: Откривање законитости у подацима ОЗПodlucivanje.fon.bg.ac.rs/wp-content/uploads/04-ozp... · 2016. 10. 31. · •Компанија моб. телефоније

Кластеровање

• Кластер: – скуп елемената који су међусобно

“слични”, а “различити” од елемената из других кластера

• Мере сличности (или удаљености) – еуклидска удаљеност

– менхетн удаљеност (Л1)

– махаланобисова удаљеност

– косинусна сличност

Page 25: Откривање законитости у подацима ОЗПodlucivanje.fon.bg.ac.rs/wp-content/uploads/04-ozp... · 2016. 10. 31. · •Компанија моб. телефоније

Кластеровање

Растојања међу кластерима се максимизују

Растојања унутар кластера се минимизују

Page 26: Откривање законитости у подацима ОЗПodlucivanje.fon.bg.ac.rs/wp-content/uploads/04-ozp... · 2016. 10. 31. · •Компанија моб. телефоније

Кластеровање - примери

Колико

кластера?

Четири Два

Шест

Page 27: Откривање законитости у подацима ОЗПodlucivanje.fon.bg.ac.rs/wp-content/uploads/04-ozp... · 2016. 10. 31. · •Компанија моб. телефоније

k-means алгоритам

• Најпопуларнији алгоритам за кластеровање

• Једноставан, брз, разумљив

• Кораци алгоритма:

1. Постављање почетних центроида (репрезената)

2. Додељивање објеката најближим центроидима

3. Прерачунавање центроида

4. Понављање корака 2 и 3 до заустављања

Page 28: Откривање законитости у подацима ОЗПodlucivanje.fon.bg.ac.rs/wp-content/uploads/04-ozp... · 2016. 10. 31. · •Компанија моб. телефоније

Илустрација k-means алгоритма

Page 29: Откривање законитости у подацима ОЗПodlucivanje.fon.bg.ac.rs/wp-content/uploads/04-ozp... · 2016. 10. 31. · •Компанија моб. телефоније

Илустрација k-means алгоритма

Page 30: Откривање законитости у подацима ОЗПodlucivanje.fon.bg.ac.rs/wp-content/uploads/04-ozp... · 2016. 10. 31. · •Компанија моб. телефоније

Проблеми

• Иницијализација

• Број кластера (к)

• Тумачење кластера

• Коришћење кластера

• Евалуација кластера

Page 31: Откривање законитости у подацима ОЗПodlucivanje.fon.bg.ac.rs/wp-content/uploads/04-ozp... · 2016. 10. 31. · •Компанија моб. телефоније

Кеј минс у софтверу Оранж

Page 32: Откривање законитости у подацима ОЗПodlucivanje.fon.bg.ac.rs/wp-content/uploads/04-ozp... · 2016. 10. 31. · •Компанија моб. телефоније

Модели кластеровања (који је бољи?)

• Центроиди:

Page 33: Откривање законитости у подацима ОЗПodlucivanje.fon.bg.ac.rs/wp-content/uploads/04-ozp... · 2016. 10. 31. · •Компанија моб. телефоније

Мере квалитета кластера

• Удаљеност између центроида (макс.)

• Удаљеност од центроида (мин.)

• Силует индекс

• Мишљење доносиоца одлуке:

– Могућност да се кластер опише речима

– Могућност да се преточи у стратегију организације

– Цена увођења новог кластера

Page 34: Откривање законитости у подацима ОЗПodlucivanje.fon.bg.ac.rs/wp-content/uploads/04-ozp... · 2016. 10. 31. · •Компанија моб. телефоније

Хијерархијско кластеровање

• Постоје два основна типа: – Агломеративно

– Дивизионо

• Модел кластеровања представљен у облику хијерархијског дрвета

34

p2

p4

p1 p3

p2 p3p1 p4

Page 35: Откривање законитости у подацима ОЗПodlucivanje.fon.bg.ac.rs/wp-content/uploads/04-ozp... · 2016. 10. 31. · •Компанија моб. телефоније

Модел хијерархијских кластера

0

1

2

3

4

5

6

Eti

op

ija

Mija

nm

ar

Ba

ng

lad

Su

da

n

S.

Ko

reja

Po

ljsk

a

Me

ks

iko

Ru

mu

nija

Ru

sija

J.K

ore

ja

Kin

a

Tu

rsk

a

Ko

lum

bija

Uk

rajin

a

Fra

nc

us

ka

Ja

pa

n

Ita

lija

Šp

an

ija

Ka

na

da

Ne

ma

čk

a

Ve

lika

bri

tan

ija

SA

D

Ta

jva

n

Ve

ne

cu

ela

Ind

on

ez

ija

Ke

nija

Ind

ija

Pa

kis

tan

Eg

ipa

t

Ta

jlan

d

Bra

zil

Pe

ru

Fili

pin

i

Ju

žn

a A

frik

a

Ma

rok

o

Ira

n

Vije

tna

m

Page 36: Откривање законитости у подацима ОЗПodlucivanje.fon.bg.ac.rs/wp-content/uploads/04-ozp... · 2016. 10. 31. · •Компанија моб. телефоније

Агломеративно кластеровање

• Алгоритам:

1. Формирање матрице удаљености

2. Уједињавање 2 најближа кластера

3. Понављање док не постане све један кластер

• Удаљеност између 2 кластера

– Минимална удаљеност (Single Linkage)

– Максимална удаљеност (Complete Linkage)

– Просечна удаљеност (Average Linkage)

– Удаљеност од центроида (Ward)

Page 37: Откривање законитости у подацима ОЗПodlucivanje.fon.bg.ac.rs/wp-content/uploads/04-ozp... · 2016. 10. 31. · •Компанија моб. телефоније

Дискусија

• Како протумачити и именовати центроиде кластера?

• Зашто су откривени кластери корисни?

– смањивање димензионалности (комплексности)

• Шта недостаје кластеру да би био користан?

Page 38: Откривање законитости у подацима ОЗПodlucivanje.fon.bg.ac.rs/wp-content/uploads/04-ozp... · 2016. 10. 31. · •Компанија моб. телефоније

Примери кластеровања

• Подаци о постројењима

– експерти за процену скупи

• Подаци о купцима (CRM)

• Подаци о компанијама

• Подаци о студентима

• Подаци о производима (куће, аутомобили)

• Подаци о биљкама

• Подаци о неуронима

Page 39: Откривање законитости у подацима ОЗПodlucivanje.fon.bg.ac.rs/wp-content/uploads/04-ozp... · 2016. 10. 31. · •Компанија моб. телефоније

Модел ПИ

S

?

PROCESSPROBLEM SOLUTION

COMPUTER SUPPORT

EXPERT SUPPORT

EXPERT

GDSS

DB

DS

S

ES

AN

N

CB

R

DM

MODELS RULES

DW

Page 40: Откривање законитости у подацима ОЗПodlucivanje.fon.bg.ac.rs/wp-content/uploads/04-ozp... · 2016. 10. 31. · •Компанија моб. телефоније

ТЕСТ