Откривање законитости у подацима...
Transcript of Откривање законитости у подацима...
Откривање законитости у подацима - ОЗП
(енг. Data mining)
Факултет организационих наука Центар за пословно одлучивање
Deskriptivne metode
Законитост
• Ад-хок упити и извештаји (ручно)
• Законитост
– пример: “људи који су вешти са рачунарима најчешће воле рок музику”
• Законитости представљају знање, чијим познавањем се стичу компететивне предности
– “законитост”, “патерн”, “правилност”, “знање”
– одсуство случајности
Откривање законитости
• Традиционално: – претпоставка о законитости (хипотеза) – провера хипотезе на подацима (статистички)
• (Аутоматско) откривање законитости из података (примера) – из великих количина података – без конкретне хипотезе: нпр. “које оцене
студената указују на оцене из других предмета?”
– откривено: “висока оцена из математике указује да ће бити висока оцена и из статистике”
• Законитост ≠ Каузалност
Подаци
• База података (ОЛТП или ОЛАП)
• Екстракција и припрема у форми табеле – скуп података (енг. dataset)
– објекти (инстанце, случајеви) и атрибути (особине)
Случај продавнице
• Велики ланац супермаркета жели да у циљу повећања профита унапреди:
– подстицање додатне куповине (cross-sell)
– организацију продавнице (merchandising)
– потражњу за специфичним производима
(boosting)
• Како да искористи податке о продаји?
Подаци
• Анализа потрошачке корпе:
Подаци
• Анализа потрошачке корпе:
Асоцијација
• Веза између особина – пример: “ако је болест: рак простате, онда је пол:
мушки” – пример: “ако је боја: златна, онда су примања:
велика”
• Уочавање из примера • Пример Osco Drug inc - Анализа потрошачке корпе
– 1.2 милиона рачуна из 25 продавница – “мушки купци када год поподне купе пиво, купе и
пелене” – Ако “пиво” онда “пелене” – Како искористити ову законитост? – Cross-sell
Асоцијација
• Аутоматско уочавање свих “релевантних” асоцијација у облику ако-онда правила – Ако: <услов>, онда:<исход>
• Колико укупно правила треба проверити? – Pn (P-број производа, n-дужина правила)
• Када је правило “релевантно”? – када из услова правила (“ако”) довољно често
важи и закључак правила (“онда”) - поверење
– када довољно случајева подржава правило, тј. услови се дешавају довољно често - подршка
Асоц. правила - Пример
Евалуација правила
• Правило: A ⇒ B
• Мере квалитета:
– Подршка (енг. support)
– Поверење (енг. confidence)
– Лифт рацио (“<1” “=1” “>1”)
Априори алгоритам
• Паметно претражује простор свих правила • Захтева да му се дефинише минимални услови:
подршка и поверење • Проналази сва (!) правила која задовољавају дати
услов • Кораци:
1. за величине скупа од 1 до n: 1. рачунање фреквенције свих скупова дате величине 2. чување честих скупова (минимална подршка) 3. повећање величине скупа
2. за све честе скупове израчунати поверење и задржати оне који испуњавају услов
• Трик: подскуп увек има већу подршку од надскупа (тј. додавање атрибута у скуп смањује подршку)
Априори алгоритам - пример
Преузето са: https://mathematicaforprediction.wordpress.com/2013/10/06/movie-genre-associations/
Априори алгоритам - пример
Преузето са: https://mathematicaforprediction.wordpress.com/2013/10/06/movie-genre-associations/
Дискусија
• У којим ситуацијама се може радити асоцијација?
• На које начине се може искористити знање о откривеним законитостима?
• Колики ефекти се могу очекивати применом тих законитости?
• Колико је сигурно да ће бити корисних правила у бази? – од чега то зависи?
Примери откривања асоцијација
• Подаци о купцима (CRM)
• Подаци о продајама
• Подаци о пацијентима
• Подаци о студентима
• Подаци о запосленима (LinkedIn)
• Подаци о производима
Случај телком • Компанија моб. телефоније у САД. Има највећи број
корисника и тржишно учешће од око 70%. На тржиште су почели да улазе и други моб. оператери и компанија је почела да губи свој тржишни удео. Компанија: – жели да упозна своје потрошаче како би понудила услуге
које су њима потребне и тако их задржи у присуству конкуренције
– води податке о рачунима (задужења, плаћања, врсте услуга) за своје потрошаче
• Питања: 1. Како спровести промоцију? Како искористити постојеће
податке? 2. Како формирати цене?
3. Како формирати пакете?
4. Да ли треба омогућити кориснику да направи свој пакет?
Подаци о кориснику
• Држава: категорички, 50 САД држава и Колумбија дистрикт
• Дужина рачуна: целобројни, колико је дуго рачун активан
• Код области: категорички
• Тел. број: део кључа за рачун
• Секретарица: биномни, да или не
• Укупна минута на дан: континуални, потрошени минути
• Укупан број позива: целобројни
• Укупно дневно задужење: континуални, базиран на претходна два
• Укупнио интернационалних минута: континуални,потрошени минути
• Укупан број интернационалних позива: целобројни
• Укупно интернационални задужење: континуални
• Број позива ка корисничком сервису: целовбројни тип
Подаци о кориснику
Статистика
Статистика
Корелација података
Профил потрошача
• Ко је наш потрошач?
• Просечан потрошач?
– проблем?
• Сваки потрошач посебан?
=> Сегменти потрошача
• Типови (врсте) потрошача!
• Како дефинисати сегменте?
Кластеровање
• Кластер: – скуп елемената који су међусобно
“слични”, а “различити” од елемената из других кластера
• Мере сличности (или удаљености) – еуклидска удаљеност
– менхетн удаљеност (Л1)
– махаланобисова удаљеност
– косинусна сличност
Кластеровање
Растојања међу кластерима се максимизују
Растојања унутар кластера се минимизују
Кластеровање - примери
Колико
кластера?
Четири Два
Шест
k-means алгоритам
• Најпопуларнији алгоритам за кластеровање
• Једноставан, брз, разумљив
• Кораци алгоритма:
1. Постављање почетних центроида (репрезената)
2. Додељивање објеката најближим центроидима
3. Прерачунавање центроида
4. Понављање корака 2 и 3 до заустављања
Илустрација k-means алгоритма
Илустрација k-means алгоритма
Проблеми
• Иницијализација
• Број кластера (к)
• Тумачење кластера
• Коришћење кластера
• Евалуација кластера
Кеј минс у софтверу Оранж
Модели кластеровања (који је бољи?)
• Центроиди:
Мере квалитета кластера
• Удаљеност између центроида (макс.)
• Удаљеност од центроида (мин.)
• Силует индекс
• Мишљење доносиоца одлуке:
– Могућност да се кластер опише речима
– Могућност да се преточи у стратегију организације
– Цена увођења новог кластера
Хијерархијско кластеровање
• Постоје два основна типа: – Агломеративно
– Дивизионо
• Модел кластеровања представљен у облику хијерархијског дрвета
34
p2
p4
p1 p3
p2 p3p1 p4
Модел хијерархијских кластера
0
1
2
3
4
5
6
Eti
op
ija
Mija
nm
ar
Ba
ng
lad
eš
Su
da
n
S.
Ko
reja
Po
ljsk
a
Me
ks
iko
Ru
mu
nija
Ru
sija
J.K
ore
ja
Kin
a
Tu
rsk
a
Ko
lum
bija
Uk
rajin
a
Fra
nc
us
ka
Ja
pa
n
Ita
lija
Šp
an
ija
Ka
na
da
Ne
ma
čk
a
Ve
lika
bri
tan
ija
SA
D
Ta
jva
n
Ve
ne
cu
ela
Ind
on
ez
ija
Ke
nija
Ind
ija
Pa
kis
tan
Eg
ipa
t
Ta
jlan
d
Bra
zil
Pe
ru
Fili
pin
i
Ju
žn
a A
frik
a
Ma
rok
o
Ira
n
Vije
tna
m
Агломеративно кластеровање
• Алгоритам:
1. Формирање матрице удаљености
2. Уједињавање 2 најближа кластера
3. Понављање док не постане све један кластер
• Удаљеност између 2 кластера
– Минимална удаљеност (Single Linkage)
– Максимална удаљеност (Complete Linkage)
– Просечна удаљеност (Average Linkage)
– Удаљеност од центроида (Ward)
Дискусија
• Како протумачити и именовати центроиде кластера?
• Зашто су откривени кластери корисни?
– смањивање димензионалности (комплексности)
• Шта недостаје кластеру да би био користан?
Примери кластеровања
• Подаци о постројењима
– експерти за процену скупи
• Подаци о купцима (CRM)
• Подаци о компанијама
• Подаци о студентима
• Подаци о производима (куће, аутомобили)
• Подаци о биљкама
• Подаци о неуронима
Модел ПИ
S
?
PROCESSPROBLEM SOLUTION
COMPUTER SUPPORT
EXPERT SUPPORT
EXPERT
GDSS
DB
DS
S
ES
AN
N
CB
R
DM
MODELS RULES
DW
ТЕСТ