Data mining az üzleti életben
description
Transcript of Data mining az üzleti életben
Data mining az üzleti életbenÜzleti Intelligencia napjainkban
Budapest, 2012.02.25
Készítette: Kovács Gyula
Tartalom
Mi is az adatbányászat?• Történeti áttekintés• Adatbányászat napjainkban
Az algoritmusokról röviden• Irányított algoritmusok• Irányítatlan algoritmusok
Üzleti alkalmazásokról Churn – egy esettanulmány Új technológiák
Mi is az adatbányászat?
Mi is az adatbányászat?
Bár általában adatok elemzésével kapcsolatban használják a fogalmat, az adatbányászat a mesterséges intelligenciához hasonlóan egy „esernyő” fogalom, és eltérő jelentéseivel találkozhatunk különböző kontextusokban. Általában üzleti vagy valamilyen más szervezeti trend(ek) azonosításának igényével kapcsolják össze.
„Az implicit, korábban ismeretlen és hasznos információk kinyerése különféle adatokból” (W. Frawley and G. Piatetsky-Shapiro and C. Matheus, Knowledge Discovery in Databases: An Overview. AI Magazine, Fall 1992, pages 213-228.) „Hasznos információk hatalmas adatsorokból vagy adatbázisokból való kiszűrésének tudománya" (D. Hand, H. Mannila, P. Smyth: Principles of Data Mining. MIT Press, Cambridge, MA, 2001. ISBN 0-262-08290-X)Egyesíti az adatbázis-kezelés, a statisztika és a mesterséges intelligencia kutatások eredményeit. Az adatbányászat nagy mennyiségű adatok kutatása és elemzése rejtett minták és szabályok felfedezése érdekében. (Data Mining Techniques; By Michael J. A. Berry and Gordon S. Linoff, 2004 John Wiley & Sons)
Data Mining- MI kutatásoknak célzott hasznosítása
Data Mining
Database Technology
Statistics
OtherDisciplines
InformationScience
MI Visualization
Adatbányászat napjainkban
A 90-es évek közepén startolt új technológiák – Adattárház, OLAP, Data Mining – piaci elrendeződése lezárult, azonban különböző életciklusba jutottak:
Adattárház – beépült a cégek informatikai rendszerébe, korszerű vállalat szinte elképzelhetetlen megfelelően működő adattárház nélkülOLAP – túljutott a csúcson – elsősorban a retail szektor alkalmazza, de sok helyen a „sarokban pihen” státuszban található. MOLAP, ROLAP, stb. klónok – be nem váltott remények. Data Mining – termékek szintjén jelentős konszolidáció történt (Clementine, Enterprise Miner), de az utóbbi években rohamosan nő az Open Source termékek aránya (RapidMiner, Weka, R)
2005 után az adatbányászat egyre több területet fed le: szövegbányászat, hangbányászat illetve hálózatkutatás a nem strukturált adatok elemzésével foglalkozik. Egyre több célszoftver jelenik meg. Ezek közül az egyik legsikeresebb terület az ajánló rendszerek (Gravity) megjelenése. Az interneten keletkező gigantikus adatok új kihívások elé állították a szakembereket (Big Data probléma), illetve a szociális hálózatok megjelenése is új lendületet adott az elemzéseknek (content analyses)
Algoritmusokról
Adatbányászati algoritmusok két nagy csoportba oszthatók – irányított és irányítatlan algoritmusok
Irányítatlan algoritmusok (szegmentáció)• Klaszterező eljárások• Asszociációs szabályok• Idősor elemzések
Irányított algoritmusok (előrejelzés)• Döntési fák• Neurális hálók• Logisztikus regressziók• Genetikai algoritmusok
Adatbányászati algoritmusok
Adatbányászati algoritmusok
Irányított• Arra tesz kísérletet, hogy bizonyos
célváltozókat (pl. bevétel, reakciók) megmagyarázzon és kategorizáljon
• Algoritmusok: döntési fák, neurális hálók, regresszió, stb.
Irányítatlan• Rekordok csoportjai között keres
hasonlóságokat, rejtett mintákat ill. összefüggéseket, előre meghatározott célváltozók nélkül.
• Algoritmusok: klaszterezés, asszociációs szabályok keresése, stb.
A
AB
B
B
C
C
Irányított algoritmusok
Döntési fa: „Egy struktúra, mely nagy mennyiségű rekordok felosztására alkalmas kisebb részhalmazokra, egyszerű szabályok sorozatos alkalmazásával. A modell olyan szabályokat tartalmaz, melyek segítségével az eredetileg heterogén halmaz kisebb homogén halmazokra bomlik a célváltozó tekintetében.” Neurális hálók: „Az agykutatás és a mesterséges intelligencia területek egymást inspiráló, és rohamosan fejlődő ágainak közös eredményeként határozható meg a neurális hálók kifejlesztése.” Regresszió: „A regresszió úgy mutatja meg két változó kapcsolatát, hogy egyben az egyik változó (függő változó) a másik változótól (független változó) való függésének mértékét is kifejezi.”
Irányítatlan algoritmusok
Klaszterező eljárások: „Olyan eljárások gyűjteménye, melyek lépések megtalálni a hasonló tulajdonsággal rendelkező egyedeket. Az eredmény a kiindulási állapothoz képest egy jóval homogénebb felosztása a teljes sokaságnak.”
Asszociációs szabályok: „Mely termékeket vásárolnak együttesen?”
Idősor elemzések
Adatbányászat az üzleti életben
DM az üzleti szektorban
Ad-hoc/leíró alkalmazások Rendszerszerű/prediktív alkalmazások
• Menedzsment döntések támogatása (64%)• Folyamatok optimalizálása (gyártás/logisztika, ügyfél-kapcsolat, behajtás)• Forecasting• (Szegmentáció, klaszterezés)• Pilot prediktív projektek• Árrugalmasság
• Analitikus CRM/kampány menedzsmentet támogató modellek (25%)
• Churn előrejelzés – forced és unforced modellek• Termék-affinitás modellek• Ügyfélérték• Szegmentáció (NBS)
• (Credit) scoring • Cross-sell modellek
Operatív megoldások szállítása – nem elemzések
Ügyfélérték számítás
Ügyfélérték számítás elsősorban pénzügyi kalkuláció – DE az ügyfélérték alapú szegmensek képzésénél hasznos az adatbányászat Bizonyos komponensek becslésénél ugyancsak az adatbányászat nyújt segítséget (pl. költségek szétosztása) Felhasználási terület:
• Végső szegmentálás kialakítása• Publikus szabályok kialakítása – minél közelebb a valósághoz
Szükséglet alapú szegmensek
A klaszterező eljárások egy speciális alkalmazása – olyan szegmensek képzése, ahol a hasonló „attitűddel” rendelkező ügyfelek azonos szegmensbe kerülnekKétféle megközelítés: adatbányászat és piackutatásFelhasználási terület:
• CRM stratégiák kidolgozása (szegmensekhez kommunikációs stratégiák illetve termékek rendelése)• Kampány menedzselésnél a targetálásnál
Termék-affinitás mérés
Cross-selling helyett – mekkora a valószínűsége, hogy egy ügyfél nyitott egy termék irányába CRM „gyermeke” – különböző direkt megkereséseknél hatékony mutatószám Létezik „önkéntes” illetve „irányított” affinitás mutatószám Felhasználási terület:
• Tudatos termékstratégia elkészítése• Direkt kampányok targetálása
Outbound kampányok – használhatóbb modellek
CustomerSurvey kutatása alapján 2009-ben az ügyfélmegtartást/ 350 CRM vezető 57%-a sorolta a TOP5 prioritás közé (Forrester)
DE …
Elm
egy, h
a k
ap a
jánla
tot?
Elmegy, ha nem kap ajánlatot?
Igen
Nem
Nem Igen
XX
„sleeping dog”
X
„lost causes”
XX
„sure things”
„persuadable”
… veszélytelen egy kampány? A Telenor az ügyfélmegtartási kampánya 5%-al csökkentette a churn rátát a célcsoporton belül – de akik visszautasították az ajánlatot, azok körében nőtt a churn ráta a kampány után („sleeping dogs”).
Uplift modellek - tetteink következményét is nézzük!
Ne csak az elvándorlási valószínűséget jelezzük előre, hanem a kampány
várható reakcióját – milyen mértékben csökkenti az elvándorlási hajlandóságot az ajánlat?
A Telenor ún. UPLIFT modell segítségével ki tudta szűrni az ügyfeleknek egy olyan 40%-át, akiknél a kampány nem csökkenti az elvándorlási valószínűséget (sőt!). A kisebb méretű kampány további 1,8%-al csökkentette churn rátát!
+1,8%
UPLIFT modellel
UPLIFT modell nélkül
Megtartási program hány százalékkal csökkentette a churn rátát?
Hányan kaptak megtartási ajánlatot? (bázis: eredeti kampány méret)
UPLIFT modellel
UPLIFT modell nélkül 100%
60% -40%
MI lesz egy projekt végén?
Elemzések dokumentációja• Prezentáció• Vezetői összefoglaló
Javaslattétel •Hogyan lehet az elemzések eredményeit hasznosítani
Stratégia alkotás• Különböző forgatókönyvek tesztelése – ezek alapján az optimális kiválasztása
CHURN (telco)
Churn előrejelzés mobil szektorban
Egy klasszikus data mining alkalmazás Korábban postpaid ügyfelekre készítették – napjainkban vannak prepaid megoldások is Általában rendszerek készülnek belőle – melyek folyamatosan frissítik az elvándorlási valószínűséget Felhasználási területek:
• Proaktív tevékenység támogatása• Különböző folyamatok monitorozása• Előrejelzés
Mi is a churn?
Churn valószínűség
Várható élettartam
Churn előrejelzés
Mekkora annak a valószínűsége, hogy egy ügyfél elvándorol a közel jövőben?
Klasszikus data mining feladat. Hagyományosan irányított algoritmusok segítségével történik a modellezés
Egy adott ügyfél várhatólag még hány hónapig lesz ügyfél az adott vállalatnál.
Igazából nem data mining feladat – komoly statisztikai módszertanok készültek erre. Az ügyfélérték számításhoz kell.
Az elkövetkező időszakban hány ügyfél fogja elhagyni az adott szolgáltatót?
Statisztikai (regressziós) eljárások segítségével viszonylag pontos becslések adhatók. Pénzügyi tervezésnél fontos.
Hasonló – de mégsem ugyanaz
Kutatás:
Elégedettség
Lojalitás
magasalacsony
magas
alacsony
Adatbányászat:
Elv
ándorló
k%
Teljes sokaság%
ÜGYFÉLELÉGEDETTSÉG – LOJALITÁS – ELVÁNDORLÁSI VALÓSZÍNŰSÉG
Egy gyakorlati példa
1. Üzleti probléma: megnőtt az churn ráta – csökkenteni kellene Üzleti
probléma
Data mining
…
MEGOLDÁS
2. Több megoldás is felmerült:• tarifa elemek megváltoztatása• kérdőíves kutatás az okol felderítésére• proaktív hatékonyság növelése
3. Hogyan növelhető a hatékonyság?• több operátor alkalmazása• operátorok képzése• jobb targetálás
Szükség lenne egy churn előrejelző rendszerre a következő paraméterekkel: …(adatbányászati projekt)
Általános (piackutatás)
Ügyfélszintű (data mining)
A szolgáltatók között hogyan vándorolnak az ügyfelek?
Mit is akarunk a projekttől?
Hogyan lehet csökkenteni az adott szolgáltatótól az ügyfélelvándorlást?
Churn modellek kifejlesztése, implementálása
Interakciók (ezen belül proaktív csoport) ügyfélmegtartó erejének növelése
Miért mennek el az adott szolgáltatótól az ügyfelek?
XXX
XX
XX
X XX
XX
X
X
Adatbányászat napjainkban
Strukturált adatok – a jéghegy csúcsa
47
77
22
1431
9
0%
0,1%
0,2%
0,3%
0,4%
0,5%
0,6%
0,7%
0,8%
0,9%
1%
Teljes szervezet (TDWIkutatás)
Adattárház (TDWIkutatás)
Nem-strukturált
Fél-strukturált
Strukturált
Újfajta adatforrások jelennek meg – nem strukturált adatok integrálása az adattárházakba (szöveg, hang, hálózat)
Nem strukturált adatok kinyerése már nem álom
Az elmúlt években számos magyar innováció fejeződött be text, illetve voice mining témában – az eredmények
Tel
jesí
tmén
y
Text mining(SPSS Magyarország Kft.)
Voice Miner(Nextent Zrt. )
Hangbányászat I: csak jó minőségű videó anyagokon, beszélőre való adaptálással (tanítással), és tartalom függő -> szövegfelismerés
Mindroom (Digital Natives)
Leír
ás
10%
90%
Hangbányászat I: spontán beszédre, telefonos közegben (zajos háttér), tartalom független -> kulcsszó és érzelem detektálás
30%
70%60%
40%
Kulcsszó ÉrzelemSzöveg
20%
80%
Szövegbányászat: egy szöveg értelmezése, pozitív vagy negatív véleményt tükröz az adott szöveg -> szöveg érttelmezése
Szöveg értelmezése (poz/neg)
Szövegbányászat
A szövegbányászat a strukturálatlan vagy kis mértékben strukturált szöveges állományokból történő ismeret kinyerés tudománya. Olyan különböző dokumentum forrásokból származó szöveges ismeretek és információk gépi intelligenciával történő kigyűjtése és reprezentációja, amely a feldolgozás előtt rejtve és feltáratlanul maradt az elemző előtt (bővebben: http://www.vazsonyi.hu/szovegbanyaszat/)
Célja: jelentéstartalmak felismeréseAttribútuma: öntanuló (lásd AI) és képes információ strukturálásra
kategorizál tömörít
újdonság detekció
releváns keresés
Inbound kampányok – új kihívások
124 marketing vezető közül közel 60% válaszolta, hogy már van tudatos inbound kampánya legalább egy csatornán, további 27% tervezte egy éven
belül (Forrester, 2008). DE …
42%
53%
5% 28%
72%
Az inbound kampány targetálásánál a real-time scoret
csak 5% tervezi használni
A válaszadók 28%-a szerint cége látókörébe kerülhet a real-time
alkalmazás.
Forrás: Forrester N = 43 Forrás: SPSS N = 50
Az információk üzleti értéke csökken, ha lassan reagálunk
Real-Time Decision: az interakció alatt keletkező adatok is értékesek (sőt!) -> azonnal építsük be döntéseinkbe
Inbound megkeresés
1. Ügyfél felveszi a kapcsolatot a szolgáltatójával (pl. betelefonál)
2. Közli az okot, ami miatt a szolgáltatóhoz fordult (pl. panasz, új termék vásárlás, stb.)
3. Az ügyintéző kiszolgálja, és rögzíti az alaprendeszerben
Real-time decision
Business Process Optimization
Customer Interaction Process
Enterprise Information Model
RTDBusiness Rules &
Self-Learning Predictive Models
Inputs
Process data & context
Process decision point & feedback
• Termékeket ajánl real-time az üzleti szabályok és prediktív modellek alapján az adott kontextus függvényében• Az ajánlat eredménye alapján a modellek automatikusan frissülnek (self-learning)• Megtartás és keresztértékesítés együtt
linkek
•CHURN – www.churn.hu
•Voice Mining – www.voiceminer.hu
•Text Mining – www.spss.hu
•Gráf Mining – www.sixtep.hu