ANALIZA SOCIALNEGA OMREŽJA NA PODLAGI ZAPISOV …

UNIVERZA V MARIBORU

FAKULTETA ZA ELEKTROTEHNIKO,

RAČUNALNIŠTVO IN INFORMATIKO

FAKULTETA ZA STROJNIŠTVO

Rok Kozel

ANALIZA SOCIALNEGA OMREŽJA NA PODLAGI ZAPISOV PODATKOV O KLICIH

Magistrsko delo

Maribor, junij 2016

ANALIZA SOCIALNEGA OMREŽJA NA PODLAGI

ZAPISOV PODATKOV O KLICIH

Magistrsko delo

Študent: Rok Kozel

Študijski program: študijski program 2.stopnje

Mehatronika

Mentor FERI: red. prof. dr. DUŠAN GLEICH

Mentor FS: doc. dr. UROŠ ŽUPERL

Somentor: mag. IZTOK ŠERBEC

v

ZAHVALA

Zahvaljujem se mentorjema red. prof. dr. Dušanu Gleichu

in doc. dr. UROŠ ŽUPERL za pomoč in vodenje pri

izdelavi magistrskega dela.

Zahvaljujem se tudi somentorju mag. Iztoku Šerbecu,

Gregu Jerkiču in vsem ostalim zaposlenim v podjetju

IN516HT za vso podporo brez katerih izvedba

raziskovalnega dela ne bi bila mogoča. Zahvalil bi se tudi

podjetju Si.Mobil, še posebej univ. dipl. ekon. Elvirju

Mujkiću za pomoč in dostop do mobilnih podatkov.

Posebna zahvala velja staršem, ki so mi študij omogočili in

me skupaj s sestro ves čas podpirali.

vii

ANALIZA SOCIALNEGA OMREŽJA NA PODLAGI ZAPISOV

PODATKOV O KLICIH

Ključne besede: mobilno omrežje, analiza omrežja, odhod uporabnika, podatkovna znanost

UDK klasifikacija: 004.6:004.7(043.2)

POVZETEK

V tem delu se ukvarjamo z analizo podatkov, ki jih generira končni uporabnik v mobilnem

omrežju. Pokazati želimo možnost priprave podatkov za modeliranje ter predlagati nov

način nastavitve optimalnih parametrov modela. Iz podatkov smo izluščili informacije s

pomočjo metod rudarjenja, kjer smo želeli pridobiti informacije o aktivnih in neaktivnih

uporabnikih v določenem deležu populacije. Cilj je preizkusiti metode rudarjenja pri

določeni topologiji omrežja in preveriti ustreznost modelov za določenega mobilnega

operaterja. Predlagamo še pripravo izhodnih podatkov modela ter rezultate vizualiziramo,

ovrednotimo in jih primerjamo s prehodnimi deli.

viii

SOCIAL NETWORK ANALYSIS ON A BASIS OF A CALL DETAIL

RECORDS

Key words: mobile network, network analysis, churn, data science

ABSTRACT

In this dissertation we are dealing with analysis of the data generated by end user in mobile

network. We want to show possibility of preparing the data for modeling and propose a new

way of setting optimal parameters for the model. From data we extracted information using

data mining methods, where we want to obtain information on active and inactive user in

specified proportion of population. The aim is to test mining methods in particular network

topology and verify if our models are appropriate for particular mobile operator. We suggest

further preparation data from model output and visualize results, evaluate and compare

them to previous work.

ix

KAZALO

1 UVOD ......................................................................................................... 1

1.1 Analiza razlogov za zamenjavo mobilnega operaterja ...............................................2

1.2 Umestitev dela..........................................................................................................2

1.3 Cilji ..........................................................................................................................3

2 PODATKOVNA ZNANOST IN BIG DATA ........................................... 4

2.1 BIG DATA ..............................................................................................................4

2.1.1 Podatki in znanje ...............................................................................................5

2.1.2 Velikost podatkov ..............................................................................................6

2.2 CRISP-DM proces....................................................................................................7

2.2.1 Razumevanje problema......................................................................................9

2.2.2 Razumevanje podatkov .................................................................................... 10

2.2.3 Priprava podatkov ............................................................................................ 10

2.2.4 Modeliranje ..................................................................................................... 10

2.2.5 Vrednotenje ..................................................................................................... 11

2.2.6 Uporaba v praksi ............................................................................................. 11

2.2.7 Kontrola .......................................................................................................... 11

3 OPIS, RAZUMEVANJE IN ČIŠČENJE PODATKOV ........................ 12

3.1 Podatkovni objekti in atribut ................................................................................... 12

3.2 Tip spremenljivk .................................................................................................... 12

3.3 Opis naših vhodnih podatkov.................................................................................. 13

3.3.1 Zapis podatkov o klicih.................................................................................... 13

3.3.2 Opis datoteke zapisov podatkov o klicih .......................................................... 14

3.3.3 Opis datoteke informacije o uporabnikih .......................................................... 15

3.4 Osnovne statistične metode za opis značilk ............................................................. 16

x

3.4.1 Frekvenca in najpogostejša vrednost ............................................................... 16

3.5 Osnovne opisne statistike za numerične tipe ........................................................... 17

3.5.1 Povprečje ........................................................................................................ 17

3.5.2 Mediana .......................................................................................................... 17

3.5.3 Standardni odklon ........................................................................................... 18

3.5.4 Varianca .......................................................................................................... 18

3.5.5 Koeficient simetrije ......................................................................................... 18

3.5.6 Koeficient sploščenosti.................................................................................... 19

3.5.7 Osnovne opisne statistike uporabnikov mobilnega omrežja in njihovih storitev20

3.6 Čiščenje podatkov .................................................................................................. 21

3.6.1 Izstopajoče vrednosti ....................................................................................... 21

4 UMTS topologija omrežja....................................................................... 22

4.1 Komunikacijsko omrežje ....................................................................................... 22

4.1.1 Radijsko dostopovno omrežje (UTRAN) ......................................................... 23

4.1.2 Osrednje omrežje ............................................................................................ 24

4.2 Vodovna in paketna komutacija ............................................................................. 25

4.3 Zapis podatkov o klicih .......................................................................................... 26

4.4 Komunikacijski protokoli ....................................................................................... 27

4.4.1 OSI ................................................................................................................. 27

4.5 Prenos glasovnega klica ......................................................................................... 29

4.6 LTE topologija omrežja ......................................................................................... 31

5 TEORIJA GRAFOV ............................................................................... 33

5.1 Virtualnost in transparentnost................................................................................. 34

5.2 Tipi predstavitve povezav uporabnikov v mobilnem omrežju ................................. 35

5.2.1 Graf ................................................................................................................ 35

5.2.2 Matrika sosednosti .......................................................................................... 35

xi

5.3 Stopnja, usmerjenost in ocenjenost povezave .......................................................... 36

5.3.1 Vhodna stopnja ................................................................................................ 37

5.3.2 Izhodna stopnja................................................................................................ 37

5.4 Tipi grafov ............................................................................................................. 38

5.4.1 Neusmerjen neutežen graf ................................................................................ 38

5.4.2 Usmerjen graf .................................................................................................. 38

5.4.3 Neusmerjen utežen graf ................................................................................... 39

5.4.4 Graf z zankami ................................................................................................ 39

5.5 Graf klicev ............................................................................................................. 40

5.6 Opisovanje grafov .................................................................................................. 41

5.6.1 Gostota povezanosti skupine ............................................................................ 41

5.6.2 Stopnja povezanosti ......................................................................................... 42

5.6.3 Avtoritetna ocena vozlišča ............................................................................... 43

5.6.4 Razširjevalni ocena vozlišča ............................................................................ 44

5.7 Določanje podobnosti ............................................................................................. 44

6 MODELIRANJE ..................................................................................... 46

6.1 Programski paketi ................................................................................................... 46

6.1.1 IBM SPSS MODELER .................................................................................... 46

6.1.2 Python Spyder ................................................................................................. 46

6.2 Algoritem analize skupin ........................................................................................ 47

6.3 Koraki algoritma .................................................................................................... 47

6.3.1 Izračun povezanosti oseb v omrežju ................................................................. 47

6.3.2 Ohranitev najpomembnejših relacij med enotami v omrežju ............................ 48

6.3.3 Razdelitev omrežja na povezane skupine ......................................................... 49

6.3.4 Dodajanje zamudnikov .................................................................................... 49

6.3.5 Izvedba socialne analize v vsaki skupini posebej ............................................. 49

xii

6.4 Struktura vhodnih podatkov ................................................................................... 50

6.5 Vhod analize skupin ............................................................................................... 50

6.5.2 Frekvenca dogodkov ....................................................................................... 51

6.5.3 Seštevek sporočil in klicev .............................................................................. 51

6.6 Nastavitveni parametri ........................................................................................... 51

6.6.1 Delež pokritosti ............................................................................................... 51

6.6.2 Maksimalna in minimalna velikost skupine ..................................................... 52

6.7 Izhod analize skupin .............................................................................................. 52

6.8 Določanje parametrov modela ................................................................................ 53

6.8.1 Določanje deleža pokritosti za izbrano velikost skupine .................................. 54

6.8.2 Optimalni parametri glede na delež uporabnikov ............................................. 55

7 REZULTATI ........................................................................................... 57

7.1 Uporabljene vrednosti na grafih ............................................................................. 58

7.1.1 Avtoritetna in razširjevalna razvrstitev ............................................................ 58

7.1.2 Število dodatnih odhodov uporabnikov ........................................................... 59

7.2 V tem poglavju smo analizirali vpliv uteži in deleža pokritosti ............................... 59

7.2.1 Razširjevalna razvrstitev ................................................................................. 59

7.2.2 Avtoritetna razvrstitev ..................................................................................... 61

7.3 Primerjava deležev ................................................................................................. 65

7.4 Skaliranje frekvence sporočil in klicev za posameznega uporabnika....................... 66

8 SKLEP ..................................................................................................... 68

VIRI IN LITERATURA ............................................................................ 71

xiii

KAZALO SLIK

Slika 1: Pretvorba podatkov v znanje [34] ..........................................................................5

Slika 2: Velikost podatkov .................................................................................................6

Slika 3: Faze CRISP-DM procesa ......................................................................................9

Slika 4: Koeficient simetrije ............................................................................................. 19

Slika 5: Poenostavljen prikaz mobilnega omrežja [11] ..................................................... 22

Slika 6: Radijsko dostopovno omrežje [11] ...................................................................... 23

Slika 7: Osrednje omrežje [11] ......................................................................................... 24

Slika 8: Omrežna arhitektura in CDR zapis [24] ............................................................... 26

Slika 9: OSI referenčni model [11] ................................................................................... 28

Slika 10: Uporabniški nivo protokolnega sklada glasovnega klica v 99 izdaji skupaj z tokom

podatkov .......................................................................................................................... 30

Slika 11: LTE sistemska arhitektura [10] .......................................................................... 31

Slika 12: Virtualna povezava............................................................................................ 34

Slika 13: Matrika sosedov ................................................................................................ 36

Slika 14: Vhodna stopnja vozlišča .................................................................................... 37

Slika 15: Izhodna stopnja vozlišča.................................................................................... 37

Slika 16: Neusmerjen graf ................................................................................................ 38

Slika 17: Usmerjen graf ................................................................................................... 38

Slika 18: Utežen graf........................................................................................................ 39

Slika 19: Omrežje z zankami ............................................................................................ 39

Slika 20: Primer grafa klicev ............................................................................................ 40

Slika 21: Redko povezan graf ........................................................................................... 42

Slika 22: Gosto povezan graf ........................................................................................... 42

Slika 23: Grafična predstavitev avtoritetne ocene ............................................................. 43

Slika 24: Grafična predstavitev razširjevalne ocene .......................................................... 44

Slika 25: Povezan graf ..................................................................................................... 45

Slika 26: Določanje deleža pokritosti za frekvenco dogodkov .......................................... 54

Slika 27: Delež populacije, ki menja operaterja v odvisnosti od deleža pokritosti ............. 55

Slika 28: Avtoritetna in razširjevalna ocena...................................................................... 57

Slika 29: Delež populacije, ki marca dodatno menja operaterja ........................................ 59

xiv

Slika 30: Razširjevalna razvrstitev. Utež: seštevek sporočil in klicev ............................... 60

Slika 31: Delež populacije, ki marca dodatno menja operaterja ........................................ 61

Slika 32: Avtoritetna razvrstitev. Utež: seštevek klicev in sporočil................................... 62

Slika 33: Delež populacije, ki med marcem in junijem dodatno menja operaterja ............. 63

Slika 34: Avtoritetna razvrstitev. Utež: seštevek frekvence klicev in sporočil .................. 64

Slika 35: Skalirana vrednost uteži .................................................................................... 66

xv

KAZALO TABEL

Tabela 1: Primer interakcije med dvema uporabnikoma ................................................... 14

Tabela 2: Atributi zapisov podatkov o klicih .................................................................... 15

Tabela 3: Primer datoteke uporabnikov ............................................................................ 16

Tabela 4: Atributi uporabnikov ........................................................................................ 16

Tabela 5: Nominalni atributi ............................................................................................ 20

Tabela 6: Numerični atributi ............................................................................................ 20

Tabela 7: Nominalni atributi uporabnikov ........................................................................ 20

Tabela 8: Stopnja vozlišča ................................................................................................ 42

Tabela 9: Povezave vozlišč v grafu .................................................................................. 45

Tabela 10: Format našega omrežja ................................................................................... 50

Tabela 11: Izhod analize skupin ....................................................................................... 52

Tabela 12: Delež populacije ............................................................................................. 65

xvi

UPORABLJENE KRATICE

Kratica Angleški izraz Slovenski izraz

3GGP 3rd Generation Partnership Project organizacija 3GPP

AMR adaptive multi rate audio codec adaptivni kodirnik zvoka

ATM adaptation layer adaptacijski nivo

AuC authentication center Center za avtentikacijo

BC billing center obračunski center

CDR call detail record zapis podatkov o klicih

CGF Charging Gateway Function obračunavanje storitev

CRC cyclic redundancy check ciklično preverjanje redundance

CS circuit Switched vodovno komutirana

EIR equipment identity register register za identiteto opreme

EPC Evolved packet core omrežno jedro

GGSN gateway GPRS support node prehodno podporno vozlišče

GPRS

GMSC Gateway Mobile Switching Center vhodni komutacijski center

mobilnega omrežja

GPRS General Packet Radio Service splošna paketna radijska storitev

HLR home location register register domačih naročnikov

HTTP HyperText Transfer Protocol Protokol za spletne strani

IEMI International Mobile Station Equipment

Identity

mednarodna identiteta

mobilnega terminala

IMS IP multimedia subsystem IP multimedijski podsistem

IP Internet Protocol internetni protokol

LTE Long-Term Evolution dolgoročni razvoj

MSC mobile switching center komutacijski center mobilnega

omrežja

OSI Open Systems Interconnection povezani odprti sistem

PPP Point-to-Point Protocol protokol od točke do točke

PS packet switching paketna komutacija

xvii

PSTN public land mobile network javno komutirano telefonsko

omrežje

P-GW Packet data network gateway omrežni prehod paketnih

podatkov

RAB radio access bearer storitev radijskega dostopa

RNC radio network controllers krmilnik radijskega omrežja

SDU service data unit servisna podatkovna enota

SGSN serving GPRS support node strežno podporno vozlišče GPRS

SID silence information descriptor opis šuma v ozadju

SMTP Simple mail transfer protocol preprost protokol za prenos

elektronske pošte

S-GW Serving gateway strežniški prehod

TCP Transmission Control Protocol protokol za nadzor prenosa

UDP User Datagram Protocol nepovezovalni protokol za

prenašanje paketov

UE user equipment uporabniška oprema

UTRAN UMTS Terrestrial Radio Access Network zemeljsko radijsko dostopovno

omrežje UMTS

VLR visitors location register register gostujočih naročnikov

Analiza socialnega omrežja na podlagi zapisov podatkov o klicih

1

1 UVOD

Telekomunikacije so pridobile eno izmed glavnih pozicij na listi najhitreje rastočih industrij

v svetu. Po podatkih ICT Facts and Figures 2015, telekomunikacijska podjetja v Evropi

pokrivajo 78.2% celotne populacije in so na letni globalni ravni v letu 2015 prinesla 1164

milijard evrov dobička (po podatkih statista.com). Zaradi tega v telekomunikacijskem

sektorju vlada huda konkurenca. V večini držav je na tržiščih prisotnih več operaterjev, kjer

se vsi borijo za čim večji delež uporabnikov. V zadnjih nekaj letih so trgi v razvitih državah

postal zasičen, kar pomeni, da ima vsak prebivalec vsaj en telefonski priključek. Za

ohranitev tržnega deleža, morajo podjetja pridobiti nove uporabnike ali pa jih zadržati.

Pridobivanje novih naročnikov je težje in ima pet do deset krat višjo ceno kot zadrževanje

že obstoječih uporabnikov v samem podjetju [17].

Mobilno omrežje je radijsko omrežje razporejeno po določenem geografskem območju, ki

omogoča prenos zvoka, besedila ali podatkov med dvema ali več napravami [13]. Ob

določenem času, ima običajno vsaka mobilna naprava brezžično povezavo do fiksne mobilne

postaje (oddajnik). Vsaka bazna postaja pokriva določeno geografsko območje, ki je lahko

veliko nekaj kvadratnih kilometrov na podeželju, do nekaj sto kvadratnih kilometrov v

urbanih naseljih. Vsaka mobilna naprava, ki je pobudnik povezave, komunicira z bazno

postajo, prav tako vsaka ciljna mobilna naprava. Bazne postaje so preko hierarhičnih

elementov v omrežju med seboj povezane in omogočajo povezavo med klicateljem in

klicanim [21].

Pri povezavi od klicatelja do klicane osebe, se generirajo podatki, ki jim pravimo zapisi

podatkov o klicih (angl. Call detail records). Tako kot pri večini podjetij, tudi podjetja v

telekomunikacijskem sektorju generirajo veliko število podatkov, ki zaradi različnih

razlogov ostanejo neizkoriščeni. Pri telekomunikacijskih podjetjih so to zapisi podatkov o

klicih, ki veliko krat ostanejo neizkoriščeni, ob ustrezni obdelavi pa imajo lahko veliko

vrednost za samo organizacijo. Ti podatki so bili prvotno namenjeni obračunavanju

porabljenih mesečnih mobilnih storitev uporabnikov, danes pa so bogat vir dragocenih


2

informacij, ki najdejo uporabno vrednost vse od optimizacije mobilnih omrežij do

upravljanja odnosov s strankami.

1.1 Analiza razlogov za zamenjavo mobilnega operaterja

Na začetku je potrebno definirati termin menjave mobilnega operaterja (angl. customer

churn). Razloge za menjavo mobilnega operaterja na najvišjem nivoju delimo na:

1. prostovoljne in

2. neprostovoljne odhode.

Prostovoljni odhod je lahko namenski ali naključen. Namenski razlogi so lahko nova

tehnologija, ekonomski, kvaliteta storitev. Naključni pa finančna nezmožnost, menjava

prebivališča ipd.

Neprostovoljni odhod se lahko zgodi zaradi smrti, neplačevanja ali neuporabe storitev [25].

Pri napovedovanju odhodov, katerega končni cilj je zadrževanje uporabnikov, se

osredotočamo na prostovoljne odhode, saj na preostale razloge ponudnik nima vpliva [14].

1.2 Umestitev dela

V telekomunikacijah so se do današnjih dni izoblikovali trije pristopi napovedovanja

odhodov strank. Prvi je tradicionalen (vir [27] in [35]), drugi je omrežni pristop (vir [12] in

[14]), tretji pa je kombinacija obeh dveh in zato tudi ime hibridni pristop (vir [7]).

Tradicionalen pristop, ki je tudi najbolj razširjen, uporablja za napovedovanje metode

statistične analize in podatkovnega rudarjenja, kjer se z različnimi tehnikami strojnega

učenja odkriva vzorce, kako in kateri so glavni atributi z največjim vplivom na odhod strank.

Omrežni pristop odpravlja pomanjkljivosti tradicionalnega pristopa, ki upošteva samo

individualne atribute posameznikov. Znano je, da na odločitve uporabnika vplivajo tudi

menjave in odločitve drugih uporabniki s katerimi komunicira. Takšno obnašanje preučuje

področje analize socialnih omrežij. Do pravega razmaha novih metod je prišlo šele v zadnjih


3

desetih letih s pojavom spletnih socialnih omrežij [14]. Pomembno delo so opravili Dasgupta

in ostali (vir [12]), ki so napovedovali odhode stranke z metodo SPA, medtem ko pa so

Richter in ostali (vir [32]) predlagali napovedovanje odhoda celotnih skupin uporabnikov.

1.3 Cilji

V našem delu smo obravnavali podatke operaterja Si.Mobil, ki je eno izmed največjih

telekomunikacijskih podjetij v Sloveniji. Cilj je raziskati lokalne strukture med posameznimi

uporabniki v mobilnem omrežju, predstaviti možnost uporabe analize omrežja pri odkrivanju

prehodov uporabnikov h konkurenci in raziskati uporabnost algoritma analize skupin, ki je

predlagan s strani Richterja in ostalih (vir [32]). Prav tako predlagamo nov način nastavitve

parametrov algoritma analize skupin in dodatno post procesiranje posameznega uporabnika,

ki menja operaterja ter možnost uporabe algoritma na področju slovenskega

telekomunikacijskega prostora.


4

2 PODATKOVNA ZNANOST IN BIG DATA

Podatkovna znanost (angl data science) lahko definiramo kot manipuliranje in analizo

podatkovnega seta, pridobivanje uporabnih informacij in razumevanja sistema, ki ustvarja

informacije. Sistem je lahko posamezna enota, na primer računalnik, omrežje, brezžično

senzorsko omrežje itd. ki je sestavljeno iz velikega števila povezanih enot, ki medsebojno

sodelujejo pod določenimi principi in strategijami za izvedbo nalog kot so zbiranje podatkov,

dejstev ali statistik okolja, ki jih sistem opazuje. Ti sistemi lahko proizvedejo velike količine

podatkov, ki jim pravimo big data in iz mnogo različnih podatkovnih virov, ki so lahko zelo

kompleksi, brez strukture in s katerimi je težko upravljat, jih procesirat in analizirat [34].

2.1 BIG DATA

Glavni koncept Big Data zajema naslednje vidike:

- Količino, hitrost in raznolikost, ki opisujejo karakteristike informacij.

- Tehnologijo in analitične metode, ki opisujejo kaj vse je potrebno za pravilno

uporabo takšnih informacij.

- Vrednost, ki opisuje transformacijo podatkov v spoznanja, ki lahko ustvarijo

ekonomsko vrednost za podjetja in družbo.

Big Data je informacijska dobrina karakterizirana z veliko količino, hitrostjo in

raznolikostjo, ki potrebuje specifično tehnologijo in analitične metode za njeno

preoblikovanje v vrednost [26].

Big Data paradigma sestoji iz velikega sistema podatkov in okolja. Cilj sistema je opazovati

okolje in se naučiti karakteristik, na podlagi katerih podamo natančne odločitve. Na primer

cilj omrežnega sistema za zaznavanje vdorov je spoznati značilnosti prometa in odkrivanje

vdorov za izboljšanje zanesljivosti računalniškega omrežja. Okolje ustvarja dogodke o

katerih sistem zbira dejstva in statistične podatke, ki jih s pomočjo primernih operacij

pretvori v znanje, se uči značilnosti dogodkov in napove karakteristike okolja [34].


5

2.1.1 Podatki in znanje

Podatke lahko opišemo kot skrita digitalna dejstva, ki jih zbira nadzorni sistem. Skrita

digitalna dejstva niso očitna sistemu brez izčrpnega procesiranja. Opredelitev podatkov mora

temeljiti na znanju, ki ga je potrebno pridobiti iz njih. Podatki so lahko označeni, kjer dejstva

niso skrita in lahko na podatkih uporabimo tehnike strojnega učenja. Če podatki niso

označeni, pa lahko podatke uporabimo v postopku testiranja in validacije kot del strojnega

učenja [34].

Znanje lahko opišemo kot naučene informacije pridobljene iz podatkov. Znanje je lahko na

primer detekcija vzorcev, klasifikacija, izračun neznanih statističnih distribucij ali izračun

korelacije podatkov in tvori odziv sistema ki mu pravimo set znanja (angl knowledge set).

Podatki tvorijo domeno podatkov, na kateri so odzivi sistema generirani s pomočjo modela

f kot je prikazano na sliki 1. Zraven podatkov in znanja, nadzorni sistem potrebuje še tri

operacije in sicer fizično, matematično in logično [34].

Fizična operacija

Opisuje korake ki zajemajo proces pridobivanja podatkov, shranjevanja podatkov,

manipulacije podatkov in njihovo vizualizacijo [37]. To so pomembni koraki za razvoj

podatkovne domene sistema tako, da je možno izvesti tehnike strojnega učenja [34].

Podatki Znanje f

Obdelava

Zajem

Vizualizacija

Shramba

Razlaga

Utemeljitev

Interpretacija

Slika 1: Pretvorba podatkov v znanje [34]


6

Matematična operacija

Opisuje teorijo in aplikacijo primernih matematičnih in statističnih tehnik in orodij potrebnih

za transformacijo podatkov v znanje. Ta transformacija je lahko zapisana kot funkcija znanja

𝑓: 𝑃 ⇒ 𝑍 kot je prikazano na sliki 1, kjer 𝑃 predstavlja domeno podatkov in 𝑍 predstavlja

domeno znanja [34].

Logična operacija

Opisuje razlago, utemeljitev in interpretacijo znanja, s čimer je mogoče pridobiti smiselna

dejstva iz podatkov. Na primer funkcija znanja 𝑓: 𝑃 ⇒ 𝑍 lahko razdeli (klasificira)

podatkovno domeno in prikaže vzorce v podatkih, nato pa z uporabo logičnih operacij

argumentiramo, interpretiramo in utemeljimo posamezne kategorične tipe pridobljene iz

podatkov [34].

2.1.2 Velikost podatkov

Na primer, sistem za odkrivanje vdorov v omrežje je paket prometa v določenem trenutku.

Veliko število dogodkov (𝑛) je lahko ujetih v kratkem časovnem obdobju (𝑡) z uporabo

naprav kot so senzorji in omrežni usmerjevalniki, katerih dogodke lahko analiziramo s

pomočjo programskih orodij ter merimo karakteristike okolja. Opazovanje je običajno

Slika 2: Velikost podatkov

Veliko

podatkov Ogromno

podatkov

Malo

podatkov Velika

dimenzionalnost podatkov

Dimenzionalnost

Volu

men

p

Veliko

podatkov Ogromno

podatkov

Malo

podatkov Velika

dimenzionalnost

podatkov

Dimenzionalnost

Volu

men

p

Big data

ko sta dodani hitrost

in raznolikost n n


7

odvisno od velikega števila neodvisnih spremenljivk, ki jih imenujemo značilke in

sestavljajo prostor značilk. Število značilk (𝑝) določa dimenzionalnost sistema in vpliva na

kompleksnost obdelave podatkov. Značilke predstavljajo karakteristike okolja, ki jih sistem

spremlja.

Parameter 𝑛 na sliki 2 predstavlja število dogodkov ki jih sistem zajame ob času t in določa

velikost (volumen) nabora podatkov. Parameter 𝑝 predstavlja število značilk, ki določajo

dimenzijo podatkov in prispeva k številu razredov (raznolikosti) v naboru podatkov.

Dodatno, razmerje med parametrom n in t določa razmerje podatkov (hitrost).

2.2 CRISP-DM proces

V današnjem času, skoraj vsi avtomatizirani sistemi generirajo neko vrsto podatkov za

diagnostike ali namene analize. To je povzročilo poplavo podatkov, ki dosegajo rede

petabajtov ali eksabajtov [1].

Cross Industry Standard Process for Data mining (CRISP-DM) je proces, ki omogoča

boljšo realizacijo in hitrejše rezultate obdelave podatkov [33]. Je neodvisen od industrije,

nevtralen od tehnologije in je po nekaterih mnenjih de facto standard pri rudarjenju podatkov

[5]. Je neformalna metodologija, saj ne zagotavlja togega okvirja, metričnega vrednotenja

ali kriterijev o pravilnosti in se lahko se uporablja na širokem področju različnih industrij in

reševanju problemov [33].

Tipičen proces lahko hitro postane zelo kompleksen, saj je potrebno spremljati veliko stvari

na en krat. Nekatere od teh so, kompleksnost problema, mnogo podatkovnih virov, kakovost

podatkov med posameznimi podatkovnimi viri je spremenljiva, veliko podatkovnih

rudarskih tehnik, različne možnosti merjenja uspešnosti itd. [20].

Da lahko vsemu temu sledimo, si pomagamo z definiranim procesom CRISP-DM. Ta proces

nas vodi skozi kritične stopnje, ki smo jih našteli zgoraj in nam pomaga, da naslovimo vse

pomembne točke in nam služi kot nekakšen kažipot [20].


8

Splošen CRISP-DM proces je sestavljen iz sedmih faz in predstavlja življenjski cikel

podatkovnega rudarjenja. Teh sedem faz naslavlja glavne probleme v podatkovnem

rudarjenju in sicer:

- razumevanje problema,

- razumevanje podatkov,

- priprava podatkov,

- modeliranje,

- vrednotenje modela,

- uporabo v praksi in

- kontrolo [20].

Slika 3 prikazuje glavne razvojne stopnje pri podatkovnem rudarjenju, kjer smo osnovnemu

CRISP-DM modelu dodali še kontrolo modela. Vseh sedem faz skupaj sestavlja cikličen

proces, ki pa ni nujno da je tog, saj se pri izgradnji modela pogosto premikamo med samimi

fazami naprej in nazaj. Te faze zajemajo celoten proces rudarjenja, vključno s tem, kako

vključiti podatkovno rudarjenje v širše poslovne prakse [20].


9

2.2.1 Razumevanje problema

To je morda najpomembnejša faza podatkovnega rudarjenja, katere fokus je razumevanje

ciljev in zahtev projekta ter preslikava problema v domeno podatkovnega rudarjenja. Obsega

določanje ciljev samega problema, oceno situacije in določanje ciljev podatkovnega

rudarjenja [20]. Razumevanje problema je bistvenega pomena za odkrivanje pomembnih

dejavnikov potrebnih pri načrtovanju in zagotavljanju, da ne pridemo do pravilnih

odgovorov na napačna vprašanja [33]. V tej fazi naredimo tudi načrt poteka projekta za

dosego ciljev [20].

Priprava podatkov

Priprava podatkov

Razumevanje

problema

Razumevanje

problema

Razumevanje

podatkov

Razumevanje

podatkov

Modeliranje

Modeliranje Vrednotenje

Vrednotenje

Uporaba v praksi

Uporaba v praksi

Slika 3: Faze CRISP-DM procesa

Kontrola

Kontrola


10

2.2.2 Razumevanje podatkov

Razumevanje podatkov se začne z začetno fazo zbiranja podatkov, nadaljuje se z

spoznavanjem podatkov, kjer se naredi ocena kakovosti podatkov, odkrivanjem zanimivih

podskupin in preverbo o tem ali podatki vsebujejo kakšne skrite informacije. Obravnava

razumevanje naših podatkovnih virov in njihovih karakteristik. To vključuje štiri korake in

sicer skupaj z zbiranjem podatkov še njihov opis, raziskovanje in preverjanje kakovosti

podatkov [33].

2.2.3 Priprava podatkov

Priprava podatkov pokriva vse aktivnosti konstruiranja končnega podatkovnega seta ali

bomo pa uporabili za modeliranj modela neobdelane podatke. Ta faza zajema izbiro tabel,

zapisov in atributov kot tudi transformacijo in čiščenje podatkov za modelirna orodja. Pet

korakov v pripravi podatkov je izbira podatkov, čiščenje, konstruiranje, integracija in

oblikovanje [33]. Čeprav ta faza običajno vzame največ časa, je ključnega pomena za

uspešnost projekta [20].

Faze razumevanja in priprave podatkov so:

- pridobitev podatkov iz podatkovnega skladišča,

- povezava več tabel,

- združevanje podatkovnih datotek z različnih sistemov,

- prepoznavanje manjkajočih, nepravilnih in ekstremnih vrednosti,

- izbira podatkov,

- prestrukturiranje podatkov v format potreben pri analizi in

- preoblikovanje ustreznih polj [20].

2.2.4 Modeliranje

V tej fazi uporabimo napredne metode analize, ki so uporabljene za pridobitev informacij iz

podatkov. Vključuje izbiro modelirnih tehnik, izgradnjo testnih modelov in ocenjevanje


11

modelov. Sam razvoj modela je iterativen proces, kjer običajno preizkusimo več različnih

modelov in modelirnih tehnik preden izberemo najboljšega [20].

2.2.5 Vrednotenje

Za izbrani model ocenimo, kako lahko rezultati podatkovnega rudarjenja pomagajo doseči

cilje in zahteve projekta. Pred pisanjem končnega poročila in uporabo modela je pomembno

bolj podrobno oceniti model in iti čez vse korake uporabljene pri izgradnji slednjega. Tako

se prepričamo, da so dosežene vse zahteve projekta. Glavni cilj je, da preverimo, ali so vse

zahteve zadovoljivo obravnavane. Na koncu te faze podamo odločitev o uporabi rezultatov

[20].

2.2.6 Uporaba v praksi

Izgradnja zadovoljivega modela, pa običajno še ne pomeni konec projekta. V večini

primerov je potrebno informacije organizirati in predstaviti, kar pomeni, da je potrebno za

vsak projekt ustvariti končno poročilo tako, da ga lahko podjetje ali organizacija uporabi pri

sprejemanju odločitev [20].

2.2.7 Kontrola

Najbolj kritična je uporaba modela, kjer testiramo natančnost modela na novih podatkih. To

je zelo enostavno če je realizacija testiranja poteka znotraj programske opreme za

podatkovno rudarjenje, bolj kompleksno pa, če je potrebno model uporabiti neposredno na

obstoječi bazi podatkov [20].

Ustvarjen model je potrebno ustrezno spremljati, da lahko ocenimo uspešnost in napovedi

ter tako zagotovimo, da je model še vedno uporaben. To lahko obsega avtomatizirano

analizo, ki nas obvešča o nepredvidenih dogodkih ali napakah (primer; razlika med

napovedano in opazovano vrednostjo presega določeno vrednost) [20].


12

3 OPIS, RAZUMEVANJE IN ČIŠČENJE PODATKOV

3.1 Podatkovni objekti in atribut

Podatkovni objekt

Nabori podatkov so sestavljeni iz podatkovnih objektov. Podatkovni objekt pa predstavlja

entiteto, na primer, v naši bazi so to naročniki mobilnih storitev, v bazi univerze so lahko ti

objekti študenti, profesorji in predmeti. Podatkovni objekti so običajno opisani z atributi.

Lahko se nanašajo na vzorce, primere, podatkovne točke, predmete itd. [16].

Atribut

Atribut je podatkovno polje, ki predstavlja karakteristiko ali značilnost podatkovnega

objekta. Za atribut obstajajo tudi druga imena kot so dimenzija, značilka in spremenljivka.

Atributi, ki opisuje kupca, lahko na primer vsebujejo, identifikacijsko številko osebe, ime,

naslov… [16].

3.2 Tip spremenljivk

Vrednost atributa za določen primer je merjena količina, na katerega se nanaša atribut.

Velika razlika je med numeričnimi in nominalnimi količinami. Numeričnim atributom

včasih pravimo tudi zvezni atributi, merjenje številke pa so bodisi cela ali realna števila.

Opomnimo, da se izraz zvezno v tem kontekstu pogosto zlorablja in celoštevilčni atributi

zagotovo niso zvezni v matematičnem smislu. Nominalni atributi zavzamejo vrednosti

znotraj vnaprej določenega končnega seta možnosti, za katere se občasno uporablja izraz

kategorični atributi. Za tipe spremenljivk obstajajo tudi druge možnosti poimenovanj,

predvsem statistična besedila pogosto uvedejo ''ravni merjenja'', kot so nominalna, ordinalna,

intervalna in razmernostna [36].

Nominale količine imajo vrednosti, ki so različni simboli. Vrednosti same služijo samo kot

oznake ali imena. Če vzamemo primer vremena, lahko atributi zavzamejo vrednosti; sončno,

oblačno in deževno. Med temi tremi atributi ni nobene zveze, nobene razvrstitve ali


13

dolžinske mere. Prav gotovo jih ni smiselno seštevati, pomnožiti ali primerjati njihove

velikosti [36].

Ordinalne količine so tiste, ki omogočajo rangiranje kategorij. Kljub temu, da imamo

predstavo o zaporedju, ne predstavljajo razdalje. Na primer, vreme lahko ima atribute vroče,

toplo in mrzlo. Ti so razporejeni; vroče > toplo > mrzlo ali vroče < toplo < mrzlo, odvisno

od konvencije. Pomembno je, da toplo leži med ostalima dvema. Kljub temu da je smiselno

primerjat vrednosti, jih nima smisla seštevati ali odštevati. Razlike med vroče in toplo ne

moremo primerjani z razliko med toplo in mrzlo [36]. Torej spremenljivke lahko vrednostno

razvrstimo, ne pa količine razlik med njimi.

Intervalne količine imajo vrednosti, ki niso samo hierarhično razvrščene, ampak so tudi

izmerjene v fiksnih in enakih enotah. Te spremenljivke nimajo določene absolutne ničelne

vrednosti. Tak primer je temperatura izražena v stopinjah, raje kot na ne numerični skali, ki

je predstavljena z mrzlo, toplo in vroče. V tem primeru je mogoče smiselno govoriti o

razlikah med dvema temperaturama, 24 in 26 stopinjami Celzija in ju primerjati z razliko

drugih dveh temperatur, recimo 10 in 14 stopinjami Celzija ali pa primerjati njuni povprečni

vrednosti [36].

Razmernostne količine so tiste, za katere merilna shema določa sama po sebi definira ničelno

točko. Na primer, ko merimo dolžimo od enega objekta do drugega, razlika med objektom

in sami seboj formira naravno ničlo. Razmerje veličin je obravnavano kot realno število. Vse

matematične operacije so dovoljene in smiselno se je pogovarjati o trikratniku dolžine in

celo pomnožiti eno dolžino z drugo, da dobimo površino [36]

3.3 Opis naših vhodnih podatkov

3.3.1 Zapis podatkov o klicih

Zapis podatkov o klicih (CDR) je dokument, v katerega se s pomočjo telekomunikacijske

opreme beležijo telefonske aktivnosti uporabnikov kot so telefonski klic, sporočila ali druge

komunikacijske transakcije, ki potekajo preko naprav. Vsebujejo polja, ki opisujejo


14

specifično telekomunikacijsko transakcijo, ki pa ne vsebuje vsebine te transakcije. Podatki

o posameznem klicu lahko opisujejo različne atribute kot so čas klica, dolžina klica, status o

končanju klica, številko klicatelja in klicanega uporabnika [29]. Primarno so se podatki

uporabljali za obračunavanje stroškov storitev telekomunikacijskih podjetij, vendar se je z

povečanjem procesorske moči računalnikov izkazalo, da so lahko podatki uporabni za

najrazličnejše analize.

Enostaven primer zapisa bi bil lahko klic, o katerem se shranijo podatki kot so številka

klicatelja in klicane osebe, začetek klica in dolžina klica. V današnji praksi, so ti zapisi veliko

bolj detajlni in vsebujejo atribute kot so:

- Telefonska številka klicatelja,

- telefonska številka klicanega,

- čas začetka klica (datum in čas),

- dolžina klica,

- telefonska številka, kateri se klic obračuna,

- identifikacijska številka telefonske izmenjave,

- unikatna številka, ki označuje zapis,

- dodatna mesta pri klicani številki, uporabna pri zaračunavanju klica,

- tip (klic ali sms),

- ali se je zgodila kakšna napaka, … [29]

3.3.2 Opis datoteke zapisov podatkov o klicih

Datoteka zapisa podatkov o klicih je bila pripravljeni pri podjetju Si.mobil, kjer so bile

interakcije med dvema uporabnikoma, klici in sporočila, agregirani za časovno okno enega

meseca. Podatke, ki smo jih dobili, so bili za leto 2015 in sicer za mesec februar in maj.

Tabela 1 prikazuje ena interakcijo med dvema uporabnikoma. Na mestu CNT in

DURATION_MIN so prikazani agregirani podatki.

Tabela 1: Primer interakcije med dvema uporabnikoma

A_NUMBER B_NUMBER MONTH_ID SERVICE_TYPE WORK_TIME CNT DURATION_MIN

53685970857 53666187203 201502 "SPEECH" "Work" 1 0.516667


15

V tabeli 1 posamezni stolpci prestavljajo:

- A_NUMBER, predstavlja številko klicatelja.

- B_NUMBER, predstavlja številko klicane osebe.

- MONTH_ID, nam pove v katerem mesecu sta si številki izmenjali klic ali tekstovno

sporočilo.

- SERVICE_TYPE, tip zapisa, klic ali tekstovno sporočilo.

- WORK_TIME, specificira kdaj v dnevu se je dogodek zgodil. Delovni čas, ki je med

6 in 19 uro, vse ostalo pa obravnavamo kot prosti čas.

- CNT, frekvenca klicev ali sporočil (odvisno od SERVICE_TYPE).

- DURATION_MIN, čas trajanja vseh klicev za posamezen mesec. Za tekstovno

sporočilo, je ta vrednost enaka 0.

Tabela 2: Atributi zapisov podatkov o klicih

Številke uporabnikov (A_NUMBER in B_NUMBER) v zapisu podatkov o klicih, so zaradi

varnosti osebnih podatkov šifrirane in se razlikujejo od številk, ki so v uporabi v

telekomunikacijskem omrežju.

3.3.3 Opis datoteke informacije o uporabnikih

Tabela 3 prikazuje en zapis iz datoteke podatkov o uporabnikih, ki vsebuje informacije o

uporabnikih v telekomunikacijskem omrežju. V našem primeru je pomemben predvsem

STATUS, ki vsebuje informacijo o letu in mesecu strankinega odhoda od operaterja.

Atribut Vrednosti atributa Spremenljivka Tip atributa

A_NUMBER [1, 2, ...] Celo številčna Nominalen

B_NUMBER [1, 2, ...] Celo številčna Nominalen

MONTH_ID 201502, 201505 Nominala Nominalen

SERVICE_TYPE SPEECH, SMS Nominala Nominalen

WORK_TIME Work, offWork Nominala Nominalen

CNT [1, 7880] Celo številčna Razmernostni

DURATION_MIN [0, 7745.517] Zvezna Razmernostni


16

Tabela 3: Primer datoteke uporabnikov

V tabeli 3 posamezni stolpci predstavljajo:

- CUST_ID, identifikacijska številka, ki je enaka A_NUMBER in B_NUMBER.

- GA_YEAR, leto, ko je oseba pristopila k mobilnemu operaterju.

- AGE_GROUP, starostna skupina uporabnika, kjer številka 2 predstavlja starost

uporabnika med 20 in 29, številka 3 starost med 30 in 39 in tako naprej.

- GENDER, spol uporabnika.

- PRICE_GROUP, cenovna skupina uporabnika.

- STATUS, informacija o aktivnosti uporabnika. Active, če je uporabnik stranka

našega mobilnega omrežja, drugače pa mesec in leto uporabnikovega prenehanja

uporabe storitev pri našem operaterju.

Tabela 4: Atributi uporabnikov

3.4 Osnovne statistične metode za opis značilk

3.4.1 Frekvenca in najpogostejša vrednost

Glede na nabor nerazvrščenih kategoričnih (nominalnih) veličin ni veliko možnosti za

opredelitev vrednosti, razen najpogostejše vrednosti kategoričnega določenega atributa in

izračuna frekvence s katero se pojavi posamezna vrednost v določeni skupini podatkov.

Danemu kategoričnemu atributu x, ki lahko zavzame vrednosti {𝑣1, … 𝑣𝑖 , … 𝑣𝑘} in skupek 𝑚

objektov, je frekvenca vrednosti 𝑣𝑖 definirana kot [28]:

CUST_ID GA_YEAR AGE_GROUP GENDER PRICE_GROUP STATUS

2 2008 6 Female 1_Entry Active

Atribut Vrednosti atributa Spremenljivka Tip atributa

CUST_ID [1, 2, ...] Celo številčna Nominalen

GA_YEAR [1999, 2015] Celo številčna Intervalna

AGE_GROUP [1, 10] Celo številčna Intervalna

GENDER Female, Male Nominala Ordinalen

PRICE_GROUP 1_Entry, 2_Low, 3_Mid, 4_High, 5_Very high Nominala Ordinalen

STATUS Active, Churn in 201501, Churn in 201502, Churn in 201503, Churn in 201504, Churn in 201505, Churn in 201506 Nominala Nominalen


17

( ) ii

število objektov z atibutom vfrekvenca v

m

3.5 Osnovne opisne statistike za numerične tipe

3.5.1 Povprečje

Seštevek vseh vrednosti niza podatkov, deljeno s številom vseh podatkov v nizu.

1 2

1

1 1(x ... )

n

i n

i

X x x xn n

Tu je:

𝑥𝑖 - i-ta vrednost v vzorcu

3.5.2 Mediana

V statistiki in teoriji verjetnosti mediana loči vrednosti zaporedja števil na dve enaki polovici

in sicer na višjo in nižjo polovico populacije ali verjetnostne porazdelitve. Je aritmetična

sredina nekega zaporedja števil. Prednost je, da imajo osamelci manj vpliva na njeno

vrednost.

1

2

12 2

1

2

n

n n

x n liho

X

x x n sodo

Tu je:

𝑥 – vrednost v vzorcu


18

3.5.3 Standardni odklon

Statistični kazalec za merjenje porazdelitve vrednosti. Pove nam kako so podatki razpršeni

okrog srednje vrednosti.

2

1)(

n

ii

n

xx

Tu je:


�̅� - srednja vrednost vzorca

n - število enot

3.5.4 Varianca

Varianca meri statistično razpršenost določenega nabora podatkov. Prikazuje kako daleč od

povprečne vrednosti so razporejeni vrednosti podatkov.

2

2 1)(

n

ii

n

xx

Tu je:



3.5.5 Koeficient simetrije

Je merilo, ki meri simetrijo oziroma pomanjkanje simetrije. Porazdelitev ali set podatkov je

simetričen, če izgleda enako levo in desno od središčne točke.


19

3

2/

2

1

3

1

1(

1(

)

)1

n

ii

n

ii

x

xn

x

x

n

Tu je:



Koeficient simetrije lahko zavzame negativno vrednost (levo na sliki 4), pozitivno vrednost

(desno na sliki 4) ali pa je koeficient simetrije enak nič. Takrat pravimo, da je porazdelitev

simetrična.

Slika 4: Koeficient simetrije

3.5.6 Koeficient sploščenosti

Koeficient sploščenosti meri ostrino vrha verjetnostne normalne porazdelitve. Nabori

podatkov z velikim koeficientom sploščenosti, imajo večjo verjetnost osamelcev, medtem

ko je pri majhnem koeficientu, verjetnost osamelcev manjša.

4

1

2

1

2

(

( (

)

) )

n

ii

n

ii

K

x

xn

x

x

Tu je:

𝑥𝑖 i-ta vrednost v vzorcu

�̅� srednja vrednost vzorca


20

3.5.7 Osnovne opisne statistike uporabnikov mobilnega omrežja in njihovih storitev

Osnovne opisne statistike klicev

Osnovne opisne statistike podatkov, ki smo jih dobili s strani telekomunikacijskega podjetja.

V tabeli 5 so prikazane statistike klicev za nominalne atribute, kjer se lahko izračuna mode

in frekvenca. V tabeli 6 pa so prikazane statistike za numerične tipe, ki smo jih obravnavali

v tem poglavju.

Tabela 5: Nominalni atributi

Tabela 6: Numerični atributi

Osnovne opisne statistike uporabnikov

Osnovne opisne statistike za informacije, ki jih imamo o uporabnikih. Vsa polja so

nominalna, zato je v tabeli 7 prikazana najpogostejša vrednost (mode).

Tabela 7: Nominalni atributi uporabnikov

Polje Mode

MONTH_ID 201505

SERVICE_TYPE SPEECH

WORK_TIME Work

Polje Povprečje Mediana Std. odklon Varianca Simetrija Sploščenost

CNT 9.096 2 46.29 2142.782 29.052 1485.807

DURATION_MIN 6.446 0.45 29.797 887.87 33.481 3506.603

Polje Mode

GA_YEAR 2008

AGE_GROUP 2

GENDER Female

PRICE_GROUP 1_Entry

STATUS Active


21

3.6 Čiščenje podatkov

Pri čiščenju podatkov, se veliko krat srečamo z manjkajočimi vrednostmi. V podatkovni bazi

manjkajoče vrednosti označimo z null (ang. nič). Poznamo dva tipa takšnih vrednosti in sicer

prazne in manjkajoče vrednosti.

Na tem mestu se bomo izognili poglobljeni razlagi, saj pri naših podatkih ni bilo potrebe po

čiščenju manjkajočih vrednosti.

3.6.1 Izstopajoče vrednosti

Izstopajoča vrednost je podatkovna točka, ki se bistveno razlikuje od ostalih podatkov. Ena

od definicij predstavi koncept tako; Izstopajoča vrednost je opazovana vrednost, ki odstopa

od ostalih vrednosti tako, da se poraja sum o tem, da so jo generirali drugačni mehanizmi''

[18]. Izstopajočim vrednostim pravimo tudi nepravilnosti, anomalije, neskladja… V večini

aplikacij so podatki generirani z enim ali več procesi, ki lahko odražajo dejavnost sistema

ali observacije določenega subjekta. Ko se proces, ki generira podatke obnaša nenavadno, je

rezultat pojava izstopajoča vrednost. Običajno ravno zaradi tega te vrednosti veliko krat

vsebujejo koristne informacije o nenavadnih karakteristikah sistema in subjektov, ki vplivajo

na proces generiranja podatkov [2].


22

4 UMTS topologija omrežja

UMTS (The Universal Mobile Telecommunication System) je standard tretje generacije 3G

mobilnega komunikacijskega sistema specificiran s strani organizacije 3GPP (3rd Generation

Partnership Project).

Kot je prikazano na sliki 5 je omrežje sestavljeno iz treh glavnih komponent in sicer

osrednjega omrežja, radijskega omrežja in uporabniške enote.

Slika 5: Poenostavljen prikaz mobilnega omrežja [11]

4.1 Komunikacijsko omrežje

Vloga komunikacijskih omrežij je povezati računalnike in uporabniške enote med seboj

tako, da lahko izmenjujejo podatke in signalna sporočila. Omrežje mora sprejeti informacije

od oddajne naprave, identificirati pot do sprejemnika in poslati informacije od sprejemne

naprave brez večjih napak. Primeri komunikacijskih omrežij so telefonske linije, Internet in

mobilna omrežje [11].


23

4.1.1 Radijsko dostopovno omrežje (UTRAN)

Slika 6: Radijsko dostopovno omrežje [11]

UTRAN (UMTS terrestrial radio access network) ima dve komponenti in sicer Node B in

krmilnik radijskega omrežja RNC. Iur vmesnik povezuje dva RNC, medtem ko Iub povezuje

Node B in RNC. Vsi vmesniki na sliki 6 so uporabljeni za mobilni promet in signalizacijo.

Node B je bazna postaja, RNC pa je vmesnik med Node B in osrednjim omrežjem (angl core

network) [11].


24

4.1.2 Osrednje omrežje

Slika 7: Osrednje omrežje [11]

Slika 7 prikazuje notranjo arhitekturo 99 izvedbe 3GGP osrednjega omrežja. Osrednje

omrežje je sestavljeno iz dveh domen in sicer paketno komutirane domene PS in vodovno

komutirane domene CS. Preko CS domene se prenaša glasovni klic z uporabo vodovno

komutirane tehnologij, ki ima vmesnik do fiksne linije telefonskega sistema PSTN in kroga

domen drugih omrežnih operaterjev. PS domena pa komunicira z podatkovnimi serverji

omrežnega operaterja in zunanjim paketnimi podatkovnimi omrežji, kot na primer Internet

[11]. Obstoj dveh domen je evolucija 3G omrežja iz 2G, kjer je bilo 2G omrežje sprva

namenjeno samo govornemu prometu.

PS in CS domeni imata nekaj skupnih komponent izmed katerih je najbolj pomembna HLR,

ki je centralna omrežna baza podatkov mobilnega operaterja. HLR vsebuje informacije o

operaterjevih naročnikih kot so njihova identiteta, trenutna lokacija in storitev, katere

naročnik so. AuC vsebuje varnostne informacije povezane z naročnikom kot so varnostni

ključi, ki preprečuje neavtoriziran dostop. EIR register v katerem je seznam ukradenih

telefonov [11].


25

MSC je glavna komponenta vodovno komutirane domene. Običajno omrežje vsebuje več

MSC centrov, od katerih je vsak zadolžen za določeno geografsko območje imenovano MSC

območje. MSC center se obnaša kot stikalo za klice in hkrati skrbi za signalno komunikacijo

z mobilnimi telefoni ki so v tistem MSC območju. MSC je lahko dizajniran kot vhodni MSC

(GMSC), ki se služi kot vodna točka v omrežje za dohodne klice. VLR je v bistvu kopija

HLR, tako zmanjšamo komunikacijo med HLR in MSC, zato običajno govorimo o

MSC/VLR kot eni enoti [11].

V paketni komutirani domeni obstajajo dve komponenti in sicer GPRS podporno vozlišče

(SGSN) združuje funkciji MSC in VLR in se obnaša kot usmerjevalnik za prenos podatkov,

ki vsebuje lokalno kopijo informacij o mobilnih naprav v SGSN območju in skrbi za

signalno komunikacijo s temi mobilnimi napravami. Vhodno GPRS podporno vozlišče je

precej drugačno kot GMSC. Deluje kot vmesnik do podatkovnih strežnikov in drugih

omrežij za prihodni in odhodni podatkovni tok [11].

4.2 Vodovna in paketna komutacija

Vodovna komutacija (angl Circuit switching) se v splošnem uporablja za prenos klica.

Tehnike za prenos klica so enake kot pri tradicionalnem stacionarnem telefonskem sistemu.

Na začetku klica omrežje določi pot čez omrežna stikala, ki povezujeta dva telefona in

rezervira dovolj resursov za klic. Na primer, klic tipično potrebuje konstantno hitrost prenosa

podatkov 64 000 bitov na sekundo (64kbps). Z rezerviranje resursov na omrežnih stikalih

in povezavah za prenos 64kbs, lahko zagotovi, da informacija med napravama potuje z zelo

majhnim zamikom in brez oviranja drugih klicev [11].

Vodovna komutacija ima veliko pomanjkljivost in sicer, da je zelo neučinkovita. Pri

telefonskem klicu vsak uporabnik v povprečju govori polovico časa, kar pomeni da je že na

začetku bilo rezerviranih dva krat več resursov kot jih je dejansko potrebnih. Situacija je še

slabša v primeru uporabe interneta [11].

Za reševanje tega problema paketno komutirana (angl Packet switched) omrežja kot so

internet uporabljajo drugačne tehnike. Te tehnike prenašanja razdelijo tok podatkov v


26

pakete. Vsakemu paketu je dodana dodatna informacija, glava, ki pove omrežju kako naj bo

paket usmerjen. Potem pošlje vsak uspešen paket do prvega omrežnega stikala. Ko paket

doseže stikalo, stikalo pogleda kakšna je pot te informacije v usmerjevalni tabeli in prebere

identiteto naslednjega stikala na poti in jo posreduje tja. Ta postopek se ponavlja, dokler

paket ne doseže svojega cilja [11].

4.3 Zapis podatkov o klicih

Slika 8: Omrežna arhitektura in CDR zapis [24]

Obračunski center BC dobi zapise podatkov o klicih iz različnih komponent osrednjega

omrežja. V obračunskem centru se zberejo vsi podatki in so lahko uporabljeni za obračun

storitev in najrazličnejše analize [24].

Funkcija obračunavanja storitev CFG je prehodna enota med GGSN/SGSN in obračunskim

centrom. CFG spada v osrednje omrežje PS domene in se uporablja kot vmesna točka

shranjevanja zapisa podatkov o klicih. Več zapisov za enakega uporabnika lahko zadeva več

različnih delov omrežja. BC je direktno in indirektno povezan do dveh točk v omrežju: MSC

in SGSN na eni strani in GMSC in GGSN na drugi strani [24].


27

MSC in SGSN kot omrežni točki imate neposredno dostopno povezavo do omrežja in sta

odgovorni za zbiranje informacij o omrežju. To poročilo že vsebuje identiteto naročnika

(IMS) in identiteto mobilne naprave (IEMI) [24].

GMSC in GGSN kot prehodna enota do zunanjih omrežij (Internet ali PSTN) zbira

informacije, ki zadevajo drugi segment klica. MSC in GMSC vsaka generirajo svoje

poročilo, zato imamo dva izvoda poročil, na primer dolžino klica in število poslanih

podatkovnih paketov. Ta dva izvoda poročil omogočata da je informacija direktno povezana

z računom za konsistentnost in zaščita pred izgubo [24].

4.4 Komunikacijski protokoli

Ena od funkcij komunikacijskih protokolov je usmerjanje, ostale funkcije vključujejo še

kontrolo električnih signalov na vsakem vmesniku, šifriranje podatkov in ponovno pošiljanje

podatkov, ob pojavu napak. Da ostanejo te funkcije ločene, je vsaka od njih obravnavana s

programsko komponento imenovano protokol in posamezni protokoli so razvrščeni v sklad,

ki ima več različnih nivojev. V oddajniku je informacija najprej procesirana v višjih nivojih

protokolov in nato še v nižjih preden je poslana v komunikacijsko omrežje. Obraten proces

se dogaja v sprejemniku [11].

4.4.1 OSI

Obstajajo različni načini razporeditve nivojev v protokolnem skladu, med katerimi je

najpogosteje uporabljen sedem nivojski OSI model prikazan na sliki 9, ki prikazuje proces

oddajne in sprejemne naprave [11].


28

Slika 9: OSI referenčni model [11]

Aplikacijski sloj deluje kot vmesnik med aplikacijo in spodnjimi nivoji protokolov, ki

zagotavljajo programske funkcije za naloge kot so vzpostavljanje podatkovnega toka in

pošiljanje paketov podatkov. Ena izmed bolj znanih aplikacijskih plasti je HTTP, ki

obravnava spletne strani in SMTP, ki se uporablja pri elektronskih sporočilih [3].

Predstavitveni nivo predstavlja informacije izmenjane med dvema končnima napravama, ki

uporabljata skupno sintakso in jo obe razumeta. Skrbi za uskladitev različnih načinov

predstavitve podatkov [3].

Plast seje obravnava podatke v obliki v kateri pridejo brez deljenja ali združevanja. Osnoven

namen je omogočiti predstavitvenim nivojem organizirati komunikacijo za mnogo

komunikacijskih sej hkrati. Vzpostavi, vodi in razčleni komunikacijsko pot med obema

končnima napravama [3].

Transportna plast omogoča višje ležečim plastem povezavo med oddajno in sprejemno

napravo, na prenosni poti pa poskrbi za pravilen in zanesljiv prenos podatkov. V glavnem

sta v uporabi dva transportna protokola in sicer TCP in UDP. TCP je povezovalno usmerjen

protokol , ki uporablja signalizirano komunikacijo med oddajno in sprejemno napravo, kot

tudi prenos podatkov. UDP je nepovezovalni protokol, ki samo pošilja podatke sprejemniku

brez dodatne signalizacije [3].


29

Omrežna plast zagotavlja, da so podatki poslani po pravilni poti od oddajne do sprejemne

naprave. Opravlja zelo pomembno vlogo pri usmerjanju podatkov iz enega omrežja v

drugega in nadzira podomrežje. Pri Internetu je uporabljen Internetni protokol (IP), ki

uporablja diagramski pristop in opravlja usmerjanje s pomočjo IP naslova ciljne naprave [3].

Povezovalna plast pošlje podatke od enega stikala do drugega. Tako kot transportni sloj, je

povezovalni lahko povezovalno ali nepovezovalno usmerjen. Dva pogosta povezovalna sloja

sta Ethernet in protokol od točke do točke (PPP). Zagotavlja varno in transparentno

povezavo med napravama, ki komunicirata preko enake fizične plasti.

Fizična plast prenaša in sprejema signale s pomočjo prenosnega medija kot so bakrena žica,

optično vlakno ali brezžičnega medija [3].

4.5 Prenos glasovnega klica

Slika 10 prikazuje 99 izdajo protokolnega sklada za prenos klica. Aplikacija digitalizira

govorni signal s frekvenco vzorčenja 8 kHz in 8 bitno ločljivostjo. Digitaliziran signal se

prenese do MSC s pomočjo pulznega kodnega modulatorja (PCM) s 64 kbps. V MSC

adaptivni kodirnik zvoka AMR stisne signal tako, da zmanjša obremenitev na zračni

povezavi [11].


30

Slika 10: Uporabniški nivo protokolnega sklada glasovnega klica v 99 izdaji skupaj z

tokom podatkov

Stisnjen signal je razdeljen v 20 ms podatkovne nize za prenos, ob enem pa detektor glasu

določi, ali uporabnik govori ali ne. Če ne, so stisnjeni podatkovni nizi zamenjani s

parametriziranim opisom šuma v ozadju poznanim kot SID, ki ima dve funkciji in sicer

preprečuje šumu iz ozadja vklapljanje in izklapljanje ter zagotavljanje osebi, ki govori, da je

druga oseba še vedno na liniji [11].

Sprejemnik preveri vsak podatkovni niz, določi vsebnost govora ali SID, na podlagi tega

dekodira govor ali pa generira lagoden šum. Nekateri sprejeti nizi lahko manjkajo ali so

označeni kot napake, običajno zato, ker niso bili uspešni pri cikličnem preverjanju

redundance CRC zračne povezave. Sprejemnik najprej obravnava te nize z ponovitvijo

slednjih in potem postopoma zniža izhodni nivo do nič [11].

Izhod kodirnika je parametriziran opis originalnega govornega signala. Nekateri kodirni biti

so zelo pomembni v smislu, da bo rekonstruiran signal zelo okrnjen, če bodo sprejeti biti

nepravilno, medtem ko so drugi manj pomembni. Rokovanje s tem problemom je takšno, da

kodirnik stisnjene bite razporedi v tri skupine, kjer so najpomembnejši biti v skupini A, manj

pomembni v skupini B in najmanj pomembni v skupini C. Na primer, v vsakem 12.2 kbps

vsak 20ms niz podatkov vsebuje 81 bitov ki so v skupin A, 103 v skupini B in 60 v skupini


31

C, kar je skupaj 244. SID podatkovni nizi vsebujejo 39 bitov v skupini A in nobenih v skupini

B ali C. Ti biti so prikazani na sliki 10 kot tri povezave med posameznimi bloki [11].

Na Iu povezavi so tri skupine obravnavane z uporabno različnih RAB pod-tokov, ki

uporabljajo poseben način Iu uporabniškega protokolnega nivoja imenovanega podporni

način za pred definirane SDU velikosti. Protokol multipleksira bite od vsakega pod-toka v

en Iu paket in označi vsak paket z RAB kombinacijo indikatorjev pod-toka [11].

V naslednjih izvedbah osrednjega omrežja, od 4 izdaje naprej, se za prenos govora namesto

PCM uporablja ATM ali IP. Ti paketi so lahko v stisnjeni obliki, tako da AMR ni več

potreben v MSC [11].

4.6 LTE topologija omrežja

Ker je UMTS tehnologija v odhodu, je prav da opišemo še LTE, ki tehnologija sedanjosti in

bližnje prihodnosti. Omrežje LTE je standardizirana tehnologija s strani 3GGP organizacije

in je nekakšno nadaljevanje tehnologije UMTS. Za razliko od predhodnih omrežij LTE,

komunikacija temelji na internetnem protokolu. Posledice je manjše število elementov, kar

pomeni preprostejša infrastruktura, manjše zakasnitve in nižja cena opreme.

Slika 11: LTE sistemska arhitektura [10]


32

P-GW povezuje omrežno jedro z zunanjimi IP omrežji. Čez SGi vmesnik vsak P-GW

izmenja podatke z eno ali več zunanjimi napravami ali paketnimi podatkovnimi omrežji kot

je internet. Internet na primer opravlja IP transport podatkov med UE in zunanjimi omrežji

[22].

S-GW se obnaša kot usmerjevalnik in služi kot prenos podatkov med bazno postajo in P-

GW. Ves podatkovni uporabniški promet gre od UE čez S-GW. S-GW usmeri prihodne in

odhodne IP pakete do njihovih pravilnih destinacij. V tipičnem omrežju je lahko več S-GW,

vsakemu od katerih je dodeljena mobilna naprava v določeni geografski regiji [10].

Verjetno najbolj pomemben element v omrežnem jedru je MME, saj gre čezenj ves

signalizacijski promet med UE in EPC. Kot S-GW, je v tipičnem omrežju več MME-sov,

vsakemu od katerih je dodeljeno določeno geografsko območje. Vsaka mobilna naprava je

dodeljena eni MME, ki pa se lahko spremeni, če se mobilna naprava dovolj oddalji. MME

nadzira tudi druge element v omrežju z notranjimi signalizacijski sporočili v omrežnem jedru

[10].


33

5 TEORIJA GRAFOV

Omrežje je sestavljeno iz skupine enot in povezav med njimi. Analiza omrežja (angl network

theory) raziskuje povezave za opisovanje posameznih enot in skupin kot del celotne

strukture. Posamezniki komunicirajo med seboj in na podlagi tega, lahko pridemo do

razumevanje interakcijskih vzorcev [19].

Analiza socialnega omrežja gleda na povezave med osebami v smislu teorije omrežja,

sestavljenega iz vozlišč in robov (tudi vezi). Povezave omogočajo pretok informacij čez

celotno omrežje in omogočajo posameznikov vpliv na ostale uporabnike. Vozlišča so akterji

znotraj omrežja, povezave pa razmerja med akterji. Pomembnost povezav med posamezniki

loči analizo socialnih omrežij od drugih pristopov, kjer je predmet fokusa posameznik.

Nasprotno, pri analizi omrežja, je proučevana enota sestavljena najmanj iz dveh

posameznikov in njunih povezav [19].

Enote so lahko posamezniki, organizacije, družbene skupine, mesta, države, električne

postaje, internetne strani, roboti itd., vezi med enotami pa so lahko na primer prijateljstvo,

poslovne transakcije, komunikacije, električna energija, … Je proces raziskovanja struktur,

relacij in informacijskih tokov med enotami oziroma povezanimi subjekti in ima široko

področje uporabe v industrijskem inženirstvu, telekomunikacijah, ekonomiji, marketingu in

mnogih drugih področjih.

Cilj metod teorije omrežij je interpretacija, odkrivanje vzorcev in delovanje enot v omrežju,

ki je predmet raziskave.


34

5.1 Virtualnost in transparentnost

Transparentnost

Funkcije v višjih plasteh so izolirane od kompleksnosti in zahtevnosti funkcij v nižjih

plasteh. Mehanizem storitev omogoča, da nižjih plasti uporabnik ne zazna oziroma so

transparentne, zato imamo občutek, da je celoten sistem enostaven komplet ukazov. Je

sposobnost kompleksnih komunikacijskih sistemov, da prenašajo podatke preko omrežja na

način, ki je transparenten (neviden) uporabnikom, ki uporabljajo aplikacije.

Virtualnost

Transparentni komunikacijski sistemi dajejo vtis, da je povezava med dvema uporabnikoma

neposredno vzpostavljena. Neposredne povezave dejansko ni, zato jo imenujemo virtualna

povezava.

virtualna vez

Slika 12: Virtualna povezava


35

5.2 Tipi predstavitve povezav uporabnikov v mobilnem omrežju

5.2.1 Graf

V matematiki oziroma teoriji grafov je graf (G) predstavljen kot skupina objektov, kjer so

nekateri pari objektov povezani. Medsebojno povezani objekti so predstavljeni kot točke,

povezavam med pari točk pa pravimo robovi. Tipično je graf predstavljen kot skupina točk

ki predstavljajo vozlišča. Povezana vozlišča pa so lahko povezana s črtami ali krivuljami, ki

predstavljajo robove [15]. Takšni predstavitvi grafa pravimo grafična predstavitev in je

koristna kadar želimo opazovati strukturo grafa, vendar pa postane neuporabna, če želimo

opisati velike in zaplete grafe. Primer takšnega grafa je prikazan na sliki 20.

5.2.2 Matrika sosednosti

Za enostaven graf 𝐺 s skupino vozlišč 1, 2, 3, … , 𝑛 brez zank je matrika sosednosti (angl

adjacency matrix) 𝐸(𝐺) razsežnosti 𝑛𝑥𝑛, v kateri element v 𝑗-tem stolpcu 𝑖-te vrstice pove

število povezav, ki povezujejo vozlišči 𝑖 in 𝑗.

Za graf s štirimi vozlišči prikazan na sliki 16 dobimo matriko sosednosti prikazano na sliki

13, ki je dimenzije 4 x 4. Števila v matriki povedo ali povezava med dvema vozliščema

obstaja ali ne, na primer:

- Vozlišči 𝑣1 in 𝑣2 sta povezani z eno povezavo, zato se v prvem stolpcu druge vrstice

in v drugem stolpcu prve vrstice pojavi število 1.

- Vozlišči 𝑣3 in 𝑣4 nista povezani, zato se v tretjem stolpcu četrte vrstice in v četrtem

stolpcu tretje vrstice pojavi število 0.


36

Slika 13: Matrika sosedov

5.3 Stopnja, usmerjenost in ocenjenost povezave

Usmerjenost

Povezave med uporabniki so lahko usmerjene ali neusmerjene. V grafu obstaja usmerjena

povezava, ki vodi od točke 𝑋𝑖 do točke 𝑋𝑗. Točka 𝑋𝑖 se imenuje začetna točka (izvor), 𝑋𝑗 pa

končna točka povezave (cilj). Na primer, klic je primer usmerjene povezave v kateri ena

oseba kliče drugo [19].

Stopnja

Stopnja vozlišča je definirana kot število povezav, ki jih ima določeno vozlišče z ostalimi

vozlišči.

Ocenjenost

Še ena lastnost, ki ločuje povezave je, ali je povezava ocenjena ali neocenjena. Edina

informacija pri neocenjeni povezavi med dvema uporabnikoma je, ali povezava obstaja ali

ne. Ocenjena povezava ima zraven informacije o obstoju povezave dodano še utež, ki

predstavlja moč povezave. Utež nam omogoča primerjanje povezav med seboj [19].


37

5.3.1 Vhodna stopnja

Na sliki 14 je prikazana usmerjena povezava vozišča, ki nam pove, koliko povezav vodi do

tega vozlišča, oziroma, koliko ljudi kontaktira določeno osebo.

Vhodna stopnja je število povezav, v katerih je določeno vozlišče cilj povezave

Slika 14: Vhodna stopnja vozlišča

5.3.2 Izhodna stopnja

Je definirana kot usmerjena povezava vozlišča, tako kot vhodna stopnja, le da je pri tej

povezavi posamezno vozlišče izvor oziroma pobudnik povezave. Primer takšne povezave je

prikazan na sliki 15.

Izhodna stopnja je število povezav, kjer je vozlišče izvor povezave.

Slika 15: Izhodna stopnja vozlišča


38

5.4 Tipi grafov

5.4.1 Neusmerjen neutežen graf

0 1 1 0

1 0 1 1

1 1 0 0

0 1 0 0

ijA

0iiA ij jiA A

Takšni grafi, nimajo vnaprej določenih smeri, vemo le ali povezava obstaja, ne vemo pa kdo

je vir povezave in kakšna je moč posamezne povezave. Primeri takšni grafov so molekule,

kjer atomi predstavljajo vozlišča, vezi pa povezave med atomu.

5.4.2 Usmerjen graf

0 1 1 0

1 0 1 1

1 1 0 0

0 1 0 0

ijA

0iiA ij jiA A

Graf, kjer imajo povezave med elementi določeno smer, oziroma lahko vozlišča delimo na

izvor in cilj posamezne povezave, ni pa možno vrednostno oceniti povezave.

Slika 16: Neusmerjen graf

Slika 17: Usmerjen graf


39

5.4.3 Neusmerjen utežen graf

0 2 0.5 0

2 0 1 4

0.5 1 0 0

0 4 0 0

ijA

0iiA ij jiA A

Grafi, kjer imajo povezave med elementi določeno utež (tudi

moč ali oceno). Če pri uteženem grafu povezava med elementi i in j obstaja, potem zavzame

vrednost 𝑤𝑖𝑗 , drugače 0. Pri neuteženih grafih (binarnih), pa zavzame vrednost 1, če

povezava med i in j obstaja, drugače pa vrednost 0 [4].

Informacije o povezavi in moči povezave obstajajo, ne vemo pa kdo je pobudnik in

sprejemnik povezave.

5.4.4 Graf z zankami

1 1 0

1 0 1 1

1 1 0 0

0 0 11

1

ijA

0iiA ij jiA A

V mnogih grafih vozlišča ne komunicirajo sama s seboj, zato so diagonalni elementi matrike

enaki nič, 𝐴𝑖𝑖 = 0, 𝑖 = 1,2, … 𝑛. V nekaterih grafih pa je ta interakcija dovoljena, primer

interakcij proteinov [4].

Slika 18: Utežen graf

Slika 19: Omrežje z

zankami


40

5.5 Graf klicev

V teoriji grafov se srečamo z mnogimi grafi, ki se razlikujejo v elementarnih lastnostih.

V veliki večini primerov, lahko posameznemu grafu pripišemo več takšnih elementarnih

lastnosti, ki skupaj opisuje določen graf.

V naši nalogi je bil predmet obravnave mobilno omrežje, katerega lastnosti so:

- usmerjenost,

- uteženost in

- brez zank.

Primer takšnega grafa je na sliki 20, kjer so povezave med posamezniki v obliki telefonskih

klicev, utež povezav, pa je predstavljena z dolžino telefonskega klica. Takšnemu grafu

pravimo graf klicev (angl call graph). V našem primeru:

- Oseba 1 kliče osebo 2 in je klicana s strani osebe 3.

- Oseba 2 kliče osebo 3 in 4 in je klicana s strani osebe 1.

- Oseba 3 kliče osebo 1 in je tudi klicana s strani osebe 2.

- Oseba 4 je klicana s strani osebe 2.

0 20min 0 0

0 0 10min 40min

5min 0 0 0

0 0 0 0

ijA

0iiA , ij jiA A

Slika 20: Primer grafa klicev

5 min 20 min

10 min

40 min


41

5.6 Opisovanje grafov

Informacije o skupinah in posameznikih morajo biti pretvorjene v opisovalne karakteristike,

ki omogočajo medsebojno primerjavo in jih lahko vključimo v napovedovalne modele. Te

informacije je potrebno pretvoriti v končni set ključnih kazalnikov primernih za analizo, na

podlagi katerih lahko primerjamo celotno mobilno omrežje uporabnikov, posamezne

skupine vozlišč in identificiramo najpomembnejše posameznike [19].

Najpogosteje se za opis uporabljata gostota in stopnja. Obe statistiki odražajo povezanost

skupine uporabnikov, ki lahko predstavlja vse mobilne uporabnike znotraj določenega

geografskega območja, določenega mobilnega operaterja ali kakšno drugo podskupino.

5.6.1 Gostota povezanosti skupine

Za vsak set vozlišč obstaja končno število povezav v grafu. Vsako vozlišče lahko služi kot

začetna točka (vir) ali kot končna točka (tarča) povezave z vsakim drugim vozliščem, vendar

se v praksi veliko krat zgodi, da vse povezave niso prisotne. Nekatera voziščne nimajo

direktne povezave z ostalimi vozlišči, pri usmerjenih povezavah pa ni nujno, da je vsaka

obojestranska [19].

( 1)

mGostota

n n

Tu je:

𝑚 - število obstoječih povezav

𝑛 – število vseh možnih povezav

Gostota predstavlja delež vseh možnih povezav, ki so dejansko prisotne in lahko zavzame

vrednosti med 0 in 1. Nižje vrednosti predstavljajo slabo povezane skupine, visoke vrednosti

pa predstavljajo skupine z močno povezanimi vozlišči. Bliže kot je gostota 1, bolj močno je

povezana skupina in bolj so vozlišča povezana med seboj. V močno povezanem omrežju je

izmenjava informacij lažja kot v omrežju, kjer so vozlišča redkeje povezana [19]. Da


42

informacija na sliki 21 pride od D do B, mora potovati preko E in A, medtem ko pa pri gosto

povezanem omrežju na sliki 22 enostavno od vozlišča D do B.

5.6.2 Stopnja povezanosti

Najpomembnejši posamezniki so običajno tisti, ki imajo največ povezav z ostalimi osebami.

Ti posamezniki imajo informacije z velikega števila virov in tudi širijo informacije do

velikega števila posameznikov. Za razliko od posameznikov, ki imajo manj povezav, ti ne

morejo direktno vplivati na veliko število oseb v omrežju [19].

Stopnja vozlišča je definirana kot skupno število povezav, ki zadevajo to vozlišče. Omogoča

primerjavo med posameznimi osebami v omrežju. Posamezniki z visoko stopnjo so bolj

aktivni kot osebe z nižjo [19].

Pri usmerjenih povezavah se lahko fokusiramo na to ali je vozlišče vir ali tarča. Vhodna

stopnja posameznega vozlišča je število povezav, v katerih je določeno vozlišče cilj. Obratno

velja pri izhodni stopnji, kjer štejemo povezave v katerih je vozlišče vir. V tabeli 8 so

predstavljena vozlišča omrežja, ki so prikazana na sliki 22 v obliki stopenj, vhodne in

izhodne stopnje.

Tabela 8: Stopnja vozlišča

Vozlišče Stopnja Vhodna stopnja Izhodna stopnja

A 4 3 1

B 4 3 1

C 3 2 2

D 4 1 3

E 4 1 3

Slika 21: Redko povezan graf Slika 22: Gosto povezan graf


43

Vhodna stopnja je pogosto obravnava kot mera prestiža. Višja kot je vhodna stopnja

posameznega vozlišča, več povezav se konča v tistem vozlišču. Drugače, veliko

posameznikov kontaktira takšno osebo z veliko vhodno stopnjo [19].

Izhodna stopnja je tretirana kot mera centralnosti. Višja kot je izhodna stopnja posameznega

vozlišča, več povezav izhaja iz tega vozlišča. Ti posamezniki kontaktirajo veliko število oseb

[19].

5.6.3 Avtoritetna ocena vozlišča

Avtoritetna ocena za posameznega uporabnika v omrežju, meri težnjo preostalih oseb v

določeni skupini do tega določenega uporabnika. Če veliko posameznikov kontaktira

določeno osebo prikazano na sliki 23 (zelen krog), jo potencialno sprašuje za informacije ali

mnenje, zato je ta oseba v vlogi avtoritete. Avtoritetna ocena za posamezno osebo v skupini

je enaka stacionarni verjetnosti slučajnega sprehoda (opisano v podpoglavju 6.3.5), ki se

izračuna za posamezno skupino. Za osebo v skupini, ki se nahaja najvišje po tej razvrstitvi

v posamezni skupini, se v angleški literaturi uporablja izraz ''authority leader'' [19].

Slika 23: Grafična predstavitev avtoritetne ocene


44

5.6.4 Razširjevalni ocena vozlišča

V nasprotju z avtoritetno oceno, nosi ta ocena informacije o nagnjenosti posameznega

uporabnika do povezave z ostalimi osebami v skupini. Če določena oseba kontaktira veliko

posameznikov v skupini, lahko takšna oseba močno vpliva na mnenje oseb znotraj celotne

skupine. Primer grafa takšne osebe je prikazan na sliki 24 z rumenim krogom. Za osebo v

skupini, ki se nahaja najvišje po tej lestvici v posamezni skupini, se v angleški literaturi

uporablja izraz ''dissemination leader'' [19].

Zraven gostote, vhodne stopnje, izhodne stopnje in drugih statistik, ki opisujejo dinamiko

skupin, avtoritetna in razširjevalna ocena ponujata mero socialnega statusa posameznika

znotraj skupine. Vloga vsakega posameznika v skupini je še posebej pomembna, ko

poskušamo napovedati vedenje skupine in njihovih posameznikov [19].

5.7 Določanje podobnosti

Člani skupine so si med seboj bolj podobni, kot ostali posamezniki, ki niso v skupini. V

analizi socialnega omrežja, podobnost dveh vozlišč določa njuno razmerje. Za vsako

vozlišče v omrežju, obstaja skupina vozlišč, ki so cilj usmerjene povezave posameznega

vozlišča. Če dva posameznika kontaktirata enako skupino ljudi, sta ta posameznika tretirani

Slika 24: Grafična predstavitev razširjevalne ocene


45

kot podobna en drugemu. Večji kot je delež ciljnih povezav do enakih ljudi, bolj sta si

podobna [19].

Tabela 9: Povezave vozlišč v grafu

Vozlišči A in B imata skupne usmerjene povezave do petih vozlišč. Vozlišči A in C pa imata

povezavo le med seboj, brez drugih skupnih vozlišč [19]. Da bi ujeli predstavo o podobnosti,

algoritem analize skupin uporablja statistično vrednost medsebojne informacije kot

relacijsko vez z lastnostmi razmernostne veličine [9]. Ta statistika odraža verjetnost da sta

dve vozlišči povezani z enakim skupnim vozliščem.

Izvorno vozlišče Ciljno vozlišče

A B, C, D, E, F, G

B A, C, D, E, F, G

C A, D, H, I, J

Slika 25: Povezan graf


46

6 MODELIRANJE

6.1 Programski paketi

V tem delu smo interaktivno uporabljali SPSS Modeler , Python Spyder ter Tableau Desktop,

s katerim je mogoče hitro in na enostaven način vizualizirati velike količine podatkov.

6.1.1 IBM SPSS MODELER

SPSS Modeler je prediktivna analitična platforma, ki omogoča napredno uporabo široke

palete algoritmov za strojno učenje, podatkovno rudarjenje, analizo teksta itd. Uporabna je

pri grajenju modelov in drugih analitičnih nalog. Z grafičnim vmesnikom omogoča grafično

programiranje, kjer na mesto tekstovnega opisa uporabljamo grafične objekte.

SPSS Modeler se uporablja za:

- analize strank in upravljanju odnosov s strankami,

- odkrivanja in preprečevanja goljufij,

- izboljševanja kvaliteta proizvodnje,

- izboljševanja kvaliteta v zdravstvu,

- napovedovanje,

- analize v telekomunikacijah,…

6.1.2 Python Spyder

Python je visoko nivojski, dinamičen, objektno usmerjen programski jezik, ki ni odvisen od

strojne opreme in operacijskega sistema. Odlikuje ga berljiva sintaksa, modularnost, podpora

hierarhije paketov, učinkovito odkrivanje napak, razširljive standardne knjižnice in moduli,

podpora modulom napisanih v jezikih C in C++, ter sposobnost vključevanja v aplikacije

kot skriptni vmesnik [31]. Spyder je interaktivno Pythonovo razvojno okolje, s podobnimi

lastnosti, kot jih najdemo v okolju MATLAB.


47

6.2 Algoritem analize skupin

Kot glavni testni algoritem smo uporabiti model analize socialnih omrežij, ki je nastal na

podlagi dela Predicting Customer Churn in Mobile Networks through Analysis of Social

Groups (vir [32]).

6.3 Koraki algoritma

1. Izračun povezanosti oseb v omrežju

2. Ohranitev najpomembnejših relacij med enotami v omrežju (v nadaljevanju bomo

uporabljali izraz delež pokritosti)

3. Razdelitev omrežja na povezane skupine (velikost skupine [m;M])

4. Dodajanje zamudnikov.

5. Izvedba socialne analize v vsaki skupini posebej

6. Izračun značilk za vsako skupino posebej

7. Označitev skupin [32]

6.3.1 Izračun povezanosti oseb v omrežju

Omrežje je predstavljeno kot usmerjen graf, kjer vozlišča predstavljajo uporabnike

telekomunikacijskih storitev. V našem primeru relacija med uporabnikoma i in j obstaja, če

sta v določenem časovnem intervalu uporabnika i in j medsebojno komunicirala preko klicev

ali tekstovnih sporočil.

Če je število enakih oseb s katerimi sta dva uporabnika v stiku preko klicev ali sporočil

relativno visoko, potem je socialna povezanost teh dveh uporabnikov velika. Da lahko to

pretvorimo v uporabne vrednosti, uporabimo mero za podobnost in sicer skupno informacijo

[32].

Naprej sestavimo vektor 𝑉𝑖, kjer je 𝑉𝑖 [𝑡] = 1 , če je uporabnik 𝑖 bil v stiku z uporabnikom 𝑡,

drugače je 𝑉𝑖 [𝑡] = 0. 𝑁, dolžina vektorja 𝑉𝑖 je enaka številu različnih telefonskih številk v

naših podatkih [32].


48

Socialno povezanost poskušamo ujeti tako, da sestavimo 2x2 matriko 𝐶𝑖𝑗. Pri 𝐶𝑖𝑗(0,0)

štejemo število zapisov, kjer sta 𝑉𝑖 in 𝑉𝑗 enaka nič; 𝐶𝑖𝑗(0,1) število zapisov, kjer je 𝑉𝑖 enak

nič in 𝑉𝑗 enak ena; 𝐶𝑖𝑗(1,0) število zapisov, kjer je 𝑉𝑖 enak ena in 𝑉𝑗 enak nič; 𝐶𝑖𝑗(1,1) število

zapisov, kjer sta 𝑉𝑖 in 𝑉𝑗 enaka 1. 𝐶𝑖𝑗 normaliziramo s številom 𝑁, številom vseh telefonskih

številk in tako dobimo 𝑃𝑖𝑗 [32]. Pri dani skupni porazdelitvi, s pomočjo medsebojne

informacije, ki jo vsebuje 𝑃𝑖𝑗 izračunamo medsebojno socialno povezanost uporabnikov 𝑖 in

𝑗 [9].

0 , ' 1

( , ')( , ') log ,V 1

( ) ( ')( , j)

0 ,drugače

ij

ij ik ki j

P k kP k k j

P k P kS i

𝑃𝑖 in 𝑃𝑗 predstavljata robni porazdelitvi pridobljeni iz 𝑃𝑖𝑗. Specifično, 𝑃𝑖(0) je število

zapisov v 𝑉𝑖 ki so enaki nič, deljeno z 𝑁, 𝑃𝑖(1) pa je število zapisov 𝑉𝑖, ki so enaki ena,

deljeno z 𝑁. 𝑃𝑗 je definiran podobno. Zaradi lastnosti skupne informacije, je 𝑆(𝑖, 𝑗)

simetrična in ne negativna ter omejena s 𝑃𝑖 in 𝑃𝑗 [32].

Če sta uporabnika 𝑖 in 𝑗 v stiku preko klicev ali sporočil z natanko enakimi osebami, potem

je 𝑆(𝑖, 𝑗) maksimalna, z nižanjem števila takih enakih oseb, se primerno temu niža tudi 𝑆(𝑖, 𝑗)

in če uporabnika 𝑖 in 𝑗 nista v kontaktu z enakimi osebami, je 𝑆(𝑖, 𝑗) enaka nič [32].

6.3.2 Ohranitev najpomembnejših relacij med enotami v omrežju

Naš cilj je odkrivanje močno povezanih skupin, zato lahko povezave med posamezniki, ki

niso dovolj močno povezani, zanemarimo. To naredimo s parametrom 𝑝, ki lahko zavzame

vrednosti 0 ≤ 𝑝 ≤ 1, s katerim določimo delež povezav, ki jih želimo uporabiti pri analizi.

Za primer, 𝑝 = 0.1, nam omogoča, da ohranimo 10% najmočneje povezanih vozlišč, ostale

pa zanemarimo [32].


49

6.3.3 Razdelitev omrežja na povezane skupine

V tej fazi določimo najmanjšo in največjo dovoljeno število ljudi v posamezni skupini. Če

je skupina manjša od nastavljene, potem se takšna skupina zanemari, če pa je skupina večja

od dovoljene, pa se takšna skupina razdeli na več manjših, relativno tesno povezanih skupin

[32].

6.3.4 Dodajanje zamudnikov

Zaradi možnosti, da niso upoštevani pomembni člani skupne (korak 2: Ohranitev

najpomembnejših relacij med enotami v omrežju), za obstoječe skupine izračunamo

povezanost vsakega uporabnika do vsake skupine. Če je uporabnik zelo povezan s

posamezno skupino, se ga doda k tej določeni skupini. Pri tem pa se ne sme preseči

nastavljene maksimalne velikosti skupine [32].

6.3.5 Izvedba socialne analize v vsaki skupini posebej

Vsaka skupina je predstavljena kot usmerjen graf. Začnemo standarden slučajni sprehod, za

kar so bile uporabljene Markovske verige. V vsakem vozlišču 𝑣 z verjetnostjo 𝑝 (nastavljiv

parameter, v tem primer 𝑝 = 0.15), se premaknemo v naključno vozlišče. Preostala

verjetnost 𝑞 = 1 − 𝑝 je porazdeljena med prestala sosednja vozlišča 𝑣 v usmerjenem grafu.

Nadaljujemo s slučajnim sprehodom, dokler ne konvergiramo do stacionarne distribucije in

potem dodelimo vsakemu članu ustrezne verjetnosti v dodeljeni distribuciji. Dodeljena

vrednost bi morala biti v korelaciji s socialnim vplivom posameznika v skupini [32].

Markovski proces je slučajen proces {𝑋𝑡: 𝑡 ∈ 𝑇} z vrednostmi, oziroma stanji 𝑋𝑡 ∈ 𝑆, za

katerega pri poljubnih 𝐴 ⊆ 𝑆 in 𝑡1 < 𝑡2 < . . . < 𝑡𝑛 < 𝑡 velja

1 2 11 2Pr | , ... Pr |t t t t n t t nX A X x X x X x X A X x

Množico 𝑆 imenujemo prostor stanj, množico 𝑇 pa čas [23].


50

6.4 Struktura vhodnih podatkov

Vhodne podatke za modeliranje moramo preoblikovati v takšno obliko, da bodo uporabni za

modeliranje. Če hočemo da naš algoritem deluje, moramo podatke pripraviti tako, da

vsebujejo vsaj dva atributa in sicer pobudnika in sprejemnika posamezne povezave. Za

boljšo vrednotenje povezave, lahko dodamo še utež. Omrežje v našem primeru je v obliki

liste robov (ang. edge list), prikazano v tabeli 10.

Tabela 10: Format našega omrežja

Vsaka vrstica predstavlja povezavo med dvema uporabnikoma, z ustreznim vrednotenjem

razmerja, kjer posamezni podatkovni objekti predstavljajo:

- SOURCE: Identifikacijska številka posameznika, ki je pobudnik povezave.

- TARGET: Identifikacijska številka posameznika, ki je sprejemnik povezave.

- WEIGHT: Utež povezave, bodisi kot dolžina klica, število sporočil itd.

6.5 Vhod analize skupin

6.5.1 Binarna mera

Najpogostejša metoda uporabljena za definiranje povezav v socialnem omrežju, ki

predstavlja prisotnost povezave med dvema paroma vozlišč [30].

Če kot vhodno informacijo uporabimo binarno utež, potem v našem primeru pustimo atribut

uteži prazen. Vhodni podatek tako predstavlja usmerjeno povezavo med dvema osebama,

pri čemer imamo informacijo o tem, ali povezava obstaja ali ne. V našem primeru obstoj

povezave prikazuje sama vrstica, v kateri je posamezen pobudnik in sprejemnik povezave.

Preprost primer takšnega omrežja je prikazan na sliki 17, v podpoglavju 5.4.2.

SOURCE TARGET WEIGHT

1000026 1255799 0.1

1000068 1102689 0.2833

1000068 1113431 17.666


51

6.5.2 Frekvenca dogodkov

Če klice in sporočila obravnavamo kot enakovredna dogodka, potem lahko njuni frekvenci

med posameznima uporabnikoma seštejemo. Frekvenci obeh atributov seštejemo na nivoju

povezave med dvema osebama. Podoben primer takšnega usmerjenega omrežja je prikazan

na sliki 20 v podpoglavju 5.5, le da utež namesto minut, predstavlja seštevek frekvence

klicev in sporočil.

6.5.3 Seštevek sporočil in klicev

Pri tej uteži smo sešteli sporočila in klice, kjer je ena minuta klica, enaka šestim tekstovnim

sporočilom. Razmerje med klicem in tekstovnim sporočilom smo določi na podlagi razmerja

med povprečnim številom izgovorjenih besed v pogovoru in povprečnim številom besed v

tekstovnem sporočilu. V pri normalnem govoru, oseba v eni minuti v povprečju izgovori

med 140 in 180 besed [30], medtem ko pa tekstovno sporočilo v povprečju vsebuje nekje

med 20 in 44 besed (vira Tx.to in CM Telecom).

6.6 Nastavitveni parametri

Nastavljamo tri parametre in sicer:

- delež pokritosti,

- maksimalno velikost skupine in

- minimalno velikost supine.

6.6.1 Delež pokritosti

Skupine naj bi bile sestavljene iz posameznikov, ki so močno povezani z ostalimi člani

skupine, kjer uteži in relacije merijo podobnost posameznikov. Delež pokritosti definira

obseg najmočnejših povezav v omrežju, ki so uporabljene v analizi. Na primer, delež

pokritosti s koeficientom 0.2 pomeni, da bo samo 20% najmočnejših povezave med

uporabniki uporabljenih v analizi, ostali 80% pa ne. Delež pokritosti lahko zavzame

vrednosti med 0 in 1 [32].


52

6.6.2 Maksimalna in minimalna velikost skupine

Preostali uporabniki se lahko povežejo v zelo velike ali male skupine, ki pa imajo omejeno

možnost uporabe, zato določimo najmanjšo in največjo dovoljeno skupino. Velike skupine

se razdelijo na manjše, medtem ko se manjše izloči.

Na vhodu je potrebno primerno pripraviti podatke in nastaviti parametre tako, da je

povprečna gostota skupin velika, medtem ko pa je povprečna velikost skupin čim manjša,

torej majhne in močno povezne skupine.

6.7 Izhod analize skupin

Tabela 11: Izhod analize skupin

Na izhodu analize smo dobili polja, ki opisujejo skupine in posameznike v teh skupinah.

Pomembni polji, ki opisujejo karakteristike skupine, sta velikost skupine (GAG_Size), ki

nam pove koliko članov šteje posamezna skupina in njena gostota (GAG_Density), ki nosi

informacijo o povezanosti članov znotraj določene skupine. Ti dve meri smo tudi uporabili

kot kriterij za določanje optimalnih parametrov modela.

Zraven karakteristik, ki opisujejo lastnosti skupin, pa imamo tudi polja, ki predstavljajo

informacije o posameznikih znotraj skupin, te so:

- Avtoritetna ocena posameznika (GAI_RankOrderType1),

- razširjevalna ocena posameznika (GAI_RankOrderType2),

- vhodna stopnja (GAI_InDegree) in

- izhodna stopnja (GAI_OutDegree).

GAG_GroupNumber GAG_Size GAG_Density GAI_NodeNumber GAI_RankOrderType1 GAI_RankOrderType2 GAI_InDegree GAI_OutDegree

1 25 0.118 53665756492 16 7 2 5

1 25 0.118 53665786399 17 5 0 4


53

6.8 Določanje parametrov modela

Za določanje parametrov modela, smo na vhodu uporabili agregirane podatke, ki smo jih

dobili s strani telekomunikacijskega podjetja. Časovno okno vhodnih podatkov je dolžina

enega meseca. Določanje prametrov je potekalo v treh korakih, in sicer:

1. Določanje deleža pokritosti: Najprej smo izračunali najprimernejši delež pokritosti

za minimalno skupino 2 in maksimalno 100. Kriterij za izbiro najprimernejšega

deleža je bila povezanost in majhnost skupin. Na izhodu modela želimo majhne in

gosto povezane skupine.

2. Interval velikosti skupin: Na podlagi določenega deleža pokritosti v prejšnjem

koraku, smo izbrali parametre za minimalno in maksimalno velikost skupine. Za

minimalno velikost skupine smo izbrali 4, za maksimalno velikost pa 25. Za ta

interval smo se odločili, saj zajame največ uporabnikov, izhodna stopnja

posameznega vozlišča je največja in obstaja največ različnih velikosti skupin, med

možnimi izbirami. Izbirali smo med interval skupin:

- minimalna 4, maksimalna 20




Minimalni in maksimalni parameter velikosti skupin, ki smo ga določili tukaj, smo

uporabili tudi pri vseh ostalih modelih.

3. Določanje deleža pokritosti za izbrano minimalno in maksimalno vrednost skupine:

Za izbrani interval velikosti skupin, smo določili najprimernejši delež pokritosti, z

enakimi kriteriji kot v prvem koraku, da so skupine čim manjše in tesno povezane.


54

6.8.1 Določanje deleža pokritosti za izbrano velikost skupine

Za utež na vhodu modela smo uporabili seštevek frekvence klicev in sms sporočil med

dvema uporabnikoma. Uporabili smo parameter za maksimalno in minimalno velikost

skupin, ki smo jih določili v podpoglavju 6.8, z minimalno vrednostjo 4 in maksimalno 25.

Za to minimalno in maksimalno velikost skupin, smo izračunali optimalni delež pokritosti,

ki pri kriteriju naj bodo skupine čim manjše znaša 9%, za povezanost skupin pa 16%, kar

prikazuje slika 26. Ker je gostota povezanosti posameznih članov pomembnejši parameter

kot velikost skupine, se odločimo za slednjega.

Slika 26: Določanje deleža pokritosti za frekvenco dogodkov


55

Na enak način, kot smo določili parametre modela pri vhodnih podatkih seštevka frekvence

klicev in sporočil, smo določili tudi pri binarnih vhodnih podatkih in seštevku sporočil in

klicev.

6.8.2 Optimalni parametri glede na delež uporabnikov

Vhodni podatki: Frekvenca klicev

Minimalna dovoljena velikost skupine: 4

Maksimalna dovoljena velikost skupine: 25

Tukaj modelov nismo ocenjevali po povprečni velikosti skupin in njihovi povezanosti,

ampak po deležu uporabnikov, ki zamenjajo operaterja v določeni populaciji uporabnikov.

Na sliki 27 vidimo, da je največji delež uporabnikov v populaciji, ki menja operaterja pri 6%

deležu pokritosti. Populacija je v našem primeru število vseh uporabnikov znotraj vseh

skupin, kjer je uporabnik, ki menja operaterja, po avtoritetni lestvici razvrščen višje od 25%

v posamezni skupini.

Slika 27: Delež populacije, ki menja operaterja v odvisnosti od deleža pokritosti


56

V nadaljevanju smo pri opisovanju rezultatov uporabili samo modele katerih parametre smo

določili na podlagi razmerja uporabnikov. Optimalen delež pokritosti smo na enak način še

izračunali za binarne podatke in seštevek sporočil in klicev.


57

7 REZULTATI

Za nastavitve parametrov modela smo uporabili agregirane podatke s časovnim oknom

enega meseca. Za določen tip podatkov (različne uteži) smo nastavili optimalne parametre

posameznega modela, glede na tip uteži na vhodu. Na izhodu teh modelov smo dobili polja,

ki vsebujejo informacije o skupinah in posameznikih znotraj skupin, predvsem pomembna

za nas sta avtoritetna in razširjevalna ocena. Te podatke smo združili s podatki o odhodih

strank k drugim operaterjem.

Podatki na vhodu v model in podatki o odhodih strank, imajo časovno okno enega meseca,

vendar se časovno razlikujejo. Podatki, ki so pripeljani na vhod, so mesec dni starejši od

podatkov o odhodih strank. Primer: Če so vhodni podatki našega modela za mesec februar,

potem vzamemo podatke o odhodu strank za mesec marec.

Če podatkov ne uporabimo tako, ne dobimo pravilnih informacij o skupinah, ki so predmet

naše obravnave. Razlog je v tem, da različni uporabniki zapustijo operaterja v različnih delih

meseca in ne dobimo popolnih podatkov o komunikacijskih vzorcih teh posameznikov. Če

bi bili vhodni podatki modela in podatki o odhodih strank tipa enakega meseca, potem ne bi

dobili relevantnih skupin v katerih so uporabniki, ki menjajo operaterja in naša analiza ne bi

bila pravilna.

Spomnimo se, da smo v podpoglavju 5.5.3 in 5.5.4 omenili avtoritetno in razširjevalno

razvrstitev. Prva je mera, ki je odvisna od števila uporabnikov, ki kontaktirajo določeno

osebo, medtem ko razširjevalna ocena meri, koliko oseb posamezen uporabnik kontaktira.

Grafični prikaz obeh mer lahko vidimo na sliki 28.

Slika 28: Avtoritetna in razširjevalna ocena


58

7.1 Uporabljene vrednosti na grafih

Deleža pokritosti ne bomo posebej predstavljali, saj smo ga že omenili v podpoglavju 6.6.1.

Omenimo naj, da nam pove delež povezav med uporabniki, ki je bil uporabljen pri analizi.

7.1.1 Avtoritetna in razširjevalna razvrstitev

Uporabimo vrednost, ki jo dobimo kot rezultat na izhodu algoritma analize socialnega

omrežja markovskega procesa. Atribut lahko zavzame vrednosti med 0 in 1, odvisno od tega

kako visoko je razvrščena posamezna oseba.

Za vsako skupino, kjer je prisoten uporabnik, ki zamenja operaterja, smo izračunali

maksimalno vrednost avtoritetne in razširjevalne ocene takega uporabnika za posamezno

skupino. Če je v posamezni skupini prisotnih več takšnih uporabnikov, uporabimo samo

najvišjo vrednost.

Razširjevalni oceni, ki zavzameta vrednost med 0 in 1 razdelimo na štiri enake dele (ker

najmanjša skupina šteje štiri člane). Vsaka skupina zajame delež razvrstitve in sicer:

- [4% - 25%]

- (25% – 50%]

- (50% – 75%]

- (75% – 100%]

Če razporedimo intervalne skupine po vplivu uporabnikov, ki zamenjajo operaterja znotraj

skupin, potem velja; (75% – 100%] < (50% – 75%] < (25% – 50%] < [4% - 25%] . Znotraj

[4% - 25%] skupin so prisotni najbolj vplivni uporabniki, v skupinah (75% – 100%] pa

najmanj.

Vrednost 0 ne uporabimo, saj v teh skupinah ni uporabnikov, ki v določenem časovnem

obdobju spremenijo operaterja in niso naš fokus.


59

7.1.2 Število dodatnih odhodov uporabnikov

Vrednost smo izračunali tako, da smo za posamezno skupino izračunali skupno število

uporabnikov, ki so v posameznem obdobju zamenjali operaterja in nato odšteli enega

takšnega uporabnika v vsaki taki skupni. Tako smo dobili število uporabnikov, ki v

posamezni skupni še dodatno spremenijo operaterja.

S to vrednostjo predstavimo avtoritetni in razširjevani vpliv na število menjav operaterja v

posamezni skupini.

7.2 V tem poglavju smo analizirali vpliv uteži in deleža pokritosti

7.2.1 Razširjevalna razvrstitev

Slika 29: Delež populacije, ki marca dodatno menja operaterja

Graf na sliki 29 prikazuje delež uporabnikov v populaciji, ki v marcu dodatno menjajo

operaterja. Od vseh vhodnih podatkov, so najugodnješi seštevek klicev in sporočil, kjer delež

takšnih ljudi znaša 2,657%.


60

Slika 30: Razširjevalna razvrstitev. Utež: seštevek sporočil in klicev

Stolpčni grafikon (zelena) na sliki 30 prikazuje število uporabnikov, ki v določeni populaciji

uporabnikov marca dodatno zamenjajo operaterja. Na x osi so prikazane štiri skupine po

razširjevalni razvrstitvi, opisano že v podpoglavju 7.1.1.

Vidimo, da nižje kot so uporabniki na razširjevalni lestvici, manj uporabnikov v posamezni

skupini dodatno menjat operaterja. Na spodnjem grafu (modra) na sliki 30, lahko vidimo

kakšen je delež takšnih uporabnikov. Delež teh uporabnikov se niža z nižanjem prisotnih

vplivnih uporabnikov v skupinah.


61

7.2.2 Avtoritetna razvrstitev

Slika 31: Delež populacije, ki marca dodatno menja operaterja

Graf na sliki 31 prikazuje delež uporabnikov v populaciji, ki v marcu dodatno menjajo

operaterja. Od vseh vhodnih podatkov, so najugodnješi seštevek klicev in sporočil, kjer delež

takšnih ljudi znaša 2,82%. Vidimo, da je delež večji kot pri razširjevalni razvrstitvi.


62

Slika 32: Avtoritetna razvrstitev. Utež: seštevek klicev in sporočil




Vidimo, da nižje kot so uporabniki na avtoritetni lestvici, manj uporabnikov v posamezni

populaciji dodatno menjat operaterja. Na spodnjem grafu na sliki 32, lahko vidimo kakšen

je delež takšnih uporabnikov. Delež teh uporabnikov se niža z nižanjem prisotnih vplivnih

uporabnikov v skupinah.

Vidimo, da so rezultati podobni kot pri razširjevalni razvrstitvi, le da je delež populacije, ki

menja operaterja tukaj ugodnejši.


63

7.2.3 Avtoritetna razvrstitev (marec – junij)

Slika 33: Delež populacije, ki med marcem in junijem dodatno menja operaterja

Graf na sliki 33 prikazuje delež uporabnikov v populaciji, ki med marcem in junijem dodatno

menjajo operaterja. Od vseh vhodnih podatkov, so najugodnješi seštevek frekvence klicev

in sporočil, kjer delež takšnih ljudi znaša 4,555%. Če so bili v mesecu marcu najugodnejši

vhodni podatki kot seštevek klicev in sporočil, so za obdobje od marca do junija seštevek

frekvence klicev in sporočil.


64

Slika 34: Avtoritetna razvrstitev. Utež: seštevek frekvence klicev in sporočil




Vidimo, da nižje kot so uporabniki na avtoritetni lestvici, manj uporabnikov v posamezni

skupini dodatno menjat operaterja. Na spodnjem grafu na sliki 34, lahko vidimo kakšen je

delež takšnih uporabnikov. Delež teh uporabnikov se niža z nižanjem prisotnih vplivnih

uporabnikov v skupinah.


65

7.3 Primerjava deležev

Tabela 12 prikazuje delež uporabnikov ki menja operaterja v populacij.

- Podatki o uporabnikih, predstavlja podatke, kot smo jih dobili telekomunikacijskega

podjetja.

- Izhod analize skupin, predstavlja podatke, ki so uporabljeni pri analizi skupin.

- Razširjevalna in avtoritetna razvrstitev predstavlja populacijo skupin, v katerih je

uporabnik razvrščen na intervalu [4% - 25%] po vplivnosti za podatke frekvence

sporočil in klicev.

Tabela 12: Delež populacije

Kot smo predstavili v prejšnjih poglavjih, dobimo pri avtoritetna razvrstitvi bolj ugodne

rezultate kot pri razširjevalni.

Ob primerjavi Izhod analize skupin in Avtoritetno razvrstitev za mesec marec, vidimo, da je

delež populacije razvrstitve več kot tri krat višji kot v populaciji analize skupin. Lahko

rečemo, da Avtoritetna razvrstitev zajame del populacije, na katerem je večja možnost

odhoda uporabnika, kot na celotni populaciji.

Ob primerjavi Izhod analize skupin in Avtoritetno razvrstitev za časovno obdobje med

aprilom in junijem, pa vidimo, da so vrednosti skoraj enake. Razvrstitve ne zajamejo veliko

večjega dela populacije, na katerem bi bila možnost odhoda uporabnika večja, kot na celotni

populaciji.

Podatki o uporabnikih Izhod analize grup Razširjevalna razvrstitev [4% - 25%] Avtoritetna razvrstitev [4% - 25%]

Delež populacije, ki menjaa operaterja (marec) 0.96% 0.77% 2.35% 2.73%

Delež populacije, ki menjaa operaterja (april - junij) 1.72% 1.33% 1.77% 1.82%

Delež populacije, ki menjaa operaterja (marec - junij) 2.68% 2.10% 4.11% 4.55%


66

7.4 Skaliranje frekvence sporočil in klicev za posameznega uporabnika

Slika 35: Skalirana vrednost uteži

Za vsakega posameznika, ki menja operaterja smo skalirali njegovo vrednost uteži tako, da

smo dobili vrednosti v razponu med 0 in 1. Skalirali smo vsako usmerjeno uteženo povezavo

od posameznika do uporabnika, ki v marcu menja operaterja in je po avtoritetni razvrstitvi

razvrščen na intervalu [4% - 25%] v svoji skupini.

max

'X

XX

Tu je:

𝑋′ - skalirana vrednost

𝑋 - vrednost uteži med osebo in uporabnikom, ki menja operaterja

𝑋𝑚𝑎𝑥 - maksimalna vrednost uteži uporabnika, ki menja operaterja v marcu

Če naše rezultate primerjamo z deli drugih [32], kjer je krivulja dviga (angl. Lift Curve)

izračunana na najvišjem procentu populacije, ki jo predlaga sistem in najvišja vrednost znaša

8, ter [6], kjer je najvišja krivulja dviga 6, izračunana na 5% populacije in časovnim oknom

enega meseca.


67

S krivuljo dviga se ocenjuje uspešnost modela, kjer velja splošno pravilo, če je krivulja dviga

višja kot 4 v najvišjem procentu populacije, ki ga predlaga sistem, se smatra kot zelo

pomemben. Primer, če ima krivulja dviga vrednost 4 pri 1% najvišje uvrščenih naročnikov,

ki jih predlaga napovedni sistem, potem pričakujemo, da je v tej populaciji štiri krat več

ljudi, ki zamenjajo operaterja, kot pri 1% naključnem vzorcu populacije [32].

Naši rezultati so prikazani na sliki 35 in sicer v populaciji za časovno okno enega meseca

(marec) je pri skalirni vrednosti 0,150, 7,79 krat (velikost populacije glede na celotno je

0.48%) več strank, ki zamenja operaterja, kot v naključno izbrani populaciji.

Najvišje vrednosti dobimo pri 0,14% populacije glede na celotno in skalirnem faktorju 0,9.

Za časovno obdobje med marcem in julijem 7,28 krat večja možnost odhoda stranke, kot v

naključno izbrani populaciji, medtem ko pa je za marec ta vrednost 15,09.


68

8 SKLEP

Rezultati, ki smo jih dobili so v veliki meri odvisni od uteži, na vhodu v model in nastavljenih

parametrov modela. Utež bi lahko nastavili tudi drugače, odvisno od ciljev. Na primer, če bi

bile naš fokus osebe, ki pošljejo veliko tekstovnih sporočil, potem bi lahko utež na vhodu

modela vsebovala samo podatke o tekstovnih sporočilih ali kot razmerje sporočil in klicev,

kjer bi sporočilom določili višjo vrednost. V našem primeru smo poskušali čim bolj

relevantno združiti sporočila in klice tako, da odražajo moč posameznega razmerja. Seveda

vemo, da je težko določiti natančno utež, saj se uporabniške navade razlikujejo od

uporabnika do uporabnika.

Glede na to, da so bili vhodni podatki dolžine enega meseca, bi lahko v prihodnje za vsak

mesec, naredili takšno analizo kot v našem primeru za mesec marec in rezultate združili.

Tako bi lahko dobili precej natančnejše napovedi odhodov strank. V našem delu smo

uporabili vhodne podatke za model analize omrežja s časovnih oknom enega meseca,

katerega bi bilo smiselno zmanjšat ali povečat, ter primerjati dobljene rezultate.

V tem delu, smo vse skupine uporabnikov smatrali kot homogene, v prihodnje bi pa lahko

posameznike razdelili na različne segmente, glede na kriterije zanimanja, ki bi lahko bili od

različnih komunikacijskih vzorcev tekstovnih sporočil, klicev… do demografije, itd.

Kot smo videli, smo pri skaliranju vrednosti dobili dobre rezultate, tako da bi bilo morda

smiselno normalizirat podatke pred vhodom v model, kasneje pa morda uporabiti še kakšne

druge vrste normalizacij ali metode SPA ...

Pri omejitvah dela je vredno poudariti, da so podatki, ki smo jih imeli na voljo za obdelavo

samo od uporabnikov enega telekomunikacijskega operaterja, tako da pri oceni menjave

operaterja ne moremo vključiti vpliva uporabnikov iz drugih omrežij. Časovnih podatkov o

zamenjavah operaterja posameznih uporabnikov nismo imeli, tako da smo pri avtoritetni in

razširjevalni lestvici uporabili najvišje razvrstitve takšnih uporabnikov v posameznih

skupinah. Ob znanem točnem času odhoda posameznega uporabnika, bi lahko slednjega


69

upoštevali pri naši razvrstitvi, tako da bi uporabili uporabnika, ki je v določenem časovnem

obdobju prvi v skupini zamenjal operaterja.

Cilj dela je bil pokazati možnost, da so lahko matematični postopki teorije grafov uporabljeni

v okviru napovedi odhoda stranke kot samostojni napovedni sistem oziroma, da imajo

potencialno informacijsko vrednost kot dodatni KPI (ključni kazalniki uspešnosti) ali

značilke (angl features) pri že obstoječih napovednih modelih. Pokazali smo, da so lahko

matematični postopki teorije grafov skupaj z normalizacijo uteži uporabnikov lahko

primerni za napoved odhodov strank kot samostojen napovedni sistemi, kar posledično lahko

pomeni, da bi lahko bili podatki ob primerni obdelavi primerni kot KPI na vhodu takega

sistema.

Iz podatkov lahko sklepamo, da osebe ki so v stiku z uporabniki, ki menjajo operaterja in so

po izračunu povezanosti zelo blizu ter imajo hkrati visoko normalizacijsko vrednost (glede

na uporabnika, ki menja operaterja) večjo verjetnost menjave operaterja, kot naključno

izbrani del populacije uporabnikov mobilnega operaterja.

Če primerjamo naše delo z delom drugih mobilnih operaterjev na slovenskem prostoru,

potem vidimo, da v je našem delu krivulj dviga višja. V viru [14] je bil pripravljen difuzijski

model, kjer je bil dosežen dvig 4,1 pri 5% zajete celotne populacije, napovedni model

vplivnih uporabnikov z dvigom 1,8 glede na 20% delež celotne populacije in hibridnega

modela, kjer je dosežen maksimalni dvig za TP (pravilno pozitivne primere) okrog 1,3 glede

na 5% zajete populacije. Kljub temu da je pri našem delu krivulja dviga dosega vrednosti do

15, pri manjšem deležu populacije, moramo poudariti, da naš model ni napovedni model,

ampak samo prikazuje delež uporabnikov, ki dodatno zapustijo mobilnega operaterja znotraj

določene populacije. Namreč za uporabnike, ki menjajo operaterja, smo uporabili

najvplivnejše uporabnike in ne njihovega časovnega odhoda, saj tega podatka nismo imeli

na voljo.

Ob primerjavi našega dela (relacijski pristop) z nerelacijskimi metodami strojnega učenja

lahko vidimo v virih [8], kjer je hibridni napovedni model zgrajen iz naključnih gozdov (angl


70

random forests) in gručenja (angl clustering) dosežen dvig 2.8 za 10% populacije. Z uporabi

AddBoost algoritma in logistične regresije v delu vira [40], pa 2.83 dvig na 10% populacije.


71

VIRI IN LITERATURA

[1] Aggarwal, C. Data Mining: The Textbook. Springer, 2015.

[2] Aggarwal, C. Outlier Analysis. New York: Springer, 2013.

[3] Alani, M., M., Guide to OSI and TCP/IP Models. Springer, 2014.

[4] Albert-László, B. Network Science. 2012.

[5] Azevedo, A., Santos, M. F., KDD, SEMMA and CRISP-DM: a parallel overview. In

Proceedings of the IADIS European Conference on Data Mining 2008, (2008), str. 182-

185.

[6] Backiel, A. Predicting time-to-churn of prepaid mobile telephone customers using

social network analysis. Journal of the Operational Research Society. (2016).

[7] Backiel, A., Verbinnen, Y., Baesens, B., Claeskens, G. Combining Local and Social

Network Classifiers to Improve Churn Prediction. IEEE/ACM International Conference on

Advances in Social Networks Analysis and Mining 2015, (2015), str. 651-658.

[8] Bose, I., Chen, X. Hybrid Models Using Unsupervised Clustering for Prediction of

Customer Churn. Journal of Organizational Computing and Electronic Commerce, 19,

(2009), 2, str. 133-151.

[9] Cover, M., T., Joy A., T., Elements of Information Theory, Second Edition. New-York:

John Wiley & Sons, 2006.

[10] Cox, C. An Introduction to LTE: LTE, LTE-Advanced, SAE and 4G Mobile

Communications. A John Wiley & Sons, 2012

[11] Cox, C. Essentials of UMTS. Cambridge University Press, 2008.

[12] Dasgupta, K., Singh, S., Viswanathan, B., Chakraborty, D., Mukherjea, S., Nanavati

A. Social ties and their relevance to churn in mobile telecom networks. EDBT '08

Proceedings of the 11th international conference on Extending database technology:

Advances in database technology. (2008), str. 668-677.

[13] Doyle, J. Estimating Movement from Mobile Telephony Data. Ireland: Department of

Electronic Engineering National University of Ireland Maynooth, 2014.

[14] Droftina, U. Napovedovanje izgube strank ponudnika telekomunikacijskih storitev na

osnovi modela uporabnika in socialnega vpliva omrežnih sosedov. Ljubljana: Fakulteta za

elektrotehniko Univerze v Ljubljani, 2015.

[15] Forrester, D., B. Dependency. Edinburg: AnVi OpenSource Knowledge Trust, 1988.

http://eprints.maynoothuniversity.ie/5400/1/John%20Doyle%20PHD%20Thesis.pdf


72

[16] Han, J., Kamber, M., Pei, J. Data Mining: Concepts and Techniques (3rd Edition).

Massachusetts: Elsevier, 2011.

[17] Hasmi, N., Butt, N., A. Customer Churn Prediction in Telecommunication: A Decade

Review and Classification. IJCSI International Journal of Computer Science Issues, 10,

(2013), 2, str. 271-282.

[18] Hawkins, D. Identification of Outliers. Chapman and Hall, (1980).

[19] IBM Corporation, IBM SPSS Modeler Social Network Analysis 15 User Guide. 2012.

[20] IBM Corporation, Introduction to IBM SPSS Modeler and Data mining. 2010.

[21] Korhonen, J. Introduction to 3G Mobile Communications, Second Edition. Boston,

London: Artech House, 2003.

[22] Korhonen, J. Introduction to 4G Mobile Communications-Artech House. Boston,

London: Artech House, 2014.

[23] Košir, A. Opearcijske raziskave v telekomunikacijah. Ljubljana: Založba FE in FRI,

2013.

[24] Lescuyer, P. UMTS: Origins, Architecture and the Standard. Springer-Verlag London

Ltd., 2004.

[25] Mattison, R. Telecom Churn Management. Illinois: XiT Press, 2005.

[26] Mauro, A., Greco M., Grimaldi, M. A formal definition of Big Data based on its

essential features. Library Review, 65, (2016), 3, str. 122-135.

[27] Mozer, M., C., Wolniewicz, R., Grimes, D., B., Johnson E., Kaushansky H. Predicting

Subscriber Dissatisfaction and Improving Retention in the Wireless Telecommunications

Industry. IEEE TRANSACTIONS ON NEURAL NETWORKS, 11, (2000), 3, str. 690-696.

[28] Pang-Ning, T., Steinbach, M., Kumar V. Introduction to Data Mining. Pearson, 2005.

[29] Petersen, J. The Telecommunications Illustrated Dictionary, Second Edition. Boca

Raton: CRC PRESS, 2002.

[30] Pinherio, C. Social Network Analysis in Telecommunication. New Jersey: John Wiley

& Sons, 2011.

[31] Python. Dostopno na: http://www.python.org/about/ [20. 6. 2016].

[32] Richter, Y., Yom-Tov, E., Slonim, N. Predicting customer churn in mobile networks

through analysis of social groups. Proceedings of the 2010 SIAM international conference

on data mining, (2010), str. 732-741.

http://www.python.org/about/


73

[33] Shearer C., The CRISP-DM Model: The new blueprint for Data Mining. Journal of

Data Warehousing, 5 (2000), 4, str. 13-22.

[34] Suthaharan, S. Machine Learning Models and Algorithms for Big Data Classification.

Springer, 2016.

[35] Vafeiadis, T., Diamantaras, K., I., Sarigiannidis, G., Chatzisavvas, K. A comparison of

machine learning techniques for customer churn prediction. Simulation Modelling Practice

and Theory, 55, (2015), str. 1–9.

[36] Witten, H., I., Eibe, F., A., Hall, M. DATA MINING: Practical Machine Learning

Tools and Techniques. Third Edition. Massachusetts: Elsevier, 2011.

[37] Wong, P., C., Shen, H., W., Johnson, C. R., Chen C., Ross, R. B. The top 10 challenges

in extreme-scale visual analytics. Computer Graphics and Applications IEEE, 32, (2012), 4,

str. 63-67.


Priloga A

ANALIZA SOCIALNEGA OMREŽJA NA PODLAGI ZAPISOV …

Documents

Transcript of ANALIZA SOCIALNEGA OMREŽJA NA PODLAGI ZAPISOV …