ANALIZA SOCIALNEGA OMREŽJA NA PODLAGI ZAPISOV …
Transcript of ANALIZA SOCIALNEGA OMREŽJA NA PODLAGI ZAPISOV …
UNIVERZA V MARIBORU
FAKULTETA ZA ELEKTROTEHNIKO,
RAČUNALNIŠTVO IN INFORMATIKO
FAKULTETA ZA STROJNIŠTVO
Rok Kozel
ANALIZA SOCIALNEGA OMREŽJA NA PODLAGI ZAPISOV PODATKOV O KLICIH
Magistrsko delo
Maribor, junij 2016
ANALIZA SOCIALNEGA OMREŽJA NA PODLAGI
ZAPISOV PODATKOV O KLICIH
Magistrsko delo
Študent: Rok Kozel
Študijski program: študijski program 2.stopnje
Mehatronika
Mentor FERI: red. prof. dr. DUŠAN GLEICH
Mentor FS: doc. dr. UROŠ ŽUPERL
Somentor: mag. IZTOK ŠERBEC
ii
iii
iv
v
ZAHVALA
Zahvaljujem se mentorjema red. prof. dr. Dušanu Gleichu
in doc. dr. UROŠ ŽUPERL za pomoč in vodenje pri
izdelavi magistrskega dela.
Zahvaljujem se tudi somentorju mag. Iztoku Šerbecu,
Gregu Jerkiču in vsem ostalim zaposlenim v podjetju
IN516HT za vso podporo brez katerih izvedba
raziskovalnega dela ne bi bila mogoča. Zahvalil bi se tudi
podjetju Si.Mobil, še posebej univ. dipl. ekon. Elvirju
Mujkiću za pomoč in dostop do mobilnih podatkov.
Posebna zahvala velja staršem, ki so mi študij omogočili in
me skupaj s sestro ves čas podpirali.
vi
vii
ANALIZA SOCIALNEGA OMREŽJA NA PODLAGI ZAPISOV
PODATKOV O KLICIH
Ključne besede: mobilno omrežje, analiza omrežja, odhod uporabnika, podatkovna znanost
UDK klasifikacija: 004.6:004.7(043.2)
POVZETEK
V tem delu se ukvarjamo z analizo podatkov, ki jih generira končni uporabnik v mobilnem
omrežju. Pokazati želimo možnost priprave podatkov za modeliranje ter predlagati nov
način nastavitve optimalnih parametrov modela. Iz podatkov smo izluščili informacije s
pomočjo metod rudarjenja, kjer smo želeli pridobiti informacije o aktivnih in neaktivnih
uporabnikih v določenem deležu populacije. Cilj je preizkusiti metode rudarjenja pri
določeni topologiji omrežja in preveriti ustreznost modelov za določenega mobilnega
operaterja. Predlagamo še pripravo izhodnih podatkov modela ter rezultate vizualiziramo,
ovrednotimo in jih primerjamo s prehodnimi deli.
viii
SOCIAL NETWORK ANALYSIS ON A BASIS OF A CALL DETAIL
RECORDS
Key words: mobile network, network analysis, churn, data science
ABSTRACT
In this dissertation we are dealing with analysis of the data generated by end user in mobile
network. We want to show possibility of preparing the data for modeling and propose a new
way of setting optimal parameters for the model. From data we extracted information using
data mining methods, where we want to obtain information on active and inactive user in
specified proportion of population. The aim is to test mining methods in particular network
topology and verify if our models are appropriate for particular mobile operator. We suggest
further preparation data from model output and visualize results, evaluate and compare
them to previous work.
ix
KAZALO
1 UVOD ......................................................................................................... 1
1.1 Analiza razlogov za zamenjavo mobilnega operaterja ...............................................2
1.2 Umestitev dela..........................................................................................................2
1.3 Cilji ..........................................................................................................................3
2 PODATKOVNA ZNANOST IN BIG DATA ........................................... 4
2.1 BIG DATA ..............................................................................................................4
2.1.1 Podatki in znanje ...............................................................................................5
2.1.2 Velikost podatkov ..............................................................................................6
2.2 CRISP-DM proces....................................................................................................7
2.2.1 Razumevanje problema......................................................................................9
2.2.2 Razumevanje podatkov .................................................................................... 10
2.2.3 Priprava podatkov ............................................................................................ 10
2.2.4 Modeliranje ..................................................................................................... 10
2.2.5 Vrednotenje ..................................................................................................... 11
2.2.6 Uporaba v praksi ............................................................................................. 11
2.2.7 Kontrola .......................................................................................................... 11
3 OPIS, RAZUMEVANJE IN ČIŠČENJE PODATKOV ........................ 12
3.1 Podatkovni objekti in atribut ................................................................................... 12
3.2 Tip spremenljivk .................................................................................................... 12
3.3 Opis naših vhodnih podatkov.................................................................................. 13
3.3.1 Zapis podatkov o klicih.................................................................................... 13
3.3.2 Opis datoteke zapisov podatkov o klicih .......................................................... 14
3.3.3 Opis datoteke informacije o uporabnikih .......................................................... 15
3.4 Osnovne statistične metode za opis značilk ............................................................. 16
x
3.4.1 Frekvenca in najpogostejša vrednost ............................................................... 16
3.5 Osnovne opisne statistike za numerične tipe ........................................................... 17
3.5.1 Povprečje ........................................................................................................ 17
3.5.2 Mediana .......................................................................................................... 17
3.5.3 Standardni odklon ........................................................................................... 18
3.5.4 Varianca .......................................................................................................... 18
3.5.5 Koeficient simetrije ......................................................................................... 18
3.5.6 Koeficient sploščenosti.................................................................................... 19
3.5.7 Osnovne opisne statistike uporabnikov mobilnega omrežja in njihovih storitev20
3.6 Čiščenje podatkov .................................................................................................. 21
3.6.1 Izstopajoče vrednosti ....................................................................................... 21
4 UMTS topologija omrežja....................................................................... 22
4.1 Komunikacijsko omrežje ....................................................................................... 22
4.1.1 Radijsko dostopovno omrežje (UTRAN) ......................................................... 23
4.1.2 Osrednje omrežje ............................................................................................ 24
4.2 Vodovna in paketna komutacija ............................................................................. 25
4.3 Zapis podatkov o klicih .......................................................................................... 26
4.4 Komunikacijski protokoli ....................................................................................... 27
4.4.1 OSI ................................................................................................................. 27
4.5 Prenos glasovnega klica ......................................................................................... 29
4.6 LTE topologija omrežja ......................................................................................... 31
5 TEORIJA GRAFOV ............................................................................... 33
5.1 Virtualnost in transparentnost................................................................................. 34
5.2 Tipi predstavitve povezav uporabnikov v mobilnem omrežju ................................. 35
5.2.1 Graf ................................................................................................................ 35
5.2.2 Matrika sosednosti .......................................................................................... 35
xi
5.3 Stopnja, usmerjenost in ocenjenost povezave .......................................................... 36
5.3.1 Vhodna stopnja ................................................................................................ 37
5.3.2 Izhodna stopnja................................................................................................ 37
5.4 Tipi grafov ............................................................................................................. 38
5.4.1 Neusmerjen neutežen graf ................................................................................ 38
5.4.2 Usmerjen graf .................................................................................................. 38
5.4.3 Neusmerjen utežen graf ................................................................................... 39
5.4.4 Graf z zankami ................................................................................................ 39
5.5 Graf klicev ............................................................................................................. 40
5.6 Opisovanje grafov .................................................................................................. 41
5.6.1 Gostota povezanosti skupine ............................................................................ 41
5.6.2 Stopnja povezanosti ......................................................................................... 42
5.6.3 Avtoritetna ocena vozlišča ............................................................................... 43
5.6.4 Razširjevalni ocena vozlišča ............................................................................ 44
5.7 Določanje podobnosti ............................................................................................. 44
6 MODELIRANJE ..................................................................................... 46
6.1 Programski paketi ................................................................................................... 46
6.1.1 IBM SPSS MODELER .................................................................................... 46
6.1.2 Python Spyder ................................................................................................. 46
6.2 Algoritem analize skupin ........................................................................................ 47
6.3 Koraki algoritma .................................................................................................... 47
6.3.1 Izračun povezanosti oseb v omrežju ................................................................. 47
6.3.2 Ohranitev najpomembnejših relacij med enotami v omrežju ............................ 48
6.3.3 Razdelitev omrežja na povezane skupine ......................................................... 49
6.3.4 Dodajanje zamudnikov .................................................................................... 49
6.3.5 Izvedba socialne analize v vsaki skupini posebej ............................................. 49
xii
6.4 Struktura vhodnih podatkov ................................................................................... 50
6.5 Vhod analize skupin ............................................................................................... 50
6.5.2 Frekvenca dogodkov ....................................................................................... 51
6.5.3 Seštevek sporočil in klicev .............................................................................. 51
6.6 Nastavitveni parametri ........................................................................................... 51
6.6.1 Delež pokritosti ............................................................................................... 51
6.6.2 Maksimalna in minimalna velikost skupine ..................................................... 52
6.7 Izhod analize skupin .............................................................................................. 52
6.8 Določanje parametrov modela ................................................................................ 53
6.8.1 Določanje deleža pokritosti za izbrano velikost skupine .................................. 54
6.8.2 Optimalni parametri glede na delež uporabnikov ............................................. 55
7 REZULTATI ........................................................................................... 57
7.1 Uporabljene vrednosti na grafih ............................................................................. 58
7.1.1 Avtoritetna in razširjevalna razvrstitev ............................................................ 58
7.1.2 Število dodatnih odhodov uporabnikov ........................................................... 59
7.2 V tem poglavju smo analizirali vpliv uteži in deleža pokritosti ............................... 59
7.2.1 Razširjevalna razvrstitev ................................................................................. 59
7.2.2 Avtoritetna razvrstitev ..................................................................................... 61
7.3 Primerjava deležev ................................................................................................. 65
7.4 Skaliranje frekvence sporočil in klicev za posameznega uporabnika....................... 66
8 SKLEP ..................................................................................................... 68
VIRI IN LITERATURA ............................................................................ 71
xiii
KAZALO SLIK
Slika 1: Pretvorba podatkov v znanje [34] ..........................................................................5
Slika 2: Velikost podatkov .................................................................................................6
Slika 3: Faze CRISP-DM procesa ......................................................................................9
Slika 4: Koeficient simetrije ............................................................................................. 19
Slika 5: Poenostavljen prikaz mobilnega omrežja [11] ..................................................... 22
Slika 6: Radijsko dostopovno omrežje [11] ...................................................................... 23
Slika 7: Osrednje omrežje [11] ......................................................................................... 24
Slika 8: Omrežna arhitektura in CDR zapis [24] ............................................................... 26
Slika 9: OSI referenčni model [11] ................................................................................... 28
Slika 10: Uporabniški nivo protokolnega sklada glasovnega klica v 99 izdaji skupaj z tokom
podatkov .......................................................................................................................... 30
Slika 11: LTE sistemska arhitektura [10] .......................................................................... 31
Slika 12: Virtualna povezava............................................................................................ 34
Slika 13: Matrika sosedov ................................................................................................ 36
Slika 14: Vhodna stopnja vozlišča .................................................................................... 37
Slika 15: Izhodna stopnja vozlišča.................................................................................... 37
Slika 16: Neusmerjen graf ................................................................................................ 38
Slika 17: Usmerjen graf ................................................................................................... 38
Slika 18: Utežen graf........................................................................................................ 39
Slika 19: Omrežje z zankami ............................................................................................ 39
Slika 20: Primer grafa klicev ............................................................................................ 40
Slika 21: Redko povezan graf ........................................................................................... 42
Slika 22: Gosto povezan graf ........................................................................................... 42
Slika 23: Grafična predstavitev avtoritetne ocene ............................................................. 43
Slika 24: Grafična predstavitev razširjevalne ocene .......................................................... 44
Slika 25: Povezan graf ..................................................................................................... 45
Slika 26: Določanje deleža pokritosti za frekvenco dogodkov .......................................... 54
Slika 27: Delež populacije, ki menja operaterja v odvisnosti od deleža pokritosti ............. 55
Slika 28: Avtoritetna in razširjevalna ocena...................................................................... 57
Slika 29: Delež populacije, ki marca dodatno menja operaterja ........................................ 59
xiv
Slika 30: Razširjevalna razvrstitev. Utež: seštevek sporočil in klicev ............................... 60
Slika 31: Delež populacije, ki marca dodatno menja operaterja ........................................ 61
Slika 32: Avtoritetna razvrstitev. Utež: seštevek klicev in sporočil................................... 62
Slika 33: Delež populacije, ki med marcem in junijem dodatno menja operaterja ............. 63
Slika 34: Avtoritetna razvrstitev. Utež: seštevek frekvence klicev in sporočil .................. 64
Slika 35: Skalirana vrednost uteži .................................................................................... 66
xv
KAZALO TABEL
Tabela 1: Primer interakcije med dvema uporabnikoma ................................................... 14
Tabela 2: Atributi zapisov podatkov o klicih .................................................................... 15
Tabela 3: Primer datoteke uporabnikov ............................................................................ 16
Tabela 4: Atributi uporabnikov ........................................................................................ 16
Tabela 5: Nominalni atributi ............................................................................................ 20
Tabela 6: Numerični atributi ............................................................................................ 20
Tabela 7: Nominalni atributi uporabnikov ........................................................................ 20
Tabela 8: Stopnja vozlišča ................................................................................................ 42
Tabela 9: Povezave vozlišč v grafu .................................................................................. 45
Tabela 10: Format našega omrežja ................................................................................... 50
Tabela 11: Izhod analize skupin ....................................................................................... 52
Tabela 12: Delež populacije ............................................................................................. 65
xvi
UPORABLJENE KRATICE
Kratica Angleški izraz Slovenski izraz
3GGP 3rd Generation Partnership Project organizacija 3GPP
AMR adaptive multi rate audio codec adaptivni kodirnik zvoka
ATM adaptation layer adaptacijski nivo
AuC authentication center Center za avtentikacijo
BC billing center obračunski center
CDR call detail record zapis podatkov o klicih
CGF Charging Gateway Function obračunavanje storitev
CRC cyclic redundancy check ciklično preverjanje redundance
CS circuit Switched vodovno komutirana
EIR equipment identity register register za identiteto opreme
EPC Evolved packet core omrežno jedro
GGSN gateway GPRS support node prehodno podporno vozlišče
GPRS
GMSC Gateway Mobile Switching Center vhodni komutacijski center
mobilnega omrežja
GPRS General Packet Radio Service splošna paketna radijska storitev
HLR home location register register domačih naročnikov
HTTP HyperText Transfer Protocol Protokol za spletne strani
IEMI International Mobile Station Equipment
Identity
mednarodna identiteta
mobilnega terminala
IMS IP multimedia subsystem IP multimedijski podsistem
IP Internet Protocol internetni protokol
LTE Long-Term Evolution dolgoročni razvoj
MSC mobile switching center komutacijski center mobilnega
omrežja
OSI Open Systems Interconnection povezani odprti sistem
PPP Point-to-Point Protocol protokol od točke do točke
PS packet switching paketna komutacija
xvii
PSTN public land mobile network javno komutirano telefonsko
omrežje
P-GW Packet data network gateway omrežni prehod paketnih
podatkov
RAB radio access bearer storitev radijskega dostopa
RNC radio network controllers krmilnik radijskega omrežja
SDU service data unit servisna podatkovna enota
SGSN serving GPRS support node strežno podporno vozlišče GPRS
SID silence information descriptor opis šuma v ozadju
SMTP Simple mail transfer protocol preprost protokol za prenos
elektronske pošte
S-GW Serving gateway strežniški prehod
TCP Transmission Control Protocol protokol za nadzor prenosa
UDP User Datagram Protocol nepovezovalni protokol za
prenašanje paketov
UE user equipment uporabniška oprema
UTRAN UMTS Terrestrial Radio Access Network zemeljsko radijsko dostopovno
omrežje UMTS
VLR visitors location register register gostujočih naročnikov
xviii
Analiza socialnega omrežja na podlagi zapisov podatkov o klicih
1
1 UVOD
Telekomunikacije so pridobile eno izmed glavnih pozicij na listi najhitreje rastočih industrij
v svetu. Po podatkih ICT Facts and Figures 2015, telekomunikacijska podjetja v Evropi
pokrivajo 78.2% celotne populacije in so na letni globalni ravni v letu 2015 prinesla 1164
milijard evrov dobička (po podatkih statista.com). Zaradi tega v telekomunikacijskem
sektorju vlada huda konkurenca. V večini držav je na tržiščih prisotnih več operaterjev, kjer
se vsi borijo za čim večji delež uporabnikov. V zadnjih nekaj letih so trgi v razvitih državah
postal zasičen, kar pomeni, da ima vsak prebivalec vsaj en telefonski priključek. Za
ohranitev tržnega deleža, morajo podjetja pridobiti nove uporabnike ali pa jih zadržati.
Pridobivanje novih naročnikov je težje in ima pet do deset krat višjo ceno kot zadrževanje
že obstoječih uporabnikov v samem podjetju [17].
Mobilno omrežje je radijsko omrežje razporejeno po določenem geografskem območju, ki
omogoča prenos zvoka, besedila ali podatkov med dvema ali več napravami [13]. Ob
določenem času, ima običajno vsaka mobilna naprava brezžično povezavo do fiksne mobilne
postaje (oddajnik). Vsaka bazna postaja pokriva določeno geografsko območje, ki je lahko
veliko nekaj kvadratnih kilometrov na podeželju, do nekaj sto kvadratnih kilometrov v
urbanih naseljih. Vsaka mobilna naprava, ki je pobudnik povezave, komunicira z bazno
postajo, prav tako vsaka ciljna mobilna naprava. Bazne postaje so preko hierarhičnih
elementov v omrežju med seboj povezane in omogočajo povezavo med klicateljem in
klicanim [21].
Pri povezavi od klicatelja do klicane osebe, se generirajo podatki, ki jim pravimo zapisi
podatkov o klicih (angl. Call detail records). Tako kot pri večini podjetij, tudi podjetja v
telekomunikacijskem sektorju generirajo veliko število podatkov, ki zaradi različnih
razlogov ostanejo neizkoriščeni. Pri telekomunikacijskih podjetjih so to zapisi podatkov o
klicih, ki veliko krat ostanejo neizkoriščeni, ob ustrezni obdelavi pa imajo lahko veliko
vrednost za samo organizacijo. Ti podatki so bili prvotno namenjeni obračunavanju
porabljenih mesečnih mobilnih storitev uporabnikov, danes pa so bogat vir dragocenih
Analiza socialnega omrežja na podlagi zapisov podatkov o klicih
2
informacij, ki najdejo uporabno vrednost vse od optimizacije mobilnih omrežij do
upravljanja odnosov s strankami.
1.1 Analiza razlogov za zamenjavo mobilnega operaterja
Na začetku je potrebno definirati termin menjave mobilnega operaterja (angl. customer
churn). Razloge za menjavo mobilnega operaterja na najvišjem nivoju delimo na:
1. prostovoljne in
2. neprostovoljne odhode.
Prostovoljni odhod je lahko namenski ali naključen. Namenski razlogi so lahko nova
tehnologija, ekonomski, kvaliteta storitev. Naključni pa finančna nezmožnost, menjava
prebivališča ipd.
Neprostovoljni odhod se lahko zgodi zaradi smrti, neplačevanja ali neuporabe storitev [25].
Pri napovedovanju odhodov, katerega končni cilj je zadrževanje uporabnikov, se
osredotočamo na prostovoljne odhode, saj na preostale razloge ponudnik nima vpliva [14].
1.2 Umestitev dela
V telekomunikacijah so se do današnjih dni izoblikovali trije pristopi napovedovanja
odhodov strank. Prvi je tradicionalen (vir [27] in [35]), drugi je omrežni pristop (vir [12] in
[14]), tretji pa je kombinacija obeh dveh in zato tudi ime hibridni pristop (vir [7]).
Tradicionalen pristop, ki je tudi najbolj razširjen, uporablja za napovedovanje metode
statistične analize in podatkovnega rudarjenja, kjer se z različnimi tehnikami strojnega
učenja odkriva vzorce, kako in kateri so glavni atributi z največjim vplivom na odhod strank.
Omrežni pristop odpravlja pomanjkljivosti tradicionalnega pristopa, ki upošteva samo
individualne atribute posameznikov. Znano je, da na odločitve uporabnika vplivajo tudi
menjave in odločitve drugih uporabniki s katerimi komunicira. Takšno obnašanje preučuje
področje analize socialnih omrežij. Do pravega razmaha novih metod je prišlo šele v zadnjih
Analiza socialnega omrežja na podlagi zapisov podatkov o klicih
3
desetih letih s pojavom spletnih socialnih omrežij [14]. Pomembno delo so opravili Dasgupta
in ostali (vir [12]), ki so napovedovali odhode stranke z metodo SPA, medtem ko pa so
Richter in ostali (vir [32]) predlagali napovedovanje odhoda celotnih skupin uporabnikov.
1.3 Cilji
V našem delu smo obravnavali podatke operaterja Si.Mobil, ki je eno izmed največjih
telekomunikacijskih podjetij v Sloveniji. Cilj je raziskati lokalne strukture med posameznimi
uporabniki v mobilnem omrežju, predstaviti možnost uporabe analize omrežja pri odkrivanju
prehodov uporabnikov h konkurenci in raziskati uporabnost algoritma analize skupin, ki je
predlagan s strani Richterja in ostalih (vir [32]). Prav tako predlagamo nov način nastavitve
parametrov algoritma analize skupin in dodatno post procesiranje posameznega uporabnika,
ki menja operaterja ter možnost uporabe algoritma na področju slovenskega
telekomunikacijskega prostora.
Analiza socialnega omrežja na podlagi zapisov podatkov o klicih
4
2 PODATKOVNA ZNANOST IN BIG DATA
Podatkovna znanost (angl data science) lahko definiramo kot manipuliranje in analizo
podatkovnega seta, pridobivanje uporabnih informacij in razumevanja sistema, ki ustvarja
informacije. Sistem je lahko posamezna enota, na primer računalnik, omrežje, brezžično
senzorsko omrežje itd. ki je sestavljeno iz velikega števila povezanih enot, ki medsebojno
sodelujejo pod določenimi principi in strategijami za izvedbo nalog kot so zbiranje podatkov,
dejstev ali statistik okolja, ki jih sistem opazuje. Ti sistemi lahko proizvedejo velike količine
podatkov, ki jim pravimo big data in iz mnogo različnih podatkovnih virov, ki so lahko zelo
kompleksi, brez strukture in s katerimi je težko upravljat, jih procesirat in analizirat [34].
2.1 BIG DATA
Glavni koncept Big Data zajema naslednje vidike:
- Količino, hitrost in raznolikost, ki opisujejo karakteristike informacij.
- Tehnologijo in analitične metode, ki opisujejo kaj vse je potrebno za pravilno
uporabo takšnih informacij.
- Vrednost, ki opisuje transformacijo podatkov v spoznanja, ki lahko ustvarijo
ekonomsko vrednost za podjetja in družbo.
Big Data je informacijska dobrina karakterizirana z veliko količino, hitrostjo in
raznolikostjo, ki potrebuje specifično tehnologijo in analitične metode za njeno
preoblikovanje v vrednost [26].
Big Data paradigma sestoji iz velikega sistema podatkov in okolja. Cilj sistema je opazovati
okolje in se naučiti karakteristik, na podlagi katerih podamo natančne odločitve. Na primer
cilj omrežnega sistema za zaznavanje vdorov je spoznati značilnosti prometa in odkrivanje
vdorov za izboljšanje zanesljivosti računalniškega omrežja. Okolje ustvarja dogodke o
katerih sistem zbira dejstva in statistične podatke, ki jih s pomočjo primernih operacij
pretvori v znanje, se uči značilnosti dogodkov in napove karakteristike okolja [34].
Analiza socialnega omrežja na podlagi zapisov podatkov o klicih
5
2.1.1 Podatki in znanje
Podatke lahko opišemo kot skrita digitalna dejstva, ki jih zbira nadzorni sistem. Skrita
digitalna dejstva niso očitna sistemu brez izčrpnega procesiranja. Opredelitev podatkov mora
temeljiti na znanju, ki ga je potrebno pridobiti iz njih. Podatki so lahko označeni, kjer dejstva
niso skrita in lahko na podatkih uporabimo tehnike strojnega učenja. Če podatki niso
označeni, pa lahko podatke uporabimo v postopku testiranja in validacije kot del strojnega
učenja [34].
Znanje lahko opišemo kot naučene informacije pridobljene iz podatkov. Znanje je lahko na
primer detekcija vzorcev, klasifikacija, izračun neznanih statističnih distribucij ali izračun
korelacije podatkov in tvori odziv sistema ki mu pravimo set znanja (angl knowledge set).
Podatki tvorijo domeno podatkov, na kateri so odzivi sistema generirani s pomočjo modela
f kot je prikazano na sliki 1. Zraven podatkov in znanja, nadzorni sistem potrebuje še tri
operacije in sicer fizično, matematično in logično [34].
Fizična operacija
Opisuje korake ki zajemajo proces pridobivanja podatkov, shranjevanja podatkov,
manipulacije podatkov in njihovo vizualizacijo [37]. To so pomembni koraki za razvoj
podatkovne domene sistema tako, da je možno izvesti tehnike strojnega učenja [34].
Podatki Znanje f
Obdelava
Zajem
Vizualizacija
Shramba
Razlaga
Utemeljitev
Interpretacija
Slika 1: Pretvorba podatkov v znanje [34]
Analiza socialnega omrežja na podlagi zapisov podatkov o klicih
6
Matematična operacija
Opisuje teorijo in aplikacijo primernih matematičnih in statističnih tehnik in orodij potrebnih
za transformacijo podatkov v znanje. Ta transformacija je lahko zapisana kot funkcija znanja
𝑓: 𝑃 ⇒ 𝑍 kot je prikazano na sliki 1, kjer 𝑃 predstavlja domeno podatkov in 𝑍 predstavlja
domeno znanja [34].
Logična operacija
Opisuje razlago, utemeljitev in interpretacijo znanja, s čimer je mogoče pridobiti smiselna
dejstva iz podatkov. Na primer funkcija znanja 𝑓: 𝑃 ⇒ 𝑍 lahko razdeli (klasificira)
podatkovno domeno in prikaže vzorce v podatkih, nato pa z uporabo logičnih operacij
argumentiramo, interpretiramo in utemeljimo posamezne kategorične tipe pridobljene iz
podatkov [34].
2.1.2 Velikost podatkov
Na primer, sistem za odkrivanje vdorov v omrežje je paket prometa v določenem trenutku.
Veliko število dogodkov (𝑛) je lahko ujetih v kratkem časovnem obdobju (𝑡) z uporabo
naprav kot so senzorji in omrežni usmerjevalniki, katerih dogodke lahko analiziramo s
pomočjo programskih orodij ter merimo karakteristike okolja. Opazovanje je običajno
Slika 2: Velikost podatkov
Veliko
podatkov Ogromno
podatkov
Malo
podatkov Velika
dimenzionalnost podatkov
Dimenzionalnost
Volu
men
p
Veliko
podatkov Ogromno
podatkov
Malo
podatkov Velika
dimenzionalnost
podatkov
Dimenzionalnost
Volu
men
p
Big data
ko sta dodani hitrost
in raznolikost n n
Analiza socialnega omrežja na podlagi zapisov podatkov o klicih
7
odvisno od velikega števila neodvisnih spremenljivk, ki jih imenujemo značilke in
sestavljajo prostor značilk. Število značilk (𝑝) določa dimenzionalnost sistema in vpliva na
kompleksnost obdelave podatkov. Značilke predstavljajo karakteristike okolja, ki jih sistem
spremlja.
Parameter 𝑛 na sliki 2 predstavlja število dogodkov ki jih sistem zajame ob času t in določa
velikost (volumen) nabora podatkov. Parameter 𝑝 predstavlja število značilk, ki določajo
dimenzijo podatkov in prispeva k številu razredov (raznolikosti) v naboru podatkov.
Dodatno, razmerje med parametrom n in t določa razmerje podatkov (hitrost).
2.2 CRISP-DM proces
V današnjem času, skoraj vsi avtomatizirani sistemi generirajo neko vrsto podatkov za
diagnostike ali namene analize. To je povzročilo poplavo podatkov, ki dosegajo rede
petabajtov ali eksabajtov [1].
Cross Industry Standard Process for Data mining (CRISP-DM) je proces, ki omogoča
boljšo realizacijo in hitrejše rezultate obdelave podatkov [33]. Je neodvisen od industrije,
nevtralen od tehnologije in je po nekaterih mnenjih de facto standard pri rudarjenju podatkov
[5]. Je neformalna metodologija, saj ne zagotavlja togega okvirja, metričnega vrednotenja
ali kriterijev o pravilnosti in se lahko se uporablja na širokem področju različnih industrij in
reševanju problemov [33].
Tipičen proces lahko hitro postane zelo kompleksen, saj je potrebno spremljati veliko stvari
na en krat. Nekatere od teh so, kompleksnost problema, mnogo podatkovnih virov, kakovost
podatkov med posameznimi podatkovnimi viri je spremenljiva, veliko podatkovnih
rudarskih tehnik, različne možnosti merjenja uspešnosti itd. [20].
Da lahko vsemu temu sledimo, si pomagamo z definiranim procesom CRISP-DM. Ta proces
nas vodi skozi kritične stopnje, ki smo jih našteli zgoraj in nam pomaga, da naslovimo vse
pomembne točke in nam služi kot nekakšen kažipot [20].
Analiza socialnega omrežja na podlagi zapisov podatkov o klicih
8
Splošen CRISP-DM proces je sestavljen iz sedmih faz in predstavlja življenjski cikel
podatkovnega rudarjenja. Teh sedem faz naslavlja glavne probleme v podatkovnem
rudarjenju in sicer:
- razumevanje problema,
- razumevanje podatkov,
- priprava podatkov,
- modeliranje,
- vrednotenje modela,
- uporabo v praksi in
- kontrolo [20].
Slika 3 prikazuje glavne razvojne stopnje pri podatkovnem rudarjenju, kjer smo osnovnemu
CRISP-DM modelu dodali še kontrolo modela. Vseh sedem faz skupaj sestavlja cikličen
proces, ki pa ni nujno da je tog, saj se pri izgradnji modela pogosto premikamo med samimi
fazami naprej in nazaj. Te faze zajemajo celoten proces rudarjenja, vključno s tem, kako
vključiti podatkovno rudarjenje v širše poslovne prakse [20].
Analiza socialnega omrežja na podlagi zapisov podatkov o klicih
9
2.2.1 Razumevanje problema
To je morda najpomembnejša faza podatkovnega rudarjenja, katere fokus je razumevanje
ciljev in zahtev projekta ter preslikava problema v domeno podatkovnega rudarjenja. Obsega
določanje ciljev samega problema, oceno situacije in določanje ciljev podatkovnega
rudarjenja [20]. Razumevanje problema je bistvenega pomena za odkrivanje pomembnih
dejavnikov potrebnih pri načrtovanju in zagotavljanju, da ne pridemo do pravilnih
odgovorov na napačna vprašanja [33]. V tej fazi naredimo tudi načrt poteka projekta za
dosego ciljev [20].
Priprava podatkov
Priprava podatkov
Razumevanje
problema
Razumevanje
problema
Razumevanje
podatkov
Razumevanje
podatkov
Modeliranje
Modeliranje Vrednotenje
Vrednotenje
Uporaba v praksi
Uporaba v praksi
Slika 3: Faze CRISP-DM procesa
Kontrola
Kontrola
Analiza socialnega omrežja na podlagi zapisov podatkov o klicih
10
2.2.2 Razumevanje podatkov
Razumevanje podatkov se začne z začetno fazo zbiranja podatkov, nadaljuje se z
spoznavanjem podatkov, kjer se naredi ocena kakovosti podatkov, odkrivanjem zanimivih
podskupin in preverbo o tem ali podatki vsebujejo kakšne skrite informacije. Obravnava
razumevanje naših podatkovnih virov in njihovih karakteristik. To vključuje štiri korake in
sicer skupaj z zbiranjem podatkov še njihov opis, raziskovanje in preverjanje kakovosti
podatkov [33].
2.2.3 Priprava podatkov
Priprava podatkov pokriva vse aktivnosti konstruiranja končnega podatkovnega seta ali
bomo pa uporabili za modeliranj modela neobdelane podatke. Ta faza zajema izbiro tabel,
zapisov in atributov kot tudi transformacijo in čiščenje podatkov za modelirna orodja. Pet
korakov v pripravi podatkov je izbira podatkov, čiščenje, konstruiranje, integracija in
oblikovanje [33]. Čeprav ta faza običajno vzame največ časa, je ključnega pomena za
uspešnost projekta [20].
Faze razumevanja in priprave podatkov so:
- pridobitev podatkov iz podatkovnega skladišča,
- povezava več tabel,
- združevanje podatkovnih datotek z različnih sistemov,
- prepoznavanje manjkajočih, nepravilnih in ekstremnih vrednosti,
- izbira podatkov,
- prestrukturiranje podatkov v format potreben pri analizi in
- preoblikovanje ustreznih polj [20].
2.2.4 Modeliranje
V tej fazi uporabimo napredne metode analize, ki so uporabljene za pridobitev informacij iz
podatkov. Vključuje izbiro modelirnih tehnik, izgradnjo testnih modelov in ocenjevanje
Analiza socialnega omrežja na podlagi zapisov podatkov o klicih
11
modelov. Sam razvoj modela je iterativen proces, kjer običajno preizkusimo več različnih
modelov in modelirnih tehnik preden izberemo najboljšega [20].
2.2.5 Vrednotenje
Za izbrani model ocenimo, kako lahko rezultati podatkovnega rudarjenja pomagajo doseči
cilje in zahteve projekta. Pred pisanjem končnega poročila in uporabo modela je pomembno
bolj podrobno oceniti model in iti čez vse korake uporabljene pri izgradnji slednjega. Tako
se prepričamo, da so dosežene vse zahteve projekta. Glavni cilj je, da preverimo, ali so vse
zahteve zadovoljivo obravnavane. Na koncu te faze podamo odločitev o uporabi rezultatov
[20].
2.2.6 Uporaba v praksi
Izgradnja zadovoljivega modela, pa običajno še ne pomeni konec projekta. V večini
primerov je potrebno informacije organizirati in predstaviti, kar pomeni, da je potrebno za
vsak projekt ustvariti končno poročilo tako, da ga lahko podjetje ali organizacija uporabi pri
sprejemanju odločitev [20].
2.2.7 Kontrola
Najbolj kritična je uporaba modela, kjer testiramo natančnost modela na novih podatkih. To
je zelo enostavno če je realizacija testiranja poteka znotraj programske opreme za
podatkovno rudarjenje, bolj kompleksno pa, če je potrebno model uporabiti neposredno na
obstoječi bazi podatkov [20].
Ustvarjen model je potrebno ustrezno spremljati, da lahko ocenimo uspešnost in napovedi
ter tako zagotovimo, da je model še vedno uporaben. To lahko obsega avtomatizirano
analizo, ki nas obvešča o nepredvidenih dogodkih ali napakah (primer; razlika med
napovedano in opazovano vrednostjo presega določeno vrednost) [20].
Analiza socialnega omrežja na podlagi zapisov podatkov o klicih
12
3 OPIS, RAZUMEVANJE IN ČIŠČENJE PODATKOV
3.1 Podatkovni objekti in atribut
Podatkovni objekt
Nabori podatkov so sestavljeni iz podatkovnih objektov. Podatkovni objekt pa predstavlja
entiteto, na primer, v naši bazi so to naročniki mobilnih storitev, v bazi univerze so lahko ti
objekti študenti, profesorji in predmeti. Podatkovni objekti so običajno opisani z atributi.
Lahko se nanašajo na vzorce, primere, podatkovne točke, predmete itd. [16].
Atribut
Atribut je podatkovno polje, ki predstavlja karakteristiko ali značilnost podatkovnega
objekta. Za atribut obstajajo tudi druga imena kot so dimenzija, značilka in spremenljivka.
Atributi, ki opisuje kupca, lahko na primer vsebujejo, identifikacijsko številko osebe, ime,
naslov… [16].
3.2 Tip spremenljivk
Vrednost atributa za določen primer je merjena količina, na katerega se nanaša atribut.
Velika razlika je med numeričnimi in nominalnimi količinami. Numeričnim atributom
včasih pravimo tudi zvezni atributi, merjenje številke pa so bodisi cela ali realna števila.
Opomnimo, da se izraz zvezno v tem kontekstu pogosto zlorablja in celoštevilčni atributi
zagotovo niso zvezni v matematičnem smislu. Nominalni atributi zavzamejo vrednosti
znotraj vnaprej določenega končnega seta možnosti, za katere se občasno uporablja izraz
kategorični atributi. Za tipe spremenljivk obstajajo tudi druge možnosti poimenovanj,
predvsem statistična besedila pogosto uvedejo ''ravni merjenja'', kot so nominalna, ordinalna,
intervalna in razmernostna [36].
Nominale količine imajo vrednosti, ki so različni simboli. Vrednosti same služijo samo kot
oznake ali imena. Če vzamemo primer vremena, lahko atributi zavzamejo vrednosti; sončno,
oblačno in deževno. Med temi tremi atributi ni nobene zveze, nobene razvrstitve ali
Analiza socialnega omrežja na podlagi zapisov podatkov o klicih
13
dolžinske mere. Prav gotovo jih ni smiselno seštevati, pomnožiti ali primerjati njihove
velikosti [36].
Ordinalne količine so tiste, ki omogočajo rangiranje kategorij. Kljub temu, da imamo
predstavo o zaporedju, ne predstavljajo razdalje. Na primer, vreme lahko ima atribute vroče,
toplo in mrzlo. Ti so razporejeni; vroče > toplo > mrzlo ali vroče < toplo < mrzlo, odvisno
od konvencije. Pomembno je, da toplo leži med ostalima dvema. Kljub temu da je smiselno
primerjat vrednosti, jih nima smisla seštevati ali odštevati. Razlike med vroče in toplo ne
moremo primerjani z razliko med toplo in mrzlo [36]. Torej spremenljivke lahko vrednostno
razvrstimo, ne pa količine razlik med njimi.
Intervalne količine imajo vrednosti, ki niso samo hierarhično razvrščene, ampak so tudi
izmerjene v fiksnih in enakih enotah. Te spremenljivke nimajo določene absolutne ničelne
vrednosti. Tak primer je temperatura izražena v stopinjah, raje kot na ne numerični skali, ki
je predstavljena z mrzlo, toplo in vroče. V tem primeru je mogoče smiselno govoriti o
razlikah med dvema temperaturama, 24 in 26 stopinjami Celzija in ju primerjati z razliko
drugih dveh temperatur, recimo 10 in 14 stopinjami Celzija ali pa primerjati njuni povprečni
vrednosti [36].
Razmernostne količine so tiste, za katere merilna shema določa sama po sebi definira ničelno
točko. Na primer, ko merimo dolžimo od enega objekta do drugega, razlika med objektom
in sami seboj formira naravno ničlo. Razmerje veličin je obravnavano kot realno število. Vse
matematične operacije so dovoljene in smiselno se je pogovarjati o trikratniku dolžine in
celo pomnožiti eno dolžino z drugo, da dobimo površino [36]
3.3 Opis naših vhodnih podatkov
3.3.1 Zapis podatkov o klicih
Zapis podatkov o klicih (CDR) je dokument, v katerega se s pomočjo telekomunikacijske
opreme beležijo telefonske aktivnosti uporabnikov kot so telefonski klic, sporočila ali druge
komunikacijske transakcije, ki potekajo preko naprav. Vsebujejo polja, ki opisujejo
Analiza socialnega omrežja na podlagi zapisov podatkov o klicih
14
specifično telekomunikacijsko transakcijo, ki pa ne vsebuje vsebine te transakcije. Podatki
o posameznem klicu lahko opisujejo različne atribute kot so čas klica, dolžina klica, status o
končanju klica, številko klicatelja in klicanega uporabnika [29]. Primarno so se podatki
uporabljali za obračunavanje stroškov storitev telekomunikacijskih podjetij, vendar se je z
povečanjem procesorske moči računalnikov izkazalo, da so lahko podatki uporabni za
najrazličnejše analize.
Enostaven primer zapisa bi bil lahko klic, o katerem se shranijo podatki kot so številka
klicatelja in klicane osebe, začetek klica in dolžina klica. V današnji praksi, so ti zapisi veliko
bolj detajlni in vsebujejo atribute kot so:
- Telefonska številka klicatelja,
- telefonska številka klicanega,
- čas začetka klica (datum in čas),
- dolžina klica,
- telefonska številka, kateri se klic obračuna,
- identifikacijska številka telefonske izmenjave,
- unikatna številka, ki označuje zapis,
- dodatna mesta pri klicani številki, uporabna pri zaračunavanju klica,
- tip (klic ali sms),
- ali se je zgodila kakšna napaka, … [29]
3.3.2 Opis datoteke zapisov podatkov o klicih
Datoteka zapisa podatkov o klicih je bila pripravljeni pri podjetju Si.mobil, kjer so bile
interakcije med dvema uporabnikoma, klici in sporočila, agregirani za časovno okno enega
meseca. Podatke, ki smo jih dobili, so bili za leto 2015 in sicer za mesec februar in maj.
Tabela 1 prikazuje ena interakcijo med dvema uporabnikoma. Na mestu CNT in
DURATION_MIN so prikazani agregirani podatki.
Tabela 1: Primer interakcije med dvema uporabnikoma
A_NUMBER B_NUMBER MONTH_ID SERVICE_TYPE WORK_TIME CNT DURATION_MIN
53685970857 53666187203 201502 "SPEECH" "Work" 1 0.516667
Analiza socialnega omrežja na podlagi zapisov podatkov o klicih
15
V tabeli 1 posamezni stolpci prestavljajo:
- A_NUMBER, predstavlja številko klicatelja.
- B_NUMBER, predstavlja številko klicane osebe.
- MONTH_ID, nam pove v katerem mesecu sta si številki izmenjali klic ali tekstovno
sporočilo.
- SERVICE_TYPE, tip zapisa, klic ali tekstovno sporočilo.
- WORK_TIME, specificira kdaj v dnevu se je dogodek zgodil. Delovni čas, ki je med
6 in 19 uro, vse ostalo pa obravnavamo kot prosti čas.
- CNT, frekvenca klicev ali sporočil (odvisno od SERVICE_TYPE).
- DURATION_MIN, čas trajanja vseh klicev za posamezen mesec. Za tekstovno
sporočilo, je ta vrednost enaka 0.
Tabela 2: Atributi zapisov podatkov o klicih
Številke uporabnikov (A_NUMBER in B_NUMBER) v zapisu podatkov o klicih, so zaradi
varnosti osebnih podatkov šifrirane in se razlikujejo od številk, ki so v uporabi v
telekomunikacijskem omrežju.
3.3.3 Opis datoteke informacije o uporabnikih
Tabela 3 prikazuje en zapis iz datoteke podatkov o uporabnikih, ki vsebuje informacije o
uporabnikih v telekomunikacijskem omrežju. V našem primeru je pomemben predvsem
STATUS, ki vsebuje informacijo o letu in mesecu strankinega odhoda od operaterja.
Atribut Vrednosti atributa Spremenljivka Tip atributa
A_NUMBER [1, 2, ...] Celo številčna Nominalen
B_NUMBER [1, 2, ...] Celo številčna Nominalen
MONTH_ID 201502, 201505 Nominala Nominalen
SERVICE_TYPE SPEECH, SMS Nominala Nominalen
WORK_TIME Work, offWork Nominala Nominalen
CNT [1, 7880] Celo številčna Razmernostni
DURATION_MIN [0, 7745.517] Zvezna Razmernostni
Analiza socialnega omrežja na podlagi zapisov podatkov o klicih
16
Tabela 3: Primer datoteke uporabnikov
V tabeli 3 posamezni stolpci predstavljajo:
- CUST_ID, identifikacijska številka, ki je enaka A_NUMBER in B_NUMBER.
- GA_YEAR, leto, ko je oseba pristopila k mobilnemu operaterju.
- AGE_GROUP, starostna skupina uporabnika, kjer številka 2 predstavlja starost
uporabnika med 20 in 29, številka 3 starost med 30 in 39 in tako naprej.
- GENDER, spol uporabnika.
- PRICE_GROUP, cenovna skupina uporabnika.
- STATUS, informacija o aktivnosti uporabnika. Active, če je uporabnik stranka
našega mobilnega omrežja, drugače pa mesec in leto uporabnikovega prenehanja
uporabe storitev pri našem operaterju.
Tabela 4: Atributi uporabnikov
3.4 Osnovne statistične metode za opis značilk
3.4.1 Frekvenca in najpogostejša vrednost
Glede na nabor nerazvrščenih kategoričnih (nominalnih) veličin ni veliko možnosti za
opredelitev vrednosti, razen najpogostejše vrednosti kategoričnega določenega atributa in
izračuna frekvence s katero se pojavi posamezna vrednost v določeni skupini podatkov.
Danemu kategoričnemu atributu x, ki lahko zavzame vrednosti {𝑣1, … 𝑣𝑖 , … 𝑣𝑘} in skupek 𝑚
objektov, je frekvenca vrednosti 𝑣𝑖 definirana kot [28]:
CUST_ID GA_YEAR AGE_GROUP GENDER PRICE_GROUP STATUS
2 2008 6 Female 1_Entry Active
Atribut Vrednosti atributa Spremenljivka Tip atributa
CUST_ID [1, 2, ...] Celo številčna Nominalen
GA_YEAR [1999, 2015] Celo številčna Intervalna
AGE_GROUP [1, 10] Celo številčna Intervalna
GENDER Female, Male Nominala Ordinalen
PRICE_GROUP 1_Entry, 2_Low, 3_Mid, 4_High, 5_Very high Nominala Ordinalen
STATUS Active, Churn in 201501, Churn in 201502, Churn in 201503, Churn in 201504, Churn in 201505, Churn in 201506 Nominala Nominalen
Analiza socialnega omrežja na podlagi zapisov podatkov o klicih
17
( ) ii
število objektov z atibutom vfrekvenca v
m
3.5 Osnovne opisne statistike za numerične tipe
3.5.1 Povprečje
Seštevek vseh vrednosti niza podatkov, deljeno s številom vseh podatkov v nizu.
1 2
1
1 1(x ... )
n
i n
i
X x x xn n
Tu je:
𝑥𝑖 - i-ta vrednost v vzorcu
3.5.2 Mediana
V statistiki in teoriji verjetnosti mediana loči vrednosti zaporedja števil na dve enaki polovici
in sicer na višjo in nižjo polovico populacije ali verjetnostne porazdelitve. Je aritmetična
sredina nekega zaporedja števil. Prednost je, da imajo osamelci manj vpliva na njeno
vrednost.
1
2
12 2
1
2
n
n n
x n liho
X
x x n sodo
Tu je:
𝑥 – vrednost v vzorcu
Analiza socialnega omrežja na podlagi zapisov podatkov o klicih
18
3.5.3 Standardni odklon
Statistični kazalec za merjenje porazdelitve vrednosti. Pove nam kako so podatki razpršeni
okrog srednje vrednosti.
2
1)(
n
ii
n
xx
Tu je:
𝑥𝑖 - i-ta vrednost v vzorcu
�̅� - srednja vrednost vzorca
n - število enot
3.5.4 Varianca
Varianca meri statistično razpršenost določenega nabora podatkov. Prikazuje kako daleč od
povprečne vrednosti so razporejeni vrednosti podatkov.
2
2 1)(
n
ii
n
xx
Tu je:
𝑥𝑖 - i-ta vrednost v vzorcu
�̅� - srednja vrednost vzorca
3.5.5 Koeficient simetrije
Je merilo, ki meri simetrijo oziroma pomanjkanje simetrije. Porazdelitev ali set podatkov je
simetričen, če izgleda enako levo in desno od središčne točke.
Analiza socialnega omrežja na podlagi zapisov podatkov o klicih
19
3
2/
2
1
3
1
1(
1(
)
)1
n
ii
n
ii
x
xn
x
x
n
Tu je:
𝑥𝑖 - i-ta vrednost v vzorcu
�̅� - srednja vrednost vzorca
Koeficient simetrije lahko zavzame negativno vrednost (levo na sliki 4), pozitivno vrednost
(desno na sliki 4) ali pa je koeficient simetrije enak nič. Takrat pravimo, da je porazdelitev
simetrična.
Slika 4: Koeficient simetrije
3.5.6 Koeficient sploščenosti
Koeficient sploščenosti meri ostrino vrha verjetnostne normalne porazdelitve. Nabori
podatkov z velikim koeficientom sploščenosti, imajo večjo verjetnost osamelcev, medtem
ko je pri majhnem koeficientu, verjetnost osamelcev manjša.
4
1
2
1
2
(
( (
)
) )
n
ii
n
ii
K
x
xn
x
x
Tu je:
𝑥𝑖 i-ta vrednost v vzorcu
�̅� srednja vrednost vzorca
Analiza socialnega omrežja na podlagi zapisov podatkov o klicih
20
3.5.7 Osnovne opisne statistike uporabnikov mobilnega omrežja in njihovih storitev
Osnovne opisne statistike klicev
Osnovne opisne statistike podatkov, ki smo jih dobili s strani telekomunikacijskega podjetja.
V tabeli 5 so prikazane statistike klicev za nominalne atribute, kjer se lahko izračuna mode
in frekvenca. V tabeli 6 pa so prikazane statistike za numerične tipe, ki smo jih obravnavali
v tem poglavju.
Tabela 5: Nominalni atributi
Tabela 6: Numerični atributi
Osnovne opisne statistike uporabnikov
Osnovne opisne statistike za informacije, ki jih imamo o uporabnikih. Vsa polja so
nominalna, zato je v tabeli 7 prikazana najpogostejša vrednost (mode).
Tabela 7: Nominalni atributi uporabnikov
Polje Mode
MONTH_ID 201505
SERVICE_TYPE SPEECH
WORK_TIME Work
Polje Povprečje Mediana Std. odklon Varianca Simetrija Sploščenost
CNT 9.096 2 46.29 2142.782 29.052 1485.807
DURATION_MIN 6.446 0.45 29.797 887.87 33.481 3506.603
Polje Mode
GA_YEAR 2008
AGE_GROUP 2
GENDER Female
PRICE_GROUP 1_Entry
STATUS Active
Analiza socialnega omrežja na podlagi zapisov podatkov o klicih
21
3.6 Čiščenje podatkov
Pri čiščenju podatkov, se veliko krat srečamo z manjkajočimi vrednostmi. V podatkovni bazi
manjkajoče vrednosti označimo z null (ang. nič). Poznamo dva tipa takšnih vrednosti in sicer
prazne in manjkajoče vrednosti.
Na tem mestu se bomo izognili poglobljeni razlagi, saj pri naših podatkih ni bilo potrebe po
čiščenju manjkajočih vrednosti.
3.6.1 Izstopajoče vrednosti
Izstopajoča vrednost je podatkovna točka, ki se bistveno razlikuje od ostalih podatkov. Ena
od definicij predstavi koncept tako; Izstopajoča vrednost je opazovana vrednost, ki odstopa
od ostalih vrednosti tako, da se poraja sum o tem, da so jo generirali drugačni mehanizmi''
[18]. Izstopajočim vrednostim pravimo tudi nepravilnosti, anomalije, neskladja… V večini
aplikacij so podatki generirani z enim ali več procesi, ki lahko odražajo dejavnost sistema
ali observacije določenega subjekta. Ko se proces, ki generira podatke obnaša nenavadno, je
rezultat pojava izstopajoča vrednost. Običajno ravno zaradi tega te vrednosti veliko krat
vsebujejo koristne informacije o nenavadnih karakteristikah sistema in subjektov, ki vplivajo
na proces generiranja podatkov [2].
Analiza socialnega omrežja na podlagi zapisov podatkov o klicih
22
4 UMTS topologija omrežja
UMTS (The Universal Mobile Telecommunication System) je standard tretje generacije 3G
mobilnega komunikacijskega sistema specificiran s strani organizacije 3GPP (3rd Generation
Partnership Project).
Kot je prikazano na sliki 5 je omrežje sestavljeno iz treh glavnih komponent in sicer
osrednjega omrežja, radijskega omrežja in uporabniške enote.
Slika 5: Poenostavljen prikaz mobilnega omrežja [11]
4.1 Komunikacijsko omrežje
Vloga komunikacijskih omrežij je povezati računalnike in uporabniške enote med seboj
tako, da lahko izmenjujejo podatke in signalna sporočila. Omrežje mora sprejeti informacije
od oddajne naprave, identificirati pot do sprejemnika in poslati informacije od sprejemne
naprave brez večjih napak. Primeri komunikacijskih omrežij so telefonske linije, Internet in
mobilna omrežje [11].
Analiza socialnega omrežja na podlagi zapisov podatkov o klicih
23
4.1.1 Radijsko dostopovno omrežje (UTRAN)
Slika 6: Radijsko dostopovno omrežje [11]
UTRAN (UMTS terrestrial radio access network) ima dve komponenti in sicer Node B in
krmilnik radijskega omrežja RNC. Iur vmesnik povezuje dva RNC, medtem ko Iub povezuje
Node B in RNC. Vsi vmesniki na sliki 6 so uporabljeni za mobilni promet in signalizacijo.
Node B je bazna postaja, RNC pa je vmesnik med Node B in osrednjim omrežjem (angl core
network) [11].
Analiza socialnega omrežja na podlagi zapisov podatkov o klicih
24
4.1.2 Osrednje omrežje
Slika 7: Osrednje omrežje [11]
Slika 7 prikazuje notranjo arhitekturo 99 izvedbe 3GGP osrednjega omrežja. Osrednje
omrežje je sestavljeno iz dveh domen in sicer paketno komutirane domene PS in vodovno
komutirane domene CS. Preko CS domene se prenaša glasovni klic z uporabo vodovno
komutirane tehnologij, ki ima vmesnik do fiksne linije telefonskega sistema PSTN in kroga
domen drugih omrežnih operaterjev. PS domena pa komunicira z podatkovnimi serverji
omrežnega operaterja in zunanjim paketnimi podatkovnimi omrežji, kot na primer Internet
[11]. Obstoj dveh domen je evolucija 3G omrežja iz 2G, kjer je bilo 2G omrežje sprva
namenjeno samo govornemu prometu.
PS in CS domeni imata nekaj skupnih komponent izmed katerih je najbolj pomembna HLR,
ki je centralna omrežna baza podatkov mobilnega operaterja. HLR vsebuje informacije o
operaterjevih naročnikih kot so njihova identiteta, trenutna lokacija in storitev, katere
naročnik so. AuC vsebuje varnostne informacije povezane z naročnikom kot so varnostni
ključi, ki preprečuje neavtoriziran dostop. EIR register v katerem je seznam ukradenih
telefonov [11].
Analiza socialnega omrežja na podlagi zapisov podatkov o klicih
25
MSC je glavna komponenta vodovno komutirane domene. Običajno omrežje vsebuje več
MSC centrov, od katerih je vsak zadolžen za določeno geografsko območje imenovano MSC
območje. MSC center se obnaša kot stikalo za klice in hkrati skrbi za signalno komunikacijo
z mobilnimi telefoni ki so v tistem MSC območju. MSC je lahko dizajniran kot vhodni MSC
(GMSC), ki se služi kot vodna točka v omrežje za dohodne klice. VLR je v bistvu kopija
HLR, tako zmanjšamo komunikacijo med HLR in MSC, zato običajno govorimo o
MSC/VLR kot eni enoti [11].
V paketni komutirani domeni obstajajo dve komponenti in sicer GPRS podporno vozlišče
(SGSN) združuje funkciji MSC in VLR in se obnaša kot usmerjevalnik za prenos podatkov,
ki vsebuje lokalno kopijo informacij o mobilnih naprav v SGSN območju in skrbi za
signalno komunikacijo s temi mobilnimi napravami. Vhodno GPRS podporno vozlišče je
precej drugačno kot GMSC. Deluje kot vmesnik do podatkovnih strežnikov in drugih
omrežij za prihodni in odhodni podatkovni tok [11].
4.2 Vodovna in paketna komutacija
Vodovna komutacija (angl Circuit switching) se v splošnem uporablja za prenos klica.
Tehnike za prenos klica so enake kot pri tradicionalnem stacionarnem telefonskem sistemu.
Na začetku klica omrežje določi pot čez omrežna stikala, ki povezujeta dva telefona in
rezervira dovolj resursov za klic. Na primer, klic tipično potrebuje konstantno hitrost prenosa
podatkov 64 000 bitov na sekundo (64kbps). Z rezerviranje resursov na omrežnih stikalih
in povezavah za prenos 64kbs, lahko zagotovi, da informacija med napravama potuje z zelo
majhnim zamikom in brez oviranja drugih klicev [11].
Vodovna komutacija ima veliko pomanjkljivost in sicer, da je zelo neučinkovita. Pri
telefonskem klicu vsak uporabnik v povprečju govori polovico časa, kar pomeni da je že na
začetku bilo rezerviranih dva krat več resursov kot jih je dejansko potrebnih. Situacija je še
slabša v primeru uporabe interneta [11].
Za reševanje tega problema paketno komutirana (angl Packet switched) omrežja kot so
internet uporabljajo drugačne tehnike. Te tehnike prenašanja razdelijo tok podatkov v
Analiza socialnega omrežja na podlagi zapisov podatkov o klicih
26
pakete. Vsakemu paketu je dodana dodatna informacija, glava, ki pove omrežju kako naj bo
paket usmerjen. Potem pošlje vsak uspešen paket do prvega omrežnega stikala. Ko paket
doseže stikalo, stikalo pogleda kakšna je pot te informacije v usmerjevalni tabeli in prebere
identiteto naslednjega stikala na poti in jo posreduje tja. Ta postopek se ponavlja, dokler
paket ne doseže svojega cilja [11].
4.3 Zapis podatkov o klicih
Slika 8: Omrežna arhitektura in CDR zapis [24]
Obračunski center BC dobi zapise podatkov o klicih iz različnih komponent osrednjega
omrežja. V obračunskem centru se zberejo vsi podatki in so lahko uporabljeni za obračun
storitev in najrazličnejše analize [24].
Funkcija obračunavanja storitev CFG je prehodna enota med GGSN/SGSN in obračunskim
centrom. CFG spada v osrednje omrežje PS domene in se uporablja kot vmesna točka
shranjevanja zapisa podatkov o klicih. Več zapisov za enakega uporabnika lahko zadeva več
različnih delov omrežja. BC je direktno in indirektno povezan do dveh točk v omrežju: MSC
in SGSN na eni strani in GMSC in GGSN na drugi strani [24].
Analiza socialnega omrežja na podlagi zapisov podatkov o klicih
27
MSC in SGSN kot omrežni točki imate neposredno dostopno povezavo do omrežja in sta
odgovorni za zbiranje informacij o omrežju. To poročilo že vsebuje identiteto naročnika
(IMS) in identiteto mobilne naprave (IEMI) [24].
GMSC in GGSN kot prehodna enota do zunanjih omrežij (Internet ali PSTN) zbira
informacije, ki zadevajo drugi segment klica. MSC in GMSC vsaka generirajo svoje
poročilo, zato imamo dva izvoda poročil, na primer dolžino klica in število poslanih
podatkovnih paketov. Ta dva izvoda poročil omogočata da je informacija direktno povezana
z računom za konsistentnost in zaščita pred izgubo [24].
4.4 Komunikacijski protokoli
Ena od funkcij komunikacijskih protokolov je usmerjanje, ostale funkcije vključujejo še
kontrolo električnih signalov na vsakem vmesniku, šifriranje podatkov in ponovno pošiljanje
podatkov, ob pojavu napak. Da ostanejo te funkcije ločene, je vsaka od njih obravnavana s
programsko komponento imenovano protokol in posamezni protokoli so razvrščeni v sklad,
ki ima več različnih nivojev. V oddajniku je informacija najprej procesirana v višjih nivojih
protokolov in nato še v nižjih preden je poslana v komunikacijsko omrežje. Obraten proces
se dogaja v sprejemniku [11].
4.4.1 OSI
Obstajajo različni načini razporeditve nivojev v protokolnem skladu, med katerimi je
najpogosteje uporabljen sedem nivojski OSI model prikazan na sliki 9, ki prikazuje proces
oddajne in sprejemne naprave [11].
Analiza socialnega omrežja na podlagi zapisov podatkov o klicih
28
Slika 9: OSI referenčni model [11]
Aplikacijski sloj deluje kot vmesnik med aplikacijo in spodnjimi nivoji protokolov, ki
zagotavljajo programske funkcije za naloge kot so vzpostavljanje podatkovnega toka in
pošiljanje paketov podatkov. Ena izmed bolj znanih aplikacijskih plasti je HTTP, ki
obravnava spletne strani in SMTP, ki se uporablja pri elektronskih sporočilih [3].
Predstavitveni nivo predstavlja informacije izmenjane med dvema končnima napravama, ki
uporabljata skupno sintakso in jo obe razumeta. Skrbi za uskladitev različnih načinov
predstavitve podatkov [3].
Plast seje obravnava podatke v obliki v kateri pridejo brez deljenja ali združevanja. Osnoven
namen je omogočiti predstavitvenim nivojem organizirati komunikacijo za mnogo
komunikacijskih sej hkrati. Vzpostavi, vodi in razčleni komunikacijsko pot med obema
končnima napravama [3].
Transportna plast omogoča višje ležečim plastem povezavo med oddajno in sprejemno
napravo, na prenosni poti pa poskrbi za pravilen in zanesljiv prenos podatkov. V glavnem
sta v uporabi dva transportna protokola in sicer TCP in UDP. TCP je povezovalno usmerjen
protokol , ki uporablja signalizirano komunikacijo med oddajno in sprejemno napravo, kot
tudi prenos podatkov. UDP je nepovezovalni protokol, ki samo pošilja podatke sprejemniku
brez dodatne signalizacije [3].
Analiza socialnega omrežja na podlagi zapisov podatkov o klicih
29
Omrežna plast zagotavlja, da so podatki poslani po pravilni poti od oddajne do sprejemne
naprave. Opravlja zelo pomembno vlogo pri usmerjanju podatkov iz enega omrežja v
drugega in nadzira podomrežje. Pri Internetu je uporabljen Internetni protokol (IP), ki
uporablja diagramski pristop in opravlja usmerjanje s pomočjo IP naslova ciljne naprave [3].
Povezovalna plast pošlje podatke od enega stikala do drugega. Tako kot transportni sloj, je
povezovalni lahko povezovalno ali nepovezovalno usmerjen. Dva pogosta povezovalna sloja
sta Ethernet in protokol od točke do točke (PPP). Zagotavlja varno in transparentno
povezavo med napravama, ki komunicirata preko enake fizične plasti.
Fizična plast prenaša in sprejema signale s pomočjo prenosnega medija kot so bakrena žica,
optično vlakno ali brezžičnega medija [3].
4.5 Prenos glasovnega klica
Slika 10 prikazuje 99 izdajo protokolnega sklada za prenos klica. Aplikacija digitalizira
govorni signal s frekvenco vzorčenja 8 kHz in 8 bitno ločljivostjo. Digitaliziran signal se
prenese do MSC s pomočjo pulznega kodnega modulatorja (PCM) s 64 kbps. V MSC
adaptivni kodirnik zvoka AMR stisne signal tako, da zmanjša obremenitev na zračni
povezavi [11].
Analiza socialnega omrežja na podlagi zapisov podatkov o klicih
30
Slika 10: Uporabniški nivo protokolnega sklada glasovnega klica v 99 izdaji skupaj z
tokom podatkov
Stisnjen signal je razdeljen v 20 ms podatkovne nize za prenos, ob enem pa detektor glasu
določi, ali uporabnik govori ali ne. Če ne, so stisnjeni podatkovni nizi zamenjani s
parametriziranim opisom šuma v ozadju poznanim kot SID, ki ima dve funkciji in sicer
preprečuje šumu iz ozadja vklapljanje in izklapljanje ter zagotavljanje osebi, ki govori, da je
druga oseba še vedno na liniji [11].
Sprejemnik preveri vsak podatkovni niz, določi vsebnost govora ali SID, na podlagi tega
dekodira govor ali pa generira lagoden šum. Nekateri sprejeti nizi lahko manjkajo ali so
označeni kot napake, običajno zato, ker niso bili uspešni pri cikličnem preverjanju
redundance CRC zračne povezave. Sprejemnik najprej obravnava te nize z ponovitvijo
slednjih in potem postopoma zniža izhodni nivo do nič [11].
Izhod kodirnika je parametriziran opis originalnega govornega signala. Nekateri kodirni biti
so zelo pomembni v smislu, da bo rekonstruiran signal zelo okrnjen, če bodo sprejeti biti
nepravilno, medtem ko so drugi manj pomembni. Rokovanje s tem problemom je takšno, da
kodirnik stisnjene bite razporedi v tri skupine, kjer so najpomembnejši biti v skupini A, manj
pomembni v skupini B in najmanj pomembni v skupini C. Na primer, v vsakem 12.2 kbps
vsak 20ms niz podatkov vsebuje 81 bitov ki so v skupin A, 103 v skupini B in 60 v skupini
Analiza socialnega omrežja na podlagi zapisov podatkov o klicih
31
C, kar je skupaj 244. SID podatkovni nizi vsebujejo 39 bitov v skupini A in nobenih v skupini
B ali C. Ti biti so prikazani na sliki 10 kot tri povezave med posameznimi bloki [11].
Na Iu povezavi so tri skupine obravnavane z uporabno različnih RAB pod-tokov, ki
uporabljajo poseben način Iu uporabniškega protokolnega nivoja imenovanega podporni
način za pred definirane SDU velikosti. Protokol multipleksira bite od vsakega pod-toka v
en Iu paket in označi vsak paket z RAB kombinacijo indikatorjev pod-toka [11].
V naslednjih izvedbah osrednjega omrežja, od 4 izdaje naprej, se za prenos govora namesto
PCM uporablja ATM ali IP. Ti paketi so lahko v stisnjeni obliki, tako da AMR ni več
potreben v MSC [11].
4.6 LTE topologija omrežja
Ker je UMTS tehnologija v odhodu, je prav da opišemo še LTE, ki tehnologija sedanjosti in
bližnje prihodnosti. Omrežje LTE je standardizirana tehnologija s strani 3GGP organizacije
in je nekakšno nadaljevanje tehnologije UMTS. Za razliko od predhodnih omrežij LTE,
komunikacija temelji na internetnem protokolu. Posledice je manjše število elementov, kar
pomeni preprostejša infrastruktura, manjše zakasnitve in nižja cena opreme.
Slika 11: LTE sistemska arhitektura [10]
Analiza socialnega omrežja na podlagi zapisov podatkov o klicih
32
P-GW povezuje omrežno jedro z zunanjimi IP omrežji. Čez SGi vmesnik vsak P-GW
izmenja podatke z eno ali več zunanjimi napravami ali paketnimi podatkovnimi omrežji kot
je internet. Internet na primer opravlja IP transport podatkov med UE in zunanjimi omrežji
[22].
S-GW se obnaša kot usmerjevalnik in služi kot prenos podatkov med bazno postajo in P-
GW. Ves podatkovni uporabniški promet gre od UE čez S-GW. S-GW usmeri prihodne in
odhodne IP pakete do njihovih pravilnih destinacij. V tipičnem omrežju je lahko več S-GW,
vsakemu od katerih je dodeljena mobilna naprava v določeni geografski regiji [10].
Verjetno najbolj pomemben element v omrežnem jedru je MME, saj gre čezenj ves
signalizacijski promet med UE in EPC. Kot S-GW, je v tipičnem omrežju več MME-sov,
vsakemu od katerih je dodeljeno določeno geografsko območje. Vsaka mobilna naprava je
dodeljena eni MME, ki pa se lahko spremeni, če se mobilna naprava dovolj oddalji. MME
nadzira tudi druge element v omrežju z notranjimi signalizacijski sporočili v omrežnem jedru
[10].
Analiza socialnega omrežja na podlagi zapisov podatkov o klicih
33
5 TEORIJA GRAFOV
Omrežje je sestavljeno iz skupine enot in povezav med njimi. Analiza omrežja (angl network
theory) raziskuje povezave za opisovanje posameznih enot in skupin kot del celotne
strukture. Posamezniki komunicirajo med seboj in na podlagi tega, lahko pridemo do
razumevanje interakcijskih vzorcev [19].
Analiza socialnega omrežja gleda na povezave med osebami v smislu teorije omrežja,
sestavljenega iz vozlišč in robov (tudi vezi). Povezave omogočajo pretok informacij čez
celotno omrežje in omogočajo posameznikov vpliv na ostale uporabnike. Vozlišča so akterji
znotraj omrežja, povezave pa razmerja med akterji. Pomembnost povezav med posamezniki
loči analizo socialnih omrežij od drugih pristopov, kjer je predmet fokusa posameznik.
Nasprotno, pri analizi omrežja, je proučevana enota sestavljena najmanj iz dveh
posameznikov in njunih povezav [19].
Enote so lahko posamezniki, organizacije, družbene skupine, mesta, države, električne
postaje, internetne strani, roboti itd., vezi med enotami pa so lahko na primer prijateljstvo,
poslovne transakcije, komunikacije, električna energija, … Je proces raziskovanja struktur,
relacij in informacijskih tokov med enotami oziroma povezanimi subjekti in ima široko
področje uporabe v industrijskem inženirstvu, telekomunikacijah, ekonomiji, marketingu in
mnogih drugih področjih.
Cilj metod teorije omrežij je interpretacija, odkrivanje vzorcev in delovanje enot v omrežju,
ki je predmet raziskave.
Analiza socialnega omrežja na podlagi zapisov podatkov o klicih
34
5.1 Virtualnost in transparentnost
Transparentnost
Funkcije v višjih plasteh so izolirane od kompleksnosti in zahtevnosti funkcij v nižjih
plasteh. Mehanizem storitev omogoča, da nižjih plasti uporabnik ne zazna oziroma so
transparentne, zato imamo občutek, da je celoten sistem enostaven komplet ukazov. Je
sposobnost kompleksnih komunikacijskih sistemov, da prenašajo podatke preko omrežja na
način, ki je transparenten (neviden) uporabnikom, ki uporabljajo aplikacije.
Virtualnost
Transparentni komunikacijski sistemi dajejo vtis, da je povezava med dvema uporabnikoma
neposredno vzpostavljena. Neposredne povezave dejansko ni, zato jo imenujemo virtualna
povezava.
virtualna vez
Slika 12: Virtualna povezava
Analiza socialnega omrežja na podlagi zapisov podatkov o klicih
35
5.2 Tipi predstavitve povezav uporabnikov v mobilnem omrežju
5.2.1 Graf
V matematiki oziroma teoriji grafov je graf (G) predstavljen kot skupina objektov, kjer so
nekateri pari objektov povezani. Medsebojno povezani objekti so predstavljeni kot točke,
povezavam med pari točk pa pravimo robovi. Tipično je graf predstavljen kot skupina točk
ki predstavljajo vozlišča. Povezana vozlišča pa so lahko povezana s črtami ali krivuljami, ki
predstavljajo robove [15]. Takšni predstavitvi grafa pravimo grafična predstavitev in je
koristna kadar želimo opazovati strukturo grafa, vendar pa postane neuporabna, če želimo
opisati velike in zaplete grafe. Primer takšnega grafa je prikazan na sliki 20.
5.2.2 Matrika sosednosti
Za enostaven graf 𝐺 s skupino vozlišč 1, 2, 3, … , 𝑛 brez zank je matrika sosednosti (angl
adjacency matrix) 𝐸(𝐺) razsežnosti 𝑛𝑥𝑛, v kateri element v 𝑗-tem stolpcu 𝑖-te vrstice pove
število povezav, ki povezujejo vozlišči 𝑖 in 𝑗.
Za graf s štirimi vozlišči prikazan na sliki 16 dobimo matriko sosednosti prikazano na sliki
13, ki je dimenzije 4 x 4. Števila v matriki povedo ali povezava med dvema vozliščema
obstaja ali ne, na primer:
- Vozlišči 𝑣1 in 𝑣2 sta povezani z eno povezavo, zato se v prvem stolpcu druge vrstice
in v drugem stolpcu prve vrstice pojavi število 1.
- Vozlišči 𝑣3 in 𝑣4 nista povezani, zato se v tretjem stolpcu četrte vrstice in v četrtem
stolpcu tretje vrstice pojavi število 0.
Analiza socialnega omrežja na podlagi zapisov podatkov o klicih
36
Slika 13: Matrika sosedov
5.3 Stopnja, usmerjenost in ocenjenost povezave
Usmerjenost
Povezave med uporabniki so lahko usmerjene ali neusmerjene. V grafu obstaja usmerjena
povezava, ki vodi od točke 𝑋𝑖 do točke 𝑋𝑗. Točka 𝑋𝑖 se imenuje začetna točka (izvor), 𝑋𝑗 pa
končna točka povezave (cilj). Na primer, klic je primer usmerjene povezave v kateri ena
oseba kliče drugo [19].
Stopnja
Stopnja vozlišča je definirana kot število povezav, ki jih ima določeno vozlišče z ostalimi
vozlišči.
Ocenjenost
Še ena lastnost, ki ločuje povezave je, ali je povezava ocenjena ali neocenjena. Edina
informacija pri neocenjeni povezavi med dvema uporabnikoma je, ali povezava obstaja ali
ne. Ocenjena povezava ima zraven informacije o obstoju povezave dodano še utež, ki
predstavlja moč povezave. Utež nam omogoča primerjanje povezav med seboj [19].
Analiza socialnega omrežja na podlagi zapisov podatkov o klicih
37
5.3.1 Vhodna stopnja
Na sliki 14 je prikazana usmerjena povezava vozišča, ki nam pove, koliko povezav vodi do
tega vozlišča, oziroma, koliko ljudi kontaktira določeno osebo.
Vhodna stopnja je število povezav, v katerih je določeno vozlišče cilj povezave
Slika 14: Vhodna stopnja vozlišča
5.3.2 Izhodna stopnja
Je definirana kot usmerjena povezava vozlišča, tako kot vhodna stopnja, le da je pri tej
povezavi posamezno vozlišče izvor oziroma pobudnik povezave. Primer takšne povezave je
prikazan na sliki 15.
Izhodna stopnja je število povezav, kjer je vozlišče izvor povezave.
Slika 15: Izhodna stopnja vozlišča
Analiza socialnega omrežja na podlagi zapisov podatkov o klicih
38
5.4 Tipi grafov
5.4.1 Neusmerjen neutežen graf
0 1 1 0
1 0 1 1
1 1 0 0
0 1 0 0
ijA
0iiA ij jiA A
Takšni grafi, nimajo vnaprej določenih smeri, vemo le ali povezava obstaja, ne vemo pa kdo
je vir povezave in kakšna je moč posamezne povezave. Primeri takšni grafov so molekule,
kjer atomi predstavljajo vozlišča, vezi pa povezave med atomu.
5.4.2 Usmerjen graf
0 1 1 0
1 0 1 1
1 1 0 0
0 1 0 0
ijA
0iiA ij jiA A
Graf, kjer imajo povezave med elementi določeno smer, oziroma lahko vozlišča delimo na
izvor in cilj posamezne povezave, ni pa možno vrednostno oceniti povezave.
Slika 16: Neusmerjen graf
Slika 17: Usmerjen graf
Analiza socialnega omrežja na podlagi zapisov podatkov o klicih
39
5.4.3 Neusmerjen utežen graf
0 2 0.5 0
2 0 1 4
0.5 1 0 0
0 4 0 0
ijA
0iiA ij jiA A
Grafi, kjer imajo povezave med elementi določeno utež (tudi
moč ali oceno). Če pri uteženem grafu povezava med elementi i in j obstaja, potem zavzame
vrednost 𝑤𝑖𝑗 , drugače 0. Pri neuteženih grafih (binarnih), pa zavzame vrednost 1, če
povezava med i in j obstaja, drugače pa vrednost 0 [4].
Informacije o povezavi in moči povezave obstajajo, ne vemo pa kdo je pobudnik in
sprejemnik povezave.
5.4.4 Graf z zankami
1 1 0
1 0 1 1
1 1 0 0
0 0 11
1
ijA
0iiA ij jiA A
V mnogih grafih vozlišča ne komunicirajo sama s seboj, zato so diagonalni elementi matrike
enaki nič, 𝐴𝑖𝑖 = 0, 𝑖 = 1,2, … 𝑛. V nekaterih grafih pa je ta interakcija dovoljena, primer
interakcij proteinov [4].
Slika 18: Utežen graf
Slika 19: Omrežje z
zankami
Analiza socialnega omrežja na podlagi zapisov podatkov o klicih
40
5.5 Graf klicev
V teoriji grafov se srečamo z mnogimi grafi, ki se razlikujejo v elementarnih lastnostih.
V veliki večini primerov, lahko posameznemu grafu pripišemo več takšnih elementarnih
lastnosti, ki skupaj opisuje določen graf.
V naši nalogi je bil predmet obravnave mobilno omrežje, katerega lastnosti so:
- usmerjenost,
- uteženost in
- brez zank.
Primer takšnega grafa je na sliki 20, kjer so povezave med posamezniki v obliki telefonskih
klicev, utež povezav, pa je predstavljena z dolžino telefonskega klica. Takšnemu grafu
pravimo graf klicev (angl call graph). V našem primeru:
- Oseba 1 kliče osebo 2 in je klicana s strani osebe 3.
- Oseba 2 kliče osebo 3 in 4 in je klicana s strani osebe 1.
- Oseba 3 kliče osebo 1 in je tudi klicana s strani osebe 2.
- Oseba 4 je klicana s strani osebe 2.
0 20min 0 0
0 0 10min 40min
5min 0 0 0
0 0 0 0
ijA
0iiA , ij jiA A
Slika 20: Primer grafa klicev
5 min 20 min
10 min
40 min
Analiza socialnega omrežja na podlagi zapisov podatkov o klicih
41
5.6 Opisovanje grafov
Informacije o skupinah in posameznikih morajo biti pretvorjene v opisovalne karakteristike,
ki omogočajo medsebojno primerjavo in jih lahko vključimo v napovedovalne modele. Te
informacije je potrebno pretvoriti v končni set ključnih kazalnikov primernih za analizo, na
podlagi katerih lahko primerjamo celotno mobilno omrežje uporabnikov, posamezne
skupine vozlišč in identificiramo najpomembnejše posameznike [19].
Najpogosteje se za opis uporabljata gostota in stopnja. Obe statistiki odražajo povezanost
skupine uporabnikov, ki lahko predstavlja vse mobilne uporabnike znotraj določenega
geografskega območja, določenega mobilnega operaterja ali kakšno drugo podskupino.
5.6.1 Gostota povezanosti skupine
Za vsak set vozlišč obstaja končno število povezav v grafu. Vsako vozlišče lahko služi kot
začetna točka (vir) ali kot končna točka (tarča) povezave z vsakim drugim vozliščem, vendar
se v praksi veliko krat zgodi, da vse povezave niso prisotne. Nekatera voziščne nimajo
direktne povezave z ostalimi vozlišči, pri usmerjenih povezavah pa ni nujno, da je vsaka
obojestranska [19].
( 1)
mGostota
n n
Tu je:
𝑚 - število obstoječih povezav
𝑛 – število vseh možnih povezav
Gostota predstavlja delež vseh možnih povezav, ki so dejansko prisotne in lahko zavzame
vrednosti med 0 in 1. Nižje vrednosti predstavljajo slabo povezane skupine, visoke vrednosti
pa predstavljajo skupine z močno povezanimi vozlišči. Bliže kot je gostota 1, bolj močno je
povezana skupina in bolj so vozlišča povezana med seboj. V močno povezanem omrežju je
izmenjava informacij lažja kot v omrežju, kjer so vozlišča redkeje povezana [19]. Da
Analiza socialnega omrežja na podlagi zapisov podatkov o klicih
42
informacija na sliki 21 pride od D do B, mora potovati preko E in A, medtem ko pa pri gosto
povezanem omrežju na sliki 22 enostavno od vozlišča D do B.
5.6.2 Stopnja povezanosti
Najpomembnejši posamezniki so običajno tisti, ki imajo največ povezav z ostalimi osebami.
Ti posamezniki imajo informacije z velikega števila virov in tudi širijo informacije do
velikega števila posameznikov. Za razliko od posameznikov, ki imajo manj povezav, ti ne
morejo direktno vplivati na veliko število oseb v omrežju [19].
Stopnja vozlišča je definirana kot skupno število povezav, ki zadevajo to vozlišče. Omogoča
primerjavo med posameznimi osebami v omrežju. Posamezniki z visoko stopnjo so bolj
aktivni kot osebe z nižjo [19].
Pri usmerjenih povezavah se lahko fokusiramo na to ali je vozlišče vir ali tarča. Vhodna
stopnja posameznega vozlišča je število povezav, v katerih je določeno vozlišče cilj. Obratno
velja pri izhodni stopnji, kjer štejemo povezave v katerih je vozlišče vir. V tabeli 8 so
predstavljena vozlišča omrežja, ki so prikazana na sliki 22 v obliki stopenj, vhodne in
izhodne stopnje.
Tabela 8: Stopnja vozlišča
Vozlišče Stopnja Vhodna stopnja Izhodna stopnja
A 4 3 1
B 4 3 1
C 3 2 2
D 4 1 3
E 4 1 3
Slika 21: Redko povezan graf Slika 22: Gosto povezan graf
Analiza socialnega omrežja na podlagi zapisov podatkov o klicih
43
Vhodna stopnja je pogosto obravnava kot mera prestiža. Višja kot je vhodna stopnja
posameznega vozlišča, več povezav se konča v tistem vozlišču. Drugače, veliko
posameznikov kontaktira takšno osebo z veliko vhodno stopnjo [19].
Izhodna stopnja je tretirana kot mera centralnosti. Višja kot je izhodna stopnja posameznega
vozlišča, več povezav izhaja iz tega vozlišča. Ti posamezniki kontaktirajo veliko število oseb
[19].
5.6.3 Avtoritetna ocena vozlišča
Avtoritetna ocena za posameznega uporabnika v omrežju, meri težnjo preostalih oseb v
določeni skupini do tega določenega uporabnika. Če veliko posameznikov kontaktira
določeno osebo prikazano na sliki 23 (zelen krog), jo potencialno sprašuje za informacije ali
mnenje, zato je ta oseba v vlogi avtoritete. Avtoritetna ocena za posamezno osebo v skupini
je enaka stacionarni verjetnosti slučajnega sprehoda (opisano v podpoglavju 6.3.5), ki se
izračuna za posamezno skupino. Za osebo v skupini, ki se nahaja najvišje po tej razvrstitvi
v posamezni skupini, se v angleški literaturi uporablja izraz ''authority leader'' [19].
Slika 23: Grafična predstavitev avtoritetne ocene
Analiza socialnega omrežja na podlagi zapisov podatkov o klicih
44
5.6.4 Razširjevalni ocena vozlišča
V nasprotju z avtoritetno oceno, nosi ta ocena informacije o nagnjenosti posameznega
uporabnika do povezave z ostalimi osebami v skupini. Če določena oseba kontaktira veliko
posameznikov v skupini, lahko takšna oseba močno vpliva na mnenje oseb znotraj celotne
skupine. Primer grafa takšne osebe je prikazan na sliki 24 z rumenim krogom. Za osebo v
skupini, ki se nahaja najvišje po tej lestvici v posamezni skupini, se v angleški literaturi
uporablja izraz ''dissemination leader'' [19].
Zraven gostote, vhodne stopnje, izhodne stopnje in drugih statistik, ki opisujejo dinamiko
skupin, avtoritetna in razširjevalna ocena ponujata mero socialnega statusa posameznika
znotraj skupine. Vloga vsakega posameznika v skupini je še posebej pomembna, ko
poskušamo napovedati vedenje skupine in njihovih posameznikov [19].
5.7 Določanje podobnosti
Člani skupine so si med seboj bolj podobni, kot ostali posamezniki, ki niso v skupini. V
analizi socialnega omrežja, podobnost dveh vozlišč določa njuno razmerje. Za vsako
vozlišče v omrežju, obstaja skupina vozlišč, ki so cilj usmerjene povezave posameznega
vozlišča. Če dva posameznika kontaktirata enako skupino ljudi, sta ta posameznika tretirani
Slika 24: Grafična predstavitev razširjevalne ocene
Analiza socialnega omrežja na podlagi zapisov podatkov o klicih
45
kot podobna en drugemu. Večji kot je delež ciljnih povezav do enakih ljudi, bolj sta si
podobna [19].
Tabela 9: Povezave vozlišč v grafu
Vozlišči A in B imata skupne usmerjene povezave do petih vozlišč. Vozlišči A in C pa imata
povezavo le med seboj, brez drugih skupnih vozlišč [19]. Da bi ujeli predstavo o podobnosti,
algoritem analize skupin uporablja statistično vrednost medsebojne informacije kot
relacijsko vez z lastnostmi razmernostne veličine [9]. Ta statistika odraža verjetnost da sta
dve vozlišči povezani z enakim skupnim vozliščem.
Izvorno vozlišče Ciljno vozlišče
A B, C, D, E, F, G
B A, C, D, E, F, G
C A, D, H, I, J
Slika 25: Povezan graf
Analiza socialnega omrežja na podlagi zapisov podatkov o klicih
46
6 MODELIRANJE
6.1 Programski paketi
V tem delu smo interaktivno uporabljali SPSS Modeler , Python Spyder ter Tableau Desktop,
s katerim je mogoče hitro in na enostaven način vizualizirati velike količine podatkov.
6.1.1 IBM SPSS MODELER
SPSS Modeler je prediktivna analitična platforma, ki omogoča napredno uporabo široke
palete algoritmov za strojno učenje, podatkovno rudarjenje, analizo teksta itd. Uporabna je
pri grajenju modelov in drugih analitičnih nalog. Z grafičnim vmesnikom omogoča grafično
programiranje, kjer na mesto tekstovnega opisa uporabljamo grafične objekte.
SPSS Modeler se uporablja za:
- analize strank in upravljanju odnosov s strankami,
- odkrivanja in preprečevanja goljufij,
- izboljševanja kvaliteta proizvodnje,
- izboljševanja kvaliteta v zdravstvu,
- napovedovanje,
- analize v telekomunikacijah,…
6.1.2 Python Spyder
Python je visoko nivojski, dinamičen, objektno usmerjen programski jezik, ki ni odvisen od
strojne opreme in operacijskega sistema. Odlikuje ga berljiva sintaksa, modularnost, podpora
hierarhije paketov, učinkovito odkrivanje napak, razširljive standardne knjižnice in moduli,
podpora modulom napisanih v jezikih C in C++, ter sposobnost vključevanja v aplikacije
kot skriptni vmesnik [31]. Spyder je interaktivno Pythonovo razvojno okolje, s podobnimi
lastnosti, kot jih najdemo v okolju MATLAB.
Analiza socialnega omrežja na podlagi zapisov podatkov o klicih
47
6.2 Algoritem analize skupin
Kot glavni testni algoritem smo uporabiti model analize socialnih omrežij, ki je nastal na
podlagi dela Predicting Customer Churn in Mobile Networks through Analysis of Social
Groups (vir [32]).
6.3 Koraki algoritma
1. Izračun povezanosti oseb v omrežju
2. Ohranitev najpomembnejših relacij med enotami v omrežju (v nadaljevanju bomo
uporabljali izraz delež pokritosti)
3. Razdelitev omrežja na povezane skupine (velikost skupine [m;M])
4. Dodajanje zamudnikov.
5. Izvedba socialne analize v vsaki skupini posebej
6. Izračun značilk za vsako skupino posebej
7. Označitev skupin [32]
6.3.1 Izračun povezanosti oseb v omrežju
Omrežje je predstavljeno kot usmerjen graf, kjer vozlišča predstavljajo uporabnike
telekomunikacijskih storitev. V našem primeru relacija med uporabnikoma i in j obstaja, če
sta v določenem časovnem intervalu uporabnika i in j medsebojno komunicirala preko klicev
ali tekstovnih sporočil.
Če je število enakih oseb s katerimi sta dva uporabnika v stiku preko klicev ali sporočil
relativno visoko, potem je socialna povezanost teh dveh uporabnikov velika. Da lahko to
pretvorimo v uporabne vrednosti, uporabimo mero za podobnost in sicer skupno informacijo
[32].
Naprej sestavimo vektor 𝑉𝑖, kjer je 𝑉𝑖 [𝑡] = 1 , če je uporabnik 𝑖 bil v stiku z uporabnikom 𝑡,
drugače je 𝑉𝑖 [𝑡] = 0. 𝑁, dolžina vektorja 𝑉𝑖 je enaka številu različnih telefonskih številk v
naših podatkih [32].
Analiza socialnega omrežja na podlagi zapisov podatkov o klicih
48
Socialno povezanost poskušamo ujeti tako, da sestavimo 2x2 matriko 𝐶𝑖𝑗. Pri 𝐶𝑖𝑗(0,0)
štejemo število zapisov, kjer sta 𝑉𝑖 in 𝑉𝑗 enaka nič; 𝐶𝑖𝑗(0,1) število zapisov, kjer je 𝑉𝑖 enak
nič in 𝑉𝑗 enak ena; 𝐶𝑖𝑗(1,0) število zapisov, kjer je 𝑉𝑖 enak ena in 𝑉𝑗 enak nič; 𝐶𝑖𝑗(1,1) število
zapisov, kjer sta 𝑉𝑖 in 𝑉𝑗 enaka 1. 𝐶𝑖𝑗 normaliziramo s številom 𝑁, številom vseh telefonskih
številk in tako dobimo 𝑃𝑖𝑗 [32]. Pri dani skupni porazdelitvi, s pomočjo medsebojne
informacije, ki jo vsebuje 𝑃𝑖𝑗 izračunamo medsebojno socialno povezanost uporabnikov 𝑖 in
𝑗 [9].
0 , ' 1
( , ')( , ') log ,V 1
( ) ( ')( , j)
0 ,drugače
ij
ij ik ki j
P k kP k k j
P k P kS i
𝑃𝑖 in 𝑃𝑗 predstavljata robni porazdelitvi pridobljeni iz 𝑃𝑖𝑗. Specifično, 𝑃𝑖(0) je število
zapisov v 𝑉𝑖 ki so enaki nič, deljeno z 𝑁, 𝑃𝑖(1) pa je število zapisov 𝑉𝑖, ki so enaki ena,
deljeno z 𝑁. 𝑃𝑗 je definiran podobno. Zaradi lastnosti skupne informacije, je 𝑆(𝑖, 𝑗)
simetrična in ne negativna ter omejena s 𝑃𝑖 in 𝑃𝑗 [32].
Če sta uporabnika 𝑖 in 𝑗 v stiku preko klicev ali sporočil z natanko enakimi osebami, potem
je 𝑆(𝑖, 𝑗) maksimalna, z nižanjem števila takih enakih oseb, se primerno temu niža tudi 𝑆(𝑖, 𝑗)
in če uporabnika 𝑖 in 𝑗 nista v kontaktu z enakimi osebami, je 𝑆(𝑖, 𝑗) enaka nič [32].
6.3.2 Ohranitev najpomembnejših relacij med enotami v omrežju
Naš cilj je odkrivanje močno povezanih skupin, zato lahko povezave med posamezniki, ki
niso dovolj močno povezani, zanemarimo. To naredimo s parametrom 𝑝, ki lahko zavzame
vrednosti 0 ≤ 𝑝 ≤ 1, s katerim določimo delež povezav, ki jih želimo uporabiti pri analizi.
Za primer, 𝑝 = 0.1, nam omogoča, da ohranimo 10% najmočneje povezanih vozlišč, ostale
pa zanemarimo [32].
Analiza socialnega omrežja na podlagi zapisov podatkov o klicih
49
6.3.3 Razdelitev omrežja na povezane skupine
V tej fazi določimo najmanjšo in največjo dovoljeno število ljudi v posamezni skupini. Če
je skupina manjša od nastavljene, potem se takšna skupina zanemari, če pa je skupina večja
od dovoljene, pa se takšna skupina razdeli na več manjših, relativno tesno povezanih skupin
[32].
6.3.4 Dodajanje zamudnikov
Zaradi možnosti, da niso upoštevani pomembni člani skupne (korak 2: Ohranitev
najpomembnejših relacij med enotami v omrežju), za obstoječe skupine izračunamo
povezanost vsakega uporabnika do vsake skupine. Če je uporabnik zelo povezan s
posamezno skupino, se ga doda k tej določeni skupini. Pri tem pa se ne sme preseči
nastavljene maksimalne velikosti skupine [32].
6.3.5 Izvedba socialne analize v vsaki skupini posebej
Vsaka skupina je predstavljena kot usmerjen graf. Začnemo standarden slučajni sprehod, za
kar so bile uporabljene Markovske verige. V vsakem vozlišču 𝑣 z verjetnostjo 𝑝 (nastavljiv
parameter, v tem primer 𝑝 = 0.15), se premaknemo v naključno vozlišče. Preostala
verjetnost 𝑞 = 1 − 𝑝 je porazdeljena med prestala sosednja vozlišča 𝑣 v usmerjenem grafu.
Nadaljujemo s slučajnim sprehodom, dokler ne konvergiramo do stacionarne distribucije in
potem dodelimo vsakemu članu ustrezne verjetnosti v dodeljeni distribuciji. Dodeljena
vrednost bi morala biti v korelaciji s socialnim vplivom posameznika v skupini [32].
Markovski proces je slučajen proces {𝑋𝑡: 𝑡 ∈ 𝑇} z vrednostmi, oziroma stanji 𝑋𝑡 ∈ 𝑆, za
katerega pri poljubnih 𝐴 ⊆ 𝑆 in 𝑡1 < 𝑡2 < . . . < 𝑡𝑛 < 𝑡 velja
1 2 11 2Pr | , ... Pr |t t t t n t t nX A X x X x X x X A X x
Množico 𝑆 imenujemo prostor stanj, množico 𝑇 pa čas [23].
Analiza socialnega omrežja na podlagi zapisov podatkov o klicih
50
6.4 Struktura vhodnih podatkov
Vhodne podatke za modeliranje moramo preoblikovati v takšno obliko, da bodo uporabni za
modeliranje. Če hočemo da naš algoritem deluje, moramo podatke pripraviti tako, da
vsebujejo vsaj dva atributa in sicer pobudnika in sprejemnika posamezne povezave. Za
boljšo vrednotenje povezave, lahko dodamo še utež. Omrežje v našem primeru je v obliki
liste robov (ang. edge list), prikazano v tabeli 10.
Tabela 10: Format našega omrežja
Vsaka vrstica predstavlja povezavo med dvema uporabnikoma, z ustreznim vrednotenjem
razmerja, kjer posamezni podatkovni objekti predstavljajo:
- SOURCE: Identifikacijska številka posameznika, ki je pobudnik povezave.
- TARGET: Identifikacijska številka posameznika, ki je sprejemnik povezave.
- WEIGHT: Utež povezave, bodisi kot dolžina klica, število sporočil itd.
6.5 Vhod analize skupin
6.5.1 Binarna mera
Najpogostejša metoda uporabljena za definiranje povezav v socialnem omrežju, ki
predstavlja prisotnost povezave med dvema paroma vozlišč [30].
Če kot vhodno informacijo uporabimo binarno utež, potem v našem primeru pustimo atribut
uteži prazen. Vhodni podatek tako predstavlja usmerjeno povezavo med dvema osebama,
pri čemer imamo informacijo o tem, ali povezava obstaja ali ne. V našem primeru obstoj
povezave prikazuje sama vrstica, v kateri je posamezen pobudnik in sprejemnik povezave.
Preprost primer takšnega omrežja je prikazan na sliki 17, v podpoglavju 5.4.2.
SOURCE TARGET WEIGHT
1000026 1255799 0.1
1000068 1102689 0.2833
1000068 1113431 17.666
Analiza socialnega omrežja na podlagi zapisov podatkov o klicih
51
6.5.2 Frekvenca dogodkov
Če klice in sporočila obravnavamo kot enakovredna dogodka, potem lahko njuni frekvenci
med posameznima uporabnikoma seštejemo. Frekvenci obeh atributov seštejemo na nivoju
povezave med dvema osebama. Podoben primer takšnega usmerjenega omrežja je prikazan
na sliki 20 v podpoglavju 5.5, le da utež namesto minut, predstavlja seštevek frekvence
klicev in sporočil.
6.5.3 Seštevek sporočil in klicev
Pri tej uteži smo sešteli sporočila in klice, kjer je ena minuta klica, enaka šestim tekstovnim
sporočilom. Razmerje med klicem in tekstovnim sporočilom smo določi na podlagi razmerja
med povprečnim številom izgovorjenih besed v pogovoru in povprečnim številom besed v
tekstovnem sporočilu. V pri normalnem govoru, oseba v eni minuti v povprečju izgovori
med 140 in 180 besed [30], medtem ko pa tekstovno sporočilo v povprečju vsebuje nekje
med 20 in 44 besed (vira Tx.to in CM Telecom).
6.6 Nastavitveni parametri
Nastavljamo tri parametre in sicer:
- delež pokritosti,
- maksimalno velikost skupine in
- minimalno velikost supine.
6.6.1 Delež pokritosti
Skupine naj bi bile sestavljene iz posameznikov, ki so močno povezani z ostalimi člani
skupine, kjer uteži in relacije merijo podobnost posameznikov. Delež pokritosti definira
obseg najmočnejših povezav v omrežju, ki so uporabljene v analizi. Na primer, delež
pokritosti s koeficientom 0.2 pomeni, da bo samo 20% najmočnejših povezave med
uporabniki uporabljenih v analizi, ostali 80% pa ne. Delež pokritosti lahko zavzame
vrednosti med 0 in 1 [32].
Analiza socialnega omrežja na podlagi zapisov podatkov o klicih
52
6.6.2 Maksimalna in minimalna velikost skupine
Preostali uporabniki se lahko povežejo v zelo velike ali male skupine, ki pa imajo omejeno
možnost uporabe, zato določimo najmanjšo in največjo dovoljeno skupino. Velike skupine
se razdelijo na manjše, medtem ko se manjše izloči.
Na vhodu je potrebno primerno pripraviti podatke in nastaviti parametre tako, da je
povprečna gostota skupin velika, medtem ko pa je povprečna velikost skupin čim manjša,
torej majhne in močno povezne skupine.
6.7 Izhod analize skupin
Tabela 11: Izhod analize skupin
Na izhodu analize smo dobili polja, ki opisujejo skupine in posameznike v teh skupinah.
Pomembni polji, ki opisujejo karakteristike skupine, sta velikost skupine (GAG_Size), ki
nam pove koliko članov šteje posamezna skupina in njena gostota (GAG_Density), ki nosi
informacijo o povezanosti članov znotraj določene skupine. Ti dve meri smo tudi uporabili
kot kriterij za določanje optimalnih parametrov modela.
Zraven karakteristik, ki opisujejo lastnosti skupin, pa imamo tudi polja, ki predstavljajo
informacije o posameznikih znotraj skupin, te so:
- Avtoritetna ocena posameznika (GAI_RankOrderType1),
- razširjevalna ocena posameznika (GAI_RankOrderType2),
- vhodna stopnja (GAI_InDegree) in
- izhodna stopnja (GAI_OutDegree).
GAG_GroupNumber GAG_Size GAG_Density GAI_NodeNumber GAI_RankOrderType1 GAI_RankOrderType2 GAI_InDegree GAI_OutDegree
1 25 0.118 53665756492 16 7 2 5
1 25 0.118 53665786399 17 5 0 4
Analiza socialnega omrežja na podlagi zapisov podatkov o klicih
53
6.8 Določanje parametrov modela
Za določanje parametrov modela, smo na vhodu uporabili agregirane podatke, ki smo jih
dobili s strani telekomunikacijskega podjetja. Časovno okno vhodnih podatkov je dolžina
enega meseca. Določanje prametrov je potekalo v treh korakih, in sicer:
1. Določanje deleža pokritosti: Najprej smo izračunali najprimernejši delež pokritosti
za minimalno skupino 2 in maksimalno 100. Kriterij za izbiro najprimernejšega
deleža je bila povezanost in majhnost skupin. Na izhodu modela želimo majhne in
gosto povezane skupine.
2. Interval velikosti skupin: Na podlagi določenega deleža pokritosti v prejšnjem
koraku, smo izbrali parametre za minimalno in maksimalno velikost skupine. Za
minimalno velikost skupine smo izbrali 4, za maksimalno velikost pa 25. Za ta
interval smo se odločili, saj zajame največ uporabnikov, izhodna stopnja
posameznega vozlišča je največja in obstaja največ različnih velikosti skupin, med
možnimi izbirami. Izbirali smo med interval skupin:
- minimalna 4, maksimalna 20
- minimalna 4, maksimalna 25
- minimalna 5, maksimalna 20
- minimalna 5, maksimalna 25
Minimalni in maksimalni parameter velikosti skupin, ki smo ga določili tukaj, smo
uporabili tudi pri vseh ostalih modelih.
3. Določanje deleža pokritosti za izbrano minimalno in maksimalno vrednost skupine:
Za izbrani interval velikosti skupin, smo določili najprimernejši delež pokritosti, z
enakimi kriteriji kot v prvem koraku, da so skupine čim manjše in tesno povezane.
Analiza socialnega omrežja na podlagi zapisov podatkov o klicih
54
6.8.1 Določanje deleža pokritosti za izbrano velikost skupine
Za utež na vhodu modela smo uporabili seštevek frekvence klicev in sms sporočil med
dvema uporabnikoma. Uporabili smo parameter za maksimalno in minimalno velikost
skupin, ki smo jih določili v podpoglavju 6.8, z minimalno vrednostjo 4 in maksimalno 25.
Za to minimalno in maksimalno velikost skupin, smo izračunali optimalni delež pokritosti,
ki pri kriteriju naj bodo skupine čim manjše znaša 9%, za povezanost skupin pa 16%, kar
prikazuje slika 26. Ker je gostota povezanosti posameznih članov pomembnejši parameter
kot velikost skupine, se odločimo za slednjega.
Slika 26: Določanje deleža pokritosti za frekvenco dogodkov
Analiza socialnega omrežja na podlagi zapisov podatkov o klicih
55
Na enak način, kot smo določili parametre modela pri vhodnih podatkih seštevka frekvence
klicev in sporočil, smo določili tudi pri binarnih vhodnih podatkih in seštevku sporočil in
klicev.
6.8.2 Optimalni parametri glede na delež uporabnikov
Vhodni podatki: Frekvenca klicev
Minimalna dovoljena velikost skupine: 4
Maksimalna dovoljena velikost skupine: 25
Tukaj modelov nismo ocenjevali po povprečni velikosti skupin in njihovi povezanosti,
ampak po deležu uporabnikov, ki zamenjajo operaterja v določeni populaciji uporabnikov.
Na sliki 27 vidimo, da je največji delež uporabnikov v populaciji, ki menja operaterja pri 6%
deležu pokritosti. Populacija je v našem primeru število vseh uporabnikov znotraj vseh
skupin, kjer je uporabnik, ki menja operaterja, po avtoritetni lestvici razvrščen višje od 25%
v posamezni skupini.
Slika 27: Delež populacije, ki menja operaterja v odvisnosti od deleža pokritosti
Analiza socialnega omrežja na podlagi zapisov podatkov o klicih
56
V nadaljevanju smo pri opisovanju rezultatov uporabili samo modele katerih parametre smo
določili na podlagi razmerja uporabnikov. Optimalen delež pokritosti smo na enak način še
izračunali za binarne podatke in seštevek sporočil in klicev.
Analiza socialnega omrežja na podlagi zapisov podatkov o klicih
57
7 REZULTATI
Za nastavitve parametrov modela smo uporabili agregirane podatke s časovnim oknom
enega meseca. Za določen tip podatkov (različne uteži) smo nastavili optimalne parametre
posameznega modela, glede na tip uteži na vhodu. Na izhodu teh modelov smo dobili polja,
ki vsebujejo informacije o skupinah in posameznikih znotraj skupin, predvsem pomembna
za nas sta avtoritetna in razširjevalna ocena. Te podatke smo združili s podatki o odhodih
strank k drugim operaterjem.
Podatki na vhodu v model in podatki o odhodih strank, imajo časovno okno enega meseca,
vendar se časovno razlikujejo. Podatki, ki so pripeljani na vhod, so mesec dni starejši od
podatkov o odhodih strank. Primer: Če so vhodni podatki našega modela za mesec februar,
potem vzamemo podatke o odhodu strank za mesec marec.
Če podatkov ne uporabimo tako, ne dobimo pravilnih informacij o skupinah, ki so predmet
naše obravnave. Razlog je v tem, da različni uporabniki zapustijo operaterja v različnih delih
meseca in ne dobimo popolnih podatkov o komunikacijskih vzorcih teh posameznikov. Če
bi bili vhodni podatki modela in podatki o odhodih strank tipa enakega meseca, potem ne bi
dobili relevantnih skupin v katerih so uporabniki, ki menjajo operaterja in naša analiza ne bi
bila pravilna.
Spomnimo se, da smo v podpoglavju 5.5.3 in 5.5.4 omenili avtoritetno in razširjevalno
razvrstitev. Prva je mera, ki je odvisna od števila uporabnikov, ki kontaktirajo določeno
osebo, medtem ko razširjevalna ocena meri, koliko oseb posamezen uporabnik kontaktira.
Grafični prikaz obeh mer lahko vidimo na sliki 28.
Slika 28: Avtoritetna in razširjevalna ocena
Analiza socialnega omrežja na podlagi zapisov podatkov o klicih
58
7.1 Uporabljene vrednosti na grafih
Deleža pokritosti ne bomo posebej predstavljali, saj smo ga že omenili v podpoglavju 6.6.1.
Omenimo naj, da nam pove delež povezav med uporabniki, ki je bil uporabljen pri analizi.
7.1.1 Avtoritetna in razširjevalna razvrstitev
Uporabimo vrednost, ki jo dobimo kot rezultat na izhodu algoritma analize socialnega
omrežja markovskega procesa. Atribut lahko zavzame vrednosti med 0 in 1, odvisno od tega
kako visoko je razvrščena posamezna oseba.
Za vsako skupino, kjer je prisoten uporabnik, ki zamenja operaterja, smo izračunali
maksimalno vrednost avtoritetne in razširjevalne ocene takega uporabnika za posamezno
skupino. Če je v posamezni skupini prisotnih več takšnih uporabnikov, uporabimo samo
najvišjo vrednost.
Razširjevalni oceni, ki zavzameta vrednost med 0 in 1 razdelimo na štiri enake dele (ker
najmanjša skupina šteje štiri člane). Vsaka skupina zajame delež razvrstitve in sicer:
- [4% - 25%]
- (25% – 50%]
- (50% – 75%]
- (75% – 100%]
Če razporedimo intervalne skupine po vplivu uporabnikov, ki zamenjajo operaterja znotraj
skupin, potem velja; (75% – 100%] < (50% – 75%] < (25% – 50%] < [4% - 25%] . Znotraj
[4% - 25%] skupin so prisotni najbolj vplivni uporabniki, v skupinah (75% – 100%] pa
najmanj.
Vrednost 0 ne uporabimo, saj v teh skupinah ni uporabnikov, ki v določenem časovnem
obdobju spremenijo operaterja in niso naš fokus.
Analiza socialnega omrežja na podlagi zapisov podatkov o klicih
59
7.1.2 Število dodatnih odhodov uporabnikov
Vrednost smo izračunali tako, da smo za posamezno skupino izračunali skupno število
uporabnikov, ki so v posameznem obdobju zamenjali operaterja in nato odšteli enega
takšnega uporabnika v vsaki taki skupni. Tako smo dobili število uporabnikov, ki v
posamezni skupni še dodatno spremenijo operaterja.
S to vrednostjo predstavimo avtoritetni in razširjevani vpliv na število menjav operaterja v
posamezni skupini.
7.2 V tem poglavju smo analizirali vpliv uteži in deleža pokritosti
7.2.1 Razširjevalna razvrstitev
Slika 29: Delež populacije, ki marca dodatno menja operaterja
Graf na sliki 29 prikazuje delež uporabnikov v populaciji, ki v marcu dodatno menjajo
operaterja. Od vseh vhodnih podatkov, so najugodnješi seštevek klicev in sporočil, kjer delež
takšnih ljudi znaša 2,657%.
Analiza socialnega omrežja na podlagi zapisov podatkov o klicih
60
Slika 30: Razširjevalna razvrstitev. Utež: seštevek sporočil in klicev
Stolpčni grafikon (zelena) na sliki 30 prikazuje število uporabnikov, ki v določeni populaciji
uporabnikov marca dodatno zamenjajo operaterja. Na x osi so prikazane štiri skupine po
razširjevalni razvrstitvi, opisano že v podpoglavju 7.1.1.
Vidimo, da nižje kot so uporabniki na razširjevalni lestvici, manj uporabnikov v posamezni
skupini dodatno menjat operaterja. Na spodnjem grafu (modra) na sliki 30, lahko vidimo
kakšen je delež takšnih uporabnikov. Delež teh uporabnikov se niža z nižanjem prisotnih
vplivnih uporabnikov v skupinah.
Analiza socialnega omrežja na podlagi zapisov podatkov o klicih
61
7.2.2 Avtoritetna razvrstitev
Slika 31: Delež populacije, ki marca dodatno menja operaterja
Graf na sliki 31 prikazuje delež uporabnikov v populaciji, ki v marcu dodatno menjajo
operaterja. Od vseh vhodnih podatkov, so najugodnješi seštevek klicev in sporočil, kjer delež
takšnih ljudi znaša 2,82%. Vidimo, da je delež večji kot pri razširjevalni razvrstitvi.
Analiza socialnega omrežja na podlagi zapisov podatkov o klicih
62
Slika 32: Avtoritetna razvrstitev. Utež: seštevek klicev in sporočil
Stolpčni grafikon (zelena) na sliki 32 prikazuje število uporabnikov, ki v določeni populaciji
uporabnikov marca dodatno zamenjajo operaterja. Na x osi so prikazane štiri skupine po
razširjevalni razvrstitvi, opisano že v podpoglavju 7.1.1.
Vidimo, da nižje kot so uporabniki na avtoritetni lestvici, manj uporabnikov v posamezni
populaciji dodatno menjat operaterja. Na spodnjem grafu na sliki 32, lahko vidimo kakšen
je delež takšnih uporabnikov. Delež teh uporabnikov se niža z nižanjem prisotnih vplivnih
uporabnikov v skupinah.
Vidimo, da so rezultati podobni kot pri razširjevalni razvrstitvi, le da je delež populacije, ki
menja operaterja tukaj ugodnejši.
Analiza socialnega omrežja na podlagi zapisov podatkov o klicih
63
7.2.3 Avtoritetna razvrstitev (marec – junij)
Slika 33: Delež populacije, ki med marcem in junijem dodatno menja operaterja
Graf na sliki 33 prikazuje delež uporabnikov v populaciji, ki med marcem in junijem dodatno
menjajo operaterja. Od vseh vhodnih podatkov, so najugodnješi seštevek frekvence klicev
in sporočil, kjer delež takšnih ljudi znaša 4,555%. Če so bili v mesecu marcu najugodnejši
vhodni podatki kot seštevek klicev in sporočil, so za obdobje od marca do junija seštevek
frekvence klicev in sporočil.
Analiza socialnega omrežja na podlagi zapisov podatkov o klicih
64
Slika 34: Avtoritetna razvrstitev. Utež: seštevek frekvence klicev in sporočil
Stolpčni grafikon (zelena) na sliki 34 prikazuje število uporabnikov, ki v določeni populaciji
uporabnikov marca dodatno zamenjajo operaterja. Na x osi so prikazane štiri skupine po
razširjevalni razvrstitvi, opisano že v podpoglavju 7.1.1.
Vidimo, da nižje kot so uporabniki na avtoritetni lestvici, manj uporabnikov v posamezni
skupini dodatno menjat operaterja. Na spodnjem grafu na sliki 34, lahko vidimo kakšen je
delež takšnih uporabnikov. Delež teh uporabnikov se niža z nižanjem prisotnih vplivnih
uporabnikov v skupinah.
Analiza socialnega omrežja na podlagi zapisov podatkov o klicih
65
7.3 Primerjava deležev
Tabela 12 prikazuje delež uporabnikov ki menja operaterja v populacij.
- Podatki o uporabnikih, predstavlja podatke, kot smo jih dobili telekomunikacijskega
podjetja.
- Izhod analize skupin, predstavlja podatke, ki so uporabljeni pri analizi skupin.
- Razširjevalna in avtoritetna razvrstitev predstavlja populacijo skupin, v katerih je
uporabnik razvrščen na intervalu [4% - 25%] po vplivnosti za podatke frekvence
sporočil in klicev.
Tabela 12: Delež populacije
Kot smo predstavili v prejšnjih poglavjih, dobimo pri avtoritetna razvrstitvi bolj ugodne
rezultate kot pri razširjevalni.
Ob primerjavi Izhod analize skupin in Avtoritetno razvrstitev za mesec marec, vidimo, da je
delež populacije razvrstitve več kot tri krat višji kot v populaciji analize skupin. Lahko
rečemo, da Avtoritetna razvrstitev zajame del populacije, na katerem je večja možnost
odhoda uporabnika, kot na celotni populaciji.
Ob primerjavi Izhod analize skupin in Avtoritetno razvrstitev za časovno obdobje med
aprilom in junijem, pa vidimo, da so vrednosti skoraj enake. Razvrstitve ne zajamejo veliko
večjega dela populacije, na katerem bi bila možnost odhoda uporabnika večja, kot na celotni
populaciji.
Podatki o uporabnikih Izhod analize grup Razširjevalna razvrstitev [4% - 25%] Avtoritetna razvrstitev [4% - 25%]
Delež populacije, ki menjaa operaterja (marec) 0.96% 0.77% 2.35% 2.73%
Delež populacije, ki menjaa operaterja (april - junij) 1.72% 1.33% 1.77% 1.82%
Delež populacije, ki menjaa operaterja (marec - junij) 2.68% 2.10% 4.11% 4.55%
Analiza socialnega omrežja na podlagi zapisov podatkov o klicih
66
7.4 Skaliranje frekvence sporočil in klicev za posameznega uporabnika
Slika 35: Skalirana vrednost uteži
Za vsakega posameznika, ki menja operaterja smo skalirali njegovo vrednost uteži tako, da
smo dobili vrednosti v razponu med 0 in 1. Skalirali smo vsako usmerjeno uteženo povezavo
od posameznika do uporabnika, ki v marcu menja operaterja in je po avtoritetni razvrstitvi
razvrščen na intervalu [4% - 25%] v svoji skupini.
max
'X
XX
Tu je:
𝑋′ - skalirana vrednost
𝑋 - vrednost uteži med osebo in uporabnikom, ki menja operaterja
𝑋𝑚𝑎𝑥 - maksimalna vrednost uteži uporabnika, ki menja operaterja v marcu
Če naše rezultate primerjamo z deli drugih [32], kjer je krivulja dviga (angl. Lift Curve)
izračunana na najvišjem procentu populacije, ki jo predlaga sistem in najvišja vrednost znaša
8, ter [6], kjer je najvišja krivulja dviga 6, izračunana na 5% populacije in časovnim oknom
enega meseca.
Analiza socialnega omrežja na podlagi zapisov podatkov o klicih
67
S krivuljo dviga se ocenjuje uspešnost modela, kjer velja splošno pravilo, če je krivulja dviga
višja kot 4 v najvišjem procentu populacije, ki ga predlaga sistem, se smatra kot zelo
pomemben. Primer, če ima krivulja dviga vrednost 4 pri 1% najvišje uvrščenih naročnikov,
ki jih predlaga napovedni sistem, potem pričakujemo, da je v tej populaciji štiri krat več
ljudi, ki zamenjajo operaterja, kot pri 1% naključnem vzorcu populacije [32].
Naši rezultati so prikazani na sliki 35 in sicer v populaciji za časovno okno enega meseca
(marec) je pri skalirni vrednosti 0,150, 7,79 krat (velikost populacije glede na celotno je
0.48%) več strank, ki zamenja operaterja, kot v naključno izbrani populaciji.
Najvišje vrednosti dobimo pri 0,14% populacije glede na celotno in skalirnem faktorju 0,9.
Za časovno obdobje med marcem in julijem 7,28 krat večja možnost odhoda stranke, kot v
naključno izbrani populaciji, medtem ko pa je za marec ta vrednost 15,09.
Analiza socialnega omrežja na podlagi zapisov podatkov o klicih
68
8 SKLEP
Rezultati, ki smo jih dobili so v veliki meri odvisni od uteži, na vhodu v model in nastavljenih
parametrov modela. Utež bi lahko nastavili tudi drugače, odvisno od ciljev. Na primer, če bi
bile naš fokus osebe, ki pošljejo veliko tekstovnih sporočil, potem bi lahko utež na vhodu
modela vsebovala samo podatke o tekstovnih sporočilih ali kot razmerje sporočil in klicev,
kjer bi sporočilom določili višjo vrednost. V našem primeru smo poskušali čim bolj
relevantno združiti sporočila in klice tako, da odražajo moč posameznega razmerja. Seveda
vemo, da je težko določiti natančno utež, saj se uporabniške navade razlikujejo od
uporabnika do uporabnika.
Glede na to, da so bili vhodni podatki dolžine enega meseca, bi lahko v prihodnje za vsak
mesec, naredili takšno analizo kot v našem primeru za mesec marec in rezultate združili.
Tako bi lahko dobili precej natančnejše napovedi odhodov strank. V našem delu smo
uporabili vhodne podatke za model analize omrežja s časovnih oknom enega meseca,
katerega bi bilo smiselno zmanjšat ali povečat, ter primerjati dobljene rezultate.
V tem delu, smo vse skupine uporabnikov smatrali kot homogene, v prihodnje bi pa lahko
posameznike razdelili na različne segmente, glede na kriterije zanimanja, ki bi lahko bili od
različnih komunikacijskih vzorcev tekstovnih sporočil, klicev… do demografije, itd.
Kot smo videli, smo pri skaliranju vrednosti dobili dobre rezultate, tako da bi bilo morda
smiselno normalizirat podatke pred vhodom v model, kasneje pa morda uporabiti še kakšne
druge vrste normalizacij ali metode SPA ...
Pri omejitvah dela je vredno poudariti, da so podatki, ki smo jih imeli na voljo za obdelavo
samo od uporabnikov enega telekomunikacijskega operaterja, tako da pri oceni menjave
operaterja ne moremo vključiti vpliva uporabnikov iz drugih omrežij. Časovnih podatkov o
zamenjavah operaterja posameznih uporabnikov nismo imeli, tako da smo pri avtoritetni in
razširjevalni lestvici uporabili najvišje razvrstitve takšnih uporabnikov v posameznih
skupinah. Ob znanem točnem času odhoda posameznega uporabnika, bi lahko slednjega
Analiza socialnega omrežja na podlagi zapisov podatkov o klicih
69
upoštevali pri naši razvrstitvi, tako da bi uporabili uporabnika, ki je v določenem časovnem
obdobju prvi v skupini zamenjal operaterja.
Cilj dela je bil pokazati možnost, da so lahko matematični postopki teorije grafov uporabljeni
v okviru napovedi odhoda stranke kot samostojni napovedni sistem oziroma, da imajo
potencialno informacijsko vrednost kot dodatni KPI (ključni kazalniki uspešnosti) ali
značilke (angl features) pri že obstoječih napovednih modelih. Pokazali smo, da so lahko
matematični postopki teorije grafov skupaj z normalizacijo uteži uporabnikov lahko
primerni za napoved odhodov strank kot samostojen napovedni sistemi, kar posledično lahko
pomeni, da bi lahko bili podatki ob primerni obdelavi primerni kot KPI na vhodu takega
sistema.
Iz podatkov lahko sklepamo, da osebe ki so v stiku z uporabniki, ki menjajo operaterja in so
po izračunu povezanosti zelo blizu ter imajo hkrati visoko normalizacijsko vrednost (glede
na uporabnika, ki menja operaterja) večjo verjetnost menjave operaterja, kot naključno
izbrani del populacije uporabnikov mobilnega operaterja.
Če primerjamo naše delo z delom drugih mobilnih operaterjev na slovenskem prostoru,
potem vidimo, da v je našem delu krivulj dviga višja. V viru [14] je bil pripravljen difuzijski
model, kjer je bil dosežen dvig 4,1 pri 5% zajete celotne populacije, napovedni model
vplivnih uporabnikov z dvigom 1,8 glede na 20% delež celotne populacije in hibridnega
modela, kjer je dosežen maksimalni dvig za TP (pravilno pozitivne primere) okrog 1,3 glede
na 5% zajete populacije. Kljub temu da je pri našem delu krivulja dviga dosega vrednosti do
15, pri manjšem deležu populacije, moramo poudariti, da naš model ni napovedni model,
ampak samo prikazuje delež uporabnikov, ki dodatno zapustijo mobilnega operaterja znotraj
določene populacije. Namreč za uporabnike, ki menjajo operaterja, smo uporabili
najvplivnejše uporabnike in ne njihovega časovnega odhoda, saj tega podatka nismo imeli
na voljo.
Ob primerjavi našega dela (relacijski pristop) z nerelacijskimi metodami strojnega učenja
lahko vidimo v virih [8], kjer je hibridni napovedni model zgrajen iz naključnih gozdov (angl
Analiza socialnega omrežja na podlagi zapisov podatkov o klicih
70
random forests) in gručenja (angl clustering) dosežen dvig 2.8 za 10% populacije. Z uporabi
AddBoost algoritma in logistične regresije v delu vira [40], pa 2.83 dvig na 10% populacije.
Analiza socialnega omrežja na podlagi zapisov podatkov o klicih
71
VIRI IN LITERATURA
[1] Aggarwal, C. Data Mining: The Textbook. Springer, 2015.
[2] Aggarwal, C. Outlier Analysis. New York: Springer, 2013.
[3] Alani, M., M., Guide to OSI and TCP/IP Models. Springer, 2014.
[4] Albert-László, B. Network Science. 2012.
[5] Azevedo, A., Santos, M. F., KDD, SEMMA and CRISP-DM: a parallel overview. In
Proceedings of the IADIS European Conference on Data Mining 2008, (2008), str. 182-
185.
[6] Backiel, A. Predicting time-to-churn of prepaid mobile telephone customers using
social network analysis. Journal of the Operational Research Society. (2016).
[7] Backiel, A., Verbinnen, Y., Baesens, B., Claeskens, G. Combining Local and Social
Network Classifiers to Improve Churn Prediction. IEEE/ACM International Conference on
Advances in Social Networks Analysis and Mining 2015, (2015), str. 651-658.
[8] Bose, I., Chen, X. Hybrid Models Using Unsupervised Clustering for Prediction of
Customer Churn. Journal of Organizational Computing and Electronic Commerce, 19,
(2009), 2, str. 133-151.
[9] Cover, M., T., Joy A., T., Elements of Information Theory, Second Edition. New-York:
John Wiley & Sons, 2006.
[10] Cox, C. An Introduction to LTE: LTE, LTE-Advanced, SAE and 4G Mobile
Communications. A John Wiley & Sons, 2012
[11] Cox, C. Essentials of UMTS. Cambridge University Press, 2008.
[12] Dasgupta, K., Singh, S., Viswanathan, B., Chakraborty, D., Mukherjea, S., Nanavati
A. Social ties and their relevance to churn in mobile telecom networks. EDBT '08
Proceedings of the 11th international conference on Extending database technology:
Advances in database technology. (2008), str. 668-677.
[13] Doyle, J. Estimating Movement from Mobile Telephony Data. Ireland: Department of
Electronic Engineering National University of Ireland Maynooth, 2014.
[14] Droftina, U. Napovedovanje izgube strank ponudnika telekomunikacijskih storitev na
osnovi modela uporabnika in socialnega vpliva omrežnih sosedov. Ljubljana: Fakulteta za
elektrotehniko Univerze v Ljubljani, 2015.
[15] Forrester, D., B. Dependency. Edinburg: AnVi OpenSource Knowledge Trust, 1988.
Analiza socialnega omrežja na podlagi zapisov podatkov o klicih
72
[16] Han, J., Kamber, M., Pei, J. Data Mining: Concepts and Techniques (3rd Edition).
Massachusetts: Elsevier, 2011.
[17] Hasmi, N., Butt, N., A. Customer Churn Prediction in Telecommunication: A Decade
Review and Classification. IJCSI International Journal of Computer Science Issues, 10,
(2013), 2, str. 271-282.
[18] Hawkins, D. Identification of Outliers. Chapman and Hall, (1980).
[19] IBM Corporation, IBM SPSS Modeler Social Network Analysis 15 User Guide. 2012.
[20] IBM Corporation, Introduction to IBM SPSS Modeler and Data mining. 2010.
[21] Korhonen, J. Introduction to 3G Mobile Communications, Second Edition. Boston,
London: Artech House, 2003.
[22] Korhonen, J. Introduction to 4G Mobile Communications-Artech House. Boston,
London: Artech House, 2014.
[23] Košir, A. Opearcijske raziskave v telekomunikacijah. Ljubljana: Založba FE in FRI,
2013.
[24] Lescuyer, P. UMTS: Origins, Architecture and the Standard. Springer-Verlag London
Ltd., 2004.
[25] Mattison, R. Telecom Churn Management. Illinois: XiT Press, 2005.
[26] Mauro, A., Greco M., Grimaldi, M. A formal definition of Big Data based on its
essential features. Library Review, 65, (2016), 3, str. 122-135.
[27] Mozer, M., C., Wolniewicz, R., Grimes, D., B., Johnson E., Kaushansky H. Predicting
Subscriber Dissatisfaction and Improving Retention in the Wireless Telecommunications
Industry. IEEE TRANSACTIONS ON NEURAL NETWORKS, 11, (2000), 3, str. 690-696.
[28] Pang-Ning, T., Steinbach, M., Kumar V. Introduction to Data Mining. Pearson, 2005.
[29] Petersen, J. The Telecommunications Illustrated Dictionary, Second Edition. Boca
Raton: CRC PRESS, 2002.
[30] Pinherio, C. Social Network Analysis in Telecommunication. New Jersey: John Wiley
& Sons, 2011.
[31] Python. Dostopno na: http://www.python.org/about/ [20. 6. 2016].
[32] Richter, Y., Yom-Tov, E., Slonim, N. Predicting customer churn in mobile networks
through analysis of social groups. Proceedings of the 2010 SIAM international conference
on data mining, (2010), str. 732-741.
Analiza socialnega omrežja na podlagi zapisov podatkov o klicih
73
[33] Shearer C., The CRISP-DM Model: The new blueprint for Data Mining. Journal of
Data Warehousing, 5 (2000), 4, str. 13-22.
[34] Suthaharan, S. Machine Learning Models and Algorithms for Big Data Classification.
Springer, 2016.
[35] Vafeiadis, T., Diamantaras, K., I., Sarigiannidis, G., Chatzisavvas, K. A comparison of
machine learning techniques for customer churn prediction. Simulation Modelling Practice
and Theory, 55, (2015), str. 1–9.
[36] Witten, H., I., Eibe, F., A., Hall, M. DATA MINING: Practical Machine Learning
Tools and Techniques. Third Edition. Massachusetts: Elsevier, 2011.
[37] Wong, P., C., Shen, H., W., Johnson, C. R., Chen C., Ross, R. B. The top 10 challenges
in extreme-scale visual analytics. Computer Graphics and Applications IEEE, 32, (2012), 4,
str. 63-67.
Analiza socialnega omrežja na podlagi zapisov podatkov o klicih
Priloga A