Data Mining Tehnike

18
NAZIV FAKULTETA SEMINARSKI RAD DATA MINING TEHNIKE Predmet: Mentor: Ime i prezime: Broj indeksa: Studij: Smjer:

description

Data Mining Tehnike

Transcript of Data Mining Tehnike

naziv fakulteta

SEMINARSKI RAD

DATA MINING TEHNIKE

Predmet:Mentor:

Ime i prezime:Broj indeksa:Studij:Smjer:

MJESTO, 2012.

S a d r a j:

1. UVOD32. DATA MINING42.1. Upotreba52.2. Tipovi data mininga63. DATA MINING TEHNIKE73.1. Clustering83.2. Neuronske mree83.3.Fuzzy logika93.4. Memorijsko zasnovano prosuivanje, MBR103.5. Stablo odluivanja103.6. Analiza pijane torbe11ZAKLJUAK12LITERATURA13

1. UVODU dananje vrijeme velike se kompanije doslovce gue u broju informacija i podataka o svom poslovanju, tritu, konkurenciji, kupcima i ostalim bitnim injanicama vezanim za svoje poslovanje. U konkurentskom svijetu je od velike vanosti mogunost da se doe do znanja koje skrivaju te informacije i podaci.

Data mining predstavlja proces primjene raunarski zasnovane metodologije, ukljuujui nove tehnike otkrivanja znanja iz informacija i prikupljenih podataka, to ini potragu u moru istih. Data mining je u stvari skup tehnika za analizu podataka iji je cilj da u istima pronae odreene zavisnosti te ih protumai i pretoi u vii nivo kvalitetnih informacija.

2. DATA MINING

Data Mining moemo definisati kao proces podrke odluivanju u kojem se trae uzorci informacija u podacima. To je tehnika pretraivanja podataka sa ciljem identifikacije traenih uzoraka i njhovih meusobnih relacija. Jednostavnije reeno, data mining je izdvajanje zanimljivih, novih i potencijalno korisnih informacija ili uzoraka sadranih u velikim bazama podataka.[footnoteRef:2] [2: Suknovi, M.: Data mining - koncepti i tehnike, 2007.]

Osnovni cilj data mininga je otkrivanje skrivenih veza, predvidivih nizova i egzaktnih klasifikacija. Njegova osnovna poruka je da je potrebno da se iz ogromne koliine operativnih podataka i veza koje se ne mogu odmah sagledati definiraju odgovarajue relacije, obrasci ili forme ponaanja to u krajnjem sluaju daje potrebne informacije iz raspoloivih podataka.

Data mining ukljuuje koritenje sofisticiranih alata za analizu i otkrivanje ranije nepoznatih modela i veza[footnoteRef:3]. Takvi alati mogu ukljuivati statistike modele, matematike algoritme te metodu mainskog uenja. Data mining ne predstavlja samo metodu prikupljanja i obrade podatka ve je u data mining ukljuen i proces analize podataka te predvianje. [3: Two Crows Corporation, Introduction to Data Mining and Knowledge Discovery, ThirdEdition (Potomac, MD: Two Crows Corporation, 1999)]

Pretraivanje podataka moe vriti korisnik, ali i neki inteligentni programi koji automatski pretrauju bazu umjesto korisnika i nalaze uzorke.

2.1. Upotreba

Upotreba data mininga je vrlo rairena kako u privatnom tako i u drutvenom sektoru. U zapadno evropskim zemljama banke, osiguravajue kue, te zdravstveni sektor veoma esto koriste data mining kako bi smanjili trokove, potaknuli istraivanje i poveali prodaju. Banke i osiguravajue kue koriste data mining kako bi sprijeili prevare u ovom sektoru te im on pomae u procesu upravljanja rizikom. Podaci o klijentima prikupljali su se tokom godina te se analizom tih podataka moe predvidjeti da li kod nekog klijenta postoji vei ili manji rizik za plasiranje sredstava. Zdravstveni sektor koristi data mining kako bi predvidio efikasnost nekog modela lijeenja. Telefonske kompanije mogu lako predvidjeti na osnovu prikupljenih podataka tko e od klijenata ostati ''vjeran'' kompaniji, a tko e prijei u drugu kompaniju.

U drutvenom sektoru data mining se takoder koristi za sprijeavanje prevara ali se isti koristi i za unapreenje te mjerenje postignua raznih programa. Postoji mnogo primjera kako se moe kvalitetno iskoristiti data mining ali navesti emo jedan od najzanimljivijih . Amerika agencija za zrani promet je metodom data mininga uspjela prepoznati obrasce nastajanja greaka te ih ispraviti ime je sauvala mnoge ljudske ivote tako to su analizirali podatke o padovima aviona.

Na naim prostorima se data mining najvie koristi u marketinkim agencijama koje su usmjerene prema pojedinanom kupcu (CRM). Kao primjere moemo navesti: direktni marketing tu ubrajamo kataloge i ponude razliitih artikala koji se alju kupcima za koje postoji najvea vjerojatnost odaziva; izradu profila kupaca utvruje se uzorak ponaanja kupaca da bi mu se kasnije poslala prilagoena ponuda; segmentaciju utvrivanje grupa kupaca s jednakim karakteristika (uzorkom ponaanja); istraivanje povezanosti prodaje razliitih proizvoda analiza kupovne koare to se moe npr. upotrijebiti za rasporeivanje artikala na policama; stimulacija kupovine drugih artikala istog poduzea, odnosno vee koliine istih artikala, to moe nadoknaditi pridobivanje novih kupaca; zadravanje kupaca ovo je puno jeftinije od pridobivanja novih kupaca.

Npr. slanje reklamnih materijala te odaziv na te kataloge. Postoje dvije mogunosti kome e se katalozi uputiti, hoe li se potencijalni primatelji odabrati nasumino ili uz pomo metode data mininga.

2.2. Tipovi data mininga

Prema opoj funkcionalnosti data mining moe biti: deskriptivan data mining, prediktivan data mining.Deskriptivan data mining model pomae u razumjevanju procesa ili ponaanja koje je opisano podacima. Prediktivan model je jednaina ili skup pravila koji omoguava predikciju zavisne varijable ili atributa na osnovu skupa nezavisnih varijabli. Zavisno od prirode problema odnosno podatka biramo najprikladniji oblik modela.

Slika 1. Proces data mininga

3. DATA MINING TEHNIKE

Data mining se moe podjeliti u nekoliko modela: clustering, neuronske mree, fuzzy logika, memorijsko zasnovano prosuivanje (MBR), stablo odluivanja, analiza pijane torbe.

3.1. Clustering

Clustering je tehnika grupiranja i omoguava grupiranje podataka koji su slini. Grupiranje je u biti razvrstavanje jedinki u skupine u kojima je postignuta njihova najvea slinost (segmentacija kupaca: podatci o starosti, zanimanju, dosadanjoj kupnji). Prilikom podjele u grupe potrebno je zadovoljiti dva osnovna kriterija:1. svaka grupa predstavlja homogeni skup: primjeri koji pripadaju istoj grupi su meusobno slini; 2. svaka grupa mora se razlikovati od ostalih grupa, tj. primjeri koji pripadaju odreenoj grupi znaajno se razlikuju od primjera koji pripadaju ostalim grupama. Zavisno od konkretne tehnike, grupe mogu biti definirane na razliite naine: identificirane grupe mogu biti ekskluzivne, tako da svaki primjer pripada iskljuivo jednoj od grupa; grupe se mogu preklapati; primjer moe istovremeno pripadati nekolicini grupa; grupe mogu biti definirane probabilistiki: u tom sluaju primjer pripada svakoj od grupa s odreenom vjerojatnosti; grupe mogu biti hijerarhijski strukturirane, sa grubom podjelom primjera na najviem nivou, koji se potom moe finije strukturirati na niim nivoima.

3.2. Neuronske mree

Neuronske mree su zamiljene da djeluju slino ljudskom mozgu. One se upotrebljavaju u analizi rizika i prognoziranju npr. vrijednosti dionica. Rudarenje podataka temeljeno na ovoj metodi poinje ''uenjem'' mree pomou podataka za koje je poznata vrijednost koju elimo prognozirati.[footnoteRef:4] Nakon toga naueno znanje se provjerava. Postupak uenja i provjere ponavlja se sve dok rezultati provjere ne budu zadovoljavajui. U osnovi, ova data mining tehnika se svodi na to da se neuronskoj mrei daju odreeni podaci za koje se zna izlazna vrijednost. Na osnovu tih podataka neuronska mrea prepoznaje obrasce podataka. Nakon toga se na osnovu obrazaca pretrauje gomila podataka kako bi se nali kljuni obrasci. Da pojednostavimo, kompanija koja se bavi davanjem kreditnih kartica raspolae sa mnotvom podataka koje je teko analizirati kako bi se prepoznale mogue prevare. Kompanija zna da je od 3000 prijava za karticu barem 100 pokuaj prevare. Neuronska mrea analizira ova dva podatka te na osnovu njih dolazi do obrasca po kojem se mogu prepoznati prevare. Ovaj obrazac se zatim koristi kako bi se ispitali svi podaci kod kompanije. [4: Krulj, D. i ostali: Primjena algoritama data mininga u poslovnom odluivanju, 2007.]

Neuronske mree su pogodne za prepoznavanje finih, skrivenih i novootkrivenih ema odnosa u kompleksnim podacima kao i za interpretaciju i razumijevanje nekompletnih ulaznih podataka.

3.3.Fuzzy logika

Fuzzy logika se moe povezati i usporediti sa klasinom logikom. Osnove klasine logike je uvrstio jo u antikoj Grkoj poznati filozof Aristotel. Ova logika se zasniva na jasnim i precizno utvenim pravilima, a temelji se na teoriji skupova. Neki element moe da pripada ili ne pripada nekom skupu. Skupovi imaju jasno odreene granice. Tako su ovakvi skupovi, pa sa njima i logika, nazvani engleskom rijei crisp, koja ima znaenje jasan, bistar. Fuzzy (/fzi/) je takoer engleska rije koja se prevodi kao maglovito, nejasno, mutno.

U fuzzy logici nije precizno definirana pripadnost jednog elementa odreenom skupu, ve se pripadnost mjeri u procentima. Ove mjere pripadnosti, mogu da uzimaju vrijednosti od 0 do1. Uzmimo kao primjer dane u sedmici i napravimo dva skupa. Skupradnih dana i skup vikend. U crisp logici bi se u skupu radnih dana nali: ponedeljak, utorak, srijeda, etvrtak i petak, a u skupu vikend dana: subota i nedelja, tj. pripadnost elementa nekom skupu bi se izrazila brojem 1, a nepripadanje brojem 0. Meutim u fuzzy zakljuivanju bi situacija bila neto drugaija. Petak, kao dan koji je dijelom radni dan, a dijelom poetak vikenda bio bi negdje na granici ova dva skupa, tj. njegova pripadnost prvom, skupu radnih dana bi se izraavala, npr. brojem 0,75 dok bi pripadnost drugom, skupu vikend dana bila 0,25. Slino bi bilo i za nedelju kao dan koji jeste vikend ali ne sasvim, cijelim svojim trajanjem, jer ipak se nedelja uveer doivljava kao priprema za novu radnu sedmicu odnosno mnogi ljudi e ga okarakterisati kao ne sasvim vikend dan, jer poslije njega dolazi ponedeljak.

Mnoge sline situacije koje nisu jasno razdvojene, koje su mjeavina vie stvari su svakodnevno prisutne oko nas. Ovdje smo na prilino nestabilnom terenu, jer relevantnim postaje subjektivno miljenje o nekoj stvari. ak i kulturoloko naslijee ili generacijske razlike imaju uticaja. Predstavili smo domen u kome jasna da ne (tano netano) logika vie nije upotrebljiva. U fuzzy logici istinitost svake tvrdnje se mjeri u procentima.

3.4. Memorijsko zasnovano prosuivanje, MBR

Memory Based Reasoning je tehnika data mininga koja se koristi za predvianje i klasifikaciju. Ova tehnika je slina tehnici neuronskih mrea s tom razlikom to MBR trai sline podatke odnosno ne trai obrazac podataka. Npr. ukoliko doktor ima pacijenta sa vie simptoma on e na osnovu iskustva sa slinim pacijentima postaviti dijagnozu.

3.5. Stablo odluivanja

Decision Tree ili stablo odluivanja je popularan metod za klasifikaciju i odluivanje. Koritenje serije pitanja i pravila za kategorizaciju podataka mogu se predvidjeti mogui ishodi. Stablo odluivanja predstavlja tehniku odluivanja koja se temelji na odnosima izmeu strategije i stanja, a koriste se za rjeavanje sloenih problema financija, marketinga, uvoenja novih proizvoda i slino. Slika 2. prikazuje primjenu tehnike stabla odluivanja kod procjene rizika poslovanja preduzea.

Slika 2. Procjena rizika poslovanja

Stablo odluivanja se zasniva na etiri osnovne varijable:1. kostur stabla odluivanja, koji pomou grafikona pokazuje strategije, mogue posljedice svake strategije i identificirano stanje,2. vjerovatnou razliitih posljedica izabrane strategije,3. uslovnu vrijednost (trokovi) pripadajue posljedice,4. oekivana vrijednost za pripadajue plaanje ili trokove.

3.6. Analiza pijane torbe

Market Basket Analysis (MBA) ili analiza pijane torbe se esto naziva i grupiranje po slinosti. Koristi se za pronalaenje grupe artikala koji se najee zajedno dogaaju u jednoj transakciji. Analiza pijane torbe se bazira na teoriji da je vea vjerovatnoa da e se kupiti proizvod A ako se kupi proizvod B. Ova data mining tehnika se iroko upotrebljava u samoposlugama i trnim centrima, a u principu se radi o sljedeem; kupac koji se odlui da kupi vino esto se odluuje da uz vino kupi i sir. Ovaj podatak predstavlja menaderima vanu informaciju jer e uz vino izloiti i sir. Ovaj model se primjenjuje kako bi se usporedili podaci o vie razliitih lokacija te o navikama kupaca na razliitim lokacijama. Analize se mogu vriti po vie kriterija pa tako i na osnovu lokacije trnog centra, dana u sedmici kada se vri kupovina, doba godine itd.

ZAKLJUAK

Data mining je preteno nova ali i veoma mona tehnologija, koja je doivjela veliki razvoj zahvaljujui razvoju raunarske tehnologije, jer je tek razvojem brzih raunarskih sistema postalo mogue efikasno pretraivati velike koliine sirovih informacija. Iz tog je razloga proces data mininga neraskidivo vezan za raunar. Pomou posebnog softvera veliki raunarski sistemi analiziraju podatke iz razliitih uglova, te pronalaze hipoteze isprobavaju ih i ue na prethodnim iskustvima. Bitno je imati u vidu da je softver samo alat i da je i dalje neophodno prisustvo eksperata koji e dati posljednju rije. U prvoj fazi obrade raunarski sistemi su nezamjenjivi zbog svoje brzine i odsustva predrasuda. Za razliku od ovjeka, kojem bi neka oigledna veza izmeu dva podatka promakla jer se nalazi izvan okvira njegovog oekivanja, raunaru takva greka ne moe da se dogodi. Takoer, ovjek moe da bude rtva uslovljenosti prethodnim iskustvom, to moe da bude i pozitivno i negativno, ali je to u svakom sluaju nemogue izbjei.

LITERATURA

Suknovi, M.: Data mining - koncepti i tehnike, 2007. Krulj, D. i ostali: Primjena algoritama data mininga u poslovnom odluivanju, 2007. Two Crows Corporation, Introduction to Data Mining and Knowledge Discovery, Third Edition (Potomac, MD: Two Crows Corporation, 1999) www.wikipedia.org

13