Business Intelligence: DATA MINING
description
Transcript of Business Intelligence: DATA MINING
![Page 1: Business Intelligence: DATA MINING](https://reader036.fdocument.pub/reader036/viewer/2022062309/568145df550346895db2e122/html5/thumbnails/1.jpg)
Business Intelligence:DATA MINING
‘Graven in Criminele Carrières’
Tim Cocx, 2009
![Page 2: Business Intelligence: DATA MINING](https://reader036.fdocument.pub/reader036/viewer/2022062309/568145df550346895db2e122/html5/thumbnails/2.jpg)
04/21/23 Tim Cocx, [email protected] 2
Data ‘flood’
• Steeds meer gegevens worden gegenereerd!(data)
Bank, telecom, andere zakelijke transacties ...Wetenschappelijke data: astronomie, biologieWeb, tekst, en E-commerce.
![Page 3: Business Intelligence: DATA MINING](https://reader036.fdocument.pub/reader036/viewer/2022062309/568145df550346895db2e122/html5/thumbnails/3.jpg)
04/21/23 Tim Cocx, [email protected] 3
Gevolgen en mogelijkheden
• Twee keer zoveel data werd gemaakt in 2002 als in 1999 (~30% gegroeid)
• Gevolg: heel weinig van deze gegevens worden ook daadwerkelijk ooit door een mens bekeken!!– Alleen google heeft al 1/3 van de hele mensheid aan
Word-documenten op geslagen!
• Daarom: Automatische technieken nodig om nog wat nuttigs met de gegevens te doen.
• Maar ook: Opdoen van kennis die ‘we’ nog niet eerder hadden.
![Page 4: Business Intelligence: DATA MINING](https://reader036.fdocument.pub/reader036/viewer/2022062309/568145df550346895db2e122/html5/thumbnails/4.jpg)
Enter: Business Intelligence
21-04-23 Tim Cocx, 2009 4
Die Hele Grote
Database
Business Inelligence
Data Warehouse
Querying
Die Belangrijke Rapportage
Data Mining
OLAPAlarmbellen
BI 2.0
?
Offline herinrichten
![Page 5: Business Intelligence: DATA MINING](https://reader036.fdocument.pub/reader036/viewer/2022062309/568145df550346895db2e122/html5/thumbnails/5.jpg)
OLAP
• Behoefte af te stappen van gedetailleerde vragen.– Geef mij alle koffie opbrengsten USA van 2006– Geef mij alle koffie opbrengsten USA van 2007– Geef mij…..– En nu van Europa– En nu van Nederland– En nu van Snacks– En nu van de 100% Halal kipfrikadel
21-04-23 Tim Cocx, 2009 5
![Page 6: Business Intelligence: DATA MINING](https://reader036.fdocument.pub/reader036/viewer/2022062309/568145df550346895db2e122/html5/thumbnails/6.jpg)
OLAP
• Dit kan dus handiger• Software tools die mbv data warehouse de
gegevens handig presenteren.• Selecteer ‘dimensies’ en ‘data’
– Dimensie: Regio & product-type– Data: verkoopcijfers– Presenteer in (2-dimensionaal) tabelletje
21-04-23 Tim Cocx, 2009 6
![Page 7: Business Intelligence: DATA MINING](https://reader036.fdocument.pub/reader036/viewer/2022062309/568145df550346895db2e122/html5/thumbnails/7.jpg)
OLAP
• Dus: OLAP is heel handig om veel informatie snel overzichtelijk te krijgen.
• Nadelen:– Iemand weten de juiste vragen te stellen.
Kan heel lastig zijn.
– Die iemand moet worden betaald.– Die iemand moet aan het werk zijn.– De rapportages moeten gelezen en
geïnterpreteerd worden.
21-04-23 Tim Cocx, 2009 7
![Page 8: Business Intelligence: DATA MINING](https://reader036.fdocument.pub/reader036/viewer/2022062309/568145df550346895db2e122/html5/thumbnails/8.jpg)
Data Mining
• Oplossing: Data mining– Computergestuurd proces.– Automatische vragen.– Automatische analyses– Automatische response
• Nadeel– Nog steeds interpretatie nodig
• Heel belangrijk
21-04-23 Tim Cocx, 2009 8
![Page 9: Business Intelligence: DATA MINING](https://reader036.fdocument.pub/reader036/viewer/2022062309/568145df550346895db2e122/html5/thumbnails/9.jpg)
04/21/23 Tim Cocx, [email protected] 9
Data mining
• Data mining is 1 van de moderne speerpunten binnen Business Intelligence
![Page 10: Business Intelligence: DATA MINING](https://reader036.fdocument.pub/reader036/viewer/2022062309/568145df550346895db2e122/html5/thumbnails/10.jpg)
04/21/23 Tim Cocx, [email protected] 10
Data mining: definitie
• Data mining is het automatische proces van het vinden van– Valide (= waar),– Nieuwe,– mogelijk bruikbare– En uiteindelijk begrijpelijke patronen in data.
![Page 11: Business Intelligence: DATA MINING](https://reader036.fdocument.pub/reader036/viewer/2022062309/568145df550346895db2e122/html5/thumbnails/11.jpg)
04/21/23 Tim Cocx, [email protected] 11
Data mining en andere wetenschappen
DatabasesComputerStatistiek
VisualisatieMachine Leren
Data Mining
Business Inelligence
![Page 12: Business Intelligence: DATA MINING](https://reader036.fdocument.pub/reader036/viewer/2022062309/568145df550346895db2e122/html5/thumbnails/12.jpg)
Classificatie# poten Vleugels Type mond Staart # kinderen
5 nee mond nee 1
04/21/23 Tim Cocx, [email protected] 12
Voorspellen van klasse van dit dier
Zoogdier
Vis
Insect
Vogel, etc
Antwoord: Zeester Asteroidea
![Page 13: Business Intelligence: DATA MINING](https://reader036.fdocument.pub/reader036/viewer/2022062309/568145df550346895db2e122/html5/thumbnails/13.jpg)
04/21/23 Tim Cocx, [email protected] 13
Clustering
• Grote tabel met alle dieren en hun eigenschappen:
Pokemon
Vogels
Vissen
Zoogdieren
![Page 14: Business Intelligence: DATA MINING](https://reader036.fdocument.pub/reader036/viewer/2022062309/568145df550346895db2e122/html5/thumbnails/14.jpg)
04/21/23 Tim Cocx, [email protected] 14
Associaties
• Alle boodschappenmandjes Albert Heijn in december.
• Uitvinden welke producten vaak samen verkocht worden (handige reclame!)
![Page 15: Business Intelligence: DATA MINING](https://reader036.fdocument.pub/reader036/viewer/2022062309/568145df550346895db2e122/html5/thumbnails/15.jpg)
04/21/23 Tim Cocx, [email protected] 15
Afwijking detectie
• Omgekeerd van hiervoor: geen algemene waarheden vinden, maar afwijkingen daarvan
• Alle banktransacties en hun kenmerken• Het automatisch vinden van zwart geld
(anders dan standaard)• Het automatisch vinden van witwas praktijken
![Page 16: Business Intelligence: DATA MINING](https://reader036.fdocument.pub/reader036/viewer/2022062309/568145df550346895db2e122/html5/thumbnails/16.jpg)
04/21/23 Tim Cocx, [email protected] 16
‘Link’ analyse
• Aan de hand van telefoontjes criminele netwerken vaststellen:
![Page 17: Business Intelligence: DATA MINING](https://reader036.fdocument.pub/reader036/viewer/2022062309/568145df550346895db2e122/html5/thumbnails/17.jpg)
Text mining
• Welke emails gaan over hetzelfde onderwerp?– Wat zijn de belangrijke deelconcepten– Terrorisme– Reclame-matching– Search engine
• Kan ik een betoog automatisch structureren uit een tekst?– Omgekeerde van Rationale
• Welk document is door wie geschreven?
21-04-23 Tim Cocx, 2009 17
![Page 18: Business Intelligence: DATA MINING](https://reader036.fdocument.pub/reader036/viewer/2022062309/568145df550346895db2e122/html5/thumbnails/18.jpg)
Beroemde succesverhalen
• Succes ligt vaak in combinatie van methodieken:
• ENRON– Mega energieconcern USA– Door grootschalige fraude omgevallen– Bewijsvoering tegen directie mbv textmining en
linkanalyse tot stand gekomen.
21-04-23 Tim Cocx, 2009 18
![Page 19: Business Intelligence: DATA MINING](https://reader036.fdocument.pub/reader036/viewer/2022062309/568145df550346895db2e122/html5/thumbnails/19.jpg)
Beroemde succesverhalen
21-04-23 Tim Cocx, 2009 19
@@@ @
@
@@
@
@@
@
@@
@
@ @@
@@
@@
@
@@
@
@ @
@
@
@@@ @
@
@@
@
@@
@
@@
@
@ @@
@@
@@
@
@@
@
@ @
@
@@
@@ @
@
@@
@
@@
@
@@
@
@ @@
@@
@@
@
@@
@
@ @
@
@
@@@ @
@
@@
@
@@
@
@@
@
@ @@
@@
@@
@
@@
@
@ @
@
@
@@@ @
@
@@
@
@@
@
@@
@
@ @@
@@
@@
@
@@
@
@ @
@
@
@@@ @
@
@@
@
@@
@
@@
@
@ @@
@@
@@
@
@@
@
@ @
@
@
@@@ @
@
@@
@
@@
@
@@
@
@ @@
@@
@@
@
@@
@
@ @
@
@@@
@
@
@@
@@@
@
@@
![Page 20: Business Intelligence: DATA MINING](https://reader036.fdocument.pub/reader036/viewer/2022062309/568145df550346895db2e122/html5/thumbnails/20.jpg)
04/21/23 Tim Cocx, [email protected] 20
Mijn onderzoek: DALE
• Data Assistance for Law Enforcement• Project ingediend bij NWO
– Organisatie van de staat om wetenschappelijk onderzoek te financieren.
• Samenwerking met het KLPD (nationale politie)• Data mining toepassen op de data verzameld door
alle Nederlandse korpsen.• Onder andere: relaties tussen misdaden, drugs-
emails vergelijken en criminele carrières.
![Page 21: Business Intelligence: DATA MINING](https://reader036.fdocument.pub/reader036/viewer/2022062309/568145df550346895db2e122/html5/thumbnails/21.jpg)
04/21/23 Tim Cocx, [email protected] 21
Onderzoeksgebied
Criminele CarriereOnderzoek
Sociologie
Psychologie
Criminologie
Rechten
Informatica
![Page 24: Business Intelligence: DATA MINING](https://reader036.fdocument.pub/reader036/viewer/2022062309/568145df550346895db2e122/html5/thumbnails/24.jpg)
04/21/23 Tim Cocx, [email protected] 24
‘Afstanden’ tussen criminelen
• Hoe verder criminelen van elkaar staan: hoe minder hun carrières op elkaar lijken.
• Afstand 0 precies dezelfde carrières• Afstand 1 maximaal verschillende carrières
11 / 20
![Page 26: Business Intelligence: DATA MINING](https://reader036.fdocument.pub/reader036/viewer/2022062309/568145df550346895db2e122/html5/thumbnails/26.jpg)
04/21/23 Tim Cocx, [email protected] 26
Landelijke HKS
• Database met de alle strafbladen van Nederland
• Ongeveer 1.000.000 plegers.• Bevat alle overtredingen van personen die na
1995 een misdrijf begaan hebben.• Bevat naast de misdaden ook gegevens over
leeftijden, woonplaats, afkomst ed.• geanonimiseerd!
![Page 27: Business Intelligence: DATA MINING](https://reader036.fdocument.pub/reader036/viewer/2022062309/568145df550346895db2e122/html5/thumbnails/27.jpg)
04/21/23 Tim Cocx, [email protected] 27
Voorspelling
• Het zou fijn zijn als er van een beginnende crimineel een voorspelling gemaakt kon worden over zijn carriere.
Jaar 1
Jaar 2Jaar 3
Jaar 6?
Jaar 6?
Jaar 6?
![Page 28: Business Intelligence: DATA MINING](https://reader036.fdocument.pub/reader036/viewer/2022062309/568145df550346895db2e122/html5/thumbnails/28.jpg)
04/21/23 Tim Cocx, [email protected] 28
Verschillende Manieren
• Verschillende methoden leiden tot verschillende uitkomsten
• Welke is de beste?
![Page 29: Business Intelligence: DATA MINING](https://reader036.fdocument.pub/reader036/viewer/2022062309/568145df550346895db2e122/html5/thumbnails/29.jpg)
04/21/23 Tim Cocx, [email protected] 29
Uitkomsten
• Methode 4 is de beste.• Bij 3 beschikbare jaren kunnen we een carrière met
89% nauwkeurigheid voorspellen!• Alarmbellen bij de politie• Andere aparte uitkomsten in relaties tussen
misdaadkenmerken:– Drugssmokkel en drugsverslaving– Verkeersmisdrijven en buiten de randstad– Joyriden en overtreden arbeidswet
![Page 30: Business Intelligence: DATA MINING](https://reader036.fdocument.pub/reader036/viewer/2022062309/568145df550346895db2e122/html5/thumbnails/30.jpg)
Data mining: waarschuwing• Privacy
– Mogen de gegevens wettelijk / ethisch wel voor dit doel gebruikt worden?
• Interpretatie– Weet de ‘lezer’ wel hoe de gegevens tot stand zijn gekomen?– Begrijpt hij de teksten / plaatjes wel?
• Statistische validiteit– De ‘waarheid’ wordt opgeleverd met zekere
betrouwbaarheid• Mogen individuen op basis daarvan ‘gediscrimineerd’ worden?• Bij 90%? Bij 98%? Bij 99.99%?
21-04-23 Tim Cocx, 2009 30