Data Analytics - ikt.saarlandikt.saarland/.../IKT/22.02.2016/Data_Analytics_20160222_final.pdf ·...
Transcript of Data Analytics - ikt.saarlandikt.saarland/.../IKT/22.02.2016/Data_Analytics_20160222_final.pdf ·...
Data Analytics Wie sich Daten sinnvoll nutzen lassen
Prof. Dr. Stefan Selle
Netzwerk ikt.saarland bei saar.is BVL, Regionalgruppe Saar/Rheinpfalz
22.02.2016
Agenda
≡ DIGITALISIERUNG
≡ BUSINESS INTELLIGENCE / BIG DATA
≡ DATA MINING & PREDICTIVE ANALYTICS
I
DIGITALISIERUNG
20.01.2016 Deutsche-Bank-Chef John Cryan:
» Bargeld wird in 10 Jahren verschwinden. « 4
Foto
: Deu
tsch
e Ba
nk
htw saar Forschungsprojekt 2015:
Mobile Payment 5
Foto: Mobile Marketing Magazine
htw saar Forschungsprojekt 2015: Globus-Kundenumfrage (n = 6.536)
Was meint der Kunde?
Empfehlung für den stationären Handel Abwarten: GAFA oder PayPal werden „übernehmen“ Auf anderen Gebieten zu punkten (z.B. Digitale Belege)
6
Quelle: Hälsig (2015)
67%
84%
88%
89%
94%
98%
99%
0% 20% 40% 60% 80% 100%
Mobilität
Schnelligkeit
Nützlichkeit
Bedienkomfort
Kosten
Zuverlässigkeit
Sicherheit
Wichtige Kriterien bei einem Bezahlverfahren Nutzung der Zahlungsmöglichkeiten im stationären Handel
5%
7%
7%
16%
44%
81%
86%
0% 20% 40% 60% 80% 100%
Geldkarte (aufgeladene EC-Karte)
Kontaktloses oder mobiles bezahlen…
Sonstiges (Gutscheine, Rechnung,…
Handelskarte mit Bezahlfunktion…
Kreditkarte
Barzahlung
EC- und Maestro Karte
5% 6% 5%
79%
26% 26% 34%
86%
SMS In App-Payment Smartphone mobile Webseiten
+ 29% In 3 Jahren
Aktuell
Vergleich mobiler Zahlungsarten
30%
38%
45%
46%
46%
0% 10% 20% 30% 40% 50%
M-Recommendations
M-Tickets
M-Treuekarte
M-Coupons
M-Receipt
Attraktive Mehrwertdienste
GAFA
Zum Vergleich:
DAX-30-Unternehmen: 924 Mrd. Euro = 1.040 Mrd. USD (*)
Bruttoinlandsprodukt von Österreich (8,7 Mio. Einwohner) im Jahr 2014: 437,12 Mrd. USD (Nr. 27 weltweit)
(*) Stand: 12.02.2016
7
442 Mrd. USD + 542 Mrd. USD + 234 Mrd. USD + 239 Mrd. USD
= 1.439 Mrd. USD Marktkapitalisierung (*)
Umsatz 2015: 434 Mrd. USD
Quellen: comdirect (2016), statista (2016)
+38 %
17 Jahre 39 Jahre 12 Jahre 21 Jahre
Google weiß, wo man sich befindet 8
Z
Knowledge Graph
Apple weiß, wie man Kunden / Konsumenten begeistert 9
iTunes
Musik
Filme
Serien
App Store
Software
eBooks
Spiele
iCloud
Medien
Docs
Fotos
Geschlossenes Ökosystem
Facebook kennt uns besser als Freunde und Familie
2015: Studie mit 86.220 Freiwilligen Kooperation der Universität Cambridge mit der Stanford-Universität
Fragebogen mit 100 Elementen zum Fünf-Faktoren-Modell (FFM) der Persönlichkeitspsychologie / „Big Five“ Neurotizismus, Extraversion, Offenheit für Erfahrungen,
Gewissenhaftigkeit und Verträglichkeit
Computer-Algorithmus (Lineare Regression) vs. Einschätzung von Personen ab 10 Likes: Computer ist besser als Arbeitskollegen ab 70 Likes: Computer ist besser als Freunde ab 150 Likes: Computer ist besser als Familie ab 300 Likes: Computer ist besser als Ehepartner
Ein durchschnittlicher Facebook-Nutzer teilt 227 Likes Zum Selbst-Testen: http://applymagicsauce.com/you.html
10
Quelle: Youyou, W., Kosinski, M., Stillwell, D.: Computer-based personality judgments are more accurate than those made by humans, Proceedings of the National Academy of Sciences of the United States of America 112 (2015) 1036 – 1040.
Amazon weiß schon vorher, was man gleich kaufen wird 11
Ihnen könnten diese Artikel gefallen
Sie haben angesehen
Ähnliche Artikel wie die, die Sie sich angesehen haben
Inspiriert von Ihren Stöber-Trends
Kunden, die diesen Artikel gekauft haben, kauften auch
Wird oft zusammen gekauft
Foto: desktopwallpapers.co
Daten werden zur strategischen Ressource 12
Daten als Prozess-ergebnis
Daten als Befähiger von Prozessen
Daten als Befähiger von Produkten
Daten als Produkt
Wertbeitrag
Zeit
Quelle: Otto (2015)
II
BUSINESS INTELLIGENCE /
BIG DATA
Wo kommen die Daten her? 14
Internet, XaaS, Cloud Computing
Embedded Systems, Sensoren, M2M
Mobile Apps & Location Bases Services
Web 2.0, Social Media Streaming Dienste
PPS, WaWi, ERP, CRM, SCM, …
Wie werden die Daten gespeichert? 15
NoSQL
Traditionelle DBMS OLTP
DW OLAP
Traditionelle Datenbank
* seit den 1970er Jahren; Edgar F. Cobb (IBM) (Mathematisch fundiertes) relationales Modell als Grundlage Daten in zweidimensionalen Tabellen (Spalten, Zeilen)
Normalisierung: Redundanzfreie Speicherung
ACID-Prinzip: Atomicity, Consistency, Isolation, Durability Standardisierte Schnittstelle SQL: Structured Query Language Physikalisch: Zeilenweises Speichern auf Festplatte (Datensatzorientiert)
Optimiert für viele schreibende Operationen / Transaktionen
OLTP: Online Transactional Processing
Aber: Nicht konzipiert und optimiert für Analysezwecke
16
Traditionelle DBMS OLTP
Data Warehouse
Physische Datenbank zur Integration von Daten aus beliebigen, heterogenen Quellen zu Analysezwecken Daten ändern sich nicht mehr, d.h. nur lesende Zugriffe Optimierung auf Performance, Redundanzen sind sinnvoll
„Single point of truth“ (als Basis eines BI-Systems) Multidimensionale Schemata
Fakten und Dimensionen Stern, Schneeflocke, Galaxie
OLAP: Online Analytical Processing Multidimensionale, konzeptionelle
Sicht auf Daten (in Form eines Cubes)
Aufwendiger ETL-Prozess Extrahieren, Transformieren, Laden Daten bereinigen, harmonisieren, …
17
DW OLAP
In Memory Datenbank
Daten liegen vollständig und permanent im Arbeitsspeicher Höhere Hardwareanforderungen als bei konventionellen Datenbanken Abgestimmtes Sicherungskonzept, da es sich beim RAM um einen
flüchtigen und nicht einen persistenten Arbeitsspeicher handelt
Sehr schnelle Zugriffzeiten Ca. 100 ns statt 1.000.000 ns bei einer traditionellen DB
Daten liegen in komprimierter Form vor Zeilen- und Spaltenorientiertes Arbeiten
OLTP (Online Transaction Processing) OLAP (Online Analytical Processing)
Beispiel: SAP HANA
18
Quelle: Oracle (2016)
NoSQL-Datenbank
Not only SQL „Strukturierte Datenspeicher“, aber kein relationales DBMS Flexible Speichermöglichkeiten statt starre Schema-Definitionen Performance ist wichtiger als Konsistenz (kein ACID-Prinzip) Skalierbarkeit: Verteilung der Daten auf Cluster (z.B. Hadoop)
19
NoSQL
Kategorie
Dokumentenorientiert
Spaltenorientiert
Key-Value Store
Graph
Anwendung
Unstrukturierte Daten
Analysen
Listen, Sets
Knoten & Beziehungen
Beispiele
MongoDB, CouchDB
Cassandra, HBase
Redis, Memcache, Riak
Neo4j, Giraph
Big Data: Die 4 Vs 20
Volume
data at rest Terabytes Petabytes Exabytes
Velocity
data in motion Echtzeit Neartime Streams
Variety
data in many forms Strukturierte Daten Semistrukturierte Daten Unstrukturierte Daten
Veracity
data in doubt Fehlende Daten Ungenaue Daten Fehlerhafte Daten
Quelle: Walker (2012)
BI / Big Data in einer integrierten Anwendungslandschaft 21
Quelle: BITKOM (2012)
Komplexität
Komplexes BI-System vs. Tabellenkalkulation / Excel
» 90 % der untersuchten Mappen mit mehr als 150 Zeilen enthalten mindestens einen Formel-Fehler. « Quelle: Freeman, D. : How to Make Spreadsheets Error-Proof, Journal of Accountancy 181 (1996) 75 – 77.
» In 20 von 22 analysierten Mappen waren signifikante Fehler (91 %). Das Erstaunliche daran ist jedoch, dass 81 % der Anwender trotzdem davon ausgehen, sie würden auf dieser Grundlage einen wesentlichen Vorteil gegenüber Wettbewerbern erlangen. «
Quelle: KPMG Management Consulting: Supporting the Decision Maker: A Guide to the Value of Business Modeling, 30.07.1998.
» In 7 unabhängigen Studien wurden insgesamt 113 Mappen untersucht und dabei in 88 % der Fälle größere Fehler gefunden. «
Quelle: Panko, R.R.: What We Know About Spreadsheet Errors, Journal of End User Computing's 10 (1998) 15 – 21.
Ein prominentes Beispiel Kenneth Saul Rogoff, US-amerik. Ökonom und Professor an der Harvard University Mai 2010: Growth in a time of debt (zusammen mit Carmen Reinhart):
Das Wirtschaftswachstum einer Volkswirtschaft verringert sich dann stark, wenn die Verschuldung auf mehr als 90 Prozent des Bruttoinlandsproduktes steigt. Empfehlung: Radikale Sparpolitik!
April 2013: Studienarbeit des VWL-Studenten Thomas Herndon: Die Excel-Tabelle zur Berechnung enthielt Fehler. Einige Daten wurden nicht berücksichtigt, andere falsch gewichtet.
22
Foto: Jason Grow
Datenvirtualisierung: Reduzierung von Komplexität
Abstrahieren und Integrieren über Schnittstellen (statt Duplizieren per ETL-Prozess)
23
Quelle: Denodo (2016)
III
DATA MINING &
PREDICTIVE ANALYTICS
25
Foto: Elsevier Inc.
Cross Industry Standard Process for Data Mining (CRISP-DM) 27
Geschäfts-verständnis
Daten-verständnis
Daten-aufbereitung
Modell-bildung
Modell-bewertung
Einsatz der Ergebnisse
Quelle: Chapman (2000)
Kategorien im Data Mining 28
Prognosen Assoziation Segmentierung Klassifikation Vi
sual
isie
rung
Besc
hrei
bung
Identifikation von Trends im
Datenzeitbezug
Suche nach Abhängigkeiten zwischen den
Objekten
Erschaffen einheitlicher, homogener
Objektteilmengen
Aufteilung der Objekte in
vordefinierte Klassen
Beis
piel
Vorhersage in Verkauf und Umsatz
(→ Absatz-/ Produktionsplanung)
Analyse von Shopping-
Warenkörben (→ Produkt-
empfehlungen)
Erstellen eines Kunden-Portfolios (→ Differenziertes
Marketing)
Churn-Analyse (→ Kunden-bindungs-
maßnahmen)
Quelle: in Anlehnung an Strohmeier (2009)
Methoden und Algorithmen: Eine Auswahl 29
Kategorie
Klassifikation
Segmentierung
Prognose
Assoziation
Methode
Naive Bayes
Entscheidungsbaum
Neuronale Netze
Clusteranalyse
Regressionsanalyse
Stochastische Meth.
Assoziationsregeln
Algorithmus
Max a posteriori
ID3 bzw. C4.5
CART
MLP / Backpropagation
SOM / Kohonen
Hierarchisches Clustering
k-Means
Autoregressive Prozesse
Apriori-Algorithmus
Parameter
Information Gain
Gini-Index
Single Linkage
Complete Linkage
Average Linkage
Zentroid
Ward
AR(p)
ARMA(p,q)
ARIMA(p,d,q)
Confidence, Support
Data Analytics
» Die Lehre oder Kunst des Analysierens, also der Durchführung von Datenanalysen «
30
Quelle: Dorschel (2015)
und
Data Mining Methoden werden angewendet
Beispiel: Predictive Maintenance – Vorausschauende Wartung
Wann wird eine Maschine ausfallen?
Prognose / Ausreißeranalyse Überwachtes Lernen, d.h. Lernen aus Erfahrungen mit Störungen, Ausfällen, kritischem Verhalten usw. Daten: Wartungs-Logs, Konfigurationen, Sensor- und Telemetrie-Daten usw. [kontinuierliches Messen]
Unterschiedliche Ansätze White Box [Strukturmodell]: Kausale Zusammenhänge des Systems werden über physikalische Gesetze
modelliert, z.B. Schwingungs-/Vibrationsgleichungen => Simulationen zu kritischem Systemverhalten Black Box [Verhaltensmodell]: Ein-Ausgangsverhalten (Input: Sensordaten, Output: Maschinenzustand)
wird gelernt, ohne die genaue innere Struktur zu kennen; z.B. durch Künstliche Neuronale Netze (KNN)
Methoden Kombination etablierter Verfahren: Clusteranalyse, Klassifikation, Regression, …
Herausforderungen Kein Patentrezept für unterschiedliche Maschinen (Produktionsanlagen, Windräder, Flugzeuge, LKWs, …)
31
Master-Kurs „Data Science“ an der htw saar
Vorlesung mit integrierten praktischen Übungen
SAP Business Warehouse Data Warehousing Workbench: Modellierung, ETL-Prozess, InfoCube-Analysen
KNIME Analytics Data Mining Workflows
zukünftig: Raspberry-Pi-Cluster mit Hadoop bzw. Spark für BIG DATA
32
Vielen Dank für Ihre Aufmerksamkeit! 33
Prof. Dr. Stefan Selle HTW des Saarlandes Waldhausweg 14 66123 Saarbrücken 0681 / 58 67 - 515 [email protected]
Quellenverzeichnis (1/2)
BITKOM (2012) BITKOM: Big Data im Praxiseinsatz – Szenarien, Beispiele, Effekte, 18.09.2012, URL: https://www.bitkom.org/Bitkom/Publikationen/Leitfaden-Big-Data-im-Praxiseinsatz- Szenarien-Beispiele-Effekte.html
Chapman (2000) Chapman, P. et al.: CRISP-DM 1.0, Step-by-step data mining guide, August 2000, URL: http://www.the-modeling-agency.com/crisp-dm.pdf
comdirect (2016) comdirect: Informer, aufgerufen: 12.02.2016, URL: https://www.comdirect.de Denodo (2016) Denodo: Data Virtualization, aufgerufen: 12.02.2016, URL: http://www.denodo.com
/en/data-virtualization/overview Dorschel (2015) Dorschel, J.: Praxishandbuch Big Data, Springer Gabler, Wiesbaden, 2015. Freeman (1996) Freeman, D. : How to Make Spreadsheets Error-Proof, Journal of Accountancy 181
(1996) 75 – 77. Hälsig (2015) Hälsig, F., Schwarz, N., Selle, S.: Untersuchung und Entwicklung von integrativen
Lo ̈sungen im Mobile Commerce in Deutschland: Eine Studie im Rahmen des Research Pool 2014, Hochschule für Technik und Wirtschaft des Saarlandes, Saarbrücken, 2015.
KPMG (1998) KPMG Management Consulting: Supporting the Decision Maker: A Guide to the Value of Business Modeling, 30.07.1998.
34
Quellenverzeichnis (2/2)
Oracle (2016) Oracle: Database In-Memory, aufgerufen: 12.02.2016, URL: http://www.oracle.com/ technetwork/database/in-memory/overview/index.html
Otto (2015) Otto, B.: Industrial Data Space im Überblick, Fraunhofer Institut für Materialfluss und Logistik, Dortmund, 30.10.2015, URL: http://de.slideshare.net/borisotto/berblick- zum-industrial-data-space
Panko (1998) Panko, R.R.: What We Know About Spreadsheet Errors, Journal of End User Computing's 10 (1998) 15 – 21.
statista (2016) statista: Bruttoinlandsprodukt (BIP) in Österreich bis 2015, aufgerufen: 12.02.2016, URL: http://de.statista.com/statistik/daten/studie/14390/umfrage/ bruttoinlandsprodukt-in-oesterreich/
Strohmeier (2009) Strohmeier, S.: Informationssysteme im Management, Vorlesungsunterlagen Sommersemester 2009, Universität des Saarlandes.
Walker (2012) Walker, M.: Data Veracity, 28.12.2012, URL: http://www.datasciencecentral.com/ profiles/blogs/data-veracity
Youyou (2015) Youyou, W., Kosinski, M., Stillwell, D.: Computer-based personality judgments are more accurate than those made by humans, Proceedings of the National Academy of Sciences of the United States of America 112 (2015) 1036 – 1040.
35