Datenanalyse in der Praxis
Bild durch Klicken auf Symbol hinzufügen
Bild durch Klicken auf Symbol hinzufügen
Bild durch Klicken auf Symbol hinzufügen
Agenda Datenanalyse am Beispiel Datenanalyse im Enterprise Bereich
Datenanalyse am Beispiel Aufgabe:
Wo begegnet uns Datenanalyse ?
Sammelt Beispiele aus eurem Wissen!
Kursziel Einblick in Datenanalyse
Architekturen kennen Methoden und Konzepte Kennenlernen Gelerntes praktisch ausprobieren Ausprägungen kennen lernen
Agenda des Kurses Grundlagen von Datenanalyse und Beispiele Datenanalyse in Unternehmen Freie Daten und Datenquellen Datenanalyse am Beispiel mit Power * Andere Formen der Datenanalyse
Ausprägungen von Datenanalyse
Data Warehouse Systeme
Motivation
Bild durch Klicken auf Symbol hinzufügenDatenanalyse im
Enterprise Bereich
Bild durch Klicken auf Symbol hinzufügen
Bild durch Klicken auf Symbol hinzufügen
Folienherkunft Teile der Folien im folgenden Abschnitt stammen aus der Vorlesung
Datenmanagement im Gesundheitssystem aus dem Jahr 2011ff an der Universität Oldenburg, die von mir mitentwickelt und gehalten worden ist
Beispielhaftes Szenario
Dipl.-Inform. Yvette Teiken 02.05.2023
Entwicklung DB Schema
Dipl.-Inform. Yvette Teiken 02.05.2023
DB Nutzung Anfragen:
Wie viele Flaschen Cola wurden letzten Monat verkauft? Wie hat sich der Verkauf von Rotwein im letzten Jahr entwickelt? Wer sind unsere Top-Kunden? Von welchem Lieferanten beziehen wir die meisten Kisten?
Probleme Nutzung externer Quellen (Kundendatenbank, Konsumdaten,... )
Daten mit zeitlichem Bezug
Dipl.-Inform. Yvette Teiken 02.05.2023
Erweitertes Szenario
Dipl.-Inform. Yvette Teiken 02.05.2023
DB Nutzung II Anfragen
Verkaufen wir in Hannover mehr Bier als in Oldenburg? Wie viel Cola wurde im Sommer in ganz Niedersachsen verkauft? Mehr als Wasser?
Probleme Anfragen über mehrere Datenbanken Anfragen mit Geographiebezug
Dipl.-Inform. Yvette Teiken 02.05.2023
Mögliche Lösungen Variante 1: „Verteilte DB“
Globale Anfrage über mehrere DBs Views mit Union Nachteil: aufwändige verteilte Anfrageausführung
Variante 2: „Zentrale DB“ Änderungen über einer zentralen DB Nachteil: lange Antwortzeiten im operativen Betrieb
Dipl.-Inform. Yvette Teiken 02.05.2023
Lösung: Data Warehouse (DWH)
Dipl.-Inform. Yvette Teiken 02.05.2023
Beispiele aus der Praxis Wal-Mart (www.wal-mart.com) Marktführer im amerikanischen Einzelhandel Unternehmensweites Data Warehouse
Größe: ca. 300 TB (2003) [Jim Gray, Computer Zeitung 17/2003] Täglich bis zu 20.000 DW-Anfragen Hoher Detaillierungsgrad (tägliche Auswertung von Artikelumsätzen, Lagerbestand, Kundenverhalten)
Basis für Warenkorbanalyse, Kundenklassifizierung, . . . Ebay
Data Warehouse 6+ Petabyte mit 17 * 10^12 Datensätzen täglich 150 * 10^9 Aktualisierungen 2 Petabyte Data Warehouse zu Analysezwecken [North 2010], [DBMS2 2009]
Dipl.-Inform. Yvette Teiken 02.05.2023
Beispiele aus der Praxis Bundesagentur für Arbeit Öffentliche Verwaltung Unternehmensweites Data Warehouse
Größe: ca. 17 TB (2010), [Bauer Günzel, 2009]
15.000 Anwender Integriert 80 Datenquellen und führt monatliche Aktualisierungen um Umfang
von 250GB durch
Basis für Arbeitsmarktberichterstattung und Controlling Keine Basisdatenbank fürs DWH DWH wird direkt aus den Externen und internen Quellen geladen
Dipl.-Inform. Yvette Teiken 02.05.2023
Beispielhafte Fragestellungen Überprüfung des Warensortiments zur Erkennung von Ladenhütern oder Verkaufsschlagern Standortanalyse zur Einschätzung der Rentabilität von Niederlassungen Untersuchung der Wirksamkeit von Marketing-Aktionen Auswertung von Kundenbefragungen, Reklamationen bzgl. bestimmter Produkte etc. Analyse des Lagerbestands Warenkorbanalyse mit Hilfe der Kassenbons Erstellung von Statistiken, Publikationen und Analysen sowie Controlling
Wie viele Personen waren in einem Gebiet arbeitslos? Wie ist die prozentuale Verteilung bezogen auf alle Arbeitssuchenden? Wurden die vordefinierten Ziele zur Vermittlungsquote Bundesweit, Landesweit oder Gebietsweit
erfüllt?
Dipl.-Inform. Yvette Teiken 02.05.2023
Beispiel Gesundheitswesen Beispiel Epidemiologisches Krebsregister Niedersachsen (EKN)
EKN ist ein DWH (Auswertungsplattform MUSTANG) Quelldaten:
Keine direkten Quellsysteme Explizite Datenerfassung, Meldungen über Neuerkrankungen
Beispiele für Analysefragestellungen: Erfasste Neuerkrankungen Erkrankungsalter Nach Diagnosen
Dipl.-Inform. Yvette Teiken 02.05.2023
Beispiel EKN Analyse
Dipl.-Inform. Yvette Teiken 02.05.2023
Technische Einführung
Dr. Yvette Teiken
Bild durch Klicken auf Symbol hinzufügen
Bild durch Klicken auf Symbol hinzufügen
Bild durch Klicken auf Symbol hinzufügen
Agenda Klassische Architekturen / Referenzarchitektur Ausprägungen in der Praxis
Anforderungen an ein DWH Unabhängigkeit zwischen Datenquellen und Analysesystemen, Daten im
DWH sind redundant Dauerhafte Bereitstellung integrierter Daten Einheitliche Sicht auf bereitgestellte Daten Mehrfachverwendung der bereitgestellten Daten Durchführung beliebiger Anfragen Erweiterbarkeit (insb. neue Datenquellen) Automatisierung
Dipl.-Inform. Yvette Teiken 02.05.2023
Definition Data Warehouse (1) Data Warehouse (DWH) =
“A subject oriented, integrated, nonvolatile, time variant collection of data organized to support management needs” [Inmon 1993]
Merkmale: Themenorientierung Integration und Vereinheitlichung Dauerhaftigkeit, Stabilität Zeitorientierung der Informationen Analyse und Entscheidungsunterstützung für das Management
Dipl.-Inform. Yvette Teiken 02.05.2023
Charakteristika von DWH Themenorientierung (subject-oriented):
Zweck des Systems ist nicht Erfüllung einer Aufgabe (z.B. Personaldatenverwaltung), sondern Modellierung eines spezifischen Anwendungsziels (Produkte, Kunden)
Integrierte Datenbasis (integrated): Verarbeitung von Daten aus mehreren verschiedenen Datenquellen (intern und
extern)
Nicht-flüchtige Datenbasis (non-volatile): stabile, persistente Datenbasis Daten im DWH werden nicht mehr entfernt oder geändert
Zeitbezogene Daten (time-variant): Speicherung über längeren Zeitraum Vergleich der Daten über Zeit möglich (Zeitreihenanalyse)
Dipl.-Inform. Yvette Teiken 02.05.2023
Definition Data Warehouse (2) Data Warehouse (DWH) =
“Physische Datenbank, die eine integrierte Sicht auf (beliebige) Daten darstellt. Im Unterschied zur Basisdatenbank, steht der Auswertungsaspekt (analyseorientiertes Schema) im Mittelpunkt, der sich oft in einem multidimensionalen Schema widerspiegelt. Häufig, aber nicht notwendigerweise findet eine Historisierung der Daten statt, indem in periodischen Abständen Daten hinzugeladen, aber nicht modifiziert werden.” [Bauer Günzel 2009]
Wichtige Unterscheidung zu Inmon: Es fehlt „to support management needs“ Z.B. Datenanalyse von Patientendaten fördert Behandlungswissen, nicht
Management
Dipl.-Inform. Yvette Teiken 02.05.2023
Weitere Begriffe Data Warehousing
„Data Warehousing ist kein Produkt, sondern der Prozess der Zusammenführung und des Managements von Daten aus verschiedenen Quellen mit dem Zweck, eine einheitliche, detaillierte Sicht auf den einzelnen Geschäftsbereich oder das gesamte Unternehmen zu erhalten.“[Jung, Winter 2000]
„alle Schritte des Datenbeschaffungsprozesses, das Speichern und Analysieren der Daten“ [Bauer Günzel 2009]
Data Mart externe (Teil-)Sicht auf das Data Warehouse durch Kopieren anwendungsbereichsspezifisch
OLAP (Online Analytical Processing) (Paradigma) explorative, interaktive Analyse auf Basis des konzeptuellen
Datenmodells
Business Intelligence ….
Dipl.-Inform. Yvette Teiken 02.05.2023
Referenzarchtiektur nach [Bauer Günzel 2001]
02.05.2023Dipl.-Inform. Yvette Teiken
Daten-quelle(n)
Arbeits-bereich
Basis-datenbank
DataWarehouse
Extraktion Laden Laden Analyse
Transformation
Monitor
Data-Warehouse-Manager
Metadaten-Manager
RepositoryDatenflussKontrollfluss Data-Warehouse-System
Bereich der Datenbeschaffung
Bild durch Klicken auf Symbol hinzufügenBedeutung für die Praxis Bild durch Klicken auf Symbol hinzufügen
Bild durch Klicken auf Symbol hinzufügen
Referenzarchitektur Jede Datenanalyse basiert auf dieser Architektur
Selten vollständig Techniken und Konzepte sind identisch, egal
EDW, PDW, Analytisches Data Warehouse Big Data Desktop Analyse
Beispiel aus der Praxis I Krankenkasse
Besonderheit: Gesundheitsrelevante Daten Fachbereich
Beispiel aus der Praxis II Handelskonzern
Besonderheit: Lagerlogistik und Bestellwesen
Beispiel aus der Praxis III Krankenkasse
Besonderheit: Spezialauswertung für Leihprozesse
Beispiel aus der Praxis IV Amazon Redshift http://aws.amazon.com/de/redshift/ Frage:
Was wird angeboten? Wobei hilft es? Welche Probleme löst es nicht
BI-Reifegradmodelle
Dipl.-Inform. Yvette Teiken 02.05.2023
Bild durch Klicken auf Symbol hinzufügenDatenanalyse am Beispiel Bild durch Klicken auf Symbol hinzufügen
Bild durch Klicken auf Symbol hinzufügen
Self Service BI Idee: Nutzer ohne große BI Infrastruktur Daten Analysieren zu lassen
ExtrahierenSäubernTransformierenAuswertenTeilen
Power BI Neue Strategie für Datenanalyse bei Microsoft Grundlage: Microsoft Excel Bestandteile
Power Query (Extract und Transform) Power Pivot (Transformieren) Powerview (Auswerten) Power Map (Geografische Analyse)
Vorteil In vielen Firmen verfügbar Nutzer sind vertraut mit Verwendung Lässt sich in Infrastruktur integrieren
Power Query I Laden von verschiedenen Datenquellen Interaktive und wiederholbare Anfragen erstellen
Power Query II
Datenquelle Web: wikipedia
http://de.wikipedia.org/wiki/Krankenhaus
Krankenhaus Daten laden I
Krankenhaus Daten laden II
Krankenhaus Daten auswerten
Demohttp://de.wikipedia.org/wiki/Krankenhaus
Laden aus Api: XML
http://daten.berlin.de/datensaetze/liste-der-badestellen-badegew%C3%A4sserqualit%C3%A4t
XML Struktur Analysieren
http://www.berlin.de/badegewaesser/baden-details/index.php/index/all.xml?q=
Drill Down zur Tabelle
Demohttp://www.berlin.de/badegewaesser/baden-details/index.php/index/all.xml?q=
Weitere Anbindungsmöglichkeiten
Bild durch Klicken auf Symbol hinzufügenTransformation Bild durch Klicken auf Symbol hinzufügen
Bild durch Klicken auf Symbol hinzufügen
Transformations
Große Übung Datenanalyse
Große Übung Ziel: Analyse der Straßenunfälle in UK Ausfälligkeiten
Tage Alter Straßen Tageszeiten
Beispiel stammt von Chris Webb (http://blog.crossjoin.co.uk/) Einreichung zum PowerBi Wettbewerb. Demo von ihm: https://www.youtube.com/watch?v=War1pSs2LAM
Vorgehen
Extrahieren: Daten laden und dem Modell hinzufügen
Säubern: Nicht notwendig Transformieren
Zeit Hierarchie Dimensionstabellen verknüpfen
Auswerten Interaktive Diagramme erstellen
ExtrahierenSäubernTransformierenAuswertenTeilen
Datenintegration Lade Daten mittels Ordner Ins Datenmodell laden Verknüpfen Ein Jahr sollte zunächst reichen
Ergebnisse prüfen
Power View aufrufen
Ergebnis Datenintegration
Aggregation Verdichten oder detaillieren Daten Beliebtes Beispiel Zeit
Jahr Monat Tag
Dimensionstabelle Zeit
Dimensionstabelle Zeit Zeit zum Datenmodell hinzufügen Verknüpfung mit Datensätzen auf niedrigster Ebene Erstellung von Hierarchien
Datenmodell mit Zeitdimension
Transformieren Aufgaben
Daten in das Ziel Format übertragen Daten vereinheitlichen (Geschlecht) Daten auflösen
Dimensionstabellen I
Dimensionstabellen II Müssen zum Datenmodell hinzugefügt werden Müssen verknüpft werden IDs ausblenden Dimensionen nach Analysezweck auswählen
Vollständiges Modell mit Dimensionen
Meine Ergebnisse
Unfälle nach Jahr als Tabelle
Vergleich über Jahre
KPI definieren
Analyse nach Alter
Farbscala
Gefährliche Tage
Fußgängerunfälle
Auswertung nach Wochentagen
Bild durch Klicken auf Symbol hinzufügenDaten und freie Daten Bild durch Klicken auf Symbol hinzufügen
Bild durch Klicken auf Symbol hinzufügen
Woher kommen Daten Offene Datenquellen (Open data) Non Open Data
Open (Government) Data
„Offene Daten sind Daten, die von jedem/r frei benutzt, weiterverwendet und geteilt werden können – die einzige Einschränkung betrifft die Verpflichtung auf die Nennung des Urhebers“
10 Prinzipien
Vollständigkeit Primärquelle Zeitliche Nähe Leichter Zugang Maschinenlesbarkeit
Diskriminierungsfreiheit Verwendung offener Standards Offene Lizenzierung Dauerhaftigkeit Kostenfreiheit
http://sunlightfoundation.com/policy/documents/ten-open-data-principles/
Warum ?
Neelie Kroes EU Kommissarin für digitale
Agenda
„Geben Sie ihre Daten frei, um Arbeitsplätze und Wachstum zu schaffen“
Nutzen Wirtschaftlicher Nutzen Bürger-Nutzen Transparenz Verwaltung
Arten von Daten 1. Umweltdaten (Feinstaub, CO2, Pollen)
2. Märkte (Wochen-, Floh-, Weihnachtsmärkte)3. Events (Straßenfeste, Konzerte, Lange Nacht der …, Sportereignisse)4. Entsorgung (Termin in meiner Straße, Recyclinghöfe, Containerstandorte, Sondermüll)5. Infrastruktur (Radwege, Toiletten, Briefkästen, Geldautomaten, Telefone)6. Verkehr (Baustellen, Staus, Sperrungen)7. Nahverkehr (Fahrpläne, Verspätungen, Zugausfälle, Sonderfahrten)8. Öffnungszeiten (Bibliotheken, Museen, Ausstellungen)9. Verwaltung (Formulare, Zuständigkeiten, Ämter, Öffnungszeiten)10. Verbraucherberatung, Schuldnerberatung11. Familie (Horte, Kindergärten)12. Bildung (Schulen, Volkshochschulen, Hochschulen und Unis)13. Wohnen (Wohngeld, Mietspiegel, Immobilien, Grundstückspreise)14. Gesundheit (Krankenhäuser, Apotheken, Notdienst, Spezialisten, Beratungsstellen, Blutspende)15. Haustiere (Tierärzte, Tierheim, Tierpflege)16. Kontrolle (Badegewässer, Lebensmittel, Gaststätten, Preise)17. Recht (Gesetze, Vorschriften, Beratung, Schlichter, Gutachter)18. Polizeiticker (aktuelle Vorfälle, Fahndung, Kriminalitätsatlas)19. Stadtplanung (Flächennutzungsplan, Bauvorhaben, Verkehr, Flughäfen)20. Bevölkerung (Zahl, regionale Verteilung, Demografie, Kaufkraft, Beschäftigung/Arbeitslosigkeit, Kinder)21. Finanzdaten (Budgets, Aufträge, Verträge)
Crowd Sourcing http://codefor.de/
Beispiel Berlin
http://daten.berlin.de/datensaetze
Open Data Berlin 885 Datensätze in 22 Kategorien Beispiele
Finanzamt Atlas Berlin Straßen und Volksfester Liste der Badestellen Denkmalliste Arbeitslosenquote
Weltbank Idee: Globale Zusammenhänge verstehen
Datenportal für Deutschland
https://www.govdata.de/
Datenportal der EU
http://publicdata.eu/
Datenportal UK
http://data.gov.uk/
(Inoffizieller) Metakatalog für Open Data in Deutschland
https://offenedaten.de/
Open Data Klassifikation
http://5stardata.info/
1 Stern Daten sind verfügbar, egal in welchem Format, aber nutzt offene Lizenz
1 Stern - Vorteile
Als Datenkonsument Daten können angesehen werden Drucken Lokal speicherbar Ändern wie man will Man kann es jedem teilen
Als Daten Bereitsteller Einfach zu veröffentlichen Man muss die Verwendung nicht
erläutern
2 Sterne Daten sind als strukturierte Daten verfügbar
Z. B. Excel statt einem pdf
2 Sterne Vorteile
Als Datenkonsument Mann kann alles wie unter 1 Stern
und Daten können direkt mit Software
verarbeitet werden (Berechnungen, Visualisierungen)
Es kann zu anderen Formaten exportiert werden
Als Daten Bereitsteller Publizieren ist immer noch einfach
3 Sterne Es werden urheberrechtliche nicht geschützte Formate verwendet
CSV statt Excel
3 Sterne Vorteile
Als Datenkonsument Alles was mit 2 Sterne geht Daten können auf beliebige Weise
manipuliert werden Kann mit beliebiger Software
manipuliert werden
Als Daten Bereitsteller Es werden ggf. Plug-Ins zum
Publizieren benötigt Immer noch relativ einfache
Bereitstellung
4 Sterne Verwende Uris um Daten zugreifbar zu machen, damit Leute das verweisen
können
4 Sterne Vorteile
Als Datenkonsument Daten können verlinked werden Man kann es Bookmarken Teile der Daten wieder verwenden Kann Daten mit anderen Daten
kombinieren
Als Daten Bereitsteller Granularere Kontrolle über Daten Andere Bereitsteller können die
Daten verlinken
5 Sterne Verlinkte Daten zu anderen und liefere Kontext
5 Sterne Vorteile
Als Datenkonsument Mehr verknüpfte Daten finden wenn
man Daten verwendet Man muss mit kaputten Links
umgehen Sicherheitsrisiko wenn Daten von
fremden Quellen importiert werden
Als Daten Bereitsteller Daten sind entdeckbar Wert der Daten erhöht sich Man profitiert genauso wie der
Konsument
Übung zu Open Data Ziel: Überblick über offene Datenquellen zu bekommen Fragen
Welche Art von Daten werden bereitgestellt? Welche Daten findet ihr besonders interessant und warum? Wie granular sind die Daten? Wie sind die zugänglich? Bewertung der Datenquelle Präsentation im Plenum
Gruppen Global: Weltbank.org UK: Data.gov Deutschland: govdata.de EU: http://opendata.eu/
Bild durch Klicken auf Symbol hinzufügenNon Open Data Bild durch Klicken auf Symbol hinzufügen
Bild durch Klicken auf Symbol hinzufügen
Andere Datenquellen Unternehmensdaten
Internet Dienste Haben meistens eine API Registrieren Zugriff über Web Schnittstellen
Facebook Graph API
Demo Facebook API me erminasde/posts ewebaskets/posts
Beispiel: Social Media AnalyseAuswertung von sozialen Netzwerken
• Untersuchung des Medien-Konsumverhaltens • Quantitativ-statistische Auswertung von Kommunikationsinhalten• Erkennung von Trends, Influencern und Konkurrenzaktivitäten• Nutzung von Facebook, Twitter und anderen Sozialen Netzwerken als Datenquelle• Hohes Datenwachstum• Semi-strukturierte Datenformate• Häufige Änderungen der Datenstrukturen
Quelle: Facebook Datenströme
Verabeitung der Daten mit Hadoop
Analyse der Ergebnisse mit Excel
Andere Visualisierung
Twitter Visualisierung
http://tweetping.net/
Twitter: Mehr lernen
http://blogs.ischool.berkeley.edu/i290-abdt-s12/
fitbit
Trakt.tv
Weitere Quellen http://www.programmableweb.com/
Bild durch Klicken auf Symbol hinzufügenDatenanalyse mit Tableau Bild durch Klicken auf Symbol hinzufügen
Bild durch Klicken auf Symbol hinzufügen
Big Data
Bild durch Klicken auf Symbol hinzufügen
Bild durch Klicken auf Symbol hinzufügen
Bild durch Klicken auf Symbol hinzufügen
Agenda Überblick Was ist Hadoop Hive Map Reduce Pig
Die 3 Vs
Quelle: http://www.datasciencecentral.com/forum/topics/the-3vs-that-define-big-data
Was ist Big Data ?
Was ist Big Data?
Warum Big Data –Neue Zahlen 2008: Google processes 20 PB a day 2009: Facebook has 2.5 PB user data + 15 TB/day 2009: eBay has 6.5 PB user data + 50 TB/day 2011: Yahoo! has 180-200 PB of data 2012: Facebook ingests 500 TB/day
Datenspeicherung Data storage is not trivial Data volumes are massive Reliably storing PBs of data is challenging Disk/hardware/network failures Probability of failure event increases with number ofmachines For example:
1000 hosts, each with 10 disks a disk lasts 3 year how many failures per day?
Ursprünge Hadoop is an open-source implementation based on GFS and MapReduce from
Google Sanjay Ghemawat, Howard Gobioff, and Shun-Tak Leung. (2003) The Google File System Jeffrey Dean and Sanjay Ghemawat. (2004) MapReduce: Simplified Data Processing on Large Clusters OSDI 2004
Architektur
Eigeschaften A distributed file system Redundant storage Designed to reliably store data using commodity hardware Designed to expect hardware failures Intended for large files Designed for batch inserts The Hadoop Distributed File System
HDFS - files and blocks Files are stored as a collection of blocks Blocks are 64 MB chunks of a file (configurable) Blocks are replicated on 3 nodes (configurable) The NameNode (NN) manages metadata about files and blocks The SecondaryNameNode (SNN) holds a backup of the NN data DataNodes (DN) store and serve blocks
Replication Multiple copies of a block are stored Replication strategy:
Copy #1 on another node on same rack Copy #2 on another node on different rack
Schreiben in HDFS
Lesen in HDFS
Ausfall Datenknoten DNs check in with the NN to report health Upon failure NN orders DNs to replicate under-replicated blocks
Arbeiten mit HDFS
Name Node Tool for browng HDFS
Job Tracker
Hive
Bild durch Klicken auf Symbol hinzufügen
Bild durch Klicken auf Symbol hinzufügen
Bild durch Klicken auf Symbol hinzufügen
Distributed Storage(HDFS)
Query(Hive)
Distributed Processing
(MapReduce)
Scripting(Pig)
NoSQL Database(HBase)
Metadata(HCatalog)
Data Integration( ODBC / SQOOP/ REST)
Relational
(SQL Server)
Machine Learning(Mahout)
Graph(Pegasus)
Stats processin
g(RHadoo
p)
Event Pipeline(Flum
e)
Active Directory (Security)
Monitoring & Deployment
(System Center)
C#, F#, .NET
JavaScript
Pipeline / workflow(Oozie)
Azure Storage Vault (ASV)
PDW Polybase
Business Intelligence (Excel, Power View, SSAS)
World's Data (Azure Data Marketplace)
Event Driven
Processing
LegendRed = Core HadoopBlue = Data processingPurple = Microsoft integration points and value addsOrange = Data MovementGreen = Packages
HDInsight / Hadoop Eco-System
Beispiel: Social Media AnalyseAuswertung von sozialen Netzwerken
• Untersuchung des Medien-Konsumverhaltens • Quantitativ-statistische Auswertung von Kommunikationsinhalten• Erkennung von Trends, Influencern und Konkurrenzaktivitäten• Nutzung von Facebook, Twitter und anderen Sozialen Netzwerken als Datenquelle• Hohes Datenwachstum• Semi-strukturierte Datenformate• Häufige Änderungen der Datenstrukturen
Quelle: Facebook Graph API
Verabeitung der Daten mit Hadoop
Analyse der Ergebnisse mit Excel
Eigene Map Reduce Tasks
Bild durch Klicken auf Symbol hinzufügen
Bild durch Klicken auf Symbol hinzufügen
Bild durch Klicken auf Symbol hinzufügen
Beispiel: Analyse von FreitextTextanalye von Sitzungs- protokollen
• Entdeckung von Bedeutungsstrukturen aus un- oder schwachstrukturierten Textdaten• Schnelle Erkennung von Kerninformationen der verarbeiteten Texte• Erkennung nicht bekannter Zusammenhänge• Hypothesen generieren, überprüfen und schrittweise verfeinern• Extraktion von Haltungen gegenüber einem Thema durch semantische Algorithmen• Hohes Datenwachstum
Quelle: Plenarprotokolle Bundestag
Verarbeitung der Daten mit Hadoop
Analyse der Ergebnisse mit Excel
Zusammenfassung Coole Vorlesung zum Weiter machen http://blogs.ischool.berkeley.edu/i290-abdt-s12
/
Niemand in Deutschland hat Big Data!
Top Related