選擇正確的Solution 來建置現代化的雲端資料倉儲

160

Transcript of 選擇正確的Solution 來建置現代化的雲端資料倉儲

Page 1: 選擇正確的Solution 來建置現代化的雲端資料倉儲
Page 2: 選擇正確的Solution 來建置現代化的雲端資料倉儲

應用系統的資料來源

1985 1990 1995 2000 2005 2010 2015 2020

網際網路連結

數位類比

Page 3: 選擇正確的Solution 來建置現代化的雲端資料倉儲

應用系統的資料來源

1985 1990 1995 2000 2005 2010 2015 2020

網際網路連結

數位類比

Page 4: 選擇正確的Solution 來建置現代化的雲端資料倉儲

$1.6兆領先運用資料資產的公司將創造出額外的商業價值

Source: IDC, 2014

10%的公司, 在2020年預期將有一個藉由資料資產營利的高獲益事業單位

Source: Gartner, 2016

Page 5: 選擇正確的Solution 來建置現代化的雲端資料倉儲

資料運用的趨勢與挑戰

Page 6: 選擇正確的Solution 來建置現代化的雲端資料倉儲

資料運用的趨勢與挑戰

Page 7: 選擇正確的Solution 來建置現代化的雲端資料倉儲

資料運用的趨勢與挑戰

Page 8: 選擇正確的Solution 來建置現代化的雲端資料倉儲

資料運用的趨勢與挑戰

Page 9: 選擇正確的Solution 來建置現代化的雲端資料倉儲

組織需要處理的各式資料

Page 10: 選擇正確的Solution 來建置現代化的雲端資料倉儲

ETL pipeline

Dedicated ETL tools (e.g. SSIS)

Defined schema

Queries

Results

Relational

LOB

Applications

Traditional business analytics process1. Start with end-user requirements to identify desired reports

and analysis

2. Define corresponding database schema and queries

3. Identify the required data sources

4. Create a Extract-Transform-Load (ETL) pipeline to extract

required data (curation) and transform it to target schema

(‘schema-on-write’)

5. Create reports. Analyze data

All data not immediately required is discarded or archived

Page 11: 選擇正確的Solution 來建置現代化的雲端資料倉儲
Page 12: 選擇正確的Solution 來建置現代化的雲端資料倉儲

無限期的儲存 分析 察看結果從所有資料來源取得

資料

Iterate

新的大數據思維: 所有的資料都有價值

• 所有的資料都有潛在價值

• 資料需要儲藏

• 沒有定義好的schema—儲存原始格式

• Schema 在查詢時才被指派跟轉化(schema-on-read).

• 應用程式跟使用者決定適合的資料解譯方式

12

Page 13: 選擇正確的Solution 來建置現代化的雲端資料倉儲

大數據 (Big Data) 帶來的挑戰

建立新的技術與能力

找出如何取得價值

整合既有的資訊科技投資

*Gartner: Survey Analysis – Hadoop Adoption Drivers and Challenges (Stamford, CT.: Gartner, 2015)

Page 14: 選擇正確的Solution 來建置現代化的雲端資料倉儲
Page 15: 選擇正確的Solution 來建置現代化的雲端資料倉儲

巨量資料儲存 機器學習跟分析

行動

People

Automated Systems

Apps

Web

Mobile

Bots

智慧服務

儀錶板 & 資料視覺化

Cortana

Bot

Framework

Cognitive

Services

Power BI

資訊管理

Event Hubs

Data Catalog

Data Factory

HDInsight

(Hadoop and

Spark)

Stream

Analytics

智慧服務

Data Lake

Analytics

Machine

Learning

SQL Data

Warehouse

Data Lake

Store

資料來源

應用程式

感知器

與裝置

資料

IoT Hub

Page 16: 選擇正確的Solution 來建置現代化的雲端資料倉儲

Apache Hadoop介紹

Page 17: 選擇正確的Solution 來建置現代化的雲端資料倉儲

Hadoop platform包含許多不同專案

資料服務

營運服務

= HDFS + MapReduce + YARN

+ ecosystem of tools and frameworks

Page 18: 選擇正確的Solution 來建置現代化的雲端資料倉儲

Hadoop 有許多貢獻者

Page 19: 選擇正確的Solution 來建置現代化的雲端資料倉儲

Microsoft 貢獻到Hadoop專案

Page 20: 選擇正確的Solution 來建置現代化的雲端資料倉儲

常透過Hadoop 處理的資料型態

1.情緒分析(Sentiment)Understand how your customers feel about your brand

2. ClickstreamCapture and analyze website visitors’ data trails and optimize your website

3.感應器(Sensor)/機器Discover patterns in data streaming automatically from remote sensors and machines

4.地理資訊Analyze location-based data to manage operations where they occur

5.伺服器 LogsResearch logs to diagnose process failures and prevent security breaches

6.非結構化資料 (txt, video, pictures, etc..)Understand patterns in files across millions of web pages, emails, and documents

Page 21: 選擇正確的Solution 來建置現代化的雲端資料倉儲

Azure HDInsight 簡介

Hadoop Meets the Cloud由微軟所管理的Hadoop服務

使用100% 開源的Apache Hadoop

相容.Net 與 Java 工具

可自動升級 Hadoop 版本

數分鐘內可以設定完成並執行, 無須採購硬體

執行於 Windows 或 Linux

啟用與設定服務, 使用, 取消服務 – 可以保留資料

微軟提供技術支援

Page 22: 選擇正確的Solution 來建置現代化的雲端資料倉儲

Microsoft + Hortonworks

Page 23: 選擇正確的Solution 來建置現代化的雲端資料倉儲

Hadoop Distribution包含許多不同專案

Page 24: 選擇正確的Solution 來建置現代化的雲端資料倉儲
Page 25: 選擇正確的Solution 來建置現代化的雲端資料倉儲

Hadoop 2.0

Page 26: 選擇正確的Solution 來建置現代化的雲端資料倉儲

Data Node Data Node Data Node Data Node

Task Tracker Task Tracker Task Tracker Task Tracker

Name Node

Job Tracker

HMasterCoordination

Region Server Region Server Region Server Region Server

Page 27: 選擇正確的Solution 來建置現代化的雲端資料倉儲
Page 28: 選擇正確的Solution 來建置現代化的雲端資料倉儲

Stream processin

g

Search and query

Data analytics (Excel)

Web/thick client

dashboards

Devices to take action

RabbitMQ /ActiveMQ

Page 29: 選擇正確的Solution 來建置現代化的雲端資料倉儲

Azure

HDInsight

In Memory

Spark

Page 30: 選擇正確的Solution 來建置現代化的雲端資料倉儲
Page 31: 選擇正確的Solution 來建置現代化的雲端資料倉儲
Page 32: 選擇正確的Solution 來建置現代化的雲端資料倉儲
Page 33: 選擇正確的Solution 來建置現代化的雲端資料倉儲
Page 34: 選擇正確的Solution 來建置現代化的雲端資料倉儲

其他Hadoop 元件與工具Ambari: Cluster provisioning, management, and monitoring.Avro (Microsoft .NET Library for Avro): Data serialization for the Microsoft .NET environmentMapReduce and YARN: Distributed processing and resource managementOozie: Workflow managementPhoenix: Relational database layer over HBasePig: Simpler scripting for MapReduce transformationsSqoop: Data import and exportTez: Allows data-intensive processes to run efficiently at scaleZooKeeper: Coordination of processes in distributed systems

Page 35: 選擇正確的Solution 來建置現代化的雲端資料倉儲

以量計價

$£€¥

Page 36: 選擇正確的Solution 來建置現代化的雲端資料倉儲

受維護的Hodoop服務

自動進行作業系統更新及安全性更新

Hadoop 版本每年快速演進

輕易地維持在最新的Hadoop版本

Page 37: 選擇正確的Solution 來建置現代化的雲端資料倉儲

結合Hadoop作先進資料分析

Cloud

Page 38: 選擇正確的Solution 來建置現代化的雲端資料倉儲

HDInsight 優勢

自動化建置 Hadoop clusters

使用最新, 穩定的 Hadoop 元件

提供叢集的高可用度跟高可靠性

透過Azure Blob storage提供經濟, 有效率的儲存方式

整合其他Azure 服務, 包括 Web apps 跟 SQL Database

低進入成本

Page 39: 選擇正確的Solution 來建置現代化的雲端資料倉儲
Page 40: 選擇正確的Solution 來建置現代化的雲端資料倉儲

Hadoop 叢集設置

Page 41: 選擇正確的Solution 來建置現代化的雲端資料倉儲

Hadoop 叢集設置

Page 42: 選擇正確的Solution 來建置現代化的雲端資料倉儲

be removed January 1, 2017

https://portal.azure.com

https://azure.microsoft.com/en-us/documentation/templates/?term=hdinsight

叢集佈署

Page 43: 選擇正確的Solution 來建置現代化的雲端資料倉儲

First Cloud Hadoop solution to onboard LLAP (Long Lived and Process) from the Stinger.Next initiatives, which

promises sub-second querying on big data, which is 25x faster than existing Hive.

Page 44: 選擇正確的Solution 來建置現代化的雲端資料倉儲

Apache Spark – An Unified Framework

An unified, open source, parallel, data processing framework for Big Data Analytics

Spark Core Engine

Spark SQL

InteractiveQueries

SparkStreaming

Stream processing

Spark MLlib

MachineLearning

GraphX

GraphComputation

Yarn MesosStandalone Scheduler

Page 45: 選擇正確的Solution 來建置現代化的雲端資料倉儲

Fast, expressive cluster computing system compatible with Apache

Hadoop

• Works with any Hadoop-supported storage system (HDFS, S3, Avro, …)

Improves efficiency through:

• In-memory computing primitives

• General computation graphs

Improves usability through:

• Rich APIs in Java, Scala, Python

• Interactive shell

Spark was initially started by Matei Zaharia at UC Berkeley AMPLab in

2009, was open sourced in 2010 and donated to Apache in 2013

Up to 100× faster

Often 2-10× less code

What is Spark?

Page 46: 選擇正確的Solution 來建置現代化的雲端資料倉儲

Spark for Azure HDInsight

Spark Node

Spark Node

Spark Node

Spark Node

Spark Node

Storage Layer

Decision Maker

Decision Maker

Decision

Maker

Spark Cluster

clients

Page 47: 選擇正確的Solution 來建置現代化的雲端資料倉儲

Spark Notebooks

Using the Spark shell to run

interactive queries

Using the Spark shell to run Spark

SQL queries

Using a standalone Scala program

Page 48: 選擇正確的Solution 來建置現代化的雲端資料倉儲

Spark SQL Overview

Page 49: 選擇正確的Solution 來建置現代化的雲端資料倉儲

Apache Spark benefits

Unified engine Ecosystem

Developer productivity

Performance

Page 50: 選擇正確的Solution 來建置現代化的雲端資料倉儲

Advantages of a unified platform

Spark StreamingMachine learning

Spark SQL

Page 51: 選擇正確的Solution 來建置現代化的雲端資料倉儲

102.5 100

72

23

2100

206

50400

6592

2013 Record

(Hadoop)

Spark 100 TB

Data Size (TB) Time (Min) Nodes Cores

Faster data, faster results

tinyurl.com/spark-sort

Logistic regression

140

120

100

80

40

20

0

60

Hadoop

Spark 0.9

Logistic regression on a 100-node cluster

with 100 GB of data.

Spark is the 2014 Sort Benchmark winner.

3x faster than 2013 winner (Hadoop).

Page 52: 選擇正確的Solution 來建置現代化的雲端資料倉儲

What makes Spark fast?

Reads fromHDFS

Writes toHDFS

Reads fromHDFS

Writes to HDFS

Step 1 Step 2

Step 1

Reads and writesfrom HDFS

Page 53: 選擇正確的Solution 來建置現代化的雲端資料倉儲

Spark cluster architecture

ReadReadRead

Cluster manager

HDFS

Worker nodeWorker node Worker node Worker node

Driver programSparkContext

Page 54: 選擇正確的Solution 來建置現代化的雲端資料倉儲

Developing Spark apps with notebooksJupyter and Zeppelin are two notebooks that work

with Apache Spark

Page 55: 選擇正確的Solution 來建置現代化的雲端資料倉儲

Jupyter Language agnostic

Supports a rich Read-Evaluate-Print-Loop (REPL) protocol Includes:

Jupyter interactive web-based notebook

Jupyter Qt console

Jupyter Terminal console

Notebook viewer (nbviewer)

full list here

Supported languages (kernels)

Page 56: 選擇正確的Solution 來建置現代化的雲端資料倉儲

Zeppelin architecture

Browser client

Zeppelin server

Class loader Class loader

Interpreter group Interpreter group

Interpreter Dep Spark Spark SQL

HTTP Rest Websocket

Spark

Maven

Apache Spark is supported in

Zeppelin with the Spark interpreter

group, which consists of four

interpreters.

Name Class Description

%spark SparkInterpreter Creates SparkContext and provides

scala environment

%pyspark PySparkInterpreter Provides python environment

%sql SparkSQLInterprete

r

Provides SQL environment

%dep DepInterpreter Dependency loader

Page 57: 選擇正確的Solution 來建置現代化的雲端資料倉儲

Spark SQL overview

You run interactive Spark SQL statements using notebooks.

Run Spark SQL statements using notebooks

HDInsight uses Azure Blob storage account for storing data.

Create an Azure storage account

HDInsight makes Apache Spark available as a service in cloud.

HDInsight makes Apache Spark available as a service in cloud.

Page 58: 選擇正確的Solution 來建置現代化的雲端資料倉儲

Spark SQL overview

Built-in External

And more…

Page 59: 選擇正確的Solution 來建置現代化的雲端資料倉儲
Page 60: 選擇正確的Solution 來建置現代化的雲端資料倉儲
Page 61: 選擇正確的Solution 來建置現代化的雲端資料倉儲
Page 62: 選擇正確的Solution 來建置現代化的雲端資料倉儲
Page 63: 選擇正確的Solution 來建置現代化的雲端資料倉儲

SQL Data Warehouse

Page 64: 選擇正確的Solution 來建置現代化的雲端資料倉儲

行動

People

Automated Systems

Apps

Web

Mobile

Bots

智慧服務

儀錶板 & 資料視覺化

Cortana

Bot

Framework

Cognitive

Services

Power BI

資訊管理

Event Hubs

Data Catalog

Data Factory

機器學習跟分析

HDInsight

(Hadoop and

Spark)

Stream

Analytics

智慧服務

Data Lake

Analytics

Machine

Learning

巨量資料儲存

SQL Data

Warehouse

Data Lake

Store

資料來源

應用程式

感知器

與裝置

資料

IoT Hub

Page 65: 選擇正確的Solution 來建置現代化的雲端資料倉儲

巨量資料儲存 機器學習跟分析

行動

People

Automated Systems

Apps

Web

Mobile

Bots

智慧服務

儀錶板 & 資料視覺化

Cortana

Bot

Framework

Cognitive

Services

Power BI

資訊管理

Event Hubs

Data Catalog

Data Factory

HDInsight

(Hadoop and

Spark)

Stream

Analytics

智慧服務

Data Lake

Analytics

Machine

Learning

SQL Data

Warehouse

Data Lake

Store

資料來源

應用程式

感知器

與裝置

資料

IoT Hub

Page 66: 選擇正確的Solution 來建置現代化的雲端資料倉儲

What investment is your company making in big data?

大數據處理技術對許多組織仍是挑戰

45%

40%

35%

30%

25%

20%

15%

10%

5%

0%

Fully deployed Have a pilot

in place

Currently

investigating

Interested, but haven’t

investigated yet

Have investigated and

decided not to pursue

Not being

considered

5%11%

29%

41%

5%9%

Interest in big data 70%

Invested in big data 16%

91% Hadoop usage concerns

71% Hadoop/BI tool inexperience

Page 67: 選擇正確的Solution 來建置現代化的雲端資料倉儲

微軟資料平台

Relational Beyond-Relational O

n-p

rem

ises

Clo

ud

Comprehensive

Connected

Choice

SQL Server Azure VM

Azure SQL DB

Azure SQL DW

Azure Data Lake Analytics

Azure Data Lake Store

Azure HDInsight

Fast Track for SQL Server

Analytics Platform System

SQL Server 2016 + Superdome X

Analytics Platform System

Hadoop

Federated Query

Power BI

Azure Machine Learning

Azure Data Factory

Page 68: 選擇正確的Solution 來建置現代化的雲端資料倉儲

Azure SQL 資料倉儲服務關聯式資料倉儲服務, 完全由微軟負責管理維運.

業界第一個可彈性伸縮(elastic) , 具備 SQL Server 功能的雲端資料倉儲

適合小型到大型的資料儲存需求

彈性伸縮(

Petabytes規模

MPP: 大量平行處理 Saas

Azure

PublicCloud

Office 365Office 365

按照運算效能及儲存空間分別計價

可動態暫停(dynamic pause) 運算

AzureAzure

Page 69: 選擇正確的Solution 來建置現代化的雲端資料倉儲

Azure SQL資料倉儲服務架構

Control

Node

Compute

Node

Compute

Node

Compute

Node

Compute

Node

SQL DB

SQL DB

SQL DB

SQL DB

Blob storage [WASB(S)]

ComputeScale compute up or down

when required(SLA <= 60 seconds).

Pause, Resume, Stop, Start.

StorageAdd\Load data to WASB(S) without incurring compute

costs

Massively Parallel Processing (MPP) Engine

Azure Infrastructure and Storage

100 DWU < > 2000 DWU

儲存與運算分開, 提供彈性的服務架構與計費方式

(儲存與運算資源分別計價)

Application or User connection

HDInsight

Data Loading(SSIS, REST, OLE, ADO, ODBC,

WebHDFS, AZCopy, PS) DMS

DMS DMS DMS DMS

DMS (Data Movement Service)在所有的資料庫節

點上運行

Page 70: 選擇正確的Solution 來建置現代化的雲端資料倉儲

Azure SQL資料倉儲服務 –控制節點( Node )

Control

Node

SQL DB

Compute

Node

Compute

Node

Compute

Node

Compute

Node

SQL DB

SQL DB

SQL DB

SQL DB

Blob storage [WASB(S)]

Massively Parallel Processing (MPP) Engine

HDInsight

Control

Node

SQL DB

• Endpoint for connections

• Regular SQL endpoint (TCP 1433)

• Persists no user data (metadata only)

• Coordinates compute activity using MPP

Page 71: 選擇正確的Solution 來建置現代化的雲端資料倉儲

Azure SQL資料倉儲服務 –運算節點( Node )

Control

Node

SQL DB

Compute

Node

Compute

Node

Compute

Node

Compute

Node

SQL DB

SQL DB

SQL DB

SQL DB

Blob storage [WASB(S)]

Massively Parallel Processing (MPP) Engine

HDInsight

Compute

Node(s)

Azure SQL Database

SQL DB

An increase of DWU will increase the number of

compute nodes

Page 72: 選擇正確的Solution 來建置現代化的雲端資料倉儲

Azure SQL資料倉儲服務 – Blob 儲存體

Control

Node

SQL DB

Compute

Node

Compute

Node

Compute

Node

Compute

Node

SQL DB

SQL DB

SQL DB

SQL DB

Blob storage [WASB(S)]

Massively Parallel Processing (MPP) Engine

HDInsight

• RA-GRS storage

• +PB’s of storage

• Ingest data without incurring compute costs

Page 73: 選擇正確的Solution 來建置現代化的雲端資料倉儲

CREATE TABLE [Products] ( … )

WITH

(

DISTRIBUTION = HASH(<COLUMN>)

);

分散式資料表將資料分散到所有儲存體上以提高效能

Round robin 或 hash-distributed

每一個 Compute node 只處理本地的資料

使用column-based儲存體, SQL 資料倉儲最多可讓壓縮平均提升 5 倍,查詢效能提升 10 倍以上。

每個資料列被分配到同一個Node

Page 74: 選擇正確的Solution 來建置現代化的雲端資料倉儲

CREATE TABLE [build].[FactOnlineSales](

[OnlineSalesKey] int NOT NULL, [DateKey] datetime NOT NULL, [StoreKey] int NOT NULL, [ProductKey] int NOT NULL, [PromotionKey] int NOT NULL, [CurrencyKey] int NOT NULL, [CustomerKey] int NOT NULL, [SalesOrderNumber] nvarchar(20) NOT NULL, [SalesOrderLineNumber] int NULL, [SalesQuantity] int NOT NULL, [SalesAmount] money NOT NULL)WITH( CLUSTERED COLUMNSTORE INDEX, DISTRIBUTION = ROUND_ROBIN);

CREATE TABLE [build].[FactOnlineSales](

[OnlineSalesKey] int NOT NULL, [DateKey] datetime NOT NULL, [StoreKey] int NOT NULL, [ProductKey] int NOT NULL, [PromotionKey] int NOT NULL, [CurrencyKey] int NOT NULL, [CustomerKey] int NOT NULL, [SalesOrderNumber] nvarchar(20) NOT NULL, [SalesOrderLineNumber] int NULL, [SalesQuantity] int NOT NULL, [SalesAmount] money NOT NULL)WITH( CLUSTERED COLUMNSTORE INDEX, DISTRIBUTION = HASH([ProductKey]));

Page 75: 選擇正確的Solution 來建置現代化的雲端資料倉儲

13 14 1615 17 18 2019 21 22 2423

25 26 2827 29 30 3231 33 34 3635

37 38 4039 41 42 4443 45 46 4847

49 50 5251 53 54 5655 57 58 6059

01 02 0403 05 06 0807 09 10 1211

Page 76: 選擇正確的Solution 來建置現代化的雲端資料倉儲

13 14 1615 17 18 2019 21 22 2423

25 26 2827 29 30 3231 33 34 3635

37 38 4039 41 42 4443 45 46 4847

49 50 5251 53 54 5655 57 58 6059

01 02 0403 05 06 0807 09 10 1211

HASH ( )N01020301

Page 77: 選擇正確的Solution 來建置現代化的雲端資料倉儲

透過Polybase查詢非結構化資料

T-SQL query

SQL Server Hadoop

計程車交易:

************************

**********************

*********************

**********************

***********************

$658.39

Jim Gray

姓名

11/13/58

生日

WA

縣市

Ann Smith 04/29/76 ME

Page 78: 選擇正確的Solution 來建置現代化的雲端資料倉儲

Polybase 資料匯入

Azure Storage

Blob(s)

Polybase

Azure SQL Data Warehouse

Engine

Worker4

Worker1

Worker5

Worker3

Worker2

Worker6

Page 79: 選擇正確的Solution 來建置現代化的雲端資料倉儲

彈性伸縮規模(Elastic Scale)重大複雜運算時增加運算效能, 運算完畢可減少回日常計算所需運算效能

隨時可以應付臨時的複雜大數據運算

根據需求自由搭配運算效能跟儲存空間

彈性伸縮(

Page 80: 選擇正確的Solution 來建置現代化的雲端資料倉儲

Azure SQL Data Warehouse

Engine Worker1

Azure Storage Blob(s)

D12D11 D13 D14 D15 D16 D18D17 D19 D20

D22D21 D23 D24 D25 D26 D28D27 D29 D30

D32D31 D33 D34 D35 D36 D38D37 D39 D40

D42D41 D43 D44 D45 D46 D48D47 D49 D50

D52D51 D53 D54 D55 D56 D58D57 D59 D60

D2D1 D3 D4 D5 D6 D8D7 D9 D10

Page 81: 選擇正確的Solution 來建置現代化的雲端資料倉儲

Azure SQL Data Warehouse

Engine

Worker4

Azure Storage Blob(s)

Worker1

Worker5

Worker3

Worker2

Worker6 D52D51 D53 D54 D55 D56 D58D57 D59 D60

D12D11 D13 D14 D15 D16 D18D17 D19 D20

D22D21 D23 D24 D25 D26 D28D27 D29 D30

D32D31 D33 D34 D35 D36 D38D37 D39 D40

D42D41 D43 D44 D45 D46 D48D47 D49 D50

D2D1 D3 D4 D5 D6 D8D7 D9 D10

Page 82: 選擇正確的Solution 來建置現代化的雲端資料倉儲

暫停(Pause) 功能保留資料– 無須重新載入或重建(restore) 資料

當暫停時, 僅需付雲端儲存費用, 大幅降低成本

可透過PowerShell/REST API自動化

$$$$

Page 83: 選擇正確的Solution 來建置現代化的雲端資料倉儲

Azure SQL

Data

Warehouse

Azure Storage Blob(s)

D52D51 D53 D54 D55 D56 D58D57 D59 D60

D12D11 D13 D14 D15 D16 D18D17 D19 D20

D22D21 D23 D24 D25 D26 D28D27 D29 D30

D32D31 D33 D34 D35 D36 D38D37 D39 D40

D42D41 D43 D44 D45 D46 D48D47 D49 D50

D2D1 D3 D4 D5 D6 D8D7 D9 D10

Page 84: 選擇正確的Solution 來建置現代化的雲端資料倉儲

Azure SQL Data Warehouse

Engine

Worker4

Azure Storage Blob(s)

Worker1

Worker5

Worker3

Worker2

Worker6 D52D51 D53 D54 D55 D56 D58D57 D59 D60

D12D11 D13 D14 D15 D16 D18D17 D19 D20

D22D21 D23 D24 D25 D26 D28D27 D29 D30

D32D31 D33 D34 D35 D36 D38D37 D39 D40

D42D41 D43 D44 D45 D46 D48D47 D49 D50

D2D1 D3 D4 D5 D6 D8D7 D9 D10

Page 85: 選擇正確的Solution 來建置現代化的雲端資料倉儲

透過PowerShell/TSQL/Azure Portal 來調整

等級調整(Scale)

配合尖峰和離峰點, 移動DWU 等級執行大量資料載入或轉換作業之前,相應增加 DWU 以使您的資料更快速可供使用

暫停(Pause)將運算資源釋出,CPU和記憶體資源會傳回可用資源集區

只針對儲存部分收費(無運算費用)

暫停時所有進行中的查詢都會取消。交易性查詢 (會修改您的資料或結構) 可能無法快速地停止。

周末暫停= 28%

晚上暫停= 35%

40 工作小時 = 75%

透過暫停來節省成本

Page 86: 選擇正確的Solution 來建置現代化的雲端資料倉儲

儲存 匯出

匯入資料串流 匯入

查詢

Page 87: 選擇正確的Solution 來建置現代化的雲端資料倉儲

個別客戶帳號Clickstream

企業帳號

DWU 200

DWU 600

DWU 1200

Page 88: 選擇正確的Solution 來建置現代化的雲端資料倉儲

運算規模單位: Data Warehouse Unit (DWU)

Engine

Nodes

1 1 1 1 1 1 1 1 1 1 1 1

Worker

Nodes

1 2 3 4 5 6 10 12 15 20 30 60

Total # of

distributions

60 60 60 60 60 60 60 60 60 60 60 60

# of

distributions

per node

60 30 20 15 12 10 6 5 4 3 2 1

Concurrency

Slots

4 8 12 16 20 24 32 32 32 32 32 32

Page 89: 選擇正確的Solution 來建置現代化的雲端資料倉儲

App Service

Intelligent App

Hadoop

Azure Machine Learning

Power BI

Azure SQL Database

SQL

Azure SQL DataWarehouse

End-to-end platform built for the cloud

Power of integration

Page 90: 選擇正確的Solution 來建置現代化的雲端資料倉儲
Page 91: 選擇正確的Solution 來建置現代化的雲端資料倉儲

總結

微軟Azure SQL資料倉儲服務透過新一代技術可以協助用戶透過熟悉的技術跟平台處理針對現代大數據的挑戰, 使用者在彈性, 效能與價格上有更多選擇

Azure SQL資料倉儲服務不僅是企業級雲端資料倉儲, 更提供在數秒鐘之內增加/減少運算效能, 並提供暫停功能, 減少企業成本

透過與眾多資料分析工具的整合(PowerBI, Azure Machine Learning), 不論是大型組織或是小企業, 都可以透過Azure SQL資料倉儲服務進行分析, 管控資料, 找出大數據內含的價值

Page 92: 選擇正確的Solution 來建置現代化的雲端資料倉儲

Data Lake Store

Page 93: 選擇正確的Solution 來建置現代化的雲端資料倉儲

Azure Data Lake Store

針對大數據分析需求設計的超級規模資料儲存庫

雲端上提供的Hadoop File System (HDFS)

沒有資料量上限

儲存任何資料的原始格式

企業等級的權限管控跟加密

針對分析的需求作效能最佳化

Page 94: 選擇正確的Solution 來建置現代化的雲端資料倉儲

具高度延展性, 分散式, 支援平行處理的雲端檔案系統支援多種的資料分析框架

什麼是 Azure Data Lake Store?

LOB Applications

SocialDevices

Clickstream

Sensors

Video

Web

Relational

HDInsight

ADL Analytics

Machine Learning

Spark

R

98

ADL Store

Page 95: 選擇正確的Solution 來建置現代化的雲端資料倉儲

ADL Store 無限規模架構

ADL Store 中的檔案被切片分散到不同blocks中

Blocks 被分散到後端儲存系統中的不同的data

nodes

在有足夠的data nodes狀況下, 任何大小的檔案可以被儲存˙

Azure 雲端上的後端儲存系統概念上可以有無限的資源

每個檔案的Metadata也被同樣的系統儲存

99

Azure Data Lake Store file

…Block 1 Block 2 Block 2

後端儲存系統

Data node Data node Data node Data node Data nodeData node

Block Block Block Block Block Block

Page 96: 選擇正確的Solution 來建置現代化的雲端資料倉儲

ADL Store 提供大量的傳輸量

透過平行讀取ADL Store提供大量的傳輸量

每個讀取動作都在data notes 上藉由平行讀取同時進行

Read operation

100

Azure Data Lake Store file

…Block 1 Block 2 Block 2

後端儲存系統

Data node Data node Data node Data node Data nodeData node

Block Block Block Block Block Block

Page 97: 選擇正確的Solution 來建置現代化的雲端資料倉儲

ADL Store 資料安全: Role-based 存取控制

每個檔案跟目錄都被指派給一個擁有者(owner)跟群組(group )

檔案跟目錄都可以有不同的權限(read(r), write(w), execute(x)) 給擁有者(owner)跟群組(group )還有其他使用者(other)

詳細的存取控制規則(ACLs)可以被指派到特定的使用者及群組

101

Page 98: 選擇正確的Solution 來建置現代化的雲端資料倉儲

ADL Store 是 HDFS-相容檔案系統透過 WebHDFS 端點 Azure Data Lake Store 是一個 Hadoop相容檔案系統, 可以無縫的整合 Azure HDInsight

Map reduceHBase

transactionsAny HDFS applicationHive query

Azure HDInsight

Hadoop WebHDFS clientHadoop WebHDFS client

WebHDFS

endpointWebHDFS

REST API

WebHDFS

REST API

102

ADL Store file ADL Store file ADL Store file ADL Store fileADL Store file

Azure Data Lake Store

Page 99: 選擇正確的Solution 來建置現代化的雲端資料倉儲

ADL Store: 高可用性及可靠度

• 每個區域(region) Azure 將資料物件存放3份分別在不同的失敗(fault) 及升級(upgrade) 領域(domains)

• 所有操作動作都複製到另外兩份, 並確保複製完成後才 commit.

• 可以從任何一個資料副本進行讀取

Data is never lost or unavailable

even under failures

Replica 1

Replica 2 Replica 3

Fault/upgradedomains

Write Commit

Page 100: 選擇正確的Solution 來建置現代化的雲端資料倉儲

ADL Store: IngressData can be ingested into Azure Data Lake Store from a variety of sources

Server logs

Azure Event Hub

Apache

Flume

Azure Storage Blobs

Custom programs

.NET SDK

JavaScript CLI

Azure Portal

Azure PowerShell

Azure Data Factory

Apache Sqoop

Azure SQL DB

Azure SQL DW

Azure tables

Table Storage

On-premises databases

SQL

104

ADL Store

ADLS Built-in

copy service

Page 101: 選擇正確的Solution 來建置現代化的雲端資料倉儲

ADL Store: EgressData can be exported from Azure Data Lake Store into numerous targets/sinks

Azure SQL DB

SQL

Azure SQL DW

Azure Tables

Table Storage

On-premises databases

Azure Data Factory

Apache Sqoop

Azure Storage Blobs

Custom programs

.NET SDK

JavaScript CLI

Azure Portal

Azure PowerShell

105

Built-in

ADLS copy service

ADL Store

Page 102: 選擇正確的Solution 來建置現代化的雲端資料倉儲

Data Lake Store: 技術規格安全性 資料存取需要支援授權管理

原始格式 能儲存原始資料格式以追蹤資料血統及出處

低延遲 能支援高頻率的資料操作.

能支援多種分析框架—Batch, Real-time, Streaming, ML etc.

沒有單一框架可以支援所有資料內容跟分析方式.多種分析框架

資料細節 可記載資料的詳細內容.

吞吐量 能承受像Hadoop and Spark這樣平行處理架構的資料存取需求

可靠度 高可用度及可靠度.

延展性 可容納快速增長的資料

多種資料來源 可從多種資料來源輸入資料.

Page 103: 選擇正確的Solution 來建置現代化的雲端資料倉儲

Demo

Page 104: 選擇正確的Solution 來建置現代化的雲端資料倉儲

Data Lake Analytics

Page 105: 選擇正確的Solution 來建置現代化的雲端資料倉儲

企業規格的安全性

高度延展性,

可隨時調整運算效能

立即可以使用,

無須事先建置容易使用, 客製化彈性高

處理所有的資料類型

0100101001000101010100101001000

10101010010100100010101010010100

10001010101001010010001010101001

0100100010101010010100100010101

0100101001000101010100101001000

10101010010100100010101010010100

10001010101001010010001010101001

0100100010101010010100100010101

0100101001000101010100101001000

10101010010100100010101010010100

Azure Data Lake Analytics

Page 106: 選擇正確的Solution 來建置現代化的雲端資料倉儲

Azure Data Lake Analytics

新的分散式資料分析服務

基於Apache YARN上的分散式資料分析服務

每個搜尋都可以彈性的指定執行規模, 使用者可以專注在商業需求, 而不是硬體

內建 U-SQL— 可以混合使用SQL查詢語法及 C# 程式的語言

整合Visual Studio , 開發, 除錯, 調校程式碼更快速

Federated query 支援多個 Azure 資料來源

企業等級的 role based access control

Page 107: 選擇正確的Solution 來建置現代化的雲端資料倉儲

ADL Analytics特色

• 針對大數據應用設計

• 支援多種資料來源

• 簡化管理跟維護成本

• 透過新的U-SQL 語言來處理巨量資料

111

Page 108: 選擇正確的Solution 來建置現代化的雲端資料倉儲

ADLA直接在資料來源做查詢

• 無須移動資料, 直接將查詢任務派送到資料來源執行

• 避免查詢前必須將儲存在不同地方的大量資料透過網路搬移

• 提供單一資料檢視方式, 無論資料實際儲存在何處

• 減少資料多個副本的資料擴散(Data proliferation )問題

• 所有資料都可用單一查詢語法

• 各個資料來源可以維持原本各自的管理機制

• 將SQL查詢表示式直接在遠端SQL 資料來源執行• Filters

• Joins

U-SQL Query Query

Azure

Storage Blobs

Azure SQL

in VMs

Azure

SQL DB

Azure Data

Lake Analytics

Azure

SQL Data Warehouse

Azure

Data Lake Storage

Page 109: 選擇正確的Solution 來建置現代化的雲端資料倉儲

Work across all cloud data

Azure Data Lake Analytics

Azure SQL DW Azure SQL DBAzure

Storage BlobsAzure

Data Lake Store

SQL Server in an Azure VM

Page 110: 選擇正確的Solution 來建置現代化的雲端資料倉儲

U-SQL 語法SQL陳述式(Declarative) 查詢

• 使用 SQL語法 : SELECT FROM WHERE with GROUP

BY/aggregation, joins, SQL analytics functions

• 容易做最佳化調校

可處理結構性及非結構性資料

• Schema 在讀檔時決定

• 支援關聯式metadata 物件 (e.g. database, table)

高度擴充性

• 基於C# 型別系統(Type system )

• C# 表述語言(Expression language)

• 使用者自訂義 functions (U-SQL and C#)

• 使用者自訂義 aggregators (C#)

• 使用者自訂義operators (UDO) (C#)

提供容易擴充的平行化處理及Scale-out架構

• EXTRACTOR, OUTPUTTER, PROCESSOR, REDUCER,

COMBINER, APPLIER

將查詢送到不同資料來源執行

REFERENCE MyDB.MyAssembly;

CREATE TABLE T( cid int, first_order DateTime, last_order DateTime, order_count int, order_amount float );

@o = EXTRACT oid int, cid int, odate DateTime, amount floatFROM "/input/orders.txt"USING Extractors.Csv();

@c = EXTRACT cid int, name string, city stringFROM "/input/customers.txt"USING Extractors.Csv();

@j = SELECT c.cid, MIN(o.odate) AS firstorder, MAX(o.date) AS lastorder, COUNT(o.oid) AS ordercnt, AGG<MyAgg.MySum>(c.amount) AS totalamount

FROM @c AS c LEFT OUTER JOIN @o AS o ON c.cid == o.cidWHERE c.city.StartsWith("New")

&& MyNamespace.MyFunction(o.odate) > 10GROUP BY c.cid;

OUTPUT @j TO "/output/result.txt"USING new MyData.Write();

INSERT INTO T SELECT * FROM @j;

Page 111: 選擇正確的Solution 來建置現代化的雲端資料倉儲
Page 112: 選擇正確的Solution 來建置現代化的雲端資料倉儲
Page 113: 選擇正確的Solution 來建置現代化的雲端資料倉儲

Demo

Page 114: 選擇正確的Solution 來建置現代化的雲端資料倉儲

整合 Visual Studio

整合U-SQL, Hive 及Storm

初學者容易上手

提供給專家豐富的工具

視覺化的呈現執行狀態, 並可重播執行狀態以利找出效能瓶頸及進行優化

Page 115: 選擇正確的Solution 來建置現代化的雲端資料倉儲

Logical -> Physical Plan

每個方塊代表Vertex, 代表整體工作中的一部分任務

每個SuperVertex (aka “Stage)

中的 Vertexes 都對相同的資料做相同的動作

後面stages 中的Vertexes 有可能會跟前一個 stage的Vertexes

有關 視覺化呈現執行結構與狀態

Page 116: 選擇正確的Solution 來建置現代化的雲端資料倉儲

透過10個平行(Parallelism)將1.87GB Json檔案資料做彙總計算- 編譯時間: 28 秒- 執行時間: 2分鐘

Page 117: 選擇正確的Solution 來建置現代化的雲端資料倉儲

簡化管理跟維護

• 以網頁為基礎的管理介面

• 透過 PowerShell自動化排程

• 整合 Azure AD, 以角色為主的權限管控

• 監控服務操作及執行

Page 118: 選擇正確的Solution 來建置現代化的雲端資料倉儲
Page 119: 選擇正確的Solution 來建置現代化的雲端資料倉儲

U-SQL

GitHubMicrosoft.Analytics.Samples.Formats/

Page 120: 選擇正確的Solution 來建置現代化的雲端資料倉儲

Azure提供多元的大數據技術架構選擇透過完整的解決方案協助企業加速創新

任何 Hadoop

技術

最佳化調校,

受管理維護的Haddop叢集

針對大數據資料整理需求設計的資料分析服務

HDP | CDH | MapR

(Azure Marketplace)

Data Lake Analytics

Azure Data Lake

Analytics

Data Lake StoreAzure Storage

控制 容易使用

Use

r A

do

ptio

n

IaaS Hadoop Managed Hadoop Big Data as-a-service

HDInsight

Page 121: 選擇正確的Solution 來建置現代化的雲端資料倉儲

Microsoft Azure Data Lake

YARN

U-SQL

Analytics Service HDInsight

Store

HDFS

Page 122: 選擇正確的Solution 來建置現代化的雲端資料倉儲
Page 123: 選擇正確的Solution 來建置現代化的雲端資料倉儲

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption, TD,

Audit

ADLS / Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption, TD

Audit

Languages T-SQL HiveQL SparkSQL, HiveQL,

Scala, Java,

Python, R

U-SQL T-SQL

Extensibility No Yes, .NET/SerDe Yes, Packages Yes, .NET Yes, .NET CLR

External File

Types

ORC, TXT,

Parquet, RCFile

ORC, CSV, Parquet

+ others

Parquet, JSON,

Hive + others

Many ORC, TXT, Parquet,

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes & VM Nodes & VM Units/Jobs VM

Schema

Definition

Schema on

Write / Polybase

Schema on Read Schema on Read Schema on Read Schema on Write /

Polybase

Page 124: 選擇正確的Solution 來建置現代化的雲端資料倉儲

The “Clusters” Big Data Approach

Hardware

Purchase

Maintaining

HardwareCluster Time

Nodes

Time

Wasted compute time vs. Productive

compute time

Page 125: 選擇正確的Solution 來建置現代化的雲端資料倉儲

The “Clusterless” Big Data Approach

Intelligently managing the

cluster lifetime and scale

Wasted compute time vs. Productive

compute time

Wasted compute time vs. Productive

compute time with clusters

Wasted compute time vs. Productive

compute time with Azure Data Lake

Analytics

A clusterless approach

doesn’t have unused

compute time

Page 126: 選擇正確的Solution 來建置現代化的雲端資料倉儲

Enabling Further Cost Optimizations

Productive compute time with Azure Data Lake

Analytics

Productive compute time vs Optimized compute time with

Azure Data Lake Analytics

Page 127: 選擇正確的Solution 來建置現代化的雲端資料倉儲

N1

N2

Page 128: 選擇正確的Solution 來建置現代化的雲端資料倉儲
Page 129: 選擇正確的Solution 來建置現代化的雲端資料倉儲
Page 130: 選擇正確的Solution 來建置現代化的雲端資料倉儲

Analytics APIs

Ready to consume APIs for Vision, Speech, Language,

Knowledge

R-based analytics

Enterprise grade, write once deploy anywhere

Cloud analytics

Easy drag/drop UX with single click

operationalization

Azure Machine LearningMicrosoft R Cognitive Services

Solutions

Big Data Platform

Run large massively parallel compute

and data jobs

HDInsight/Spark

Citizen Data ScientistAdvanced Data

Scientist DeveloperData Engineer

/Data Scientist

Preconfigured Solutions/Apps/Soluti

on Templates

BDM/TDM

Finished Apps & Solutions

Ready to consume Apps and solutions for solving specific

business scenarios

Page 131: 選擇正確的Solution 來建置現代化的雲端資料倉儲

MapReduce &

Tez

U-SQL

Data Lake Store

WebHDFS

YARN

Spark

Batch

Interactive

Streaming

ML

Batch

Interactive

Streaming

ML

FEDERATION to enable very large

(100K+) YARN clusters, Cross-DC,

BCDR

REEF – “libc for BigData”

AMEOBA – work preserving pre-

emption

RAYON – Capacity Reservation

MERCURY & YAQ – Optimistic allocation + YARN conservatism to

improve performance

OAuth Support

Microsoft works with the Open Source community

Page 132: 選擇正確的Solution 來建置現代化的雲端資料倉儲

Big Data Pipeline and Workflow

Page 133: 選擇正確的Solution 來建置現代化的雲端資料倉儲

Big Data Pipeline and Data Flow in Azure

HDInsight

(Hadoop and

Spark)

Stream Analytics

Data Lake

Analytics

Machine

Learning

Page 134: 選擇正確的Solution 來建置現代化的雲端資料倉儲

透過Polybase查詢非結構化資料

T-SQL query

SQL Server Hadoop

計程車交易:

************************

**********************

*********************

**********************

***********************

$658.39

Jim Gray

姓名

11/13/58

生日

WA

縣市

Ann Smith 04/29/76 ME

Page 135: 選擇正確的Solution 來建置現代化的雲端資料倉儲

App Service

Intelligent App

Hadoop

Azure Machine Learning

Power BI

Azure SQL Database

SQL

Azure SQL DataWarehouse

End-to-end platform built for the cloud

Power of integration

Page 136: 選擇正確的Solution 來建置現代化的雲端資料倉儲

ON PREMISES CLOUD

Massive

Archive

On Prem HDFS

Active

Incoming Data

“Landing

Zone”

Data Lake

Store

Move to

cloud via

AzCopy

Data Lake

Store

Data Lake

Analytics

Azure DW

CONSUMPTION

Machine Learning at scale.

Customer Segmentation &

Fraud Detection)

Web Portals

Mobile

Apps

Power BI

Experimentation at scale.

Drive changes based on

customer behavior

Real World Scenario with Azure Data Lake

Jupyter

Data Science

Notebooks

Page 137: 選擇正確的Solution 來建置現代化的雲端資料倉儲

雲端隨選隨用 各式資料 快速上線服務 資料分享跟協同合作

開放 支援完整資料分析流程

Page 138: 選擇正確的Solution 來建置現代化的雲端資料倉儲

專注在解決資料問題, 而不需要架設複雜系統環境

Page 139: 選擇正確的Solution 來建置現代化的雲端資料倉儲

專注在解決資料問題,而不需要架設複雜系統環境

解決接收大量, 持續性, 爆發性, 來自全球的各式資料問題

Page 140: 選擇正確的Solution 來建置現代化的雲端資料倉儲

結構性資料

非結構性資料

從數MB 到數百PB 大小

Page 141: 選擇正確的Solution 來建置現代化的雲端資料倉儲

雲端上的Hadoop分散式檔案系統

以類似原生的HDFS 服務為基礎

可以被所有支援HDFS 的專案存取(Spark, Storm, Flume, Sqoop, Kafka, R, etc.)

支援整合巨量資料分析架構如HDInsight,

Hortonworks, and Cloudera

HDInsight

各式資料都是有潛在價值, Data Lake提供單一儲存環境, 提供企業儲存大量各式原始資料及平行處理能力, 以便於應用在未來的智慧型資料分析與呈現

Page 142: 選擇正確的Solution 來建置現代化的雲端資料倉儲

從機器學習實驗到產生操作化分析預測API 都使用相同的工具

快速地進行機器學習中的資料搬移, 訓練, 評分

Page 143: 選擇正確的Solution 來建置現代化的雲端資料倉儲
Page 144: 選擇正確的Solution 來建置現代化的雲端資料倉儲

從資料中萃取出價值需要全公司的投入

將組織中各個不同的資料生態系串接在一起

容易分享學習心得

Page 145: 選擇正確的Solution 來建置現代化的雲端資料倉儲

從資料中萃取出價值需要全公司的投入

將組織中各個不同的資料生態系串接在一起

容易分享學習心得

解決組織內跨部門資料取得困難及資料科學家培養及訓練的問題

Page 146: 選擇正確的Solution 來建置現代化的雲端資料倉儲

專注在解決資料問題, 而不需要架設複雜系統環境

Page 147: 選擇正確的Solution 來建置現代化的雲端資料倉儲

專注在解決資料問題,而不需要架設複雜系統環境

解決接收大量, 持續性, 爆發性, 來自全球的各式資料問題

Page 148: 選擇正確的Solution 來建置現代化的雲端資料倉儲

結構性資料

非結構性資料

從數MB 到數百PB 大小

Page 149: 選擇正確的Solution 來建置現代化的雲端資料倉儲

雲端上的Hadoop分散式檔案系統

以類似原生的HDFS 服務為基礎

可以被所有支援HDFS 的專案存取(Spark, Storm, Flume, Sqoop, Kafka, R, etc.)

支援整合巨量資料分析架構如HDInsight,

Hortonworks, and Cloudera

HDInsight

各式資料都是有潛在價值, Data Lake提供單一儲存環境, 提供企業儲存大量各式原始資料及平行處理能力, 以便於應用在未來的智慧型資料分析與呈現

Page 150: 選擇正確的Solution 來建置現代化的雲端資料倉儲

從機器學習實驗到產生操作化分析預測API 都使用相同的工具

快速地進行機器學習中的資料搬移, 訓練, 評分

Page 151: 選擇正確的Solution 來建置現代化的雲端資料倉儲
Page 152: 選擇正確的Solution 來建置現代化的雲端資料倉儲

從資料中萃取出價值需要全公司的投入

將組織中各個不同的資料生態系串接在一起

容易分享學習心得

Page 153: 選擇正確的Solution 來建置現代化的雲端資料倉儲

從資料中萃取出價值需要全公司的投入

將組織中各個不同的資料生態系串接在一起

容易分享學習心得

解決組織內跨部門資料取得困難及資料科學家培養及訓練的問題

Page 154: 選擇正確的Solution 來建置現代化的雲端資料倉儲
Page 155: 選擇正確的Solution 來建置現代化的雲端資料倉儲

擁抱開放原始碼生態系

結合廣大生態系提供更靈活的彈性

讓各式技術人員都可以運用熟悉的工具

Page 156: 選擇正確的Solution 來建置現代化的雲端資料倉儲

擁抱開放原始碼生態系

結合廣大生態系提供更靈活的彈性

讓各式技術人員都可以運用熟悉的工具

Page 157: 選擇正確的Solution 來建置現代化的雲端資料倉儲
Page 158: 選擇正確的Solution 來建置現代化的雲端資料倉儲

唯一一家提供從資料匯入到產生行動及資料呈現完整的解決方案

Page 159: 選擇正確的Solution 來建置現代化的雲端資料倉儲

Cortana Analytic Suite (分析套件包)將資料透過先進資料分析轉換成智慧型決策與行動

決策與行動

People

Automated Systems

Apps

Web

Mobile

Bots

智慧服務

儀錶板 & 資料視覺化

Cortana

Bot

Framework

Cognitive

Services

Power BI

資訊管理

Event Hubs

Data Catalog

Data Factory

機器學習跟分析

HDInsight

(Hadoop and

Spark)

Stream

Analytics

智慧分析

Data Lake

Analytics

Machine

Learning

巨量資料儲存

SQL Data

Warehouse

Data Lake

Store

Data Sources

Apps

Sensors and devices

資料產生

IoT Hub

DocumetDB

Page 160: 選擇正確的Solution 來建置現代化的雲端資料倉儲