Big Data 관리를 위한download.microsoft.com/.../3-1.Intelligent.pdfHadoop Customers : Enterprise...

37
현재홖( [email protected]) Microsoft Korea Big Data 관리를 위한 Microsoft DW 솔루션 소개

Transcript of Big Data 관리를 위한download.microsoft.com/.../3-1.Intelligent.pdfHadoop Customers : Enterprise...

Page 1: Big Data 관리를 위한download.microsoft.com/.../3-1.Intelligent.pdfHadoop Customers : Enterprise Segment *117 Hadoop customers references from: “Powered by Hadoop”, Cloudera

현재홖( [email protected])

Microsoft Korea

Big Data 관리를 위한 Microsoft DW 솔루션 소개

Page 2: Big Data 관리를 위한download.microsoft.com/.../3-1.Intelligent.pdfHadoop Customers : Enterprise Segment *117 Hadoop customers references from: “Powered by Hadoop”, Cloudera

홖경 변화에 대한 젂망

마이크로소프트 리서치의 변화 젂망

Page 3: Big Data 관리를 위한download.microsoft.com/.../3-1.Intelligent.pdfHadoop Customers : Enterprise Segment *117 Hadoop customers references from: “Powered by Hadoop”, Cloudera

Big Data Forecasting

―[by 2020] data use is expected to grow

by as much as 44 times, amounting to

some 35.2ZB (zettabytes—a billion

terabytes) globally.‖

―We now have well over a thousand

customers in the ever-growing EMC

Petabyte Club. They—or frequently many

more—petabytes of EMC storage in

production. By 2012 or so, we're

forecasting that we'll have to start a new,

informal club—the EMC Exabyte Club.‖

―AT&T has about 19 petabytes of data

transferred through their networks each

day.‖

―Flickr members upload more than 3,000

images every minute, and yesterday

yeoaaron uploaded the five billionth

photo…‖

여러 기관에서 발표하고 있는 Big Data의 예측은 다음과 같습니다.

Page 4: Big Data 관리를 위한download.microsoft.com/.../3-1.Intelligent.pdfHadoop Customers : Enterprise Segment *117 Hadoop customers references from: “Powered by Hadoop”, Cloudera

Big Data 정의

“Big Data는 일반적인 기졲 사용해오던 소프트웨어 툴로 허용된 시갂 내에 캡처, 관리, 프로세스 할 수 없을 맊큼 대량의 데이터로 정의” McKinsey Global Institute

“디지털 공갂에서 비정형 데이터가 크게 늘어남에 따라 기졲의 데이터 분석 체계로는 감당하기 어려운 막대한 양의 데이터. 검색사이트 검색통계, 온라인 서비스의 이용기록, Social Media의 소통기록/영상, 음성/ Social Media.”

Page 5: Big Data 관리를 위한download.microsoft.com/.../3-1.Intelligent.pdfHadoop Customers : Enterprise Segment *117 Hadoop customers references from: “Powered by Hadoop”, Cloudera

Enterprise Industry

Rackspace Internet

Rakuten Internet

Trend Micro Internet

Walt Disney Internet

Yahoo! Internet

Vonage Telecom

Samsung Bio/Pharma

Adobe Software

Spadac Software

Sears Retail

Iron Mountain Info Mgt

• 68% of Hadoop projects started off as skunkworks efforts1

• Most Hadoop installations are next to relational database (mostly Oracle, MS SQL) with an ETL relationship between the two

• Large clusters (>500 nodes) are seen only in Web 2.0 companies. Commercial customers tend to have <50 nodes • Less than 10% of the Hadoop users are using Amazon’s EMR service

Hadoop Customers : Enterprise Segment

*117 Hadoop customers references from: “Powered by Hadoop”, Cloudera websites, or from TC interviews with 20 customers

1. 3rd Party Research (LaunchPad inc) of 102 Hadoop developers, Sept 2010

Commercial 19%

Intenet Sites/Ads

67%

Academic 14%

Public Listed Hadoop Customers*

Enterprise Industry

Alibaba Internet

AOL Internet

Baidu Internet

Classmates Internet

Comscore Internet

Ebay Internet

Facebook Internet

Fox Network Internet

Google Internet

Groupon Internet

NAVTEQ Media Internet

New York Times Internet

5

Big Data 트랜드

Page 6: Big Data 관리를 위한download.microsoft.com/.../3-1.Intelligent.pdfHadoop Customers : Enterprise Segment *117 Hadoop customers references from: “Powered by Hadoop”, Cloudera

Big Data 트랜드

Enterprise Manufacturing Intelligence(EMI)

2%

2%

3%

5%

7%

8%

15%

18%

18%

22

%

12%

8%

10%

3%

12%

13%

5%

15%

15%

0% 5% 10% 15% 20% 25%

PLM

K & CM

GRC

Supply Mgm't

HCM

SCM

Cust Mgm't

ERP

BI / PM

Mfg Ops

for 2010

for 2008

AMR Research 에서 발표한 2008~2010 제조 산업 Enterprise IT Spending 의 트랜드를 보면, Enterprise Manufacturing Intelligence(EMI) 영역이 IT Spending 이 가장 맋이 투자될 영역으로 조사 되었으며, Gartner 가 발표한 Executive Top Trend 중에 기업 분석 인프라 구축 (Business Intelligence) 영역이 비즈니스 측면과 기술적 측면에서 Top priority 로 선정됨

Source: Gartner EXP (January 2009) Source: AMR Research Enterprise IT Spending Study, January, 2008

Page 7: Big Data 관리를 위한download.microsoft.com/.../3-1.Intelligent.pdfHadoop Customers : Enterprise Segment *117 Hadoop customers references from: “Powered by Hadoop”, Cloudera

7

과거 e-Commerce 패턴

Page 8: Big Data 관리를 위한download.microsoft.com/.../3-1.Intelligent.pdfHadoop Customers : Enterprise Segment *117 Hadoop customers references from: “Powered by Hadoop”, Cloudera

8

Big Data 기반 e-Commerce 패턴

Page 9: Big Data 관리를 위한download.microsoft.com/.../3-1.Intelligent.pdfHadoop Customers : Enterprise Segment *117 Hadoop customers references from: “Powered by Hadoop”, Cloudera

예시: Twitter

12TB data/ day

전체를 분석:

Key concepts:

비정형 데이터를 파싱 하지 않은 상태로 DW에 저장하는 구조가 아닌 파일 저장 형태로 유지

신속하게 ad-hoc 쿼리 를 통한 대량의 데이터 처리가 가능하게 함.

TRENDING TOPICS:

Justin Bieber

Egypt

Snowpocalypse

GEOGRAPHIC BREAKDOWNS:

WHAT INFLUENCES RETWEETS?

SPAM IDENTIFICATION:

• Akshf#$/lajsdf

9

문제점: • 매일 대량의 로그성

데이터를 저장할

필요성 증대

• 트윗 관련 데이터를

단지 저장하는 것

이상의 Value를

고객에게 전달을 하는

것이 필요로 해짐.

영향: • 전통적인 방식의

모니터링을 통한 사후

알림이 아닌 대량의

트윗과 실시간 파일

구조 기반의 분석을

통한 Early Warning 과

같은 형태의 알림 및

분석이 실현됨.

Social Media 개척자: Twitter

Page 10: Big Data 관리를 위한download.microsoft.com/.../3-1.Intelligent.pdfHadoop Customers : Enterprise Segment *117 Hadoop customers references from: “Powered by Hadoop”, Cloudera

Source: socialnomics.com

Sweden | Israel | Greece | Chile | North Korea | Australia

Have more Twitter followers than the entire po

pulations of

Social Media 개척자: Twitter

Page 11: Big Data 관리를 위한download.microsoft.com/.../3-1.Intelligent.pdfHadoop Customers : Enterprise Segment *117 Hadoop customers references from: “Powered by Hadoop”, Cloudera

Microsoft의 Twitter 홗용

• Real Time Twitter Visualizer

Page 12: Big Data 관리를 위한download.microsoft.com/.../3-1.Intelligent.pdfHadoop Customers : Enterprise Segment *117 Hadoop customers references from: “Powered by Hadoop”, Cloudera

Microsoft의 Twitter 홗용

• Real Time Escalation to Technical Support Team

Page 13: Big Data 관리를 위한download.microsoft.com/.../3-1.Intelligent.pdfHadoop Customers : Enterprise Segment *117 Hadoop customers references from: “Powered by Hadoop”, Cloudera

Microsoft Big Data Portfolio

Cloud 기반의 관계 형 저장소

일관된 개발 모델

자동화된 DB 관리

대용량 볼륨 및 트랜잭션에 따른 자동 확장

Microsoft Appliance DW 솔루션

500TB 까지의 MPP 방식의 대용량 아키텍처 지원

H/W ,S/W와의 일체형

대용량, 무 정지 HA홖경 하에서의 DB 운영을 가능하게끔 해주는 RDBMS

OLTP/OLAP/ETL/Reporting Engine이 포함된 Data Platform

X86 기반의 슈퍼 컴퓨팅 능력을 제공

비정형 성격의 대량의 데이터를 분석하기 위한 인프라 제공

DSC 기반의 분산 파일 구조

Fast Track

Page 14: Big Data 관리를 위한download.microsoft.com/.../3-1.Intelligent.pdfHadoop Customers : Enterprise Segment *117 Hadoop customers references from: “Powered by Hadoop”, Cloudera

Microsoft Big Data E2E Architecture

Page 15: Big Data 관리를 위한download.microsoft.com/.../3-1.Intelligent.pdfHadoop Customers : Enterprise Segment *117 Hadoop customers references from: “Powered by Hadoop”, Cloudera

다중의 소스

선언적인

지연 시간 없이 (near 0) .

Ad-hoc 쿼리 또는 요청 연속된 스탞딩 쿼리

초, 시갂, 일별, 월별 1000분의 1초 또는 그 이하

초당 수백의 이벤트 초 당 수맊 또는 그 이상의 이벤트

사용자가 원하는 특정 이벤트나 패턴을 특정 시간, 타이밍, 인과 관계를 고려해 사용자에게 실시간으로 경고가능한 이벤트 기반어플리케이션

StreamInsight

Page 16: Big Data 관리를 위한download.microsoft.com/.../3-1.Intelligent.pdfHadoop Customers : Enterprise Segment *117 Hadoop customers references from: “Powered by Hadoop”, Cloudera
Page 17: Big Data 관리를 위한download.microsoft.com/.../3-1.Intelligent.pdfHadoop Customers : Enterprise Segment *117 Hadoop customers references from: “Powered by Hadoop”, Cloudera
Page 18: Big Data 관리를 위한download.microsoft.com/.../3-1.Intelligent.pdfHadoop Customers : Enterprise Segment *117 Hadoop customers references from: “Powered by Hadoop”, Cloudera
Page 19: Big Data 관리를 위한download.microsoft.com/.../3-1.Intelligent.pdfHadoop Customers : Enterprise Segment *117 Hadoop customers references from: “Powered by Hadoop”, Cloudera
Page 20: Big Data 관리를 위한download.microsoft.com/.../3-1.Intelligent.pdfHadoop Customers : Enterprise Segment *117 Hadoop customers references from: “Powered by Hadoop”, Cloudera
Page 21: Big Data 관리를 위한download.microsoft.com/.../3-1.Intelligent.pdfHadoop Customers : Enterprise Segment *117 Hadoop customers references from: “Powered by Hadoop”, Cloudera
Page 22: Big Data 관리를 위한download.microsoft.com/.../3-1.Intelligent.pdfHadoop Customers : Enterprise Segment *117 Hadoop customers references from: “Powered by Hadoop”, Cloudera
Page 23: Big Data 관리를 위한download.microsoft.com/.../3-1.Intelligent.pdfHadoop Customers : Enterprise Segment *117 Hadoop customers references from: “Powered by Hadoop”, Cloudera
Page 24: Big Data 관리를 위한download.microsoft.com/.../3-1.Intelligent.pdfHadoop Customers : Enterprise Segment *117 Hadoop customers references from: “Powered by Hadoop”, Cloudera

LINQ to HPC

• LINQ to HPC System Components

1

1 LINQ to HPC 쿼리 수행을 통한 HPC Job의 초기화

2

3

4

4

4

3

4

2 DSC(Distributed Storage Catalog) : HPC 클러스터의 모든 Compute Node 제어. DSC Node의 File Set에 대한 카탈로그, 클러스터 메타 정보 내포. HPC Job Scheduler : LINQ to HPC Job의 순서 및 클러스터 리소스 할당 정의.

3 쿼리를 수행하기 위해 각 작업 수행노드 (DSC node)의 마스터에 해당하는 LINQ to HPC GM 인스턴스 생성. Execution Plan에 따라 DSC node 사이에서 분산 작업 수행.

Page 25: Big Data 관리를 위한download.microsoft.com/.../3-1.Intelligent.pdfHadoop Customers : Enterprise Segment *117 Hadoop customers references from: “Powered by Hadoop”, Cloudera

DW Appliance

Entry DW ProLiant DL370

2Socket – 8core

6 TB – 14 TB

Basic DW ProLiant DL38x

2Socket- 12core

10 TB - 20TB

Mainstream DW ProLiant DL58x G7

4 Socket – 32core

20TB - 40TB

Premium DW ProLiant DL980

8 Socket – 80 core

50 - 80 TB

Enterprise Data Warehouse

Microsoft Parallel DW MPP

10sTB - 500TB

Fast Track DW

Parallel Data Warehouse

• 중소기업 DW솔루션에서 엔터프라이즈 급 DW솔루션까지 End-to-End 제공

• Fast Track : 일반적인 SMP서버를 DW용으로 최적화하여 가격대비 최상의 성능 발휘(~80TB, Core처리속도=Memory처리속도=Channel IO젂송속도= Disk IO처리속도)

• PDW : 500TB까지 확장 가능한 True MPP DW

Page 26: Big Data 관리를 위한download.microsoft.com/.../3-1.Intelligent.pdfHadoop Customers : Enterprise Segment *117 Hadoop customers references from: “Powered by Hadoop”, Cloudera

Microsoft DW Appliance-Fast Track

• SQL Server 2008 R2를 기반으로 RDBMS 가 운영되는 홖경에서 CPU가 소비할 수 있는 최대의 I/O 대역폭을 처리할 수 있도록 DBMS Server와 Storage 를 구성하는 SMP 기반의 참조 아키텍처(Reference Architecture)

스토리지 시스템 처리량(Throughput)

IO Channel 처리량(Throughput)

CPU 및 서버 처리량(Throughput)

SQL Server 2008의 성능 병목의 잠재 가능성 부분

SERVER

CPU C

ORES

WIN

DO

WS

SQ

L SERVER

CACH

E

FC HBA

FC HBA

A

B

A

B

A

B

A B FC

Sw

itch

Storage Controller A

B

CACH

E

A

B

LUN

DSK DSK

LUN

DSK DSK

A

B

CPU Feed Rate SQL Server Read Ahead Rate

HBA Port Rate Switch per Rate SP Port Rate LUN Read Rate Disk Feed Rate

Page 27: Big Data 관리를 위한download.microsoft.com/.../3-1.Intelligent.pdfHadoop Customers : Enterprise Segment *117 Hadoop customers references from: “Powered by Hadoop”, Cloudera

Microsoft DW Appliance-Fast Track

• HP Fast Track Reference Architecture 모델 예시

4 G

b/s

FC s

witch

#1

300 G

B p

er D

rive

15k S

AS

Controller #1

500 MB/s

Controller #2

500 MB/s

A B

A B

Drive#1 Drive#2

Drive#3 Drive#4

Drive#5 Drive#6

Drive#7 Drive#8

Drive#9 Drive#10

Drive#11

LUN#1

LUN#2

LUN#3

LUN#4

LUN#1

LUNs for Data

LUNs for Log

Hot Spare

FC HBA1 #1 4Gb/s

FC HBA1 #2 4Gb/s

Core #1 (200 MB/s)

Core #2 (200 MB/s)

Core #3 (200 MB/s)

Core #4 (200 MB/s)

Quad C

ore

CPU#1

MSA2212fc

FC

Arrary

#1

8 G

b/s

FC s

witch

#2

300 G

B p

er D

rive

15k S

AS

Controller #3

500 MB/s

Controller #4

500 MB/s

A B

A B

Drive#1 Drive#2

Drive#3 Drive#4

Drive#5 Drive#6

Drive#7 Drive#8

Drive#9 Drive#10

Drive#11

LUN#5

LUN#6

LUN#7

LUN#8

LUN

LUNs for Data

Hot Spare

FC HBA1 #3 4Gb/s

FC HBA1 #4 4Gb/s

Core #5 (200 MB/s

Core #6 (200 MB/s)

Core #7 (200 MB/s)

Core #8 (200 MB/s)

Quad C

ore

CPU#2

MSA2212fc

FC

Array#

2

Local

Dri

ve

36GB per Drive 10k SAS

HP Proliant DL 785 G5 FC Switch MSA2000

4Gb/s (A,B Port)

LUNs for Cube

용도 Size LUN Drives RAID

데이터 2,400 GB 8 16 1

로그 300 GB 1 2 1

CUBE 600 GB 1 2 0

Hot Spare 1,200 GB - 4 -

Drive#1

Drive#2

Drive#3

Drive#4

Drive#5

Drive#6

Drive#7

Drive#8

A

A

B

B

A

A

B

B

4Gb/s (A,B Port)

메모리: 32GB

Drive#12

Drive#12

Page 28: Big Data 관리를 위한download.microsoft.com/.../3-1.Intelligent.pdfHadoop Customers : Enterprise Segment *117 Hadoop customers references from: “Powered by Hadoop”, Cloudera

Microsoft DW Appliance-Fast Track

2 Processor Configurations

• HP ProLiant DL 370 G6 (2.5TB – 14TB)

• HP ProLiant DL 380 G7 (10TB – 20TB)

• HP ProLiant DL 385 G7 (10TB – 20TB)

4 Processor Configurations

• HP ProLiant DL 580 G7 (20TB – 40TB)

• HP ProLiant DL 585 G7 (20TB – 40TB)

8 Processor Configurations

• HP ProLiant DL 980 G7 (40TB – 80TB)

• Fast Track은 Server와 Storage 및 네트워크를 제공하는 HP와의 젂략적 공조를 통해 최상의 성능을 제공하는 가이드라인을 제공하고 있으며, 업무의 규모와 볼륨에 따라 다양한 모델을 선택할 수 있는 유연성을 제공

Page 29: Big Data 관리를 위한download.microsoft.com/.../3-1.Intelligent.pdfHadoop Customers : Enterprise Segment *117 Hadoop customers references from: “Powered by Hadoop”, Cloudera

Microsoft DW Appliance-PDW

수십 ~ 수백 TB 이상의 높은 확장성 제공

MPP (Massively Parallel Processing) 기반의 병렬 처리 및 확장 시스템

다양한 H/W 벤더 선택 가능

산업 표준 H/W를 이용하여 TCO 젃감

Microsoft BI와의 밀접한 연동

Page 30: Big Data 관리를 위한download.microsoft.com/.../3-1.Intelligent.pdfHadoop Customers : Enterprise Segment *117 Hadoop customers references from: “Powered by Hadoop”, Cloudera
Page 31: Big Data 관리를 위한download.microsoft.com/.../3-1.Intelligent.pdfHadoop Customers : Enterprise Segment *117 Hadoop customers references from: “Powered by Hadoop”, Cloudera

Microsoft DW Appliance-PDW

• PDW Architecture

Control Rack Data Rack (Compute Node)

Control Rack Data Rack/s

Control node (Master Node)

• 클라이얶트 App과의 연결이 이루어지는 곳

• MPP 엔진이 위치하고 있음

• 모든 노드의 DMS (Data Movement

Services)를 컨트롟 함

• 시스템 메타 데이터 저장

• Active/Passive Cluster 형태로 구성

Compute nodes

• 사용자 데이터 저장

• 로컬 쿼리 처리를 수행함

• DMS (Data Movement Service) 구동

• 외부 네트워크에서 접속 불가

• N Active / 1 Passive Cluster 형태로

구성 (Spare node : Passive)

Landing Zone

• 데이터 적재를 위한 스테이징 공갂

• 외부 네트워크에서 접속 가능

• 3rd Party H/W 및 S/W와 확장 가능함

Backup node

• 백업 파일 저장

• 외부 네트워크에서 접속 가능

• 3rd Party H/W 및 S/W와 확장 가능함

Management node

• Windows 도메인 컨트롟러가 위치

(Active Directory)

• S/W 업그레이드와 패치 적용에 대한 스테이징 공갂

• 특정 노드에 대한 reimage 작업이

필요할 경우를 위한 S/W image를

저장함

Page 32: Big Data 관리를 위한download.microsoft.com/.../3-1.Intelligent.pdfHadoop Customers : Enterprise Segment *117 Hadoop customers references from: “Powered by Hadoop”, Cloudera

한 경기 혹은 테스트 시 2시갂 동안 7억건 이상의 맋은 데이터가 생성됨. 특히 F1 Car는 시갂 당 수억 건의 Data Point를 생성 하고, 초당 수백 번의 부품 성능을 측정/분석해야 함. 대량 데이터에 대한 빠른 분석이 가능한 플랫폼이 필요

대맊 청화 텔레콤 인터넷 서비스 팀의 SQL Server 기반으로 되어 있는 EDW/BI 시스템으로 분석 업무는 고객 데이터 및 매출 데이터 분석 임.

2006년 젂자 통신 네트워크로 설립된 후, 2010년 여름에 본격적인 증권거래소로 젂홖한 미국 내에서 4 번째로 큰 증권 거래소로 뉴저지 주 저지 시티를 기반을 두고 있으며, 매일 최대 50억 주의 거래 지원, 향후 100억 주까지 지원 가능하도록 예정임.

Stock 거래, 주문과 거래에 대한 분석 홖경의 Platform으로 Microsoft Parallel Data Warehouse로 구축하여 2011 년에 Open 하였음.

Microsoft DW Appliance-PDW 사례

Page 33: Big Data 관리를 위한download.microsoft.com/.../3-1.Intelligent.pdfHadoop Customers : Enterprise Segment *117 Hadoop customers references from: “Powered by Hadoop”, Cloudera

시간

IT 자원

실제 사용량

할당된 IT-자원

과다량

부족량

예상 사용량

Microsoft Azure Cloud

Page 34: Big Data 관리를 위한download.microsoft.com/.../3-1.Intelligent.pdfHadoop Customers : Enterprise Segment *117 Hadoop customers references from: “Powered by Hadoop”, Cloudera

SQL Azure

Page 35: Big Data 관리를 위한download.microsoft.com/.../3-1.Intelligent.pdfHadoop Customers : Enterprise Segment *117 Hadoop customers references from: “Powered by Hadoop”, Cloudera

애플리케이션

인터넷

L

B TDS (tcp)

TDS (tcp)

TDS (tcp)

SQL 클라이얶트 라이브러리

사용

e.g. ODBC, ADO.Net, PHP,

로드밸런서를 통해 세션

젂달

게이트웨이

게이트웨이

게이트웨이

게이트웨이

게이트웨이

게이트웨이

패브릭 컨트롟러: 복제 및 장애처리, 그리고 로드밸런싱을 통한 확장성과 가용성 확보

SQL SQL SQL SQL SQL SQL

게이트웨이: 인증/권한 정책 강제 및 하부의 SQL에 위임

SQL Azure 내부 구조

Page 36: Big Data 관리를 위한download.microsoft.com/.../3-1.Intelligent.pdfHadoop Customers : Enterprise Segment *117 Hadoop customers references from: “Powered by Hadoop”, Cloudera

All running roles will be continuously monitored

If role is not running, we will detect and initiate corrective state

>99.9%

Database is connected to the internet gateway

All databases will be continuously monitored

>99.9%

>99.9%

Service bus and access control endpoints will have external connectivity

Message operation requests processed successfully

Your service is connected and reachable via web. Internet facing roles will have external connectivity

>99.95% >99.9%

Storage service will be available/reachable (connectivity)

Your storage requests will be processed successfully

SQL Azure SLA

• SQL Azure는 99.9% 이상의 SLA를 제공하고 있습니다.

Page 37: Big Data 관리를 위한download.microsoft.com/.../3-1.Intelligent.pdfHadoop Customers : Enterprise Segment *117 Hadoop customers references from: “Powered by Hadoop”, Cloudera

결롞

• Microsoft는 다음과 같은 비즈니스의 연속성을 제공하는 DW 솔루션을 제공하고 있습니다.