교양교육 영역별 성과진단 방안 연구 : 과학교육 영역 · 2017. 2. 21. · 교양교육 영역별 성과진단 방안 연구: 과학교육 영역 연구책임자
Harnessing And Capitalizing On New Sources Of Big...
Transcript of Harnessing And Capitalizing On New Sources Of Big...
새로운빅데이터소스의제어및활용
단순한 Hadoop 이상!
204 -새로운빅데이터소스제어및활용Harnessing And Capitalizing On New Sources Of Big Data
세계가상호연결되면서데이터의양이폭발적으로증가
소셜미디어
클라우드컴퓨팅
모바일
사물인터넷
304 -새로운빅데이터소스제어및활용
빅데이터는단순한 Hadoop이상
Service Oriented Finance CMO IBM
빅데이터란무엇입니까?
Hadoop에대한모든것을알고싶습니다.
빅데이터는단순한 Hadoop 이상입니다!
경쟁업체는이점을이해하지못하고있으며, 빅데이터유스케이스의전체요소에대한가치를전달하지못하고있습니다.
404 -새로운빅데이터소스제어및활용
실시간분석영역
4
IBM 빅데이터플랫폼은빅데이터과제를해결할수있는완전한에코시스템
랜딩및분석영역
Hadoop시스템
스트림컴퓨팅
엔터프라이즈데이터영역
BLUAcceleration
시각화및보고분석영역
Cognos 및 SPSS
정보통합및거버넌스영역
InfoSphere Information Server
외부데이터소스
데이터전달
504 -새로운빅데이터소스제어및활용
실시간분석영역
두 가지주요빅데이터유형
랜딩및분석영역
Hadoop시스템
스트림컴퓨팅
일반적으로데이터가저장되지않음
매우빠른속도
여러데이터소스
엄청난규모의비정형데이터
매우빠른처리시간을필요로함
움직이는데이터(Data in motion)
데이터가디스크에저장됨
엄청난규모의비정형데이터
사전정의된스키마가없음
규모가너무커서기존도구로는제시간에처리할수없음
움직이지않는데이터(Data at rest)
경쟁업체들은움직이는데이터를고려하지않습니다!
604 -새로운빅데이터소스제어및활용
새로운프로그래밍모델과저렴한비용의하드웨어가빅데이터문제를해결
스트리밍데이터및 Apache Hadoop 애플리케이션
대량데이터처리에검증된프레임워크
움직이는데이터에는스트리밍, 움직이지않는데이터에는 Hadoop어플리케이션에게는투명하게대규모노드클러스터에서병렬로작업이수행됨
스트리밍애플리케이션
비용이저렴한System x 서버
클러스터는 Hadoop 및스트리밍애플리케이션에이상적임
Hadoop클러스터
스트리밍클러스터
704 -새로운빅데이터소스제어및활용
움직이는데이터에서가치얻기
데이터소스 비즈니스가치분석
수신데이터에대해매우빠르게, 대기시간이거의없이복잡한계산수행
POS(Point of Sale) 데이터와고객의관계데이터를실시간으로결합
정확하고시기적절한정보를시장관리자에게제공
현재구매상황에서제품에대한상향판매기회최대화
POS데이터
의료장비생명에위협이되는상황을미리감지하여개입
다양한의료기기를실시간으로모니터링하여추세및이상식별
주식거래
804 -새로운빅데이터소스제어및활용
빅데이터를통해경쟁우위를확보하려하는Service Oriented Finance
우리의마켓관리자는이애플리케이션으로실질적인혜택을누릴수있습니다.
Service Oriented Finance 시장관리자
Service Oriented Finance는다음요구사항을충족하는주식거래애플리케이션을배포하고자함
초당수백만건의거래처리
애플리케이션이확장가능해야함
일관된입력데이터플로우
마이크로초단위의지연시간
비정형거래데이터입력
정교한분석논리
904 -새로운빅데이터소스제어및활용
초당수백만건의이벤트
마이크로초대기시간
센서, 비디오, 오디오, 텍스트및관계데이터소스
시기적절한의사결정
강력한분석
InfoSphere Streams는이러한요구사항을충족시킬수있습니다.
Streams는빅데이터를위한실시간분석플랫폼입니다.
경쟁업체에는이러한기능이없습니다.
InfoSphere Streams는움직이는빅데이터를위한실시간분석플랫폼
1004 -새로운빅데이터소스제어및활용
애플리케이션구현(최적화된컴파일)
Drag and Drop 방식을통한간편한 Streams 프로그래밍
소스어댑터 싱크어댑터오퍼레이터저장소
1104 -새로운빅데이터소스제어및활용
움직이는데이터에대한프로그래밍을손쉽게수행
개발자역할Eclipse 기반도구비주얼어플리케이션모니터링
내장액셀러레이터
관리자역할시각화된어플리케이션관리
스트림데이터시각화
작업시작/중지
비즈니스사용자역할어플리케이션모니터링시각화
스트림데이터시각화
InfoSphere Streams Console
1204 -새로운빅데이터소스제어및활용
다양한 Eclipse 기반도구세트를제공하는Streams Studio
끌어서놓기의간단한조작
1304 -새로운빅데이터소스제어및활용
비주얼애플리케이션모니터링은실행중인애플리케이션에대한명확한뷰를제공
Streams Studio의개발시간모니터링
Streams Console의프로덕션모니터링
메트릭기반색상지정구성표
시각적으로애플리케이션상태모니터링
색상은데이터비율을나타냄
1404 -새로운빅데이터소스제어및활용
단일노드또는노드클러스터에Streams 작업배치
Streams 인스턴스(또는간단히인스턴스)로알려진 Streams 런타임환경에작업배치
인스턴스는단일처리노드를포함(하드웨어)
또는여러처리노드를포함
Streams인스턴스
연산자
연산자
소스
소스
싱크
싱크
연산자
스트림
하드웨어노드
노드 노드노드
노드
노드 노드노드
Streams 작업연산자집합
스트림을통해연결됨 연산자연산자
소스
소스
싱크
싱크연산자
스트림
1504 -새로운빅데이터소스제어및활용
스마트한병원의빅데이터분석
IBM Data Babyyoutube.com
University of Ontario 의료진은빅데이터를통해신생아모니터링을적용함으로써24시간전에 ICU의감염을예측합니다.
1604 -새로운빅데이터소스제어및활용
실시간분석영역
16
IBM 빅데이터플랫폼은빅데이터과제를해결할수있는완전한에코시스템
랜딩및분석영역
Hadoop시스템
스트림컴퓨팅
엔터프라이즈데이터영역
BLUAcceleration
시각화및보고분석영역
Cognos 및 SPSS
정보통합및거버넌스영역
InfoSphere Information Server
외부데이터소스
데이터전달
1704 -새로운빅데이터소스제어및활용
소매웹사이트매출최대화
e-commerce 사이트에서온라인쇼핑객동작분석
소셜미디어
기상데이터
웹로그
움직이지않는데이터에서가치얻기
데이터소스 비즈니스가치분석
고객감정및경험분석
방대한양의기상데이터내역분석
고객유치및유지
최적의풍력발전용터빈배치결정
1804 -새로운빅데이터소스제어및활용
InfoSphere BigInsights는 Apache Hadoop을활용합니다
처리
스토리지입력
Hadoop클러스터
MapReduceJava 프로그램
결과
저렴한하드웨어클러스터로구성
노드에프로세서, 메모리및디스크가있음
특별한파일시스템 – HDFS(Hadoop Distributed File System)
특별한프로그래밍모델 – MapReduce
1904 -새로운빅데이터소스제어및활용
B2B1 R3
HDFS(Hadoop Distributed File System)
노드 1 노드 2 노드 3 노드 n
…
B1 B2 B3
inputFile.txt
R1R2
B3
R3
R2
R1
HDFS(Hadoop Distributed File System)는Hadoop 클러스터에데이터를분산시킴
Hadoop 클러스터의모든노드에펼쳐져있는분산파일시스템
로드시파일이블록으로자동분할되어여러데이터노드로펼쳐짐
시스템은노드가실패할것으로가정여러노드에서데이터를복제하여신뢰성확보
유연하게확장가능
B = 블록
R = 복제본
2004 -새로운빅데이터소스제어및활용
MapReduce 작업
노드 1 노드 2 노드 3 노드 n
…
MapReduce 프레임워크는프로그램을데이터노드로전송
MapReduce 작업은개별노드로전송됨
Map-Reduce 태스크는여러노드에서동시에실행됨
Hadoop 프레임워크는많은양의 “대규모이동”을수행예: map-reduce 태스크간데이터이동
Map-Reduce 태스크
Map-Reduce 태스크
Map-Reduce 태스크
Map-Reduce 태스크
HDFSHDFS HDFSHDFS
2104 -새로운빅데이터소스제어및활용
간단한 MapReduce 예: 텍스트에서문자열발생횟수계산
ReduceMap
apha 1
beta 1
gamma 1
alpha 1
beta 1
gamma 1
gamma 1
alpha 1
beta 1
beta 1
gamma 1
HDFS
alpha 1
beta 1
gamma 1
키/값
Hadoop 프레임워크
alpha 1
1
1
1
gamma 1
1
1
1
1
beta 1
1
1
1
1
키/값배열
목표: 텍스트파일에서 alpha, beta 및 gamma 발생횟수를계산합니다.
beta iota me
gamma beta
HDFS
ab iota beta
beta beat
alpha iota
beta alpha
gamma beta
beta iota me
Map
Map
Map
alpha 4
Reduce
Reduce
gamma 5
beta 5
2204 -새로운빅데이터소스제어및활용
관리자역할클러스터전체관리− 구성요소모니터/시작/중지− 노드추가/제거포털스타일대시보드
개발자역할Eclipse 기반도구HDFS에대한읽기/쓰기액세스시스템의작업및워크플로우에대한통합된뷰애플리케이션스테이징, 런칭및스케줄링센터여러내장액셀러레이터
비즈니스사용자역할Java 프로그래밍스킬필요없음스프레드시트도구시각화
BigInsights를통해모든빅데이터역할을용이하게수행
InfoSphere BigInsights Console
2304 -새로운빅데이터소스제어및활용
고객불만사항을분석하려하는Service Oriented Finance
Service Oriented Finance CMO IBM
고객이무엇에불만을가지고있는지알아야합니다.
IBM은 BigInsights를통한감성분석으로도움을드립니다.
2404 -새로운빅데이터소스제어및활용
감성분석 –빅데이터의과제이자기회
다음사항을결정
방대한규모의비정형데이터
느낌 -태도
감정 -의견
생각 -희망
소셜미디어데이터에서감성파악
제품수요
신제품수용
경쟁위협
브랜드위상에대한위협
광고목표
제품수요
신제품수용
경쟁위협
브랜드위상에대한위협
광고목표
2504 -새로운빅데이터소스제어및활용
데모: BigInsights로Twitter에서의부정적감성분석
호감 반감
서비스담당자가친절했으며도움이
되었다.
서비스담당자가친절했으며도움이
되었다.수표보호기능이맘에든다 !
수표보호기능이맘에든다 !
웹사이트에서의온라인뱅킹을신뢰하지않는다.
웹사이트에서의온라인뱅킹을신뢰하지않는다. ATM 수수료가
터무니없다!
ATM 수수료가터무니없다!
수표보호기능에만족
온라인청구서지급기능에만족
ATM이도시곳곳에배치되어있는것에만족
서비스담당자에만족
온라인뱅킹기능을신뢰하지않음
오래대기하는것을꺼림
ATM 수수료에불만족당좌대월수수료에불만족
데이터소스Twitter
주제Service Oriented
Finance
2604 -새로운빅데이터소스제어및활용
BigInsights는다른 Hadoop 배포에없는기능을제공
보안LDAP 인증역할기반권한부여
성능및최적화어댑티브 MapReduce고급스케줄러대규모인덱싱을위한 BigIndex빠르고, 분할가능한압축
Optim Development StudioEclipse 기반 Java IDE
빅데이터통합
Information Server, InfoSphere Streams, Netezza, DB2
분석액셀러레이터
BigSheets 스프레드시트및시각화장비데이터
소셜미디어
고급텍스트분석
JAQL 쿼리언어
“Cloudera는 어플리케이션수준에서의 Hadoop 처리를위한스택확장및제품개발에대한계획이없습니다… IBM은엔터프라이즈급오퍼링에근접한배포에초점을두고있습니다.”
2704 -새로운빅데이터소스제어및활용
개발자의생산성을크게향상시키는Machine Data Accelerator
작업 DIY MDA
IDE 설치 5분 5분
코드개발 30분 5분
패키징및배포 10분 5분
코드테스트 7분 5분
코드라인수 57 70
10
20
30
40
50
60
DIY ApacheHadoop
BigInsights
Machine Data Accelerator는로그파일분석작업에서개발시간을절반으로단축
새로운코드가 8배더적게필요함
로그파일분석
52분
20분
생산성향상은테스트케이스범위에따라달라지며, MDA 모듈을더많이재사용할수록향상률이커집니다.
2804 -새로운빅데이터소스제어및활용
"IBM은가장깊이있는 Hadoop 플랫폼및애플리케이션포트폴리오를보유하고있습니다."
Forrester, IBM을 Hadoop 솔루션분야의최고로선정
약함 전략 강함
강함
현재오퍼링
약함
약함 전략 강함
시장입지
전체공급업체참여
약체 추격업체 우수업체 선두업체
2904 -새로운빅데이터소스제어및활용
실시간분석영역
29
Hadoop 에코시스템을위한엔터프라이즈급 SQL 지원
랜딩빛분석영역
Hadoop시스템
스트림컴퓨팅
엔터프라이즈데이터영역
BLUAcceleration
시각화및보고분석영역
Cognos 및 SPSS
정보통합및거버넌스영역
InfoSphere Information Server
외부데이터소스
데이터전달
Big SQL 엔진
3004 -새로운빅데이터소스제어및활용
IBM은가장완전한빅데이터플랫폼보유
Streams는빠른속도의실시간분석을위한강력한도구Drag and Drop 방식의간편한개발광범위한시각화기능
BigInsights는 Hadoop을엔터프라이즈급빅데이터플랫폼으로확장고급액셀러레이터가빠른가치실현지원
Hadoop 데이터에대한 ANSI SQL 지원제공
"IBM은가장깊이있는 Hadoop 플랫폼및애플리케이션포트폴리오를보유하고있습니다."
경쟁업체에서는움직이는데이터를고려하지않음