제4회 사내기술세미나-big data-빅데이터개요및동향-dh kim-2011-12-21
-
Upload
dong-han-kim -
Category
Technology
-
view
314 -
download
3
Transcript of 제4회 사내기술세미나-big data-빅데이터개요및동향-dh kim-2011-12-21
Source: Mike Driscoll, CTO Metamarkets: The Three Sexy Skills of Data Scientists (& Data Driven Startups)
당신의 머리 속을 스치는 생각...
Big Data! 넌 뭐니?
Gartner(2011.1, ‘Big Data Analytics’)– 빠른 의사결정이 상대적으로 덜 요구된다.
• 대용량 데이터에 기반한 분석 위주로, 장기적/전략적 접근 필요
– 처리 Processing 복잡도가 높다.• 다양한 데이터 소스, 복잡한 로직 처리, 대용량 데이터 처리 등으로 인해 처
리 복잡도가 매우 높으며, 이를 해결하기 위해 분산 처리 기술이 필요
– 처리할 데이터양이 방대하다.• 클릭스트림 데이터를 예로 들면, 고객 정보수집 및 분석을 장기간에 걸쳐 수
행해야 하므로 기존 방법과 비교해 처리해야 할 데이터양 방대
– 비정형 데이터의 비중이 높다.• 소셜 미디어 데이터, 로그 파일, 클릭스트림 데이터, 콜 센터 로그, 통신CDR 로그 등 비정형 데이터 파일의 비중이 매우 높음(처리의 복잡성 증대)
– 처리/분석 유연성이 높다• 잘 정의된 데이터 모델/상관관계/절차 등이 없어, 기존 데이터 처리방법에
비해 처리/분석의 유연성이 높은 편, 새롭고 다양한 처리방법의 수용을 위해,
유연성이 기본적으로 보장돼야 함
– 동시 처리량(Throughput)이 낮다.• 대용량 및 복잡한 처리 특징, 동시에 처리가 필요한 데이터양은 적음
• (준)실시간 처리가 보장되어야 하는 데이터 분석에는 적합하지 않음
Big Data 관련 핵심 기술들
핵심 기술 1: 클라우드 컴퓨팅(3/3)– 데이터의 상당 부분이 클라우드에서 생산되고 유통
• 2020년 생산되는 데이터 중 클라우드 내에 있는 비율: 5/35 Zettabyte(14.3%)
• 2020년 생산되는 데이터 중 클라우드로 유통되는 비율: 12/35 Zettabyte(34.3%)
– 클라우드 컴퓨팅 기술 – Big dataEnabler
• Hadoop과 MapReduce는 거대데이타를 개별 클러스터에 분산, 저장하고 보관
• 노드에서 병렬 처리함으로써 고속처리, 저비용화 달성
Big Data 관련 동향
Hype Cycle for Emerging Technologies
펜타가 주목해야 할 것들...
Big Data – Segments of Opportunity
Spreadsheets/
Visualization
Connectors/
Integration
Hadoop
Distributions
File Storage
Tools &
Analytics
*Now Hitachi
Analytical
Applications
Analytical
Platform*Now Teradata *Now HP *Now EMC
마무리
빅 데이터 확산에 따른 도전과 기회– 새로운 가치와 수익 창출원으로 기대를 모으고 있으나, ‘빅 브라더’
에 대한 우려와 전문인력 부족 등 해결해야 할 많은 도전과제도 상존
– 데이터 축적량이 양적 거대함을 질적 유용함으로 전환할 시기 임박
– New BM으로서 Big data 서비스 발굴: Big Data와 플랫폼 통합
– BigData는 하나의 솔루션으로 해결할 수 없으며 요구사항, Data의 성격 등에 따라 다양한 솔루션으로 조합되어야 함
– 오픈소스 중심의 소프트웨어 스택을 구축, 운영이 절실(기술력을 갖추어야 함)
→ 빅 데이터의 핵심은 데이터의 비즈니스화(막대한 양의 1차 데이터가 아닌 가공된 2차 데이터가 진정한 의미의 빅 데이터)