Introduction to ankus(data mining and machine learning open source)

39
하둡 기반 데이터 마이닝 / 기계학습 오픈소스 ankus ankus community / 전수현 [email protected] openankus.org

description

Introduction to ankus. Hadoop based data mining and machine learning open source framework.

Transcript of Introduction to ankus(data mining and machine learning open source)

Page 1: Introduction to ankus(data mining and machine learning open source)

하둡 기반 데이터 마이닝 / 기계학습 오픈소스!

ankus !

!ankus community / 전수현[email protected]!openankus.org

Page 2: Introduction to ankus(data mining and machine learning open source)

빅데이터와 데이터 마이닝

Page 3: Introduction to ankus(data mining and machine learning open source)

빅데이터 = 시스템 + 분석 + ..

시스템 (인프라) 데이터 분석

Page 4: Introduction to ankus(data mining and machine learning open source)

빅데이터 프로세스

collection (수집)

storage (저장)

analysis (분석)

Page 5: Introduction to ankus(data mining and machine learning open source)

빅데이터 과제

빅데이터를 도입하면 과연 효과를 얻을 수 있을까?

Page 6: Introduction to ankus(data mining and machine learning open source)

빅데이터의 성공적인 사례들은 직간접적으로 증명되고 있다!

오바마 美 행정부 빅데이터 '올인'···"효과 아니까~"

Page 7: Introduction to ankus(data mining and machine learning open source)

빅데이터의 성공적인 사례들은 직간접적으로 증명되고 있다!

Netflix 경영진은 자사 고객의 동영상 시청 선호도를 분석하여 1990년 BBC 사의 미스터리물을 리메이크하기로 결정!

대박 사건!!1억 달러(1천억원) 투자!!

Page 8: Introduction to ankus(data mining and machine learning open source)

빅데이터의 효율적인 활용을 위해서는 고급 분석 기법이 필요

Page 9: Introduction to ankus(data mining and machine learning open source)

데이터 마이닝 정의

Data + Mining

데이터 속의 잠재적인 유용한 의미를 가진 정보를 추출하는 것을 말하며

또한 KDD(knowledge-discovery in databases) 과정 중 한 단계이기도 하다.

Page 10: Introduction to ankus(data mining and machine learning open source)

데이터 마이닝의 이해 - 과거

메인프레임(Big Iron)!(고가의 비용)

데이터 분석 기법 적용!(데이터 마이닝)!

낮은 품질의 결과물 초래!

Page 11: Introduction to ankus(data mining and machine learning open source)

데이터 마이닝의 이해 - 현재

분산 컴퓨팅!(저렴한 비용)!

고급 데이터 분석 기법 재구현!(데이터 마이닝)!

자연스럽게 데이터 분석 !품질이 높아짐!

Page 12: Introduction to ankus(data mining and machine learning open source)

그래서 !데이터 분석 기법인 데이터 마이닝이 다시 주목받기 시작한 것이다.

Page 13: Introduction to ankus(data mining and machine learning open source)

�13

데이터 마이닝 기법

data mining

Predictive (예측 모델링)

Descriptive (기술 모델링)

Recommendation system

Classification (분류)

Clustering (군집화)

Association (연관성)

K-NN!Decision Tree!Neural Networks!SVM!Regression!Bayesian Network

K-Means!EM!Density Based!SOM!Hierarchical

Apriori!FP-Growth

Page 14: Introduction to ankus(data mining and machine learning open source)

�14

Classification(분류)

데이터들을 미리 지정된 카테고리나 등급으로 나누는 분석

Page 15: Introduction to ankus(data mining and machine learning open source)

�15

Clustering(군집)

데이터들을 유사한 성격을 가지는 임의의 그룹으로 분할

Page 16: Introduction to ankus(data mining and machine learning open source)

�16

Association(연관)

구매 데이터에서 반복적으로 함께 판매되는 상품들간의 연관성에 대한 규칙을 찾아내기

Page 17: Introduction to ankus(data mining and machine learning open source)

�17

데이터 마이닝의 이해

데이터의 특징과 !해결하려는 문제에 적합한 기법(알고리즘)을 잘 선택해야 한다.

Choice algorithm

Page 18: Introduction to ankus(data mining and machine learning open source)

하둡 기반의 데이터 분석

Page 19: Introduction to ankus(data mining and machine learning open source)

�19

전통적 데이터 분석 도구

WEKA

R

IBM SPSS Modeler

ECMiner

SAS Enterprise Miner

Page 20: Introduction to ankus(data mining and machine learning open source)

�20

하둡 기반 데이터 분석 도구

Data Analysis Data mining / machine learning

Page 21: Introduction to ankus(data mining and machine learning open source)

�21

데이터 분석을 위한 인프라 비교

……

Distributed Big Data System based on Hadoop

MapReduce Framework

Data Processing/Extraction

Local: Data Aggregation

Data Analysis Tool Data Processing/Extraction and Analysis Tool

Previous Analysis Tools MapReduce based Analysis

Data Mining /

Page 22: Introduction to ankus(data mining and machine learning open source)

맵리듀스 개념 및 예제

Page 23: Introduction to ankus(data mining and machine learning open source)

�23

맵리듀스 정의

• Hadoop으로 대표되는 빅데이터 플랫폼에서의 데이터

처리 프로세스!

• Map/Reduce : Key, Value 구조를 기반으로

하는 데이터 분산 처리 구조

(프레임워크)!

• Google에서 2004년 최초 발표

In Wikipedia!

MapReduce is a programming model for processing large data sets with a parallel, distributed algorithm on a cluster.!A MapReduce program comprises a Map() procedure that performs filtering and sorting !

and a Reduce() procedure that performs a summary operation.

Page 24: Introduction to ankus(data mining and machine learning open source)

�24

맵리듀스 예제 - Word count

Page 25: Introduction to ankus(data mining and machine learning open source)

�25

맵리듀스 예제 - Word count - Mapper

Page 26: Introduction to ankus(data mining and machine learning open source)

�26

맵리듀스 예제 - Word count - Reducer

Page 27: Introduction to ankus(data mining and machine learning open source)

하둡 기반 데이터 마이닝/기계학습!오픈소스 라이브러리 !

ankus

Page 28: Introduction to ankus(data mining and machine learning open source)

�28

ankus 목적

Page 29: Introduction to ankus(data mining and machine learning open source)

�29

ankus vs mahout

장점

• 별도의 전처리 없이 입력 파일 사용 가능!• 다양한 분석을 위한 파라미터 선택 분석 수행 지원!• 웹 기반 UI 지원으로 손 쉽게 분석 수행 가능!• 국내 순수 100% 기술

• 다양한 종류의 알고리즘 및 안정된 버전 제공(2008~)!• 시퀀스 파일을 이용한 빠른 수행 속도 지원!!

단점• 한정된 개수의 알고리즘 제공!!

• 시퀀스 파일 형태의 입력 파일 처리 필요!• 분석 수행 시 파라미터(속성) 선택 불가능!• CLI 중심의 개발

라이선스 • Apache License 2.0 • Apache License 2.0

Page 30: Introduction to ankus(data mining and machine learning open source)

�30

ankus 설계 구조

Page 31: Introduction to ankus(data mining and machine learning open source)

�31

ankus 주요 기능

Page 32: Introduction to ankus(data mining and machine learning open source)

�32

CLI 기반의 ankus 실행

Page 33: Introduction to ankus(data mining and machine learning open source)

�33

웹 기반의 ankus 실행 - 1

Page 34: Introduction to ankus(data mining and machine learning open source)

�34

웹 기반의 ankus 실행 - 2

Page 35: Introduction to ankus(data mining and machine learning open source)

�35

ankus 예제 - 유사/상관계수 - Pearson Correlation Coefficient

Page 36: Introduction to ankus(data mining and machine learning open source)

�36

ankus 예제 - 유사/상관계수 - Pearson Correlation Coefficient

ankus framework 데모

Page 37: Introduction to ankus(data mining and machine learning open source)

�37

ankus 예제 - 유사/상관계수 - Pearson Correlation Coefficient

input 데이터 (무비렌즈 데이터셋)

MR - 1 MR - 2

……. (생략)

첫번째 MR Job 결과 데이터

마지막 MR Job 결과 데이터

Page 38: Introduction to ankus(data mining and machine learning open source)

�38

ankus 커뮤니티

마지막 MR Job 결과 데이터

• 소스코드 다운로드!

• http://github.com/suhyunjeon/ankus

• http://sourceforge.net/projects/ankus

• 위키 - 사용자/개발자 가이드!

• http://openankus.org

• 사용자 그룹 - 페이스북!

• http://www.facebook.com/groups/openankus

• 사용자 포럼 - 구글 그룹스!

• http://goo.gl/d8nP81

Page 39: Introduction to ankus(data mining and machine learning open source)

감사합니다.