Introduction to Data Analytics with RapidMiner Studio 6 (ภาษาไทย)

53
Introduction to Business Analytics with RapidMiner Studio 6 Thai version Eakasit Pacharawongsakda, Ph.D. Certified RapidMiner Analyst Data Cube http://www.dataminingtrend.com http://facebook.com/datacube.th

Transcript of Introduction to Data Analytics with RapidMiner Studio 6 (ภาษาไทย)

Page 1: Introduction to Data Analytics with RapidMiner Studio 6 (ภาษาไทย)

Introduction to Business Analytics with RapidMiner Studio 6

Thai version

Eakasit Pacharawongsakda, Ph.D. Certified RapidMiner Analyst

Data Cube http://www.dataminingtrend.com http://facebook.com/datacube.th

Page 2: Introduction to Data Analytics with RapidMiner Studio 6 (ภาษาไทย)

Introduction to Business Analytics with RapidMiner Studio 6

(data)3 base|warehouse|mininghttp://www.dataminingtrend.com

http://facebook.com/datacube.th

Eakasit Pacharawongsakda, Ph.D. Certified RapidMiner Analyst

Page 3: Introduction to Data Analytics with RapidMiner Studio 6 (ภาษาไทย)

(data)3 base|warehouse|mining

Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th

Introduction to Business Analytics with RapidMiner Studio 6

2

ชอผแตง ดร.เอกสทธ พชรวงศศกดา

ชอหนงสอ Introduction to Business Analytics With RapidMiner Studio 6

จำนวนหนา 138 หนา

พมพครงท 1

วนเดอนปทพมพ สงหาคม 2558

ชอสำนกพมพ บรษท เอเชย ดจตอลการพมพ จำกด

ถ.งามวงศวาน แขวงลาดยาว

เขตจตจกร กรงเทพฯ 10900

ออกแบบปก กมนนทธ บางแวก

จดรปเลม เอกสทธ พชรวงศศกดา

ราคา 299 บาท

สงวนลขสทธ ตาม พ.ร.บ. ลขสทธ พ.ศ. 2537 หามลอกเลยนแบบไมวาสวนหนงสวนใดของหนงสอ/เอกสารเลมน

นอกจากจะไดรบอนญาตเปนลายลกษณอกษร

คาเตอน !!! การนาไปถายเอกสารอาจจะทาใหขอความและรปไมชดทาใหอานไดยากและ

จะทาใหผแตงเสยใจเปนอนมาก T_T

Page 4: Introduction to Data Analytics with RapidMiner Studio 6 (ภาษาไทย)

(data)3 base|warehouse|mining

Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th

Introduction to Business Analytics with RapidMiner Studio 6

“แดคณพอผเปนฮโรเสมอมา คณแมผคอยเฝาดจากบนฝากฟา

และภรรยาทคอยอยเคยงขางกนตลอดเวลา”

3

Page 5: Introduction to Data Analytics with RapidMiner Studio 6 (ภาษาไทย)

(data)3 base|warehouse|mining

Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th

Introduction to Business Analytics with RapidMiner Studio 6

คำนำ

ปจจบนเราสรางขอมลขนอยางมากมายในแตละวน ตวอยางเชน การรบและสง email การตดตาม

ขาวสารตางๆ บนเครอขายสงคมออนไลน (online social network) หรอ การซอสนคาตามรานคาตางๆ ผมรบกวนใหทานผอานลองจนตนาการดนะครบวาถาทานเปนเจาของรานอาหารทไดรบความนยมเปน

อยางมากแหงหนงซงในรานทมจำนวน 30 โตะ และถาในแตละวนมลกคาเขามาเตมรานจำนวน 20 รอบ รานของเราจะมขอมลการซอขายสนคาเปนจำนวน 600 transaction ตอวน และในหนงเดอนเราจะมขอมลจำนวนประมาณ 18,000 transaction ทถกเกบไวในฐานขอมลและหนงปจะมจำนวน 216,000 transaction และถาเปนขอมลของการซอขายในซเปอรมารเกตยงมจำนวนมากมายกวานอกหลายเทา ทวาขอมลทมมากมายเหลานจะไมกอใหเกดประโยชนเลยถาเราเพยงแคเกบไวอยางเดยว เพอใหขอมล

เหลานมมลคาเพมมากขนเราจงจำเปนตองนำขอมลเหลานมาทำการวเคราะหเพอดในแงมมตางๆ

ในหนงสอเลมนจะแสดงวธการนำขอมลการซอขายมาวเคราะหใหเหนเปนตวอยางโดยเรมจากการ เตรยมขอมลเพอใหการวเคราะหขอมลทำไดงายมากขน หลงจากนนจะเปนการนำขอมลการซอสนคา

ของลกคาแตละรายมาทำการแบงกลม (segmentation) ซงจะชวยใหสามารถเขาใจพฤตกรรมการซอ

สนคาของลกคาไดดขน เพราะการจะดรายละเอยดของลกคาแตละรายคงเปนไปไดยาก โ ดยในหนงสอเลมนเราจะใชวธการแบงกลมขอมลการซอดวยเทคนค RFM (ยอมาจาก Recency, Frequency และ Monetary) เพอจะไดเขาใจพฤตกรรมการซอสนคาของลกคาแตละกลมวามจำนวนครงในการซอสนคา

มากนอยแคไหนและมการใชจายมากนอยแคไหน หลงจากทไดทำการเลอกกลมทนาสนใจมาแลวจงนำไปหาความสมพนธของการซอสนคา (product associate) ตอเพอดวามสนคาประเภทใดทลกคามกจะซอพรอมกนบอยครงบาง เมอทราบรปแบบการซอสนคาในลกษณะนแลวอาจจะชวยในการจดวาง

สนคาหรอนำเสนอสนคาหรอโปรโมโชน ใหกบลกคาใหตรงกบความตองการไดมากขน ซงในปจจบนนเราสามารถทำการวเคราะหขอมลในลกษณะนไดงายขนโดยใชซอฟตแวร RapidMiner Studio 6 ซงสามารถดาวนโหลดมาใชงานไดฟร

สดทายนหวงวาจะทำใหทานผอานเขาใจเรองการวเคราะหขอมลและสามารถนำไปใชกบขอมลของ

ตนเองทมอยไมมากกนอยครบ ^^

ขอบคณมากครบ

ดร. เอกสทธ พชรวงศศกดา 28 สงหาคม 2558

4

Page 6: Introduction to Data Analytics with RapidMiner Studio 6 (ภาษาไทย)

(data)3 base|warehouse|mining

Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th

Introduction to Business Analytics with RapidMiner Studio 6

สารบญ

5

หนาบทท 1 แนะนำสวนตางๆ ของ RapidMiner Studio 6 11

การตดตงซอฟตแวร 13

สวนประกอบตางๆ ของ RapidMiner Studio 6 19

บทท 2 การเตรยมขอมล (preprocess) 26

แนะนำขอมล Sales data 27

การสราง Repository ใหม 30

การ import ขอมลเขามาใชงาน 33

การดขอมลในรปแบบตางๆ (data exploration) 36

โอเปอเรเตอรทใชงานในบทท 2 39

การคดเลอกขอมล 40

การคำนวณราคา 45

แนะนำการแบงกลมดวยวธ RFM (Recency, Frequency, Monetary) 49

การเตรยมขอมลสำหรบการแบงกลมดวยวธ RFM 52

แบบฝกทายบท 65

บทท 3 การแบงกลมขอมล (segmentation) 66

การแบงกลมลกคาตามพฤตกรรมการบรโภคดวยวธ RFM 68

โอเปอเรเตอรทใชงานในบทท 3 70

การแบงกลมขอมลดวยวธ RFM ใน RapidMiner Studio 6 71

แบบฝกทายบท 90

Page 7: Introduction to Data Analytics with RapidMiner Studio 6 (ภาษาไทย)

(data)3 base|warehouse|mining

Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th

Introduction to Business Analytics with RapidMiner Studio 6

สารบญ (ตอ)

6

หนาบทท 4 การหาความสมพนธของขอมล (Product Association) 91

แนะนำการหากฏความสมพนธ (Association Rules) 92

โอเปอเรเตอรทใชงานในบทท 4 97

การเตรยมขอมลกอนหาความสมพนธ 99

การหารปแบบของสนคาทเกดขนบอย (frequent itemset) 118

การหากฏความสมพนธ 122

แบบฝกทายบท 126

ภาคผนวก A การสรางขอมล 129

ภาคผนวก B โอเปอเรเตอรทใชงานทงหมด 133

Page 8: Introduction to Data Analytics with RapidMiner Studio 6 (ภาษาไทย)

(data)3 base|warehouse|mininghttp://www.dataminingtrend.com

http://facebook.com/datacube.th

แนะนำตวบทท 0

Page 9: Introduction to Data Analytics with RapidMiner Studio 6 (ภาษาไทย)

(data)3 base|warehouse|mining

Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th

Introduction to Business Analytics with RapidMiner Studio 6

About me

• ชอ: เอกสทธ พชรวงศศกดา

• การศกษา:

• ปรญญาเอก วทยาการคอมพวเตอร สถาบนเทคโนโลยนานาชาตสรนธร (SIIT) มหาวทยาลยธรรมศาสตร

• ปรญญาโท วศวกรรมคอมพวเตอร มหาวทยาลยเกษตรศาสตร

• ปรญญาตร วศวกรรมคอมพวเตอร มหาวทยาลยเกษตรศาสตร (เกยรตนยมอนดบ 2)

• ประสบการณ

• Certified RapidMiner Analyst

• วทยากรอบรมการใชงานซอฟตแวร open source ทางดาน data mining

• แตงหนงสอ Data Mining ฉบบภาษาไทย

8

Page 10: Introduction to Data Analytics with RapidMiner Studio 6 (ภาษาไทย)

(data)3 base|warehouse|mining

Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th

Introduction to Business Analytics with RapidMiner Studio 6

• สอบวดมาตรฐานและไดรบ certificate จาก RapidMiner

About me (ตอ)

9

Page 11: Introduction to Data Analytics with RapidMiner Studio 6 (ภาษาไทย)

(data)3 base|warehouse|mining

Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th

Introduction to Business Analytics with RapidMiner Studio 6

• วทยากรรบเชญอบรมทางดาน Data Mining ใหกบหนวยงานตางๆ

• มหาวทยาลยตางๆ

• หนวยงานและบรษทชนนำตางๆ

About me (ตอ)

10

Page 12: Introduction to Data Analytics with RapidMiner Studio 6 (ภาษาไทย)

(data)3 base|warehouse|mininghttp://www.dataminingtrend.com

http://facebook.com/datacube.th

แนะนำสวนตางๆ ของRapidMiner Studio 6

บทท 1

Page 13: Introduction to Data Analytics with RapidMiner Studio 6 (ภาษาไทย)

(data)3 base|warehouse|mining

Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th

Introduction to Business Analytics with RapidMiner Studio 6

Introduction RapidMiner• RapidMiner

• ในตอนแรกใชชอบรษทวา Rapid-I กอตงขน เมอป 2006

• ในชวงแรกบรษทตงอยทประเทศเยอรมน

• ป 2013 ไดเปลยนชอบรษทเปน RapidMiner หลงจากไดรบเงนลงทนจำนวน 5 ลานเหรยญสหรฐ

• และยายบรษทมาอยทบอสตน ประเทศสหรฐอเมรกา

• ผลตภณฑหลกของบรษทคอ RapidMiner Studio 6

• ผลการสำรวจจากเวบไซต KDnuggets ในป 2014 พบวาผรวมตอบแบบสำรวจใช RapidMiner ในการวเคราะหขอมลมากเปนอนดบ 1

• Gartner ไดจดให RapidMiner อยในกลม Leaders สำหรบซอฟตแวร ในการวเคราะหขอมล (2015)

• SAS

• IBM

• KNIME

• RapidMiner

12

Ingo MierswaRalf Klinkenberg

source: http://techcrunch.com/2013/11/04/german-predictive-analytics-startup-rapid-i-rebrands-as-rapidminer-takes-5m-from-open-ocean- earlybird-to-tackle-the-u-s-market/

source: http://www.kdnuggets.com/2014/06/kdnuggets-annual-software-poll-rapidminer-continues-lead.html http://rapidminer.com/leader-gartners-magic-quadrant-advanced-analytics/

Page 14: Introduction to Data Analytics with RapidMiner Studio 6 (ภาษาไทย)

(data)3 base|warehouse|mining

Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th

Introduction to Business Analytics with RapidMiner Studio 6

RapidMiner Studio 6• download ไดจาก http://rapidminer.com

• กรอกขอมลเพอสราง Account สำหรบดาวนโหลดซอฟตแวร

13

1คลกเมนดาวนโหลด

2

3

4

5

email ทใชสมคร

password ทใช

ใส password ทกรอกไวอกครง

กดปมเพอสมคร

Page 15: Introduction to Data Analytics with RapidMiner Studio 6 (ภาษาไทย)

(data)3 base|warehouse|mining

Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th

Introduction to Business Analytics with RapidMiner Studio 6

RapidMiner Studio 6• หลงจากยนยนการลงทะเบยนทาง email แลว ใหคลกทเมน login

เพอดาวนโหลดซอฟตแวร

• กรอก username และ password ทไดสมครไวในตอนแรก

14

6

7

8

9

คลกเมน Login

email ทใชสมคร

password ทกรอกไวตอนสมคร

กดปม Login

Page 16: Introduction to Data Analytics with RapidMiner Studio 6 (ภาษาไทย)

(data)3 base|warehouse|mining

Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th

Introduction to Business Analytics with RapidMiner Studio 6

RapidMiner Studio 6• หลงจาก login แลวจะพบเมนตางๆ คลกทเมน Downloads

• เลอกดาวนโหลด version ทเหมาะสมกบระบบปฏบตการของเรา

15

10 เลอกเมน ดาวนโหลด

เลอกระบบปฏบตการ (OS) ทตดตงในเครอง

Page 17: Introduction to Data Analytics with RapidMiner Studio 6 (ภาษาไทย)

(data)3 base|warehouse|mining

Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th

Introduction to Business Analytics with RapidMiner Studio 6

RapidMiner Studio 6• การตดตงซอฟตแวร RapidMiner Studio 6 สำหรบระบบปฏบตการตางๆ

สามารถดขนตอนอยางละเอยดไดจาก http://docs.rapidminer.com/studio/installation/

• double click ท icon เพอเรมใชงานซอฟตแวร

• หลงจากตดตงซอฟตแวรเรยบรอยแลว ขนตอนถดมาจะตอง login โดยใช email และ password ทไดทำการสมครไวครบ

16

1

2

3

email ทใชสมคร

password ทกรอกไวตอนสมคร

กดปมเพอ login

Page 18: Introduction to Data Analytics with RapidMiner Studio 6 (ภาษาไทย)

(data)3 base|warehouse|mining

Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th

Introduction to Business Analytics with RapidMiner Studio 6

RapidMiner Studio 6• หลงจากตรวจสอบกบ Server ถาสำเรจจะแสดงดงในรป

• กดปม Restart เพอเรมการทำงานใหมอกครง

17

แสดงชอเจาของ license

แสดงวนหมดอาย

การใชงาน

4

Note: RapidMiner Studio 6 มหลาย license ครบ ในการตดตงครงแรกจะใหใช Professional License เปนเวลา 14 วน หลงจากนนจงกลายเปน Starter License ทใชไดตลอดไปครบ

กดปมเพอเรมใชงาน

5กดปมเพอ restart

Page 19: Introduction to Data Analytics with RapidMiner Studio 6 (ภาษาไทย)

(data)3 base|warehouse|mining

Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th

Introduction to Business Analytics with RapidMiner Studio 6

RapidMiner Studio 6• หนาตางเรมใชงานจะแสดงขนมา ซงจะแสดง 4 เมน คอ

• Tutorials แสดงวธการใชงาน

• Documentation Site เพอ link ไปยงหนาเวบไซตทแสดง document การใชงาน

• Accelerator แสดงโพรเซส (process) ตวอยางทเตรยมไวให

• New Process สรางโพรเซสใหมเพอเรมการใชงาน RapidMiner

• ในการใชงาน RapidMiner Studio 6 จะเปนการสรางโพรเซส ขนมาเพอทำงานตางๆ โดยโพรเซสจะประกอบดวย โอเปอเรเตอร (operator) ตางๆ

• โพรเซสทสรางขนสามารถนำกลบมาใชงานใหมได หรอ สงไปใหคนอนได

18

6เลอกเมน ‘New Process’ เพอเรมใชงาน

A

B

C

D

A

B

C

D

Page 20: Introduction to Data Analytics with RapidMiner Studio 6 (ภาษาไทย)

(data)3 base|warehouse|mining

Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th

Introduction to Business Analytics with RapidMiner Studio 6

• องคประกอบของหนาตาง Design ใน RapidMiner Studio 6

• Operators

• สวนนจะเกบโอเปอเรตอรในการใชงานตางๆ ไวเปนกลมตามหนาททคลายคลงกน และในสวนของโอเปอเรเตอรนยงมทสำหรบการคนหาโอเปอเรเตอรอกดวย

• โอเปอเรเตอรแตละตวจะประกอบดวย • ชอของโอเปอเรเตอร • อนพต พอรต (Input port) เปนสวนรบขอมลเขามา

ประมวลผล

• เอาทพต พอรต (Output port) เปนสวนสงผลลพธท ประมวลได

• ชออนพต พอรตและเอาทพต พอรตแสดงดวยตวอกษร 3 ตวแรก ของชอพอรต เชน exa ยอมาจาก example set

• สญลกษณวงกลมแสดงสถานะการทำงานของโอเปอเรเตอร

RapidMiner Studio 6

19

Operators

Repositories

ProcessParameter

help

A

B

C

D

E

ab

c

d

A

a

b

c

d

Page 21: Introduction to Data Analytics with RapidMiner Studio 6 (ภาษาไทย)

(data)3 base|warehouse|mining

Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th

Introduction to Business Analytics with RapidMiner Studio 6

RapidMiner Studio 6• Repositories

• สวนนจะใชในการจดการไฟลตางๆ หลกการของ RapidMiner Studio 6 จะเกบไฟลขอมลหรอโพรเซสตางๆ ไวใน โฟลเดอรเพอความสะดวกในการเรยกใชงานครงถดไป

• Process

• สวนนเปนอกสวนทสำคญของ RapidMiner Studio เพราะหลกการทำงานของซอฟตแวรนคอการนำโอเปอเรเตอรตางๆ มา ประกอบกนใหเปนโพรเซสขนมา

• Parameters

• สวนนจะเปนสวนทแสดงพารามเตอร (parameter) ท เกยวของกบแตละโอเปอเรเตอร เชน โอเปอเรเตอร Read CSV สำหรบอานไฟล CSV จะมพารามเตอรทเกยวของ เชน ชอและทอยของไฟล CSV เปนตน

• Help

• สวนนจะเปนสวนทแสดงขอความชวยเหลอหรอรายละเอยดของโอเปอเรเตอรทเลอกใชงานอย ซงประกอบดวยรายละเอยดเบองตน ความหมายของแตละพารามเตอร และตวอยางการใชงานในสวนทายสด

20

B

C

แสดงโพรเซสทกำลงทำงาน

เพม Note ในโพรเซส

เชอมโอเปอเรเตอรตางๆในโพรเซสแบบอตโนมต

D

E

Page 22: Introduction to Data Analytics with RapidMiner Studio 6 (ภาษาไทย)

(data)3 base|warehouse|mining

Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th

Introduction to Business Analytics with RapidMiner Studio 6

RapidMiner Studio 6• เมนดานบนในหนาตาง Design มดงน

• เมนทางดานขวาบนของหนาตาง Design จะใชสำหรบสลบหนาจอ การทำงานไปยงหนาตางๆ ดงน

• หนา Home แสดงหนาเรมตนของ RapidMiner Studio 6

• หนา Design แสดงหนาสำหรบการสรางโพรเซส

• หนา Results แสดงหนาผลลพธการทำงาน

• หนา Accelerator แสดงหนาตวอยางระบบทเตรยมไวให

21

เมนสำหรบการสรางโพรเซสใหม

เมนสำหรบการโหลดไฟลตางๆ จาก repository

เมนสำหรบการบนทกโพรเซส

เมนสำหรบบนทกโพรเซสเปนชอใหม

เมนสำหรบพมพโพรเซสออกทางเครองพมพ หรอบนทกเปนไฟล PDF หรอรปภาพ

เมนสำหรบการทำ undo หรอ redo

เมนสำหรบสงใหโพรเซสทำงาน (run)

เมนสำหรบสงใหโพรเซสหยดทำงานชวคราว (pause)

เมนสำหรบสงใหโพรเซสยกเลกทำงานชวคราว (stop)

เมนสำหรบเรยกด tutorial

Note: • เมนทเหลออก 2 เมนเปนการสงใหโพรเซสทำงานบนคลาวด (cloud) ซงมคาใชจายรายเดอน เดอนละ 39$ และการทำงานจะคดเปนเครดตโดยตองซอครงละ 100 เครดตเปนจำนวนเงน 39$ ครบ

A B C D

A

B

C

D

Page 23: Introduction to Data Analytics with RapidMiner Studio 6 (ภาษาไทย)

(data)3 base|warehouse|mining

Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th

Introduction to Business Analytics with RapidMiner Studio 6

• หนาตาง Home

• รายละเอยดของเมนตางๆ ในหนา Home มดงน

• Tutorials แสดงวธการใชงานเบองตน

• Accelerators แสดง process ตวอยางทเตรยมไว

• New Process สำหรบสราง process ใหมขนมา เพอทำงาน

• Open สำหรบเปด process เดมทบนทกไวเพอมาทำงาน

RapidMiner Studio 6

22

A

B

C

D

A

B

C

D

Page 24: Introduction to Data Analytics with RapidMiner Studio 6 (ภาษาไทย)

(data)3 base|warehouse|mining

Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th

Introduction to Business Analytics with RapidMiner Studio 6

• หนาตาง Results

• หนาตาง Accelerator

RapidMiner Studio 6

23

สวนของการแสดงผลลพธ Repositories

A B

Page 25: Introduction to Data Analytics with RapidMiner Studio 6 (ภาษาไทย)

(data)3 base|warehouse|mining

Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th

Introduction to Business Analytics with RapidMiner Studio 6

Business Analytics Example• ในหนงสอเลมนจะแสดงวธการใชงาน RapidMiner Studio 6 เพอ

ชวยในการวเคราะหขอมลของซเปอรมารเกต (supermarket) แหงหนงซงไดทำการเกบขอมลสมาชก (ลกคา) และการซอสนคาตางๆ ไว

• วตถประสงคเพอคนหาวาลกคากลมใดทนาสนใจและสนคาทลกคามกจะมาซอ

รวมกนบอยๆ เพอจะไดนำเสนอโปรโมชนไดอยางเหมาะสม

• โพรเซสทงหมดแสดงดงในรปดานลาง

24

Recency (R)

Frequency (F)

Monetary (M)

ลำดบ ความสมพนธในการซอสนคา

ความถ (%)1 Sports, Health 362 Toys, Clothing 333 Toys, Electronics 304 Books, Movies 24sales data

segmentationproduct association

Page 26: Introduction to Data Analytics with RapidMiner Studio 6 (ภาษาไทย)

(data)3 base|warehouse|mining

Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th

Introduction to Business Analytics with RapidMiner Studio 6

Business Analytics Example• ขนตอนการทำงานในบทตอๆ ไปมดงน

• บทท 2 แนะนำการนำขอมลเขามาใชงานและการเตรยมขอมลตางๆ

• บทท 3 แนะนำการแบงกลมลกคา (segmentation) ออกตามพฤตกรรมการซอสนคา

• บทท 4 แนะนำการหาความสมพนธของการซอสนคาตางๆ (product association)

25

Page 27: Introduction to Data Analytics with RapidMiner Studio 6 (ภาษาไทย)

(data)3 base|warehouse|mininghttp://www.dataminingtrend.com

http://facebook.com/datacube.th

การเตรยมขอมล (preprocess)

บทท 2

Page 28: Introduction to Data Analytics with RapidMiner Studio 6 (ภาษาไทย)

(data)3 base|warehouse|mining

Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th

Introduction to Business Analytics with RapidMiner Studio 6

Sales database• ซเปอรมารเกตแหงหนงมรานอยหลายสาขา (Store) แตการเกบขอมลจะ

เกบไวในฐานขอมลกลาง ซงมรายละเอยดดงในตารางดานลาง

• trans_id แสดงหมายเลขการซอสนคา (transaction)

• store_id แสดงหมายเลขของสาขา

• customer_id แสดงหมายเลขของลกคา

• product_id แสดงหมายเลขของสนคา

• product_cat แสดงประเภทของสนคา (category)

• date แสดงวนและเวลาทซอสนคา

• amount แสดงจำนวนสนคาชนดนนทซอ

• single_price แสดงราคาสนคา/หนวย

27

trans_id store_id customer_id product_id product_cat date amount single_price1 Store 01 Customer 1508 53642 Toys Sun Apr 01 08:09:06

20073.0 90.24

2 Store 15 Customer 169 90945 Movies Tue Feb 15 10:47:27 2005

2.0 60.583 Store 12 Customer 124 18548 Movies Thu Sep 27 05:38:56

20075.0 96.61

4 Store 01 Customer 1508 53642 Toys Sun Apr 01 08:09:06 2007

3.0 90.24

A B C D E F G H

A

B

C

D

E

F

G

H

Note: • ขอมลทใชในหนงสอเลมนเปนขอมลตวอยางทสรางขนมาจาก RapidMiner Studio 6 ดวธการสรางชดขอมลตวอยางนไดจาก Appendix A ครบ

Page 29: Introduction to Data Analytics with RapidMiner Studio 6 (ภาษาไทย)

(data)3 base|warehouse|mining

Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th

Introduction to Business Analytics with RapidMiner Studio 6

Data• RapidMiner จะมชอเรยกขอมลทแสดงในรปแบบของตาราง ดงน

• แถว เรยกวา ตวอยาง (example)

• คอลมน เรยกวา แอตทรบวต (attribute) ซงม 2 หนาททใชงานบอย

• ไอด (ID) เปนแอตทรบวตทแสดงหมายเลขของขอมล หรอ primary key ในฐานขอมล

• แอตทรบวตทมหนาทเปนแอตทรบวตไอดจะแสดงดวยสฟา

• แอตทรบวตทวไป (attribute) เปนแอตทรบวตปกตทใชในการประมวลผลหรอคำนวณตางๆ

• แอตทรบวตทมหนาทเปนแอตทรบวตทวไปจะแสดงดวยสเทา

• ประเภทของขอมลทเกบในแตละแอตทรบวต

• Polynominal คอ ขอมลประเภท category (ขอมลทไมใชตวเลข) มคามากกวา 2 คาขนไป

• Integer/Real คอ ขอมลประเภทตวเลขจำนวนเตม หรอ จำนวนทมทศนยม

• Date time คอ ขอมลประเภทวนทและเวลา

28

attributeID

trans_id store_id customer_id product_id product_cat date amount single_price1 Store 01 Customer 1508 53642 Toys Sun Apr 01 08:09:06

20073.0 90.24

2 Store 15 Customer 169 90945 Movies Tue Feb 15 10:47:27 2005

2.0 60.583 Store 12 Customer 124 18548 Movies Thu Sep 27 05:38:56

20075.0 96.61

4 Store 01 Customer 1508 53642 Toys Sun Apr 01 08:09:06 2007

3.0 90.24

polynominal data time realinteger

Page 30: Introduction to Data Analytics with RapidMiner Studio 6 (ภาษาไทย)

(data)3 base|warehouse|mining

Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th

Introduction to Business Analytics with RapidMiner Studio 6

• Repository

• เปนทเกบขอมลและโพรเซสเพอใชงานใน RapidMiner Studio 6 ทำใหไมตองโหลดขอมลจากไฟลใหมทกครง

• สวน Repository ประกอบดวย 2 สวน คอ

• เมนสำหรบการจดการ Repository

• สำหรบสราง Repository ใหม

• โหลดไฟลประเภทตางๆ เขาไปไวใน Repository

• สรางโฟลเดอรใหม

• Repository ทมอยใน RapidMiner Studio 6

• Samples เปนขอมลและโพรเซส ตวอยางท RapidMiner Studio 6 เตรยมไวให

• Local Repository เปน Repository ทเกบขอมลและโพรเซสในเครองคอมพวเตอร ของเราเอง (local)

• Cloud Repository เปน Repository ทเกบขอมลและโพรเซสบน Cloud

Data management

29

A

BA

B

Page 31: Introduction to Data Analytics with RapidMiner Studio 6 (ภาษาไทย)

(data)3 base|warehouse|mining

Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th

Introduction to Business Analytics with RapidMiner Studio 6

• ในหนงสอเลมนเราจะสราง Repository ใหมเพอเกบขอมลและโพรเซส

• คลกทไอคอน

• เลอก New local repository

• กดปม Next

• เปลยนชอ Alias เปน GettingStartedWithRapidMiner

• คลกท Use standard location เพอไมเลอก option น

• คลกทไอคอน เพอเลอก Root directory (ซงเปนโฟลเดอรสำหรบเกบขอมล) ใหม

Create Repository

30

2

1

3

1

2

3

4

5

6

6

45

Page 32: Introduction to Data Analytics with RapidMiner Studio 6 (ภาษาไทย)

(data)3 base|warehouse|mining

Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th

Introduction to Business Analytics with RapidMiner Studio 6

• สราง Repository ใหม (ตอ)

• คลกทไอคอน เพอสรางโฟลเดอรสำหรบ Repository ใหม ในตวอยางนเลอกท Desktop (แตทานผอานสามารถเลอกทไดรฟ C:\ หรอ D:\ กไดครบ)

• สรางโฟลเดอรชอ GettingStartedWithRapidMiner

• กดปม OK

• เลอกโฟลเดอรทสรางขน

• กดปม Open

Create Repository

31

7

7

8

9

10

11

8 10

11

9

Page 33: Introduction to Data Analytics with RapidMiner Studio 6 (ภาษาไทย)

(data)3 base|warehouse|mining

Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th

Introduction to Business Analytics with RapidMiner Studio 6

Create Repository• สราง Repository ใหม (ตอ)

• กดปม Finish

• จะได Repository ใหมแสดงขนมา

32

12

13

12

13

ขยายสวน Repositories ใหเตมหนาจอ

Page 34: Introduction to Data Analytics with RapidMiner Studio 6 (ภาษาไทย)

(data)3 base|warehouse|mining

Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th

Introduction to Business Analytics with RapidMiner Studio 6

Import Sale data• import ไฟล Excel เขาไปไวใน Repository

• ในสวน Repositories คลกทไอคอน เลอก Import Excel Sheet…

• เลอกไฟล sale_data.xlsx ทสรางขน (ดวธการสรางไฟลประเภท Excel ไดจาก Appendix A ครบ)

• ขนตอนท 2 ของการ Import ไฟล คอ การเลอก Worksheet ทตองการ import

• ในไฟลตวอยางมแค Worksheet เดยวจงมเพยงแทบเดยวใหเลอก

33

3

4

เลอกไฟล sales_data.xlsx

5

เลอก Worksheet น

1

2

Page 35: Introduction to Data Analytics with RapidMiner Studio 6 (ภาษาไทย)

(data)3 base|warehouse|mining

Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th

Introduction to Business Analytics with RapidMiner Studio 6

Import Sale data• import ไฟล Excel เขาไปไวใน Repository (ตอ)

• ขนตอนท 3 กำหนดใหแถวแรกของไฟลเปนชอแอตทรบวต และคลก Next

• ขนตอนท 4 เปลยน Date format ใหเปนแบบ yyyy-MM-dd HH:mm:ss

• เปลยนแอตทรบวต transaction_id ใหมหนาท (role) เปน ID และ product_id ใหเปนประเภท Polynominal

34

7

6

กำหนดใหแถวแรกเปน

ชอแอตทรบวต

10

8

9

11

เปลยนรปแบบของวนท

และเวลา

เปลยนหนาทของ

แอตทรบวตใหเปน ID

เปลยนประเภทใหเปน Polynominal แทน Integer

Page 36: Introduction to Data Analytics with RapidMiner Studio 6 (ภาษาไทย)

(data)3 base|warehouse|mining

Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th

Introduction to Business Analytics with RapidMiner Studio 6

• import ไฟล Excel เขาไปไวใน Repository (ตอ)

• ขนตอนท 5 ซงเปนขนตอนสดทายคอกำหนดวาจะเกบขอมลไวท Repository ทสรางขนมาใหม (GettingStartedWithRapidMiner) และตงชอไฟลเปน sales_data

• ขอมลท import เขามาใน RapidMiner Studio 6 จะแสดงเปนรปแบบ ของตาราง แตกสามารถเปลยนไปดในรปแบบอนๆ ได เชน กราฟ

Import Sale data

35

13

12

14

เลอกไฟล Repository ทสรางขนใหม

ตงชอขอมลเปน sales_data

แสดงรายละเอยดของขอมล

คลกทชอแอตทรบวตเพอ sort

Page 37: Introduction to Data Analytics with RapidMiner Studio 6 (ภาษาไทย)

(data)3 base|warehouse|mining

Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th

Introduction to Business Analytics with RapidMiner Studio 6

• แสดงขอมลทโหลดเขามาไดหลายรปแบบ เชน

• แสดงขอมลในรปแบบตาราง (Data) และถกกำหนดเปนคาเรมตน (default)

• แสดงคาสรปทางสถต (Statistics) เชน คา Min, Max, Average, Deviation

• แสดงกราฟรปแบบตางๆ (Charts) เชน กราฟแทง กราฟวงกลม

• แสดงขอมลในรปแบบตาราง

• ExampleSet แสดงจำนวนขอมลทงหมดในไฟล

• Filter แสดงจำนวนขอมลจากการกรอง (filter) ทำได 5 แบบ

• all แสดงขอมลทงหมด (ทงทมคาวางและไมวาง)

• no_missing_attributes แสดงเฉพาะขอมลทไมมคาวางในแอตทรบวต

• missing_attributes แสดงเฉพาะขอมลทมคาวางในแอตทรบวต

• no_missing_labels แสดงเฉพาะขอมลทไมมคาวางในแอตทรบวตประเภทลาเบล

• missing_labels แสดงเฉพาะขอมลทมคาวางในแอตทรบวตประเภทลาเบล

• ตารางแสดงขอมลในแตละแอตทรบวต คลกทชอแอตทรบวตเพอทำการเรยงลำดบ

• กดปม Ctrl คางไว และคลกทชอแอตทรบวตจะเปนการเรยงลำดบมากกวา 1 แอตทรบวต (สำหรบระบบปฏบตการ OS X ใหกดปม command แทน)

Data exploration

36

A

B

C

A

B

C

Page 38: Introduction to Data Analytics with RapidMiner Studio 6 (ภาษาไทย)

(data)3 base|warehouse|mining

Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th

Introduction to Business Analytics with RapidMiner Studio 6

Data exploration• คลกทเมน Statistics จะแสดงคาสรปทางสถต มคอลมนตางๆ ดงน

• Name แสดงชอแอตทรบวต

• Type แสดงประเภทของขอมลในแตละแอตทรบวต เชน Integer, Polynominal

• Miss. จำนวนขอมลทมคาวาง

• Statistics คาทางสถตตางๆ เชน Min, Max, Average, Deviation, Least, Most, Values

37

A

B

C

D

A B C D

• ขอมล sales_data ท import เขามาจะแสดงไวใน Repository

• สญลกษณ แสดงขอมล (data)

• ถาตองการเรยกดขอมลให double click ทชอของขอมล

• ถาตองการนำไปใชในโพรเซส ใหคลกทชอขอมลและลากไปวางไวใน main process

ขอมลท import เขามา

Page 39: Introduction to Data Analytics with RapidMiner Studio 6 (ภาษาไทย)

(data)3 base|warehouse|mining

Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th

Introduction to Business Analytics with RapidMiner Studio 6

Data exploration• ขอมล sales ท import เขามามจำนวนการซอขายทงหมด 100,000 ตวอยาง

(examples)

• ระยะเวลาการซอขายตงแต วนท 1 กมภาพนธ 2005 (Feb 1, 2005) จนถงวนท 29 พฤศจกายน 2008 (Nov 29, 2008)

• มการซอจากรานคาทงหมด 15 สาขา (Store)

• มลกคา (customers) ทงหมด 2,000 คน

• มสนคาทงหมด 8 ประเภท คอ

• Books, Clothing, Electronics, Health, Home/Garden, Movies, Sports และ Toys

• ในบทนจะแนะนำการเตรยมขอมล (preprocessing) เพอใชในการแบงกลมลกคา (รายละเอยดอยในบทท 3) โดยมขนตอนดงน

• เลอกเฉพาะสาขาทสนใจ เชน สาขาท 1 (Store 01)

• คำนวณราคารวมสำหรบการซอสนคาแตละครง

• สรปคาตางๆ ไดแก

• จำนวนครงในการซอสนคาของลกคาแตละราย (Frequency)

• จำนวนเงนทใชจายรวมของลกคาแตละราย (Monetary)

• วนทซอสนคาลาสดของลกคาแตละราย

38

Page 40: Introduction to Data Analytics with RapidMiner Studio 6 (ภาษาไทย)

(data)3 base|warehouse|mining

Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th

Introduction to Business Analytics with RapidMiner Studio 6

Preprocessing: Filter Examples• ในบทนจะแนะนำการเตรยมขอมล (preprocessing) เพอใชในการแบงกลม

ลกคา (รายละเอยดอยในบทท 3) โดยมขนตอนดงน

• เลอกเฉพาะสาขาทสนใจ เชน สาขาท 1 (Store 01)

• ใชโอเปอเรเตอร Filter Examples

• คำนวณราคารวมสำหรบการซอสนคาแตละครง

• สรปคาตางๆ ไดแก

• จำนวนครงในการซอสนคาของลกคาแตละราย (Frequency)

• จำนวนเงนทใชจายรวมของลกคาแตละราย (Monetary)

• วนทซอสนคาลาสดของลกคาแตละราย

• ดงขอมล (retrieve) จาก Repository มาใชงานในโพรเซส โดยลาก (drag) ขอมล sales_data มาไวในสวน Main Process

40

1

2

คลกท sales_data

ลากมาวางไวท Main Process

Note: • โอเปอเรเตอรทเลอกจะมเสนกรอบสสมลอมรอบโอเปอเรเตอรนนอย

Page 41: Introduction to Data Analytics with RapidMiner Studio 6 (ภาษาไทย)

(data)3 base|warehouse|mining

Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th

Introduction to Business Analytics with RapidMiner Studio 6

Preprocessing: Filter Examples• เลอกโอเปอเรเตอร Filter Examples เพอเลอกเฉพาะขอมลของ

สาขาท 1 (Store 1)

• คนหาโอเปอเรเตอร Filter Examples ในสวน Operators หลงจากนนโอเปอ เรเตอรจะแสดงออกมา (สามารถพมพบางสวนของชอโอเปอเรเตอรได)

• ลากโอเปอเรเตอรไปวางไวใน Main Process

• ลากเสนเชอมจากพอรต out ของโอเปอเรเตอร Retrieve Sales_data ไปตอกบพอรต exa ของโอเปอเรเตอร Filter Examples เพอสงขอมลทดงมาจาก Repository ไปใชงานตอในโอเปอเรเตอร Filter Examples

41

3

4 คลกทโอเปอเรเตอร

ใสคำทตองการคนหา

5ลากมาวางไวท Main Process

6

ลากเสนเชอมระหวาง 2 โอเปอเรเตอร เพอสงขอมลไปใชงานตอ

Note: • พอรตทมชอวา exa จะเปนขอมลทอยในรปแบบของตาราง (table)

• เอาทพตพอรตของ Filter Examples จะม 3 พอรต คอ • exa แสดงขอมลทผานเงอนไขการ

filter แลว • ori แสดงขอมลทงหมด • unm แสดงขอมลทไมผานเงอนไข

• รายละเอยดของพอรตดไดจากสวน Help ในตวซอฟตแวร

Page 42: Introduction to Data Analytics with RapidMiner Studio 6 (ภาษาไทย)

(data)3 base|warehouse|mining

Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th

Introduction to Business Analytics with RapidMiner Studio 6

Preprocessing: Filter Examples• คลกทโอเปอเรเตอร Filter Examples (ซงจะมกรอบสสมลอมรอบอย) และสวน

พารามเตอรจะแสดงพารามเตอรของโอเปอเรเตอร Filter Examples

• คลกทปม Add Filters... จะแสดงหนาตาง Create Filters ขนมา

• ใสเงอนไขเพอเลอกเฉพาะสาขาท 1 (Store 01)

• เลอกแอตทรบวต store_id

• เลอกเงอนไขเปน equals

• คลกทไอคอน และเลอก Store 01 ในสวนเงอนไข

42

7

คลกทปม Add Filters...

หนาตางสำหรบการใสเงอนไขจะแสดงขนมา

8 9

10คลกเพอใหแสดงคาตางๆ ในแอตทรบวต store_id

11

Page 43: Introduction to Data Analytics with RapidMiner Studio 6 (ภาษาไทย)

(data)3 base|warehouse|mining

Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th

Introduction to Business Analytics with RapidMiner Studio 6

Preprocessing: Filter Examples• ลากเสนตอจากพอรต exa ของโอเปอเรเตอร Filter Examples ไป

ยงพอรต res (พอรตดานขวามอเพอแสดงขอมลในหนาตาง Results)

• คลกทปม (Run process) เพอใหโพรเซสทำงาน

• หลงจากทโพรเซสทำงานเสรจเรยบรอยจะเปลยนมายงหนาตาง Results

• แสดงขอมลการซอขายเฉพาะของสาขาท 1 (Store 01) ซงมจำนวน 6,636 ตวอยาง

43

12

13

ลากเสนเชอมระหวางโอเปอเรเตอรและพอรต res

คลกทปม Run เพอใหโพรเซสทำงาน

แสดงเฉพาะขอมลทเปน Store 01

Page 44: Introduction to Data Analytics with RapidMiner Studio 6 (ภาษาไทย)

(data)3 base|warehouse|mininghttp://www.dataminingtrend.com

http://facebook.com/datacube.th

การแบงกลมลกคา (Segmentation)

บทท 3

Page 45: Introduction to Data Analytics with RapidMiner Studio 6 (ภาษาไทย)

(data)3 base|warehouse|mining

Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th

Introduction to Business Analytics with RapidMiner Studio 6

Segmentation• หลงจากบททผานมาเราไดทำการสรปคาการซอสนคาของลกคาแตละรายไดแลวซงถา

ลกคามจำนวนไมมากนกการดพฤตกรรมการซอสนคาของลกคาแตละรายกไมไดยาก แตถาในกรณทลกคามจำนวนมาก เชนประมาณ 10,000 หรอ 100,000 คน การดลกคารายบคคลคงจะทำไดยากหรออาจจะทำไมไดเลย

• ดงนนการจดกลมลกคาทมพฤตกรรมคลายๆ กนไวดวยกนจะชวยใหสามารถดภาพรวมของลกคาไดงายขน เชน กลมลกคาทมการซอสนคาของเราบอยๆ และมการใชจายเยอะ หรอ กลมลกคาทไมคอยมาซอสนคาของเราแตเมอมาซอแตละครงจะซอในจำนวนทมาก หลงจากทเราเลอกกลมทนาสนใจแลวเรากนำไปวเคราะหในดานอนๆ ไดตอไป เชน การหาวาลกคากลมทเลอกมามกจะซอสนคาอะไรดวยกนบอยๆ บาง (ซงรายละเอยดจะอยในบทท 4 การหาความสมพนธของการซอสนคา (product association)

• การจดกลมลกคามหลายวธครบ ในหนงสอเลมนผมจะขอแนะนำวธการหนงทนยมใชกน วธการนเรยกวาการจดกลมตามพฤตกรรมการซอสนคา โดยดจาก

• ระยะเวลา (จำนวนวน) จากการซอลาสดทผานมา (Recency)

• ความถของการซอสนคา (Frequency)

• การใชจายของลกคา (Monetary)

• วธการนนำเสนอโดย Fader ในป 2005 เราเรยกวธการนแบบยอๆ วา RFM ครบ ซงวธการนเราจะแบงคา Recency (R), Frequency (F) และ Monetary (M) ออกเปน 5 สวนเทาๆ กนโดยเลขทมคามากสด (คอเลข 5) จะมความสำคญทสด และใชคาตวเลข 3 หลกเปนตวแทนของแตละกลม เชน กลม 555 คอกลมทมคา R = 5, F = 5 และ M = 5 หมายความวาเปนลกคาทมกจะมาซอสนคาของเราบอยๆ และมการใชจายทสงนนเองครบ

67

Page 46: Introduction to Data Analytics with RapidMiner Studio 6 (ภาษาไทย)

(data)3 base|warehouse|mining

Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th

Introduction to Business Analytics with RapidMiner Studio 6

RFM Segmentation: Data Exploration• กราฟแทง (Bars) ทแสดงจำนวนขอมลลกคาในแตละกลมตามคา RFM

83

10

11

คลกเพอดกราฟ

12

13

14

เปลยนใหแสดงกราฟใน

แนวนอน (horizontal)

Page 47: Introduction to Data Analytics with RapidMiner Studio 6 (ภาษาไทย)

(data)3 base|warehouse|mininghttp://www.dataminingtrend.com

http://facebook.com/datacube.th

การหาความสมพนธของขอมล (Product Association)

บทท 4

Page 48: Introduction to Data Analytics with RapidMiner Studio 6 (ภาษาไทย)

(data)3 base|warehouse|mining

Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th

Introduction to Business Analytics with RapidMiner Studio 6

Product Association• กอนทจะไปดวาการหาความสมพนธคออะไร ผมจะขอยกตวอยางใหดสก 3 ตวอยางนะ

ครบ ตวอยางแรกกคอ

• ประโยคฮตของรานสะดวกซอแหงหนงทวา “รบขนมจบ ซาลาเปาทานเพมไหม

ครบ/คะ?” ซงผมคดวาผอานหลายทานคงจะคนหกนเปนอยางด ประโยคนไมได

เปนเพยงการพดขนมาลอยๆ แตมนมความหมายในเชงการตลาดซงมวตถประสงคเพอเพมยอดขายใหกบทางรานอกดวยครบ

• การซอสนคาในเวบไซตอเมซอน (amazon.com) ซงในขณะทเรากำลงเลอกหนงสอ

อยนน จะมหนงสออนทลกคามกจะซอไปพรอมกบเรองทเรากำลงสนใจอยแสดงในสวนของ Frequently Bought Together ปรากฎขนมาดวยครบ

• การจดวางสนคาในแคตตาลอก (catalog) หรอการจดวางสนคาตามชนตางๆ จะเลอกสนคาทมกจะมการซอรวมกนบอยมาวางไวใกลๆ กนเพอใหลกคาสะดดตาและเลอกซอสนคาไดงายขนครบ

• จากตวอยางทง 3 มวตถประสงคคลายกน คอ การเพมยอดขายใหกบรานคาโดยใชประวตการซอสนคาของลกคาในอดต ในทางการตลาดการเสนอสนคาทเกยวของใหกบลกคาจะเรยกวา “cross-selling” ซงการทำ cross-sell แบบนอาศยขอมลจากการคนหาความสมพนธในการซอสนคาตางๆ ทผานมา

• ในการคนหาความสมพนธในการซอสนคานจะมวธการทเรยกวา การหากฏความสมพนธ (Association Rules) ซงเปนเทคนคหนงทสำคญในการวเคราะหขอมลดวย ดาตา ไมนนง (Data Mining) ซงวธการคนหาอยางละเอยดไดอธบายไวในหนงสอ “An Introduction to Data Mining Techniques (Thai version)” ซงเขยนโดยผแตงเอง [1] แตในหนงสอเลมนจะขอสรปคำจำกดความ (technical term) ทเกยวของในการคนหากฏความสมพนธและใชงานในซอฟตแวร RapidMiner Studio 6

92

Page 49: Introduction to Data Analytics with RapidMiner Studio 6 (ภาษาไทย)

(data)3 base|warehouse|mining

Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th

Introduction to Business Analytics with RapidMiner Studio 6

Product Association• ในการหาความสมพนธของการซอสนคานจะใชขอมลจากการซอทผานมาดงเชน ขอมลทได

จาก POS (Point of Sales) ซงมกจะเกบไวในตาราง Order Detail ซงประกอบไปดวยหลายๆ ฟลดดงตวอยางดานลาง ซงยกตวอยางฟลดทสำคญเพยง 3 ฟลด คอ

• TID แสดงหมายเลขการซอสนคา (transaction ID)

• Transaction time แสดงชวงวลาในการซอสนคา

• Product แสดงสนคาทซอ

• จากตาราง Order Detail จะเหนไดวาหนงเรคอรด (record) เปนการซอสนคาหนงชนด ดงนน ถาในหนงครงมการซอสนคามากกวาหนงชนดแลวจะมจำนวนเรคอรดมากกวาหนงเรคอรดแต

ใช TID เปนตวบงบอกวาเปนการซอสนคาในครงเดยวกน ซงขอมลทเกบอยในลกษณะนไม

เหมาะทจะนำไปหาความสมพนธของการซอขายตอ ดงนนจงตองทำการแปลงขอมลในตาราง Order Detail (ซายมอ) ใหเปนตาราง Transaction ทางขวามอเสยกอน

93

TID Transaction time Product

1 01-13-2014 20:04 Apple

1 01-13-2014 20:04 Cereal

1 01-13-2014 20:04 Diapers

2 01-14-2014 11:30 Beer

2 01-14-2014 11:30 Cereal

2 01-14-2014 11:30 Eggs

3 01-15-2014 14:30 Apple

3 01-15-2014 14:30 Beer

3 01-15-2014 14:30 Cereal

3 01-15-2014 14:30 Eggs

4 01-16-2014 14:15 Beer

4 01-16-2014 14:15 Eggs

TID Products

1 Apple, Cereal, Diapers2 Beer, Cereal, Eggs3 Apple, Beer, Cereal, Eggs4 Beer, Eggs

ตาราง Order Detail

ตาราง Transaction

Page 50: Introduction to Data Analytics with RapidMiner Studio 6 (ภาษาไทย)

(data)3 base|warehouse|mining

Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th

Introduction to Business Analytics with RapidMiner Studio 6

Appendix B: Operators• สวนประกอบสำคญในการทำงานของซอฟตแวร RapidMiner Studio 6 คอโอเปอเรเตอร

(Operator) การทำงานตางๆ จะใชโอเปอเรเตอรมาเชอมกนเพอสรางเปน workflow หรอในซอฟตแวรนเรยกวาโพรเซส (process) ในภาคผนวกนจะเปนการสรปโอเปอเรเตอรตางๆ ทใชในหนงสอเลมนครบ แตกอนอนมาดองคประกอบของโอเปอเรเตอรกนกอนครบ

• โอเปอเรเตอรแตละตวจะประกอบดวย • ชอของโอเปอเรเตอร • อนพต พอรต (Input port) เปนสวนรบขอมลเขามา

ประมวลผล

• เอาทพต พอรต (Output port) เปนสวนสงผลลพธท ประมวลได โดยชออนพต พอรตและเอาทพต พอรตแสดงดวยตวอกษร 3 ตวแรกของชอพอรต เชน exa ยอมาจาก example set

• สญลกษณวงกลมแสดงสถานะการทำงานของ โอเปอเรเตอร

133

ab

c

d

a

b

c

d

โอเปอเรเตอร คำอธบาย

Retrieveใชสำหรบดงขอมลทเกบไวใน Repository มาใชงานในโพรเซส (Process)

Filter Example ใชสำหรบเลอก (filter) ขอมลทสนใจออกมาแสดงผล

Generate Attribute

ใชสำหรบสรางแอตทรบวตใหมขนมา

Page 51: Introduction to Data Analytics with RapidMiner Studio 6 (ภาษาไทย)

(data)3 base|warehouse|mining

Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th

Introduction to Business Analytics with RapidMiner Studio 6

Appendix B: Operators• โอเปอเรเตอรทใชในบทนมดงตอไปน

134

โอเปอเรเตอร คำอธบาย

Aggregateใชสำหรบสรปคาตางๆ เชน คามากสด (Max) คานอยสด (Min) และคาเฉลย (Average)

Rename ใชสำหรบเปลยนชอแอตทรบวตตางๆ

Subprocessใชสำหรบรวบรวมโพรเซสทสรางไวมาไวภายใน โอเปอเรเตอร สำหรบตวอยางนจะนำโพรเซสทสรางไดจากบทท 2 นไวในโอเปอเรเตอร Subprocess น

Discretize by Frequency

ใชสำหรบแบงชวงขอมลใหแตละชวงมจำนวนทเทากน

Nominal to Numerical

ใชสำหรบแปลงขอมลทเปนนอมนอล (Nominal) ใหเปนขอมลตวเลข (Numeric)

Numerical to Nominal

ใชสำหรบแปลงขอมลทเปนขอมลตวเลข (Numeric) ใหเปนนอมนอล (Nominal) สำหรบในตวอยางนใชเพอแปลงคา RFM ใหกบไปเปนประเภทนอมนอล

Numerical to Binominal

ใชสำหรบแปลงขอมลทเปนตวเลขใหเปนคา true/false หรอทเรยกวา binominal

Page 52: Introduction to Data Analytics with RapidMiner Studio 6 (ภาษาไทย)

(data)3 base|warehouse|mining

Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th

Introduction to Business Analytics with RapidMiner Studio 6

136

Page 53: Introduction to Data Analytics with RapidMiner Studio 6 (ภาษาไทย)

ปจจบนเราสรางขอมลขนอยางมากมายในแตละวน ตวอยางเชน การรบและสง email การตดตามขาวสารตางๆ บนเครอขายสงคมออนไลน (online social network) หรอ การซอสนคาตามรานคาตางๆ ผมรบกวนใหทานผอานลองจนตนาการดนะครบวาถาทานเปนเจาของรานอาหารทไดรบ

ความนยมเปนอยางมากแหงหนงซงในรานทมจำนวน 30 โตะ และถาในแตละวนมลกคาเขามาเตมรานจำนวน 20 รอบ รานของเราจะมขอมลการซอขายสนคาเปนจำนวน 600 transaction ตอวน และในหนงเดอนเราจะมขอมลจำนวนประมาณ 18,000 transaction ทถกเกบไวในฐานขอมลและหนงปจะมจำนวน 216,000 transaction และถาเปนขอมลของการซอขายในซเปอรมารเกตยงมจำนวนมากมายกวานอกหลายเทา ทวาขอมลทมมากมายเหลานจะไมกอใหเกดประโยชนเลยถาเราเพยงแคเกบไวอยางเดยว เพอใหขอมลเหลานมมลคาเพมมากขนเราจงจำเปนตองนำขอมลเหลาน

มาทำการวเคราะหเพอดในแงมมตางๆ

ในหนงสอเลมนจะแสดงวธการนำขอมลการซอขายมาวเคราะหใหเหนเปนตวอยางโดยเรมจาก

การเตรยมขอมลเพอใหการวเคราะหขอมลทำไดงายมากขน หลงจากนนจะเปนการนำขอมลการซอสนคาของลกคาแตละรายมาทำการแบงกลม (segmentation) ซงจะชวยใหสามารถเขาใจ

พฤตกรรมการซอสนคาของลกคาไดดขน เพราะการจะดรายละเอยดของลกคาแตละรายคงเปนไป

ไดยาก ใ นหนงสอเลมนเราจะใชวธการแบงกลมขอมลการซอดวยเทคนค RFM (ยอมาจาก Recency, Frequency และ Monetary) เพอจะไดเขาใจพฤตกรรมการซอสนคาของลกคาแตละ

กลมวามจำนวนครงในการซอสนคามากนอยแคไหน มการใชจายมากนอยแคไหน หลงจากทได

ทำการเลอกกลมทนาสนใจมาแลวจงนำไปหาความสมพนธของการซอสนคา (product associate) ตอเพอดวามสนคาประเภทใดทลกคามกจะซอพรอมกนบอยครงบาง เมอทราบรปแบบการซอสนคาในลกษณะนแลวอาจจะชวยในการจดวางสนคาหรอนำเสนอสนคาหรอโปรโมโชน ใ หกบลกคาให ตรงกบความตองการไดมากขน ซงในปจจบนนเราสามารถทำการวเคราะหขอมลในลกษณะนได

งายขนโดยใชซอฟตแวร RapidMiner Studio 6 ซงสามารถดาวนโหลดมาใชงานไดฟร

การวเคราะหขอมลทางธรกจเพอเพมยอดขายดวยซอฟตแวร RapidMiner Studio 6

โดย หสม. ดาตา ควบ http://www.dataminingtrend.com http://facebook.com/datacube.th