Introduction to Data Analytics with RapidMiner Studio 6 (ภาษาไทย)
-
Upload
big-data-engineering-faculty-of-engineering-dhurakij-pundit-university -
Category
Data & Analytics
-
view
23.898 -
download
20
Transcript of Introduction to Data Analytics with RapidMiner Studio 6 (ภาษาไทย)
Introduction to Business Analytics with RapidMiner Studio 6
Thai version
Eakasit Pacharawongsakda, Ph.D. Certified RapidMiner Analyst
Data Cube http://www.dataminingtrend.com http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
(data)3 base|warehouse|mininghttp://www.dataminingtrend.com
http://facebook.com/datacube.th
Eakasit Pacharawongsakda, Ph.D. Certified RapidMiner Analyst
(data)3 base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
2
ชอผแตง ดร.เอกสทธ พชรวงศศกดา
ชอหนงสอ Introduction to Business Analytics With RapidMiner Studio 6
จำนวนหนา 138 หนา
พมพครงท 1
วนเดอนปทพมพ สงหาคม 2558
ชอสำนกพมพ บรษท เอเชย ดจตอลการพมพ จำกด
ถ.งามวงศวาน แขวงลาดยาว
เขตจตจกร กรงเทพฯ 10900
ออกแบบปก กมนนทธ บางแวก
จดรปเลม เอกสทธ พชรวงศศกดา
ราคา 299 บาท
สงวนลขสทธ ตาม พ.ร.บ. ลขสทธ พ.ศ. 2537 หามลอกเลยนแบบไมวาสวนหนงสวนใดของหนงสอ/เอกสารเลมน
นอกจากจะไดรบอนญาตเปนลายลกษณอกษร
คาเตอน !!! การนาไปถายเอกสารอาจจะทาใหขอความและรปไมชดทาใหอานไดยากและ
จะทาใหผแตงเสยใจเปนอนมาก T_T
(data)3 base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
“แดคณพอผเปนฮโรเสมอมา คณแมผคอยเฝาดจากบนฝากฟา
และภรรยาทคอยอยเคยงขางกนตลอดเวลา”
3
(data)3 base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
คำนำ
ปจจบนเราสรางขอมลขนอยางมากมายในแตละวน ตวอยางเชน การรบและสง email การตดตาม
ขาวสารตางๆ บนเครอขายสงคมออนไลน (online social network) หรอ การซอสนคาตามรานคาตางๆ ผมรบกวนใหทานผอานลองจนตนาการดนะครบวาถาทานเปนเจาของรานอาหารทไดรบความนยมเปน
อยางมากแหงหนงซงในรานทมจำนวน 30 โตะ และถาในแตละวนมลกคาเขามาเตมรานจำนวน 20 รอบ รานของเราจะมขอมลการซอขายสนคาเปนจำนวน 600 transaction ตอวน และในหนงเดอนเราจะมขอมลจำนวนประมาณ 18,000 transaction ทถกเกบไวในฐานขอมลและหนงปจะมจำนวน 216,000 transaction และถาเปนขอมลของการซอขายในซเปอรมารเกตยงมจำนวนมากมายกวานอกหลายเทา ทวาขอมลทมมากมายเหลานจะไมกอใหเกดประโยชนเลยถาเราเพยงแคเกบไวอยางเดยว เพอใหขอมล
เหลานมมลคาเพมมากขนเราจงจำเปนตองนำขอมลเหลานมาทำการวเคราะหเพอดในแงมมตางๆ
ในหนงสอเลมนจะแสดงวธการนำขอมลการซอขายมาวเคราะหใหเหนเปนตวอยางโดยเรมจากการ เตรยมขอมลเพอใหการวเคราะหขอมลทำไดงายมากขน หลงจากนนจะเปนการนำขอมลการซอสนคา
ของลกคาแตละรายมาทำการแบงกลม (segmentation) ซงจะชวยใหสามารถเขาใจพฤตกรรมการซอ
สนคาของลกคาไดดขน เพราะการจะดรายละเอยดของลกคาแตละรายคงเปนไปไดยาก โ ดยในหนงสอเลมนเราจะใชวธการแบงกลมขอมลการซอดวยเทคนค RFM (ยอมาจาก Recency, Frequency และ Monetary) เพอจะไดเขาใจพฤตกรรมการซอสนคาของลกคาแตละกลมวามจำนวนครงในการซอสนคา
มากนอยแคไหนและมการใชจายมากนอยแคไหน หลงจากทไดทำการเลอกกลมทนาสนใจมาแลวจงนำไปหาความสมพนธของการซอสนคา (product associate) ตอเพอดวามสนคาประเภทใดทลกคามกจะซอพรอมกนบอยครงบาง เมอทราบรปแบบการซอสนคาในลกษณะนแลวอาจจะชวยในการจดวาง
สนคาหรอนำเสนอสนคาหรอโปรโมโชน ใหกบลกคาใหตรงกบความตองการไดมากขน ซงในปจจบนนเราสามารถทำการวเคราะหขอมลในลกษณะนไดงายขนโดยใชซอฟตแวร RapidMiner Studio 6 ซงสามารถดาวนโหลดมาใชงานไดฟร
สดทายนหวงวาจะทำใหทานผอานเขาใจเรองการวเคราะหขอมลและสามารถนำไปใชกบขอมลของ
ตนเองทมอยไมมากกนอยครบ ^^
ขอบคณมากครบ
ดร. เอกสทธ พชรวงศศกดา 28 สงหาคม 2558
4
(data)3 base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
สารบญ
5
หนาบทท 1 แนะนำสวนตางๆ ของ RapidMiner Studio 6 11
การตดตงซอฟตแวร 13
สวนประกอบตางๆ ของ RapidMiner Studio 6 19
บทท 2 การเตรยมขอมล (preprocess) 26
แนะนำขอมล Sales data 27
การสราง Repository ใหม 30
การ import ขอมลเขามาใชงาน 33
การดขอมลในรปแบบตางๆ (data exploration) 36
โอเปอเรเตอรทใชงานในบทท 2 39
การคดเลอกขอมล 40
การคำนวณราคา 45
แนะนำการแบงกลมดวยวธ RFM (Recency, Frequency, Monetary) 49
การเตรยมขอมลสำหรบการแบงกลมดวยวธ RFM 52
แบบฝกทายบท 65
บทท 3 การแบงกลมขอมล (segmentation) 66
การแบงกลมลกคาตามพฤตกรรมการบรโภคดวยวธ RFM 68
โอเปอเรเตอรทใชงานในบทท 3 70
การแบงกลมขอมลดวยวธ RFM ใน RapidMiner Studio 6 71
แบบฝกทายบท 90
(data)3 base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
สารบญ (ตอ)
6
หนาบทท 4 การหาความสมพนธของขอมล (Product Association) 91
แนะนำการหากฏความสมพนธ (Association Rules) 92
โอเปอเรเตอรทใชงานในบทท 4 97
การเตรยมขอมลกอนหาความสมพนธ 99
การหารปแบบของสนคาทเกดขนบอย (frequent itemset) 118
การหากฏความสมพนธ 122
แบบฝกทายบท 126
ภาคผนวก A การสรางขอมล 129
ภาคผนวก B โอเปอเรเตอรทใชงานทงหมด 133
(data)3 base|warehouse|mininghttp://www.dataminingtrend.com
http://facebook.com/datacube.th
แนะนำตวบทท 0
(data)3 base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
About me
• ชอ: เอกสทธ พชรวงศศกดา
• การศกษา:
• ปรญญาเอก วทยาการคอมพวเตอร สถาบนเทคโนโลยนานาชาตสรนธร (SIIT) มหาวทยาลยธรรมศาสตร
• ปรญญาโท วศวกรรมคอมพวเตอร มหาวทยาลยเกษตรศาสตร
• ปรญญาตร วศวกรรมคอมพวเตอร มหาวทยาลยเกษตรศาสตร (เกยรตนยมอนดบ 2)
• ประสบการณ
• Certified RapidMiner Analyst
• วทยากรอบรมการใชงานซอฟตแวร open source ทางดาน data mining
• แตงหนงสอ Data Mining ฉบบภาษาไทย
8
(data)3 base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
• สอบวดมาตรฐานและไดรบ certificate จาก RapidMiner
About me (ตอ)
9
(data)3 base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
• วทยากรรบเชญอบรมทางดาน Data Mining ใหกบหนวยงานตางๆ
• มหาวทยาลยตางๆ
• หนวยงานและบรษทชนนำตางๆ
About me (ตอ)
10
(data)3 base|warehouse|mininghttp://www.dataminingtrend.com
http://facebook.com/datacube.th
แนะนำสวนตางๆ ของRapidMiner Studio 6
บทท 1
(data)3 base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
Introduction RapidMiner• RapidMiner
• ในตอนแรกใชชอบรษทวา Rapid-I กอตงขน เมอป 2006
• ในชวงแรกบรษทตงอยทประเทศเยอรมน
• ป 2013 ไดเปลยนชอบรษทเปน RapidMiner หลงจากไดรบเงนลงทนจำนวน 5 ลานเหรยญสหรฐ
• และยายบรษทมาอยทบอสตน ประเทศสหรฐอเมรกา
• ผลตภณฑหลกของบรษทคอ RapidMiner Studio 6
• ผลการสำรวจจากเวบไซต KDnuggets ในป 2014 พบวาผรวมตอบแบบสำรวจใช RapidMiner ในการวเคราะหขอมลมากเปนอนดบ 1
• Gartner ไดจดให RapidMiner อยในกลม Leaders สำหรบซอฟตแวร ในการวเคราะหขอมล (2015)
• SAS
• IBM
• KNIME
• RapidMiner
12
Ingo MierswaRalf Klinkenberg
source: http://techcrunch.com/2013/11/04/german-predictive-analytics-startup-rapid-i-rebrands-as-rapidminer-takes-5m-from-open-ocean- earlybird-to-tackle-the-u-s-market/
source: http://www.kdnuggets.com/2014/06/kdnuggets-annual-software-poll-rapidminer-continues-lead.html http://rapidminer.com/leader-gartners-magic-quadrant-advanced-analytics/
(data)3 base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
RapidMiner Studio 6• download ไดจาก http://rapidminer.com
• กรอกขอมลเพอสราง Account สำหรบดาวนโหลดซอฟตแวร
13
1คลกเมนดาวนโหลด
2
3
4
5
email ทใชสมคร
password ทใช
ใส password ทกรอกไวอกครง
กดปมเพอสมคร
(data)3 base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
RapidMiner Studio 6• หลงจากยนยนการลงทะเบยนทาง email แลว ใหคลกทเมน login
เพอดาวนโหลดซอฟตแวร
• กรอก username และ password ทไดสมครไวในตอนแรก
14
6
7
8
9
คลกเมน Login
email ทใชสมคร
password ทกรอกไวตอนสมคร
กดปม Login
(data)3 base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
RapidMiner Studio 6• หลงจาก login แลวจะพบเมนตางๆ คลกทเมน Downloads
• เลอกดาวนโหลด version ทเหมาะสมกบระบบปฏบตการของเรา
15
10 เลอกเมน ดาวนโหลด
เลอกระบบปฏบตการ (OS) ทตดตงในเครอง
(data)3 base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
RapidMiner Studio 6• การตดตงซอฟตแวร RapidMiner Studio 6 สำหรบระบบปฏบตการตางๆ
สามารถดขนตอนอยางละเอยดไดจาก http://docs.rapidminer.com/studio/installation/
• double click ท icon เพอเรมใชงานซอฟตแวร
• หลงจากตดตงซอฟตแวรเรยบรอยแลว ขนตอนถดมาจะตอง login โดยใช email และ password ทไดทำการสมครไวครบ
16
1
2
3
email ทใชสมคร
password ทกรอกไวตอนสมคร
กดปมเพอ login
(data)3 base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
RapidMiner Studio 6• หลงจากตรวจสอบกบ Server ถาสำเรจจะแสดงดงในรป
• กดปม Restart เพอเรมการทำงานใหมอกครง
17
แสดงชอเจาของ license
แสดงวนหมดอาย
การใชงาน
4
Note: RapidMiner Studio 6 มหลาย license ครบ ในการตดตงครงแรกจะใหใช Professional License เปนเวลา 14 วน หลงจากนนจงกลายเปน Starter License ทใชไดตลอดไปครบ
กดปมเพอเรมใชงาน
5กดปมเพอ restart
(data)3 base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
RapidMiner Studio 6• หนาตางเรมใชงานจะแสดงขนมา ซงจะแสดง 4 เมน คอ
• Tutorials แสดงวธการใชงาน
• Documentation Site เพอ link ไปยงหนาเวบไซตทแสดง document การใชงาน
• Accelerator แสดงโพรเซส (process) ตวอยางทเตรยมไวให
• New Process สรางโพรเซสใหมเพอเรมการใชงาน RapidMiner
• ในการใชงาน RapidMiner Studio 6 จะเปนการสรางโพรเซส ขนมาเพอทำงานตางๆ โดยโพรเซสจะประกอบดวย โอเปอเรเตอร (operator) ตางๆ
• โพรเซสทสรางขนสามารถนำกลบมาใชงานใหมได หรอ สงไปใหคนอนได
18
6เลอกเมน ‘New Process’ เพอเรมใชงาน
A
B
C
D
A
B
C
D
(data)3 base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
• องคประกอบของหนาตาง Design ใน RapidMiner Studio 6
• Operators
• สวนนจะเกบโอเปอเรตอรในการใชงานตางๆ ไวเปนกลมตามหนาททคลายคลงกน และในสวนของโอเปอเรเตอรนยงมทสำหรบการคนหาโอเปอเรเตอรอกดวย
• โอเปอเรเตอรแตละตวจะประกอบดวย • ชอของโอเปอเรเตอร • อนพต พอรต (Input port) เปนสวนรบขอมลเขามา
ประมวลผล
• เอาทพต พอรต (Output port) เปนสวนสงผลลพธท ประมวลได
• ชออนพต พอรตและเอาทพต พอรตแสดงดวยตวอกษร 3 ตวแรก ของชอพอรต เชน exa ยอมาจาก example set
• สญลกษณวงกลมแสดงสถานะการทำงานของโอเปอเรเตอร
RapidMiner Studio 6
19
Operators
Repositories
ProcessParameter
help
A
B
C
D
E
ab
c
d
A
a
b
c
d
(data)3 base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
RapidMiner Studio 6• Repositories
• สวนนจะใชในการจดการไฟลตางๆ หลกการของ RapidMiner Studio 6 จะเกบไฟลขอมลหรอโพรเซสตางๆ ไวใน โฟลเดอรเพอความสะดวกในการเรยกใชงานครงถดไป
• Process
• สวนนเปนอกสวนทสำคญของ RapidMiner Studio เพราะหลกการทำงานของซอฟตแวรนคอการนำโอเปอเรเตอรตางๆ มา ประกอบกนใหเปนโพรเซสขนมา
• Parameters
• สวนนจะเปนสวนทแสดงพารามเตอร (parameter) ท เกยวของกบแตละโอเปอเรเตอร เชน โอเปอเรเตอร Read CSV สำหรบอานไฟล CSV จะมพารามเตอรทเกยวของ เชน ชอและทอยของไฟล CSV เปนตน
• Help
• สวนนจะเปนสวนทแสดงขอความชวยเหลอหรอรายละเอยดของโอเปอเรเตอรทเลอกใชงานอย ซงประกอบดวยรายละเอยดเบองตน ความหมายของแตละพารามเตอร และตวอยางการใชงานในสวนทายสด
20
B
C
แสดงโพรเซสทกำลงทำงาน
เพม Note ในโพรเซส
เชอมโอเปอเรเตอรตางๆในโพรเซสแบบอตโนมต
D
E
(data)3 base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
RapidMiner Studio 6• เมนดานบนในหนาตาง Design มดงน
• เมนทางดานขวาบนของหนาตาง Design จะใชสำหรบสลบหนาจอ การทำงานไปยงหนาตางๆ ดงน
• หนา Home แสดงหนาเรมตนของ RapidMiner Studio 6
• หนา Design แสดงหนาสำหรบการสรางโพรเซส
• หนา Results แสดงหนาผลลพธการทำงาน
• หนา Accelerator แสดงหนาตวอยางระบบทเตรยมไวให
21
เมนสำหรบการสรางโพรเซสใหม
เมนสำหรบการโหลดไฟลตางๆ จาก repository
เมนสำหรบการบนทกโพรเซส
เมนสำหรบบนทกโพรเซสเปนชอใหม
เมนสำหรบพมพโพรเซสออกทางเครองพมพ หรอบนทกเปนไฟล PDF หรอรปภาพ
เมนสำหรบการทำ undo หรอ redo
เมนสำหรบสงใหโพรเซสทำงาน (run)
เมนสำหรบสงใหโพรเซสหยดทำงานชวคราว (pause)
เมนสำหรบสงใหโพรเซสยกเลกทำงานชวคราว (stop)
เมนสำหรบเรยกด tutorial
Note: • เมนทเหลออก 2 เมนเปนการสงใหโพรเซสทำงานบนคลาวด (cloud) ซงมคาใชจายรายเดอน เดอนละ 39$ และการทำงานจะคดเปนเครดตโดยตองซอครงละ 100 เครดตเปนจำนวนเงน 39$ ครบ
A B C D
A
B
C
D
(data)3 base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
• หนาตาง Home
• รายละเอยดของเมนตางๆ ในหนา Home มดงน
• Tutorials แสดงวธการใชงานเบองตน
• Accelerators แสดง process ตวอยางทเตรยมไว
• New Process สำหรบสราง process ใหมขนมา เพอทำงาน
• Open สำหรบเปด process เดมทบนทกไวเพอมาทำงาน
RapidMiner Studio 6
22
A
B
C
D
A
B
C
D
(data)3 base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
• หนาตาง Results
• หนาตาง Accelerator
RapidMiner Studio 6
23
สวนของการแสดงผลลพธ Repositories
A B
(data)3 base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
Business Analytics Example• ในหนงสอเลมนจะแสดงวธการใชงาน RapidMiner Studio 6 เพอ
ชวยในการวเคราะหขอมลของซเปอรมารเกต (supermarket) แหงหนงซงไดทำการเกบขอมลสมาชก (ลกคา) และการซอสนคาตางๆ ไว
• วตถประสงคเพอคนหาวาลกคากลมใดทนาสนใจและสนคาทลกคามกจะมาซอ
รวมกนบอยๆ เพอจะไดนำเสนอโปรโมชนไดอยางเหมาะสม
• โพรเซสทงหมดแสดงดงในรปดานลาง
24
Recency (R)
Frequency (F)
Monetary (M)
ลำดบ ความสมพนธในการซอสนคา
ความถ (%)1 Sports, Health 362 Toys, Clothing 333 Toys, Electronics 304 Books, Movies 24sales data
segmentationproduct association
(data)3 base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
Business Analytics Example• ขนตอนการทำงานในบทตอๆ ไปมดงน
• บทท 2 แนะนำการนำขอมลเขามาใชงานและการเตรยมขอมลตางๆ
• บทท 3 แนะนำการแบงกลมลกคา (segmentation) ออกตามพฤตกรรมการซอสนคา
• บทท 4 แนะนำการหาความสมพนธของการซอสนคาตางๆ (product association)
25
(data)3 base|warehouse|mininghttp://www.dataminingtrend.com
http://facebook.com/datacube.th
การเตรยมขอมล (preprocess)
บทท 2
(data)3 base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
Sales database• ซเปอรมารเกตแหงหนงมรานอยหลายสาขา (Store) แตการเกบขอมลจะ
เกบไวในฐานขอมลกลาง ซงมรายละเอยดดงในตารางดานลาง
• trans_id แสดงหมายเลขการซอสนคา (transaction)
• store_id แสดงหมายเลขของสาขา
• customer_id แสดงหมายเลขของลกคา
• product_id แสดงหมายเลขของสนคา
• product_cat แสดงประเภทของสนคา (category)
• date แสดงวนและเวลาทซอสนคา
• amount แสดงจำนวนสนคาชนดนนทซอ
• single_price แสดงราคาสนคา/หนวย
27
trans_id store_id customer_id product_id product_cat date amount single_price1 Store 01 Customer 1508 53642 Toys Sun Apr 01 08:09:06
20073.0 90.24
2 Store 15 Customer 169 90945 Movies Tue Feb 15 10:47:27 2005
2.0 60.583 Store 12 Customer 124 18548 Movies Thu Sep 27 05:38:56
20075.0 96.61
4 Store 01 Customer 1508 53642 Toys Sun Apr 01 08:09:06 2007
3.0 90.24
A B C D E F G H
A
B
C
D
E
F
G
H
Note: • ขอมลทใชในหนงสอเลมนเปนขอมลตวอยางทสรางขนมาจาก RapidMiner Studio 6 ดวธการสรางชดขอมลตวอยางนไดจาก Appendix A ครบ
(data)3 base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
Data• RapidMiner จะมชอเรยกขอมลทแสดงในรปแบบของตาราง ดงน
• แถว เรยกวา ตวอยาง (example)
• คอลมน เรยกวา แอตทรบวต (attribute) ซงม 2 หนาททใชงานบอย
• ไอด (ID) เปนแอตทรบวตทแสดงหมายเลขของขอมล หรอ primary key ในฐานขอมล
• แอตทรบวตทมหนาทเปนแอตทรบวตไอดจะแสดงดวยสฟา
• แอตทรบวตทวไป (attribute) เปนแอตทรบวตปกตทใชในการประมวลผลหรอคำนวณตางๆ
• แอตทรบวตทมหนาทเปนแอตทรบวตทวไปจะแสดงดวยสเทา
• ประเภทของขอมลทเกบในแตละแอตทรบวต
• Polynominal คอ ขอมลประเภท category (ขอมลทไมใชตวเลข) มคามากกวา 2 คาขนไป
• Integer/Real คอ ขอมลประเภทตวเลขจำนวนเตม หรอ จำนวนทมทศนยม
• Date time คอ ขอมลประเภทวนทและเวลา
28
attributeID
trans_id store_id customer_id product_id product_cat date amount single_price1 Store 01 Customer 1508 53642 Toys Sun Apr 01 08:09:06
20073.0 90.24
2 Store 15 Customer 169 90945 Movies Tue Feb 15 10:47:27 2005
2.0 60.583 Store 12 Customer 124 18548 Movies Thu Sep 27 05:38:56
20075.0 96.61
4 Store 01 Customer 1508 53642 Toys Sun Apr 01 08:09:06 2007
3.0 90.24
polynominal data time realinteger
(data)3 base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
• Repository
• เปนทเกบขอมลและโพรเซสเพอใชงานใน RapidMiner Studio 6 ทำใหไมตองโหลดขอมลจากไฟลใหมทกครง
• สวน Repository ประกอบดวย 2 สวน คอ
• เมนสำหรบการจดการ Repository
• สำหรบสราง Repository ใหม
• โหลดไฟลประเภทตางๆ เขาไปไวใน Repository
• สรางโฟลเดอรใหม
• Repository ทมอยใน RapidMiner Studio 6
• Samples เปนขอมลและโพรเซส ตวอยางท RapidMiner Studio 6 เตรยมไวให
• Local Repository เปน Repository ทเกบขอมลและโพรเซสในเครองคอมพวเตอร ของเราเอง (local)
• Cloud Repository เปน Repository ทเกบขอมลและโพรเซสบน Cloud
Data management
29
A
BA
B
(data)3 base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
• ในหนงสอเลมนเราจะสราง Repository ใหมเพอเกบขอมลและโพรเซส
• คลกทไอคอน
• เลอก New local repository
• กดปม Next
• เปลยนชอ Alias เปน GettingStartedWithRapidMiner
• คลกท Use standard location เพอไมเลอก option น
• คลกทไอคอน เพอเลอก Root directory (ซงเปนโฟลเดอรสำหรบเกบขอมล) ใหม
Create Repository
30
2
1
3
1
2
3
4
5
6
6
45
(data)3 base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
• สราง Repository ใหม (ตอ)
• คลกทไอคอน เพอสรางโฟลเดอรสำหรบ Repository ใหม ในตวอยางนเลอกท Desktop (แตทานผอานสามารถเลอกทไดรฟ C:\ หรอ D:\ กไดครบ)
• สรางโฟลเดอรชอ GettingStartedWithRapidMiner
• กดปม OK
• เลอกโฟลเดอรทสรางขน
• กดปม Open
Create Repository
31
7
7
8
9
10
11
8 10
11
9
(data)3 base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
Create Repository• สราง Repository ใหม (ตอ)
• กดปม Finish
• จะได Repository ใหมแสดงขนมา
32
12
13
12
13
ขยายสวน Repositories ใหเตมหนาจอ
(data)3 base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
Import Sale data• import ไฟล Excel เขาไปไวใน Repository
• ในสวน Repositories คลกทไอคอน เลอก Import Excel Sheet…
• เลอกไฟล sale_data.xlsx ทสรางขน (ดวธการสรางไฟลประเภท Excel ไดจาก Appendix A ครบ)
• ขนตอนท 2 ของการ Import ไฟล คอ การเลอก Worksheet ทตองการ import
• ในไฟลตวอยางมแค Worksheet เดยวจงมเพยงแทบเดยวใหเลอก
33
3
4
เลอกไฟล sales_data.xlsx
5
เลอก Worksheet น
1
2
(data)3 base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
Import Sale data• import ไฟล Excel เขาไปไวใน Repository (ตอ)
• ขนตอนท 3 กำหนดใหแถวแรกของไฟลเปนชอแอตทรบวต และคลก Next
• ขนตอนท 4 เปลยน Date format ใหเปนแบบ yyyy-MM-dd HH:mm:ss
• เปลยนแอตทรบวต transaction_id ใหมหนาท (role) เปน ID และ product_id ใหเปนประเภท Polynominal
34
7
6
กำหนดใหแถวแรกเปน
ชอแอตทรบวต
10
8
9
11
เปลยนรปแบบของวนท
และเวลา
เปลยนหนาทของ
แอตทรบวตใหเปน ID
เปลยนประเภทใหเปน Polynominal แทน Integer
(data)3 base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
• import ไฟล Excel เขาไปไวใน Repository (ตอ)
• ขนตอนท 5 ซงเปนขนตอนสดทายคอกำหนดวาจะเกบขอมลไวท Repository ทสรางขนมาใหม (GettingStartedWithRapidMiner) และตงชอไฟลเปน sales_data
• ขอมลท import เขามาใน RapidMiner Studio 6 จะแสดงเปนรปแบบ ของตาราง แตกสามารถเปลยนไปดในรปแบบอนๆ ได เชน กราฟ
Import Sale data
35
13
12
14
เลอกไฟล Repository ทสรางขนใหม
ตงชอขอมลเปน sales_data
แสดงรายละเอยดของขอมล
คลกทชอแอตทรบวตเพอ sort
(data)3 base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
• แสดงขอมลทโหลดเขามาไดหลายรปแบบ เชน
• แสดงขอมลในรปแบบตาราง (Data) และถกกำหนดเปนคาเรมตน (default)
• แสดงคาสรปทางสถต (Statistics) เชน คา Min, Max, Average, Deviation
• แสดงกราฟรปแบบตางๆ (Charts) เชน กราฟแทง กราฟวงกลม
• แสดงขอมลในรปแบบตาราง
• ExampleSet แสดงจำนวนขอมลทงหมดในไฟล
• Filter แสดงจำนวนขอมลจากการกรอง (filter) ทำได 5 แบบ
• all แสดงขอมลทงหมด (ทงทมคาวางและไมวาง)
• no_missing_attributes แสดงเฉพาะขอมลทไมมคาวางในแอตทรบวต
• missing_attributes แสดงเฉพาะขอมลทมคาวางในแอตทรบวต
• no_missing_labels แสดงเฉพาะขอมลทไมมคาวางในแอตทรบวตประเภทลาเบล
• missing_labels แสดงเฉพาะขอมลทมคาวางในแอตทรบวตประเภทลาเบล
• ตารางแสดงขอมลในแตละแอตทรบวต คลกทชอแอตทรบวตเพอทำการเรยงลำดบ
• กดปม Ctrl คางไว และคลกทชอแอตทรบวตจะเปนการเรยงลำดบมากกวา 1 แอตทรบวต (สำหรบระบบปฏบตการ OS X ใหกดปม command แทน)
Data exploration
36
A
B
C
A
B
C
(data)3 base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
Data exploration• คลกทเมน Statistics จะแสดงคาสรปทางสถต มคอลมนตางๆ ดงน
• Name แสดงชอแอตทรบวต
• Type แสดงประเภทของขอมลในแตละแอตทรบวต เชน Integer, Polynominal
• Miss. จำนวนขอมลทมคาวาง
• Statistics คาทางสถตตางๆ เชน Min, Max, Average, Deviation, Least, Most, Values
37
A
B
C
D
A B C D
• ขอมล sales_data ท import เขามาจะแสดงไวใน Repository
• สญลกษณ แสดงขอมล (data)
• ถาตองการเรยกดขอมลให double click ทชอของขอมล
• ถาตองการนำไปใชในโพรเซส ใหคลกทชอขอมลและลากไปวางไวใน main process
ขอมลท import เขามา
(data)3 base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
Data exploration• ขอมล sales ท import เขามามจำนวนการซอขายทงหมด 100,000 ตวอยาง
(examples)
• ระยะเวลาการซอขายตงแต วนท 1 กมภาพนธ 2005 (Feb 1, 2005) จนถงวนท 29 พฤศจกายน 2008 (Nov 29, 2008)
• มการซอจากรานคาทงหมด 15 สาขา (Store)
• มลกคา (customers) ทงหมด 2,000 คน
• มสนคาทงหมด 8 ประเภท คอ
• Books, Clothing, Electronics, Health, Home/Garden, Movies, Sports และ Toys
• ในบทนจะแนะนำการเตรยมขอมล (preprocessing) เพอใชในการแบงกลมลกคา (รายละเอยดอยในบทท 3) โดยมขนตอนดงน
• เลอกเฉพาะสาขาทสนใจ เชน สาขาท 1 (Store 01)
• คำนวณราคารวมสำหรบการซอสนคาแตละครง
• สรปคาตางๆ ไดแก
• จำนวนครงในการซอสนคาของลกคาแตละราย (Frequency)
• จำนวนเงนทใชจายรวมของลกคาแตละราย (Monetary)
• วนทซอสนคาลาสดของลกคาแตละราย
38
(data)3 base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
Preprocessing: Filter Examples• ในบทนจะแนะนำการเตรยมขอมล (preprocessing) เพอใชในการแบงกลม
ลกคา (รายละเอยดอยในบทท 3) โดยมขนตอนดงน
• เลอกเฉพาะสาขาทสนใจ เชน สาขาท 1 (Store 01)
• ใชโอเปอเรเตอร Filter Examples
• คำนวณราคารวมสำหรบการซอสนคาแตละครง
• สรปคาตางๆ ไดแก
• จำนวนครงในการซอสนคาของลกคาแตละราย (Frequency)
• จำนวนเงนทใชจายรวมของลกคาแตละราย (Monetary)
• วนทซอสนคาลาสดของลกคาแตละราย
• ดงขอมล (retrieve) จาก Repository มาใชงานในโพรเซส โดยลาก (drag) ขอมล sales_data มาไวในสวน Main Process
40
1
2
คลกท sales_data
ลากมาวางไวท Main Process
Note: • โอเปอเรเตอรทเลอกจะมเสนกรอบสสมลอมรอบโอเปอเรเตอรนนอย
(data)3 base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
Preprocessing: Filter Examples• เลอกโอเปอเรเตอร Filter Examples เพอเลอกเฉพาะขอมลของ
สาขาท 1 (Store 1)
• คนหาโอเปอเรเตอร Filter Examples ในสวน Operators หลงจากนนโอเปอ เรเตอรจะแสดงออกมา (สามารถพมพบางสวนของชอโอเปอเรเตอรได)
• ลากโอเปอเรเตอรไปวางไวใน Main Process
• ลากเสนเชอมจากพอรต out ของโอเปอเรเตอร Retrieve Sales_data ไปตอกบพอรต exa ของโอเปอเรเตอร Filter Examples เพอสงขอมลทดงมาจาก Repository ไปใชงานตอในโอเปอเรเตอร Filter Examples
41
3
4 คลกทโอเปอเรเตอร
ใสคำทตองการคนหา
5ลากมาวางไวท Main Process
6
ลากเสนเชอมระหวาง 2 โอเปอเรเตอร เพอสงขอมลไปใชงานตอ
Note: • พอรตทมชอวา exa จะเปนขอมลทอยในรปแบบของตาราง (table)
• เอาทพตพอรตของ Filter Examples จะม 3 พอรต คอ • exa แสดงขอมลทผานเงอนไขการ
filter แลว • ori แสดงขอมลทงหมด • unm แสดงขอมลทไมผานเงอนไข
• รายละเอยดของพอรตดไดจากสวน Help ในตวซอฟตแวร
(data)3 base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
Preprocessing: Filter Examples• คลกทโอเปอเรเตอร Filter Examples (ซงจะมกรอบสสมลอมรอบอย) และสวน
พารามเตอรจะแสดงพารามเตอรของโอเปอเรเตอร Filter Examples
• คลกทปม Add Filters... จะแสดงหนาตาง Create Filters ขนมา
• ใสเงอนไขเพอเลอกเฉพาะสาขาท 1 (Store 01)
• เลอกแอตทรบวต store_id
• เลอกเงอนไขเปน equals
• คลกทไอคอน และเลอก Store 01 ในสวนเงอนไข
42
7
คลกทปม Add Filters...
หนาตางสำหรบการใสเงอนไขจะแสดงขนมา
8 9
10คลกเพอใหแสดงคาตางๆ ในแอตทรบวต store_id
11
(data)3 base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
Preprocessing: Filter Examples• ลากเสนตอจากพอรต exa ของโอเปอเรเตอร Filter Examples ไป
ยงพอรต res (พอรตดานขวามอเพอแสดงขอมลในหนาตาง Results)
• คลกทปม (Run process) เพอใหโพรเซสทำงาน
• หลงจากทโพรเซสทำงานเสรจเรยบรอยจะเปลยนมายงหนาตาง Results
• แสดงขอมลการซอขายเฉพาะของสาขาท 1 (Store 01) ซงมจำนวน 6,636 ตวอยาง
43
12
13
ลากเสนเชอมระหวางโอเปอเรเตอรและพอรต res
คลกทปม Run เพอใหโพรเซสทำงาน
แสดงเฉพาะขอมลทเปน Store 01
(data)3 base|warehouse|mininghttp://www.dataminingtrend.com
http://facebook.com/datacube.th
การแบงกลมลกคา (Segmentation)
บทท 3
(data)3 base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
Segmentation• หลงจากบททผานมาเราไดทำการสรปคาการซอสนคาของลกคาแตละรายไดแลวซงถา
ลกคามจำนวนไมมากนกการดพฤตกรรมการซอสนคาของลกคาแตละรายกไมไดยาก แตถาในกรณทลกคามจำนวนมาก เชนประมาณ 10,000 หรอ 100,000 คน การดลกคารายบคคลคงจะทำไดยากหรออาจจะทำไมไดเลย
• ดงนนการจดกลมลกคาทมพฤตกรรมคลายๆ กนไวดวยกนจะชวยใหสามารถดภาพรวมของลกคาไดงายขน เชน กลมลกคาทมการซอสนคาของเราบอยๆ และมการใชจายเยอะ หรอ กลมลกคาทไมคอยมาซอสนคาของเราแตเมอมาซอแตละครงจะซอในจำนวนทมาก หลงจากทเราเลอกกลมทนาสนใจแลวเรากนำไปวเคราะหในดานอนๆ ไดตอไป เชน การหาวาลกคากลมทเลอกมามกจะซอสนคาอะไรดวยกนบอยๆ บาง (ซงรายละเอยดจะอยในบทท 4 การหาความสมพนธของการซอสนคา (product association)
• การจดกลมลกคามหลายวธครบ ในหนงสอเลมนผมจะขอแนะนำวธการหนงทนยมใชกน วธการนเรยกวาการจดกลมตามพฤตกรรมการซอสนคา โดยดจาก
• ระยะเวลา (จำนวนวน) จากการซอลาสดทผานมา (Recency)
• ความถของการซอสนคา (Frequency)
• การใชจายของลกคา (Monetary)
• วธการนนำเสนอโดย Fader ในป 2005 เราเรยกวธการนแบบยอๆ วา RFM ครบ ซงวธการนเราจะแบงคา Recency (R), Frequency (F) และ Monetary (M) ออกเปน 5 สวนเทาๆ กนโดยเลขทมคามากสด (คอเลข 5) จะมความสำคญทสด และใชคาตวเลข 3 หลกเปนตวแทนของแตละกลม เชน กลม 555 คอกลมทมคา R = 5, F = 5 และ M = 5 หมายความวาเปนลกคาทมกจะมาซอสนคาของเราบอยๆ และมการใชจายทสงนนเองครบ
67
(data)3 base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
RFM Segmentation: Data Exploration• กราฟแทง (Bars) ทแสดงจำนวนขอมลลกคาในแตละกลมตามคา RFM
83
10
11
คลกเพอดกราฟ
12
13
14
เปลยนใหแสดงกราฟใน
แนวนอน (horizontal)
(data)3 base|warehouse|mininghttp://www.dataminingtrend.com
http://facebook.com/datacube.th
การหาความสมพนธของขอมล (Product Association)
บทท 4
(data)3 base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
Product Association• กอนทจะไปดวาการหาความสมพนธคออะไร ผมจะขอยกตวอยางใหดสก 3 ตวอยางนะ
ครบ ตวอยางแรกกคอ
• ประโยคฮตของรานสะดวกซอแหงหนงทวา “รบขนมจบ ซาลาเปาทานเพมไหม
ครบ/คะ?” ซงผมคดวาผอานหลายทานคงจะคนหกนเปนอยางด ประโยคนไมได
เปนเพยงการพดขนมาลอยๆ แตมนมความหมายในเชงการตลาดซงมวตถประสงคเพอเพมยอดขายใหกบทางรานอกดวยครบ
• การซอสนคาในเวบไซตอเมซอน (amazon.com) ซงในขณะทเรากำลงเลอกหนงสอ
อยนน จะมหนงสออนทลกคามกจะซอไปพรอมกบเรองทเรากำลงสนใจอยแสดงในสวนของ Frequently Bought Together ปรากฎขนมาดวยครบ
• การจดวางสนคาในแคตตาลอก (catalog) หรอการจดวางสนคาตามชนตางๆ จะเลอกสนคาทมกจะมการซอรวมกนบอยมาวางไวใกลๆ กนเพอใหลกคาสะดดตาและเลอกซอสนคาไดงายขนครบ
• จากตวอยางทง 3 มวตถประสงคคลายกน คอ การเพมยอดขายใหกบรานคาโดยใชประวตการซอสนคาของลกคาในอดต ในทางการตลาดการเสนอสนคาทเกยวของใหกบลกคาจะเรยกวา “cross-selling” ซงการทำ cross-sell แบบนอาศยขอมลจากการคนหาความสมพนธในการซอสนคาตางๆ ทผานมา
• ในการคนหาความสมพนธในการซอสนคานจะมวธการทเรยกวา การหากฏความสมพนธ (Association Rules) ซงเปนเทคนคหนงทสำคญในการวเคราะหขอมลดวย ดาตา ไมนนง (Data Mining) ซงวธการคนหาอยางละเอยดไดอธบายไวในหนงสอ “An Introduction to Data Mining Techniques (Thai version)” ซงเขยนโดยผแตงเอง [1] แตในหนงสอเลมนจะขอสรปคำจำกดความ (technical term) ทเกยวของในการคนหากฏความสมพนธและใชงานในซอฟตแวร RapidMiner Studio 6
92
(data)3 base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
Product Association• ในการหาความสมพนธของการซอสนคานจะใชขอมลจากการซอทผานมาดงเชน ขอมลทได
จาก POS (Point of Sales) ซงมกจะเกบไวในตาราง Order Detail ซงประกอบไปดวยหลายๆ ฟลดดงตวอยางดานลาง ซงยกตวอยางฟลดทสำคญเพยง 3 ฟลด คอ
• TID แสดงหมายเลขการซอสนคา (transaction ID)
• Transaction time แสดงชวงวลาในการซอสนคา
• Product แสดงสนคาทซอ
• จากตาราง Order Detail จะเหนไดวาหนงเรคอรด (record) เปนการซอสนคาหนงชนด ดงนน ถาในหนงครงมการซอสนคามากกวาหนงชนดแลวจะมจำนวนเรคอรดมากกวาหนงเรคอรดแต
ใช TID เปนตวบงบอกวาเปนการซอสนคาในครงเดยวกน ซงขอมลทเกบอยในลกษณะนไม
เหมาะทจะนำไปหาความสมพนธของการซอขายตอ ดงนนจงตองทำการแปลงขอมลในตาราง Order Detail (ซายมอ) ใหเปนตาราง Transaction ทางขวามอเสยกอน
93
TID Transaction time Product
1 01-13-2014 20:04 Apple
1 01-13-2014 20:04 Cereal
1 01-13-2014 20:04 Diapers
2 01-14-2014 11:30 Beer
2 01-14-2014 11:30 Cereal
2 01-14-2014 11:30 Eggs
3 01-15-2014 14:30 Apple
3 01-15-2014 14:30 Beer
3 01-15-2014 14:30 Cereal
3 01-15-2014 14:30 Eggs
4 01-16-2014 14:15 Beer
4 01-16-2014 14:15 Eggs
TID Products
1 Apple, Cereal, Diapers2 Beer, Cereal, Eggs3 Apple, Beer, Cereal, Eggs4 Beer, Eggs
ตาราง Order Detail
ตาราง Transaction
(data)3 base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
Appendix B: Operators• สวนประกอบสำคญในการทำงานของซอฟตแวร RapidMiner Studio 6 คอโอเปอเรเตอร
(Operator) การทำงานตางๆ จะใชโอเปอเรเตอรมาเชอมกนเพอสรางเปน workflow หรอในซอฟตแวรนเรยกวาโพรเซส (process) ในภาคผนวกนจะเปนการสรปโอเปอเรเตอรตางๆ ทใชในหนงสอเลมนครบ แตกอนอนมาดองคประกอบของโอเปอเรเตอรกนกอนครบ
• โอเปอเรเตอรแตละตวจะประกอบดวย • ชอของโอเปอเรเตอร • อนพต พอรต (Input port) เปนสวนรบขอมลเขามา
ประมวลผล
• เอาทพต พอรต (Output port) เปนสวนสงผลลพธท ประมวลได โดยชออนพต พอรตและเอาทพต พอรตแสดงดวยตวอกษร 3 ตวแรกของชอพอรต เชน exa ยอมาจาก example set
• สญลกษณวงกลมแสดงสถานะการทำงานของ โอเปอเรเตอร
133
ab
c
d
a
b
c
d
โอเปอเรเตอร คำอธบาย
Retrieveใชสำหรบดงขอมลทเกบไวใน Repository มาใชงานในโพรเซส (Process)
Filter Example ใชสำหรบเลอก (filter) ขอมลทสนใจออกมาแสดงผล
Generate Attribute
ใชสำหรบสรางแอตทรบวตใหมขนมา
(data)3 base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
Appendix B: Operators• โอเปอเรเตอรทใชในบทนมดงตอไปน
134
โอเปอเรเตอร คำอธบาย
Aggregateใชสำหรบสรปคาตางๆ เชน คามากสด (Max) คานอยสด (Min) และคาเฉลย (Average)
Rename ใชสำหรบเปลยนชอแอตทรบวตตางๆ
Subprocessใชสำหรบรวบรวมโพรเซสทสรางไวมาไวภายใน โอเปอเรเตอร สำหรบตวอยางนจะนำโพรเซสทสรางไดจากบทท 2 นไวในโอเปอเรเตอร Subprocess น
Discretize by Frequency
ใชสำหรบแบงชวงขอมลใหแตละชวงมจำนวนทเทากน
Nominal to Numerical
ใชสำหรบแปลงขอมลทเปนนอมนอล (Nominal) ใหเปนขอมลตวเลข (Numeric)
Numerical to Nominal
ใชสำหรบแปลงขอมลทเปนขอมลตวเลข (Numeric) ใหเปนนอมนอล (Nominal) สำหรบในตวอยางนใชเพอแปลงคา RFM ใหกบไปเปนประเภทนอมนอล
Numerical to Binominal
ใชสำหรบแปลงขอมลทเปนตวเลขใหเปนคา true/false หรอทเรยกวา binominal
(data)3 base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
136
ปจจบนเราสรางขอมลขนอยางมากมายในแตละวน ตวอยางเชน การรบและสง email การตดตามขาวสารตางๆ บนเครอขายสงคมออนไลน (online social network) หรอ การซอสนคาตามรานคาตางๆ ผมรบกวนใหทานผอานลองจนตนาการดนะครบวาถาทานเปนเจาของรานอาหารทไดรบ
ความนยมเปนอยางมากแหงหนงซงในรานทมจำนวน 30 โตะ และถาในแตละวนมลกคาเขามาเตมรานจำนวน 20 รอบ รานของเราจะมขอมลการซอขายสนคาเปนจำนวน 600 transaction ตอวน และในหนงเดอนเราจะมขอมลจำนวนประมาณ 18,000 transaction ทถกเกบไวในฐานขอมลและหนงปจะมจำนวน 216,000 transaction และถาเปนขอมลของการซอขายในซเปอรมารเกตยงมจำนวนมากมายกวานอกหลายเทา ทวาขอมลทมมากมายเหลานจะไมกอใหเกดประโยชนเลยถาเราเพยงแคเกบไวอยางเดยว เพอใหขอมลเหลานมมลคาเพมมากขนเราจงจำเปนตองนำขอมลเหลาน
มาทำการวเคราะหเพอดในแงมมตางๆ
ในหนงสอเลมนจะแสดงวธการนำขอมลการซอขายมาวเคราะหใหเหนเปนตวอยางโดยเรมจาก
การเตรยมขอมลเพอใหการวเคราะหขอมลทำไดงายมากขน หลงจากนนจะเปนการนำขอมลการซอสนคาของลกคาแตละรายมาทำการแบงกลม (segmentation) ซงจะชวยใหสามารถเขาใจ
พฤตกรรมการซอสนคาของลกคาไดดขน เพราะการจะดรายละเอยดของลกคาแตละรายคงเปนไป
ไดยาก ใ นหนงสอเลมนเราจะใชวธการแบงกลมขอมลการซอดวยเทคนค RFM (ยอมาจาก Recency, Frequency และ Monetary) เพอจะไดเขาใจพฤตกรรมการซอสนคาของลกคาแตละ
กลมวามจำนวนครงในการซอสนคามากนอยแคไหน มการใชจายมากนอยแคไหน หลงจากทได
ทำการเลอกกลมทนาสนใจมาแลวจงนำไปหาความสมพนธของการซอสนคา (product associate) ตอเพอดวามสนคาประเภทใดทลกคามกจะซอพรอมกนบอยครงบาง เมอทราบรปแบบการซอสนคาในลกษณะนแลวอาจจะชวยในการจดวางสนคาหรอนำเสนอสนคาหรอโปรโมโชน ใ หกบลกคาให ตรงกบความตองการไดมากขน ซงในปจจบนนเราสามารถทำการวเคราะหขอมลในลกษณะนได
งายขนโดยใชซอฟตแวร RapidMiner Studio 6 ซงสามารถดาวนโหลดมาใชงานไดฟร
การวเคราะหขอมลทางธรกจเพอเพมยอดขายดวยซอฟตแวร RapidMiner Studio 6
โดย หสม. ดาตา ควบ http://www.dataminingtrend.com http://facebook.com/datacube.th