My First Data Science Project (using Rapid Miner)

42
Introduction to Text Mining (data) 3 base|warehouse|mining http://www.dataminingtrend.com http://facebook.com/datacube.th Eakasit Pacharawongsakda, Ph.D. Co-founder of Data Cube & Certified RapidMiner Analyst facebook.com/datacube.th

Transcript of My First Data Science Project (using Rapid Miner)

Page 1: My First Data Science Project (using Rapid Miner)

Introduction to Text Mining

(data)3 base|warehouse|mininghttp://www.dataminingtrend.com

http://facebook.com/datacube.th

Eakasit Pacharawongsakda, Ph.D.

Co-founder of Data Cube & Certified RapidMiner Analyst

facebook.com/datacube.th

Page 2: My First Data Science Project (using Rapid Miner)

(data)3 base|warehouse|mining

http://dataminingtrend.com http://facebook.com/datacube.th

Install text mining plugin to RM6• ตดตง text mining plugin ลงใน RapidMiner Studio 6

• เลอกเมน Help > Marketplace (Updates and Extensions)…

2

1

Page 3: My First Data Science Project (using Rapid Miner)

(data)3 base|warehouse|mining

http://dataminingtrend.com http://facebook.com/datacube.th

Install text mining plugin to RM6• คนหา plugin ทชอวา text processing

3

2

4

3

5

Page 4: My First Data Science Project (using Rapid Miner)

(data)3 base|warehouse|mining

http://dataminingtrend.com http://facebook.com/datacube.th

Install text mining plugin to RM6• เลอก I accept terms of all license agreements.

4

6

Page 5: My First Data Science Project (using Rapid Miner)

(data)3 base|warehouse|mining

http://dataminingtrend.com http://facebook.com/datacube.th

Install text mining plugin to RM6• RapidMiner Studio 6 จะทำการดาวนโหลด plugin และตดตงให

5

Page 6: My First Data Science Project (using Rapid Miner)

(data)3 base|warehouse|mining

http://dataminingtrend.com http://facebook.com/datacube.th

Install text mining plugin to RM6• หลงจากตดตงเสรจแลวจะใหทำการ restart RapidMiner Studio 6

6

7

สญลกษณของ text mining plugin

Page 7: My First Data Science Project (using Rapid Miner)

(data)3 base|warehouse|mining

http://dataminingtrend.com http://facebook.com/datacube.th

Search Twitter • ดงขอมลจาก Twitter โดยใชโอเปอเรเตอร Search Twitter

7

1

3

2

4

Page 8: My First Data Science Project (using Rapid Miner)

(data)3 base|warehouse|mining

http://dataminingtrend.com http://facebook.com/datacube.th

Search Twitter • สราง Connection ใหมสำหรบดงขอมลจาก Twitter

8

5

6

Page 9: My First Data Science Project (using Rapid Miner)

(data)3 base|warehouse|mining

http://dataminingtrend.com http://facebook.com/datacube.th

Search Twitter • Connection ใหมจะถกสรางขนมาดานซายมอ

• สราง access token ใหม

9

7

Page 10: My First Data Science Project (using Rapid Miner)

(data)3 base|warehouse|mining

http://dataminingtrend.com http://facebook.com/datacube.th

Search Twitter • คลกทปม Request access token

10

8

Page 11: My First Data Science Project (using Rapid Miner)

(data)3 base|warehouse|mining

http://dataminingtrend.com http://facebook.com/datacube.th

Search Twitter • คลกทปม Authorize app

11

9

Page 12: My First Data Science Project (using Rapid Miner)

(data)3 base|warehouse|mining

http://dataminingtrend.com http://facebook.com/datacube.th

Search Twitter • copy หมายเลข PIN ทแสดงอยและนำไปใสใน RapidMiner Studio 6

12

10

Page 13: My First Data Science Project (using Rapid Miner)

(data)3 base|warehouse|mining

http://dataminingtrend.com http://facebook.com/datacube.th

Search Twitter • paste ตวเลข PIN ลงในชอง Copy Code

13

11

12

Page 14: My First Data Science Project (using Rapid Miner)

(data)3 base|warehouse|mining

http://dataminingtrend.com http://facebook.com/datacube.th

Search Twitter • คลกทปม Save all changes

14

13

Page 15: My First Data Science Project (using Rapid Miner)

(data)3 base|warehouse|mining

http://dataminingtrend.com http://facebook.com/datacube.th

Search Twitter • ใส keyword ทตองการคนหา เชน ซเกมส ในพารามเตอร query

15

14

Page 16: My First Data Science Project (using Rapid Miner)

(data)3 base|warehouse|mining

http://dataminingtrend.com http://facebook.com/datacube.th

Search Twitter • ผลการคนหาใน Twitter

16

Page 17: My First Data Science Project (using Rapid Miner)

(data)3 base|warehouse|mining

http://dataminingtrend.com http://facebook.com/datacube.th

Example: Amazon coffee?• ตวอยางขอมลจาก Data Science Thailand meetup #1

• ขอมลจาก Twitter แบงเปน 2 ประเภท (class)

• Tweet ทเกยวของกบรานกาแฟ Amazon

• Tweet อนๆ ทไมไดหมายถงรานกาแฟ Amazon อาจจะเปนเวบไซต amazon.com

17

Page 18: My First Data Science Project (using Rapid Miner)

(data)3 base|warehouse|mining

http://dataminingtrend.com http://facebook.com/datacube.th

Text Mining Example• ภาพรวมของ Process ทสรางขน

18

Page 19: My First Data Science Project (using Rapid Miner)

(data)3 base|warehouse|mining

http://dataminingtrend.com http://facebook.com/datacube.th

Example: Amazon coffee?• โอเปอเรเตอรทเกยวของ

19

โอเปอเรเตอร คำอธบาย

Read CSVใชสำหรบอานไฟลประเภท CSV มาใชงาน ในตวอยาง Process นอานไฟล training data มาใชงาน

Read Excelใชสำหรบอานไฟลประเภท Excel มาใชงาน ในตวอยาง Process นอานไฟล testing data มาใชงาน

Naive Bayesใชสำหรบสรางโมเดล Naive Bayes เพอ classify ขอมลออกเปน Amazon หรอ Other

Apply Modelใชสำหรบนำโมเดล (classification model) ไปทำนาย (predict) ขอมลใหม

Page 20: My First Data Science Project (using Rapid Miner)

(data)3 base|warehouse|mining

http://dataminingtrend.com http://facebook.com/datacube.th

Example: Amazon coffee?• โอเปอเรเตอรทเกยวของ

20

โอเปอเรเตอร คำอธบาย

Performance ใชสำหรบวดประสทธภาพของโมเดลทสรางขนมา

Validation ใชสำหรบแบงขอมลและทำการทดสอบแบบ cross-validation

Process Documents from Data

ใชสำหรบสำหรบจดการขอความ (text) ทอานไดจากไฟล

Tokenize ใชสำหรบตดคำออกเปนคำศพทตางๆ

Page 21: My First Data Science Project (using Rapid Miner)

(data)3 base|warehouse|mining

http://dataminingtrend.com http://facebook.com/datacube.th

Example: Amazon coffee?• โอเปอเรเตอรทเกยวของ

21

โอเปอเรเตอร คำอธบาย

Filter Tokens by Length

ใชสำหรบกรองคำศพท (token) ทมคานอยกวาหรอมากกวาทกำหนด

Stem (Porter)ใชสำหรบแปลงคำศพทใหอยในรปของรากศพทภาษาองกฤษ (root)

Filter Stopwords(English)

ใชสำหรบตดคำเชอมหรอคำทไมจำเปนทง

Page 22: My First Data Science Project (using Rapid Miner)

(data)3 base|warehouse|mining

http://dataminingtrend.com http://facebook.com/datacube.th

Example: Amazon coffee?• โหลดขอมล twitter.csv ดวยโอเปอเรเตอร Read CSV

22

1

1

2

3

Page 23: My First Data Science Project (using Rapid Miner)

(data)3 base|warehouse|mining

http://dataminingtrend.com http://facebook.com/datacube.th

Example: Amazon coffee?• เลอกไฟล twitter.csv

23

4

5

Page 24: My First Data Science Project (using Rapid Miner)

(data)3 base|warehouse|mining

http://dataminingtrend.com http://facebook.com/datacube.th

Example: Amazon coffee?• เปลยน File Encoding เปน UTF-8 และเลอก Comma “,”

24

6

7

8

Page 25: My First Data Science Project (using Rapid Miner)

(data)3 base|warehouse|mining

http://dataminingtrend.com http://facebook.com/datacube.th

Example: Amazon coffee?• คลกท Next ไดเลยครบ

25

9

Page 26: My First Data Science Project (using Rapid Miner)

(data)3 base|warehouse|mining

http://dataminingtrend.com http://facebook.com/datacube.th

Example: Amazon coffee?• เปลยนแอตทรบวต Class ใหเปน label และ Tweet เปน text

26

1011

12

Page 27: My First Data Science Project (using Rapid Miner)

(data)3 base|warehouse|mining

http://dataminingtrend.com http://facebook.com/datacube.th

Example: Amazon coffee?• เพมโอเปอเรเตอร Process Document from Data เพอทำ preprocess ขอมล text

• เลอก vector creation เปนแบบ TF-IDF

• เลอก prune method เปน percentual เพอ prune คำระหวาง 3% - 30%

27

13

14

15

Page 28: My First Data Science Project (using Rapid Miner)

(data)3 base|warehouse|mining

http://dataminingtrend.com http://facebook.com/datacube.th

Example: Amazon coffee?• double click ทโอเปอเรเตอร Process Document from Data

• เพมโอเปอเรเตอร Tokenize เพอตดคำ และตอ port doc เขากบ Tokenize

28

16

Page 29: My First Data Science Project (using Rapid Miner)

(data)3 base|warehouse|mining

http://dataminingtrend.com http://facebook.com/datacube.th

Example: Amazon coffee?• เพมโอเปอเรเตอร Stem (Porter) เพอทำ stemming (แปลงขอมล

ใหเปน root)

• ตอ port จาก Tokenize ไปยง Stem (Porter)

29

16 17

Page 30: My First Data Science Project (using Rapid Miner)

(data)3 base|warehouse|mining

http://dataminingtrend.com http://facebook.com/datacube.th

Example: Amazon coffee?• เพมโอเปอเรเตอร Filter Tokens (by Length) เพอลบคำทสนหรอ

ยาวเกนไป

• ตอ port จาก Stem (Porter) ไปยง Filter Tokens (by Length)

30

18

Page 31: My First Data Science Project (using Rapid Miner)

(data)3 base|warehouse|mining

http://dataminingtrend.com http://facebook.com/datacube.th

Example: Amazon coffee?• เพมโอเปอเรเตอร Filter Stopwords เพอลบคำทเปน stopword ทง

• ตอ port จาก Filter Tokens (by Length) ไปยง Filter Stopwords

31

19

Page 32: My First Data Science Project (using Rapid Miner)

(data)3 base|warehouse|mining

http://dataminingtrend.com http://facebook.com/datacube.th

Example: Amazon coffee?• ผลการทำงานจะตดคำตางๆ ออกมาได พรอมทงความถของคำตางๆ

32

Page 33: My First Data Science Project (using Rapid Miner)

(data)3 base|warehouse|mining

http://dataminingtrend.com http://facebook.com/datacube.th

Example: Amazon coffee?• ผลการทำงานแสดงขอมลในรปแบบตาราง โดยมคำตางๆ เปน

แอตทรบวต

33

Page 34: My First Data Science Project (using Rapid Miner)

(data)3 base|warehouse|mining

http://dataminingtrend.com http://facebook.com/datacube.th

Example: Amazon coffee?• คลกขวาในสวน Main Process และเลอกเมน Insert Building Block

และเลอกเมน Nominal X-Validation

• ตอพอรต mod และ ave ของโอเปอเรเตอร X-Validation ไปยง res

34

20

21

22

Page 35: My First Data Science Project (using Rapid Miner)

(data)3 base|warehouse|mining

http://dataminingtrend.com http://facebook.com/datacube.th

Example: Amazon coffee?• double click ทโอเปอเรเตอร X-Validation

• เปลยนโอเปอเรเตอรจาก Decision Tree เปน Naive Bayes แทน

35

23

Page 36: My First Data Science Project (using Rapid Miner)

(data)3 base|warehouse|mining

http://dataminingtrend.com http://facebook.com/datacube.th

Example: Amazon coffee?• กดปม Run เพอดผลการทดสอบประสทธภาพของโมเดล

36

Page 37: My First Data Science Project (using Rapid Miner)

(data)3 base|warehouse|mining

http://dataminingtrend.com http://facebook.com/datacube.th

Example: Amazon coffee?• โมเดล NaiveBayes ทสรางได

37

Page 38: My First Data Science Project (using Rapid Miner)

(data)3 base|warehouse|mining

http://dataminingtrend.com http://facebook.com/datacube.th

Example: Amazon coffee?• หลงจากสรางโมเดลและวดประสทธภาพไดเรยบรอยแลว ขนตอนถดมาจะเปนการนำโมเดล

ไปใชงาน

• ใชโอเปอเรเตอร Read Excel เพออานไฟลทดสอบทอยในรปแบบ Excel

38

24

Page 39: My First Data Science Project (using Rapid Miner)

(data)3 base|warehouse|mining

http://dataminingtrend.com http://facebook.com/datacube.th

Example: Amazon coffee?• เปลยนแอตทรบวต prediction (Label) ใหเปน label และ Tweet เปน text

39

2526

27

Page 40: My First Data Science Project (using Rapid Miner)

(data)3 base|warehouse|mining

http://dataminingtrend.com http://facebook.com/datacube.th

Example: Amazon coffee?• copy โอเปอเรเตอร Process Documents from Data มาตอกบ Read Excel

และตอพอรต wor มาตอกบโอเปอเรเตอร Process Documents from Data

4028

29

Page 41: My First Data Science Project (using Rapid Miner)

(data)3 base|warehouse|mining

http://dataminingtrend.com http://facebook.com/datacube.th

Example: Amazon coffee?• เพมโอเปอเรเตอร Apply Model เพอนำโมเดลไป predict ขอมลใหม

41

30

Page 42: My First Data Science Project (using Rapid Miner)

(data)3 base|warehouse|mining

http://dataminingtrend.com http://facebook.com/datacube.th

Example: Amazon coffee?• กดปม Run เพอดผลการ predict

42

ผลการ predict