Mobile User and App Analytics in China

20
Mobile User and App Analytics in China TEAM APACHE HADOOP, IMC INSTITUTE 30 JULY 2016

Transcript of Mobile User and App Analytics in China

Page 1: Mobile User and App Analytics in China

Mobile User and App Analytics in ChinaTEAM APACHE HADOOP, IMC INSTITUTE

30 JULY 2016

Page 2: Mobile User and App Analytics in China

IMC Institute: Apache Hadoop Team Logo

Logo Credit: Agile Thailand 2016

Page 3: Mobile User and App Analytics in China

ความเปนมาของโจทย: แนะน า Kaggle

Page 4: Mobile User and App Analytics in China

TalkingData คอบรษทอะไร?

"TalkingData เปนแพลตฟอรมของบคคลทสามขอมลมอถอทใหญทสดของประเทศจน ทางบรษทเขาใจวาทางเลอกในชวตประจ าวนและพฤตกรรมของผใชมอถอผลกดนใหพวกเราสรางคณคาตางๆได ปจจบนบรษท TalkingData ก าลงมองหาประโยชนจากฐานขอมลพฤตกรรมผใชมอถอจากกวา 70% ของ 500 ล า น โทรศ พท ม อ ถ อท ใ ช ง าน ในชวตประจ าวนในประเทศจนเพอชวยใหลกคาของตนเขาใจและมปฏสมพนธกบผใชของพวกเขา”

Page 5: Mobile User and App Analytics in China

TalkingData: ขอมลขนาดใหญทเขามาในแตละวน

TalkingData Website: https://www.talkingdata.com/

Page 6: Mobile User and App Analytics in China

โจทยปญหา

• พฤตกรรมการใชแอพพลเคชนของผใชมอถอ• แอพพลเคชนประเภทใดไดรบความนยมมากทสด• ผใชมอถอนยมใชแอพพลเคชนในชวงใดของวนและวนใดบางในแตละอาทตย • จ านวนผใชมอถอแบงตามเพศและอายกลมใดมากทสดทปรากฎในชดขอมล

• แบรนดโทรศพทมอถอใดก าลงครองตลาดอยในประเทศจน• รนโทรศพทมอถอใดก าลงครองตลาดอยในประเทศจน• ความสมพนธระหวางจ านวนแอพพลเคชนในแตละประเภทของแอพพลเคชน• เราจะมวธอยางไรบางในการคาดเดากลมผใชมอถอตามการเขาใชงานแอพพลเคชน• เราจะมวธอยางไรบางในการคาดเดาอตราการใชงานของผใชมอถอ

Page 7: Mobile User and App Analytics in China

จดประสงคของโปรเจค

• เรยนรการใช AWS & Microsoft Azure เพอสราง Instances การท างานแบบ Single Node & Cluster (Lecture: อ.ธนชาต)

• ทราบถงความส าคญของ Big Data และวธการรบมอขอมลขนาดใหญ• การใช Hadoop เพอเกบขอมลเขา HDFS รวมไปถงการดงขอมลโดยใชภาษา

SQL ผานเครองมอ Hive Impala และ SparkSQL• เรยนรการใช Mass Analytics Tools เพอการวเคราะหขอมล แปลงจากขอมล

เปน Knowledge/Discovery (Lecture: อ.โกเมธ) • ทดลองการใช Machine Learning for Business แกปญหาเชงธรกจ • สราง Web-based and Interactive Visualization ดวยภาษา Javascript

เพอสวยงามและสะดวกตอผใชบรการ (Lecture: อ.ชนวทย)

Page 8: Mobile User and App Analytics in China

ค าอธบายชดขอมล TalkingData on “Kaggle”

ขอมล Gender_age ประกอบดวย 4 สดมภ 74,645 แถว มค าอธบายตวแปรดงน• Device_id คอ หมายเลข (นรนาม ส าหรบขอมลชดน)

ทเปนเฉพาะของผใชแอพพลเคชน • Gender คอ เพศของผใชแอพพลเคชน• Age คอ อายของผใชแอพพลเคชน • Group คอ การจดกลมอายของผใชของแอพพลเคชน

ซงทาง TalkingData จดไวใหแลว

Page 9: Mobile User and App Analytics in China

ค าอธบายชดขอมล TalkingData on “Kaggle” ขอมล Phone Brand Device Model ประกอบดวย 3 สดมภ 187,245 แถว มค าอธบายตวแปรดงน• Device_id คอ หมายเลข (นรนาม ส าหรบขอมลชดน) ทเปน

เฉพาะของผใชแอพพลเคชน สดมภนสามารถรวมกบ Gender_age ได

• Phone_brand คอ แบรนดของโทรศพทผใช (ในประเทศจนเทานน) เชน 三星 (Samsung) 美图 (meitu) และ 酷珀 (kupo) เปนตน

• Device_model คอ รนของโทรศพทผใช (ในประเทศจนเทานน) เชน 红米,Galaxy S4, 时尚手机 และ Galaxy Note 2เปนตน

Page 10: Mobile User and App Analytics in China

ค าอธบายชดขอมล TalkingData on “Kaggle” ขอมล Events ประกอบดวย 5 สดมภ 3,252,950 แถว มค าอธบายตวแปรดงน• Event_id คอ รหสการเกดของเหตการณการใชแอพพลเคชน • Device_id คอ หมายเลข (นรนาม ส าหรบขอมลชดน) ทเปน

เฉพาะของผใชแอพพลเคชน สดมภนสามารถรวมกบ Gender_age ได

• Timestamp คอ วนและเวลาของการเขาใชงานแอพพลเคชน• Longitude คอ ลองจจดท TalkingData เกบขอมลไวจากการ

ใชแอพพลเคชนของผใชงาน • Latitude คอ ละตจดท TalkingData เกบขอมลไวจากการใช

แอพพลเคชนของผใชงาน

Page 11: Mobile User and App Analytics in China

ค าอธบายชดขอมล TalkingData on “Kaggle”

ขอมล App Events ประกอบดวย 4 สดมภ 32,473,067 แถว มค าอธบายตวแปรดงน• Event_id คอ รหสการเกดของเหตการณการใชแอพพลเคชน

สดมภนสามารถรวมกบ Events ได• App_id คอ รหสเฉพาะของแอพพลเคชนนนๆ• Is_installed คอ แอพพลเคชนไดรบการตดตงหรอไม (1 คอ

ใช 0 คอไมใช)• Is_active คอ แอพพลเคชนยงคง active อยหรอไมจากการ

เกบขอมลของ TalkingData ณ เวลานน (1 คอใช 0 คอไมใช)

Page 12: Mobile User and App Analytics in China

ค าอธบายชดขอมล TalkingData on “Kaggle” ขอมล App Labels ประกอบดวย 2 สดมภ 459,943 แถว มค าอธบายตวแปรดงน• App_id คอ รหสเฉพาะของแอพพลเคชนนนๆ สดมภนสามารถรวมกบ

App Events ได• Label_id คอ รหสลาเบลเพอระบประเภทของแอพพลเคชน

ขอมล Label_category ประกอบดวย 2 สดมภ 930 แถว มค าอธบายตวแปรดงน• Label_id คอ รหสลาเบลเพอระบประเภทของแอพพลเคชน สดมภน

สามารถรวมกบ App Labels ได• Category คอ หมวดหมของแอพพลเคชน เชน game-Game themes,

game-Art Style, Internet Banking และ Romance เปนตน

Page 13: Mobile User and App Analytics in China
Page 14: Mobile User and App Analytics in China
Page 15: Mobile User and App Analytics in China
Page 16: Mobile User and App Analytics in China

Vs.

Page 17: Mobile User and App Analytics in China

การน าเสนอการวเคราะหขอมล•

Page 18: Mobile User and App Analytics in China

• เขาใจกระบวนการเกบขอมลของบรษทโทรคมนาคมมากขน อาจเปนประโยชนตอบรษทในประเทศไทยหากตองการวเคราะหลกคาในรปแบบทคลายกนกบโจทยน

• เขาใจพฤตกรรมของผใชงานแอพพลเคชนวา ตองการแอพพลเคชนประเภทใด ใชชวงเวลาใดของวนและชวงอาทตย จากการวเคราะหพบวา คนเขาใชมอถอในเวลา 11:00 am. และ 11:00 pm. มากทสดและคนเขาใชวนองคารมากทสด จากกราฟเสนของเวลาการใชตามอาทตย ขอมลดงกลาวเปนประโยชนตอนกพฒนาแอพพลเคชนและนกการตลาดทวโลกในการตอบสนอง Demand ของผใช

• แบรนดโทรศพทยอดนยม 3 อนดบแรกไดแก 小米, 三星, และ 华为 และโมเดลโทรศพท 3 อนดบแรกไดแก 红米note, MI 3, และ MI 2S• จากการวเคราะหแผนทของผใชงานแอพพลเคชนท าใหสามารถ Traceback สถานทการใชงานของผใชแอพพลเคชนในแตละกลมตามเพศและอาย

รวมไปถงแบรนดโทรศพทและรนโทรศพทมอถอ• การทดสอบโมเดล Classification พบวาปจจยทส าคญไดแกจ านวนการลงแอพพลเคชน จ านวนการใชแอพพลเคชน จ านวนเหตการณการเขาใช แบ

รนดโทรศพทมอถอ และโมเดลโทรศพทมอถอ • การทดสอบโมเดล Regression พบวาปจจยส าคญไดแก อาย เพศ จ านวนเหตการณการเขาใช แบรนดโทรศพทมอถอ และโมเดลโทรศพทมอถอ

Page 19: Mobile User and App Analytics in China
Page 20: Mobile User and App Analytics in China

Thank you! Time for Q & A!