DATAmining (1)

98
DATA MINING คคคคคคคคคคค Data Mining มมมมมมมมมมมมมมมมมมมมมมมมมมมมมมมมม Data Mining มมม มมมมมมมมมมมมมมมมมมมมมมม มมมมมม Data Mining มมมมมมมมมมมมมมมมมมมม มมมมมมมมมมมมมมมม (Information) มมมมมมม มมมมมมมมมมมมมมมมมมม มมมมมมมมมมมมมมมมมมมมม มมมมมมมม มมมมมมมมมมมมมมมมมมมม มมมมมมมมมมม มมมมมมมมมมมมมมมมมมมมมมมมมมมมมมมมมมมมมม มม มมมมมมมมม คคคคคคคคคคคคค Data Mining คคค มม 1960 Data Collection มมม มมมมมม มมมมมมมมมมมมมมมมมมมมมมมมมมมมมมมมมมมมมมมมมม มมมมมมมม มมมมมมมมมมมมมมมมมมม มมมมมมมมมมมมมม มม 1980 Data Access มมม มมมมมมมมมมมมมมม มมมมมมมมมมมมมมมมมมมมมมมมมมมมมมมมมมมมมมมม มมมมมมมมมมมมมมมมมมมมมมมมมมมมมมมม มมมมมมมมมมมมมมมมมมมมม มมมมมม มม 1990 Data Warehouse & Decision Support มมม มมมมมมมมมมมมมมมมมมมมมมมมมมมม มมมมมมมมมมมมมมมมมมมมมมมมมมมมมม มมมมมมมมมมมมมมมมมมมมม มมมมม มมมมมมมมมมมมมมมมมมมมมมม

Transcript of DATAmining (1)

Page 1: DATAmining (1)

DATA  MINING 

ความหมายของ  Data  Mining

     มี�หลายนิ�ยามีที่�ให�คำ�าจำ�ากั�ดคำวามีของ  Data  Mining   ไว� โดยสามีารถสร�ปหล�กัส�าคำ�ญได�ว!า  

     Data   Mining  เป#นิกัระบวนิกัารของกัารกัล�นิกัรองสารสนิเที่ศ  (Information)   ที่�ซ่!อนิอย(!ในิฐานิข�อมี(ลใหญ!  เพื่+อที่�านิายแนิวโนิ�มีและพื่ฤติ�กัรรมี  โดยอาศ�ยข�อมี(ลในิอด�ติ และเพื่+อใช้�สารสนิเที่ศเหล!านิ�0ในิกัารสนิ�บสนิ�นิกัารติ�ดส�นิ ใจำที่างธุ�รกั�จำ 

ว�ว ฒนาการของ Data  Mining  ค�อ

ป2 1960  Data  Collection   คำ+อ กัารนิ�าข�อมี(ลมีาจำ�ดเกั3บอย!างเหมีาะสมีในิอ�ปกัรณ์5ที่�นิ!าเช้+อถ+อ และป6องกั�นิกัารส(ญหาย

                   ได�เป#นิอย!างด�

ป2 1980  Data  Access  คำ+อ กัารนิ�าข�อมี(ลที่�จำ�ดเกั3บมีาสร�างคำวามีส�มีพื่�นิธุ5ติ!อกั�นิในิข�อมี(ลเพื่+อประโยช้นิ5ในิกัารนิ�าไปว�เคำราะห5   

                  และกัารติ�ดส�นิใจำอย!างมี�คำ�ณ์ภาพื่

ป2 1990  Data Warehouse & Decision Support   คำ+อ กัารรวบรวมีข�อมี(ลมีาจำ�ดเกั3บลงไปในิฐานิข�อมี(ลขนิาดใหญ!โดยคำรอบคำล�มี

      ที่�กัแง!ที่�กัมี�มีขององคำ5กัร เพื่+อช้!วยสนิ�บสนิ�นิกัารติ�ดส�นิใจำ

ป2 2000  Data Mining   คำ+อ กัารนิ�าข�อมี(ลจำากัฐานิข�อมี(ลมีาว�เคำราะห5และประมีวลผล โดยกัารสร�างแบบจำ�าลอง และคำวามีส�มีพื่�นิธุ5

      ที่างสถ�ติ�

Page 2: DATAmining (1)

      จำากัคำ�าจำ�ากั�ดคำวามี Data Mining  อาจำหมีายถ9งกัารที่�ผ(�ใช้�ด9งและส�งเคำราะห5และติรวจำสอบข�อมี(ลอย!างละเอ�ยด โดยกัารส�งเคำราะห5ด�งกัล!าวอาจำจำะเป#นิกัารเร�ยนิร( �ข�อมี(ลในิอด�ติหร+อข�อมี(ลในิป:จำจำ�บ�นิ ผลล�พื่ธุ5ที่�ได�ออกัมีาติ�องมี�ล�กัษณ์ะของ ข�อมี(ลที่�เป#นิข�อมี(ลแบบ Unknown , ข�อมี(ลแบบ Valid , และข�อมี(ลแบบ Actionable มีาจำากัฐานิข�อมี(ลขนิาดใหญ!ซ่9ง อาจำจำะมีาจำากัรายกัาร Transaction ,

ฐานิข�อมี(ลของฝ่=ายขาย , E-Mail เพื่+อนิ�าข�อมี(ลด�งกัล!าวไปใช้�เป#นิพื่+0นิฐานิในิกัาร ประกัอบกัารติ�ดส�นิใจำ ในิเช้�งธุ�รกั�จำ ที่�าให�เข�าใจำแนิวโนิ�มีและร(ปแบบของติลาด

      ข�อมี(ลแบบ Unknown ข�อมี(ลที่�ถ(กัใช้�จำะติ�องเป#นิข�อมี(ลผ(�ใช้�งานิไมี!ร( �มีากั!อนิและไมี!ช้�ดเจำนิไมี!สามีารถติ�0งสมีมีติ�ฐานิ ล!วงหนิ�าว!าคำวรจำะเป#นิแบบใด ติ�วอย!างเช้!นิ เจำ�าของห�างสรรพื่ส�นิคำ�าแห!งหนิ9งเพื่�งจำะคำ�นิพื่บว!าพื่ฤติ�กัรรมีของผ(�บร�โภคำใหมี! ที่�เป#นิพื่!อบ�านิมี�กัจำะซ่+0อส�นิคำ�าเบ�ยร5และผ�าอ�อมีในิว�นิศ�กัร5ติอนิเย3นิ ด�งนิ�0นิเป#นิส�ญญาณ์ให�เจำ�าของกั�จำกัารคำวรจำะเติร�ยมีส�นิคำ�า ไว�เพื่+อจำ�าหนิ!าย ซ่9งในิขณ์ะเด�ยวกั�นิห�างสรรพื่ส�นิคำ�าคำ(!แข!งอาจำจำะไมี!ร( �เร+องนิ�0กั3ได� แติ!ลองส�งเกัติด(อ�กัหนิ9งติ�วอย!างว!า เจำ�าของร�านิ ขายรถยนิติ5พื่บว!ารถขนิาดใหญ!ราคำาแพื่งมี�กัจำะถ(กัซ่+0อโดยคำนิที่�ส(งอาย� ซ่9งเจำ�าของไมี!ร( �มีากั!อนิ แติ!ข�อมี(ลด�งกัล!าวไมี!เป#นิล�กัษณ์ะ Unknown เพื่ราะสมีมีติ�ฐานิด�งกัล!าวมี�อย(! เพื่ราะคำนิที่�มี�อาย�มี�กัจำะมี�ฐานิะที่�ด�ข90นิเมี+อเที่�ยบคำนิในิว�ยที่�อาย�นิ�อยกัว!า

      ข�อมี(ลแบบ Valid เมี+อผ(�ใช้�ได�เร�มีใช้�เที่คำนิ�คำ Data Mining จำะคำ�นิพื่บส�งที่�นิ!าสนิใจำติลอดเวลา แติ!ว!าติ�องพื่�จำารณ์า ด�วยว!าส�งนิ�0นิ Valid หร+อไมี! เช้!นิ ผ(�ใช้�มี�กัจำะพื่บว!ามี�คำวามีส�มีพื่�นิธุ5ของกัารซ่+0อของ 2

ส�งเสมีอ เมี+อจำ�านิวนิคำวามีหลากัหลาย ส�นิคำ�ามีากัข90นิ แติ!ไมี!ได�หมีายคำวามีว!าจำะติ�องให�ห�างสรรพื่ส�นิคำ�าเกั3บส�นิคำ�ามีากัข90นิ เพื่ราะข�อมี(ลที่�ได�อาจำเกั�ดคำวามีคำลาดเคำล+อนิ เพื่ราะฉะนิ�0นิจำะติ�องที่�ากัาร Validation และ Checking คำวามีถ(กัติ�องของข�อมี(ลและว�เคำราะห5คำวามีถ(กัติ�องอ�กัคำร�0ง

Page 3: DATAmining (1)

      ข�อมี(ลแบบ Actionable ข�อมี(ลจำะติ�องถ(กัแปลงออกัมีาและนิ�ามีาติ�ดส�นิใจำให�เป#นิคำวามีได�เปร�ยบเช้�งธุ�รกั�จำ บางคำร�0ง ข�อมี(ลที่�เราคำ�นิพื่บเป#นิส�งที่�คำ(!แข!งได�ที่�าไปเส�ยแล�วหร+อผ�ดกัฎหมีาย ซ่9งจำะติ�องมี�ว�จำารณ์ญาณ์ในิกัารใช้�ด�วย บางที่�ข�อมี(ลด�งกัล!าว อาจำจำะไมี!มี�ประโยช้นิ5อะไร

      คำ�าว!า Data Mining นิ�0นิมี�คำวามีหมีายแติกัติ!างกั�นิในิ 2 แง!มี�มี คำ+อ ในิมี�มีมีองที่างว�ช้ากัารและในิมี�มีมีองเช้�งธุ�รกั�จำ  ในิมี�มีมีองเช้�งว�ช้ากัารนิ�0นิ นิ�กัว�จำ�ยจำะอ�างถ9งกัระบวนิกัารที่�0งหมีดในิกัารที่�า Data

Mining ว!า “Knowledge discovery in database

(KDD)” และใช้�คำ�าว!า “Data Mining” แที่นิข�0นิติอนิข�0นิหนิ9งของกัระบวนิกัาร ที่�เกั�ยวข�องกั�บกัารคำ�นิหาร(ปแบบ คำวามีส�มีพื่�นิธุ5ของข�อมี(ลเที่!านิ�0นิ อย!างไรกั3ติามี ในิแง!มี�มีเช้�งธุ�รกั�จำแล�ว จำะใช้�คำ�าว!า “Data

Mining” แที่นิคำวามีหมีายของ ข�0นิติอนิที่�0งหมีด เด�มีงานิคำ�นิคำว�าที่างด�านิ Data Mining นิ�0นิมี�กัารที่�ากัารคำ�นิคำว�ากั�นิอย(!แล�วในิหลาย ๆ สาขาว�ช้า แติ!มี�ช้+อเร�ยกั แติกัติ!างกั�นิไปติามีแติ!ละด�านิ นิ�กัว�จำ�ยในิด�านิสถ�ติ� (statistics) , ฐานิข�อมี(ล (database) , neural networks , pattern recognition , machine learning , econometrics และอ�กัหลาย ๆ ด�านิ ติ!างกั3มี�กัารคำ�นิคำว�าเกั�ยวกั�บป:ญหาในิล�กัษณ์ะเด�ยวกั�นินิ�0 แติ!ย�งไมี!คำ!อย มี�กัารใช้�ประโยช้นิ5ของกัารคำ�นิคำว�าของอ�กัฝ่=ายหนิ9ง คำ+อ ติ!างฝ่=ายติ!างที่�ากัารคำ�นิคำว�าของตินิเอง ไมี!คำ!อยมี�กัารแลกัเปล�ยนิคำวามีร( �กั�นิ ที่�าให�กัารคำ�นิคำว�าและกัารเผยแพื่ร!ผลงานิด�าเนิ�นิไปอย!างไมี!รวดเร3วเที่!าที่�คำวร ติ!อมีาจำ9งมี�กัารใช้� “Data

Mining” เป#นิช้+อรวมี ของว�ธุ�กัารแกั�ป:ญหาในิล�กัษณ์ะนิ�0 ซ่9งที่�าให�กัารเผยแพื่ร!คำวามีร( �ในิกัารแกั�ป:ญหาล�กัษณ์ะนิ�0ที่�าได�รวดเร3วและสามีารถอ�างอ�งได� สะดวกัข90นิ

    หลั กการทั่ �วไปของ Knowledge Discovery in Database (KDD) and  Data Mining

Page 4: DATAmining (1)

      KDD หมีายถ9งกัระบวนิกัารในิกัารคำ�นิหาล�กัษณ์ะแฝ่งของข�อมี(ลที่�อย(!ในิกัล�!มีข�อมี(ลจำ�านิวนิมีากั ซ่9งมี�ข� 0นิติอนิกัารที่�า Data Mining

เป#นิกัระบวนิกัารที่�ส�าคำ�ญในิกัารคำ�นิหาล�กัษณ์ะที่�นิ!าสนิใจำของข�อมี(ลเหล!านิ�0 เช้!นิ ร(ปแบบ คำวามีส�มีพื่�นิธุ5 กัารเปล�ยนิแปลง โคำรงสร�างที่�เด!นิช้�ด หร+อ ล�กัษณ์ะที่�ผ�ดปกัติ�ของข�อมี(ลจำากัข�อมี(ลจำ�านิวนิมีากัๆ ที่�เกั3บอย(!ในิฐานิข�อมี(ล หร+อแหล!งที่�เกั3บข�อมี(ลอ+นิๆ ซ่9งว�ธุ�กัารติ!างๆ ที่�นิ�ามีาใช้�ในิกัารที่�า mining นิ�0กั3มี�ว�ติถ�ประสงคำ5ติ!างๆกั�นิข90นิอย(!กั�บผลล�พื่ธุ5ของ กัระบวนิกัารโดยรวมีที่�ติ�องกัาร ด�งนิ�0นิจำ9งคำวรมี�กัารนิ�าเสนิอว�ธุ�กัารที่�หลากัหลายส�าหร�บเป6าหมีายที่�แติกัติ!างกั�นิ เพื่+อให�ได�ผลล�พื่ธุ5 ที่�เหมีาะสมีติามีที่�ติ�องกัาร หล�งจำากันิ�าไปใช้�งานิแล�ว และเนิ+องจำากัคำวามีแพื่ร!หลายของกัารจำ�ดเกั3บข�อมี(ลในิล�กัษณ์ะที่�เป#นิ ร(ปแบบที่างอ�เล3กัที่รอนิ�กัส5 และคำวามีติ�องกัารในิกัารเปล�ยนิข�อมี(ลเหล!านิ�0นิให�เป#นิข�อมี(ลที่�มี�ประโยช้นิ5ติ!อกัารนิ�าไปประย�กัติ5 ใช้�ในิงานิด�านิติ!างๆ เช้!นิ กัารว�เคำราะห5ด�านิกัารติลาด กัารบร�หารธุ�รกั�จำ รวมีถ9งระบบที่�ช้!วยสนิ�บสนิ�นิกัารติ�ดส�นิใจำ เป#นิติ�นิ ด�งนิ�0นิจำ9งที่�าให�กัารนิ�า data  mining มีาใช้�ได�ร�บคำวามีสนิใจำมีากัในิช้!วง 2-3 ป2ที่�ผ!านิมีา

      จำากัที่�ได�กัล!าวแล�วว!า Data Mining เป#นิข�0นิติอนิหนิ9งที่�ส�าคำ�ญในิกัระบวนิกัารคำ�นิหาล�กัษณ์ะแฝ่งของข�อมี(ล ที่�มี�ประโยช้นิ5ในิฐานิข�อมี(ล (Knowledge Discovery in Database : KDD) ซ่9งโดยที่�วไปกัระบวนิกัารของ KDD นิ�0นิประกัอบด�วยข�0นิติอนิติ!างๆ   ด�งนิ�0

      1. กัารคำ�ดเล+อกัข�อมี(ล (Data Selection) เป#นิกัารระบ�ถ9งแหล!งข�อมี(ลที่�จำะนิ�ามีาใช้�ในิกัารที่�า mining รวมีถ9ง กัารนิ�าข�อมี(ลที่�ติ�องกัารออกัมีาจำากัฐานิข�อมี(ลเพื่+อที่�ากัารพื่�จำารณ์าในิเบ+0องติ�นิติ!อไป

      2. กัารกัรองข�อมี(ล (Data Cleaning) เป#นิกัระบวนิกัารที่�ที่�าให�เกั�ดคำวามีมี�นิใจำในิคำ�ณ์ภาพื่ของข�อมี(ลที่�จำะนิ�ามีาใช้� ว�เคำราะห5 ว!าถ(กัติ�อง  โดยกัารนิ�าข�อมี(ลที่��ไมี!ถ(กัติ�องออกั

Page 5: DATAmining (1)

3. กัารแปลงร(ปแบบข�อมี(ล (Data Transformation) 

เป#นิกัารแปลงข�อมี(ลที่�เล+อกัมีาให�อย(!ในิร(ปแบบที่�เหมีาะสมี

ส�าหร�บกัารนิ�าไปใช้�ว�เคำราะห5ติามีอ�ลกัอร�ที่9มี (Algorithm) และแบบจำ�าลองที่�ใช้�ในิกัารที่�า data mining ติ!อไป

      4.    กัารที่�า Mining ข�อมี(ล (Data Mining)   กัารใช้�เที่คำนิ�คำภายในิ Data  Mining เพื่+อที่�ากัาร  Mine ข�อมี(ล  โดยที่�วไป ประเภที่ของงานิติามีล�กัษณ์ะของแบบจำ�าลองที่�ใช้�ในิกัารที่�า Data 

Mining นิ�0นิสามีารถแบ!งกัล�!มีได�เป#นิ 2 ประเภที่ใหญ!ๆ คำ+อ

           4.1  Predictive Data Mining  คำ+อ เป#นิกัารคำาดคำะเนิล�กัษณ์ะหร+อประมีาณ์คำ!าที่�ช้�ดเจำนิของข�อมี(ลที่�จำะเกั�ดข90นิ โดยใช้�พื่+0นิฐานิจำากัข�อมี(ลที่�ผ!านิมีาในิอด�ติ

           4.2  Descriptive Data Mining คำ+อ เป#นิกัารหาแบบจำ�าลองเพื่+ออธุ�บายล�กัษณ์ะบางอย!างของข�อมี(ลที่�มี�อย(! ซ่9งโดยส!วนิมีากัจำะเป#นิล�กัษณ์ะกัารแบ!งกัล�!มีให�กั�บข�อมี(ล

      5. กัารว�เคำราะห5และประเมี�นิผลล�พื่ธุ5ที่�ได� (Result Analysis

and Evaluation) เป#นิข�0นิติอนิกัารแปลคำวามีหมีาย และกัารประเมี�นิผลล�พื่ธุ5ที่�ได�ว!ามี�คำวามีเหมีาะสมีหร+อติรงกั�บว�ติถ�ประสงคำ5ที่�ติ�องกัารหร+อไมี! โดยที่�วไปคำวรมี�กัารแสดงผลในิร(ป แบบ ที่�สามีารถเข�าใจำได�โดยง!าย    

ร�ป แสดงข�0นิติอนิติ!างๆ ของกัระบวนิกัาร KDD     

Page 6: DATAmining (1)

  

ข �นตอนการทั่�างานของ Data Mining

      1. Problem  formulation

      กัารกั�าหนิดว�ติถ�ประสงคำ5ที่างธุ�รกั�จำ คำ+อจำะติ�องเข�าใจำป:ญหาและคำวามีติ�องกัารที่างธุ�รกั�จำ กัารกั�าหนิดว�ติถ�ประสงคำ5ที่าง ธุ�รกั�จำนิ�0นิจำะเป#นิส!วนิที่�กั�าหนิดว!าเมี+อไหร!ที่�จำะใช้� Data Mining ในิกัารแกั�ป:ญหาซ่9งในิส!วนินิ�0จำะประกัอบด�วยกัารว�เคำราะห5 ที่างธุ�รกั�จำ และกัารว�เคำราะห5เบ+0องติ�นิว!าเรามี�ข�อมี(ลใดอย(!บ�าง และติ�องกัารอะไรจำากัข�อมี(ลซ่9งข�0นิติอนินิ�0จำะสามีารถมีองถ9ง อ�ลกัอร�ที่9มี   และฐานิข�อมี(ลที่�ส�มีพื่�นิธุ5กั�บว�ติถ�ประสงคำ5ที่างธุ�รกั�จำได�

      กัารใช้�งานิ Data Mining ให�ได�ประโยช้นิ5ส(งส�ดจำ�าเป#นิติ�องมี�กัารกั�าหนิดว�ติถ�ประสงคำ5ที่�ช้�ดเจำนิ เช้!นิ ติ�องกัาร เพื่�มียอดกัารติอบร�บกัารขายที่างจำดหมีาย ข90นิอย(!กั�บกัารระบ�เป6าหมีายว!า จำะเพื่�มีอ�ติรากัารติอบร�บหร+อเพื่�มีมี(ลคำ!ากัารติอบร�บซ่9ง จำ�าเป#นิที่�จำะติ�องสร�าง Model ที่�แติกัติ!างกั�นิ ว�ติถ�ประสงคำ5ที่�กั�าหนิดข90นิมีาจำะติ�องมี�กัารระบ�ว�ธุ�กัารในิกัารว�ดผลล�พื่ธุ5ที่�ได�จำากั โคำรงกัาร รวมีถ9งติ�นิที่�นิที่�สมีเหติ�สมีผลด�วย

      2. Data  selection and  preparation

      การเตร�ยมข�อม�ลั (Data Preparation)

เป#นิห�วใจำของข�0นิติอนิในิกัารที่�าที่�0งหมีด เป#นิช้!วงที่�ใช้�เวลามีากัที่�ส�ดในิข�0นิติอนิ โดยปกัติ�แล�วติ�องกัารเวลาประมีาณ์

60%  ของเวลาที่�0งหมีดในิกัารเติร�ยมีข�อมี(ล ในิข�0นิติอนินิ�0อาจำสามีารถแบ!ง ออกัได�เป#นิข�0นิติอนิย!อยด�งติ!อไปนิ�0

      การเลั�อกข�อม�ลั (Data Selection)

Page 7: DATAmining (1)

      จำ�ดประสงคำ5 คำ+อกัารระบ�แหล!งของข�อมี(ลที่�มี� และที่�ากัารด9งเอาข�อมี(ลออกัมีาใช้�ส�าหร�บกัารว�เคำราะห5เบ+0องติ�นิในิกัาร เติร�ยมีติ�วส�าหร�บกัารที่�จำะที่�ากัาร Mining ในิข�0นิติ!อ ๆ ไป กัารเล+อกัข�อมี(ลนิ�0นิจำะแติกัติ!างไปติามีว�ติถ�ประสงคำ5ของแติ!ละธุ�รกั�จำ ที่�ได�กั�าหนิดไว�ติ�0งแติ!ติ�นิ และกัารเล+อกัข�อมี(ลกั3ย�งถ(กักั�าหนิดโดยล�กัษณ์ะงานิที่�จำะถ(กันิ�ามีาใช้�อ�กัด�วย

      ติ�วแปรที่�ถ(กัเล+อกัมีาแติ!ละติ�วนิ�0นิจำะติ�องถ(กัที่�าคำวามีเข�าใจำว!าติ�วแปรแติ!ละติ�วหมีายคำวามีว!าอะไร ประกัอบด�วยอะไร ไมี!เพื่�ยงแติ!คำ�าจำ�ากั�ดคำวามีที่างธุ�รกั�จำเที่!านิ�0นิ แติ!จำะติ�องมี�คำ�าอธุ�บายอย!างช้�ดเจำนิเกั�ยวกั�บช้นิ�ดของข�อมี(ล, คำ!าที่�เป#นิไปได�, แหล!งกั�าเนิ�ดของข�อมี(ล,  ร(ปแบบของข�อมี(ล และล�กัษณ์ะอ+นิ ๆ จำะมี�ติ�วแปร 2  ช้นิ�ดคำ+อ

o ติ�วแปรแบบ Categorical

1.   Nominal Variable กัล!าวถ9งช้นิ�ดนิ�0ของ Object ที่�มี�นิอ�างถ9งแติ!ไมี!มี�ล�าด�บ ในิคำ!าที่�เป#นิไปได� (Possible Value) ติ�วอย!างเช้!นิ สถานิะกัารแติ!งงานิ (โสด, แติ!งงานิ, หย!า, ไมี!ที่ราบ), เพื่ศ (ช้าย, หญ�ง), ระด�บกัารศ9กัษา (ปร�ญญาโที่,

ปร�ญญาติร�, มี. ปลาย, ปวช้)

2. Ordinal Variable มี�ล�าด�บส�าหร�บคำ!าที่�เป#นิไปได� ติ�วอย!างเช้!นิ ล�าด�บของ ล(กัคำ�า (ด�, ปานิกัลาง, ไมี!ด�)

o ติ�วแปรแบบ Quantitative ซ่9งมี�กัารว�ดคำวามีแติกัติ!างระหว!างคำ!าที่�เป#นิไปได�

1. Continuous (คำ!าที่�ติ!อเนิ+อง) เช้!นิรายได�, เฉล�จำ�านิวนิคำร�0งที่�ซ่+0อ, รายได�

Page 8: DATAmining (1)

2. Discrete (คำ!าเป#นิจำ�านิวนิเติ3มี) เช้!นิจำ�านิวนิพื่นิ�กังานิ, เวลาป2 (เด+อนิ, ฤด(, ไติรมีาส)

      ติ�วแปรของข�อมี(ลมี�หลายติ�วมีากัแติ!ติ�วแปรที่�ถ(กัเล+อกัส�าหร�บที่�า Data Mining นิ�0นิถ(กัเร�ยกัว!า “Active Variable”  เพื่ราะว!ามี�นิจำะถ(กัใช้�สร�างคำวามีแติกัติ!างของกัล�!มีย!อยติ!างๆ และสามีารถถ(กันิ�ามีาที่�านิายผลได� เมี+อคำ�ณ์ที่�ากัารเล+อกัข�อมี(ลจำะติ�อง พื่�จำารณ์าอาย�ของข�อมี(ลด�วย เพื่ราะว!าสถานิกัารณ์5ภายนิอกัเปล�ยนิแปลงติลอดเวลาซ่9งจำะที่�าให�ประส�ที่ธุ�ภาพื่ของกัารที่�า Mining ลดลง ติ�วอย!าง รสนิ�ยมีกัารใช้�ช้�ว�ติ กัารเปล�ยนิงานิ

      การกลั �นกรองข�อม�ลั (Data Preprocessing)

   จำ�ดประสงคำ5กั3เพื่+อที่�าให�มี� นิใจำว!าคำ�ณ์ภาพื่ของข�อมี(ลที่�ถ(กัเล+อกันิ�0นิเหมีาะสมี  ข�อมี(ลที่�สมีบ(รณ์5เป#นิเคำร+องประกั�นิ

ว!ากัารที่�า Data Mining จำะส�าเร3จำ ในิข�0นิติอนินิ�0เป#นิข�0นิติอนิที่�มี�ป:ญหามีากักัว!า ในิข�0นิติอนิของกัารเติร�ยมีข�อมี(ล เพื่ราะข�อมี(ลส!วนิใหญ!ที่�มี�ในิองคำ5กัร  ไมี!ได�ถ(กัเติร�ยมีมีาเพื่+องานิ Data Mining โดยเฉพื่าะ ข�อมี(ลจำะถ(กันิ�ามีาจำากัแหล!งติ!าง ๆ ถ(กัจำ�ดเกั3บไมี!ด� ข�อมี(ลที่�ถ(กันิ�ามีาจำากั ภายนิอกั แล�วนิ�ามีาเพื่+อให�เข�ากั�บข�อมี(ลภายในิที่�มี�อย(! ป:ญหาหล�กัของ Data คำ+อ คำ�ณ์ภาพื่และ Data  Integrity

   ในิข�0นิติอนินิ�0กั!อนิอ+นิจำะติ�องที่�ากัารที่บที่วนิโคำรงสร�างของข�อมี(ลใหมี! และว�ดคำ�ณ์ภาพื่ของมี�นิ โดยว�ธุ�ที่างสถ�ติ�

หร+อส�!มีติ�วอย!าง

   เคำร+องมี+อที่�ใช้�ในิกัารที่�ากัารกัล�นิกัรองข�อมี(ลมี�ด�งติ!อไปนิ�0

คำ!าติ�วแปรเป#นิแบบ Categorical กัารแบ!งคำวามีถ�ของคำ!าจำะเป#นิว�ธุ�ที่�ที่�าให�เกั�ดคำวามีเข�าใจำในิ

Page 9: DATAmining (1)

Data Content  เคำร+องมี+อที่างด�านิกัราฟฟBคำจำะเป#นิติ�วช้!วยให�เห3นิและกั�าหนิดคำ!าที่�หายไปได�

ติ�วแปรแบบ Quantitative ติ�วแปรประเภที่นิ�0มี�กัมี�กัารใช้�กัารว�ด ติ�วอย!างเช้!นิ คำ!าส(งส�ด คำ!าติ�าส�ด คำ!าเฉล�ย คำ!ากัลาง คำ!ามี�ธุยฐานิ และคำ!าอ+นิ ๆ ที่างสถ�ติ� เมี+อนิ�าคำ!าพื่วกันิ�0มีาเข�าส(ติรคำ�านิวณ์กั3จำะบอกัถ9งคำ!าที่� ไมี!สมีบ(รณ์5 หร+อคำ!าที่�มี�ป:ญหา

   เคำร+องมี+อที่างกัราฟฟBคำอ+นิ ๆ เช้!นิ Scatterplots คำ+อร(ป 2

มี�ติ�ซ่9งแสดงคำวามีส�มีพื่�นิธุ5ระหว!างติ�วแปร 2 ติ�วแปรข90นิไป

หร+อมีากักัว!า จำากักัราฟติ�วอย!างจำะเห3นิได�ว!ามี�กัารเปร�ยบเที่�ยบรายได� กั�บอาย� จำะเห3นิได�ว!าจำ�ดจำะอย(!ส(งข90นิติามีระด�บของอาย� ที่�าให�เราพื่อที่�จำะที่�านิายได�ว!ารายได�ของ อาช้�พื่นิ�0จำะส(งข90นิเมี+ออาย�ส(งข90นิ ส!วนิ Boxplot ถ(กัใช้�ให�เป#นิประโยช้นิ5ส�าหร�บเปร�ยบเที่�ยบศ(นิย5 กัลาง (คำ!าเฉล�ย) หร+อกัระจำาย (คำ!าเบ�ยงเบนิ) ของติ�วแปรติ�0งแติ! 2 ติ�วแปรข90นิไป จำากักัราฟติ�ว อย!างติารางแสดง Data Element ของข�อมี(ล อธุ�บายถ9งรายได�ของผ(�ช้ายและผ(�หญ�ง ร(ปส�เหล�ยมีคำ+อเร�ยกัว!า Box

และเส�นิ ติ�0ง 2 เส�นิเร�ยกัว!า Whisker จำากัคำวามีส(งของ Box พื่อจำะสร�ปได�ว!ารายได�ของผ(�ช้ายส(งกัว!าผ(�หญ�ง

      ระหว างการทั่�าข �นตอนการกลั �นกรองข�อม�ลัจะม�ป"ญหาบ่ อย ๆ ทั่��ม กพบ่ได้� ได้�แก

      Noisy Data คำ+อติ�วแปรติ�วหนิ9งหร+อมีากักัว!ามี�คำ!าซ่9งเกั�นิกัว!าคำ!าที่�เราคำาดไว� ซ่9งอาจำจำะหมีายถ9งแง!ด�หร+อแง!ร�ายกั3ได� ในิแง!ด�กั3คำ+อ มี�นิจำะแสดงอย!างช้�ดเจำนิถ9งโอกัาสซ่9งเรากั�าล�งมีองหาอย(! ในิแง!ร�าย คำ+อมี�นิอาจำจำะเป#นิข�อมี(ลที่�ไมี!สมีบ(รณ์5 สาเหติ� ที่�เกั�ดข90นิได�อาจำจำะมีาจำากัคำวามีเล�นิเล!อของมีนิ�ษย5 ติ�วอย!างเช้!นิ Operator ใส!อาย�ให�คำนิเป#นิ 300 ป2 หร+อใส!คำ!าของรายได� เป#นิติ�ดลบ   คำ!าเหล!า นิ�0คำวรจำะถ(กัแกั�ไข

Page 10: DATAmining (1)

หร+อเอาออกัจำากักัารว�เคำราะห5 คำวรมี�ข� 0นิติอนิกัารเช้3คำข�อมี(ลกั!อนินิ�ามีาใช้�

      ค าทั่��หายไป Missing Value คำ+อคำ!าที่�ไมี!ได�แสดงในิข�อมี(ลที่�เราได�เล+อกัแล�ว หร+อคำ!าที่�ไมี!สมีบ(รณ์5ที่�เราลบออกัไป ระหว!างกัารที่�า Noise Detection คำ!าอาจำจำะหายไปเพื่ราะเกั�ดจำากัคำวามีเล�นิเล!อของมีนิ�ษย5 เพื่ราะว!าไมี!มี�ข�อมี(ลนิ�0นิระหว!างกัารที่�า Input ข�อมี(ล กัารจำ�ดกัารกั�บคำ!าที่�หายไป นิ�0นิสามีารถจำ�ดกัารได�ด�วยเที่คำนิ�คำที่�ติ!าง ๆ กั�นิ  

      การสำ�ารวจแลัะตรวจสำอบ่ข�อม�ลั ( Data Cleaning and exploration )

      เมี+อที่�ากัารเกั3บข�อมี(ลเร�ยบร�อยแล�ว ข�0นิติอนิติ!อไปที่�คำวรกัระที่�ากั3 คำ+อกัารติรวจำสอบข�อมี(ล เหติ�ที่�ติ�องที่�ากัารติรวจำสอบ ข�อมี(ลมี� 2 ข�อ ข�อแรกั นิ�กัว�เคำราะห5คำวรมี�คำวามีคำ��นิเคำยกั�บติ�วข�อมี(ล ไมี!ใช้!ร( �แติ!ช้+อของ attribute และคำวามีหมีายของมี�นิเที่!านิ�0นิ แติ!ติ�องร( �ถ9งเนิ+0อหา (content) หร+อคำวามีมี�!งหมีายที่�แที่�จำร�งของข�อมี(ลด�วย ข�อสอง อาจำมี�คำวามีผ�ดพื่ลาดของกัารเกั3บสะสมีข�อมี(ล เกั�ดข90นิในิขณ์ะที่�ที่�ากัารรวบรวมีข�อมี(ลจำากัฐานิข�อมี(ลหลาย ๆ แหล!งเข�ามีาเป#นิหนิ9งเด�ยวเพื่+อใช้�ในิกัารว�เคำราะห5 ซ่9งนิ�กัว�เคำราะห5 ที่�ด�จำะติ�องที่�ากัารติรวจำสอบข�อมี(ลเหล!านิ�0ให�ถ(กัติ�อง ติ�วอย!างของคำวามีผ�ดพื่ลาดที่�เกั�ดข90นิ ได�แกั! คำวามีผ�ดพื่ลาดในิกัารเกั3บข�อมี(ล จำากั attribute ที่�ไมี!ติ�องกัาร ซ่9งเกั�ดจำากัคำวามีส�บสนิในิกัารติ�0งช้+อ attribute นิ�0นิ (mislabeling of field)

เช้!นิ เราติ�องกัารเกั3บคำ!าของระด�บกัารศ9กัษาของผ(�สมี�คำรเข�าศ9กัษาติ!อ ซ่9งในิคำวามีเป#นิจำร�งถ(กัเกั3บไว�ในิ attribute ที่�ช้+อ “LEVEL_EDU”

แติ!ในิฐานิข�อมี(ลนิ�0นิบ�งเอ�ญมี� attribute อ�กัติ�วหนิ9งช้+อ “EDUCATION” ซ่9งเกั3บระด�บกัารศ9กัษาที่�ผ(�สมี�คำรติ�องกัารเข�าศ9กัษา ซ่9งถ�าเราไมี!ได�ติรวจำสอบคำวามีส�มีพื่�นิธุ5และคำวามีมี�!งหมีายที่�แที่�จำร�งของแติ!ละ attribute แล�ว กั3อาจำเกั�ดกัารส�บสนิ โดยเกั3บข�อมี(ลของ

Page 11: DATAmining (1)

attribute “EDUCATION” ไปแที่นิกั3ได� ซ่9งเมี+อนิ�าข�อมี(ลที่�ได�ไปที่�า Data Mining ผลล�พื่ธุ5ที่�ได� กั3จำะผ�ดพื่ลาดด�วย

      การแปลังข�อม�ลั (Data Transformation)

      ระหว!างข�0นิติอนิของกัารแปลงข�อมี(ล ข�อมี(ลที่�ได�กัล�นิกัรองแล�วจำะถ(กัแปลงให�เป#นิร(ปแบบของข�อมี(ลที่�พื่ร�อมีจำะถ(กั ว�เคำราะห5 ร(ปแบบของข�อมี(ลที่�พื่ร�อมีจำะถ(กัว�เคำราะห5 คำ+อร(ปแบบของข�อมี(ลที่�ไมี!มี�คำวามีข�ดแย�ง ถ(กัจำ�ดระเบ�ยบมีาอย!างเร�ยบร�อย กัล�นิกัรองมีาจำากัแหล!งข�อมี(ลภายนิอกั และภายในิ

      ข�0นิติอนินิ�0เป#นิข�0นิติอนิที่�ส�าคำ�ญมีากัเนิ+องจำากัคำวามีถ(กัติ�อง และสมีบ(รณ์5ของผลล�พื่ธุ5ส�ดที่�ายซ่9งข90นิอย(!กั�บว!า นิ�กัว�เคำราะห5 ข�อมี(ลนิ�0นิติ�ดส�นิใจำกั�าหนิดโคำรงสร�างและเสนิอล�กัษณ์ะของ Input อย!างไร ติ�วอย!างเช้!นิ หล�กักัารร(ปแบบของข�อมี(ลถ(กักั�าหนิด แล�ว  ข�อมี(ลที่�ถ(กักัล�นิกัรองจำะเหมีาะสมีกั�บร(ปแบบเฉพื่าะส�าหร�บแติ!ละ กัรรมีว�ธุ�ของ Data Mining ที่�จำะถ(กัใช้� กัารแปลงข�อมี(ลย�ง รวมีไปถ9งกัารที่�า Data Recording และ Data Format Conversion เช้!นิกัารแปลงว�นิที่� เป#นิติ�นิ

      ที่างสถ�ติ�กัารที่�ากัารแปลงข�อมี(ลย�งมี�เที่คำนิ�คำของ Data

Reduction จำ�ดประสงคำ5เพื่+อที่�จำะลดติ�วแปรส�าหร�บกัารที่�ากัาร Process โดยกัารนิ�าเอาติ�วแปรติ�0งแติ! 2 ติ�วข90นิไปมีารวมีกั�นิแล�ว ที่�ากัาร Process ข�อด�กั3คำ+อลดจำ�านิวนิของติ�วแปรลง และย�ง สามีารถจำ�ดกัารได�ง!ายข90นิ

      อ�กัเที่คำนิ�คำเร�ยกัว!า Discretization โดยกัารแปลงติ�วแปรแบบ Quantitative ให�เป#นิแบบ Categorical โดยกัารแบ!ง คำ!าของติ�วแปรที่�จำะเป#นิ Input ให�เป#นิช้!วง ๆ เช้!นิกัารแปลงเง�นิเด+อนิ อาย�

Page 12: DATAmining (1)

อ�กัเที่คำนิ�คำเร�ยกัว!า One of N โดยกัารแปลงติ�วแปรแบบ Categorical ให�เป#นิ Numeric ติ�วอย!างเช้!นิ ช้นิ�ดของรถ Ford,

Lincoln, Nissan ให�เป#นิ 100, 010, 001 ปกัติ�แบบนิ�0มี�กัจำะเป#นิ Input ของพื่วกั Neural Network

      การปร บ่แต งข�อม�ลั ( Data Engineering )

      ข�0นิติอนิกั!อนิหนิ�านิ�0เป#นิข�0นิติอนิของกัารสร�าง และกัารติรวจำสอบคำวามีถ(กัติ�องของข�อมี(ลที่�จำะนิ�ามีาใช้� แติ!ในิข�0นิติอนิ นิ�0ที่�เราติ�องที่�า คำ+อกัารปร�บแติ!งฐานิข�อมี(ล ซ่9งในิข�0นิติอนินิ�0จำะมี�ป:ญหาหล�กั ๆ อย(! 3 ข�อคำ+อ หนิ9งฐานิข�อมี(ลที่�ได�อาจำมี� attributes จำ�านิวนิมีากัที่�สามีารถใช้�ประโยช้นิ5ได�แติ!ถ(กัละเลย กัารเล+อกักัล�!มีของ attributes ที่�จำะใช้�เป#นิป:ญหาที่�ส�าคำ�ญป:ญหาหนิ9ง สอง ฐานิข�อมี(ลที่�ได�อาจำมี�จำ�านิวนิระเบ�ยนิ (record ) มีากัเกั�นิไปกัว!าที่�จำะสามีารถที่�ากัารว�เคำราะห5ให�เสร3จำลงได�ในิเวลาที่�เหมีาะสมี ซ่9งในิกัรณ์�นิ�0เราติ�องที่�ากัารส�!มีข�อมี(ลติ�วอย!างข90นิมีาใช้�แที่นิ สามี ข�อมี(ลบางอย!างอาจำใช้�ให�เกั�ดประโยช้นิ5ได� โดยกัารนิ�าเสนิอ ในิร(ปแบบของกัารว�เคำราะห5แบบเฉพื่าะเจำาะจำง กัารที่�า Data

engineering นิ�0นิจำะมี�กัารที่�าซ่�0าข90นิมีาหลาย ๆ คำร�0ง เพื่+อที่ดสอบ กัารใช้� attribute ที่�แติกัติ!าง , ขนิาดของกัล�!มีติ�วอย!างที่�ติ!างกั�นิ เช้!นิ เราจำะที่�านิายอนิาคำติเมี+อเวลาผ!านิไป 1 , 2 , 3 , หร+อ 4 เด+อนิ เราอาจำที่�านิายได�โดยใช้�เพื่�ยง attribute เป#นิติ�วที่�านิายหร+ออาจำใช้�ข�อมี(ลที่�กัอย!างที่�เรามี�เป#นิติ�วที่�านิายกั3ได� เป#นิติ�นิ

      3. Visualization

เป#นิกัารนิ�าเสนิอข�อมี(ลในิร(ปแบบกัราฟฟBคำ กัารนิ�าเสนิอจำะสามีารถที่�าได�มีากักัว!า 2 มี�ติ� ซ่9งจำะสร�างคำวามีละเอ�ยด

ของกัารนิ�าเสนิอ และสร�างคำวามีเข�าใจำให�มีากัข90นิ

      4. Analysis

Page 13: DATAmining (1)

      หล�งจำากัเล+อกั algorithm ที่�เหมีาะสมีกั�บล�กัษณ์ะของป:ญหาแล�ว เรากั3จำะนิ�า algorithm นิ�0นิมีาที่�ากัารว�เคำราะห5 ข�อมี(ลในิฐานิข�อมี(ลที่�เติร�ยมีไว� ซ่9งในิบางคำร�0งข�0นิติอนินิ�0จำะถ(กัเร�ยกัว!า “Data

Mining” ในิขณ์ะที่�จำะเร�ยกักัระบวนิกัารที่�0งหมีดว!า “knowledge

discovery in databases” ผลล�พื่ธุ5ที่�ได�จำากัข�0นิติอนินิ�0จำะเป#นิร(ปแบบของคำวามีส�มีพื่�นิธุ5ของ ข�อมี(ลที่�จำะนิ�ามีาใช้� ในิกัารพื่ยากัรณ์5 ( prediction ) หร+อว�เคำราะห5ติ!อไป

      นิ�าข�อมี(ลที่�จำ�ดเติร�ยมีไว�มีาที่�า Data Mining ซ่9งมี�กัารที่�างานิอย(! 4 ช้นิ�ดด�วยกั�นิคำ+อ

Data Segmentation  เป#นิกัระบวนิกัารแบ!ง Database

ออกัเป#นิกัล�!มีเพื่+อให�ง!ายติ!อกัารว�เคำราะห5 เช้!นิกัารแบ!งล(กัคำ�าออกั ติามีอาย� เพื่ศ รายได� เป#นิติ�นิ

Predictive Modeling เป#นิกัารสร�างแบบจำ�าลองพื่ยากัรณ์5 แบ!งเป#นิ 2 ล�กัษณ์ะ คำ+อ

Classification เป#นิกัารจำ�ดกัล�!มีให�กั�บแติ!ละข�อมี(ลในิฐานิข�อมี(ล โดยมี�กัารระบ�คำ!า หร+อล�กัษณ์ะที่�เป#นิไปได�ของข�อมี(ล ภายในิแติ!ละกัล�!มี เช้!นิ กัารจำ�ดกัล�!มีของผ(�ป=วยติามีผลของกัารใช้�ยาร�กัษา เพื่+อระบ�ร(ปแบบกัารร�กัษาให�กั�บผ(�ป=วยใหมี! ที่�เข�าร�บกัารร�กัษา  เป#นิติ�นิ

      Value Prediction  เป#นิกัารพื่ยากัรณ์5คำ!าที่�เป#นิไปได� หร+อกัารกัระจำายของคำ!าที่�เป#นิไปได�ของติ�วแปรใดๆ ในิกัล�!มีข�อมี(ล

      กัารที่�านิายคำ!าที่�เป#นิติ�วเลข เช้!นิ กัารที่�านิายภาษ�ที่�จำะเกั3บได�ในิป2 เป#นิติ�นิ

Link  Analysis (Associations) เป#นิกัารหาคำวามีส�มีพื่�นิธุ5ของข�อมี(ลภายในิกัล�!มีข�อมี(ล เพื่+อใช้�ล�กัษณ์ะของข�อมี(ลหนิ9งๆ ในิกัารบอกัล�กัษณ์ะที่�จำะเกั�ดข90นิกั�บข�อมี(ลอ�กัติ�ว

Page 14: DATAmining (1)

หนิ9ง  ซ่9งอาจำจำะเป#นิกัารหาคำวามีส�มีพื่�นิธุ5ของข�อมี(ลในิกัล�!มีเด�ยวกั�นิ เช้!นิ กัารระบ�ว!าในิกัล�!มีของล(กัคำ�าที่�ซ่+0อนิมีนิ�0นิ จำะมี�ล(กัคำ�า 64% ที่�ซ่+0อขนิมีป:งด�วย หร+ออาจำจำะเป#นิกัารหาคำวามีส�มีพื่�นิธุ5ของ ติ�วแปรระหว!างกัล�!มีข�อมี(ลกั3ได� เช้!นิ ในิที่�กัๆ คำร�0งที่�ด�ช้นิ�ของติลาดห��นิหนิ9งลดลง 5%  ด�ช้นิ�ของติลาดห��นิอ+นิจำะเพื่�มีข90นิ 13% ภายในิช้!วง 2-6 เด+อนิหล�งจำากันิ�0นิ เป#นิติ�นิ ซ่9งล�กัษณ์ะของกัารหาคำวามีส�มีพื่�นิธุ5นิ�0นิอาจำแบ!งได�เป#นิ 3 กัล�!มี  คำ+อ กัารหาคำวามีส�มีพื่�นิธุ5ระหว!างข�อมี(ล  (Association discovery)

กัารหาคำวามีส�มีพื่�นิธุ5ในิล�กัษณ์ะที่�เป#นิล�าด�บของข�อมี(ล (Sequential Pattern discovery) และ กัารหาคำวามีส�มีพื่�นิธุ5ของข�อมี(ลกั�บช้!วงเวลาใดๆ  (Similar Time Sequence discovery)     

Deviation Detection   เป#นิเที่คำนิ�คำที่�ใช้�ในิกัารแสดงล�กัษณ์ะของข�อมี(ลที่�ผ�ดปกัติ� หร+อผ�ดไปจำากัที่�คำาดไว� โดยมี�กัารแสดงผล อย(!ในิล�กัษณ์ะที่�สามีารถที่�าคำวามีเข�าใจำและแปลคำวามีหมีายได�ง!าย เช้!นิ กัารใช้�กัราฟ เป#นิติ�นิ

  

     5. Interprete

      หล�งจำากัที่�กัารสร�าง Model แล�วจำ�าเป#นิติ�องติรวจำสอบผลล�พื่ธุ5และติ�คำวามีหมีาย คำวามีถ(กัติ�องที่�ติรวจำออกัมีาได�นิ�0นิ เป#นิช้�ดติ�วอย!างที่�ส!งเข�าไป   ด�งนิ�0นิผลล�พื่ธุ5ที่�ได�อาจำ มี�คำวามีปรวนิแปรหากัมี�กัารนิ�าไปใช้�กั�บข�อมี(ลอ+นิ ๆ

     6. Presentation

   เป#นิกัารแสดงผลกัารว�เคำราะห5โดยอาศ�ยเคำร+องมี+อที่�มี�คำวามีสามีารถและเข�าใจำง!าย กัารแสดงผลอาจำจำะอย(!ในิร(ปแบบของ รายงานิ   ติาราง กัราฟ  แผนิที่�หลายมี�ติ� เป#นิติ�นิ

Page 15: DATAmining (1)

Data Mining Tasks

1.  Classification

      ติ�วอย!างนิ�0จำะสร�างคำวามีเข�าใจำในิ Classification Study ซ่9งกัรณ์�ของติ�วอย!างนิ�0พื่บได�ที่�วไปในิวงกัารธุ�รกั�จำ นิ�กัว�เคำราะห5ในิองคำ5กัรที่�ที่�าธุ�รกั�จำเกั�ยวกั�บกัารส+อสารแห!งหนิ9งติ�องกัารเข�าใจำว!าที่�าไมีล(กัคำ�าบางกัล�!มีถ9งย�งคำงซ่+อส�ติย5และมี� Brand Loyalty ส(งกั�บส�นิคำ�าขององคำ5กัร แติ!ในิขณ์ะเด�ยวกั�นิล(กัคำ�าอ�กักัล�!มีกัล�บไปหาคำ(!แข!งแที่นิ ที่�ายที่�ส�ดนิ�กัว�เคำราะห5จำ9งติ�องกัาร จำะที่�านิายล�กัษณ์ะและนิ�ส�ยของล(กัคำ�าที่�องคำ5กัรจำะติ�องเส�ยไปให�คำ(!แข!ง

      เนิ+องจำากัขณ์ะนิ�0นิ�กัว�เคำราะห5มี�เป6าหมีายในิใจำเร�ยบร�อยแล�ว ด�งนิ�0นินิ�กัว�เคำราะห5จำ9งสามีารถสร�าง Model ที่�ข�อมี(ลติ!าง ๆ ได�มีาจำากัข�อมี(ลในิอด�ติของล(กัคำ�าที่�มี�คำวามีซ่+อส�ติย5ติ!อองคำ5กัรและกัล�!มีล(กัคำ�าที่�ไมี!มี�คำวามีซ่+อส�ติย5ติ!อองคำ5กัรด�วย Model ที่�สมีบ(รณ์5 ถ(กัติ�องจำะสามีารถที่�าให�องคำ5กัรเข�าใจำและที่�านิายล�กัษณ์ะของธุ�รกั�จำที่�จำะเกั�ดข90นิได�

      จำากัติ�วอย!างเหติ�กัารณ์5จำะสามีารถอธุ�บายข�0นิติอนิของกัารกั�าหนิดกัารศ9กัษาได� กัารศ9กัษาจำะกั�าหนิดขอบเขติของ กั�จำกัรรมีของ Data Mining ได� นิอกัจำากันิ�0กัารศ9กัษาจำะสามีารถกั�าหนิดจำ�ดประสงคำ5และข�อมี(ลที่�ติ�องกัารใช้�ได�ที่�0งหมีด ด�วยกัารกั�าหนิดป:ญหาที่างธุ�รกั�จำ นิ�นิกั3เป#นิส�งที่�บอกัให�นิ�กัว�เคำราะห5ที่ราบได�เลยว!าข�0นิติอนิในิกัารที่�า Data Mining จำะที่�า อย!างไรและจำ�ดประสงคำ5ของกัารที่�าคำ+ออะไร

      ในิกัารศ9กัษาติ�องกัารห�วข�อในิกัารศ9กัษา ห�วข�อในิกัารศ9กัษาอาจำหมีายได�ถ9ง Data Element ของ Object ที่�เรา ติ�องกัารจำะศ9กัษา เช้!นิ เราติ�องกัารจำะศ9กัษาถ9ง Object “ล(กัคำ�า ซ่9งมี� ” Data

Element ที่�เกั�ยวข�องคำ+อ ช้นิ�ดของล(กัคำ�า แนิวโนิ�มีกัารซ่+0อส�นิคำ�า ระยะเวลาที่�เป#นิล(กัคำ�าขององคำ5กัร และอ+นิ ๆ ซ่9ง Data Element จำะเป#นิติ�วกั�าหนิดล�กัษณ์ะ และช้นิ�ดของล(กัคำ�ากัารที่�า Classification

Page 16: DATAmining (1)

Studies นิ�0นิเราสามีารถกั�าหนิดโคำรงร!างล�กัษณ์ะเฉพื่าะหร+ออ�ปนิ�ส�ยของล(กัคำ�า ได�โดยด(ได�จำากัติาราง 

ช้+อคำอล�มีนิ5 ช้นิ�ดของข�อมี(ล คำ!าที่�ได� คำ�าอธุ�บายเบอร5ล(กัคำ�า ติ�วเลข คำ!าเฉพื่าะ ติ�วกั�าหนิดเฉพื่าะ

ส�าหร�บล(กัคำ�าระยะเวลา ติ�วเลข จำ�านิวนิเติ3มี จำ�านิวนิที่�ล(กัคำ�าอย(!

กั�บองคำ5กัรแนิวโนิ�มี ติ�วอ�กัษร เพื่�มีข90นิ , เหมี+อนิเด�มี ,

ลดลงติ�วบ!งช้�0แนิวโนิ�มีกัารใช้�ส�นิคำ�า 6

เด+อนิล!าส�ดสถานิะ ติ�วอ�กัษร ส(ง , กัลาง , ติ�า , ไมี!

ที่ราบกัารส�ารวจำผลคำวามีพื่อใจำของล(กัคำ�า

ช้นิ�ดของล(กัคำ�า

ติ�วอ�กัษร ย�งคำงซ่+อส�ติย5 , ไมี!ซ่+อส�ติย5

ล(กัคำ�าย�งคำงอย(!กั�บองคำ5กัรหร+อเส�ยให�คำ(!แข!งไปแล�ว

 

      ติารางแสดง Data Element ของข�อมี(ล 

      จำากัติ�วอย!างข�างติ�นิเรากั�าหนิดให� ช้นิ�ดของล(กัคำ�าเป#นิ Output

หร+อ Dependent Variable ซ่9งถ(กัใช้�เป#นิ พื่+0นิฐานิในิกัารศ9กัษาว!าอะไรคำ+อสาเหติ�ที่�ที่�าให�ล(กัคำ�าซ่+อส�ติย5กั�บองคำ5กัรและที่�าล(กัคำ�าถ9งจำากัองคำ5กัรไป และเราจำะใช้� Data Element ติ�วอ+นิ ๆ มีาช้!วยในิกัารอธุ�บายส�งที่�เกั�ดข90นิ เรากั�าหนิดให�ช้นิ�ดของล(กัคำ�าเป#นิ Training

Data ถ�าเราเปล�ยนิ Data Element ติ�วอ+นิมีาเป#นิ Output จำ�ดประสงคำ5ของกัารศ9กัษากั3จำะเปล�ยนิไปด�วย

Page 17: DATAmining (1)

      มี�เที่คำนิ�คำของ Data Mining จำ�านิวนิมีากัที่�ใช้�ส�าหร�บป:ญหาแบบ classification และ regression และแติ!ละเที่คำนิ�คำกั3มี� algorithm มีากัมีาย แติ!ละ algorithm กั3ให�ผลล�พื่ธุ5ที่�แติกัติ!างกั�นิไป ส�งที่�แยกัป:ญหา classification ออกัจำากัแบบ regression

คำ+อ ป:ญหา classification จำะให�ผลล�พื่ธุ5เป#นิคำ!าที่�แนิ!นิอนิ เช้!นิ ใช้! “ ”

, “ไมี!ใช้! หร+อ ส(ง ” “ ” , “กัลาง และ ติ�า เป#นิติ�นิ ติ�วอย!างเช้!นิ แบบ” “ ”

จำ�าลองอาจำที่�านิายว!า นิาย “ A จำะติอบร�บข�อเสนิอของที่างบร�ษ�ที่ ในิ”

ขณ์ะที่�ผลล�พื่ธุ5ที่�จำะได�จำากัป:ญหาแบบ regression เป#นิคำ!าเฉพื่าะที่�แนิ!นิอนิ แติ!คำ!านิ�0จำะไมี!จำ�ากั�ดคำ+อ อาจำเป#นิคำ!าอะไรกั3ได� ติ�วอย!างเช้!นิ จำากัแบบจำ�าลองที่�ได�จำากักัารที่�า Data Mining แบบ regression แบบจำ�าลองอาจำที่�านิายว!า นิาย “ A จำะได�ร�บผลกั�าไร 500 บาที่ เป#นิติ�นิ”

      โดยที่�วไปแล�ว ป:ญหาในิแบบ regression จำะสามีารถเปล�ยนิเป#นิป:ญหาแบบ classification ได�โดยกัารแบ!งคำ!า ที่�ติ�องกัารที่�านิายให�เป#นิกัล�!มีของคำ!าที่�ไมี!ติ!อเนิ+องกั�นิ (discrete

categories) และป:ญหาแบบ classification กั3สามีารถเปล�ยนิ เป#นิแบบ regression ได� โดยกัารที่�านิายคำ!าหร+อคำวามีนิ!าจำะเป#นิส�าหร�บแติ!ละกัล�!มี และกั�าหนิดคำ!าของช้!วงของคำ!า หร+อคำวามีนิ!า จำะเป#นิที่�ที่�านิายได�

เทั่คน�คของ Data Mining ทั่��ใช้�ในการแก�ป"ญหาแบ่บ่ classification แลัะ regression

      เที่คำนิ�คำที่�ใช้�ในิกัารที่�า Data Mining แบบ classification

และ regression ที่�ใช้�กั�นิในิผล�ติภ�ณ์ฑ์5ด�านิ Data Mining ในิป:จำจำ�บ�นิ ได�แกั!

Decision tree เป#นิเที่คำนิ�คำที่�ให�ผลล�พื่ธุ5ในิล�กัษณ์ะของโคำรงสร�างติ�นิไมี�

      โดยปกัติ�มี�กัประกัอบด�วยกัฎในิร(ปแบบ ถ�า “ เง+อนิไข แล�ว ผลล�พื่ธุ5”  เช้!นิ

Page 18: DATAmining (1)

“If Income = High and Married = No THEN Risk = Poor”

“If Income = High and Married = Yes THEN Risk = Good”

Decision tree เป#นิเที่คำนิ�คำที่�คำ!อนิข�างแพื่ร!หลาย เนิ+องจำากัผ(�ใช้�สามีารถที่�าคำวามีเข�าใจำผลล�พื่ธุ5ได�ง!าย เที่คำนิ�คำ Decision tree จำะจำ�ากั�ดข�อมี(ลที่�เป#นิติ�วแปรติามี ( dependent variable ) 1 ติ�วติ!อ 1 แบบจำ�าลอง ถ�าติ�องกัารที่�านิายติ�วแปรติามีหลาย ๆ ติ�ว จำะติ�องสร�างแบบจำ�าลองส�าหร�บติ�วแปรติามีแติ!ละติ�ว algorithm ของเที่คำนิ�คำแบบ Decision tree   ส!วนิใหญ!ไมี!รองร�บข�อมี(ลแบบติ!อเนิ+อง ( continuous data ) จำะติ�องมี�กัารแบ!งให�เป#นิข�อมี(ลแบบไมี!ติ!อเนิ+อง ( discrete data ) เส�ยกั!อนิ algorithm ที่�เหล!านิ�0นิได�กั!อนิ Chi-squared Automatic Interaction Detection ( CHAID ) , Classification and Regression Trees ( CART ) , C4.5 และ C5.0 algorithm เหล!านิ�0ส!วนิมีากัมี�กัเหมีาะกั�บป:ญหาแบบ classification Algorithm บางติ�วปร�บให�ใช้�ได�กั�บป:ญหาแบบ regression เช้!นิ Classification and

Regression Trees ( CART ) ซ่9งรองร�บที่�0งป:ญหาในิแบบ Classification และ regression นิอกัจำากันิ�0ย�งรองร�บข�อมี(ลในิแบบที่�ติ!อเนิ+องด�วย

Neural networks มี�พื่+0นิฐานิมีาจำากัแบบจำ�าลองกัารที่�างานิของสมีองมีนิ�ษย5 และกั3สามีารถใช้�ได�ด�

กั�บป:ญหา classification , regression และ clustering

เที่คำนิ�คำนิ�0มี�กัถ(กัเร�ยกัว!า “black box” เนิ+องจำากักัารที่�างานิของมี�นิมี�คำวามีซ่�บซ่�อนิมีากักัว!าเที่คำนิ�คำอ+นิ ๆ คำ!อนิข�างมีากั ผลล�พื่ธุ5ที่�ได�กั3ยากัติ!อกัารที่�าคำวามีเข�าใจำ    

Page 19: DATAmining (1)

    

D

                         A                       1    

                                           -2                    1  1          

F

                                         2                                     

     

                           B            2                              

E

                                                                             -2                              

                         -1  

             C                 -5  

Page 20: DATAmining (1)

เช้!นิ ในิร(ปแสดงผลล�พื่ธุ5ของกัารใช้�เที่คำนิ�คำแบบ neural networks

ในิกัารว�เคำราะห5ป:ญหาคำวามีเส�ยงของกัารให�กั(�เง�นิ ซ่9งประกัอบด�วยจำ�ด 6 จำ�ด A-F โดยที่� A , B ,C เป#นิจำ�ที่�เป#นิข�อมี(ลเข�า ซ่9งแที่นิติ�วแปรอ�สระ หนิ�0ส�นิ ( debt ) , รายได� ( income ) และสถานิภาพื่สมีรส ( Married )  ในิขณ์ะที่�จำ�ด F เป#นิผลล�พื่ธุ5ของกัารว�เคำราะห5 แที่นิติ�วแปรติามีคำ+อ คำวามีเส�ยง ( risk ) และติ�วเลขที่�กั�ากั�บอย(!ติามีเส�นิล(กัศรคำ+อ คำ!าถ!วงนิ�0าหนิ�กั ( weight ) เป#นิติ�นิ

ถ9งแมี�ว!าเที่คำนิ�คำนิ�0จำะที่�างานิได�ด�กั�บป:ญหา classification ,

regression และ clustering กั3ติามี แติ!มี�นิเป#นิเที่คำนิ�คำที่�คำ!อนิข�างซ่�บซ่�อนิกัว!าเที่คำนิ�คำอ+นิ คำวามีซ่�บซ่�อนิและกัารไมี!สามีารถอธุ�บายได�ของผลล�พื่ธุ5 มี�กัที่�าให�ผ(�ใช้�หล�กัเล�ยงเที่คำนิ�คำนิ�0 อย!างไรกั3ติามี เที่คำนิ�คำนิ�0กั3มี�ข�อด�ที่�ส�าคำ�ญที่�ไมี!มี�ในิเที่คำนิ�คำอ+นิ ๆ กั3คำ+อ เที่คำนิ�คำนิ�0ไมี!มี�ข�อจำ�ากั�ดเกั�ยวกั�บช้นิ�ดของคำวามีส�มีพื่�นิธุ5 เช้!นิ เที่คำนิ�คำแบบ neural networks

สามีารถสร�างแบบจำ�าลองคำวามีส�มีพื่�นิธุ5ระหว!างติ�วแปรติามีกั�บส�ดส!วนิของติ�วแปรอ�สระ 2 ติ�วได� ซ่9งที่�าได�ยากั  ถ�าใช้�เที่คำนิ�คำแบบ Decision

tree หร+อ Naïve-Bayes นิอกัจำากันิ�0 เที่คำนิ�คำแบบ neural

networks ย�งไมี!มี�ป:ญหากั�บคำวามีส�มีพื่�นิธุ5ที่�เป#นิแบบติร�โกัณ์มี�ติ� ( trigonometric ) หร+อ logarithmic ด�วย ในิกัารใช้�งานิจำร�งนิ�0นิ เที่คำนิ�คำแบบ Decision tree หร+อ Naïve-Bayes อาจำให�ผลล�พื่ธุ5ที่�ถ(กัติ�องเพื่�ยงพื่อกั�บคำวามีติ�องกัาร แติ!ถ�าติ�องกัารคำวามีแมี!นิย�ามีากั ๆ แล�ว เที่คำนิ�คำแบบ Neural networks อาจำเป#นิหนิที่างที่�ด�ที่�ส�ด ที่างเด�ยวที่�จำะร( �ว!าคำวรใช้�เที่คำนิ�คำแบบ Neural networks หร+อไมี! กั3คำ+อ กัารเปร�ยบเที่�ยบคำวามีเที่�ยงติรงของแบบจำ�าลองกั�บเที่คำนิ�คำอ+นิ ( Decision tree หร+อ Naïve-Bayes ) ถ�าไมี!ได�ด�กัว!ากั�นิอย!างเห3นิได�ช้�ด กั3คำวรเล+อกัเที่คำนิ�คำอ+นิ แติ!ถ�าผลล�พื่ธุ5ที่�ได�จำากัแบบจำ�าลองของเที่คำนิ�คำ Neural networks มี�คำวามีเที่�ยงติรงกัว!าอย!างเห3นิได�ช้�ด นิ�นิอาจำหมีายถ9ง เราติ�องที่�ากัารปร�บปร�งแบบจำ�าลองของเที่คำนิ�คำ Decision tree หร+อ บางที่�กัารใช้�เที่คำนิ�คำแบบ Neural

networks  อาจำเหมีาะสมีส�าหร�บป:ญหานิ�0มีากัที่�ส�ดกั3ได�

Page 21: DATAmining (1)

Naïve-Bayes เป#นิเที่คำนิ�คำที่�ถ(กัติ�0งช้+อติามี Thomas

Bayes ( 1702-1761 ) เที่คำนิ�คำแบบ Naïve-

Bayes ใช้�ที่ฤษฎ� Bayes Theorem ในิกัารคำ�านิวณ์คำวามีนิ!าจำะเป#นิซ่9งถ(กัใช้�ในิกัารที่�านิายผล เมี+อที่�ากัารว�เคำราะห5กัรณ์�ใหมี! กัารที่�านิาย“

ผลที่�าได�โดยกัารรวมีผลของติ�วแปรอ�สระ   ( independent

variable ) ที่�มี�ติ!อติ�วแปรติามี ( dependent variable )”

Naïve-Bayes เป#นิเที่คำนิ�คำในิกัารแกั�ป:ญหาแบบ classification

ที่�ที่�0งสามีารถคำาดกัารณ์5ผลล�พื่ธุ5ได�และสามีารถอธุ�บายได�ด�วย มี�นิจำะที่�ากัารว�เคำราะห5คำวามีส�มีพื่�นิธุ5ระหว!างติ�วแปรอ�สระแติ!ละติ�วกั�บติ�วแปรติามีเพื่+อใช้�ในิกัารสร�างเง+อนิไขคำวามีนิ!าจำะเป#นิส�าหร�บแติ!ละคำวามีส�มีพื่�นิธุ5 ในิที่างที่ฤษฎ�แล�วกัารที่�านิายผลของ Naïve-Bayes จำะถ(กัติ�องถ�าติ�วแปรอ�สระที่�0งหมีดเป#นิอ�สระติ!อกั�นิ ไมี!ข90นิกั�บติ�วแปรอ�สระติ�วใดติ�วหนิ9ง ซ่9งในิคำวามีเป#นิจำร�งแล�วมี�ไมี!มีากันิ�กัที่�ติ�วแปรอ�สระที่�0งหมีดเป#นิอ�สระติ!อกั�นิ ติ�วอย!างเช้!นิ ข�อมี(ลเกั�ยวกั�บประว�ติ�บ�คำคำล ซ่9งมี�กัประกัอบด�วยรายละเอ�ยดย!อยมีากัมีาย อาที่� นิ�0าหนิ�กั , กัารศ9กัษา , รายได� เป#นิติ�นิ จำะเห3นิว!ารายละเอ�ยดเหล!านิ�0มี�กัข90นิอย(!กั�บอาย� ในิกัรณ์�นิ�0กัารใช้� Naïve-Bayes จำะติ�องคำ�านิ9งถ9งผลของอาย�ให�มีากั ๆ นิอกัจำากันิ�0 เที่คำนิ�คำแบบ Naïve-Bayes ย�งไมี!รองร�บข�อมี(ลที่�เป#นิข�อมี(ลติ!อเนิ+อง ( continuous data ) ด�วย ด�งนิ�0นิ ติ�วแปรอ�สระหร+อติ�วแปรติามีที่�มี�คำ!าเป#นิคำ!าติ!อเนิ+องจำะติ�องถ(กัแบ!งเป#นิช้!วงเช้!นิ ถ�ามี�ติ�วแปรอ�สระที่�เป#นิคำ!าของอาย�กั3อาจำแปลงคำ!าเหล!านิ�0นิให�เป#นิช้!วงแคำบ ๆ อาที่� ติ�ากัว!า “ 20 ป2 ” , “20-40 ป2 ” , “40 ป2ข90นิไป เป#นิติ�นิ ซ่9ง”

กัารแบ!งช้!วงนิ�0นิ ถ�าแบ!งไมี!เหมีาะสมี กั3จำะมี�ผลติ!อคำ�ณ์ภาพื่ของแบบจำ�าลองที่�สร�างข90นิ แติ!ถ�าไมี!คำ�านิ9งถ9งข�อจำ�ากั�ดนิ�0แล�ว เที่คำนิ�คำแบบ Naïve-Bayes สามีารถให�ผลล�พื่ธุ5ที่�ด�และรวดเร3วได� คำวามีง!ายและคำวามีเร3วที่�าให�เที่คำนิ�คำนิ�0เป#นิเคำร+องมี+อที่�ด�ในิกัารสร�างแบบจำ�าลองและหาร(ปแบบคำวามีส�มีพื่�นิธุ5ที่�ไมี!ซ่�บซ่�อนิ

Page 22: DATAmining (1)

K-nearest neighbor (K-NN) เป#นิเที่คำนิ�คำที่�เหมีาะกั�บป:ญหาแบบ classification เที่คำนิ�คำนิ�0แติกัติ!าง

จำากัเที่คำนิ�คำอ+นิติรงที่�มี�นิไมี!ได�ใช้�ข�อมี(ลฝ่Dกัห�ด ( training data ) ในิกัารสร�างแบบจำ�าลอง แติ!จำะใช้�ข�อมี(ลนิ�0นิมีาเป#นิติ�วแบบจำ�าลองเลย ในิกัารใช้�งานิ K-NN algorithm นิ�0นิเราติ�องระบ�คำ!าติ�วเลขจำ�านิวนิเติ3มีบวกัให�กั�บ k ด�วย ซ่9งคำ!านิ�0จำะเป#นิติ�วบอกัจำ�านิวนิของกัรณ์� (case) ที่�จำะติ�องคำ�นิหาในิกัารที่�านิายกัรณ์�ใหมี! algorithm แบบ K-NN ได�แกั! 1-NN , 2-NN , 3-NN , ………. K-NN โดยที่� k แที่นิเลขจำ�านิวนิเติ3มีบวกั เช้!นิ 4-NN หมีายถ9ง algorithm นิ�0จำะคำ�นิหา 4 กัรณ์�ที่�มี�ล�กัษณ์ะใกัล�เคำ�ยงกั�บกัรณ์�ใหมี! ( 4 nearest cases ) ในิกัารที่�านิายกัรณ์�ใหมี! 

2. Estimation / Prediction

   ล�กัษณ์ะของ Classification นิ�0นิคำ�านิ9งถ9งผลกั�าหนิดที่�ออกัมีาช้�ดเจำนิว!าคำ�ณ์สมีบ�ติ�ด�งกัล!าวจำะอย(!ในิช้�0นิใด แติ! Estimation

เป#นิกัารประเมี�นิที่�ไมี!สามีารถกั�าหนิดคำ!าหร+อคำ�ณ์สมีบ�ติ�ด�งกัล!าวให�ช้�ดเจำนิ เป#นิกัารจำ�ดกัารกั�บคำ!าที่�มี�ผลในิกัารว�ดที่�ติ!อเนิ+อง ติ�วอย!างเช้!นิ

กัารประเมี�นิรายได�ของคำรอบคำร�ว กัารประเมี�นิคำวามีส(งของบ�คำคำลในิคำรอบคำร�ว กัารประเมี�นิจำ�านิวนิของเด3กัๆ ในิคำรอบคำร�ว

   Prediction เหมี+อนิกั�บ Classification  และ Estimation

ยกัเว�นิว!า Record ที่�ถ(กัแยกัจำ�ดล�าด�บนิ�0นิเกั�ดข90นิติามีกัารที่�านิาย พื่ฤติ�กัรรมีในิอนิาคำติหร+อกัารที่�านิายคำ!าที่�จำะเกั�ดข90นิในิอนิาคำติ ข�อมี(ลในิอด�ติจำะถ(กัสร�างเป#นิ Model ข90นิมีาเพื่+อที่�านิายหร+ออธุ�บาย ส�งที่�จำะเกั�ดข90นิในิอนิาคำติ ติ�วอย!างเช้!นิ

กัารที่�านิายว!าล(กัคำ�ากัล�!มีใดที่�องคำ5กัรจำะส(ญเส�ยไปภายในิ 6

เด+อนิหนิ�า

Page 23: DATAmining (1)

กัารที่�านิายว!ายอดซ่+0อของล(กัคำ�าจำะเป#นิเที่!าใดถ�าบร�ษ�ที่ลดราคำาส�นิคำ�า 10 %

 

3. Segmentation / Clustering

      Clustering คำ+อว�ธุ�ของกัารรวมีกัล�!มีของข�อมี(ลที่�มี�ล�กัษณ์ะเหมี+อนิกั�นิ ร(ปแบบและแนิวโนิ�มีที่�เหมี+อนิกั�นิ กัารศ9กัษาของ Clustering ไมี!มี� Output หร+อ Independent Variable

เหมี+อนิ Classification Studies และไมี!มี�กัารจำ�ดเป#นิล�กัษณ์ะโคำรงร!างของ Object ใด ๆ ด�งนิ�0นิกัารศ9กัษาแบบนิ�0จำ9งถ(กัเร�ยกัว!า Unsupervised Learning หร+อ Segmentation กัารที่�า Clustering เองสามีารถที่�าบนิพื่+0นิฐานิของข�อมี(ลในิอด�ติได�เหมี+อนิกั�นิ แติ!ผลล�พื่ธุ5ที่�ได�มีาไมี!ได�ออกัจำากั Training Data

      ติ�วอย!างของ Clustering เช้!นิ องคำ5กัรติ�องกัารที่ราบคำวามีเหมี+อนิที่�มี�ในิกัล�!มีล(กัคำ�าของตินิเอง เพื่+อที่�ว!าองคำ5กัรจำะสามีารถเข�าใจำล�กัษณ์ะเฉพื่าะของกัล�!มีล(กัคำ�าเป6าหมีายขององคำ5กัร และสร�างกัล�!มีของล(กัคำ�าเพื่+อองคำ5กัรจำะสามีารถขายส�นิคำ�าได�ในิอนิาคำติ องคำ5กัรจำะที่�ากัารแยกักัล�!มีของล(กัคำ�าออกัเป#นิกัล�!มี ๆ

      เที่คำนิ�คำของ Clustering พื่ยายามีมีองหาคำวามีเหมี+อนิและคำวามีแติกัติ!างภายในิกัล�!มีของข�อมี(ลและแบ!งกัล�!มีติ!าง ๆ ออกัเป#นิส!วนิ ๆ

เทั่คน�คในการทั่�า Data Mining เพ��อแก�ป"ญหาแบ่บ่ clustering

Demographic Clustering แนิวคำ�ดพื่+0นิฐานิของ Demographic Clustering  คำ+อกัารสร�าง segment

โดยกัารเปร�ยบเที่�ยบข�อมี(ล แติ!ละติ�วกั�บที่�กั ๆ segment ที่�สร�างข90นิในิขณ์ะที่�กั�าล�งที่�า Data Mining โดยกัารสร�างคำวามี

Page 24: DATAmining (1)

แติกัติ!างระหว!างคำะแนินิ ให�มีากัที่�ส�ด algorithm จำะใส!ข�อมี(ลลงในิแติ!ละ segment    ซ่9ง segment ใหมี!สามีารถถ(กัสร�างข90นิได�ติลอดเวลาที่�ที่�า Data Mining ข�อด�ของเที่คำนิ�คำนิ�0คำ+อ มี�นิสามีารถกั�าหนิดจำ�านิวนิของ segment ที่�ติ�องสร�างข90นิได�โดยอ�ติโนิมี�ติ�และ ผลล�พื่ธุ5ของช้�ดข�อมี(ลขนิาดใหญ!ที่�ถ(กัแบ!งอย!างช้�ดเจำนิ Demographic Clustering เหมีาะกั�บข�อมี(ลที่�มี�ล�กัษณ์ะเป#นิกัล�!มี โดยเฉพื่าะจำ�านิวนิของกัล�!มีนิ�อย ๆ

Neural Clustering เที่คำนิ�คำนิ�0นิ�า Kohonen feature

map neural network มีาใช้� Kohonen feature map

ใช้�กัระบวนิกัาร ที่�เร�ยกัว!า self-organization ในิกัารติ�0งคำ!าหนิ!วยของผลล�พื่ธุ5เข�าส(! topological map Feature

map neural network ประกัอบด�วยช้�0นิของหนิ!วยประมีวลผล 2 ช้�0นิ โดยช้�0นิของข�อมี(ลเข�า ( input layer ) จำะเช้+อมีติ!อกั�บช้�0นิของผลล�พื่ธุ5 ( output layer ) อย!างสมีบ(รณ์5 เมี+อร(ปแบบของข�อมี(ลเข�าถ(กัแสดงส(! feature map หนิ!วยติ!าง ๆ ในิช้�0นิของผลล�พื่ธุ5 จำะแข!งข�นิกั�นิเพื่+อส�ที่ธุ�Eที่�จำะได�เป#นิผ(�ช้นิะ หนิ!วยผลล�พื่ธุ5ที่�ช้นิะคำ+อ หนิ!วยที่�นิ�0าหนิ�กักัารเช้+อมีติ!อใกัล�เคำ�ยงกั�บร(ปแบบข�อมี(ล เข�ามีากัที่�ส�ด    ( ในิคำวามีหมีายของ Euclidean

distance ) Kohonen feature map สร�าง topological map โดยปร�บแติ!งไมี!เพื่�ยงแติ! นิ�0าหนิ�กัของผ(�ช้นิะเที่!านิ�0นิ ย�งปร�บแติ!งนิ�0าหนิ�กัของหนิ!วยผลล�พื่ธุ5ที่�อย(!ประช้�ดกั�บผ(�ช้นิะด�วย

 

4.  Description / Visualization

      Description จำ�ดประสงคำ5ของกัารที่�า Data Mining

กัารหาคำ�าอธุ�บายถ9งส�งที่�จำะเกั�ดข90นิโดยอาศ�ยข�อมี(ลจำากัฐานิข�อมี(ล ติ�วอย!างเช้!นิ  ผ(�หญ�งจำะสนิ�บสนิ�นิพื่รรคำเดรโมีแคำรติมีากักัว!าผ(�ช้าย

Page 25: DATAmining (1)

      Visualization เป#นิกัารนิ�าเสนิอข�อมี(ลในิร(ปแบบกัราฟฟBคำ กัารนิ�าเสนิอจำะสามีารถที่�าได�มีากักัว!า 2 มี�ติ� ซ่9งจำะสร�างคำวามีละเอ�ยดของกัารนิ�าเสนิอและสร�างคำวามีเข�าใจำให�มีากัข90นิ ติ�วอย!าง เช้!นิ องคำ5กัรติ�องกัารที่�จำะหาสถานิที่�ในิกัารติ�0งสาขาขององคำ5กัรในิเขติพื่+0นิที่�ภาคำเหนิ+อของประเที่ศ ด�งนิ�0นิองคำ5กัรจำ9งใช้�ร(ปแผนิที่�ที่�มี�กัาร Plot ที่�ติ� 0งขององคำ5กัรคำ(!แข!งที่�มี�สาขาติ�0งอย(!ในิเขตินิ�0นิ เพื่+อพื่�จำารณ์าสถานิที่�ติ� 0งที่�เหมีาะสมีที่�ส�ด

      Data Visualization จำะใช้�มีากักั�บ Data Mining Tools

ส�งที่�ส�าคำ�ญของ Visualization กั3คำ+อ ไมี!สามีารถเนิ�นิกัารว�เคำราะห5ข�อมี(ลที่�มี�ประส�ที่ธุ�ภาพื่ ในิขณ์ะที่�แบบแผนิที่างสถ�ติ�และ Confirmatory Analysis เป#นิกัารสร�างกัารว�เคำราะห5ข�อมี(ลที่�แที่�จำร�ง  

Data Mining Tools and Technologies

1.  Neural   Network

      เป#นิกัารเล�ยนิแบบกัารที่�างานิของระบบประสาที่เที่�ยมี ซ่9งเล�ยนิแบบกัารที่�างานิของระบบประสาที่ในิสมีองของมีนิ�ษย5  กัารที่�างานิของ Neural Network แติ!ละ Process จำะร�บ Input เข�าไปคำ�านิวณ์ และสร�าง Output ออกัมีาในิล�กัษณ์ะที่�ไมี!ใช้!เป#นิกัารที่�างานิแบบเช้�งเส�นิติรง เพื่ราะว!า Input แติ!ละติ�วจำะถ(กัให�ล�าด�บคำวามีส�าคำ�ญของคำ!าไมี!เที่!ากั�นิ คำ!าของ Output ที่�ได�จำากักัารเช้+อมีโยงกั�นินิ�0จำะถ(กันิ�ามีาเปร�ยบเที่�ยบกั�บ Output ที่�ได�ติ�0งเอาไว� ถ�าคำ!าที่�ออกัมีาเกั�ดคำวามีคำลาดเคำล+อนิ กั3จำะนิ�าไปส(!กัารปร�บคำ!าหร+อนิ�0าหนิ�กัของคำ!าที่�ใส!ไว�ให�แติ!ละ Input

      Neural Network เป#นิกัารสร�างแบบจำ�าลองที่�เล�ยนิแบบกัารที่�างานิของสมีองมีนิ�ษย5 มี�โคำรงสร�างเป#นิกัล�!มีของ Node ที่�เช้+อมีโยงถ9งกั�นิในิแติ!ละ Layer คำ+อ Input Layer, Hidden Layer และ Output Layer 

Page 26: DATAmining (1)

                   

                               ร�ปแสดงติ�วอย!างของ Neural Network 

ข�อจ�าก ด้ของ Neural Network

o Neural Network ร�บข�อมี(ลได�เฉพื่าะ ข�อมี(ลติ�วเลขที่�อย(!ในิช้!วง 0 – 1 เที่!านิ�0นิ กัรณ์�ที่�ข�อมี(ลนิ�าเข�ามี�คำ!า

   มีากักัว!า นิ�0ติ�องที่�ากัารปร�บลดคำ!าลง หร+อในิกัรณ์�ที่�เป#นิข�อมี(ลอ+นิที่�ไมี!ใช้!ติ�วเลขติ�อง ที่�ากัารแปลงคำ!ากั!อนิ

o กัารสร�างแบบจำ�าลองด�วย Neural Network นิ�0นิจำะไมี!สามีารถอธุ�บายได�ว!าผลล�พื่ธุ5ที่�ได�นิ� 0นิ มีาจำากัไหนิ

o เนิ+องจำากักัารที่�ไมี!สามีารถอธุ�บายผลล�พื่ธุ5ที่�ได�มีาได� ด�งนิ�0นิกัารสร�างแบบจำ�าลองด�วย Neural Network จำะ ไมี!สามีารถร�บรองได�เลยว!าเป#นิแบบจำ�าลองที่�ด�หร+อไมี!จำนิกัว!าจำะได�ที่�ากัารที่ดสอบกั�บข�อมี(ลที่ดสอบกั!อนิจำนิ แนิ!ใจำกั!อนิ

2.  Decision Trees

   เป#นิกัารนิ�าข�อมี(ลมีาสร�างแบบจำ�าลองกัารพื่ยากัรณ์5ในิร(ปของ Decision Tree ซ่9ง Decision Tree นิ�0นิมี�กัารที่�างานิแบบ Supervised Learning คำ+อ สามีารถสร�างแบบจำ�าลองกัารจำ�ดหมีวดหมี(!ได�จำากั กัล�!มีติ�วอย!างของข�อมี(ลที่�ได�กั�าหนิดได�กั!อนิล!วงหนิ�า ที่�เร�ยกัว!า Training Set ได�อ�ติโนิมี�ติ� และสามีารถพื่ยากัรณ์5กัล�!มีของรายกัารที่�ย�งไมี!เคำยนิ�ามีาจำ�ดหมีวดหมี(!ได�ด�วย

   ร(ปแบบของ Tree จำะประกัอบด�วย Node แรกัส�ดที่�เร�ยกัว!า Root Node จำากั Root Node กั3จำะแติกัออกัเป#นิ Node ล(กั และที่� Node ล(กักั3จำะมี�ล(กัของติ�วเองซ่9ง Node ที่�ระด�บส�ดที่�ายจำะเร�ยกัว!า Leaf Node 

Page 27: DATAmining (1)

  

                           ร�ปแสดงติ�วอย!างของ Decision Tree

    จำะเห3นิว!า จำากั Root Node จำนิถ9ง Leaf Node จำะมี�เพื่�ยงเส�นิที่างเด�ยวเที่!านิ�0นิ ซ่9งเส�นิที่างนิ�0จำะอธุ�บาย ถ9งกัฎที่�ใช้�ส�าหร�บกัารจำ�ดหมีวดหมี(!ของแติ!ละกัล�!มี ซ่9งในิแติ!ละ Leaf Node นิ�0นิอาจำเป#นิกัล�!มีเด�ยวกั�นิ ซ่9งเกั�ดจำากัเหติ�ผล ที่�แติกัติ!างกั�นิได�

ว�ธี�การทั่��ใช้�สำร�าง Decision Tree การน�าข�อม�ลัมาสำร�าง Tree

ม�ข �นตอนด้ งน��

o หา Attribute ที่�ส�าคำ�ญที่�ส�ดมีาแบ!งข�อมี(ลโดย Attribute นิ�0จำะถ(กันิ�ามีาสร�างเป#นิ Root Node โดยจำะมี� Target Attribute เป#นิผลล�พื่ธุ5ซ่9งเป#นิ Leaf

Node ถ(กักั�าหนิดไว�กั!อนิ o นิ�าคำ!าที่�เป#นิไปได�ในิ Attribute ที่�ถ(กัเล+อกัมีาแติกัออกั

เป#นิกัล�!มีของติ�วเอง o แบ!งข�อมี(ลที่�0งหมีดติามีกัล�!มีที่�แติกัออกัจำากั Root

Node o วนิกัล�บไปที่�าที่�ข� 0นิติอนิแรกั คำ+อ หา Attribute ที่�ส�าคำ�ญ

ที่�ส�ดจำากัข�อมี(ลที่�เข�ามีาเพื่+อหาติ�วแบ!งติ!อไป

ข�อจ�าก ด้ของ Decision Tree

o กัารแบ!งกัล�!มีแบบ Decision Tree กัรณ์�เป#นิข�อมี(ลที่�มี�คำ!าติ!อเนิ+อง เช้!นิ ข�อมี(ลรายได� ข�อมี(ลราคำา ติ�องที่�ากัารแปลงให�อย(!ในิช้!วงหร+อติ�ดเป#นิกัล�!มีกั!อนิ

o เมี+อ Algorithm เล+อกัว!าจำะใช้�คำ!าไหนิเป#นิติ�วแบ!งกัล�!มีแล�วกั3จำะไมี!สนิใจำคำ!าอ+นิที่�อาจำมี�คำวามีส�าคำ�ญเช้!นิเด�ยวกั�นิ

o กัารจำ�ดกัารกั�บข�อมี(ลที่�ไมี!ที่ราบคำ!า อาจำมี�ผลกัระที่บกั�บผลล�พื่ธุ5ของ Decision Tree

Page 28: DATAmining (1)

o Tree ที่�มี�ระด�บช้�0นิมีากัเกั�นิไป จำะที่�าให�ข�อมี(ลที่�ผ!านิ Node  แติกัออกัเป#นิช้�0นิเล3กัช้�0นินิ�อย ซ่9งข�อมี(ลเหล!านิ�0นิ จำะไมี!มี�ประโยช้นิ5ในิกัารนิ�ามีาใช้�ที่�ากัารว�เคำราะห5

o ป:ญหาเร+อง Overfitting / Overtaining เกั�ดจำากักัารที่�แบบจำ�าลองได�เร�ยนิร( �เข�าไปถ9งรายละเอ�ยดของข�อมี(ล มีากัเกั�นิไปจำะที่�าให�เกั�ด Node ที่�เป#นิส!วนิเฉพื่าะเจำาะจำงกั�บกัล�!มีข�อมี(ลที่�ใช้�ในิกัารเร�ยนิร( � ซ่9งจำะติ�องหาว�ธุ� กัารในิกัารติ�ดกั�งนิ�0ออกัไป

 

3. Memory Based Reasoning ( MBR )

      เปร�ยบเหมี+อนิกั�บประสบกัารณ์5กัารเร�ยนิร( �ของมีนิ�ษย5 ซ่9งอาศ�ยกัารส�งเกัติ�กัารณ์5ที่�เกั�ดข90นิแล�วสร�างร(ปแบบของส�งนิ�0นิ ข90นิมีา ในิ Data Mining เราใช้� MBR เพื่+อที่�ากัารว�เคำราะห5ฐานิข�อมี(ลที่�มี�อย(! และกั�าหนิดล�กัษณ์ะพื่�เศษของข�อมี(ลที่�อย(!ในินิ�0นิ แนิ!นิอนิข�อมี(ลจำะติ�องมี�ล�กัษณ์ะสมีบ(รณ์5 , กัารที่�ากัารส�งเกัติอย!างสมีบ(รณ์5จำะช้!วยสร�างกัารที่�านิายอย!างละเอ�ยดแมี!นิย�าย�งข90นิ Model จำะถ(กับอกัคำ�าติอบที่�ถ(กัติ�องจำากักัรณ์�ศ9กัษาที่�ได�แกั�ป:ญหาไว�กั!อนิหนิ�าแล�ว กัารที่�างานิแบบนิ�0ว�ธุ�นิ�0ถ(กัเร�ยกัว!า “Supervised Learning”

      ติ�วอย!างของนิ�กัว�เคำราะห5ติ�องกัารเข�าใจำที่�าไมีล(กัคำ�าบางกัล�!มีซ่9งซ่+อส�ติย5แติ!อ�กักัล�!มีบร�ษ�ที่กัล�บเส�ยไป และนิ�กัว�เคำราะห5 จำะที่�านิายว!าล(กัคำ�าคำนิใดที่�บร�ษ�ที่กั�าล�งจำะเส�ยไปให�คำ(!แข!ง นิ�กัว�เคำราะห5สามีารถสร�าง Model จำากัข�อมี(ลในิอด�ติ Model ที่�ด�กั3จำะ ที่�าให�เราร( �ว!าล(กัคำ�าคำนิใดจำะอย(!กั�บบร�ษ�ที่และล(กัคำ�าคำนิใดจำะเส�ยไป ติ�วอย!างนิ�0เป#นิข�0นิติอนิของกัารกั�าหนิด กัารศ9กัษา “ Study” กัารศ9กัษาจำะเป#นิติ�วกั�าหนิดขอบเขติของกั�จำกัรรมี กัารศ9กัษาจำะกั�าหนิดจำ�ดประสงคำ5ให�ที่�0งหมีดและข�อมี(ลที่�จำะถ(กัใช้�อาจำจำะไมี!ติ�อง กั�าหนิด จำ�ดประสงคำ5ไว�ล!วงหนิ�า

Page 29: DATAmining (1)

      จำ�ดประสงคำ5ของกัารศ9กัษา คำ+อ ติ�องกัารเข�าใจำว!าอะไรที่�าให�ล(กัคำ�าอย(!กั�บบร�ษ�ที่และจำากับร�ษ�ที่ไป จำ�ดประสงคำ5นิ�0แติกัติ!าง จำากักัารถามีคำ�าถามีเฉพื่าะ  เพื่ราะเราไมี!ได�กั�าหนิดคำวามีส�มีพื่�นิธุ5เอาไว�เลย เที่คำนิ�คำในิกัารที่�า MBR จำะมี�จำ�ดประสงคำ5หล�กั คำ+อกัารที่�ากัารคำาดเดาอย!างมี�หล�กักัารเกั�ยวกั�บติ�วแปรที่�สนิใจำ โดยมี�กัจำะใช้�เที่คำนิ�คำของ Neural

Network และ Decision Tree

      อธุ�บายร(ปแบบของกัารที่�า MBR จำากัติ�วอย!างในิร(ป คำ+อบร�ษ�ที่ประกั�นิภ�ยซ่9งมี�คำวามีสนิใจำที่�ที่ราบสาเหติ�ของ กัารลดลงของจำ�านิวนิล(กัคำ�าว!า โดย MBR กั�าหนิด 2 ติ�วแปรที่�สนิใจำคำ+อระยะเวลาที่�ล(กัคำ�าอย(!กั�บบร�ษ�ที่(ถ+อกัรมีธุรรมี5) และจำ�านิวนิของบร�กัารของบร�ษ�ที่ที่�ล(กัคำ�าใช้�บร�กัารอย(! จำะเห3นิได�ช้�ดว!าล(กัคำ�าที่�อย(!กั�บบร�ษ�ที่นิ�อยกัว!า 2 ป2คำร9ง และใช้�บร�กัารนิ�อยกัว!า 3 บร�กัารมี�กัจำะหนิ�ไปใช้�บร�กัารของบร�ษ�ที่อ+นิๆ  

ระยะเวลากัารใช้�บร�กัาร

กั�บบร�ษ�ที่ >  25 ป2              

              ใช้!                                                                 ไมี!ใช้! 

Page 30: DATAmining (1)

ใช้�บร�กัาร < 3 ช้นิ�ด 

อย(!กั�บบร�ษ�ที่               

                                                            ใช้!                                             ไมี!ใช้! 

ไมี!อย(!กั�บ

บร�ษ�ที่ 

อย(!กั�บ

บร�ษ�ที่    

      ร(ปแสดงแบบกัารติ�ดส�นิใจำของบร�ษ�ที่ประกั�นิภ�ย ( Cabena et al., 1997 ) 

      กัารที่�างานิของ MBR ติ�0งอย(!บนิรากัฐานิ 2 ประกัารคำ+อ กัารที่�า Classification และกัารที่�า Value Prediction ติ�วอย!างของ

Page 31: DATAmining (1)

Classification เช้!นิบร�ษ�ที่ที่�ติ�องกัารที่�า Sales Promotion ซ่9งจำะใช้� Mailing List จำากัฐานิข�อมี(ลกัารซ่+0อของล(กัคำ�า Mailing List

ซ่9งมี�กัารติอบร�บกัล�บมีาจำากักัารส!ง Mail ไปคำร�0งกั!อนิหนิ�าจำะมี�กัารกั�าหนิดเป#นิ Classification (Classification ถ(กัใช้�กั�าหนิด ช้�0นิของแติ!ละ Record ในิฐานิข�อมี(ล จำากัติ�วอย!างคำ+อ กัารอย(!กั�บบร�ษ�ที่ และกัารไมี!อย(!กั�บบร�ษ�ที่) หร+อ Profile Classification ด�งกัล!าวจำะถ(กัเกั3บรวบรวมีและพื่�ฒนิาเพื่+อที่�จำะบอกัล�กัษณ์ะของผ(�ที่�ติอบร�บ Mail

เพื่+อกั�าหนิดเป#นิติ�วที่�านิาย ที่�จำะติอบร�บ และจำะนิ�าเอารายช้+อด�งกัล!าวไปส!ง

      ส!วนิ Value Prediction จำ�ดประสงคำ5เพื่+อกั�าหนิดคำวามีติ!อเนิ+องของมี(ลคำ!าซ่9งมี�คำวามีเกั�ยวข�องกั�บ Record ในิฐานิข�อมี(ล ติ�วอย!างเช้!นิกัารศ9กัษา Lifetime Customer กัารที่�า Mining กั3จำะศ9กัษาถ9งข�อมี(ลที่�ผ!านิมีาในิอด�ติของล(กัคำ�าร!วมีไปถ9งสถานิะ ที่างกัารเง�นิของล(กัคำ�านิ�0นิด�วยนิอกัจำากันิ�0ย�งมี�ติ�วแปรอ+นิๆ อ�กั เช้!นิจำ�านิวนิคำรอบคำร�ว รายได� ประว�ติ�กัารใช้�รถ MBR เป#นิร(ปแบบที่�มี�กัจำะถ(กัใช้�อย!างกัว�างๆ ในิอ�ติสาหกัรรมีที่�วๆไป ที่างธุ�รกั�จำนิ�0นิมี�กัจำะใช้�กั�บ Customer Retention Management, Credit Approval,Cross Selling และ Target Marketing

4.  Cluster Detection

      จำ�ดประสงคำ5ของ Cluster Detection คำ+อกัารแบ!งฐานิข�อมี(ลออกัเป#นิส!วนิๆ หร+อเราเร�ยกัว!า Segment คำ+อกัล�!มีของ Record ที่�มี�คำวามีเหมี+อนิและล�กัษณ์ะที่�คำล�ายกั�นิ หร+อเร�ยกัว!า “Homogeneity” ส!วนิ Record ที่�อย(!ในิ Segment อ+นิๆ กั3จำะมี�คำวามีแติกัติ!างกั�นิ หร+อเร�ยกักัล�!มีที่�อย(!นิอกั Segment ว!า “Herterogeneity” Cluster Detection ถ(กัใช้�เพื่+อคำ�นิหา Sub Group ที่�เหมี+อนิๆ กั�นิในิฐานิข�อมี(ลเพื่+อที่�จำะเพื่�มีคำวามีถ(กัติ�องในิกัารว�เคำราะห5 และสามีารถมี�!งไปย�งกัล�!มีเป6าหมีายได�ถ(กัติ�อง   

Page 32: DATAmining (1)

      เรานิ�ากัราฟมีาอธุ�บายกัล�!มีของประช้ากัรโดยเปร�ยบเที่�ยบรายได�และอาย� ในิร(ปจำะเห3นิว!ากัล�!มีหนิ9งเป#นิกัล�!มีที่�มี�อาย� และมี�รายได�ส(ง ส!วนิอ�กักัล�!มีหนิ9งอาย�นิ�อยรายได�ปานิกัลาง มี�กัารศ9กัษา มี�กัารแบ!งข�อมี(ลออกัเป#นิ 2 Segment

      เที่คำนิ�คำ Cluster Detection เป#นิว�ธุ�ของกัารรวมีกัล�!มีของแถวของข�อมี(ลซ่9งมี�ส!วนิร!วมีที่�คำล�ายกั�นิแนิวโนิ�มีและร(ปแบบ Clustering Studies ไมี!มี� “Dependent Variable” ด�งนิ�0นิจำ9งไมี!สามีารถศ9กัษาได�ลงไปอย!างเฉพื่าะเจำาะจำง ไมี!สามีรถที่�าให�เกั�ดผลที่�แนิ!นิอนิ เราจำ9งเร�ยกักัารศ9กัษาแบบนิ�0ว!าเป#นิ “Unsupervised

Learning” ติ�วอย!างเช้!นิ เราติ�องกัารที่ราบว!าอะไรที่�เหมี+อนิกั�นิในิกัล�!มีฐานิล(กัคำ�าของบร�ษ�ที่ เที่คำนิ�คำ Clustering กั3จำะที่�ากัารจำ�าแนิกัแยกักัล�!มีให�

      Cluster Detection แติกัติ!างจำากั Data Mining เที่คำนิ�คำอ+นิๆ คำ+อจำ�ดประสงคำ5คำ!อนิข�างคำล�มีเคำร+อเมี+อเที่�ยบกั�บเที่คำนิ�คำของ Data Mining ติ�วอ+นิๆ

5.  Link Analysis

      Link Analysis มี�!งเนิ�นิที่�างานิบนิ Record คำ+อคำวามีส�มีพื่�นิธุ5 หร+อคำวามีเกั�ยวโยงกั�นิระหว!าง Record หร+อกัล�!มีของ Record

คำวามีส�มีพื่�นิธุ5ด�งกัล!าวเร�ยกัว!า “Association” เที่คำนิ�คำนิ�0มี�!งมีองไปที่�ร(ปแบบกัารซ่+0อหร+อเหติ�กัารณ์5ที่�เกั�ดข90นิเป#นิล�าด�บ โดยมี�เที่คำนิ�คำที่�ใช้�บนิ Link Analysis อย(! 3 อย!าง

Association Discovery ใช้�ว�เคำราะห5กัารซ่+0อส�นิคำ�าภายในิรายกัารเด�ยวกั�นิ ศ9กัษาถ9งคำวามีส�มีพื่�นิธุ5อย!างใกัล�ช้�ดที่�ถ(กั ปBดซ่!อนิอย(!ของส�นิคำ�า ซ่9งส�นิคำ�าเหล!านิ�0นิมี�กัมี�แนิวโนิ�มีที่�จำะถ(กัซ่+0อคำวบคำ(!กั�นิไป กัารว�เคำราะห5แบบนิ�0เร�ยกัว!า “Market Basket

Analysis” คำ+อรายกัารที่�0งหมีดที่�ล(กัคำ�าซ่+0อติ!อคำร�0งที่�ซ่�ปเปอร5มีาร5เกั3ติ สามีารถใช้� Input Device โดยใช้� Bar

Page 33: DATAmining (1)

Code Scanner มี�หลายงานิด�วยกั�นิ เช้!นิ ซ่�ปเปอร5มีาร5เกั3ติ กัารเติร�ยมี Inventory กัารวางแผนิกัารเร�ยง Shelf กัารที่�า Mailing List ส�าหร�บ Direct Mail และกัารวางแผนิเพื่+อจำ�ด Promotion สนิ�บสนิ�นิกัารขาย ติ�วอย!างของ Association

เช้!นิ อาจำพื่บว!า 75 % ของผ(�ซ่+0อนิ�0าอ�ดลมีจำะซ่+0อข�าวโพื่ดคำ�วด�วย Sequential Pattern Discovery ถ(กัใช้�ระบ�คำวามีเกั�ยว

เนิ+องกั�นิของกัารซ่+0อส�นิคำ�าของล(กัคำ�ามี�นิมี�จำ�ดมี�!งหมีายที่�จำะเข�าใจำ พื่ฤติ�กัรรมีกัารซ่+0อส�นิคำ�าของล(กัคำ�าในิล�กัษณ์ะ Long Term

เช้!นิผ(�ขายอาจำพื่บว!าล(กัคำ�าที่�ซ่+0อที่�ว�มี�แนิวโนิ�มีที่�จำะซ่+0อว�ด�โอในิเวลา ติ!อมีา

Similar Time Sequence Discovery ใช้�คำ�นิหาคำวามีเกั�ยวเนิ+องกั�นิระหว!างกัล�!มีของข�อมี(ล 2 กัล�!มี ซ่9งกัารข90นิติ!อกั�นิ ที่างด�านิเวลา โดยมี�ร(ปแบบกัารเคำล+อนิที่�เหมี+อนิกั�นิ ผ(�ขายส�นิคำ�ามี�กัจำ t ใช้�เพื่+อด(แนิวโนิ�มีเพื่+อเติร�ยมีสติGอกั เช้!นิเมี+อไรกั3ติามีที่� ยอดขาย ส�นิคำ�านิ�0าอ�ดลมีส(งข90นิ ยอดขายมี�นิฝ่ร�งจำะส(งข90นิติามี

6. Genetic  Algorithm

      เปร�ยบเสมี+อนิเป#นิกัารสร�างพื่�นิธุ�กัรรมีที่�ด�ส�ดบนิข�0นิติอนิของว�ว�ฒนิากัารที่างช้�วภาพื่ แนิวคำ�ดหล�กักั3คำ+อเมี+อเวลาผ!านิไป ว�ว�ฒนิากัารของเซ่ลล5ช้�ว�ติจำะเล+อกัสายพื่�นิธุ5ที่�ด�ที่�ส�ด “Fittest Species”

Genetic Algorithm จำะมี�คำวามีสามีารถในิกัารที่�างานิแบบ รวมีกัล�!มีข�อมี(ลเข�าด�วยกั�นิ เช้!นิ อาจำมี�คำวามีติ�องกัารที่�จำะแบ!งกัล�!มีหร+อจำ�บรวมีกัล�!มีของข�อมี(ลเป#นิ 3 ช้�ด ข�0นิติอนิกัารที่�างานิของ Genetic

Algorithm กั3จำะเร�มีด�วยกัารจำ�บกัล�!มีข�อมี(ลเป#นิกัล�!มีๆ ด�วยกัารเดาส�!มี เปร�ยบเหมี+อนิกัล�!มี 3 กัล�!มีนิ�0เป#นิเซ่ลล5ของส�งมี�ช้�ว�ติ Genetic

Algorithm จำะมี� “Fittest Function” ที่�จำะบอกัว!ากัล�!มีข�อมี(ลใดเหมีาะกั�บกัล�!มีๆ ไหนิ โดย Fittest Function จำะเป#นิติ�วบ!งช้�0ว!าข�อมี(ลเหมีาะกั�บกัล�!มีมีากักัว!าข�อมี(ลอ+นิๆ นิอกัจำากันิ�0ในิข�0นิติอนิติ!อมีา Genetic Algorithm จำะมี� “Operator” ซ่9งยอมีให�มี�กัารเล�ยนิแบบและแกั�ไขล�กัษณ์ะของกัล�!มีของข�อมี(ล  Operator จำะจำ�าลอง

Page 34: DATAmining (1)

หนิ�าที่�ของช้�ว�ติที่�ถ(กัพื่บในิธุรรมีช้าติ� คำ+อช้�ว�ติมี�กัารแพื่ร!พื่�นิธุ�5 จำ�บคำ(!ผสมีพื่�นิธุ�5 และเปล�ยนิร(ปร!างติามีติ�นิแบบของพื่�นิธุ�5 เปร�ยบกั�บข�อมี(ลถ�ามี�ข�อมี(ลใดในิกัล�!มี ของข�อมี(ล ถ(กัพื่บว!าติรงกั�บคำ�ณ์สมีบ�ติ�ของ Fittest

Function แล�ว มี�นิจำะคำงอย(!และถ(กัถ!ายเข�าไปในิกัล�!มีนิ�0นิ แติ!ถ�าไมี!ติรงกั�บคำ�ณ์สมีบ�ติ� กั3ย�งมี�โอกัาสที่�จำะถ!ายข�ามีไปย�งกัล�!มีอ+นิได� 

7. Rule Induction

      Rule Induction เป#นิว�ธุ�ส�าหร�บกัารด9งเอาช้�ดของกัฎเกัณ์ฑ์5ติ!างๆ มีาเพื่+อจำ�ดแบ!งเง+อนิไขหร+อกัรณ์� ด�งที่�กัล!าวข�างติ�นิ โคำรงสร�างติ�นิไมี�สามีารถสร�างช้�ดของกัฎติ!างๆ และขณ์ะที่�บางคำร�0งเร�ยกัว�ธุ�กัารแบบนิ�0ว!า กัารสร�างกัฎใหมี!จำากัติ�วอย!าง แติ!ว�ธุ�กัาร หล�งกั3ย�งมี�คำวามีหมีายที่�แติกัติ!างกั�นิ เนิ+องจำากัว�ธุ�กัาร Rule Induction จำะสร�างช้�ดของกัฎที่�เป#นิอ�สระซ่9งไมี!จำ�าเป#นิติ�อง อย(!ในิร(ปโคำรงสร�างของติ�นิไมี� เพื่ราะติ�วสร�างกัฎ (Rule Inducer)  ไมี!ได�บ�งคำ�บกัารแติกัข�อมี(ลเป#นิแติ!ละระด�บ แติ!อาจำจำะสามีารถ คำ�นิหา Pattern ที่�แติกัติ!างกั�นิได�และบางคำร�0งอาจำด�กัว!าส�าหร�บกัารจำ�ดแบ!ง Class ของผลล�พื่ธุ5 

8.  K-nearest neighbor

      มีนิ�ษย5เมี+อติ�องลองแกั�ป:ญหาใหมี! โดยที่�วไปมี�กัจำะมีองที่�ที่างแกั�ป:ญหาอย!างง!ายซ่9งพื่วกัเขาเคำยใช้�แกั�อย!างได�ผลมีากั!อนิ เที่คำนิ�คำของ K-nearest neighbor (K-NN) กั3ใช้�ว�ธุ�กัารเด�ยวกั�นิในิกัารจำ�ดแบ!งคำลาสนิ�นิเอง เที่คำนิ�คำนิ�0จำะติ�ดส�นิใจำ ว!าคำลาสไหนิที่�จำะแที่นิเง+อนิไขหร+อกัรณ์�ใหมี!ๆ ได�บ�าง โดยกัารติรวจำสอบจำ�านิวนิบางจำ�านิวนิ (“K” ในิ K-

nearest neighbor) ของกัรณ์�หร+อเง+อนิไขที่�เหมี+อนิกั�นิหร+อใกัล�เคำ�ยงกั�นิมีากัที่�ส�ด โดยจำะหาผลรวมี (Count Up) ของจำ�านิวนิเง+อนิไข หร+อกัรณ์�ติ!างๆส�าหร�บแติ!ละคำลาส และกั�าหนิดเง+อนิไขใหมี!ๆ ให�คำลาสที่�เหมี+อนิกั�นิกั�บคำลาสที่�ใกัล�เคำ�ยงกั�บมี�นิมีากัที่�ส�ด

      ส�งแรกัที่�เราติ�องที่�าในิกัารนิ�าเที่คำนิ�คำของ  K-NN ไปใช้�ในิติ�วอย!างนิ�0คำ+อ หาว�ธุ�กัารว�ดระยะห!าง (Distance) ระหว!างแติ!ละ

Page 35: DATAmining (1)

Attribute ในิข�อมี(ลให�ได� และจำากันิ�0นิคำ�านิวณ์คำ!าออกัมีา ซ่9งว�ธุ�นิ�0จำะเหมีาะส�าหร�บข�อมี(ลแบบติ�วเลข (ติ!างกั�บ Decision Tree) แติ!ติ�วแปรที่�เป#นิคำ!าแบบไมี!ติ!อเนิ+องนิ�0นิกั3สามีารถที่�าได� เพื่�ยงแติ!ติ�องกัารกัารจำ�ดกัารแบบพื่�เศษเพื่�มีข90นิ อย!างเช้!นิ ถ�าเป#นิเร+องของส� เราจำะใช้�อะไรว�ดคำวามีแติกัติ!างระหว!างส�นิ�0าเง�นิกั�บส�เข�ยว ติ!อจำากันิ�0นิเราติ�องมี�ว�ธุ�ในิกัารรวมีคำ!าระยะห!างของ Attribute ที่�กัคำ!าที่�ว�ดมีาได� เมี+อเราสามีารถคำ�านิวณ์ระยะห!างระหว!างเง+อนิไขหร+อกัรณ์�ติ!างๆ ได�จำากันิ�0นิเราเล+อกัช้�ดของเง+อนิไข ที่�ใช้�จำ�ดคำลาสมีาเป#นิฐานิส�าหร�บกัารจำ�ดคำลาสในิเง+อนิไขใหมี!ๆ ได�แล�วเราจำะติ�ดส�นิได�ว!าขอบเขติของจำ�ดข�างเคำ�ยงที่�คำวรเป#นินิ�0นิ คำวรมี�ขนิาดใหญ!เที่!าไร และอาจำติ�ดส�นิใจำได�ด�วยว!าจำะนิ�บจำ�านิวนิจำ�ดข�างเคำ�ยงติ�วมี�นิได�อย!างไร (โดยอาจำจำะให�นิ�0าหนิ�กักั�บ จำ�ดข�างเคำ�ยงที่�ใกัล�ติ�ว มี�นิมีากัที่�ส�ดกัว!าจำ�ดที่�ไกัลห!างออกัไป กั3ที่�าให�เราเล+อกัได�)

      K-NN คำ!อนิข�างใช้�ปร�มีาณ์งานิในิกัารคำ�านิวณ์ส(งมีากับนิคำอมีพื่�วเติอร5 เพื่ราะเวลาที่�ใช้�ส�าหร�บกัารคำ�านิวณ์จำะเพื่�มีข90นิ แบบแฟคำที่อเร�ยลติามีจำ�านิวนิจำ�ดที่�0งหมีด ขณ์ะที่� Decision Tree หร+อ Neural Network จำะประมีวลผลเพื่+อสร�างเง+อนิไข หร+อกัรณ์�ใหมี!ได�รวดเร3วกัว!า   เพื่ราะเที่คำนิ�คำของ K-NN ติ�องกัารให�มี�กัารคำ�านิวณ์เกั�ดข90นิที่�กัคำร�0งที่�มี�กัรณ์�ใหมี!ๆ เกั�ดข90นิ ด�งนิ�0นิเพื่+อจำะเพื่�มีคำวามีรวดเร3วส�าหร�บเที่คำนิ�คำ K-NN ให�มีากัข90นิ ข�อมี(ลที่�0งหมีดที่�ใช้�บ!อยจำะติ�องถ(กัเกั3บไว�ในิหนิ!วยคำวามีจำ�า (Memory) ว�ธุ�นิ�0จำะมี�ช้+อว!า Memory-

Based Reasoning ซ่9งจำะเป#นิว�ธุ�ที่�นิ�ามีาอ�างถ9งเป#นิประจำ�าในิกัารจำ�ดเกั3บกัล�!มีคำลาสของ K-NN ในิหนิ!วยคำวามีจำ�า

      ถ�าข�อมี(ลที่�ติ�องกัารหาคำ�าติอบมี�ติ�วแปรอ�สระเพื่�ยงไมี!กั�ติ�วแล�ว จำะที่�าให�เราสามีารถเข�าใจำ Model K-NN ได�ง!ายข90นิ ติ�วแปรเหล!านิ�0ย�งมี�ประโยช้นิ5ด�วยส�าหร�บนิ�ามีาสร�าง Model ติ!างๆ ที่�เกั�ยวข�องกั�บช้นิ�ดของข�อมี(ลที่�ไมี!เป#นิมีาติราฐานิ เช้!นิ Text เพื่�ยงแติ!อาจำติ�องมี�มีาติราฐานิกัารว�ดคำ!าส�าหร�บช้นิ�ดของข�อมี(ลด�งกัล!าวที่�เหมีาะสมีด�วย

Page 36: DATAmining (1)

9.  Association and Sequence Detection

      Association Discovery ใช้�ในการหากฎความสำ มพ นธี.ทั่��เก�ด้ข/�นระหว าง Item ต างๆ เช้ นการใช้� Market-basket

analysis เพ��อว�เคราะห.ข�อม�ลัการสำ �งซื้��อสำ�นค�า Sequence

Detection ก1เป2นว�ธี�การในทั่�านองเด้�ยวก น แต จะใช้�ลั�าด้ บ่ของเหต3การณ์. ทั่��เก�ด้ข/�นเข�ามาเก��ยวข�องด้�วย

      เราจำะเข�ยนิคำวามีส�มีพื่�นิธุ5ออกัมีาในิร(ปของ A B เร�ยกัว!า A

ว!าเป#นิเหติ�กัารณ์5ที่�เกั�ดข90นิกั!อนิ (Antecedent)  หร+อ LHS (Left -

Hand Side) และเร�ยกั B ว!าผลของเหติ�กัารณ์5 (Consequent)

หร+อ RHS (Right – Hand Side) เช้!นิในิกัฎของคำวามีส�มีพื่�นิธุ5 ถ�าคำนิซ่+0อคำ�อนิ แล�วจำะซ่+0อติะป( เหติ�กัารณ์5ที่�เกั�ดกั!อนิกั3คำ+อ คำนิซ่+0อ“ ” “

คำ�อนิ และผลที่�ติามีมีากั3คำ+อ ซ่+0อติะป(” “ ”

      ว�ธุ�กัารที่�ง!ายที่�ส�ดในิกัารว�ดส�ดส!วนิของ Item ที่�เกั�ดข90นิในิ Transaction กั3คำ+อใช้�ในิกัารนิ�บ เราจำะเร�ยกัคำวามีถ�ของคำวามีส�มีพื่�นิธุ5ที่�เกั�ดข90นิซ่9งปรากัฎอย(!ในิฐานิข�อมี(ลว!า Support หร+อ Prevalence เช้!นิ จำากัติ�วอย!างคำวามีส�มีพื่�นิธุ5ของคำ�อนิและติะป( ถ�าคำวามีส�มีพื่�นิธุ5ของคำ�อนิและติะป(จำ�านิวนิ 15 Transaction จำากัจำ�านิวนิที่�0งหมีด 1,000 Transaction เรากั3จำะได�คำ!า Support ของคำวามีส�มีพื่�นิธุ5นิ�0 1.5% คำ!า Support ที่�มี�คำ!าในิระด�บติ�า เช้!นิหนิ9งในิล�านิ อาจำแสดงให�เห3นิถ9งคำวามีไมี!มี�นิ�ยส�าคำ�ญของคำวามีส�มีพื่�นิธุ5นิ�0นิกั3ได�นิอกัจำากัเราจำะด(คำวามีถ�ที่�เกั�ยวข�องกั�บเหติ�กัารณ์5ที่�เกั�ดข90นิของ Item นิ�0นิๆแล�ว เราจำะติ�องด(คำวามีถ�ของเหติ�กัารณ์5อ+นิๆ ที่�เกั�ดข90นิร!วมีกั�บ Item นิ�0นิด�วยในิกัารหากัฎที่�มี�ระด�บนิ�ยส�าคำ�ญ หากัเราติ�0งโจำที่ย5ว!า เมี+อมี�เหติ�กัารณ์5 A (Antecedent) เกั�ดข90นิเป#นิจำ�านิวนิหนิ9ง จำะมี�เหติ�กัารณ์5 B (Consequent) เกั�ดข90นิเป#นิจำ�านิวนิเที่!าใด หมีายคำวามีว!า เราติ�องหาเง+อนิไขที่�จำะที่�านิายเหติ�กัารณ์5 B ที่�เกั�ดข90นิเนิ+องจำากั A

เมี+อเปร�ยบเที่�ยบกั�บป:ญหาในิข�างติ�นิจำะได�ว!า เมี+อผ(�คำนิซ่+0อคำ�อนิไปแล�ว“ บ!อยแคำ!ไหนิที่�เขาจำะซ่+0อติะป(ไปด�วย เราเร�ยกักัารที่�านิายผลอย!างมี�”

Page 37: DATAmining (1)

เง+อนิไขนิ�0ว!าคำวามีเช้+อมี�นิ (Confidence) เราจำะคำ�านิวณ์คำวามีเช้+อมี�นิออกัมีาในิร(ปของอ�ติราส!วนิ (คำวามีถ�ของ A และ B)/(คำวามีถ�ของ A)

      Lift เป#นิเคำร+องมี+ออ�กัอย!างหนิ9งที่�ใช้�ในิกัารว�ดอ�ที่ธุ�พื่ลที่�มี�คำวามีส�มีพื่�นิธุ5ที่�เกั�ดข90นิ คำ!า Lift ที่�มีากัแสดงว!ามี�คำวามี เป#นิไปได�มีากัที่�เมี+อเกั�ดเหติ�กัารณ์5 A ข90นิแล�ว จำะมี�เหติ�กัารณ์5 B จำะเกั�ดข90นิติามีมีา Lift จำะคำ�านิวณ์ออกัมีาในิร(ปอ�ติราส!วนิของ (คำวามีเช้+อมี�นิของ A

B)/(คำวามีถ�ของ B)

      ผ(�คำ�าปล�กัว�สด�ภ�ณ์ฑ์5อาจำแปลคำวามีหมีายของติ�วเลขเหล!านิ�0ได�ว!า กัารขายคำ�อนิและติะป(สามีารถนิ�ามีาเป#นิติ�วพื่ยากัรณ์5 กัารขายไมี�แปรร(ปได�ด�กัว!าจำะนิ�ากัารขายคำ�อนิมีาพื่ยากัรณ์5กัารขายติะป( หากัไมี�แปรร(ปเป#นิส�นิคำ�าได�กั�าไรด�ในิกั�จำกัาร เรากั3สามีารถ นิ�าข�อมี(ลที่�ได�จำากักัารว�เคำราะห5มีาวางแผนิกัลย�ที่ธุ5ที่างกัารติลาด

      คำ�ณ์ล�กัษณ์ะอ�กัอย!างหนิ9งของติ�วสร�างกัฎคำวามีส�มีพื่�นิธุ5กั3คำ+อ มี�คำวามีสามีารถในิกัารระบ�ล�าด�บข�0นิของ Item จำากัติ�วอย!าง เราจำะมีองถ9งข�อมี(ลของคำ�อนิและติะป(โดยรวมี ไมี!ได�มีองลงไปในิส�นิคำ�าแติ!ละติ�วเราจำ9งติ�องเล+อกัข�อมี(ลสร�ปที่�ได�มีาใช้�ด�วยคำวามี ระมี�ดระว�ง มี�เช้!นินิ�0นิเราอาจำไมี!ได�ข�อมี(ลที่�ติ�องกัารจำร�งๆกั3ได� โคำรงสร�างติามีล�าด�บข�0นิของ Item จำะที่�าให�เราสามีารถคำวบคำ�มี ระด�บของข�อมี(ลสร�ปที่�ได�และสามีารถที่�ากัารที่ดลองหาข�อมี(ลสร�ปในิระด�บติ!างๆ

      Sequence Detection จำะเป#นิกัารเพื่�มีติ�วแปรด�านิเวลาเข�าไป ที่�าให�สามีารถติ�ดติามีล�าด�บเหติ�กัารณ์5ที่�เกั�ดข90นิ เพื่+อนิ�ามีาใช้�ในิกัารว�เคำราะห5พื่ฤติ�กัรรมีของข�อมี(ล

      บ!อยคำร�0งที่�ยากัในิกัารติ�ดส�นิใจำว!าเราจำะที่�าอย!างไรกั�บกัฎคำวามีส�มีพื่�นิธุ5ที่�ได� ติ�วอย!างในิเร+องแผนิกัารวางผล�ติภ�ณ์ฑ์5เพื่+อ จำ�ดจำ�าหนิ!ายกัารวางผล�ติภ�ณ์ฑ์5ที่�มี�คำวามีใกัล�เคำ�ยงกั�นิไว�ด�วยกั�นิอาจำเป#นิกัารลดรายได�รวมีที่างกัารติลาดลงไป เนิ+องจำากัล(กัคำ�าจำะ เล+อกัหย�บส�นิคำ�าที่�ติ�องกัารเพื่�ยงอย!างเด�ยว แที่นิที่�จำะเด�นิเล+อกัซ่+0อส�นิคำ�าที่�ติ�องกัารไป

Page 38: DATAmining (1)

เร+อยๆ นิ�แสดงให�เห3นิว!ากัารว�เคำราะห5และ กัารที่ดลองมี�กัมี�คำวามีจำ�าเป#นิติ�องใช้�ร!วมีกั�บกัฎคำวามีส�มีพื่�นิธุ5ที่�ได�จำากักัารว�เคำราะห5 เพื่+อให�ได�ประโยช้นิ5ส(งส�ด

10.  Logistic Regression

      Logistic Regression เป#นิกัารว�เคำราะห5คำวามีถดถอยแบบเส�นิติรงที่�วไป ที่�ใช้�ในิกัารพื่ยากัรณ์5ผลล�พื่ธุ5ของ สองติ�วแปรเช้!นิ Yes/No หร+อ 0/1 แติ!เนิ+องจำากัติ�วแปรติามี (Dependent

Variable) มี�คำ!าเพื่�ยงสองอย!างเที่!านิ�0นิ เราจำ9งไมี!สามีารถสร�างแบบจำ�าลองได�ด�วยว�ธุ�กัารว�เคำราะห5คำวามีถดถอยแบบเส�นิติรง

      ด�งนิ�0นิ แที่นิที่�จำะที่�ากัารพื่ยากัรณ์5ผลล�พื่ธุ5โดยอาศ�ยเพื่�ยงคำ!าของติ�วแปรติามีที่�ได� เราจำะสร�างแบบจำ�าลองโดยอาศ�ย Algorithm ของคำวามีนิ!าจำะเป#นิของกัารเกั�ดเหติ�กัารณ์5 เราเร�ยกัอ�ลกัอร�ที่9มีที่�สร�างข90นิมีานิ�0ว!า Log Odds หร+อ logic Transformation

      อ�ติราส!วนิคำวามีนิ!าจำะเป#นิ : คำวามีนิ!าจำะเป#นิที่�เหติ�กัารณ์5จำะเกั�ด

                        ความน าจะเป2นทั่��เหต3การณ์.ไม เก�ด้

 

      สามีารถแปลคำวามีหมีายได�เช้!นิเด�ยวกั�นิกั�บคำวามีนิ!าจำะเป#นิในิเกัมีกัารแข!งข�นิ หร+อในิที่างกั�ฬา เช้!นิ เมี+อเราบอกัว!า คำวามีนิ!าจำะเป#นิที่�ที่�มีใดที่�มีหนิ9งจำะช้นิะกัารแข!งข�นิฟ�ติบอลคำ+อ 3 ติ!อ 1 หมีายคำวามีว!าคำวามีนิ!าจำะเป#นิที่�ที่�มีนิ�0จำะช้นิะ เป#นิ 3 เที่!าของโอกัาสที่�นิะแพื่� หร+อมี�โอกัาสช้นิะ 75% และมี�โอกัาสแพื่� 25% ว�ธุ�กัารเช้!นินิ�0สามีารถนิ�ามีาใช้�กั�บกัล�!มีล(กัคำ�า ที่�จำะว�เคำราะห5ได�เช้!นิกั�นิ ติ�วอย!างกัารส!งจำดหมีายให�กัล�!มีล(กัคำ�า หากัเราบอกัว!าโอกัาสที่�ล(กัคำ�าจำะติอบสนิองเป#นิ 3 ติ!อ 1 นิ�0นิหมีายคำวามีว!าล(กัคำ�าที่�ติอบจำดหมีายมี�คำ!าเป#นิ 3 เที่!าของล(กัคำ�าที่�ไมี!ติอบจำดหมีาย

Page 39: DATAmining (1)

      Neural Network จำะใช้� Logistic Regression เป#นิเคำร+องมี+อที่�ช้!วยจำ�าแนิกัประเภที่ของติ�วแปร ประเภที่ของล(กัคำ�าที่�จำะซ่+0อหร+อไมี!ซ่+0อส�นิคำ�า และใช้�กัารว�เคำราะห5คำวามีถดถอยในิกัารว�เคำราะห5ติ�วแปรติ!อเนิ+อง เช้!นิคำวามีเป#นิ ไปได�ในิกัารซ่+0อส�นิคำ�าของล(กัคำ�า เป#นิติ�นิ

      แมี�ว!า Logistic Regression เป#นิว�ธุ�กัารที่�มี�ประส�ที่ธุ�ภาพื่ แติ!กั3มี�ข�อจำ�ากั�ดในิเร+องคำวามีเป#นิไปได�ของติ�วแปรติามี (Dependent

Variable) เนิ+องจำากัติ�วแปรติามีเหล!านิ�0นิอาจำไมี!เป#นิอ�สระกั�นิกั3ได� นิอกัจำากันิ�0นิผ(�ที่�ที่�ากัารว�เคำราะห5แบบจำ�าลอง จำะติ�องอาศ�ยประสบกัารณ์5ของตินิเองในิกัารว�เคำราะห5 และติ�องที่�ากัารเล+อกัข�อมี(ลที่�จำะนิ�ามีาว�เคำราะห5ได�อย!างถ(กัติ�อง จำากัติ�วอย!าง ที่�ผ!านิมีา ผ(�ว�เคำราะห5จำะติ�องเล+อกัว!าระหว!าง รายได� คำ!า Square ของรายได� หร+อคำ!า Algorithm

ของรายได� จำะเล+อกัติ�วแปรใดมีาที่�ากัารว�เคำราะห5และพื่ยากัรณ์5 จำะเห3นิได�ว!ากัารว�เคำราะห5ส!วนิใหญ!จำะข90นิอย(!กั�บประสบกัารณ์5ของผ(�ที่�ากัาร ว�เคำราะห5 ซ่9งติ�องเล+อกัติ�วแปรและว�ธุ�กัารที่�เหมีาะสมี จำ9งจำะที่�าให�ได�ผลกัารว�เคำราะห5ที่�ถ(กัติ�อง

      Neural Network จำะใช้� Hidden Layer ในิกัารประมีาณ์ร(ปแบบกัารว�เคำราะห5ที่�ไมี!ใช้!เส�นิติรง(Non - Linear) และที่�ากัารว�เคำราะห5แบบกั9งอ�ติโนิมี�ติ� ผ(�ใช้�จำ�าเป#นิติ�องใช้�คำวามีช้�านิาญเฉพื่าะติ�วกั�บระบบ Neural Network ติ�วอย!างเช้!นิ พื่ฤติ�กัรรมีกัารเล+อกัฟ:งกั5ช้�นิ จำะมี�ผลกัระที่บกั�บคำวามีสามีารถในิกัารเร�ยนิร( �ของระบบ Neural

Network ด�วยเป#นิที่�นิ!าส�งเกัติว!า Logic Transformation มี�ผลกัระที่บติ!อ Logistic Regression เช้!นิเด�ยวกั�บที่�พื่ฤติ�กัรรมีกัารเล+อกัฟ:งกั5ช้�นิมี�ผลกัระที่บกั�บ Neural Network และนิ�นิกั3เป#นิเหติ�ผลหล�กัที่�ไมี!มี� Hidden Layer ใดในิ Neural Network เป#นิ Logistic Regression   

11. Discriminant analysis

Page 40: DATAmining (1)

      Discriminant analysis เป#นิว�ธุ�กัารที่างคำณ์�ติศาสติร5ที่�เกั!าแกั!ว�ธุ�หนิ9งซ่9งใช้�ในิกัารจำ�าแนิกั และว�เคำราะห5ว�ธุ�นิ�0ได�ร�บกัาร เผยแพื่ร!คำร�0งแรกัในิป2 1936 โดย R. A. Fisher เพื่+อแยกัติ�นิ Iris ออกัเป#นิ 3 พื่�นิธุ�5 ว�ธุ�กัารนิ�0ที่�าให�คำ�นิพื่บพื่�นิธุ�5 ของติ�นิไมี�ประเภที่อ+นิๆ อ�กัมีากั ผลล�พื่ธุ5ที่�ได�จำากัแบบจำ�าลองช้นิ�ดนิ�0ง!ายติ!อกัารที่�าคำวามีเข�าใจำ เพื่ราะผ(�ใช้�งานิที่�วๆ ไปกั3สามีารถ พื่�จำารณ์าได�ว!าผลล�พื่ธุ5จำะอย(!ที่างด�านิใดของเส�นิที่างในิแบบจำ�าลอง กัารเร�ยนิร( �สามีารถที่�าได�ง!าย ว�ธุ�กัารที่�ใช้�มี�คำวามีไวติ!อร(ปแบบ ของข�อมี(ล ว�ธุ�นิ�0ถ(กันิ�ามีาใช้�มีากัในิที่างกัารแพื่ที่ย5 ส�งคำมีว�ที่ยา และช้�วว�ที่ยา

      Discriminant analysis ไมี!เป#นิที่�นิ�ยมีในิกัารที่�า Data

Mining เนิ+องจำากัเหติ�ผล 3 ประกัารคำ+อ

1. ติ�วแปรที่�ใช้�ในิกัารว�เคำราะห5ติ�องติ�0งอย(!บนิสมีมี�ติ�ฐานิว!า ข�อมี(ลมี�กัารกัระจำายแบบปกัติ�ร(ประฆั�งคำว�า (Normally

distributed) ซ่9งอาจำเป#นิไปไมี!ได� 2. ติ�วแปรติ!างๆ ที่�ย�งไมี!ได�ร�บกัารจำ�ดล�าด�บ และไมี!เป#นิอ�สระ

กั�นิ ไมี!สามีารถใช้�กั�บว�ธุ�กัารนิ�0ได� 3. ขอบเขติข�อมี(ลที่�ใช้�ในิกัารแบ!งแยกัประเภที่ ติ�องอย(!ในิร(ป

แบบเส�นิติรง (Linear form) แติ!บางคำร�0งเราไมี!สามีารถแบ!งแยกัข�อมี(ลบางอย!างได�

      Discriminant analysis ที่�มี�กัารปร�บปร�งติ!อมีาในิระยะหล�ง ได�แกั�ป:ญหาบางอย!างที่�เกั�ดข90นิในิกัารว�เคำราะห5 เช้!นิ สามีารถใช้�ฟ:งกั5ช้�นิ Quadratic ได� แที่นิที่�จำะติ�องเป#นิฟ:งกั5ช้�นิเส�นิติรงเพื่�ยงอย!างเด�ยว นิอกัจำากันิ�0ย�งสามีารถใช้�กัระจำาย แบบปกัติ�ของข�อมี(ลโดยประมีาณ์ในิกัารว�เคำราะห5 

12.  Generalized Additive Models (GAM)

      เป#นิ Model ที่�ขยายคำวามีสามีารถของ Linear Regression

และ Logistic Regression ว!า Additive กั3เพื่ราะว!ามี�กัารติ�0ง

Page 41: DATAmining (1)

สมีมีติ�ฐานิว!า Model สามีารถเข�ยนิออกัมีาได�ในิร(ปของผลรวมีของ Possibly Non-Linear Function ซ่9ง GAM สามีารถใช้�งานิได�ที่�0งแบบ Regression และ Classification คำ�ณ์สมีบ�ติ�หล�กัที่�เพื่�มีเติ�มีเข�าไปกั3คำ+อกัารหาคำ!า Lift ติ�วแปรผลล�พื่ธุ5จำะเกั�ดข90นิจำากัฟ:งกั5ช้�นิใดของติ�วแปรที่�ใช้�ในิกัารพื่ยากัรณ์5กั3ได� ติราบใดที่�ไมี!มี�กัารกั�าวกัระโดดที่�ไมี!ติ!อเนิ+อง ติ�วอย!าง เช้!นิ สมีมีติ�ว!ากัารขาดกัารช้�าระเง�นิเป#นิฟ:งกั5ช้�นิที่�ซ่�บซ่�อนิของติ�วแปรรายได� ซ่9งคำวามีนิ!าจำะเป#นิของกัารขาด กัารช้�าระเง�นิจำะลดลงติามีรายได�ที่�เพื่�มีข90นิ และคำวามีนิ!าจำะเป#นิของกัารขาดกัารช้�าระเง�นิจำะเพื่�มีข90นิอ�กัคำร�0งในิกัล�!มีผ(�มี�รายได� ปานิกัลาง ในิที่�ส�ดจำะข90นิส(งส�ดกั!อนิที่�จำะติกัลงอ�กัคำร�0งในิกัล�!มีมี�รายได�ส(ง ในิกัรณ์�นิ�0 Linear

Model จำะไมี!สามีารถ แสดงให�เห3นิถ9งคำวามีส�มีพื่�นิธุ5ระหว!างรายได�กั�บคำวามีนิ!าจำะเป#นิของกัารขาดกัารช้�าระเง�นิ ซ่9งมี�ล�กัษณ์ะเป#นิ Non-

Linear ได�

      GAM จำะใช้�คำวามีสามีารถของคำอมีพื่�วเติอร5ในิกัารคำ�นิหาร(ปแบบของฟ:งกั5ช้�นิที่�ให� Curve ที่�เหมีาะสมี ที่�ากัารรวมี คำ!าคำวามีส�มีพื่�นิธุ5ติ!างๆ เข�าด�วยกั�นิ ด�งที่�อธุ�บายมีาแล�วข�างติ�นิ แที่นิที่�จำะมี�กัารใช้� Parameter จำ�านิวนิมีากั เหมี+อนิที่� Neural Network ใช้� GAM

กั�าวไปเหนิ+อกัว!านิ�0นิอ�กัข�0นิหนิ9งและประเมี�นิคำ!าของ Output ในิแติ!ละ Input และเช้!นิเด�ยวกั�นิกั�บ Neural Network GAM จำะสร�างเส�นิโคำ�งข90นิมีาอย!างอ�ติโนิมี�ติ� โดยอาศ�ยข�อมี(ลที่�มี� 

13.  Multivariate Adaptive Regression Splits  (MARS)

      ในิกัลางที่ศวรรษที่� 80 Jerome H. Friedman หนิ9งในิผ(�ที่�คำ�ดคำ�นิ CART ได�พื่�ฒนิาว�ธุ�กัารใหมี!ข90นิมีา โดยติ�องกัารจำะกั�าจำ�ดข�อเส�ยติ!อไปนิ�0ออกัไป

o Discontinuous predictions (Or hard splits) o Dependence of all splits on previous ones

Page 42: DATAmining (1)

o Reduced interpretability due to interactions, especially high-order interaction

โดยกัารคำ�ด MARS Algorithm โดยคำวามีคำ�ดพื่+0นิฐานิง!ายๆ เพื่+อที่�จำะจำ�ากั�ดข�อเส�ยด�งกัล!าวโดย

o แที่นิที่� Discontinuous Branching ที่� Node ด�วยเส�นิติรง 1 คำ(! และในิข�0นิติอนิส�ดที่�ายของกัระบวนิกัาร สร�าง Model  เส�นิติรงด�งกัล!าวจำะถ(กัแที่นิที่�ด�วย Smooth Function เร�ยกัว!า Splits

o ไมี!จำ�าเป#นิที่�ว!ากัารแบ!งแยกัในิคำร�0งใหมี! จำะติ�องข90นิอย(!กั�บคำร�0งกั!อนิ  ที่�าให� MARS ส(ญเส�ยโคำรง สร�างแบบ Tree

ในิ CART และไมี!สามีารถที่�สร�างออกัมีาเป#นิกัฎได� หร+อกัล!าวอ�กันิ�ยหนิ9ง MARS สามีารถที่�จำะคำ�นิหาและแสดงรายกัารติ�วแปรอ�สระที่�มี�คำวามีส�าคำ�ญส(งส�ดเช้!นิเด�ยวกั�บปฎ�ส�มีพื่�นิธุ5ระหว!างติ�วแปรอ�สระ อ�กัที่�0ง MARS

สามีารถ Plot จำ�ดแสดงคำวามีเป#นิอ�สระของแติ!ละติ�วแปรอ�สระออกัมีาได� ผลล�พื่ธุ5ที่�ได�กั3คำ+อ Non-linear step-wise regression tools

Data warehouse , Data mining แลัะ Data Mart 

Data warehouse

          จำากัร(ปแสดงข�0นิติอนิของกัารที่�า Data Warehouse   

DATA TRANSFORMATION

                           &

INTEGRATION   

Page 43: DATAmining (1)

      

   SOURCE            

ร(ปแสดง ติ�าแหนิ!งของ DATA WAREHOUSE 

     DATA

WAREHOUSE           

SOURCE   

Page 44: DATAmining (1)

        

   SOURCE                              

Page 45: DATAmining (1)

          ข�0นิติอนิแรกักั!อนิที่�จำะที่�า Data Mining Process คำ+อกัารจำ�ดขนิาดของข�อมี(ลใหญ!ๆ ให�อย(!ในิร(ปแบบที่�ง!ายติ!อกัารเข�าถ9ง, กัารเข�าไปใช้�งานิและกัาร Sort โดยผ(�ใช้� กัารรวบรวมีข�อมี(ลในิ Process

ของ Data Mining อาจำจำะย�!งยากั เพื่ราะว!าบ!อยๆ พื่บว!าข�อมี(ลไมี!อย(!ในิร(ปแบบที่�เหมีาะสมีที่�จำะเข�าไปใช้�งานิได�

         จำ�ดประสงคำ5ของ Data Warehouse คำ+อช้!วยปร�บปร�งประส�ที่ธุ�ภาพื่ในิกัารติ�ดส�นิใจำที่�เกั�ยวกั�บธุ�รกั�จำที่�ติ�องเกั�ยวข�อง กั�บติ�วเลขจำ�านิวนิมีากั พื่+0นิฐานิด�งกัล!าวติ�0งอย(!บนิหล�กัของ Informational Data (ข�อมี(ลที่�ใช้�จำ�ดกัารองคำ5กัรซ่9งเป#นิข�อมี(ล สร�ปเพื่+อกัารติ�ดส�นิใจำ) แที่นิที่�จำะเป#นิ Operational Data (ข�อมี(ลที่�ใช้�ด�าเนิ�นิกั�จำกัรรมีขององคำ5กัร เช้!นิ ข�อมี(ลของพื่วกั Transaction

ติ!างๆ)

           คำ�าจำ�ากั�ดคำวามีของ Data Warehouse คำ+อกัารรวบรวมีของข�อมี(ลเพื่+อสนิ�บสนิ�นิกัารติ�ดส�นิใจำของฝ่=ายบร�หาร ข�อมี(ล ด�งกัล!าว ถ(กัแบ!งเป#นิระด�บๆ หลายระด�บ เพื่+อให�เกั�ดคำวามีสามีารถในิกัารเข�าถ9งข�อมี(ลได�อย!างรวดเร3ว

     Subjected Oriented ข�อมี(ลในิ Warehouse ถ(กักั�าหนิดในิล�กัษณ์ะ Business Term เช้!นิ ล(กัคำ�า , ส�นิคำ�า, รายงานิว�เคำราะห5ยอดขาย

     Integrated Term ที่�ใช้�ในิ Data Warehouse จำะติ�องถ(กักั�าหนิดให�สมีบ(รณ์5เหมี+อนิกั�นิที่�0งองคำ5กัร และจำะติ�อง ถ(กัติ�องกั�บแหล!งข�อมี(ลที่�0งภายในิและภายนิอกั

     Time Variant ข�อมี(ลในิ Data Warehouse เป#นิล�กัษณ์ะ Time Stamp ณ์ เวลาที่�ข�อมี(ลถ(กัใส!เข�ามีาหร+อข�อมี(ลถ(กัสร�ป ด�งนิ�0นิจำะเป#นิกัารบ�นิที่9กัในิล�กัษณ์ะติ!อเนิ+องและมี�ประว�ติ�และแนิวโนิ�มีกัารว�เคำราะห5ที่�เป#นิไปได�

Page 46: DATAmining (1)

     Non Volatile เมี+อถ(กัใส!เข�ามีาในิ Data Warehouse แล�วข�อมี(ลจำะไมี!ถ(กั Update อ�กั ด�งนิ�0นิจำ9งเป#นิ แหล!งที่�มี�รายงานิถ(กัติ�องและใช้�ว�เคำราะห5เช้�งเปร�ยบเที่�ยบ

     โดยมี�เคำร+องมี+อ 2  ติ�วในิกัารจำ�ดกัารที่�า Data Warehouse

คำ+อ (Data Transformation, Data Cleaning) และ End

User Data Access เคำร+องมี+อเหล!านิ�0จำะที่�าให�มี� นิใจำว!า Data

Warehouse จำะมี�คำวามีถ(กัติ�องของข�อมี(ล แมี!นิย�า มี�ประส�ที่ธุ�ภาพื่และมี�ติ�นิที่�นิในิกัารบร�หารติ�า

      ข�0นิติอนิของกัารที่�า Data Warehouse จำะเร�มีจำากัข�0นิติอนิติ!อไปนิ�0

Data Extraction จำะช้!วยส�งเคำราะห5เอาข�อมี(ลที่�เป#นิประโยช้นิ5ส�าหร�บ Data Mining เที่!านิ�0นิ

Sampling and Selecting จำะเป#นิติ�วกั�าหนิดขนิาดของข�อมี(ล

Aggregation จำะเป#นิติ�วรวบรวมีข�อมี(ลที่�เกั�ยวข�องเข�าไว�ด�วยกั�นิ

Data Cleaning จำะเป#นิติ�วสร�างคำวามีมี�นิใจำว!าข�อมี(ลจำะสมีบ(รณ์5 และลดคำวามีซ่�0าซ่�อนิของข�อมี(ล

Normalization จำะเป#นิติ�วช้!วยลดคำวามีซ่�0าซ่�อนิของข�อมี(ล Overlay เช้!นิ Demographic จำะเป#นิติ�วช้!วยที่�าให�เร!ง

Data Access ได�เร3วข90นิ

 

   ป:ญหาหล�กั ๆ ของ Data Warehouse กั3คำ+อคำ�ณ์ภาพื่ของข�อมี(ล เพื่+อหล�กัเล�ยงป:ญหา GIGO (Garbage In

Garbage Out) ข�อมี(ลคำวรมี� Missing Value นิ�อยที่�ส�ด เพื่ราะอาจำจำะมี�ผลกัระที่บติ!อกัารว�เคำราะห5ข�อมี(ลของ Data

Mining ได� 

Page 47: DATAmining (1)

Data Mart

     ป:จำจำ�บ�นิหลายองคำ5กัรเร�มีห�นิไปหา Data Mart ซ่9งมี�คำวามีเฉพื่าะเจำาะจำงมีากักัว!า และเข�าถ9งได�มีากักัว!า แติ!ขนิาดเล3กักัว!า Data

Warehouse มีากั Data Mart เป#นิกัารแยกัเกั3บข�อมี(ลจำากั Data

Warehouse เพื่+อเกั3บข�อมี(ลให�กั�บแผนิ เฉพื่าะที่�มี�กัารเร�ยกัใช้�ข�อมี(ลนิ�0นิๆ บ!อยเพื่+อไมี!ให�เกั�ดคำวามีซ่�0าซ่�อนิและลดปร�มีาณ์ข�อมี(ลที่�ไมี!เกั�ยวข�องที่�าให�กัาร Process ข�อมี(ลเร3วข90นิ 

Data Mining

     ถ+อได�ว!าเป#นิระด�บกัารนิ�าข�อมี(ลไปใช้�ที่�ส(งกัว!า Data

Warehouse และ Data Mart Data Mining เป#นิว�ธุ�คำ�ดที่�จำะนิ�าเอาข�อมี(ลมีาใช้�เพื่+อกัารว�เคำราะห5ให�เกั�ดประโยช้นิ5ส(งส�ด โดยเฉพื่าะอย!างย�งกัารติ�ดส�นิใจำของฝ่=ายบร�หาร ซ่9งระบบนิ�0เป#นิข�0นิติอนิติ!อไปของ Data Warehouse มี�ระบบกัารที่�างานิอ�ติโนิมี�ติ� สามีารถติ�ดส�นิใจำแที่นิผ(�ใช้�ได� โดยอาศ�ยกัฏเกัณ์ฑ์5ติ!างๆ ที่�กั�าหนิดข90นิมีาแล�วป6อนิให�คำอมีพื่�วเติอร5คำ�ด เคำร+องมี+อที่างธุ�รกั�จำ,เที่คำนิ�คำติ!างๆที่�เราใช้�เพื่+อสนิ�บสนิ�นิ กัารติ�ดส�นิใจำที่างธุ�รกั�จำนิ�0นิมี�พื่+0นิฐานิมีาจำากั เที่คำโนิโลย�สารสนิเที่ศ

      จำากัร(ป เร�มีติ�นิติ�0งแติ! ติารางข�อมี(ลธุรรมีดาไปจำนิถ9งกัารติ�ดส�นิใจำระด�บส(ง เราจำะเห3นิได�ว!า Data Mining เป#นิส!วนิประกัอบอ�นิใหมี!ที่�มี�คำวามีส�าคำ�ญของเคำร+องมี+อที่างธุ�รกั�จำอย!างหนิ9งคำ�ณ์คำ!าของข�อมี(ลที่�ใช้�สนิ�บสนิ�นิกัารติ�ดส�นิใจำจำะเพื่�มีข90นิจำากัล!างไปบนิส�ดของร(ปปBรามี�ด จำ�านิวนิของข�อมี(ลและขนิาด และระด�บกัารติ�ดส�นิใจำในิข�อมี(ลที่�ล�กัษณ์ะที่�ติ!างๆ กั�นิ จำ9งมี�ระด�บของผ(�ติ�ดส�นิใจำติ!างกั�นิ Database

administrator จำะติ�ดส�นิใจำบนิระด�บของ Data Warehouse

และแหล!งข�อมี(ลเที่!านิ�0นิ ส!วนินิ�กัว�เคำราะห5ธุ�รกั�จำและผ(�บร�หารจำะติ�ดส�นิใจำบนิเหนิ+อของปBรามี�ด   

Page 48: DATAmining (1)

          

END USER 

              MAKING

                    DECISION 

BUSINESS

ANALYSIS  

INCREASE POTENTIAL TO

SUPPORT BUSINESS

DECISIONS  

                                                        DATA

                                            PRESENTATION

                                         ( VISUALIZATION )   

                                             DATA MINING 

DATA

Page 49: DATAmining (1)

ANALYSIS    

                      DATA EXPLORATION

              ( OLAP , MDA ) 

DATABASE

ADMINSTRATOR   

                            DATA WAREHOUSE / DATA MART   

     DATA SOURCE

   ( PAPER , FILE , DATABASE , OLTP )   

         ร(ปแสดง Data Mining และเคำร+องมี+อที่างธุ�รกั�จำติ!าง ๆ ( Cabena et al., 1997 ) 

      กัารนิ�าข�อมี(ลของ Data Warehouse ที่�รวบรวมีข�อมี(ลจำากัหลายๆ ที่�และด9งข�อมี(ลเหล!านิ�0นิเข�าไปในิฐานิข�อมี(ล ที่�มี�ขนิาดใหญ!   โดย Data Mining จำะนิ�าข�อมี(ลมีาสร�างแบบจำ�าลองที่างสถ�ติ�   ในิกัารหาร(ปแบบคำวามีส�นิพื่�นิธุ5ของฐานิข�อมี(ล ที่�มี�อย(!   ในิกัารช้!วยว�เคำราะห5กัารติ�ดส�นิใจำในิธุ�รกั�จำหร+อกั�จำกัารอ+นิๆ ติามีติ�องกัาร    

      ร(ปแสดงกัระบวนิกัารจำ�ดกัาร Data Mining

Page 50: DATAmining (1)

ความสำ มพ นธี.ระหว าง Data Warehouse ก บ่ Data Mining

1.  ระบ่บ่คลั งข�อม�ลั (Data Warehouse)

      คำ+อระบบคำล�งข�อมี(ลเพื่+อกัารบร�หารได�ถ(กัออกัแบบมีาเพื่+อใช้�เกั3บข�อมี(ลขนิาดใหญ!ในิร(ปแบบ RDBMS (Relational Database

Management Systems) ที่�มี�ประส�ที่ธุ�ภาพื่ส(ง ในิระบบคำล�งข�อมี(ล ข�อมี(ลที่�ซ่�บซ่�อนิจำะถ(กัรวบรวมี หร+อเปล�ยนิแปลงให�ง!ายติ!อกัารจำ�ดเกั3บและสามีารถเร�ยกักัล�บมีาใช้�ได�อย!างรวดเร3ว ถ(กัติ�อง โดยข�อมี(ลติ!าง ๆ เหล!านิ�0จำะถ(กันิ�ามีาใช้� ส�าหร�บกัารว�เคำราะห5และช้!วยในิเร+องกัารติ�ดส�นิใจำ (DSS) โดยอาศ�ยเคำร+องมี+อ (Tool) ติ!างๆ มีาใช้�ในิกัารจำ�ดกัารที่�ารายงานิ และเพื่�มีประส�ที่ธุ�ภาพื่ส�าหร�บกัารติ�ดส�นิใจำให�รวดเร3วย�งข90นิ โดยผ(�บร�หาร นิ�กัวางแผนิงานิ และนิ�กัว�เคำราะห5ข�อมี(ลสามีารถ เร�ยกัหาข�อมี(ล หร+อ Query เพื่+อให�ได�ร�บคำ�าติอบในิร(ปแบบติารางรายงานิ หร+อ รายงานิ กัราฟ ซ่9งเคำร+องมี+อนิ�0 ถ+อได�ว!าเป#นิ ส�งส�าคำ�ญในิอ�นิที่�จำะนิ�าองคำ5กัรไปส(!คำวามีส�าเร3จำในิกัระบวนิกัารกัารติ�ดส�นิใจำ

กั�ญแจำส�าคำ�ญส�าหร�บองคำ5ประกัอบของระบบคำล�งข�อมี(ล

The integration environment กัารรวบรวมีข�อมี(ลจำากัแหล!งติ!างๆ

The data warehouse environment กัารจำ�ดกัารข�อมี(ลให�อย(!บนิมีาติรฐานิเด�ยวกั�นิ(Homogeneous model)

The decision support environment เป#นิกัระบวนิกัารสนิ�บสนิ�นิกัารติ�ดส�นิใจำโดยใช้�เคำร+องมี+อติ!างๆ เช้!นิ Ad-hoc querying ,What-if analysis ,Analyzing or OLAP and Data mining เพื่+อช้!วยในิกัารว�เคำราะห5โอกัาสที่างธุ�รกั�จำ และกัารวางแผนิเช้�งกัลย�ที่ธุ5  

Page 51: DATAmining (1)

2.  ระบ่บ่การว�เคราะห.ข�อม�ลัแลัะช้ วยในการต ด้สำ�นใจ(Data Mining)

      องคำ5กัรธุ�รกั�จำโดยเฉพื่าะธุ�รกั�จำให�บร�กัารด�านิโที่รคำมีนิาคำมีติ!างพื่ยายามีศ9กัษาข�อมี(ลจำากักัารให�บร�กัารเพื่+อสร�างคำวามีพื่9งพื่อใจำของล(กัคำ�าหร+อผ(�ใช้�บร�กัาร และหาว�ธุ�กัารบร�หารข�อมี(ลและนิ�าข�อมี(ลที่�เป#นิประโยช้นิ5เหล!านิ�0นิมีาใช้�ให�มี�ประส�ที่ธุ�ภาพื่ และได�ประส�ที่ธุ�ผลส(งส�ด Data mining อาจำเป#นิกั�ญแจำส�าคำ�ญที่�จำะนิ�าองคำ5กัรไปส(!ผ(�นิ�าในิติลาดได� ซ่9งเที่คำโนิโลย� data mining ได�ใช้�คำวามีกั�าวหนิ�าที่างกัารว�เคำราะห5ที่างสถ�ติ�และเที่คำนิ�คำแบบจำ�าลอง ในิกัารหาร(ปแบบและคำวามีส�มีพื่�นิธุ5ของฐานิข�อมี(ล (database) หร+อข�อมี(ลบนิระบบคำล�งข�อมี(ล (Data Warehouse) ขององคำ5กัรที่�ซ่!อนิอย(! ซ่9งกัารใช้�ว�ธุ�ธุรรมีดา อาจำไมี!สามีารถมีองเห3นิ

3.  ความสำ มพ นธี.ระหว าง Data mining แลัะ Data Warehouse

      คำวามีเกั�ยวข�องส�มีพื่�นิธุ5กั�นิระหว!าง Data Warehouse กั�บ Data Mining อย(!ที่� Data Mining คำ+อเที่คำนิ�คำ อ�นิล�0าย�คำในิกัารคำ�นิหาร(ปแบบ (Pattern) ของข�อมี(ลซ่9ง Tool ที่�ใช้�ที่�า Data

Mining แติกัติ!างจำากั Tool ที่�ใช้�ในิ กัารคำ�นิหาและรายงานิโดยที่�วไป โดยได�ถ(กัรวบรวมีเอาไว�เป#นิ Package ในิ Software Tools

บร�ษ�ที่ที่�ด�าเนิ�นิธุ�รกั�จำสามีารถซ่+0อ Tool ติ�วนิ�0ได�จำากัร�านิคำ�าคำอมีพื่�วเติอร5 ด�วยเที่คำนิ�คำของ Data Mining อย!างเข!นิ Neural

Networks, Decision Tree, Statistical Processing และ Data Visualization จำะสามีารถช้!วยให�กัารส�ารวจำร(ปแบบข�อมี(ลและว�เคำราะห5ข�อมี(ลในิ Data Warehouse ที่�าได�ด�ข90นิ แนิวโนิ�มีที่�ไกัลติ�วที่�ส�ดซ่9งกั�าล�งพื่�ฒนิาติ�วเองอย(! เรามี�กัจำะได�ย�นิช้+อว!า Warehouse Enabled OLTP คำ+อ Application ที่�รวบรวมีเอากัารสนิ�บสนิ�นิกัารติ�ดส�นิใจำจำากักัารที่�า Data Warehouse และ

Page 52: DATAmining (1)

กัารประมีวลผลแบบ Online Transaction Processing   : OLTP

ร�ปแบ่บ่ของการสำร�างระบ่บ่ Data Mining สำามารถแยกออกจากสำ วนของ Data Warehouse ได้�เป2นลั กษณ์ะด้ งน��

1.  Data Mining Above the Warehouse

   

      เหมีาะส�าหร�บกัารว�เคำราะห5ข�อมี(ลประกัอบ ที่�ไมี!ใช้!เป6าหมีายหล�กัขององคำ5กัร (Key objective) หร+อข�อมี(ลจำ�านิวนิไมี!มีากัไมี!สล�บซ่�บซ่�อนิ มี�ล�กัษณ์ะด�งภาพื่   

      ร(ปแสดง Data Mining Above the Warehouse

2. Data Mining Beside the Warehouse

    

                  ร(ปแสดง Data Mining Beside the Warehouse

   

3.  Data Mining Within the Warehouse

 

Page 53: DATAmining (1)

      ร(ปแสดง  Data Mining Within The Warehouse

4.  Stand-alone Data Mining

      แติ!ส�าหร�บองคำ5กัรที่�มี�กัารใช้�ประโยช้นิ5จำากัข�อมี(ลจำ�านิวนิมีากั แมี�ว!าจำะมี�ฐานิข�อมี(ลย!อยของแติ!ละแผนิกัอย(!  โดยมี�ระบบกัารจำ�ดกัารข�อมี(ลที่� มี�มีาติรฐานิ มี�ประส�ที่ธุ�ภาพื่ด�อย(!แล�ว กัารติ�ดติ�0งระบบคำล�งข�อมี(ล(Data Warehouse) กั3ไมี!จำ�าเป#นิส�าหร�บระบบกัารจำ�ดกัารว�เคำราะห5ข�อมี(ลและช้!วยกัารติ�ดส�นิใจำ(Data mining) กั3ได�

Algorithm สำ�าหร บ่ Data Mining

     เป#นิข�0นิติอนิในิกัารเล+อกัใช้� Algorithm ที่�เหมีาะสมีกั�บป:ญหาที่�ติ�องกัารที่�า Data Mining ซ่9งข90นิอย(!กั�บล�กัษณ์ะ ของป:ญหาและล�กัษณ์ะของข�อมี(ล เช้!นิ ถ�าป:ญหาคำ+อ ที่�าไมีล(กัคำ�าเปล�ยนิใจำไปใช้�“

ผล�ติภ�ณ์ฑ์5ของบร�ษ�ที่คำ(!แข!ง ซ่9งเรามี�ข�อมี(ล ” 2 ส!วนิคำ+อ ข�อมี(ลของล(กัคำ�าที่�เปล�ยนิใจำไปใช้�ผล�ติภ�ณ์ฑ์5ของบร�ษ�ที่คำ(!แข!งและล(กัคำ�าที่�ย�งคำงใช้�ผล�ติภ�ณ์ฑ์5ของบร�ษ�ที่ โดยส�งที่�เรา ติ�องกัารคำ+อ ร(ปแบบของคำวามีส�มีพื่�นิธุ5บางอย!างของล(กัคำ�าที่�ที่�าให�ล(กัคำ�ารายนิ�0นิมี�แนิวโนิ�มีที่�จำะเปล�ยนิใจำไปใช้�ผล�ติภ�ณ์ฑ์5ของ คำ(!แข!ง ซ่9ง Algorithm ที่�เหมีาะสมีกั�บป:ญหาล�กัษณ์ะนิ�0ได�แกั! Classification Tree Algorithm เป#นิติ�นิ กัารเล+อกั Algorithm นิ�0นิอาจำเล+อกัใช้�มีากักัว!า  1 Algorithm เพื่+อใช้�ในิกัารเปร�ยบเที่�ยบผลล�พื่ธุ5

      อ�ลกัอล�ที่9มี ในิกัารที่�า Data Mining มี�อย(!มีากัมีาย ที่�0งนิ�0เพื่ราะ Data Mining คำรอบคำ�มีเนิ+0อที่�กัว�างมีากันิ�นิเอง ยกัติ�วอย!างอ�ลกัอล�ที่9มีที่�สามีารถนิ�าไปประย�กัติ5ใช้�กั�บงานิที่�วๆไปได�

      1.  อ�ลกัอล�ที่9มี กัารนิ�บคำวามีถ�ของรายกัาร

      กัารนิ�บจำ�านิวนิรายกัารที่�เกั�ดข90นิภายใติ�เง+อนิไข เฉพื่าะ อ�ลกัอล�ที่9มีนิ�0มี�ที่�มีาจำากักัารว�เคำราะห5กัารซ่+0อของ เร�ยกัว!า Market basket

Page 54: DATAmining (1)

analysis กัล!าวคำ+อในิกัารซ่+0อส�นิคำ�าของล(กัคำ�า 1 คำร�0ง โดยไมี!ติ�องจำ�ากั�ดว!าจำะซ่+0อส�นิคำ�าในิห�างร�านิ หร+อส�งผ!านิไปรษณ์�ย5 หร+อกัารส�งซ่+0อส�นิคำ�าจำากั visual store บนิเว3บ โดยปกัติ�เราติ�องจำะติ�องกัารที่ราบว!าส�นิคำ�าใดบ�างที่�ล(กัคำ�ามี�กัจำะซ่+0อด�วยกั�นิ เพื่+อจำะนิ�าไปพื่�จำารณ์าปร�บปร�งกัารจำ�ดวางส�นิคำ�าในิร�านิ หร+อใช้�เพื่+อหาว�ธุ�วางร(ปคำ(!กั�นิในิใบโฆัษณ์าส�นิคำ�า กั!อนิอ+นิกั�าหนิดคำ�าว!า กัล�!มีรายกัาร (itemset) กั!อนิ หมีายถ9ง กัล�!มีส�นิคำ�าที่�จำะ ปรากัฏร!วมีกั�นิ เช้!นิ (รองเที่�า,ถ�งเที่�า), (ปากักัา,หมี9กั)

หร+อ(นิมี,นิ�0าผลไมี�) โดยกัล�!มีรายกัารด�งกัล!าวนิ�0 อาจำจำะจำ�บคำ(!กัล�!มีล(กัคำ�ากั�บส�นิคำ�า กั3ได�เช้!นิ ว�เคำราะห5หา ล(กัคำ�าที่�ซ่+0อส�นิคำ�าบางช้นิ�ดซ่�0าๆกั�นิ”

อย!างนิ�อย 5 คำร�0งแล�ว” กัรณ์�นิ�0ฐานิข�อมี(ลเรามี�กัารเกั3บรายกัารซ่+0อขายเป#นิจำ�านิวนิมีากั และคำ�าถามีข�างติ�นิ (query) นิ�0จำ�าเป#นิติ�องคำ�นิหา ที่�กัๆคำ(!ของล(กัคำ�ากั�บส�นิคำ�า เช้!นิ {นิาย กั, ส�นิคำ�า A},{นิาย กั, ส�นิคำ�า B},{นิาย กั, ส�นิคำ�า C},{นิาย ข, ส�นิคำ�า B} เป#นิติ�นิ นิ�บเป#นิงานิที่�หนิ�กัพื่อคำวรส�าหร�บ DBMS และถ�าจำะเข�ยนิ query ข�างติ�นิเป#นิ SQL จำะได�ว!า

      SELECT P.custid,P.item,SUM(P.qty)

      FROM  Purchases P

      GROUP BY P.custid,P.item

      HAVING SUM(P.qty) > 5

      หล�งจำากัที่� DBMS ประมีวลผล SQL นิ�0อย!างหนิ�กั เนิ+องจำากัมี�ข�อมี(ลที่�จำะติ�องติรวจำสอบมีากัมีายหลายคำ(! และแติ!ละคำ(!ติ�องคำ�นิหามีาจำากัที่�0งฐานิข�อมี(ลเลย แติ!ผลล�พื่ธุ5ของ query ช้นิ�ดนิ�0ว!าเป#นิ “iceberg query” ซ่9งเปร�ยบเที่�ยบกั�บ ส�านิวนิไที่ยกั3คำ+อ งมีเข3มีในิมีหาสมี�ที่รนิ�นิเอง

      แสดง อ�ลกัอล�ที่9มี ในิกัารคำ�นิหากัล�!มีรายกัารที่�0งหมีดจำากัฐานิข�อมี(ล ภายใติ�เง+อนิไขที่�กั�าหนิดข90นิ

      for each item  // level 1

Page 55: DATAmining (1)

      // นิ�นิคำ+อปรากัฏในิจำ�านิวนิรายกัารที่�มีากักัว!าที่�กั�าหนิด

      check if it is a frequent itemset

      K = 1

      Repeat  // ที่�าซ่�0าเพื่+อหา frequent itemsets

            // level k +1

            for each new frequent itemset IK with K items

            generate all items IK + 1 with k +1 items,

            Ik is a subset of IK + 1

            Scan all transactions once and check if the generated

            K + 1 – itemsets are frequent.

            k = k + 1

            until no new frequent itemsets are identified

ผลล�พื่ธุ5ของ อ�ลกัอล�ที่9มีนิ�0 จำะใช้�แสดงกัล�!มีของรายกัารที่�ปรากัฏบ!อยคำร�0ง ด�งที่�เรากั�าหนิด

      2.  อ�ลกัอล�ที่9มี เพื่+อกัารจำ�ดหมีวดหมี(! (Classification)

      กัารจำ�ดหมีวดหมี(!ของข�อมี(ลคำ+อกัารส�ารวจำรายกัารในิฐานิข�อมี(ล เพื่+อแยกัแยะให�อย(!ในิหมีวดที่�เราได�กั�าหนิดไว�ล!วงหนิ�า แล�ว เช้!นิ กัารแบ!งกัล�!มีส�นิคำ�าเป#นิกัล�!มีเคำร+องใช้� กัล�!มีอาหารสด กัล�!มีอาหารแห�ง เป#นิติ�นิ อ�ลกัอล�ที่9มี ที่�ใช้�ในิกัารจำ�ดหมีวดหมี(! ออกัเป#นิ 2 แบบ หล�กัๆคำ+อ

o แบบติ�นิไมี� (Decision tree)

Page 56: DATAmining (1)

o แบบนิ�วรอลเนิ3ติ (Neural network)

   

      โคำรงสร�างแบบติ�นิไมี� เป#นิที่�นิ�ยมีกั�นิมีากั เป#นิล�กัษณ์ะที่�คำนิจำ�านิวนิมีากัคำ��นิเคำย ที่�าให�เข�าใจำได�ง!าย มี�ล�กัษณ์ะเหมี+อนิแผนิภ(มี�องคำ5กัร จำากัร(ปแสดงให�เห3นิถ9ง Decision tree ส�าหร�บว�เคำราะห5ว!าล(กัคำ�าบ�านิเช้!ามี�คำวามีสนิใจำ ที่�จำะซ่+0อบ�านิเป#นิของตินิเองหร+อไมี! โดยใช้�ป:จำจำ�ยในิกัารว�เคำราะห5 คำ+อ ระยะเวลาที่�ล(กัคำ�าได�เช้!าบ�านิมีา และอาย�ของล(กัคำ�า 

             ร(ปแสดงติ�วอย!างของ Decision tree เพื่+อว�เคำราะห5โอกัาสที่�ล(กัคำ�าบ�านิเช้!าจำะซ่+0อบ�านิ

โคำรงสร�างอ�กัแบบหนิ9ง ของ อ�ลกัอล�ที่9มีนิ�0คำ+อ โคำรงสร�างนิ�วรอลเนิ3ติเว�ร5กั

      นิ�วรอลเนิ3ติ หร+อ นิ�วรอลเนิ3ติเว�ร5กั เป#นิเที่คำโนิโลย�ที่�มี�มีาจำากังานิว�จำ�ยด�านิป:ญญาประด�ษฐ5 (Artificial Intelligence : AI) เพื่+อใช้�ในิกัารคำ�านิวณ์ คำ!าฟ:งช้�นิจำากักัล�!มีข�อมี(ล ว�ธุ�กัารของนิ�วรอลเนิ3ติ (แที่�ที่�จำร�งติ�องเร�ยกัให�เติ3มีว!า Artificial Neural Networks หร+อ ANN) เป#นิว�ธุ�กัารที่�ให�เคำร+องเร�ยนิร( �จำากัติ�วอย!างติ�นิแบบ แล�วฝ่Dกั (train) ให�ระบบร( �จำ�กัที่�จำะคำ�ดแกั�ป:ญหาที่�กัว�างข90นิได� ในิโคำรงสร�างของ นิ�วรอลเนิ3ติ จำะประกัอบด�วยโหนิด (node) ส�าหร�บ อ�นิพื่�ติ-เอาติ5พื่�ติ และกัารประมีวลผล กัระจำายอย(!ในิโคำรงสร�างเป#นิช้�0นิๆ ได�แกั! input

layer ,output layer และ hidden layer กัารประมีวลผลของนิ�วรอลเนิ3ติ จำะอาศ�ยกัารส!งกัารที่�างานิผ!านิโหนิดติ!างๆ ในิ layer เหล!านิ�0 ติ�วอย!างร(ปเป#นิกัารว�เคำราะห5แบบเด�ยวกั�บร(ปข�างบนิ ในิโคำรงสร�างแบบ นิ�วรอลเนิ3ติ

Page 57: DATAmining (1)

                ร�ปแสำด้ง น�วรอลัเน1ต เพ��อว�เคราะห.การเช้ าแลัซื้��อบ่�านของลั�กค�า

 

      ติารางแสดง Business_info แสดงถ9งรายกัารที่�0งหมีด เกั�ยวกั�บล(กัคำ�าบ�านิเช้!าของบร�ษ�ที่ โดยมี�รายละเอ�ยดเกั�ยวกั�บอาย� และระยะเวลากัารเช้!า รวมีที่�0งกัารซ่+0อบ�านิของล(กัคำ�าแติ!ละราย ด�งนิ�0 

ติาราง Business_info

Age Rent_period Buy23 3 No36 1.5 No20 1.5 No27 2 Yes20 1 No50 2.5 Yes36 1 No36 2 Yes22 2.5 No 

SQL ส�าหร�บ Decision tree ของติ�วอย!างนิ�0แบ!งเป#นิ 2 ช้�ด ส�าหร�บป:จำจำ�ยแติ!ละอย!าง

1. SQL สำ�าหร บ่ root node ด้ งน��

SELECT B.rent_Period , B.Buy ,COUNT(*)

   FROM Business_info B

WHERE B.Rent_Period > 2

GROUP BY  B.Rent_Period,B.Buy

Page 58: DATAmining (1)

ผลล�พื่ธุ5ของ SQL นิ�0คำ+อ

Rent_Period

Buy Yes No

1 0 2  1.5 0 2  2 2 0  2.5 1 1  3 0 1   

2.    SQL สำ�าหร บ่ node ทั่��เป2น child ทั่างขวาของ root 

ค�อ

SELECT B.Age , B.Buy ,COUNT(*)

FROM Business_info B

   WHERE B.Age > 25

GROUP BY  B.Age,B.Buy

ผลล�พื่ธุ5ของ SQL นิ�0คำ+อ

Rent_period

Buy Yes No

20 0 2  22 0 1  23 2 1  27 1 0  36 1 2  50 1 0   

Page 59: DATAmining (1)

      ผลล�พื่ธุ5ที่�ได�แติ!ละโหนิดของ Decision tree  เร�ยกัว!า AVC

sets (Attribute value , Class label ) จำากัติ�วอย!างข�างติ�นิจำะเห3นิได�ว!ามี� 2 AVC sets เพื่+อใช้�ในิกัารจำ�ดกัล�!มีล(กัคำ�า

      แสดงว�ธุ�กัารสร�าง Decision tree ในิหนิ!วยคำวามีจำ�า

      Top-Down Decision tree Induction schema :

      BuildTree (Node n. data partition D ,split selection method S)

1. Apply S to D to find the splitting criterion 2. If (a good splitting criterion is found) 3. Create two children nodes n1 and n2 of n 4. Partition D into D1 and D2 5. BuildTree (n1 ,D1 ,S) 6. BuildTree(n2 , D2,S) 7. End if

3. อ ลักอลั�ทั่/ม อ��นๆ

   นิอกัจำากัอ�ลกัอล�ที่9มีข�างติ�นิแล�ว Data Mining ย�งมี� อ�ลกัอล�ที่9มีอ+นิๆอ�กัจำ�านิวนิวนิมีากั เช้!นิ

1. Database Clustering หร+อ Segmentation ได�แกั!กัารแบ!งข�อมี(ลเป#นิแบบกัล�!มีๆ โดยที่�ไมี!ร( �ล!วงหนิ�าว!าจำะมี�ที่�0งหมีด

กั�กัล�!มี โดยกัารจำ�ดกัล�!มีข�อมี(ลด�งกัล!าวได�จำากักัารพื่�จำารณ์าคำ�ณ์สมีบ�ติ�ในิหลายๆมี�ติ�ของข�อมี(ล ถ�ารายกัารในิข�อมี(ลมี�ล�กัษณ์ะ คำล�ายคำล9งกั�นิเป#นิกัล�!มีเด�ยวกั�นิได� กั3จำะรวมีเข�าด�วยกั�นิ ร(ปแสดงกัล�!มีของข�อมี(ลที่�พื่�จำารณ์าจำากัคำ�ณ์สมีบ�ติ�เพื่�ยง 2 มี�ติ� (ข�อมี(ลอาจำจำะมี�หลายมี�ติ�กั3ได ซ่9งมี�กัจำะไมี!แสดงเป#นิร(ปภาพื่ได�)   

Page 60: DATAmining (1)

                  ร(ปแสดงข�อมี(ลในิ 2 มี�ติ� แสดงกัารแบ!งข�อมี(ลเป#นิ 3

กัล�!มี   

2. กัารติรวจำหาคำ!าคำวามีเบ�ยงเบนิ (Deviation Detection) 

เป#นิกัรรมีว�ธุ�ในิกัารหาคำ!าที่�แติกัติ!างไปจำากัมีาติรฐานิ

หร+อคำ!าที่�คำาดคำ�ดไว�ว!า มี�คำวามีแติกัติ!างมีากันิ�อยเพื่�ยงใด โดยที่�วไปมี�กัใช้�ว�ธุ�กัารที่าง สถ�ติ�หร+อกัารแสดงให�เห3นิภาพื่(Visualization) ด�งติ�วอย!างในิร(ป   ส�าหร�บ อ�ลกัอล�ที่9มี นิ�0สามีารถใช้�ในิกัารติรวจำสอบ ลายเซ่3นิปลอมี หร+อ บ�ติรเคำรด�ติปลอมี รวมีที่�0งหารติรวจำหา จำ�ดบกัพื่ร!อง ช้�0นิงานิในิโรงงานิอ�ติสาหกัรรมี

                                ร(ป Visualization แสดงคำ!าเบ�ยงเบนิ

การประย3กต. Web mining

เหม�องข�อม�ลับ่นเว1บ่ (Web Mining)

      กัารที่�าเหมี+องข�อมี(ลบนิเว3บ เป#นิเสมี+อนิกัารที่�าเหมี+องที่องนิ�0นิ Web Mining เป#นิล�กัษณ์ะเฉพื่าะอย!างหนิ9ง ของกัารนิ�าหล�กักัาร Data Mining มีาใช้�กั�บข�อมี(ลที่�อาจำมี�ขนิาดใหญ!มีากั ที่�0งนิ�0ข90นิอย(!กั�บขอบเขติของระบบ ที่�จำะที่�า Web mining เช้!นิ ข�อมี(ลของเราจำะติ�องรวบรวมีและประมีวลผลจำากัข�อมี(ลที่�0งหมีดบนิเว3บ ข�อมี(ลกั3จำะมี�ขนิาดใหญ! แติ!ถ�าเราประมีวลผล ในิเคำร+อข!ายที่�เล3กัลง หร+อบนิเคำร+องเด�ยวๆ กั3จำะเป#นิเพื่�ยง Data Mining ขนิาดเล3กันิ�นิเอง หากัเรานิ�าข�อมี(ลเหล!านิ�0มีา ผ!านิขบวนิกัาร Web mining (หร+อ Data Mining) กั3จำะได�ข�อมี(ลนิ�าไปใช้�ประโยช้นิ5 ไมี!ว!าจำะเป#นิในิด�านิกัารปร�บปร�ง กัารให�บร�กัารเว3บ  โดยผ(�ด(แลเว3บเอง หร+ออาจำจำะเป#นิข�อมี(ลที่�นิ�าไปใช้�ในิกัารช้!วยกัารด�าเนิ�นิธุ�รกั�จำขอผ(�ประกัอบกัารได�

Page 61: DATAmining (1)

การประย3กต. Web Mining เพ��อการบ่ร�การเว1บ่

      ได�มี�งานิว�จำ�ยจำ�านิวนิมีากัที่�นิ�า Web mining มีาช้!วยในิกัารว�เคำราะห5 งานิบร�กัารเว3บ เพื่+อนิ�าไปพื่�ฒนิากัารให�บร�กัารที่�ด� และนิ!าสนิใจำข90นิ ส!วนิใหญ!จำะเนิ�นิไปที่�กัารนิ�าข�อมี(ลในิร(ปแบบติ�วอ�กัษร (Text) มีาว�เคำราะห5รวมีกั�บข�อมี(ลช้นิ�ดอ+นิ โดยข�อมี(ลเหล!านิ�0มี�กัจำะได�จำากักัารบ�นิที่9กัรายละเอ�ยดในิที่�กัๆคำร�0งที่�มี�ผ(�เข�าใช้�บร�กัารบนิเว3บแติ!ละแห!ง ติ�วอย!างของกัารประย�กัติ5 ใช้� Web mining ในิล�กัษณ์ะนิ�0ได�แกั!

กัารรวบรวมีข�อมี(ลติ�วอ�กัษรเข�ากั�บข�อมี(ล Links บนิเว3บ เพื่+อสร�ปหาเว3บที่�จำ�าเป#นิที่�จำะติ�องได�ร�บอนิ�ญาติ จำ9งจำะเข�าใช้�ได� ภายใติ�ห�วข�อที่�กั�าหนิด โดยจำะมี�คำ�ณ์ภาพื่ด�กัว!ากัารใช้� Search

Engines ที่�มี�อย(!แพื่ร!หลายในิป:จำจำ�บ�นิ กัารผสมีข�อมี(ลเกั�ยวกั�บล�กัษณ์ะกัารใช้� ช้!วงระยะเวลา และ

Links ที่�มี�ผ(�เข�าใช้�บร�กัารเว3บเพื่+อนิ�ามีาพื่�จำารณ์าปร�บปร�ง กัารให�บร�กัาร โดยอาจำจำะเพื่�มีหร+อลดกัารให�บร�กัารบางช้นิ�ดให�เหมีาะสมีกั�บกัล�!มีผ(�ใช้�แติ!ละสภาพื่แวดล�อมี ซ่9งอาจำจำะมี� คำวามีสนิใจำแติกัติ!างกั�นิไป

กัารนิ�าช้นิ�ดข�อมี(ลติ�วอ�กัษร และข�อมี(ลของร(ปภาพื่ (image)

มีาผสมีผสานิกั�นิ เพื่+อประโยช้นิ5ในิกัารคำ�นิหาของ Search

Engines ในิกัรณ์�ที่�ติ�องกัารคำ�นิหาข�อมี(ลที่�เป#นิร(ปภาพื่

      นิอกัจำากันิ�0 Web mining ย�งสามีารถช้!วยให�คำ�นิพื่บข�อมี(ลใหมี!ๆ อ�นิจำะเอ+0อประโยช้นิ5ให�งานิว�จำ�ยด�านิอ+นิๆด�วยเช้!นิ กัารคำ�นิพื่บว�ที่ยากัารใหมี!ๆ จำากักัารว�เคำราะห5ข�อมี(ลข�ามีเว3บไซ่ติ5หลายๆแห!งด�วยกั�นิ

Web mining ก บ่การทั่�าธี3รก�จ E-Commerce

      ในิกัารที่�าธุ�รกั�จำติ!างๆ ไมี!ว!าจำะเป#นิร(ปแบบของห�างร�านิ บร�กัารส�งของที่างไปรษณ์�ย5 หร+อกัารที่�าธุ�รกั�จำแบบ อ�เล3กัที่รอนิ�กัส5นิ�0นิ ป:จำจำ�ยหนิ9งที่�มี�คำวามีส�าคำ�ญมีากัติ!อคำวามีส�าเร3จำที่างด�านิธุ�รกั�จำคำ+อ คำวามีเข�าใจำ

Page 62: DATAmining (1)

ในิติ�วล(กัคำ�า หร+อ กัล�!มีล(กัคำ�า ย�งร( �ข�อมี(ลมีากัย�งที่�าให� เข�าใจำล(กัคำ�าอย!างแที่�จำร�งมีากัข90นิ โอกัาสที่�จำะที่�าธุ�รกั�จำให�ติรงกั�บคำวามีติ�องกัารของติลาดกั3จำะมี�มีากัข90นิด�วย

      ข�อมี(ลล(กัคำ�าด�งกัล!าวมีานิ�0 คำวามีจำร�งแล�วมี�ให�นิ�ามีาใช้�ได�มีากัมีายอย(!แล�วแติ!อาจำจำะอย(!ในิร(ปที่�เป#นิได�ไมี!ช้�ดเจำนิ อ�นิได�แกั! ข�อมี(ลที่�รวบรวมีไว�ที่�ได�จำากักัารบ�นิที่9กัที่� log file ของกัารให�บร�กัารเว3บ หร+อข�อมี(ลจำากัสมี�คำรสมีาช้�กัในิร(ปแบบติ!างๆเป#นิติ�นิ ข�อมี(ลเหล!านิ�0สามีารถอ�านิวยประโยช้นิ5ในิกัารติ�ดติามีด(ผ(�ใช้� (user tracking) ย�งผ(�ใช้�เข�าเว3บบ!อย หร+อนิานิข90นิ เราย�งมี�โอกัาสที่ราบและร( �จำ�กักั�บผ(�ใช้�มีากัข90นิที่!านิ�0นิ ส�าหร�บข�อมี(ลด�งกัล!าวเกั�ยวกั�บผ(�ใช้�จำะมี�กัารว�เคำราะห5ออกัมีา 3

ล�กัษณ์ะด�งนิ�0

1. Demographics เป#นิข�อมี(ลเกั�ยวกั�บที่�อย(! หร+อสถานิที่�ของผ(�ใช้�ในิขณ์ะที่�เข�าบร�กัารเว3บ ซ่9งสามีารถประมีวลผล เป#นิสถ�ติ�บร�เวณ์ที่�อย(!อาศ�ยของกัล�!มีผ(�ใช้�ส!วนิมีากัได�

2. Phychographics เป#นิข�อมี(ลด�านิจำ�ติว�ที่ยา ซ่9งแสดงถ9งพื่ฤติ�กัรรมี หร+อคำ!านิ�ยมีในิด�านิติ!างๆ ของผ(�ใช้�โดยสามีารถ จำะแบ!งแยกักัล�!มีของผ(�ใช้�ติามีข�อมี(ลกัารเข�าใช้�บร�กัาร ที่�0งในิแง!ของเวลาและเนิ+0อหา

3. Technolographics เป#นิข�อมี(ลที่�แสดงถ9งระด�บคำวามีร( � และคำวามีสนิใจำเที่คำโนิโลย�ติ!างๆ ของผ(�ใช้�รวมีถ9งเคำร+องที่� ติ�ดติ!อเข�ามีาด�วย ซ่9งจำะช้!วยในิกัารพื่�ฒนิาส�นิคำ�าและบร�กัารที่�นิ!าสนิใจำและเหมีาะสมีในิแง! เที่คำโนิโลย�ได�ด�ข90นิ

      เมี+อนิ�าข�อมี(ลที่�ว�เคำราะห5ได�ที่�0ง 3 ล�กัษณ์ะนิ�0มีาพื่�จำารณ์าโดยละเอ�ยด จำะเกั�ดประโยช้นิ5อย!างมีากัในิกัารศ9กัษาเกั�ยวกั�บ สภาพื่และพื่ฤติ�กัรรมีโดยรวมีของประช้ากัร ซ่9งจำ�านิวนิข�อมี(ลที่�จำะนิ�ามีาว�เคำราะห5มี�กัจำะมี�จำ�านิวนิมีากั และให�ผลกัารว�เคำราะห5 มี�คำวามีแมี!นิย�าส(ง ในิที่างปฏ�บ�ติ� เที่คำนิ�คำติ!างๆในิกัารว�เคำราะห5ข�อมี(ลของ Data Mining

สามีารถนิ�ามีาใช้�กั�บ Web mining ได�เป#นิอย!างด�

Page 63: DATAmining (1)

      จำากัเนิ+0อหาเกั�ยวกั�บ Data Mining หร+อ Web mining ด�งที่�ได�กัล!าวมีา เห3นิได�ว!าเที่คำโนิโลย�เหล!านิ�0 สามีารถกั!อให�เกั�ดประโยช้นิ5ได�อย!างมีากัมีาย ที่�0งในิแง!กัารพื่�ฒนิาว�จำ�ย หร+อที่างธุ�รกั�จำ กัารเพื่�มีกั�าไร กัารลดติ�นิที่�นิ ได�อย!างมีหาศาล อย!างไรกั3ติามีส�งที่�ติ�องคำ�านิ9งเสมีอ  คำ+อ คำวามีสมีบ(รณ์5 และ ถ(กัติ�องของข�อมี(ลกั!อนิที่�จำะนิ�ามีาว�เคำราะห5 กัารเล+อกัเที่คำนิ�คำของ Data Mining ที่�เหมีาะสมีติรงกั�บคำวามีติ�องกัารที่�แที่�จำร�ง เพื่+อผลล�พื่ธุ5ที่�เราติ�องกัาร 

Software สำ�าหร บ่  Data Mining

     ป:จำจำ�บ�นิ Data Mining เร�มีได�ร�บคำวามีนิ�ยมีใช้�กั�นิในิองคำ5กัรติ!าง ๆ มีากัข90นิ ที่�0งนิ�0เนิ+องมีาจำากัป:จำจำ�ยหลายประกัาร เช้!นิ ปร�มีาณ์ข�อมี(ลที่�แติ!ละองคำ5กัรติ�องเกั�ยวข�องมี�เพื่�มีข90นิ (มี�ขนิาดหนิ!วยนิ�บเป#นิ Gigabyte หร+ออาจำเป#นิ Terabyte) และนิ�บว�นิจำะเพื่�มีข90นิเร+อย ๆ กัารที่�ากัารว�เคำราะห5ข�อมี(ลขนิาดใหญ!เหล!านิ�0เพื่+อสร�างคำ�ณ์คำ!าให�กั�บข�อมี(ลเป#นิเร+องยากัแติ!กั3จำ�าเป#นิ ซ่9ง Data Mining เป#นิเคำร+องมี+อติ�วหนิ9งที่�เข�ามีาช้!วยในิเร+องนิ�0  คำวามีสามีารถของ CPU ที่�เพื่�มีข90นิในิขณ์ะที่�ราคำาลดลง  กัารพื่�ฒนิาผล�ติภ�ณ์ฑ์5ที่�เกั�ยวกั�บ Data Mining ที่�ที่�างานิบนิ PC ( Personal Computer )  เหล!านิ�0ล�วนิเป#นิป:จำจำ�ยที่�ที่�าให�องคำ5กัรติ!าง ๆ เร�มีห�นิมีามีอง Data Mining Tools มีากัข90นิ ติ�วอย!างบร�ษ�ที่ที่�ที่�ากัารพื่�ฒนิาผล�ติภ�ณ์ฑ์5ที่�เกั�ยวกั�บ Data Mining

ที่�มี�ช้+อเส�ยงได�แกั!

Kate โดยบร�ษ�ที่ Acknosoft ใช้�เที่คำนิ�คำ Decision trees

และ Case-based reasoning ใช้�กั�บ

Windows NT และ UNIX คำ(กั�บฐานิข�อมี(ล ( บนิ NT ) คำ+อ Microsoft Access

Knowledge Seeker โดยบร�ษ�ที่ Angoss ใช้�เที่คำนิ�คำ Decision trees และ Statistics ใช้�กั�บ

Page 64: DATAmining (1)

Windows NT ติ�ดติ!อฐานิข�อมี(ลผ!านิที่าง ODBC

Business Miner โดยบร�ษ�ที่ Business Objects ใช้�เที่คำนิ�คำ Neural Networks และ Machine

Learning ใช้�กั�บ Windows NT ติ�ดติ!อฐานิข�อมี(ลผ!านิ ODBC

Intelligent Miner เป#นิผล�ติภ�ณ์ฑ์5ของ IBM

Corporation ใช้�เที่คำนิ�คำ Classification , Association

Rules และ Predictive Modes ใช้�กั�บ UNIX (AIX) บนิ DB2 

เป#นิช้�ดของโปรแกัรมี ซ่9งประกัอบด�วย

Explorer , Diamond , และ Quest

Explorer เป#นิเคำร+องมี+อที่�ใช้�เที่คำนิ�คำแบบ neural

networks ส�าหร�บแกั�ป:ญหาประเภที่ clustering

Diamond เป#นิผล�ติภ�ณ์ฑ์5ที่�ช้!วยในิด�านิกัารแสดงผล ( visualization )

Quest เป#นิเคำร+องมี+อที่�ใช้�เพื่+อที่�าส�งที่� IBM เร�ยกัว!า “Link analysis”

Enterprise Miner โดยบร�ษ�ที่ SAS ใช้�เที่คำนิ�คำ Decision trees , Association Rules , Neural network ,

Regression และ Clustering ใช้�กั�บระบบ UNIX ( Solaris ) ,

Windows NT และ แมีคำอ�นิที่อช้ ติ�ดติ!อกั�บฐานิข�อมี(ลผ!านิ ODBC

และสนิ�บสนิ�นิ Oracle

Mineset โดยบร�ษ�ที่ Silicon Graphics ใช้�เที่คำนิ�คำ Decision trees และ Association Rules ใช้�กั�บ

ระบบ UNIX ( Irix ) บนิฐานิข�อมี(ล Oracle , Sybase และ Informix

Page 65: DATAmining (1)

DataMind Professional Edition , DataMind DataCrucher เป#นิผล�ติภ�ณ์ฑ์5ของ DataMind

Corporation DataMind ใช้�เที่คำโนิโลย�ที่�เร�ยกัว!า “Agent

Network Technology”  ซ่9งมี�พื่+0นิฐานิมีาจำากังานิว�จำ�ยของ Dr.

Khai Minh Pham ที่� University of Paris กัารแสดงผลของ DataMind แสดงผลผ!านิ Microsoft’s Excel

Drawin เป#นิผล�ติภ�ณ์ฑ์5ของ Thinking Machines

Corporation Darwin เป#นิช้�ดของผล�ติภ�ณ์ฑ์5

Data Mining ประกัอบด�วย

StarTree ใช้�เที่คำนิ�คำแบบ Decision tree ,

Classification and Regression Tree ( CART ) ในิกัารที่�า Data Mining

StarNet ใช้�เที่คำนิ�คำแบบ Neural network หร+อ Artificial

neural networks ( ANNs ) ในิกัารที่�า Data Mining

StarMatch ใช้�เที่คำนิ�คำแบบ k-Nearest Neighbor

( KNN ) และ Memory-based Reasoning        ( MBR )

StarGene ใช้�เที่คำนิ�คำแบบ Genetic algorithm และ optimization

StarView เป#นิเคำร+องมี+อที่�ช้!วยในิกัารแสดงผลข�อมี(ล ( data visualization )

 

     ส�าหร�บเที่คำนิ�คำที่�ใช้�นิ �0แติ!ละคำ!ายได�เล+อกัมีาติ!างกั�นิติามีคำวามีเหมีาะสมีในิกัารใช้�งานิแติ!ละด�านินิอกัจำากันิ�0เราย�งสามีารถ ผสมีผสานิเที่คำนิ�คำหลาย ๆ อย!างมีาประย�กัติ5ให�เกั�ดประโยช้นิ5กั�บงานิของเราอ�กัด�วย ยกัติ�วอย!างเช้!นิ นิ�กัว�จำ�ยที่างด�านิประมีวล ผลร(ปภาพื่ ( Image

Processing ) มี�กัจำะใช้�เที่คำนิ�คำ Clustering กั�นิมีากั  ในิขณ์ะที่�นิ�กั

Page 66: DATAmining (1)

ว�ที่ยาศาสติร5ที่�วไปจำะใช้� Neural nets  ส!วนินิ�กัธุ�รกั�จำใช้� Association Rule มีากักัว!า    ส�าหร�บนิ�กัเว�ลด5ไวด5เว3บ กั3ใช้�ประโยช้นิ5จำากัแอพื่พื่ล�เคำช้�นิของ Data Mining ได�เช้!นิเด�ยวกั�นิ ซ่9งมี�คำ�าเร�ยกัเฉพื่าะว!า Web Mining หร+อ Web Data Mining โดยเฉพื่าะอย!างย�งกัารใช้�งานิ Data Mining ในิ

e-commerce และ e-research ที่�มี�กัารแข!งข�นิกั�นิส(งเป#นิเที่คำโนิโลย�ส�าหร�บติลาดขนิาดใหญ! ( Mass market technology )

ค3ณ์สำมบ่ ต�หลั ก ๆ 4 ประการทั่��ซื้อฟต.แวร.จะต�องม�  ด้ งน��

1. มี�เคำร+องมี+อช้!วยในิกัารเติร�ยมีข�อมี(ล ( Data preparation

facilities ) ซ่9งหมีายรวมีถ9งกัารแปลงข�อมี(ลจำากัหลาย ๆ แหล!ง หลายร(ปแบบ ให�สามีารถนิ�ามีาใช้�กั�บ Data Mining

ร!วมีกั�นิได�ถ(กัติ�อง 2. เปBดโอกัาสให�เล+อกัใช้�เที่คำนิ�คำกัารว�เคำราะห5ติ!าง ๆ ของ Data

Mining ได� ( Selection of D.M. operations &

algorithms ) โดยส!วนิใหญ!แติ!ละคำ!ายจำะมี� 2-3 แบบให�เล+อกั 3. ให�ผ(�ใช้�เล+อกัซ่+0อซ่อฟติ5แวร5ได�ติามีขนิาดข�อมี(ลและประส�ที่ธุ�ภาพื่

ติามีติ�องกัาร ( Product scalability and performance )

4. มี�กัารแสดงผลที่�ช้�ดเจำนิและนิ!าสนิใจำ ( Facilities for visualization of results )

   

ข�อเสำ�ยของ Data Mining

      จำากัที่�เคำยกัล!าวไว�ข�างติ�นิว!า Data Mining เป#นิเพื่�ยงเคำร+องมี+อที่�ใช้�ในิกัารว�เคำราะห5เที่!านิ�0นิ ไมี!สามีารถเข�าใจำธุ�รกั�จำ หร+อเข�าใจำข�อมี(ลได�ด�

Page 67: DATAmining (1)

เที่!าคำนิ ด�งนิ�0นิผ(�ใช้� Data Mining จำ9งจำ�าเป#นิติ�องมี�คำวามีร( �คำวามีเข�าใจำในิข�อมี(ลธุ�รกั�จำเคำร+องมี+อและ อ�ลกัอล�ที่9มีได�เป#นิอย!างด�

      อย!างไรกั3ติามี Data Mining จำะช้!วยหาร(ปแบบและคำวามีส�มีพื่�นิธุ5ของข�อมี(ล แติ!ไมี!ระบ�ว!าคำ!าของข�อมี(ลจำร�ง หร+อคำ!าที่�แสดงคำวามีส�มีพื่�นิธุ5จำร�ง เป#นิเพื่�ยงแคำ!ที่�านิายเที่!านิ�0นิ ผ(�ใช้�ติ�องที่�ากัารติ�ดส�นิใจำอ�กัคำร�0ง

      เป#นิคำวามีเข�าใจำผ�ดที่�ว!า Data Mining จำะช้!วยคำ�นิหาคำ�าติอบโดยที่�ไมี!ติ�องถามีคำ�าถามีใดๆ อ�นิที่�จำร�งแล�ว Data Mining ย�งติ�องกัารให�ผ(�ใช้�บอกัร(ปแบบของกัารคำ�นิหาคำ�าติอบด�วย

      อนิ9ง Data Mining  ไมี!ได�เข�ามีาแที่นิที่�คำวามีช้�านิาญของนิ�กัว�เคำราะห5  แติ!จำะเป#นิเคำร+องมี+อที่�จำะช้!วยให�นิ�กัว�เคำราะห5 หร+อนิ�กับร�หารในิกัารติ!อกัรกั�บคำ(!แข!งได�เป#นิอย!างด� 

ประโยช้น.ของการใช้�  Data  Mining

      Data  Mining    ถ(กันิ�ามีาใช้�สนิ�บสนิ�นิกัารติ�ดส�นิใจำ โดยกัานิสร�างมี(ลคำ!าเพื่�มีให�กั�บข�อมี(ลที่�มี�อย(!   ประโยช้นิ5 ที่�แติ!ละ องคำ5กัรได�ร�บจำากักัารใช้�   Data  Mining  สร�ปได� ด�งนิ�0

กัารเอาช้นิะคำ(!แข!งข�นิ   ล(กัคำ�าที่�ด�มี�กัจำะเป#นิที่�ช้+นิช้อบของบร�ษ�ที่คำ(!แข!งเช้!นิกั�นิ   บร�ษ�ที่เหล!านิ�0นิจำะพื่ยายามีแย!ง ส!วนิ แบ!งจำากั Segment  ที่�สามีารถสร�างผลกั�าไรให�กั�บบร�ษ�ที่ได� และกั3พื่ยายามีที่�จำะแย!งช้�งส!วนิแบ!งติลาดนิ�0นิมีา    Data  Mining 

สามีารถนิ�ามีาใช้�ประโยช้นิ5ได�ที่�0งกัารแย!งส!วนิแบ!งติลาด และในิแง!กัารป6องกั�นิมี�ให�เกั�ดกัารเส�ย ส!วนิแบ!งติลาด

ที่�าให�เกั�ดคำวามีร( �ที่�สามีารถนิ�ามีาใช้� หร+อประกัอบกัารติ�ดส�นิใจำได�  เนิ+องจำากั Data  Mining  จำะใช้�เที่คำนิ�คำที่�ซ่�บ ซ่�อนิ  และมี�ล�กัษณ์ะเป#นิ Artificial   Intelligence   ในิกัารสร�างโมีเดลที่�อ�งกั�บข�อมี(ล  ซ่9งรวบรวมีจำากัแหล!งติ!าง ๆ เช้!นิ รายกัารที่าง

Page 68: DATAmining (1)

ธุ�รกั�จำ   ข�อมี(ลประว�ติ�ล(กัคำ�า   และข�อมี(ลอ+นิ ๆ จำากัแหล!ภายนิอกั คำวามีร( �ที่�ได�จำ9งช้!วยให�องคำ5กัร สามีารถคำาดกัารณ์5อนิาคำติ และสามีารถเจำาะกัล�!มีติลาดได�ถ(กัติ�องมีากัข90นิ

ใช้�ในิกัารหาข�อผ�ดพื่ลาดของกัารปฏ�บ�ติ�งานิ หร+อกัารให�บร�กัารได� (Fraud  Detection)

ช้!วยประหย�ดคำ!าใช้�จำ!าย   โดยกัารที่�าให�ข� 0นิติอนิกัารที่�างานิมี�ประส�ที่ธุ�ภาพื่มีากัข90นิ  (Save  Money)

กัารกั�าหนิดเป6าหมีายกัล�!มีล(กัคำ�าได�อย!างมี�ประส�ที่ธุ�ภาพื่มีากัข90นิ  ที่�าให�ยอดขายเพื่�มีข90นิ   เพื่�มีจำ�านิวนิล(กัคำ�า  และ ลดโอกัาสของคำวามีเส�ยงติ!าง ๆ

      

แนวโน�มแลัะการประย3กต.ใช้�งาน Data Mining (Data Mining Trend and Application)

     เนิ+องจำากัในิป:จำจำ�บ�นิมี�กัารนิ�าหล�กักัารและเที่คำนิ�คำของ data

mining มีาใช้�กั�นิอย!างแพื่ร!หลาย ด�งนิ�0นิจำ9งมี�กัารคำ�นิคำว�าว�จำ�ย และพื่�ฒนิาเพื่+อประย�กัติ5ใช้�กั�บงานิในิหลายๆ ด�านิ โดยติ�วอย!างกัารประย�กัติ5ใช้�งานิที่�นิ!าสนิใจำในิป:จำจำ�บ�นิ ได�แกั!

การใช้�งานด้�านการแพทั่ย. (Biomedical and DNA Data Analysis)

     ส!วนิมีากัเป#นิกัารนิ�าไปในิกัารว�เคำราะห5ร(ปแบบกัารจำ�ดเร�ยงติ�วของหนิ!วยพื่�นิธุ�กัรรมีเพื่+อหาสาเหติ�ของคำวามีผ�ดปกัติ�ที่� ที่�าให�เกั�ดโรคำ  คำวามีส�มีพื่�นิธุ5ของร(ปแบบกัารจำ�ดเร�ยงติ�วของหนิ!วยพื่�นิธุ�กัรรมีกั�บ

Page 69: DATAmining (1)

ระด�บคำวามีร�นิแรงของโรคำ รวมีถ9งกัารใช้�ในิ ด�านิ กัารว�นิ�จำฉ�ยโรคำ   กัารป6องกั�นิ และกัารร�กัษาด�วย

การใช้�งานเพ��อการว�เคราะห.ด้�านการเง�น (Financial Analysis)

     เป#นิงานิที่�เกั�ยวกั�บบร�ษ�ที่เง�นิที่�นิ หร+อธุนิาคำารติ!างๆ เช้!นิ กัารว�เคำราะห5กัารให�ส�นิเช้+อ กัารที่�านิายอ�ติรากัารจำ!ายเง�นิกั(� กัารแบ!งกัล�!มีล(กัคำ�าเพื่+อหาเป6าหมีายที่างกัารติลาด เป#นิติ�นิ

การใช้�งานด้�านการขาย (Retail Industry)

      เป#นิงานิที่�มี�กัารเกั3บรวบรวมีข�อมี(ลจำ�านิวนิมีากั จำ9งมี�กัารนิ�า Data Mining มีาประย�กัติ5ใช้�กั�บข�อมี(ลเหล!านิ�0 เพื่+อหากัลย�ที่ธุ5 ที่�ที่�าให�เกั�ดกัารได�เปร�ยบคำ(!แข!งที่างกัารคำ�า เช้!นิ กัารหาล�กัษณ์ะกัารซ่+0อของล(กัคำ�า  คำวามีส�มีพื่�นิธุ5ของกัารซ่+0อกั�บช้!วงเวลา

คำวามีส�มีพื่�นิธุ5ระหว!างติ�วส�นิคำ�า และ กัารว�เคำราะห5ประส�ที่ธุ�ภาพื่ของกัารโฆัษณ์า เป#นิติ�นิ ซ่9งช้!วยให�สามีารถหาว�ธุ�กัารติอบสนิอง คำวามีติ�องกัารของล(กัคำ�าได�มีากัที่�ส�ด และอาจำหมีายถ9งส!วนิแบ!งที่างกัารติลาดที่�เพื่�มีข90นินิ�นิเอง

การใช้�งานด้�านโทั่รคมนาคม (Telecommunication Industry)

     เพื่+อสนิ�บสนิ�นิกัารให�บร�กัารด�านิกัารติ�ดติ!อส+อสารของล(กัคำ�า เช้!นิ กัารว�เคำราะห5ล�กัษณ์ะกัารใช้�บร�กัารด�านิกัารติ�ดติ!อ ส+อสาร  กัารหาคำวามีส�มีพื่�นิธุ5ของกัารใช้�บร�กัารกั�บช้!วงเวลา หร+อกัารติรวจำจำ�บร(ปแบบที่�ผ�ดปกัติ�ในิระบบกัารติ�ดติ!อส+อสาร เป#นิติ�นิ

     จำากัล�กัษณ์ะกัารนิ�าไปใช้�งานิข�างติ�นิในิป:จำจำ�บ�นิเนิ+องจำากัเที่คำนิ�คำ หร+อว�ธุ�กัารที่�นิ�ามีาใช้�นิ� 0นิย�งมี�ข�อจำ�ากั�ดส�าหร�บกัารใช้� กั�บงานิ หร+อข�อมี(ลในิบางประเภที่ ด�งนิ�0นิจำ9งมี�แนิวโนิ�มีในิกัารว�จำ�ยพื่�ฒนิา และ

Page 70: DATAmining (1)

ประย�กัติ5ใช้�อย!างติ!อเนิ+อง เพื่+อหาว�ธุ�กัารที่� เหมีาะสมีที่�ส�ด ซ่9งแนิวโนิ�มีของกัารใช้�งานิที่�ได�ร�บคำวามีสนิใจำในิกัารศ9กัษาติ!อไปในิอนิาคำติ ได�แกั!

การประย3กต.ใช้�งานแนวใหม ๆ (Application Exploration)

     เป#นิกัารนิ�าเที่คำนิ�คำของ Data Mining เข�ามีาใช้�กั�บงานิในิด�านิอ+นิๆ นิอกัเหนิ+อจำากักัารนิ�ยมีใช้�กั�บงานิเพื่+อกัาร แข!งข�นิกั�นิในิเช้�งธุ�รกั�จำด�งเช้!นิในิช้!วงที่�ผ!านิมีา เช้!นิ กัารใช้�งานิในิเช้�งกัารแพื่ที่ย5 กัารว�เคำราะห5ที่างด�านิกัารเง�นิหร+อกัารใช้�งานิ ในิด�านิโที่รคำมีนิาคำมี เป#นิติ�นิ โดยจำะมี�กัารพื่�ฒนิาเพื่+อเป#นิระบบที่�ใช้�งานิเฉพื่าะที่างเพื่�มีมีากัข90นิ

การพ ฒนาว�ธี�การเพ��อใช้�ก บ่ฐานข�อม�ลัขนาด้ใหญ (Scalable  Data  Mining)

     เป#นิกัารพื่�ฒนิาเพื่+อให�ระบบสามีารถใช้�งานิกั�บฐานิข�อมี(ลขนิาดใหญ!ได�อย!างมี�ประส�ที่ธุ�ภาพื่ ซ่9งว�ธุ�กัารหนิ9งที่�ได�ร�บ กัารพื่�ฒนิา คำ+อกัารที่�า mining ในิล�กัษณ์ะที่�มี�เง+อนิไข (Constraint-Based

Mining) โดยเปBดโอกัาสให�ผ(�ใช้�สามีารถ ใส!เง+อนิไขเฉพื่าะบางอย!างให�กั�บระบบ เพื่+อเป#นิแนิวที่างให�ระบบสามีารถคำ�นิหาคำ�าติอบได�ใกัล�เคำ�ยงกั�บว�ติถ�ประสงคำ5ของผ(�ใช้� มีากัข90นิ

การรวมงานของ data mining เข�าเป2นสำ วนหน/�งของระบ่บ่ฐานข�อม�ลั ระบ่บ่คลั งข�อม�ลั รวมถ/งระบ่บ่ฐานข�อม�ลับ่น

web (Integration of Data Mining with Database System ,Data Warehouse System ,and Web Database System)

     เป#นิกัารพื่�ฒนิาให� Data  Mining กัลายเป#นิส!วนิหนิ9งของระบบฐานิข�อมี(ล ระบบคำล�งข�อมี(ล รวมีที่�0งระบบฐานิข�อมี(ล บนิ web ด�วย    เนิ+องจำากัเป#นิระบบหล�กัที่�ใช้�ในิกัารเกั3บข�อมี(ลอย(!แล�ว   ที่�าให�งานิว�เคำราะห5ข�อมี(ลในิระบบนิ�0นิสามีารถที่�างานิ ร!วมี กั�บระบบจำ�ดเกั3บข�อมี(ลได�ง!าย และมี�ประส�ที่ธุ�ภาพื่เพื่�มีมีากัข90นิ

Page 71: DATAmining (1)

การสำร�างมาตรฐานให�ก บ่ภาษาในการทั่�า Data  Mining  (Standardization of Data Mining Language)

     เป#นิกัารพื่�ฒนิาให�เกั�ดภาษาเฉพื่าะส�าหร�บกัระบวนิกัารที่�า Data

Mining  เพื่+อให�เกั�ดคำวามีสะดวกัและง!ายติ!อกัาร ประย�กัติ5ใช้� รวมีที่�0งเป#นิกัารเพื่�มีคำวามีสามีารถในิกัารติ�ดติ!อกั�นิระหว!างระบบด�วย

การสำร�าง Data  Mining เพ��อให�หาความหมายข�อม�ลัได้�ง ายข/�น (Visual Data Mining)

     เนิ+องจำากักัารใช้�งานิในิล�กัษณ์ะนิ�0 เป#นิว�ธุ�กัารส�าคำ�ญที่�มี�ประส�ที่ธุ�ภาพื่ในิกัารคำ�นิหาล�กัษณ์ะแฝ่งบางประกัารจำากัข�อมี(ล

จำ�านิวณ์มีากัๆ ด�งนิ�0นิกัารศ9กัษา และกัารพื่�ฒนิาในิแนิวที่างนิ�0จำะเป#นิกัารหาเที่คำนิ�คำใหมี!ๆ เพื่+อคำวามีสะดวกัติ!อกัารใช้�งานิ และง!ายติ!อกัารเข�าใจำ สามีารถใช้�ในิกัารว�เคำราะห5ข�อมี(ลได�อย!างมี�ประส�ที่ธุ�ภาพื่

การหาว�ธี�การใช้�งานก บ่ข�อม�ลัทั่��ม�ความซื้ บ่ซื้�อน (New Methods for Mining Complex Types of Data)

     เช้!นิข�อมี(ลล�กัษณ์ะเช้�งภ(มี�ศาสติร5 มี�ลติ�มี�เด�ย หร+อข�อมี(ลในิล�กัษณ์ะติ�วอ�กัษร เป#นิติ�นิ ซ่9งมี�กัารใช้�งานิคำ!อนิข�างมีากั ในิป:จำจำ�บ�นิ ด�งนิ�0นิจำ9งมี�กัารคำ�นิหาว�ธุ� ใหมี!ๆ รวมีที่�0งมี�กัารรวมีว�ธุ�กัารที่�มี�อย(!เพื่+อประย�กัติ5ใช้�กั�บกัารว�เคำราะห5ข�อมี(ลประเภที่นิ�0ได� อย!างเหมีาะสมี

การใช้� Mining ก บ่ข�อม�ลับ่น Web (Web Mining)

     เป#นิกัารประย�กัติ5ใช้�งานิกั�บข�อมี(ลบนิอ�นิเติอร5เนิ3ติ เนิ+องจำากัอ�นิเติอร5เนิ3ติเป#นิแหล!งข�อมี(ลขนิาดใหญ! และมี�ผ(�ใช้�งานิ จำ�านิวนิมีากั ด�งนิ�0นิจำ9งมี�กัารนิ�าข�อมี(ลติ!างๆบนิ web ซ่9งได�แกั! web content ,

web log รวมีถ9งกัารให�บร�กัารติ!างๆ บนิอ�นิเติอร5เนิ3ติมีาใช้�ที่�า mining เพื่+อหาแนิวที่างในิกัารติอบสนิองผ(�ใช้�งานิให�ได�มีากัที่�ส�ด

Page 72: DATAmining (1)

การร กษาความปลัอด้ภ ยของข�อม�ลั (Information Security in Data Mining)

     เป#นิกัารพื่�ฒนิาว�ธุ�กัารเพื่+อสร�างคำวามีเช้+อมี�นิในิเร+องคำวามีปลอดภ�ยของข�อมี(ลในิขณ์ะที่�มี�กัารพื่�ฒนิาว�ธุ�กัารเข�าถ9งข�อมี(ล และกัาร Mining ให�สะดวกัติ!อกัารใช้�งานิมีากัข90นิ           

ต วอย างของการประย3กต.ใช้� Data Mining

ใช้� ในการจ ด้การลั�กค�าสำ มพ นธี. (CRM)

     ป:จำจำ�บ�นิมี�กัารนิ�า Data Mining มีาช้!วยในิ Customer life

cycle ที่�0งในิเร+องกัารเพื่�มีฐานิล(กัคำ�า, กัารเพื่�มีคำ�ณ์คำ!าของล(กัคำ�า และกัารร�กัษาล(กัคำ�าช้�0นิด� ในิที่�นิ�0จำะกัล!าวถ9งติ�วอย!าง  กัารเพื่�มีฐานิล(กัคำ�าผ!านิ Data Mining ด�งนิ�0

     ข�0นิติอนิแรกัในิ CRM คำ+อ กัารสร�างโอกัาส และเปล�ยนิโอกัาส นิ�0นิให�เป#นิล(กัคำ�า พื่�จำารณ์าว!า Data mining สามีารถช้!วย จำ�ดกัารคำ!าใช้�จำ!าย  และกัลย�ที่ธุ5ในิกัารสร�างล(กัคำ�าอย!างมี�ประส�ที่ธุ�ภาพื่ได�อย!างไร

      Big Bank and Credit Card Company (BB&CC) มี�กัารจำ�ด Campaign ที่าง direct mail ป2ละ 25 campaign เป#นิประจำ�าที่�กัป2  โดยในิแติ!ละ Campaign จำะเสนิอติ!อคำนิ จำ�านิวนิ 1,000,000 คำนิ ซ่9งอ�ติราส!วนิของคำนิ ซ่9งกัลายมีาเป#นิล(กัคำ�าของ BB&CC มี�ประมีาณ์ 1% ติ!อ 1 Campaign เที่!านิ�0นิ

Page 73: DATAmining (1)

     กัารกัรอกัใบสมี�คำรบ�ติรเคำรด�ติ เป#นิเพื่�ยงข�0นิติอนิแรกัเที่!านิ�0นิ ซ่9งหล�งจำากันิ�0นิ BB&CC จำะติ�องติ�ดส�นิใจำเล+อกัผ(�สมี�คำร ที่�มี�คำวามีเส�ยงที่�ด�เพื่�ยงพื่อเป#นิล(กัคำ�า และพื่บว!าในิจำ�านิวนิล(กัคำ�าที่�ติอบร�บข�อเสนิอกัล�บมีานิ�0นิ มี�จำ�านิวนิของล(กัคำ�าที่�มี�คำวามีเส�ยง ส(งมีากักัว!าล(กัคำ�าที่�มี�คำวามีเส�ยงติ�า  ด�งนิ�0นิในิจำ�านิวนิของล(กัคำ�าในิ mailing list  ที่�กัรอกัใบสมี�คำรกัล�บมีาที่�0งหมีด 6 %  จำ9งมี�เพื่�ยง

16 % เที่!านิ�0นิที่�มี�คำวามีเส�ยงที่�เหมีาะสมีซ่9งกัลายมีาเป#นิล(กัคำ�าของ  BB&CC

      อ�ติรากัารติอบร�บข�อเสนิอ 6% นิ�0นิ  หมีายคำวามีว!าในิจำ�านิวนิคำนิ 1,000,000 คำนิ  มี�ผ(�ติอบร�บข�อเสนิอจำ�านิวนิ 60,000 คำนิ เที่!านิ�0นิ  ถ9งแมี�ว!า BB&CC จำะเปล�ยนิว�ธุ�กัารช้�กัช้วนิล(กัคำ�าใหมี! เช้!นิ ใช้� mailing list ช้�ดใหมี! ใช้�กัารเข�าถ9งล(กัคำ�าโดยว�ธุ�อ+นิ และ เปล�ยนิ แปลงข�อเสนิอใหมี! กั3ไมี!สามีารถเพื่�มีอ�ติรากัารติอบร�บให�มีากักัว!าเด�มีได�   แลในิจำ�านิวนิ 60,000 คำนิ   ที่�ติอบร�บข�อเสนิอ กัล�บมีา  มี�เพื่�ยง 10,000 คำนิเที่!านิ�0นิที่�มี�คำวามีเส�ยงที่�ร �บได�

     คำ!าใช้�จำ!ายในิกัารที่�า direct mail ประมีาณ์ $1.00 ติ!อช้�0นิ ซ่9งคำ!าใช้�จำ!ายรวมีที่�0งหมีด เป#นิจำ�านิวนิ $ 1,000,000 และในิ 2 ป2ติ!อมีา ล(กัคำ�าที่�0งหมีดนิ�0จำะสร�างรายได�ให� BB&CC จำ�านิวนิ $1,250,000

หร+อประมีาณ์ $125 ติ!อคำนิ ด�งนิ�0นิผลกั�าไรที่�ได� ร�บจำากักัารคำ�า  direct mail นิ�0เป#นิจำ�านิวนิ $250,000

     หล�งจำากันิ�0นิ BB&CC จำ9งนิ�า data mining มีาช้!วยในิกัาร focus ติลาดอย!างมี�ประส�ที่ธุ�ภาพื่  โดยในิข�0นิแรกั BB&CC ที่�ากัารที่ดสอบ direct mail กั�บคำนิจำ�านิวนิ 50,000 คำนิ  และที่�ากัารว�เคำราะห5ผลอย!างละเอ�ยด เพื่+อที่�จำะสร�าง predictive model ของคำนิที่�จำะติอบร�บกัล�บมีา (โดยใช้� decision tree) และ credit

scoring model (โดยใช้� neural net) หล�งจำากันิ�0นิจำ9งนิ�า 2

Page 74: DATAmining (1)

Model นิ�0นิมีารวมีกั�นิ เพื่+อที่�จำะหาคำนิที่�มี�ที่�0งคำวามีเส�ยงที่�ด� และมี�คำวามีเป#นิไปได�ที่�จำะติอบร�บข�อเสนิอ

     Model นิ�0จำะถ(กัประย�กัติ5ใช้�กั�บคำนิจำ�านิวนิ 950,000 คำนิที่�เหล+อในิ mailing list ซ่9งจำะมี�คำนิที่�ถ(กัเล+อกัออกัมีา เพื่+อที่�จำะ ที่�ากัารส!ง mail จำ�านิวนิ 700,000 คำนิ  และผลจำากักัารส!ง mail ที่�0งหมีด 750,000 คำนิ  จำะได� 9,000 คำนิที่�มี�คำ�ณ์สมีบ�ติ�ติามีที่�กั�าหนิด ซ่9งพื่บว!าอ�ติรากัารติอบร�บเพื่�มีข90นิจำากั 1% เป#นิ 1.2%  ถ9งแมี�ว!าเมี+อใช้� model ที่�สร�างข90นินิ�0จำะได�ล(กัคำ�าเพื่�ยง 9,000 คำนิ  จำากัเด�มี 10,000

คำนิ  แติ!กั3พื่บว!าหาล(กัคำ�าเพื่�มีข90นิอ�กั 1,000 คำนิ  ไมี!ได�กั!อให�เกั�ดผลกั�าไรเพื่�มีข90นิ เนิ+องจำากัติ�องเส�ยคำ!าใช้�จำ!ายในิกัารส!ง mail ไปย�งคำนิ 250,000 คำนิที่�เหล+อเป#นิจำ�านิวนิ $250,000 ในิขณ์ะที่�ได�ร�บผลกั�าไรเพื่�ยง $125,000 ที่�าให�ผลกั�าไรที่�0งหมีดลดลงอ�กั $125,000    

        Old New DifferenceNumber of pieces mailed

1,000,000

750,000 (250,000)

Cost of  mailing

$1,000,000

$750,000($250,000)

Number of responses

10,000 9,000 (1,000)

Gross profit per response

$125 $125 $0

Gross profit $1,250,000

$1,125,000

($125,000)

Net profit $250,000$375,000$125,000Cost of model 0 40,000 $40,000Final profit $250,000$335,000$85,000

Page 75: DATAmining (1)

ตาราง ข�อม�ลัเปร�ยบ่เทั่�ยบ่ค าใช้�จ ายก อนแลัะหลั งใช้� Data Mining 

     จำากัติารางจำะเห3นิว!าเมี+อใช้� data mining เข�ามีาช้!วยจำะที่�าให�กั�าไรเพื่�มีที่�0งหมีด $125,000 ถ9งแมี�ว!าจำะติ�องเส�ยคำ!าใช้�จำ!าย ในิกัารสร�าง model จำ�านิวนิ $40,000  กั3ย�งพื่บว!าผลกั�าไรส�ดที่�ายเพื่�มีข90นิ $85,000 ซ่9งนิ�บเป#นิ 200% ของคำ!าใช้�จำ!ายในิกัารลงที่�นิ สร�าง model

สร�ป

     กัารนิ�า Data Mining มีาประย�กัติ5ใช้�ในิขบวนิกัารจำ�ดกัารล(กัคำ�าส�มีพื่�นิธุ5   โดยนิ�ามีาสร�าง predictive model  ที่�าให�องคำ5กัร เข�าใจำ คำวามีติ�องกัารของล(กัคำ�ามีากัข90นิ ส!งผลให�กัารที่�าระบบกัารจำ�ดกัารล(กัคำ�าส�มีพื่�นิธุ5  มี�ประส�ที่ธุ�ภาพื่ย�งข90นิ จำะมี�ผลติ!อองคำ5กัร เป#นิอย!างย�ง ในิแง!ของกัารเพื่�มีคำ�ณ์คำ!าของล(กัคำ�า กัารร�กัษาล(กัคำ�าช้�0นิด�  กัารเพื่�มีฐานิล(กัคำ�า กัารเพื่�มีผลกั�าไรให�องคำ5กัร   

ใช้�ในิกัารพื่ยากัรณ์5ราคำาหล�กัที่ร�พื่ย5

      ส�าหร�บกัารศ9กัษากัารที่�างานิของโปรแกัรมีที่�มี�อย(!ในิป:จำจำ�บ�นิที่�ใช้� Data  Mining  เพื่+อกัารประย�กัติ5ใช้�งานิในิด�านิกัาร พื่ยากัรณ์5ข�อมี(ลของราคำาหล�กัที่ร�พื่ย5นิ�0 จำะใช้�กัารพื่ยากัรณ์5ราคำาหล�กัที่ร�พื่ย5ของบร�ษ�ที่อ�นิเที่ล  ในิช้!วงเวลาป2 2535 – 2540 ซ่9งจำะใช้�โปรแกัรมี  Attrasoft  Predictor  2.4  ซ่9งเป#นิโปรแกัรมีที่�สร�างข90นิเพื่+อใช้�งานิด�านิกัารพื่ยากัรณ์5ข�อมี(ล โดยใช้�เที่คำนิ�ดของ Neural 

Network   ในิกัารสร�างแบบจำ�าลอง   ซ่9งข�0นิติอนิกัารที่�างานิหล�กั ๆ ของโปรแกัรมี มี�ด�งติ!อไปนิ�0

1. กัารประมีวลผลข�อมี(ลเบ+0องติ�นิ

ในิโปรแกัรมี Predictor 2.4  นิ�0นิไมี!มี�กัารรวมีคำวามีสามีารถของกัารประมีวลผลข�อมี(ลเบ+�องติ�นิไว�ให� ด�งนิ�0นิผ(�ใช้�ติ�อง

Page 76: DATAmining (1)

ด�าเนิ�นิกัารประมีวลผลเอง ซ่9งในิกัารศ9กัษานิ�0จำะใช้�ว�ธุ�ของกัารหาคำ!า Moving  Average   ซ่9งเป#นิกัารคำ�านิวณ์หาคำ!าเฉล�ยในิช้!วง

เวลาหนิ9งกั!อนิแล�วจำ9งนิ�ามีาใช้�เป#นิ   input  ให�กั�บแบบจำ�าลอง   เพื่+อช้!วยเพื่�มีประส�ที่ธุ�ภาพื่ให�กั�บกัารพื่ยากัรณ์5ข�อมี(ลมีากัข90นิ  โดย

ส!วนิใหญ!จำะใช้�ช้!วงในิกัารหาคำ!าเฉล�ยที่�ประมีาณ์ 2-5  ช้!วงข�อมี(ล

      ในิกัารใช้�เที่คำนิ�คำของ  Moving  Average  นิ�0 เป#นิกัารช้!วยลดคำวามีแปรปรวนิให�กั�บข�อมี(ลที่�มี�ล�กัษณ์ะผ�ดปกัติ�  ที่�าให�โคำรงข!ายสามีารถเร�ยนิร( �ร(ปแบบของข�อมี(ลจำากัคำ!าที่�แนิ!นิอนิมีากักัย�งข90นิ  ซ่!9งมี�ส(ติรที่�ใช้�ในิกัารคำ�านิวณ์ ด�งติ!อไปนิ�0

      ma  (I , m)    =    (1 / m)    t ( j )

           โดยที่�    j  =   I  -  m + 1      ถ9ง   I

2. กัารร�บคำ!า  Input  ของระบบ

ในิกัารร�บคำ!า Input  ของโปรแกัรมีจำะเป#นิกัารที่�ผ(�ใช้�จำะติ�องสร�างข�อมี(ล    และติ�วแปรติ!าง ๆ ที่�กั�าหนิด

กัารที่�างานิของโปรแกัรมีในิร(ปแบบของ  Text  File  ติามีล�กัษณ์ะที่�โปรแกัรมีกั�าหนิดไว� 

3. กัารกั�าหนิดติ�วแปรที่�ติ�องกัารพื่ยากัรณ์5

เป#นิกัารเล+อกัติ�วแปรของข�อมี(ลที่�จำะนิ�ามีาใช้!0ในิกัารพื่ยากัรณ์5 รวมีถ9งช้!วงเวลาในิอนิาคำติที่�ติ�องกัารพื่ยากัรณ์5คำ!าของติ�ว

แปรนิ�0นิ ๆ ด�วย  ในิส!วนินิ�0จำะใช้�ราคำาหล�กัที่ร�พื่ย5รายเด+อนิของบร�ษ�ที่อ�นิเที่ล ในิช้!วงเด+อนิมี�ถ�นิายนิ 2535  ถ9งเด+อนิ  พื่ฤษภาคำมี 2540 

เพื่+อใช้�ในิกัารที่�านิายราคำาหล�กัที่ร�พื่ย5ในิเด+อนิมี�ถ�นิายนิ 2540 

4. กัารสอนิให�โคำรงข!ายจำากัข�อมี(ลเกั!า และกัารที่ดสอบ

Page 77: DATAmining (1)

ส�าหร�บ Predictor  2.4  จำะใช้�หล�กักัารของ Neural 

Network  ในิกัารสร�าง และที่ดสอบแบบจำ�าลอง   โดยที่�จำะมี�กัาร

กั�าหนิดจำ�านิวนิของข�อมี(ลที่�ใช้�สอนิให�โคำรงข!ายจำากัคำ!าที่�ผ(�ใช้�กั�าหนิดไว�ในิ Text  File  ที่�เป#นิ Input

5. กัารแสดงคำ!าของผลล�พื่ธุ5ที่�ได�จำากักัารพื่ยากัรณ์5

ผลล�พื่ธุ5ที่�ได�จำากัารพื่ยากัรณ์5ด�วยแบบจำ�าลองของโปรแกัรมีจำะสร�างเป#นิ  Output  File   ในิล�กัษณ์ะของ Text  File 

จำากักัารว�เคำราะห5ผลล�พื่ธุ5ที่�ได�พื่บว!า   ราคำาของหล�กัที่ร�พื่ย5ที่�เด+อนิมี�ถ�นิายนิ 2540  มี�คำ!าคำวามีนิ!าจำะเป#นิมีากัที่�ส�ด ที่�จำะมี�คำ!า  Moving 

Average (5-MA)  อย(!ในิช้!วง  [ 148.149 , 149.153 ]   ซ่9งเมี+อคำ�านิวณ์จำากัคำ!าข�อมี(ลจำร�ง จำะได�คำ!า 5-MA  ของข�อมี(ลเที่!ากั�บ   148.052   ซ่9งกั3จำะพื่บว!าผลที่�ได�จำากัโปรแกัรมีมี�คำ!าใกัล�เคำ�ยงกั�บข�อมี(ลที่�จำะเกั�ดข90นิจำร�ง 

ติ�วอย!างอ+นิ ๆ

      Hang  Seng  Bank : เป#นิธุนิาคำารที่�ใหญ!เป#นิอ�นิด�บ 2 ในิฮ่!องกัง  ได�เล+อกั  SAS  Data  Mining  Technology  เพื่+อจำ�ดหาบร�กัารที่�เหมีาะสมีส�าหร�บล(กัคำ�า โดย SAS  Enterprise 

Miner  ซ่9งเป#นิหนิ9งในิ   Data  Mining  Solution  ของ SAS

ได�ช้!วยให�ธุนิาคำารได�เห3นิถ9งคำวามีติ�องกัาร และพื่ฤติ�กัรรมีของล(กัคำ�า  ช้!วยให�ธุนิาคำารสามีารถนิ�าเสนิอบร�กัารที่�แสดงถ9งคำวามีเป#นิ ติ�วตินิของล(กัคำ�า  และกั�าหนิดกัลย�ที่ธุ5   รวมีถ9งกัารที่�า Cross – Selling 

ที่�มี�ประส�ที่ธุ�ผล   โดยธุนิาคำารได�นิ�า  SAS  เข�ามีาช้!วยว�เคำราะห5ประส�ที่ธุ�ภาพื่ของผล�ติภ�ณ์ฑ์5 , ประเมี�นิผลโคำรงกัารที่างกัารติลาด  เพื่+อที่�สามีารถจำ�ดงบประมีาณ์ให�กั�บแติ!ละ โคำรงกัารได�เหมีาะสมี   ,  กัารคำาดกัารณ์5ที่างธุ�รกั�จำ  

Page 78: DATAmining (1)

      Standard  Chartered  Bank  :  ธุนิาคำาร   Standard 

Chartered  ติ�องกัารขยายติลาดมีาในิเอเช้�ย ซ่9งประช้ากัรมี�คำวามี หลากัหลาย   โดยที่�สร�างกัล�!มีล(กัคำ�าใหมี!   และย�งคำงร�กัษาล(กัคำ�าเด�มีไว�   ด�งนิ�0นิกัารวางแผนิกัลย�ที่ธุ5จำะติ�องให�คำรอบคำล�มีล�กัษณ์ะที่� แติกัติ!างกั�นิมีากัของล(กัคำ�าให�ได�มีากัที่�ส�ด   ซ่9งนิอกัจำากัจำะติ�องเข�าใจำถ9งล�กัษณ์ะข�อมี(ลล(กัคำ�าแล�ว   ย�งจำะติ�องมี�เคำร+องมี+อที่�ช้!วยในิ กัารเกั3บข�อมี(ล และกัารว�เคำราะห5ที่�มี�ประส�ที่ธุ�ภาพื่ โดยที่างธุนิาคำารได�ใช้�  SAS 

Datawarehousing   และ Analysis  Software  เพื่+อช้!วยในิกัารวางแผนิกัลย�ที่ธุ5  

ข�อด�ของ SAS  Datawarehousing   คำ+อมี�คำวามีย+ดหย�!นิสามีารถรองร�บข�อมี(ลที่�มี�คำวามีแติกัติ!างของล(กัคำ�าได�

      Mellon  Bank   :   Mellon  Bank  ใช้� Software 

Intelligent   Miner  for  Data  บนิ  AIX   ในิกัารติลาดเพื่+อสร�างรายได� กัารจำ�ดกัารคำวามีส�มีพื่�นิธุ5ของล(กัคำ�า    และกัารจำ�ดกัารคำวามีเส�ยง   เช้!นิกัารป6องกั�นิกัารฉ�อโกัง และกัารประมีาณ์หนิ�0เส�ย  เป#นิติ�นิ                  

Page 79: DATAmining (1)

             

สำร3ป

      กัารที่�า data mining เป#นิข�0นิติอนิหล�กัที่�ส�าคำ�ญอย!างหนิ9งในิกัระบวนิกัารหาคำวามีหมีายที่�แฝ่งอย(!ในิกัล�!มีข�อมี(ล จำ�านิวนิมีากัที่�เกั3บไว�ในิฐานิข�อมี(ล โดยที่�าหนิ�าที่�ในิกัารหาร(ปแบบ หร+อคำวามีส�มีพื่�นิธุ5ของข�อมี(ลเหล!านิ�0นิ และเนิ+องจำากัในิ ป:จำจำ�บ�นิ บร�ษ�ที่ หร+อองคำ5กัรติ!างๆ เร�มีให�คำวามีสนิใจำกั�บข�อมี(ลที่�ถ(กัจำ�ดเกั3บไว�เพื่�มีมีากัข90นิ โดยมี�ว�ติถ�ประสงคำ5เพื่+อนิ�าล�กัษณ์ะ เฉพื่าะที่�แฝ่งอย(!ภายในิกัล�!มีข�อมี(ล มีาใช้�สนิ�บสนิ�นิกัารติ�ดส�นิใจำอย!างมี�ประส�ที่ธุ�ภาพื่ติ!อกัารด�าเนิ�นิงานิ ที่�เป#นิประโยช้นิ5ติ!อ

องคำ5กัร ด�งนิ�0นิจำ9งมี�กัารพื่�ฒนิา และประย�กัติ5ใช้�เที่คำโนิโลย� รวมีถ9งระบบในิกัารที่�า data mining อย!างแพื่ร!หลายเพื่�มีข90นิที่�0ง ในิเช้�งงานิว�จำ�ย และเช้�งกัารคำ�า ซ่9งในิบที่คำวามีส�มีมีนิานิ�0ได�นิ�าเสนิอหล�กักัาร และข�0นิติอนิที่�วไปในิกัระบวนิกัาร คำ�นิหาคำวามีหมีายที่�แฝ่งอย(!ภายในิกัล�!มีข�อมี(ล และ Data  Mining รวมีที่�0งประเภที่ของงานิและติ�วอย!างว�ธุ�กัารที่� นิ�ามีาใช้�ในิข�0นิติอนิกัารที่�า data mining ด�วย และนิอกัจำากันิ�0เนิ+องจำากัในิป:จำจำ�บ�นิมี�กัารพื่�ฒนิาระบบส�าเร3จำร(ป ในิเช้�งกัารคำ�าออกัส(!ติลาดคำ!อนิข�างมีากั ซ่9งแติ!ละระบบกั3จำะมี� ล�กัษณ์ะที่�หลากัหลายแติกัติ!างกั�นิออกัไป ด�งนิ�0นิในิกัารเล+อกั ใช้�จำ9งติ�องพื่�จำารณ์าล�กัษณ์ะที่�ส�าคำ�ญของระบบ เพื่+อให�สามีารถติอบ  สนิองติ!อว�ติถ�ประสงคำ5 ที่�ผ(�ใช้�

Page 80: DATAmining (1)

ติ�องกัารได�อย!างเหมีาะสมีที่�ส�ด และถ9งแมี�ว!าว�ธุ�กัารที่�ใช้�ในิกัารที่�า data mining ที่�มี�อย(!ในิ ป:จำจำ�บ�นิย�งสามีารถใช้�แกั�ป:ญหาได�ในิระด�บหนิ9ง แติ!ย�งมี�ข�ดจำ�ากั�ดในิด�านิคำวามีสามีารถของระบบ และคำวามีแนิ!นิอนิของผลที่�ได� ด�งนิ�0นิกัารนิ�าหล�กักัารที่�ได�จำากังานิว�จำ�ยมีาที่ดลอง ประย�กัติ5ใช้�กั�บข�อมี(ลที่�เกั�ดข90นิจำร�งจำะมี�ส!วนิช้!วยให�กัารนิ�า data

mining มีาใช้�ในิองคำ5กัรมี�คำวามีนิ!าเช้+อถ+อมีากัข90นิ และอาจำกัลายเป#นิเคำร+องมี+อที่�ส�าคำ�ญติ!อกัารสนิ�บสนิ�นิกัารติ�ดส�นิใจำด�าเนิ�นิงานิ ในิองคำ5กัร ติ!อไปในิอนิาคำติ                             

Page 81: DATAmining (1)

       

บ่รรณ์าน3กรม 

Dr.Dobb’s Journal. 1996. Algorithm Alley. [Online]. Available : http://www.ddj.com/ftp/1996

Berry,  M. J.A. and Linoff, G., Data Mining Techniques: for marketing, sales, and customer support, Wiley Computer Publishing, 1997.

Cabema,P., et.al., Discovering Data Mining: from concept to implementation, Prentice Hall Publishing, 1998.

Groth, R., Data Mining a hands on approach for business professionals, Prentice Hall Publishing, 1997.

Peter Cabena, et.al. 1998. Discovering Data Mining: From Concept to Implementation. New Jersey. Prentice Hall PTR.

“Mineset”  เข�าถ9งได�จำากั : http://www.sgi.com/