Download - DATAmining (1)

Transcript
Page 1: DATAmining (1)

DATA  MINING 

ความหมายของ  Data  Mining

     มี�หลายนิ�ยามีที่�ให�คำ�าจำ�ากั�ดคำวามีของ  Data  Mining   ไว� โดยสามีารถสร�ปหล�กัส�าคำ�ญได�ว!า  

     Data   Mining  เป#นิกัระบวนิกัารของกัารกัล�นิกัรองสารสนิเที่ศ  (Information)   ที่�ซ่!อนิอย(!ในิฐานิข�อมี(ลใหญ!  เพื่+อที่�านิายแนิวโนิ�มีและพื่ฤติ�กัรรมี  โดยอาศ�ยข�อมี(ลในิอด�ติ และเพื่+อใช้�สารสนิเที่ศเหล!านิ�0ในิกัารสนิ�บสนิ�นิกัารติ�ดส�นิ ใจำที่างธุ�รกั�จำ 

ว�ว ฒนาการของ Data  Mining  ค�อ

ป2 1960  Data  Collection   คำ+อ กัารนิ�าข�อมี(ลมีาจำ�ดเกั3บอย!างเหมีาะสมีในิอ�ปกัรณ์5ที่�นิ!าเช้+อถ+อ และป6องกั�นิกัารส(ญหาย

                   ได�เป#นิอย!างด�

ป2 1980  Data  Access  คำ+อ กัารนิ�าข�อมี(ลที่�จำ�ดเกั3บมีาสร�างคำวามีส�มีพื่�นิธุ5ติ!อกั�นิในิข�อมี(ลเพื่+อประโยช้นิ5ในิกัารนิ�าไปว�เคำราะห5   

                  และกัารติ�ดส�นิใจำอย!างมี�คำ�ณ์ภาพื่

ป2 1990  Data Warehouse & Decision Support   คำ+อ กัารรวบรวมีข�อมี(ลมีาจำ�ดเกั3บลงไปในิฐานิข�อมี(ลขนิาดใหญ!โดยคำรอบคำล�มี

      ที่�กัแง!ที่�กัมี�มีขององคำ5กัร เพื่+อช้!วยสนิ�บสนิ�นิกัารติ�ดส�นิใจำ

ป2 2000  Data Mining   คำ+อ กัารนิ�าข�อมี(ลจำากัฐานิข�อมี(ลมีาว�เคำราะห5และประมีวลผล โดยกัารสร�างแบบจำ�าลอง และคำวามีส�มีพื่�นิธุ5

      ที่างสถ�ติ�

Page 2: DATAmining (1)

      จำากัคำ�าจำ�ากั�ดคำวามี Data Mining  อาจำหมีายถ9งกัารที่�ผ(�ใช้�ด9งและส�งเคำราะห5และติรวจำสอบข�อมี(ลอย!างละเอ�ยด โดยกัารส�งเคำราะห5ด�งกัล!าวอาจำจำะเป#นิกัารเร�ยนิร( �ข�อมี(ลในิอด�ติหร+อข�อมี(ลในิป:จำจำ�บ�นิ ผลล�พื่ธุ5ที่�ได�ออกัมีาติ�องมี�ล�กัษณ์ะของ ข�อมี(ลที่�เป#นิข�อมี(ลแบบ Unknown , ข�อมี(ลแบบ Valid , และข�อมี(ลแบบ Actionable มีาจำากัฐานิข�อมี(ลขนิาดใหญ!ซ่9ง อาจำจำะมีาจำากัรายกัาร Transaction ,

ฐานิข�อมี(ลของฝ่=ายขาย , E-Mail เพื่+อนิ�าข�อมี(ลด�งกัล!าวไปใช้�เป#นิพื่+0นิฐานิในิกัาร ประกัอบกัารติ�ดส�นิใจำ ในิเช้�งธุ�รกั�จำ ที่�าให�เข�าใจำแนิวโนิ�มีและร(ปแบบของติลาด

      ข�อมี(ลแบบ Unknown ข�อมี(ลที่�ถ(กัใช้�จำะติ�องเป#นิข�อมี(ลผ(�ใช้�งานิไมี!ร( �มีากั!อนิและไมี!ช้�ดเจำนิไมี!สามีารถติ�0งสมีมีติ�ฐานิ ล!วงหนิ�าว!าคำวรจำะเป#นิแบบใด ติ�วอย!างเช้!นิ เจำ�าของห�างสรรพื่ส�นิคำ�าแห!งหนิ9งเพื่�งจำะคำ�นิพื่บว!าพื่ฤติ�กัรรมีของผ(�บร�โภคำใหมี! ที่�เป#นิพื่!อบ�านิมี�กัจำะซ่+0อส�นิคำ�าเบ�ยร5และผ�าอ�อมีในิว�นิศ�กัร5ติอนิเย3นิ ด�งนิ�0นิเป#นิส�ญญาณ์ให�เจำ�าของกั�จำกัารคำวรจำะเติร�ยมีส�นิคำ�า ไว�เพื่+อจำ�าหนิ!าย ซ่9งในิขณ์ะเด�ยวกั�นิห�างสรรพื่ส�นิคำ�าคำ(!แข!งอาจำจำะไมี!ร( �เร+องนิ�0กั3ได� แติ!ลองส�งเกัติด(อ�กัหนิ9งติ�วอย!างว!า เจำ�าของร�านิ ขายรถยนิติ5พื่บว!ารถขนิาดใหญ!ราคำาแพื่งมี�กัจำะถ(กัซ่+0อโดยคำนิที่�ส(งอาย� ซ่9งเจำ�าของไมี!ร( �มีากั!อนิ แติ!ข�อมี(ลด�งกัล!าวไมี!เป#นิล�กัษณ์ะ Unknown เพื่ราะสมีมีติ�ฐานิด�งกัล!าวมี�อย(! เพื่ราะคำนิที่�มี�อาย�มี�กัจำะมี�ฐานิะที่�ด�ข90นิเมี+อเที่�ยบคำนิในิว�ยที่�อาย�นิ�อยกัว!า

      ข�อมี(ลแบบ Valid เมี+อผ(�ใช้�ได�เร�มีใช้�เที่คำนิ�คำ Data Mining จำะคำ�นิพื่บส�งที่�นิ!าสนิใจำติลอดเวลา แติ!ว!าติ�องพื่�จำารณ์า ด�วยว!าส�งนิ�0นิ Valid หร+อไมี! เช้!นิ ผ(�ใช้�มี�กัจำะพื่บว!ามี�คำวามีส�มีพื่�นิธุ5ของกัารซ่+0อของ 2

ส�งเสมีอ เมี+อจำ�านิวนิคำวามีหลากัหลาย ส�นิคำ�ามีากัข90นิ แติ!ไมี!ได�หมีายคำวามีว!าจำะติ�องให�ห�างสรรพื่ส�นิคำ�าเกั3บส�นิคำ�ามีากัข90นิ เพื่ราะข�อมี(ลที่�ได�อาจำเกั�ดคำวามีคำลาดเคำล+อนิ เพื่ราะฉะนิ�0นิจำะติ�องที่�ากัาร Validation และ Checking คำวามีถ(กัติ�องของข�อมี(ลและว�เคำราะห5คำวามีถ(กัติ�องอ�กัคำร�0ง

Page 3: DATAmining (1)

      ข�อมี(ลแบบ Actionable ข�อมี(ลจำะติ�องถ(กัแปลงออกัมีาและนิ�ามีาติ�ดส�นิใจำให�เป#นิคำวามีได�เปร�ยบเช้�งธุ�รกั�จำ บางคำร�0ง ข�อมี(ลที่�เราคำ�นิพื่บเป#นิส�งที่�คำ(!แข!งได�ที่�าไปเส�ยแล�วหร+อผ�ดกัฎหมีาย ซ่9งจำะติ�องมี�ว�จำารณ์ญาณ์ในิกัารใช้�ด�วย บางที่�ข�อมี(ลด�งกัล!าว อาจำจำะไมี!มี�ประโยช้นิ5อะไร

      คำ�าว!า Data Mining นิ�0นิมี�คำวามีหมีายแติกัติ!างกั�นิในิ 2 แง!มี�มี คำ+อ ในิมี�มีมีองที่างว�ช้ากัารและในิมี�มีมีองเช้�งธุ�รกั�จำ  ในิมี�มีมีองเช้�งว�ช้ากัารนิ�0นิ นิ�กัว�จำ�ยจำะอ�างถ9งกัระบวนิกัารที่�0งหมีดในิกัารที่�า Data

Mining ว!า “Knowledge discovery in database

(KDD)” และใช้�คำ�าว!า “Data Mining” แที่นิข�0นิติอนิข�0นิหนิ9งของกัระบวนิกัาร ที่�เกั�ยวข�องกั�บกัารคำ�นิหาร(ปแบบ คำวามีส�มีพื่�นิธุ5ของข�อมี(ลเที่!านิ�0นิ อย!างไรกั3ติามี ในิแง!มี�มีเช้�งธุ�รกั�จำแล�ว จำะใช้�คำ�าว!า “Data

Mining” แที่นิคำวามีหมีายของ ข�0นิติอนิที่�0งหมีด เด�มีงานิคำ�นิคำว�าที่างด�านิ Data Mining นิ�0นิมี�กัารที่�ากัารคำ�นิคำว�ากั�นิอย(!แล�วในิหลาย ๆ สาขาว�ช้า แติ!มี�ช้+อเร�ยกั แติกัติ!างกั�นิไปติามีแติ!ละด�านิ นิ�กัว�จำ�ยในิด�านิสถ�ติ� (statistics) , ฐานิข�อมี(ล (database) , neural networks , pattern recognition , machine learning , econometrics และอ�กัหลาย ๆ ด�านิ ติ!างกั3มี�กัารคำ�นิคำว�าเกั�ยวกั�บป:ญหาในิล�กัษณ์ะเด�ยวกั�นินิ�0 แติ!ย�งไมี!คำ!อย มี�กัารใช้�ประโยช้นิ5ของกัารคำ�นิคำว�าของอ�กัฝ่=ายหนิ9ง คำ+อ ติ!างฝ่=ายติ!างที่�ากัารคำ�นิคำว�าของตินิเอง ไมี!คำ!อยมี�กัารแลกัเปล�ยนิคำวามีร( �กั�นิ ที่�าให�กัารคำ�นิคำว�าและกัารเผยแพื่ร!ผลงานิด�าเนิ�นิไปอย!างไมี!รวดเร3วเที่!าที่�คำวร ติ!อมีาจำ9งมี�กัารใช้� “Data

Mining” เป#นิช้+อรวมี ของว�ธุ�กัารแกั�ป:ญหาในิล�กัษณ์ะนิ�0 ซ่9งที่�าให�กัารเผยแพื่ร!คำวามีร( �ในิกัารแกั�ป:ญหาล�กัษณ์ะนิ�0ที่�าได�รวดเร3วและสามีารถอ�างอ�งได� สะดวกัข90นิ

    หลั กการทั่ �วไปของ Knowledge Discovery in Database (KDD) and  Data Mining

Page 4: DATAmining (1)

      KDD หมีายถ9งกัระบวนิกัารในิกัารคำ�นิหาล�กัษณ์ะแฝ่งของข�อมี(ลที่�อย(!ในิกัล�!มีข�อมี(ลจำ�านิวนิมีากั ซ่9งมี�ข� 0นิติอนิกัารที่�า Data Mining

เป#นิกัระบวนิกัารที่�ส�าคำ�ญในิกัารคำ�นิหาล�กัษณ์ะที่�นิ!าสนิใจำของข�อมี(ลเหล!านิ�0 เช้!นิ ร(ปแบบ คำวามีส�มีพื่�นิธุ5 กัารเปล�ยนิแปลง โคำรงสร�างที่�เด!นิช้�ด หร+อ ล�กัษณ์ะที่�ผ�ดปกัติ�ของข�อมี(ลจำากัข�อมี(ลจำ�านิวนิมีากัๆ ที่�เกั3บอย(!ในิฐานิข�อมี(ล หร+อแหล!งที่�เกั3บข�อมี(ลอ+นิๆ ซ่9งว�ธุ�กัารติ!างๆ ที่�นิ�ามีาใช้�ในิกัารที่�า mining นิ�0กั3มี�ว�ติถ�ประสงคำ5ติ!างๆกั�นิข90นิอย(!กั�บผลล�พื่ธุ5ของ กัระบวนิกัารโดยรวมีที่�ติ�องกัาร ด�งนิ�0นิจำ9งคำวรมี�กัารนิ�าเสนิอว�ธุ�กัารที่�หลากัหลายส�าหร�บเป6าหมีายที่�แติกัติ!างกั�นิ เพื่+อให�ได�ผลล�พื่ธุ5 ที่�เหมีาะสมีติามีที่�ติ�องกัาร หล�งจำากันิ�าไปใช้�งานิแล�ว และเนิ+องจำากัคำวามีแพื่ร!หลายของกัารจำ�ดเกั3บข�อมี(ลในิล�กัษณ์ะที่�เป#นิ ร(ปแบบที่างอ�เล3กัที่รอนิ�กัส5 และคำวามีติ�องกัารในิกัารเปล�ยนิข�อมี(ลเหล!านิ�0นิให�เป#นิข�อมี(ลที่�มี�ประโยช้นิ5ติ!อกัารนิ�าไปประย�กัติ5 ใช้�ในิงานิด�านิติ!างๆ เช้!นิ กัารว�เคำราะห5ด�านิกัารติลาด กัารบร�หารธุ�รกั�จำ รวมีถ9งระบบที่�ช้!วยสนิ�บสนิ�นิกัารติ�ดส�นิใจำ เป#นิติ�นิ ด�งนิ�0นิจำ9งที่�าให�กัารนิ�า data  mining มีาใช้�ได�ร�บคำวามีสนิใจำมีากัในิช้!วง 2-3 ป2ที่�ผ!านิมีา

      จำากัที่�ได�กัล!าวแล�วว!า Data Mining เป#นิข�0นิติอนิหนิ9งที่�ส�าคำ�ญในิกัระบวนิกัารคำ�นิหาล�กัษณ์ะแฝ่งของข�อมี(ล ที่�มี�ประโยช้นิ5ในิฐานิข�อมี(ล (Knowledge Discovery in Database : KDD) ซ่9งโดยที่�วไปกัระบวนิกัารของ KDD นิ�0นิประกัอบด�วยข�0นิติอนิติ!างๆ   ด�งนิ�0

      1. กัารคำ�ดเล+อกัข�อมี(ล (Data Selection) เป#นิกัารระบ�ถ9งแหล!งข�อมี(ลที่�จำะนิ�ามีาใช้�ในิกัารที่�า mining รวมีถ9ง กัารนิ�าข�อมี(ลที่�ติ�องกัารออกัมีาจำากัฐานิข�อมี(ลเพื่+อที่�ากัารพื่�จำารณ์าในิเบ+0องติ�นิติ!อไป

      2. กัารกัรองข�อมี(ล (Data Cleaning) เป#นิกัระบวนิกัารที่�ที่�าให�เกั�ดคำวามีมี�นิใจำในิคำ�ณ์ภาพื่ของข�อมี(ลที่�จำะนิ�ามีาใช้� ว�เคำราะห5 ว!าถ(กัติ�อง  โดยกัารนิ�าข�อมี(ลที่��ไมี!ถ(กัติ�องออกั

Page 5: DATAmining (1)

3. กัารแปลงร(ปแบบข�อมี(ล (Data Transformation) 

เป#นิกัารแปลงข�อมี(ลที่�เล+อกัมีาให�อย(!ในิร(ปแบบที่�เหมีาะสมี

ส�าหร�บกัารนิ�าไปใช้�ว�เคำราะห5ติามีอ�ลกัอร�ที่9มี (Algorithm) และแบบจำ�าลองที่�ใช้�ในิกัารที่�า data mining ติ!อไป

      4.    กัารที่�า Mining ข�อมี(ล (Data Mining)   กัารใช้�เที่คำนิ�คำภายในิ Data  Mining เพื่+อที่�ากัาร  Mine ข�อมี(ล  โดยที่�วไป ประเภที่ของงานิติามีล�กัษณ์ะของแบบจำ�าลองที่�ใช้�ในิกัารที่�า Data 

Mining นิ�0นิสามีารถแบ!งกัล�!มีได�เป#นิ 2 ประเภที่ใหญ!ๆ คำ+อ

           4.1  Predictive Data Mining  คำ+อ เป#นิกัารคำาดคำะเนิล�กัษณ์ะหร+อประมีาณ์คำ!าที่�ช้�ดเจำนิของข�อมี(ลที่�จำะเกั�ดข90นิ โดยใช้�พื่+0นิฐานิจำากัข�อมี(ลที่�ผ!านิมีาในิอด�ติ

           4.2  Descriptive Data Mining คำ+อ เป#นิกัารหาแบบจำ�าลองเพื่+ออธุ�บายล�กัษณ์ะบางอย!างของข�อมี(ลที่�มี�อย(! ซ่9งโดยส!วนิมีากัจำะเป#นิล�กัษณ์ะกัารแบ!งกัล�!มีให�กั�บข�อมี(ล

      5. กัารว�เคำราะห5และประเมี�นิผลล�พื่ธุ5ที่�ได� (Result Analysis

and Evaluation) เป#นิข�0นิติอนิกัารแปลคำวามีหมีาย และกัารประเมี�นิผลล�พื่ธุ5ที่�ได�ว!ามี�คำวามีเหมีาะสมีหร+อติรงกั�บว�ติถ�ประสงคำ5ที่�ติ�องกัารหร+อไมี! โดยที่�วไปคำวรมี�กัารแสดงผลในิร(ป แบบ ที่�สามีารถเข�าใจำได�โดยง!าย    

ร�ป แสดงข�0นิติอนิติ!างๆ ของกัระบวนิกัาร KDD     

Page 6: DATAmining (1)

  

ข �นตอนการทั่�างานของ Data Mining

      1. Problem  formulation

      กัารกั�าหนิดว�ติถ�ประสงคำ5ที่างธุ�รกั�จำ คำ+อจำะติ�องเข�าใจำป:ญหาและคำวามีติ�องกัารที่างธุ�รกั�จำ กัารกั�าหนิดว�ติถ�ประสงคำ5ที่าง ธุ�รกั�จำนิ�0นิจำะเป#นิส!วนิที่�กั�าหนิดว!าเมี+อไหร!ที่�จำะใช้� Data Mining ในิกัารแกั�ป:ญหาซ่9งในิส!วนินิ�0จำะประกัอบด�วยกัารว�เคำราะห5 ที่างธุ�รกั�จำ และกัารว�เคำราะห5เบ+0องติ�นิว!าเรามี�ข�อมี(ลใดอย(!บ�าง และติ�องกัารอะไรจำากัข�อมี(ลซ่9งข�0นิติอนินิ�0จำะสามีารถมีองถ9ง อ�ลกัอร�ที่9มี   และฐานิข�อมี(ลที่�ส�มีพื่�นิธุ5กั�บว�ติถ�ประสงคำ5ที่างธุ�รกั�จำได�

      กัารใช้�งานิ Data Mining ให�ได�ประโยช้นิ5ส(งส�ดจำ�าเป#นิติ�องมี�กัารกั�าหนิดว�ติถ�ประสงคำ5ที่�ช้�ดเจำนิ เช้!นิ ติ�องกัาร เพื่�มียอดกัารติอบร�บกัารขายที่างจำดหมีาย ข90นิอย(!กั�บกัารระบ�เป6าหมีายว!า จำะเพื่�มีอ�ติรากัารติอบร�บหร+อเพื่�มีมี(ลคำ!ากัารติอบร�บซ่9ง จำ�าเป#นิที่�จำะติ�องสร�าง Model ที่�แติกัติ!างกั�นิ ว�ติถ�ประสงคำ5ที่�กั�าหนิดข90นิมีาจำะติ�องมี�กัารระบ�ว�ธุ�กัารในิกัารว�ดผลล�พื่ธุ5ที่�ได�จำากั โคำรงกัาร รวมีถ9งติ�นิที่�นิที่�สมีเหติ�สมีผลด�วย

      2. Data  selection and  preparation

      การเตร�ยมข�อม�ลั (Data Preparation)

เป#นิห�วใจำของข�0นิติอนิในิกัารที่�าที่�0งหมีด เป#นิช้!วงที่�ใช้�เวลามีากัที่�ส�ดในิข�0นิติอนิ โดยปกัติ�แล�วติ�องกัารเวลาประมีาณ์

60%  ของเวลาที่�0งหมีดในิกัารเติร�ยมีข�อมี(ล ในิข�0นิติอนินิ�0อาจำสามีารถแบ!ง ออกัได�เป#นิข�0นิติอนิย!อยด�งติ!อไปนิ�0

      การเลั�อกข�อม�ลั (Data Selection)

Page 7: DATAmining (1)

      จำ�ดประสงคำ5 คำ+อกัารระบ�แหล!งของข�อมี(ลที่�มี� และที่�ากัารด9งเอาข�อมี(ลออกัมีาใช้�ส�าหร�บกัารว�เคำราะห5เบ+0องติ�นิในิกัาร เติร�ยมีติ�วส�าหร�บกัารที่�จำะที่�ากัาร Mining ในิข�0นิติ!อ ๆ ไป กัารเล+อกัข�อมี(ลนิ�0นิจำะแติกัติ!างไปติามีว�ติถ�ประสงคำ5ของแติ!ละธุ�รกั�จำ ที่�ได�กั�าหนิดไว�ติ�0งแติ!ติ�นิ และกัารเล+อกัข�อมี(ลกั3ย�งถ(กักั�าหนิดโดยล�กัษณ์ะงานิที่�จำะถ(กันิ�ามีาใช้�อ�กัด�วย

      ติ�วแปรที่�ถ(กัเล+อกัมีาแติ!ละติ�วนิ�0นิจำะติ�องถ(กัที่�าคำวามีเข�าใจำว!าติ�วแปรแติ!ละติ�วหมีายคำวามีว!าอะไร ประกัอบด�วยอะไร ไมี!เพื่�ยงแติ!คำ�าจำ�ากั�ดคำวามีที่างธุ�รกั�จำเที่!านิ�0นิ แติ!จำะติ�องมี�คำ�าอธุ�บายอย!างช้�ดเจำนิเกั�ยวกั�บช้นิ�ดของข�อมี(ล, คำ!าที่�เป#นิไปได�, แหล!งกั�าเนิ�ดของข�อมี(ล,  ร(ปแบบของข�อมี(ล และล�กัษณ์ะอ+นิ ๆ จำะมี�ติ�วแปร 2  ช้นิ�ดคำ+อ

o ติ�วแปรแบบ Categorical

1.   Nominal Variable กัล!าวถ9งช้นิ�ดนิ�0ของ Object ที่�มี�นิอ�างถ9งแติ!ไมี!มี�ล�าด�บ ในิคำ!าที่�เป#นิไปได� (Possible Value) ติ�วอย!างเช้!นิ สถานิะกัารแติ!งงานิ (โสด, แติ!งงานิ, หย!า, ไมี!ที่ราบ), เพื่ศ (ช้าย, หญ�ง), ระด�บกัารศ9กัษา (ปร�ญญาโที่,

ปร�ญญาติร�, มี. ปลาย, ปวช้)

2. Ordinal Variable มี�ล�าด�บส�าหร�บคำ!าที่�เป#นิไปได� ติ�วอย!างเช้!นิ ล�าด�บของ ล(กัคำ�า (ด�, ปานิกัลาง, ไมี!ด�)

o ติ�วแปรแบบ Quantitative ซ่9งมี�กัารว�ดคำวามีแติกัติ!างระหว!างคำ!าที่�เป#นิไปได�

1. Continuous (คำ!าที่�ติ!อเนิ+อง) เช้!นิรายได�, เฉล�จำ�านิวนิคำร�0งที่�ซ่+0อ, รายได�

Page 8: DATAmining (1)

2. Discrete (คำ!าเป#นิจำ�านิวนิเติ3มี) เช้!นิจำ�านิวนิพื่นิ�กังานิ, เวลาป2 (เด+อนิ, ฤด(, ไติรมีาส)

      ติ�วแปรของข�อมี(ลมี�หลายติ�วมีากัแติ!ติ�วแปรที่�ถ(กัเล+อกัส�าหร�บที่�า Data Mining นิ�0นิถ(กัเร�ยกัว!า “Active Variable”  เพื่ราะว!ามี�นิจำะถ(กัใช้�สร�างคำวามีแติกัติ!างของกัล�!มีย!อยติ!างๆ และสามีารถถ(กันิ�ามีาที่�านิายผลได� เมี+อคำ�ณ์ที่�ากัารเล+อกัข�อมี(ลจำะติ�อง พื่�จำารณ์าอาย�ของข�อมี(ลด�วย เพื่ราะว!าสถานิกัารณ์5ภายนิอกัเปล�ยนิแปลงติลอดเวลาซ่9งจำะที่�าให�ประส�ที่ธุ�ภาพื่ของกัารที่�า Mining ลดลง ติ�วอย!าง รสนิ�ยมีกัารใช้�ช้�ว�ติ กัารเปล�ยนิงานิ

      การกลั �นกรองข�อม�ลั (Data Preprocessing)

   จำ�ดประสงคำ5กั3เพื่+อที่�าให�มี� นิใจำว!าคำ�ณ์ภาพื่ของข�อมี(ลที่�ถ(กัเล+อกันิ�0นิเหมีาะสมี  ข�อมี(ลที่�สมีบ(รณ์5เป#นิเคำร+องประกั�นิ

ว!ากัารที่�า Data Mining จำะส�าเร3จำ ในิข�0นิติอนินิ�0เป#นิข�0นิติอนิที่�มี�ป:ญหามีากักัว!า ในิข�0นิติอนิของกัารเติร�ยมีข�อมี(ล เพื่ราะข�อมี(ลส!วนิใหญ!ที่�มี�ในิองคำ5กัร  ไมี!ได�ถ(กัเติร�ยมีมีาเพื่+องานิ Data Mining โดยเฉพื่าะ ข�อมี(ลจำะถ(กันิ�ามีาจำากัแหล!งติ!าง ๆ ถ(กัจำ�ดเกั3บไมี!ด� ข�อมี(ลที่�ถ(กันิ�ามีาจำากั ภายนิอกั แล�วนิ�ามีาเพื่+อให�เข�ากั�บข�อมี(ลภายในิที่�มี�อย(! ป:ญหาหล�กัของ Data คำ+อ คำ�ณ์ภาพื่และ Data  Integrity

   ในิข�0นิติอนินิ�0กั!อนิอ+นิจำะติ�องที่�ากัารที่บที่วนิโคำรงสร�างของข�อมี(ลใหมี! และว�ดคำ�ณ์ภาพื่ของมี�นิ โดยว�ธุ�ที่างสถ�ติ�

หร+อส�!มีติ�วอย!าง

   เคำร+องมี+อที่�ใช้�ในิกัารที่�ากัารกัล�นิกัรองข�อมี(ลมี�ด�งติ!อไปนิ�0

คำ!าติ�วแปรเป#นิแบบ Categorical กัารแบ!งคำวามีถ�ของคำ!าจำะเป#นิว�ธุ�ที่�ที่�าให�เกั�ดคำวามีเข�าใจำในิ

Page 9: DATAmining (1)

Data Content  เคำร+องมี+อที่างด�านิกัราฟฟBคำจำะเป#นิติ�วช้!วยให�เห3นิและกั�าหนิดคำ!าที่�หายไปได�

ติ�วแปรแบบ Quantitative ติ�วแปรประเภที่นิ�0มี�กัมี�กัารใช้�กัารว�ด ติ�วอย!างเช้!นิ คำ!าส(งส�ด คำ!าติ�าส�ด คำ!าเฉล�ย คำ!ากัลาง คำ!ามี�ธุยฐานิ และคำ!าอ+นิ ๆ ที่างสถ�ติ� เมี+อนิ�าคำ!าพื่วกันิ�0มีาเข�าส(ติรคำ�านิวณ์กั3จำะบอกัถ9งคำ!าที่� ไมี!สมีบ(รณ์5 หร+อคำ!าที่�มี�ป:ญหา

   เคำร+องมี+อที่างกัราฟฟBคำอ+นิ ๆ เช้!นิ Scatterplots คำ+อร(ป 2

มี�ติ�ซ่9งแสดงคำวามีส�มีพื่�นิธุ5ระหว!างติ�วแปร 2 ติ�วแปรข90นิไป

หร+อมีากักัว!า จำากักัราฟติ�วอย!างจำะเห3นิได�ว!ามี�กัารเปร�ยบเที่�ยบรายได� กั�บอาย� จำะเห3นิได�ว!าจำ�ดจำะอย(!ส(งข90นิติามีระด�บของอาย� ที่�าให�เราพื่อที่�จำะที่�านิายได�ว!ารายได�ของ อาช้�พื่นิ�0จำะส(งข90นิเมี+ออาย�ส(งข90นิ ส!วนิ Boxplot ถ(กัใช้�ให�เป#นิประโยช้นิ5ส�าหร�บเปร�ยบเที่�ยบศ(นิย5 กัลาง (คำ!าเฉล�ย) หร+อกัระจำาย (คำ!าเบ�ยงเบนิ) ของติ�วแปรติ�0งแติ! 2 ติ�วแปรข90นิไป จำากักัราฟติ�ว อย!างติารางแสดง Data Element ของข�อมี(ล อธุ�บายถ9งรายได�ของผ(�ช้ายและผ(�หญ�ง ร(ปส�เหล�ยมีคำ+อเร�ยกัว!า Box

และเส�นิ ติ�0ง 2 เส�นิเร�ยกัว!า Whisker จำากัคำวามีส(งของ Box พื่อจำะสร�ปได�ว!ารายได�ของผ(�ช้ายส(งกัว!าผ(�หญ�ง

      ระหว างการทั่�าข �นตอนการกลั �นกรองข�อม�ลัจะม�ป"ญหาบ่ อย ๆ ทั่��ม กพบ่ได้� ได้�แก

      Noisy Data คำ+อติ�วแปรติ�วหนิ9งหร+อมีากักัว!ามี�คำ!าซ่9งเกั�นิกัว!าคำ!าที่�เราคำาดไว� ซ่9งอาจำจำะหมีายถ9งแง!ด�หร+อแง!ร�ายกั3ได� ในิแง!ด�กั3คำ+อ มี�นิจำะแสดงอย!างช้�ดเจำนิถ9งโอกัาสซ่9งเรากั�าล�งมีองหาอย(! ในิแง!ร�าย คำ+อมี�นิอาจำจำะเป#นิข�อมี(ลที่�ไมี!สมีบ(รณ์5 สาเหติ� ที่�เกั�ดข90นิได�อาจำจำะมีาจำากัคำวามีเล�นิเล!อของมีนิ�ษย5 ติ�วอย!างเช้!นิ Operator ใส!อาย�ให�คำนิเป#นิ 300 ป2 หร+อใส!คำ!าของรายได� เป#นิติ�ดลบ   คำ!าเหล!า นิ�0คำวรจำะถ(กัแกั�ไข

Page 10: DATAmining (1)

หร+อเอาออกัจำากักัารว�เคำราะห5 คำวรมี�ข� 0นิติอนิกัารเช้3คำข�อมี(ลกั!อนินิ�ามีาใช้�

      ค าทั่��หายไป Missing Value คำ+อคำ!าที่�ไมี!ได�แสดงในิข�อมี(ลที่�เราได�เล+อกัแล�ว หร+อคำ!าที่�ไมี!สมีบ(รณ์5ที่�เราลบออกัไป ระหว!างกัารที่�า Noise Detection คำ!าอาจำจำะหายไปเพื่ราะเกั�ดจำากัคำวามีเล�นิเล!อของมีนิ�ษย5 เพื่ราะว!าไมี!มี�ข�อมี(ลนิ�0นิระหว!างกัารที่�า Input ข�อมี(ล กัารจำ�ดกัารกั�บคำ!าที่�หายไป นิ�0นิสามีารถจำ�ดกัารได�ด�วยเที่คำนิ�คำที่�ติ!าง ๆ กั�นิ  

      การสำ�ารวจแลัะตรวจสำอบ่ข�อม�ลั ( Data Cleaning and exploration )

      เมี+อที่�ากัารเกั3บข�อมี(ลเร�ยบร�อยแล�ว ข�0นิติอนิติ!อไปที่�คำวรกัระที่�ากั3 คำ+อกัารติรวจำสอบข�อมี(ล เหติ�ที่�ติ�องที่�ากัารติรวจำสอบ ข�อมี(ลมี� 2 ข�อ ข�อแรกั นิ�กัว�เคำราะห5คำวรมี�คำวามีคำ��นิเคำยกั�บติ�วข�อมี(ล ไมี!ใช้!ร( �แติ!ช้+อของ attribute และคำวามีหมีายของมี�นิเที่!านิ�0นิ แติ!ติ�องร( �ถ9งเนิ+0อหา (content) หร+อคำวามีมี�!งหมีายที่�แที่�จำร�งของข�อมี(ลด�วย ข�อสอง อาจำมี�คำวามีผ�ดพื่ลาดของกัารเกั3บสะสมีข�อมี(ล เกั�ดข90นิในิขณ์ะที่�ที่�ากัารรวบรวมีข�อมี(ลจำากัฐานิข�อมี(ลหลาย ๆ แหล!งเข�ามีาเป#นิหนิ9งเด�ยวเพื่+อใช้�ในิกัารว�เคำราะห5 ซ่9งนิ�กัว�เคำราะห5 ที่�ด�จำะติ�องที่�ากัารติรวจำสอบข�อมี(ลเหล!านิ�0ให�ถ(กัติ�อง ติ�วอย!างของคำวามีผ�ดพื่ลาดที่�เกั�ดข90นิ ได�แกั! คำวามีผ�ดพื่ลาดในิกัารเกั3บข�อมี(ล จำากั attribute ที่�ไมี!ติ�องกัาร ซ่9งเกั�ดจำากัคำวามีส�บสนิในิกัารติ�0งช้+อ attribute นิ�0นิ (mislabeling of field)

เช้!นิ เราติ�องกัารเกั3บคำ!าของระด�บกัารศ9กัษาของผ(�สมี�คำรเข�าศ9กัษาติ!อ ซ่9งในิคำวามีเป#นิจำร�งถ(กัเกั3บไว�ในิ attribute ที่�ช้+อ “LEVEL_EDU”

แติ!ในิฐานิข�อมี(ลนิ�0นิบ�งเอ�ญมี� attribute อ�กัติ�วหนิ9งช้+อ “EDUCATION” ซ่9งเกั3บระด�บกัารศ9กัษาที่�ผ(�สมี�คำรติ�องกัารเข�าศ9กัษา ซ่9งถ�าเราไมี!ได�ติรวจำสอบคำวามีส�มีพื่�นิธุ5และคำวามีมี�!งหมีายที่�แที่�จำร�งของแติ!ละ attribute แล�ว กั3อาจำเกั�ดกัารส�บสนิ โดยเกั3บข�อมี(ลของ

Page 11: DATAmining (1)

attribute “EDUCATION” ไปแที่นิกั3ได� ซ่9งเมี+อนิ�าข�อมี(ลที่�ได�ไปที่�า Data Mining ผลล�พื่ธุ5ที่�ได� กั3จำะผ�ดพื่ลาดด�วย

      การแปลังข�อม�ลั (Data Transformation)

      ระหว!างข�0นิติอนิของกัารแปลงข�อมี(ล ข�อมี(ลที่�ได�กัล�นิกัรองแล�วจำะถ(กัแปลงให�เป#นิร(ปแบบของข�อมี(ลที่�พื่ร�อมีจำะถ(กั ว�เคำราะห5 ร(ปแบบของข�อมี(ลที่�พื่ร�อมีจำะถ(กัว�เคำราะห5 คำ+อร(ปแบบของข�อมี(ลที่�ไมี!มี�คำวามีข�ดแย�ง ถ(กัจำ�ดระเบ�ยบมีาอย!างเร�ยบร�อย กัล�นิกัรองมีาจำากัแหล!งข�อมี(ลภายนิอกั และภายในิ

      ข�0นิติอนินิ�0เป#นิข�0นิติอนิที่�ส�าคำ�ญมีากัเนิ+องจำากัคำวามีถ(กัติ�อง และสมีบ(รณ์5ของผลล�พื่ธุ5ส�ดที่�ายซ่9งข90นิอย(!กั�บว!า นิ�กัว�เคำราะห5 ข�อมี(ลนิ�0นิติ�ดส�นิใจำกั�าหนิดโคำรงสร�างและเสนิอล�กัษณ์ะของ Input อย!างไร ติ�วอย!างเช้!นิ หล�กักัารร(ปแบบของข�อมี(ลถ(กักั�าหนิด แล�ว  ข�อมี(ลที่�ถ(กักัล�นิกัรองจำะเหมีาะสมีกั�บร(ปแบบเฉพื่าะส�าหร�บแติ!ละ กัรรมีว�ธุ�ของ Data Mining ที่�จำะถ(กัใช้� กัารแปลงข�อมี(ลย�ง รวมีไปถ9งกัารที่�า Data Recording และ Data Format Conversion เช้!นิกัารแปลงว�นิที่� เป#นิติ�นิ

      ที่างสถ�ติ�กัารที่�ากัารแปลงข�อมี(ลย�งมี�เที่คำนิ�คำของ Data

Reduction จำ�ดประสงคำ5เพื่+อที่�จำะลดติ�วแปรส�าหร�บกัารที่�ากัาร Process โดยกัารนิ�าเอาติ�วแปรติ�0งแติ! 2 ติ�วข90นิไปมีารวมีกั�นิแล�ว ที่�ากัาร Process ข�อด�กั3คำ+อลดจำ�านิวนิของติ�วแปรลง และย�ง สามีารถจำ�ดกัารได�ง!ายข90นิ

      อ�กัเที่คำนิ�คำเร�ยกัว!า Discretization โดยกัารแปลงติ�วแปรแบบ Quantitative ให�เป#นิแบบ Categorical โดยกัารแบ!ง คำ!าของติ�วแปรที่�จำะเป#นิ Input ให�เป#นิช้!วง ๆ เช้!นิกัารแปลงเง�นิเด+อนิ อาย�

Page 12: DATAmining (1)

อ�กัเที่คำนิ�คำเร�ยกัว!า One of N โดยกัารแปลงติ�วแปรแบบ Categorical ให�เป#นิ Numeric ติ�วอย!างเช้!นิ ช้นิ�ดของรถ Ford,

Lincoln, Nissan ให�เป#นิ 100, 010, 001 ปกัติ�แบบนิ�0มี�กัจำะเป#นิ Input ของพื่วกั Neural Network

      การปร บ่แต งข�อม�ลั ( Data Engineering )

      ข�0นิติอนิกั!อนิหนิ�านิ�0เป#นิข�0นิติอนิของกัารสร�าง และกัารติรวจำสอบคำวามีถ(กัติ�องของข�อมี(ลที่�จำะนิ�ามีาใช้� แติ!ในิข�0นิติอนิ นิ�0ที่�เราติ�องที่�า คำ+อกัารปร�บแติ!งฐานิข�อมี(ล ซ่9งในิข�0นิติอนินิ�0จำะมี�ป:ญหาหล�กั ๆ อย(! 3 ข�อคำ+อ หนิ9งฐานิข�อมี(ลที่�ได�อาจำมี� attributes จำ�านิวนิมีากัที่�สามีารถใช้�ประโยช้นิ5ได�แติ!ถ(กัละเลย กัารเล+อกักัล�!มีของ attributes ที่�จำะใช้�เป#นิป:ญหาที่�ส�าคำ�ญป:ญหาหนิ9ง สอง ฐานิข�อมี(ลที่�ได�อาจำมี�จำ�านิวนิระเบ�ยนิ (record ) มีากัเกั�นิไปกัว!าที่�จำะสามีารถที่�ากัารว�เคำราะห5ให�เสร3จำลงได�ในิเวลาที่�เหมีาะสมี ซ่9งในิกัรณ์�นิ�0เราติ�องที่�ากัารส�!มีข�อมี(ลติ�วอย!างข90นิมีาใช้�แที่นิ สามี ข�อมี(ลบางอย!างอาจำใช้�ให�เกั�ดประโยช้นิ5ได� โดยกัารนิ�าเสนิอ ในิร(ปแบบของกัารว�เคำราะห5แบบเฉพื่าะเจำาะจำง กัารที่�า Data

engineering นิ�0นิจำะมี�กัารที่�าซ่�0าข90นิมีาหลาย ๆ คำร�0ง เพื่+อที่ดสอบ กัารใช้� attribute ที่�แติกัติ!าง , ขนิาดของกัล�!มีติ�วอย!างที่�ติ!างกั�นิ เช้!นิ เราจำะที่�านิายอนิาคำติเมี+อเวลาผ!านิไป 1 , 2 , 3 , หร+อ 4 เด+อนิ เราอาจำที่�านิายได�โดยใช้�เพื่�ยง attribute เป#นิติ�วที่�านิายหร+ออาจำใช้�ข�อมี(ลที่�กัอย!างที่�เรามี�เป#นิติ�วที่�านิายกั3ได� เป#นิติ�นิ

      3. Visualization

เป#นิกัารนิ�าเสนิอข�อมี(ลในิร(ปแบบกัราฟฟBคำ กัารนิ�าเสนิอจำะสามีารถที่�าได�มีากักัว!า 2 มี�ติ� ซ่9งจำะสร�างคำวามีละเอ�ยด

ของกัารนิ�าเสนิอ และสร�างคำวามีเข�าใจำให�มีากัข90นิ

      4. Analysis

Page 13: DATAmining (1)

      หล�งจำากัเล+อกั algorithm ที่�เหมีาะสมีกั�บล�กัษณ์ะของป:ญหาแล�ว เรากั3จำะนิ�า algorithm นิ�0นิมีาที่�ากัารว�เคำราะห5 ข�อมี(ลในิฐานิข�อมี(ลที่�เติร�ยมีไว� ซ่9งในิบางคำร�0งข�0นิติอนินิ�0จำะถ(กัเร�ยกัว!า “Data

Mining” ในิขณ์ะที่�จำะเร�ยกักัระบวนิกัารที่�0งหมีดว!า “knowledge

discovery in databases” ผลล�พื่ธุ5ที่�ได�จำากัข�0นิติอนินิ�0จำะเป#นิร(ปแบบของคำวามีส�มีพื่�นิธุ5ของ ข�อมี(ลที่�จำะนิ�ามีาใช้� ในิกัารพื่ยากัรณ์5 ( prediction ) หร+อว�เคำราะห5ติ!อไป

      นิ�าข�อมี(ลที่�จำ�ดเติร�ยมีไว�มีาที่�า Data Mining ซ่9งมี�กัารที่�างานิอย(! 4 ช้นิ�ดด�วยกั�นิคำ+อ

Data Segmentation  เป#นิกัระบวนิกัารแบ!ง Database

ออกัเป#นิกัล�!มีเพื่+อให�ง!ายติ!อกัารว�เคำราะห5 เช้!นิกัารแบ!งล(กัคำ�าออกั ติามีอาย� เพื่ศ รายได� เป#นิติ�นิ

Predictive Modeling เป#นิกัารสร�างแบบจำ�าลองพื่ยากัรณ์5 แบ!งเป#นิ 2 ล�กัษณ์ะ คำ+อ

Classification เป#นิกัารจำ�ดกัล�!มีให�กั�บแติ!ละข�อมี(ลในิฐานิข�อมี(ล โดยมี�กัารระบ�คำ!า หร+อล�กัษณ์ะที่�เป#นิไปได�ของข�อมี(ล ภายในิแติ!ละกัล�!มี เช้!นิ กัารจำ�ดกัล�!มีของผ(�ป=วยติามีผลของกัารใช้�ยาร�กัษา เพื่+อระบ�ร(ปแบบกัารร�กัษาให�กั�บผ(�ป=วยใหมี! ที่�เข�าร�บกัารร�กัษา  เป#นิติ�นิ

      Value Prediction  เป#นิกัารพื่ยากัรณ์5คำ!าที่�เป#นิไปได� หร+อกัารกัระจำายของคำ!าที่�เป#นิไปได�ของติ�วแปรใดๆ ในิกัล�!มีข�อมี(ล

      กัารที่�านิายคำ!าที่�เป#นิติ�วเลข เช้!นิ กัารที่�านิายภาษ�ที่�จำะเกั3บได�ในิป2 เป#นิติ�นิ

Link  Analysis (Associations) เป#นิกัารหาคำวามีส�มีพื่�นิธุ5ของข�อมี(ลภายในิกัล�!มีข�อมี(ล เพื่+อใช้�ล�กัษณ์ะของข�อมี(ลหนิ9งๆ ในิกัารบอกัล�กัษณ์ะที่�จำะเกั�ดข90นิกั�บข�อมี(ลอ�กัติ�ว

Page 14: DATAmining (1)

หนิ9ง  ซ่9งอาจำจำะเป#นิกัารหาคำวามีส�มีพื่�นิธุ5ของข�อมี(ลในิกัล�!มีเด�ยวกั�นิ เช้!นิ กัารระบ�ว!าในิกัล�!มีของล(กัคำ�าที่�ซ่+0อนิมีนิ�0นิ จำะมี�ล(กัคำ�า 64% ที่�ซ่+0อขนิมีป:งด�วย หร+ออาจำจำะเป#นิกัารหาคำวามีส�มีพื่�นิธุ5ของ ติ�วแปรระหว!างกัล�!มีข�อมี(ลกั3ได� เช้!นิ ในิที่�กัๆ คำร�0งที่�ด�ช้นิ�ของติลาดห��นิหนิ9งลดลง 5%  ด�ช้นิ�ของติลาดห��นิอ+นิจำะเพื่�มีข90นิ 13% ภายในิช้!วง 2-6 เด+อนิหล�งจำากันิ�0นิ เป#นิติ�นิ ซ่9งล�กัษณ์ะของกัารหาคำวามีส�มีพื่�นิธุ5นิ�0นิอาจำแบ!งได�เป#นิ 3 กัล�!มี  คำ+อ กัารหาคำวามีส�มีพื่�นิธุ5ระหว!างข�อมี(ล  (Association discovery)

กัารหาคำวามีส�มีพื่�นิธุ5ในิล�กัษณ์ะที่�เป#นิล�าด�บของข�อมี(ล (Sequential Pattern discovery) และ กัารหาคำวามีส�มีพื่�นิธุ5ของข�อมี(ลกั�บช้!วงเวลาใดๆ  (Similar Time Sequence discovery)     

Deviation Detection   เป#นิเที่คำนิ�คำที่�ใช้�ในิกัารแสดงล�กัษณ์ะของข�อมี(ลที่�ผ�ดปกัติ� หร+อผ�ดไปจำากัที่�คำาดไว� โดยมี�กัารแสดงผล อย(!ในิล�กัษณ์ะที่�สามีารถที่�าคำวามีเข�าใจำและแปลคำวามีหมีายได�ง!าย เช้!นิ กัารใช้�กัราฟ เป#นิติ�นิ

  

     5. Interprete

      หล�งจำากัที่�กัารสร�าง Model แล�วจำ�าเป#นิติ�องติรวจำสอบผลล�พื่ธุ5และติ�คำวามีหมีาย คำวามีถ(กัติ�องที่�ติรวจำออกัมีาได�นิ�0นิ เป#นิช้�ดติ�วอย!างที่�ส!งเข�าไป   ด�งนิ�0นิผลล�พื่ธุ5ที่�ได�อาจำ มี�คำวามีปรวนิแปรหากัมี�กัารนิ�าไปใช้�กั�บข�อมี(ลอ+นิ ๆ

     6. Presentation

   เป#นิกัารแสดงผลกัารว�เคำราะห5โดยอาศ�ยเคำร+องมี+อที่�มี�คำวามีสามีารถและเข�าใจำง!าย กัารแสดงผลอาจำจำะอย(!ในิร(ปแบบของ รายงานิ   ติาราง กัราฟ  แผนิที่�หลายมี�ติ� เป#นิติ�นิ

Page 15: DATAmining (1)

Data Mining Tasks

1.  Classification

      ติ�วอย!างนิ�0จำะสร�างคำวามีเข�าใจำในิ Classification Study ซ่9งกัรณ์�ของติ�วอย!างนิ�0พื่บได�ที่�วไปในิวงกัารธุ�รกั�จำ นิ�กัว�เคำราะห5ในิองคำ5กัรที่�ที่�าธุ�รกั�จำเกั�ยวกั�บกัารส+อสารแห!งหนิ9งติ�องกัารเข�าใจำว!าที่�าไมีล(กัคำ�าบางกัล�!มีถ9งย�งคำงซ่+อส�ติย5และมี� Brand Loyalty ส(งกั�บส�นิคำ�าขององคำ5กัร แติ!ในิขณ์ะเด�ยวกั�นิล(กัคำ�าอ�กักัล�!มีกัล�บไปหาคำ(!แข!งแที่นิ ที่�ายที่�ส�ดนิ�กัว�เคำราะห5จำ9งติ�องกัาร จำะที่�านิายล�กัษณ์ะและนิ�ส�ยของล(กัคำ�าที่�องคำ5กัรจำะติ�องเส�ยไปให�คำ(!แข!ง

      เนิ+องจำากัขณ์ะนิ�0นิ�กัว�เคำราะห5มี�เป6าหมีายในิใจำเร�ยบร�อยแล�ว ด�งนิ�0นินิ�กัว�เคำราะห5จำ9งสามีารถสร�าง Model ที่�ข�อมี(ลติ!าง ๆ ได�มีาจำากัข�อมี(ลในิอด�ติของล(กัคำ�าที่�มี�คำวามีซ่+อส�ติย5ติ!อองคำ5กัรและกัล�!มีล(กัคำ�าที่�ไมี!มี�คำวามีซ่+อส�ติย5ติ!อองคำ5กัรด�วย Model ที่�สมีบ(รณ์5 ถ(กัติ�องจำะสามีารถที่�าให�องคำ5กัรเข�าใจำและที่�านิายล�กัษณ์ะของธุ�รกั�จำที่�จำะเกั�ดข90นิได�

      จำากัติ�วอย!างเหติ�กัารณ์5จำะสามีารถอธุ�บายข�0นิติอนิของกัารกั�าหนิดกัารศ9กัษาได� กัารศ9กัษาจำะกั�าหนิดขอบเขติของ กั�จำกัรรมีของ Data Mining ได� นิอกัจำากันิ�0กัารศ9กัษาจำะสามีารถกั�าหนิดจำ�ดประสงคำ5และข�อมี(ลที่�ติ�องกัารใช้�ได�ที่�0งหมีด ด�วยกัารกั�าหนิดป:ญหาที่างธุ�รกั�จำ นิ�นิกั3เป#นิส�งที่�บอกัให�นิ�กัว�เคำราะห5ที่ราบได�เลยว!าข�0นิติอนิในิกัารที่�า Data Mining จำะที่�า อย!างไรและจำ�ดประสงคำ5ของกัารที่�าคำ+ออะไร

      ในิกัารศ9กัษาติ�องกัารห�วข�อในิกัารศ9กัษา ห�วข�อในิกัารศ9กัษาอาจำหมีายได�ถ9ง Data Element ของ Object ที่�เรา ติ�องกัารจำะศ9กัษา เช้!นิ เราติ�องกัารจำะศ9กัษาถ9ง Object “ล(กัคำ�า ซ่9งมี� ” Data

Element ที่�เกั�ยวข�องคำ+อ ช้นิ�ดของล(กัคำ�า แนิวโนิ�มีกัารซ่+0อส�นิคำ�า ระยะเวลาที่�เป#นิล(กัคำ�าขององคำ5กัร และอ+นิ ๆ ซ่9ง Data Element จำะเป#นิติ�วกั�าหนิดล�กัษณ์ะ และช้นิ�ดของล(กัคำ�ากัารที่�า Classification

Page 16: DATAmining (1)

Studies นิ�0นิเราสามีารถกั�าหนิดโคำรงร!างล�กัษณ์ะเฉพื่าะหร+ออ�ปนิ�ส�ยของล(กัคำ�า ได�โดยด(ได�จำากัติาราง 

ช้+อคำอล�มีนิ5 ช้นิ�ดของข�อมี(ล คำ!าที่�ได� คำ�าอธุ�บายเบอร5ล(กัคำ�า ติ�วเลข คำ!าเฉพื่าะ ติ�วกั�าหนิดเฉพื่าะ

ส�าหร�บล(กัคำ�าระยะเวลา ติ�วเลข จำ�านิวนิเติ3มี จำ�านิวนิที่�ล(กัคำ�าอย(!

กั�บองคำ5กัรแนิวโนิ�มี ติ�วอ�กัษร เพื่�มีข90นิ , เหมี+อนิเด�มี ,

ลดลงติ�วบ!งช้�0แนิวโนิ�มีกัารใช้�ส�นิคำ�า 6

เด+อนิล!าส�ดสถานิะ ติ�วอ�กัษร ส(ง , กัลาง , ติ�า , ไมี!

ที่ราบกัารส�ารวจำผลคำวามีพื่อใจำของล(กัคำ�า

ช้นิ�ดของล(กัคำ�า

ติ�วอ�กัษร ย�งคำงซ่+อส�ติย5 , ไมี!ซ่+อส�ติย5

ล(กัคำ�าย�งคำงอย(!กั�บองคำ5กัรหร+อเส�ยให�คำ(!แข!งไปแล�ว

 

      ติารางแสดง Data Element ของข�อมี(ล 

      จำากัติ�วอย!างข�างติ�นิเรากั�าหนิดให� ช้นิ�ดของล(กัคำ�าเป#นิ Output

หร+อ Dependent Variable ซ่9งถ(กัใช้�เป#นิ พื่+0นิฐานิในิกัารศ9กัษาว!าอะไรคำ+อสาเหติ�ที่�ที่�าให�ล(กัคำ�าซ่+อส�ติย5กั�บองคำ5กัรและที่�าล(กัคำ�าถ9งจำากัองคำ5กัรไป และเราจำะใช้� Data Element ติ�วอ+นิ ๆ มีาช้!วยในิกัารอธุ�บายส�งที่�เกั�ดข90นิ เรากั�าหนิดให�ช้นิ�ดของล(กัคำ�าเป#นิ Training

Data ถ�าเราเปล�ยนิ Data Element ติ�วอ+นิมีาเป#นิ Output จำ�ดประสงคำ5ของกัารศ9กัษากั3จำะเปล�ยนิไปด�วย

Page 17: DATAmining (1)

      มี�เที่คำนิ�คำของ Data Mining จำ�านิวนิมีากัที่�ใช้�ส�าหร�บป:ญหาแบบ classification และ regression และแติ!ละเที่คำนิ�คำกั3มี� algorithm มีากัมีาย แติ!ละ algorithm กั3ให�ผลล�พื่ธุ5ที่�แติกัติ!างกั�นิไป ส�งที่�แยกัป:ญหา classification ออกัจำากัแบบ regression

คำ+อ ป:ญหา classification จำะให�ผลล�พื่ธุ5เป#นิคำ!าที่�แนิ!นิอนิ เช้!นิ ใช้! “ ”

, “ไมี!ใช้! หร+อ ส(ง ” “ ” , “กัลาง และ ติ�า เป#นิติ�นิ ติ�วอย!างเช้!นิ แบบ” “ ”

จำ�าลองอาจำที่�านิายว!า นิาย “ A จำะติอบร�บข�อเสนิอของที่างบร�ษ�ที่ ในิ”

ขณ์ะที่�ผลล�พื่ธุ5ที่�จำะได�จำากัป:ญหาแบบ regression เป#นิคำ!าเฉพื่าะที่�แนิ!นิอนิ แติ!คำ!านิ�0จำะไมี!จำ�ากั�ดคำ+อ อาจำเป#นิคำ!าอะไรกั3ได� ติ�วอย!างเช้!นิ จำากัแบบจำ�าลองที่�ได�จำากักัารที่�า Data Mining แบบ regression แบบจำ�าลองอาจำที่�านิายว!า นิาย “ A จำะได�ร�บผลกั�าไร 500 บาที่ เป#นิติ�นิ”

      โดยที่�วไปแล�ว ป:ญหาในิแบบ regression จำะสามีารถเปล�ยนิเป#นิป:ญหาแบบ classification ได�โดยกัารแบ!งคำ!า ที่�ติ�องกัารที่�านิายให�เป#นิกัล�!มีของคำ!าที่�ไมี!ติ!อเนิ+องกั�นิ (discrete

categories) และป:ญหาแบบ classification กั3สามีารถเปล�ยนิ เป#นิแบบ regression ได� โดยกัารที่�านิายคำ!าหร+อคำวามีนิ!าจำะเป#นิส�าหร�บแติ!ละกัล�!มี และกั�าหนิดคำ!าของช้!วงของคำ!า หร+อคำวามีนิ!า จำะเป#นิที่�ที่�านิายได�

เทั่คน�คของ Data Mining ทั่��ใช้�ในการแก�ป"ญหาแบ่บ่ classification แลัะ regression

      เที่คำนิ�คำที่�ใช้�ในิกัารที่�า Data Mining แบบ classification

และ regression ที่�ใช้�กั�นิในิผล�ติภ�ณ์ฑ์5ด�านิ Data Mining ในิป:จำจำ�บ�นิ ได�แกั!

Decision tree เป#นิเที่คำนิ�คำที่�ให�ผลล�พื่ธุ5ในิล�กัษณ์ะของโคำรงสร�างติ�นิไมี�

      โดยปกัติ�มี�กัประกัอบด�วยกัฎในิร(ปแบบ ถ�า “ เง+อนิไข แล�ว ผลล�พื่ธุ5”  เช้!นิ

Page 18: DATAmining (1)

“If Income = High and Married = No THEN Risk = Poor”

“If Income = High and Married = Yes THEN Risk = Good”

Decision tree เป#นิเที่คำนิ�คำที่�คำ!อนิข�างแพื่ร!หลาย เนิ+องจำากัผ(�ใช้�สามีารถที่�าคำวามีเข�าใจำผลล�พื่ธุ5ได�ง!าย เที่คำนิ�คำ Decision tree จำะจำ�ากั�ดข�อมี(ลที่�เป#นิติ�วแปรติามี ( dependent variable ) 1 ติ�วติ!อ 1 แบบจำ�าลอง ถ�าติ�องกัารที่�านิายติ�วแปรติามีหลาย ๆ ติ�ว จำะติ�องสร�างแบบจำ�าลองส�าหร�บติ�วแปรติามีแติ!ละติ�ว algorithm ของเที่คำนิ�คำแบบ Decision tree   ส!วนิใหญ!ไมี!รองร�บข�อมี(ลแบบติ!อเนิ+อง ( continuous data ) จำะติ�องมี�กัารแบ!งให�เป#นิข�อมี(ลแบบไมี!ติ!อเนิ+อง ( discrete data ) เส�ยกั!อนิ algorithm ที่�เหล!านิ�0นิได�กั!อนิ Chi-squared Automatic Interaction Detection ( CHAID ) , Classification and Regression Trees ( CART ) , C4.5 และ C5.0 algorithm เหล!านิ�0ส!วนิมีากัมี�กัเหมีาะกั�บป:ญหาแบบ classification Algorithm บางติ�วปร�บให�ใช้�ได�กั�บป:ญหาแบบ regression เช้!นิ Classification and

Regression Trees ( CART ) ซ่9งรองร�บที่�0งป:ญหาในิแบบ Classification และ regression นิอกัจำากันิ�0ย�งรองร�บข�อมี(ลในิแบบที่�ติ!อเนิ+องด�วย

Neural networks มี�พื่+0นิฐานิมีาจำากัแบบจำ�าลองกัารที่�างานิของสมีองมีนิ�ษย5 และกั3สามีารถใช้�ได�ด�

กั�บป:ญหา classification , regression และ clustering

เที่คำนิ�คำนิ�0มี�กัถ(กัเร�ยกัว!า “black box” เนิ+องจำากักัารที่�างานิของมี�นิมี�คำวามีซ่�บซ่�อนิมีากักัว!าเที่คำนิ�คำอ+นิ ๆ คำ!อนิข�างมีากั ผลล�พื่ธุ5ที่�ได�กั3ยากัติ!อกัารที่�าคำวามีเข�าใจำ    

Page 19: DATAmining (1)

    

D

                         A                       1    

                                           -2                    1  1          

F

                                         2                                     

     

                           B            2                              

E

                                                                             -2                              

                         -1  

             C                 -5  

Page 20: DATAmining (1)

เช้!นิ ในิร(ปแสดงผลล�พื่ธุ5ของกัารใช้�เที่คำนิ�คำแบบ neural networks

ในิกัารว�เคำราะห5ป:ญหาคำวามีเส�ยงของกัารให�กั(�เง�นิ ซ่9งประกัอบด�วยจำ�ด 6 จำ�ด A-F โดยที่� A , B ,C เป#นิจำ�ที่�เป#นิข�อมี(ลเข�า ซ่9งแที่นิติ�วแปรอ�สระ หนิ�0ส�นิ ( debt ) , รายได� ( income ) และสถานิภาพื่สมีรส ( Married )  ในิขณ์ะที่�จำ�ด F เป#นิผลล�พื่ธุ5ของกัารว�เคำราะห5 แที่นิติ�วแปรติามีคำ+อ คำวามีเส�ยง ( risk ) และติ�วเลขที่�กั�ากั�บอย(!ติามีเส�นิล(กัศรคำ+อ คำ!าถ!วงนิ�0าหนิ�กั ( weight ) เป#นิติ�นิ

ถ9งแมี�ว!าเที่คำนิ�คำนิ�0จำะที่�างานิได�ด�กั�บป:ญหา classification ,

regression และ clustering กั3ติามี แติ!มี�นิเป#นิเที่คำนิ�คำที่�คำ!อนิข�างซ่�บซ่�อนิกัว!าเที่คำนิ�คำอ+นิ คำวามีซ่�บซ่�อนิและกัารไมี!สามีารถอธุ�บายได�ของผลล�พื่ธุ5 มี�กัที่�าให�ผ(�ใช้�หล�กัเล�ยงเที่คำนิ�คำนิ�0 อย!างไรกั3ติามี เที่คำนิ�คำนิ�0กั3มี�ข�อด�ที่�ส�าคำ�ญที่�ไมี!มี�ในิเที่คำนิ�คำอ+นิ ๆ กั3คำ+อ เที่คำนิ�คำนิ�0ไมี!มี�ข�อจำ�ากั�ดเกั�ยวกั�บช้นิ�ดของคำวามีส�มีพื่�นิธุ5 เช้!นิ เที่คำนิ�คำแบบ neural networks

สามีารถสร�างแบบจำ�าลองคำวามีส�มีพื่�นิธุ5ระหว!างติ�วแปรติามีกั�บส�ดส!วนิของติ�วแปรอ�สระ 2 ติ�วได� ซ่9งที่�าได�ยากั  ถ�าใช้�เที่คำนิ�คำแบบ Decision

tree หร+อ Naïve-Bayes นิอกัจำากันิ�0 เที่คำนิ�คำแบบ neural

networks ย�งไมี!มี�ป:ญหากั�บคำวามีส�มีพื่�นิธุ5ที่�เป#นิแบบติร�โกัณ์มี�ติ� ( trigonometric ) หร+อ logarithmic ด�วย ในิกัารใช้�งานิจำร�งนิ�0นิ เที่คำนิ�คำแบบ Decision tree หร+อ Naïve-Bayes อาจำให�ผลล�พื่ธุ5ที่�ถ(กัติ�องเพื่�ยงพื่อกั�บคำวามีติ�องกัาร แติ!ถ�าติ�องกัารคำวามีแมี!นิย�ามีากั ๆ แล�ว เที่คำนิ�คำแบบ Neural networks อาจำเป#นิหนิที่างที่�ด�ที่�ส�ด ที่างเด�ยวที่�จำะร( �ว!าคำวรใช้�เที่คำนิ�คำแบบ Neural networks หร+อไมี! กั3คำ+อ กัารเปร�ยบเที่�ยบคำวามีเที่�ยงติรงของแบบจำ�าลองกั�บเที่คำนิ�คำอ+นิ ( Decision tree หร+อ Naïve-Bayes ) ถ�าไมี!ได�ด�กัว!ากั�นิอย!างเห3นิได�ช้�ด กั3คำวรเล+อกัเที่คำนิ�คำอ+นิ แติ!ถ�าผลล�พื่ธุ5ที่�ได�จำากัแบบจำ�าลองของเที่คำนิ�คำ Neural networks มี�คำวามีเที่�ยงติรงกัว!าอย!างเห3นิได�ช้�ด นิ�นิอาจำหมีายถ9ง เราติ�องที่�ากัารปร�บปร�งแบบจำ�าลองของเที่คำนิ�คำ Decision tree หร+อ บางที่�กัารใช้�เที่คำนิ�คำแบบ Neural

networks  อาจำเหมีาะสมีส�าหร�บป:ญหานิ�0มีากัที่�ส�ดกั3ได�

Page 21: DATAmining (1)

Naïve-Bayes เป#นิเที่คำนิ�คำที่�ถ(กัติ�0งช้+อติามี Thomas

Bayes ( 1702-1761 ) เที่คำนิ�คำแบบ Naïve-

Bayes ใช้�ที่ฤษฎ� Bayes Theorem ในิกัารคำ�านิวณ์คำวามีนิ!าจำะเป#นิซ่9งถ(กัใช้�ในิกัารที่�านิายผล เมี+อที่�ากัารว�เคำราะห5กัรณ์�ใหมี! กัารที่�านิาย“

ผลที่�าได�โดยกัารรวมีผลของติ�วแปรอ�สระ   ( independent

variable ) ที่�มี�ติ!อติ�วแปรติามี ( dependent variable )”

Naïve-Bayes เป#นิเที่คำนิ�คำในิกัารแกั�ป:ญหาแบบ classification

ที่�ที่�0งสามีารถคำาดกัารณ์5ผลล�พื่ธุ5ได�และสามีารถอธุ�บายได�ด�วย มี�นิจำะที่�ากัารว�เคำราะห5คำวามีส�มีพื่�นิธุ5ระหว!างติ�วแปรอ�สระแติ!ละติ�วกั�บติ�วแปรติามีเพื่+อใช้�ในิกัารสร�างเง+อนิไขคำวามีนิ!าจำะเป#นิส�าหร�บแติ!ละคำวามีส�มีพื่�นิธุ5 ในิที่างที่ฤษฎ�แล�วกัารที่�านิายผลของ Naïve-Bayes จำะถ(กัติ�องถ�าติ�วแปรอ�สระที่�0งหมีดเป#นิอ�สระติ!อกั�นิ ไมี!ข90นิกั�บติ�วแปรอ�สระติ�วใดติ�วหนิ9ง ซ่9งในิคำวามีเป#นิจำร�งแล�วมี�ไมี!มีากันิ�กัที่�ติ�วแปรอ�สระที่�0งหมีดเป#นิอ�สระติ!อกั�นิ ติ�วอย!างเช้!นิ ข�อมี(ลเกั�ยวกั�บประว�ติ�บ�คำคำล ซ่9งมี�กัประกัอบด�วยรายละเอ�ยดย!อยมีากัมีาย อาที่� นิ�0าหนิ�กั , กัารศ9กัษา , รายได� เป#นิติ�นิ จำะเห3นิว!ารายละเอ�ยดเหล!านิ�0มี�กัข90นิอย(!กั�บอาย� ในิกัรณ์�นิ�0กัารใช้� Naïve-Bayes จำะติ�องคำ�านิ9งถ9งผลของอาย�ให�มีากั ๆ นิอกัจำากันิ�0 เที่คำนิ�คำแบบ Naïve-Bayes ย�งไมี!รองร�บข�อมี(ลที่�เป#นิข�อมี(ลติ!อเนิ+อง ( continuous data ) ด�วย ด�งนิ�0นิ ติ�วแปรอ�สระหร+อติ�วแปรติามีที่�มี�คำ!าเป#นิคำ!าติ!อเนิ+องจำะติ�องถ(กัแบ!งเป#นิช้!วงเช้!นิ ถ�ามี�ติ�วแปรอ�สระที่�เป#นิคำ!าของอาย�กั3อาจำแปลงคำ!าเหล!านิ�0นิให�เป#นิช้!วงแคำบ ๆ อาที่� ติ�ากัว!า “ 20 ป2 ” , “20-40 ป2 ” , “40 ป2ข90นิไป เป#นิติ�นิ ซ่9ง”

กัารแบ!งช้!วงนิ�0นิ ถ�าแบ!งไมี!เหมีาะสมี กั3จำะมี�ผลติ!อคำ�ณ์ภาพื่ของแบบจำ�าลองที่�สร�างข90นิ แติ!ถ�าไมี!คำ�านิ9งถ9งข�อจำ�ากั�ดนิ�0แล�ว เที่คำนิ�คำแบบ Naïve-Bayes สามีารถให�ผลล�พื่ธุ5ที่�ด�และรวดเร3วได� คำวามีง!ายและคำวามีเร3วที่�าให�เที่คำนิ�คำนิ�0เป#นิเคำร+องมี+อที่�ด�ในิกัารสร�างแบบจำ�าลองและหาร(ปแบบคำวามีส�มีพื่�นิธุ5ที่�ไมี!ซ่�บซ่�อนิ

Page 22: DATAmining (1)

K-nearest neighbor (K-NN) เป#นิเที่คำนิ�คำที่�เหมีาะกั�บป:ญหาแบบ classification เที่คำนิ�คำนิ�0แติกัติ!าง

จำากัเที่คำนิ�คำอ+นิติรงที่�มี�นิไมี!ได�ใช้�ข�อมี(ลฝ่Dกัห�ด ( training data ) ในิกัารสร�างแบบจำ�าลอง แติ!จำะใช้�ข�อมี(ลนิ�0นิมีาเป#นิติ�วแบบจำ�าลองเลย ในิกัารใช้�งานิ K-NN algorithm นิ�0นิเราติ�องระบ�คำ!าติ�วเลขจำ�านิวนิเติ3มีบวกัให�กั�บ k ด�วย ซ่9งคำ!านิ�0จำะเป#นิติ�วบอกัจำ�านิวนิของกัรณ์� (case) ที่�จำะติ�องคำ�นิหาในิกัารที่�านิายกัรณ์�ใหมี! algorithm แบบ K-NN ได�แกั! 1-NN , 2-NN , 3-NN , ………. K-NN โดยที่� k แที่นิเลขจำ�านิวนิเติ3มีบวกั เช้!นิ 4-NN หมีายถ9ง algorithm นิ�0จำะคำ�นิหา 4 กัรณ์�ที่�มี�ล�กัษณ์ะใกัล�เคำ�ยงกั�บกัรณ์�ใหมี! ( 4 nearest cases ) ในิกัารที่�านิายกัรณ์�ใหมี! 

2. Estimation / Prediction

   ล�กัษณ์ะของ Classification นิ�0นิคำ�านิ9งถ9งผลกั�าหนิดที่�ออกัมีาช้�ดเจำนิว!าคำ�ณ์สมีบ�ติ�ด�งกัล!าวจำะอย(!ในิช้�0นิใด แติ! Estimation

เป#นิกัารประเมี�นิที่�ไมี!สามีารถกั�าหนิดคำ!าหร+อคำ�ณ์สมีบ�ติ�ด�งกัล!าวให�ช้�ดเจำนิ เป#นิกัารจำ�ดกัารกั�บคำ!าที่�มี�ผลในิกัารว�ดที่�ติ!อเนิ+อง ติ�วอย!างเช้!นิ

กัารประเมี�นิรายได�ของคำรอบคำร�ว กัารประเมี�นิคำวามีส(งของบ�คำคำลในิคำรอบคำร�ว กัารประเมี�นิจำ�านิวนิของเด3กัๆ ในิคำรอบคำร�ว

   Prediction เหมี+อนิกั�บ Classification  และ Estimation

ยกัเว�นิว!า Record ที่�ถ(กัแยกัจำ�ดล�าด�บนิ�0นิเกั�ดข90นิติามีกัารที่�านิาย พื่ฤติ�กัรรมีในิอนิาคำติหร+อกัารที่�านิายคำ!าที่�จำะเกั�ดข90นิในิอนิาคำติ ข�อมี(ลในิอด�ติจำะถ(กัสร�างเป#นิ Model ข90นิมีาเพื่+อที่�านิายหร+ออธุ�บาย ส�งที่�จำะเกั�ดข90นิในิอนิาคำติ ติ�วอย!างเช้!นิ

กัารที่�านิายว!าล(กัคำ�ากัล�!มีใดที่�องคำ5กัรจำะส(ญเส�ยไปภายในิ 6

เด+อนิหนิ�า

Page 23: DATAmining (1)

กัารที่�านิายว!ายอดซ่+0อของล(กัคำ�าจำะเป#นิเที่!าใดถ�าบร�ษ�ที่ลดราคำาส�นิคำ�า 10 %

 

3. Segmentation / Clustering

      Clustering คำ+อว�ธุ�ของกัารรวมีกัล�!มีของข�อมี(ลที่�มี�ล�กัษณ์ะเหมี+อนิกั�นิ ร(ปแบบและแนิวโนิ�มีที่�เหมี+อนิกั�นิ กัารศ9กัษาของ Clustering ไมี!มี� Output หร+อ Independent Variable

เหมี+อนิ Classification Studies และไมี!มี�กัารจำ�ดเป#นิล�กัษณ์ะโคำรงร!างของ Object ใด ๆ ด�งนิ�0นิกัารศ9กัษาแบบนิ�0จำ9งถ(กัเร�ยกัว!า Unsupervised Learning หร+อ Segmentation กัารที่�า Clustering เองสามีารถที่�าบนิพื่+0นิฐานิของข�อมี(ลในิอด�ติได�เหมี+อนิกั�นิ แติ!ผลล�พื่ธุ5ที่�ได�มีาไมี!ได�ออกัจำากั Training Data

      ติ�วอย!างของ Clustering เช้!นิ องคำ5กัรติ�องกัารที่ราบคำวามีเหมี+อนิที่�มี�ในิกัล�!มีล(กัคำ�าของตินิเอง เพื่+อที่�ว!าองคำ5กัรจำะสามีารถเข�าใจำล�กัษณ์ะเฉพื่าะของกัล�!มีล(กัคำ�าเป6าหมีายขององคำ5กัร และสร�างกัล�!มีของล(กัคำ�าเพื่+อองคำ5กัรจำะสามีารถขายส�นิคำ�าได�ในิอนิาคำติ องคำ5กัรจำะที่�ากัารแยกักัล�!มีของล(กัคำ�าออกัเป#นิกัล�!มี ๆ

      เที่คำนิ�คำของ Clustering พื่ยายามีมีองหาคำวามีเหมี+อนิและคำวามีแติกัติ!างภายในิกัล�!มีของข�อมี(ลและแบ!งกัล�!มีติ!าง ๆ ออกัเป#นิส!วนิ ๆ

เทั่คน�คในการทั่�า Data Mining เพ��อแก�ป"ญหาแบ่บ่ clustering

Demographic Clustering แนิวคำ�ดพื่+0นิฐานิของ Demographic Clustering  คำ+อกัารสร�าง segment

โดยกัารเปร�ยบเที่�ยบข�อมี(ล แติ!ละติ�วกั�บที่�กั ๆ segment ที่�สร�างข90นิในิขณ์ะที่�กั�าล�งที่�า Data Mining โดยกัารสร�างคำวามี

Page 24: DATAmining (1)

แติกัติ!างระหว!างคำะแนินิ ให�มีากัที่�ส�ด algorithm จำะใส!ข�อมี(ลลงในิแติ!ละ segment    ซ่9ง segment ใหมี!สามีารถถ(กัสร�างข90นิได�ติลอดเวลาที่�ที่�า Data Mining ข�อด�ของเที่คำนิ�คำนิ�0คำ+อ มี�นิสามีารถกั�าหนิดจำ�านิวนิของ segment ที่�ติ�องสร�างข90นิได�โดยอ�ติโนิมี�ติ�และ ผลล�พื่ธุ5ของช้�ดข�อมี(ลขนิาดใหญ!ที่�ถ(กัแบ!งอย!างช้�ดเจำนิ Demographic Clustering เหมีาะกั�บข�อมี(ลที่�มี�ล�กัษณ์ะเป#นิกัล�!มี โดยเฉพื่าะจำ�านิวนิของกัล�!มีนิ�อย ๆ

Neural Clustering เที่คำนิ�คำนิ�0นิ�า Kohonen feature

map neural network มีาใช้� Kohonen feature map

ใช้�กัระบวนิกัาร ที่�เร�ยกัว!า self-organization ในิกัารติ�0งคำ!าหนิ!วยของผลล�พื่ธุ5เข�าส(! topological map Feature

map neural network ประกัอบด�วยช้�0นิของหนิ!วยประมีวลผล 2 ช้�0นิ โดยช้�0นิของข�อมี(ลเข�า ( input layer ) จำะเช้+อมีติ!อกั�บช้�0นิของผลล�พื่ธุ5 ( output layer ) อย!างสมีบ(รณ์5 เมี+อร(ปแบบของข�อมี(ลเข�าถ(กัแสดงส(! feature map หนิ!วยติ!าง ๆ ในิช้�0นิของผลล�พื่ธุ5 จำะแข!งข�นิกั�นิเพื่+อส�ที่ธุ�Eที่�จำะได�เป#นิผ(�ช้นิะ หนิ!วยผลล�พื่ธุ5ที่�ช้นิะคำ+อ หนิ!วยที่�นิ�0าหนิ�กักัารเช้+อมีติ!อใกัล�เคำ�ยงกั�บร(ปแบบข�อมี(ล เข�ามีากัที่�ส�ด    ( ในิคำวามีหมีายของ Euclidean

distance ) Kohonen feature map สร�าง topological map โดยปร�บแติ!งไมี!เพื่�ยงแติ! นิ�0าหนิ�กัของผ(�ช้นิะเที่!านิ�0นิ ย�งปร�บแติ!งนิ�0าหนิ�กัของหนิ!วยผลล�พื่ธุ5ที่�อย(!ประช้�ดกั�บผ(�ช้นิะด�วย

 

4.  Description / Visualization

      Description จำ�ดประสงคำ5ของกัารที่�า Data Mining

กัารหาคำ�าอธุ�บายถ9งส�งที่�จำะเกั�ดข90นิโดยอาศ�ยข�อมี(ลจำากัฐานิข�อมี(ล ติ�วอย!างเช้!นิ  ผ(�หญ�งจำะสนิ�บสนิ�นิพื่รรคำเดรโมีแคำรติมีากักัว!าผ(�ช้าย

Page 25: DATAmining (1)

      Visualization เป#นิกัารนิ�าเสนิอข�อมี(ลในิร(ปแบบกัราฟฟBคำ กัารนิ�าเสนิอจำะสามีารถที่�าได�มีากักัว!า 2 มี�ติ� ซ่9งจำะสร�างคำวามีละเอ�ยดของกัารนิ�าเสนิอและสร�างคำวามีเข�าใจำให�มีากัข90นิ ติ�วอย!าง เช้!นิ องคำ5กัรติ�องกัารที่�จำะหาสถานิที่�ในิกัารติ�0งสาขาขององคำ5กัรในิเขติพื่+0นิที่�ภาคำเหนิ+อของประเที่ศ ด�งนิ�0นิองคำ5กัรจำ9งใช้�ร(ปแผนิที่�ที่�มี�กัาร Plot ที่�ติ� 0งขององคำ5กัรคำ(!แข!งที่�มี�สาขาติ�0งอย(!ในิเขตินิ�0นิ เพื่+อพื่�จำารณ์าสถานิที่�ติ� 0งที่�เหมีาะสมีที่�ส�ด

      Data Visualization จำะใช้�มีากักั�บ Data Mining Tools

ส�งที่�ส�าคำ�ญของ Visualization กั3คำ+อ ไมี!สามีารถเนิ�นิกัารว�เคำราะห5ข�อมี(ลที่�มี�ประส�ที่ธุ�ภาพื่ ในิขณ์ะที่�แบบแผนิที่างสถ�ติ�และ Confirmatory Analysis เป#นิกัารสร�างกัารว�เคำราะห5ข�อมี(ลที่�แที่�จำร�ง  

Data Mining Tools and Technologies

1.  Neural   Network

      เป#นิกัารเล�ยนิแบบกัารที่�างานิของระบบประสาที่เที่�ยมี ซ่9งเล�ยนิแบบกัารที่�างานิของระบบประสาที่ในิสมีองของมีนิ�ษย5  กัารที่�างานิของ Neural Network แติ!ละ Process จำะร�บ Input เข�าไปคำ�านิวณ์ และสร�าง Output ออกัมีาในิล�กัษณ์ะที่�ไมี!ใช้!เป#นิกัารที่�างานิแบบเช้�งเส�นิติรง เพื่ราะว!า Input แติ!ละติ�วจำะถ(กัให�ล�าด�บคำวามีส�าคำ�ญของคำ!าไมี!เที่!ากั�นิ คำ!าของ Output ที่�ได�จำากักัารเช้+อมีโยงกั�นินิ�0จำะถ(กันิ�ามีาเปร�ยบเที่�ยบกั�บ Output ที่�ได�ติ�0งเอาไว� ถ�าคำ!าที่�ออกัมีาเกั�ดคำวามีคำลาดเคำล+อนิ กั3จำะนิ�าไปส(!กัารปร�บคำ!าหร+อนิ�0าหนิ�กัของคำ!าที่�ใส!ไว�ให�แติ!ละ Input

      Neural Network เป#นิกัารสร�างแบบจำ�าลองที่�เล�ยนิแบบกัารที่�างานิของสมีองมีนิ�ษย5 มี�โคำรงสร�างเป#นิกัล�!มีของ Node ที่�เช้+อมีโยงถ9งกั�นิในิแติ!ละ Layer คำ+อ Input Layer, Hidden Layer และ Output Layer 

Page 26: DATAmining (1)

                   

                               ร�ปแสดงติ�วอย!างของ Neural Network 

ข�อจ�าก ด้ของ Neural Network

o Neural Network ร�บข�อมี(ลได�เฉพื่าะ ข�อมี(ลติ�วเลขที่�อย(!ในิช้!วง 0 – 1 เที่!านิ�0นิ กัรณ์�ที่�ข�อมี(ลนิ�าเข�ามี�คำ!า

   มีากักัว!า นิ�0ติ�องที่�ากัารปร�บลดคำ!าลง หร+อในิกัรณ์�ที่�เป#นิข�อมี(ลอ+นิที่�ไมี!ใช้!ติ�วเลขติ�อง ที่�ากัารแปลงคำ!ากั!อนิ

o กัารสร�างแบบจำ�าลองด�วย Neural Network นิ�0นิจำะไมี!สามีารถอธุ�บายได�ว!าผลล�พื่ธุ5ที่�ได�นิ� 0นิ มีาจำากัไหนิ

o เนิ+องจำากักัารที่�ไมี!สามีารถอธุ�บายผลล�พื่ธุ5ที่�ได�มีาได� ด�งนิ�0นิกัารสร�างแบบจำ�าลองด�วย Neural Network จำะ ไมี!สามีารถร�บรองได�เลยว!าเป#นิแบบจำ�าลองที่�ด�หร+อไมี!จำนิกัว!าจำะได�ที่�ากัารที่ดสอบกั�บข�อมี(ลที่ดสอบกั!อนิจำนิ แนิ!ใจำกั!อนิ

2.  Decision Trees

   เป#นิกัารนิ�าข�อมี(ลมีาสร�างแบบจำ�าลองกัารพื่ยากัรณ์5ในิร(ปของ Decision Tree ซ่9ง Decision Tree นิ�0นิมี�กัารที่�างานิแบบ Supervised Learning คำ+อ สามีารถสร�างแบบจำ�าลองกัารจำ�ดหมีวดหมี(!ได�จำากั กัล�!มีติ�วอย!างของข�อมี(ลที่�ได�กั�าหนิดได�กั!อนิล!วงหนิ�า ที่�เร�ยกัว!า Training Set ได�อ�ติโนิมี�ติ� และสามีารถพื่ยากัรณ์5กัล�!มีของรายกัารที่�ย�งไมี!เคำยนิ�ามีาจำ�ดหมีวดหมี(!ได�ด�วย

   ร(ปแบบของ Tree จำะประกัอบด�วย Node แรกัส�ดที่�เร�ยกัว!า Root Node จำากั Root Node กั3จำะแติกัออกัเป#นิ Node ล(กั และที่� Node ล(กักั3จำะมี�ล(กัของติ�วเองซ่9ง Node ที่�ระด�บส�ดที่�ายจำะเร�ยกัว!า Leaf Node 

Page 27: DATAmining (1)

  

                           ร�ปแสดงติ�วอย!างของ Decision Tree

    จำะเห3นิว!า จำากั Root Node จำนิถ9ง Leaf Node จำะมี�เพื่�ยงเส�นิที่างเด�ยวเที่!านิ�0นิ ซ่9งเส�นิที่างนิ�0จำะอธุ�บาย ถ9งกัฎที่�ใช้�ส�าหร�บกัารจำ�ดหมีวดหมี(!ของแติ!ละกัล�!มี ซ่9งในิแติ!ละ Leaf Node นิ�0นิอาจำเป#นิกัล�!มีเด�ยวกั�นิ ซ่9งเกั�ดจำากัเหติ�ผล ที่�แติกัติ!างกั�นิได�

ว�ธี�การทั่��ใช้�สำร�าง Decision Tree การน�าข�อม�ลัมาสำร�าง Tree

ม�ข �นตอนด้ งน��

o หา Attribute ที่�ส�าคำ�ญที่�ส�ดมีาแบ!งข�อมี(ลโดย Attribute นิ�0จำะถ(กันิ�ามีาสร�างเป#นิ Root Node โดยจำะมี� Target Attribute เป#นิผลล�พื่ธุ5ซ่9งเป#นิ Leaf

Node ถ(กักั�าหนิดไว�กั!อนิ o นิ�าคำ!าที่�เป#นิไปได�ในิ Attribute ที่�ถ(กัเล+อกัมีาแติกัออกั

เป#นิกัล�!มีของติ�วเอง o แบ!งข�อมี(ลที่�0งหมีดติามีกัล�!มีที่�แติกัออกัจำากั Root

Node o วนิกัล�บไปที่�าที่�ข� 0นิติอนิแรกั คำ+อ หา Attribute ที่�ส�าคำ�ญ

ที่�ส�ดจำากัข�อมี(ลที่�เข�ามีาเพื่+อหาติ�วแบ!งติ!อไป

ข�อจ�าก ด้ของ Decision Tree

o กัารแบ!งกัล�!มีแบบ Decision Tree กัรณ์�เป#นิข�อมี(ลที่�มี�คำ!าติ!อเนิ+อง เช้!นิ ข�อมี(ลรายได� ข�อมี(ลราคำา ติ�องที่�ากัารแปลงให�อย(!ในิช้!วงหร+อติ�ดเป#นิกัล�!มีกั!อนิ

o เมี+อ Algorithm เล+อกัว!าจำะใช้�คำ!าไหนิเป#นิติ�วแบ!งกัล�!มีแล�วกั3จำะไมี!สนิใจำคำ!าอ+นิที่�อาจำมี�คำวามีส�าคำ�ญเช้!นิเด�ยวกั�นิ

o กัารจำ�ดกัารกั�บข�อมี(ลที่�ไมี!ที่ราบคำ!า อาจำมี�ผลกัระที่บกั�บผลล�พื่ธุ5ของ Decision Tree

Page 28: DATAmining (1)

o Tree ที่�มี�ระด�บช้�0นิมีากัเกั�นิไป จำะที่�าให�ข�อมี(ลที่�ผ!านิ Node  แติกัออกัเป#นิช้�0นิเล3กัช้�0นินิ�อย ซ่9งข�อมี(ลเหล!านิ�0นิ จำะไมี!มี�ประโยช้นิ5ในิกัารนิ�ามีาใช้�ที่�ากัารว�เคำราะห5

o ป:ญหาเร+อง Overfitting / Overtaining เกั�ดจำากักัารที่�แบบจำ�าลองได�เร�ยนิร( �เข�าไปถ9งรายละเอ�ยดของข�อมี(ล มีากัเกั�นิไปจำะที่�าให�เกั�ด Node ที่�เป#นิส!วนิเฉพื่าะเจำาะจำงกั�บกัล�!มีข�อมี(ลที่�ใช้�ในิกัารเร�ยนิร( � ซ่9งจำะติ�องหาว�ธุ� กัารในิกัารติ�ดกั�งนิ�0ออกัไป

 

3. Memory Based Reasoning ( MBR )

      เปร�ยบเหมี+อนิกั�บประสบกัารณ์5กัารเร�ยนิร( �ของมีนิ�ษย5 ซ่9งอาศ�ยกัารส�งเกัติ�กัารณ์5ที่�เกั�ดข90นิแล�วสร�างร(ปแบบของส�งนิ�0นิ ข90นิมีา ในิ Data Mining เราใช้� MBR เพื่+อที่�ากัารว�เคำราะห5ฐานิข�อมี(ลที่�มี�อย(! และกั�าหนิดล�กัษณ์ะพื่�เศษของข�อมี(ลที่�อย(!ในินิ�0นิ แนิ!นิอนิข�อมี(ลจำะติ�องมี�ล�กัษณ์ะสมีบ(รณ์5 , กัารที่�ากัารส�งเกัติอย!างสมีบ(รณ์5จำะช้!วยสร�างกัารที่�านิายอย!างละเอ�ยดแมี!นิย�าย�งข90นิ Model จำะถ(กับอกัคำ�าติอบที่�ถ(กัติ�องจำากักัรณ์�ศ9กัษาที่�ได�แกั�ป:ญหาไว�กั!อนิหนิ�าแล�ว กัารที่�างานิแบบนิ�0ว�ธุ�นิ�0ถ(กัเร�ยกัว!า “Supervised Learning”

      ติ�วอย!างของนิ�กัว�เคำราะห5ติ�องกัารเข�าใจำที่�าไมีล(กัคำ�าบางกัล�!มีซ่9งซ่+อส�ติย5แติ!อ�กักัล�!มีบร�ษ�ที่กัล�บเส�ยไป และนิ�กัว�เคำราะห5 จำะที่�านิายว!าล(กัคำ�าคำนิใดที่�บร�ษ�ที่กั�าล�งจำะเส�ยไปให�คำ(!แข!ง นิ�กัว�เคำราะห5สามีารถสร�าง Model จำากัข�อมี(ลในิอด�ติ Model ที่�ด�กั3จำะ ที่�าให�เราร( �ว!าล(กัคำ�าคำนิใดจำะอย(!กั�บบร�ษ�ที่และล(กัคำ�าคำนิใดจำะเส�ยไป ติ�วอย!างนิ�0เป#นิข�0นิติอนิของกัารกั�าหนิด กัารศ9กัษา “ Study” กัารศ9กัษาจำะเป#นิติ�วกั�าหนิดขอบเขติของกั�จำกัรรมี กัารศ9กัษาจำะกั�าหนิดจำ�ดประสงคำ5ให�ที่�0งหมีดและข�อมี(ลที่�จำะถ(กัใช้�อาจำจำะไมี!ติ�อง กั�าหนิด จำ�ดประสงคำ5ไว�ล!วงหนิ�า

Page 29: DATAmining (1)

      จำ�ดประสงคำ5ของกัารศ9กัษา คำ+อ ติ�องกัารเข�าใจำว!าอะไรที่�าให�ล(กัคำ�าอย(!กั�บบร�ษ�ที่และจำากับร�ษ�ที่ไป จำ�ดประสงคำ5นิ�0แติกัติ!าง จำากักัารถามีคำ�าถามีเฉพื่าะ  เพื่ราะเราไมี!ได�กั�าหนิดคำวามีส�มีพื่�นิธุ5เอาไว�เลย เที่คำนิ�คำในิกัารที่�า MBR จำะมี�จำ�ดประสงคำ5หล�กั คำ+อกัารที่�ากัารคำาดเดาอย!างมี�หล�กักัารเกั�ยวกั�บติ�วแปรที่�สนิใจำ โดยมี�กัจำะใช้�เที่คำนิ�คำของ Neural

Network และ Decision Tree

      อธุ�บายร(ปแบบของกัารที่�า MBR จำากัติ�วอย!างในิร(ป คำ+อบร�ษ�ที่ประกั�นิภ�ยซ่9งมี�คำวามีสนิใจำที่�ที่ราบสาเหติ�ของ กัารลดลงของจำ�านิวนิล(กัคำ�าว!า โดย MBR กั�าหนิด 2 ติ�วแปรที่�สนิใจำคำ+อระยะเวลาที่�ล(กัคำ�าอย(!กั�บบร�ษ�ที่(ถ+อกัรมีธุรรมี5) และจำ�านิวนิของบร�กัารของบร�ษ�ที่ที่�ล(กัคำ�าใช้�บร�กัารอย(! จำะเห3นิได�ช้�ดว!าล(กัคำ�าที่�อย(!กั�บบร�ษ�ที่นิ�อยกัว!า 2 ป2คำร9ง และใช้�บร�กัารนิ�อยกัว!า 3 บร�กัารมี�กัจำะหนิ�ไปใช้�บร�กัารของบร�ษ�ที่อ+นิๆ  

ระยะเวลากัารใช้�บร�กัาร

กั�บบร�ษ�ที่ >  25 ป2              

              ใช้!                                                                 ไมี!ใช้! 

Page 30: DATAmining (1)

ใช้�บร�กัาร < 3 ช้นิ�ด 

อย(!กั�บบร�ษ�ที่               

                                                            ใช้!                                             ไมี!ใช้! 

ไมี!อย(!กั�บ

บร�ษ�ที่ 

อย(!กั�บ

บร�ษ�ที่    

      ร(ปแสดงแบบกัารติ�ดส�นิใจำของบร�ษ�ที่ประกั�นิภ�ย ( Cabena et al., 1997 ) 

      กัารที่�างานิของ MBR ติ�0งอย(!บนิรากัฐานิ 2 ประกัารคำ+อ กัารที่�า Classification และกัารที่�า Value Prediction ติ�วอย!างของ

Page 31: DATAmining (1)

Classification เช้!นิบร�ษ�ที่ที่�ติ�องกัารที่�า Sales Promotion ซ่9งจำะใช้� Mailing List จำากัฐานิข�อมี(ลกัารซ่+0อของล(กัคำ�า Mailing List

ซ่9งมี�กัารติอบร�บกัล�บมีาจำากักัารส!ง Mail ไปคำร�0งกั!อนิหนิ�าจำะมี�กัารกั�าหนิดเป#นิ Classification (Classification ถ(กัใช้�กั�าหนิด ช้�0นิของแติ!ละ Record ในิฐานิข�อมี(ล จำากัติ�วอย!างคำ+อ กัารอย(!กั�บบร�ษ�ที่ และกัารไมี!อย(!กั�บบร�ษ�ที่) หร+อ Profile Classification ด�งกัล!าวจำะถ(กัเกั3บรวบรวมีและพื่�ฒนิาเพื่+อที่�จำะบอกัล�กัษณ์ะของผ(�ที่�ติอบร�บ Mail

เพื่+อกั�าหนิดเป#นิติ�วที่�านิาย ที่�จำะติอบร�บ และจำะนิ�าเอารายช้+อด�งกัล!าวไปส!ง

      ส!วนิ Value Prediction จำ�ดประสงคำ5เพื่+อกั�าหนิดคำวามีติ!อเนิ+องของมี(ลคำ!าซ่9งมี�คำวามีเกั�ยวข�องกั�บ Record ในิฐานิข�อมี(ล ติ�วอย!างเช้!นิกัารศ9กัษา Lifetime Customer กัารที่�า Mining กั3จำะศ9กัษาถ9งข�อมี(ลที่�ผ!านิมีาในิอด�ติของล(กัคำ�าร!วมีไปถ9งสถานิะ ที่างกัารเง�นิของล(กัคำ�านิ�0นิด�วยนิอกัจำากันิ�0ย�งมี�ติ�วแปรอ+นิๆ อ�กั เช้!นิจำ�านิวนิคำรอบคำร�ว รายได� ประว�ติ�กัารใช้�รถ MBR เป#นิร(ปแบบที่�มี�กัจำะถ(กัใช้�อย!างกัว�างๆ ในิอ�ติสาหกัรรมีที่�วๆไป ที่างธุ�รกั�จำนิ�0นิมี�กัจำะใช้�กั�บ Customer Retention Management, Credit Approval,Cross Selling และ Target Marketing

4.  Cluster Detection

      จำ�ดประสงคำ5ของ Cluster Detection คำ+อกัารแบ!งฐานิข�อมี(ลออกัเป#นิส!วนิๆ หร+อเราเร�ยกัว!า Segment คำ+อกัล�!มีของ Record ที่�มี�คำวามีเหมี+อนิและล�กัษณ์ะที่�คำล�ายกั�นิ หร+อเร�ยกัว!า “Homogeneity” ส!วนิ Record ที่�อย(!ในิ Segment อ+นิๆ กั3จำะมี�คำวามีแติกัติ!างกั�นิ หร+อเร�ยกักัล�!มีที่�อย(!นิอกั Segment ว!า “Herterogeneity” Cluster Detection ถ(กัใช้�เพื่+อคำ�นิหา Sub Group ที่�เหมี+อนิๆ กั�นิในิฐานิข�อมี(ลเพื่+อที่�จำะเพื่�มีคำวามีถ(กัติ�องในิกัารว�เคำราะห5 และสามีารถมี�!งไปย�งกัล�!มีเป6าหมีายได�ถ(กัติ�อง   

Page 32: DATAmining (1)

      เรานิ�ากัราฟมีาอธุ�บายกัล�!มีของประช้ากัรโดยเปร�ยบเที่�ยบรายได�และอาย� ในิร(ปจำะเห3นิว!ากัล�!มีหนิ9งเป#นิกัล�!มีที่�มี�อาย� และมี�รายได�ส(ง ส!วนิอ�กักัล�!มีหนิ9งอาย�นิ�อยรายได�ปานิกัลาง มี�กัารศ9กัษา มี�กัารแบ!งข�อมี(ลออกัเป#นิ 2 Segment

      เที่คำนิ�คำ Cluster Detection เป#นิว�ธุ�ของกัารรวมีกัล�!มีของแถวของข�อมี(ลซ่9งมี�ส!วนิร!วมีที่�คำล�ายกั�นิแนิวโนิ�มีและร(ปแบบ Clustering Studies ไมี!มี� “Dependent Variable” ด�งนิ�0นิจำ9งไมี!สามีารถศ9กัษาได�ลงไปอย!างเฉพื่าะเจำาะจำง ไมี!สามีรถที่�าให�เกั�ดผลที่�แนิ!นิอนิ เราจำ9งเร�ยกักัารศ9กัษาแบบนิ�0ว!าเป#นิ “Unsupervised

Learning” ติ�วอย!างเช้!นิ เราติ�องกัารที่ราบว!าอะไรที่�เหมี+อนิกั�นิในิกัล�!มีฐานิล(กัคำ�าของบร�ษ�ที่ เที่คำนิ�คำ Clustering กั3จำะที่�ากัารจำ�าแนิกัแยกักัล�!มีให�

      Cluster Detection แติกัติ!างจำากั Data Mining เที่คำนิ�คำอ+นิๆ คำ+อจำ�ดประสงคำ5คำ!อนิข�างคำล�มีเคำร+อเมี+อเที่�ยบกั�บเที่คำนิ�คำของ Data Mining ติ�วอ+นิๆ

5.  Link Analysis

      Link Analysis มี�!งเนิ�นิที่�างานิบนิ Record คำ+อคำวามีส�มีพื่�นิธุ5 หร+อคำวามีเกั�ยวโยงกั�นิระหว!าง Record หร+อกัล�!มีของ Record

คำวามีส�มีพื่�นิธุ5ด�งกัล!าวเร�ยกัว!า “Association” เที่คำนิ�คำนิ�0มี�!งมีองไปที่�ร(ปแบบกัารซ่+0อหร+อเหติ�กัารณ์5ที่�เกั�ดข90นิเป#นิล�าด�บ โดยมี�เที่คำนิ�คำที่�ใช้�บนิ Link Analysis อย(! 3 อย!าง

Association Discovery ใช้�ว�เคำราะห5กัารซ่+0อส�นิคำ�าภายในิรายกัารเด�ยวกั�นิ ศ9กัษาถ9งคำวามีส�มีพื่�นิธุ5อย!างใกัล�ช้�ดที่�ถ(กั ปBดซ่!อนิอย(!ของส�นิคำ�า ซ่9งส�นิคำ�าเหล!านิ�0นิมี�กัมี�แนิวโนิ�มีที่�จำะถ(กัซ่+0อคำวบคำ(!กั�นิไป กัารว�เคำราะห5แบบนิ�0เร�ยกัว!า “Market Basket

Analysis” คำ+อรายกัารที่�0งหมีดที่�ล(กัคำ�าซ่+0อติ!อคำร�0งที่�ซ่�ปเปอร5มีาร5เกั3ติ สามีารถใช้� Input Device โดยใช้� Bar

Page 33: DATAmining (1)

Code Scanner มี�หลายงานิด�วยกั�นิ เช้!นิ ซ่�ปเปอร5มีาร5เกั3ติ กัารเติร�ยมี Inventory กัารวางแผนิกัารเร�ยง Shelf กัารที่�า Mailing List ส�าหร�บ Direct Mail และกัารวางแผนิเพื่+อจำ�ด Promotion สนิ�บสนิ�นิกัารขาย ติ�วอย!างของ Association

เช้!นิ อาจำพื่บว!า 75 % ของผ(�ซ่+0อนิ�0าอ�ดลมีจำะซ่+0อข�าวโพื่ดคำ�วด�วย Sequential Pattern Discovery ถ(กัใช้�ระบ�คำวามีเกั�ยว

เนิ+องกั�นิของกัารซ่+0อส�นิคำ�าของล(กัคำ�ามี�นิมี�จำ�ดมี�!งหมีายที่�จำะเข�าใจำ พื่ฤติ�กัรรมีกัารซ่+0อส�นิคำ�าของล(กัคำ�าในิล�กัษณ์ะ Long Term

เช้!นิผ(�ขายอาจำพื่บว!าล(กัคำ�าที่�ซ่+0อที่�ว�มี�แนิวโนิ�มีที่�จำะซ่+0อว�ด�โอในิเวลา ติ!อมีา

Similar Time Sequence Discovery ใช้�คำ�นิหาคำวามีเกั�ยวเนิ+องกั�นิระหว!างกัล�!มีของข�อมี(ล 2 กัล�!มี ซ่9งกัารข90นิติ!อกั�นิ ที่างด�านิเวลา โดยมี�ร(ปแบบกัารเคำล+อนิที่�เหมี+อนิกั�นิ ผ(�ขายส�นิคำ�ามี�กัจำ t ใช้�เพื่+อด(แนิวโนิ�มีเพื่+อเติร�ยมีสติGอกั เช้!นิเมี+อไรกั3ติามีที่� ยอดขาย ส�นิคำ�านิ�0าอ�ดลมีส(งข90นิ ยอดขายมี�นิฝ่ร�งจำะส(งข90นิติามี

6. Genetic  Algorithm

      เปร�ยบเสมี+อนิเป#นิกัารสร�างพื่�นิธุ�กัรรมีที่�ด�ส�ดบนิข�0นิติอนิของว�ว�ฒนิากัารที่างช้�วภาพื่ แนิวคำ�ดหล�กักั3คำ+อเมี+อเวลาผ!านิไป ว�ว�ฒนิากัารของเซ่ลล5ช้�ว�ติจำะเล+อกัสายพื่�นิธุ5ที่�ด�ที่�ส�ด “Fittest Species”

Genetic Algorithm จำะมี�คำวามีสามีารถในิกัารที่�างานิแบบ รวมีกัล�!มีข�อมี(ลเข�าด�วยกั�นิ เช้!นิ อาจำมี�คำวามีติ�องกัารที่�จำะแบ!งกัล�!มีหร+อจำ�บรวมีกัล�!มีของข�อมี(ลเป#นิ 3 ช้�ด ข�0นิติอนิกัารที่�างานิของ Genetic

Algorithm กั3จำะเร�มีด�วยกัารจำ�บกัล�!มีข�อมี(ลเป#นิกัล�!มีๆ ด�วยกัารเดาส�!มี เปร�ยบเหมี+อนิกัล�!มี 3 กัล�!มีนิ�0เป#นิเซ่ลล5ของส�งมี�ช้�ว�ติ Genetic

Algorithm จำะมี� “Fittest Function” ที่�จำะบอกัว!ากัล�!มีข�อมี(ลใดเหมีาะกั�บกัล�!มีๆ ไหนิ โดย Fittest Function จำะเป#นิติ�วบ!งช้�0ว!าข�อมี(ลเหมีาะกั�บกัล�!มีมีากักัว!าข�อมี(ลอ+นิๆ นิอกัจำากันิ�0ในิข�0นิติอนิติ!อมีา Genetic Algorithm จำะมี� “Operator” ซ่9งยอมีให�มี�กัารเล�ยนิแบบและแกั�ไขล�กัษณ์ะของกัล�!มีของข�อมี(ล  Operator จำะจำ�าลอง

Page 34: DATAmining (1)

หนิ�าที่�ของช้�ว�ติที่�ถ(กัพื่บในิธุรรมีช้าติ� คำ+อช้�ว�ติมี�กัารแพื่ร!พื่�นิธุ�5 จำ�บคำ(!ผสมีพื่�นิธุ�5 และเปล�ยนิร(ปร!างติามีติ�นิแบบของพื่�นิธุ�5 เปร�ยบกั�บข�อมี(ลถ�ามี�ข�อมี(ลใดในิกัล�!มี ของข�อมี(ล ถ(กัพื่บว!าติรงกั�บคำ�ณ์สมีบ�ติ�ของ Fittest

Function แล�ว มี�นิจำะคำงอย(!และถ(กัถ!ายเข�าไปในิกัล�!มีนิ�0นิ แติ!ถ�าไมี!ติรงกั�บคำ�ณ์สมีบ�ติ� กั3ย�งมี�โอกัาสที่�จำะถ!ายข�ามีไปย�งกัล�!มีอ+นิได� 

7. Rule Induction

      Rule Induction เป#นิว�ธุ�ส�าหร�บกัารด9งเอาช้�ดของกัฎเกัณ์ฑ์5ติ!างๆ มีาเพื่+อจำ�ดแบ!งเง+อนิไขหร+อกัรณ์� ด�งที่�กัล!าวข�างติ�นิ โคำรงสร�างติ�นิไมี�สามีารถสร�างช้�ดของกัฎติ!างๆ และขณ์ะที่�บางคำร�0งเร�ยกัว�ธุ�กัารแบบนิ�0ว!า กัารสร�างกัฎใหมี!จำากัติ�วอย!าง แติ!ว�ธุ�กัาร หล�งกั3ย�งมี�คำวามีหมีายที่�แติกัติ!างกั�นิ เนิ+องจำากัว�ธุ�กัาร Rule Induction จำะสร�างช้�ดของกัฎที่�เป#นิอ�สระซ่9งไมี!จำ�าเป#นิติ�อง อย(!ในิร(ปโคำรงสร�างของติ�นิไมี� เพื่ราะติ�วสร�างกัฎ (Rule Inducer)  ไมี!ได�บ�งคำ�บกัารแติกัข�อมี(ลเป#นิแติ!ละระด�บ แติ!อาจำจำะสามีารถ คำ�นิหา Pattern ที่�แติกัติ!างกั�นิได�และบางคำร�0งอาจำด�กัว!าส�าหร�บกัารจำ�ดแบ!ง Class ของผลล�พื่ธุ5 

8.  K-nearest neighbor

      มีนิ�ษย5เมี+อติ�องลองแกั�ป:ญหาใหมี! โดยที่�วไปมี�กัจำะมีองที่�ที่างแกั�ป:ญหาอย!างง!ายซ่9งพื่วกัเขาเคำยใช้�แกั�อย!างได�ผลมีากั!อนิ เที่คำนิ�คำของ K-nearest neighbor (K-NN) กั3ใช้�ว�ธุ�กัารเด�ยวกั�นิในิกัารจำ�ดแบ!งคำลาสนิ�นิเอง เที่คำนิ�คำนิ�0จำะติ�ดส�นิใจำ ว!าคำลาสไหนิที่�จำะแที่นิเง+อนิไขหร+อกัรณ์�ใหมี!ๆ ได�บ�าง โดยกัารติรวจำสอบจำ�านิวนิบางจำ�านิวนิ (“K” ในิ K-

nearest neighbor) ของกัรณ์�หร+อเง+อนิไขที่�เหมี+อนิกั�นิหร+อใกัล�เคำ�ยงกั�นิมีากัที่�ส�ด โดยจำะหาผลรวมี (Count Up) ของจำ�านิวนิเง+อนิไข หร+อกัรณ์�ติ!างๆส�าหร�บแติ!ละคำลาส และกั�าหนิดเง+อนิไขใหมี!ๆ ให�คำลาสที่�เหมี+อนิกั�นิกั�บคำลาสที่�ใกัล�เคำ�ยงกั�บมี�นิมีากัที่�ส�ด

      ส�งแรกัที่�เราติ�องที่�าในิกัารนิ�าเที่คำนิ�คำของ  K-NN ไปใช้�ในิติ�วอย!างนิ�0คำ+อ หาว�ธุ�กัารว�ดระยะห!าง (Distance) ระหว!างแติ!ละ

Page 35: DATAmining (1)

Attribute ในิข�อมี(ลให�ได� และจำากันิ�0นิคำ�านิวณ์คำ!าออกัมีา ซ่9งว�ธุ�นิ�0จำะเหมีาะส�าหร�บข�อมี(ลแบบติ�วเลข (ติ!างกั�บ Decision Tree) แติ!ติ�วแปรที่�เป#นิคำ!าแบบไมี!ติ!อเนิ+องนิ�0นิกั3สามีารถที่�าได� เพื่�ยงแติ!ติ�องกัารกัารจำ�ดกัารแบบพื่�เศษเพื่�มีข90นิ อย!างเช้!นิ ถ�าเป#นิเร+องของส� เราจำะใช้�อะไรว�ดคำวามีแติกัติ!างระหว!างส�นิ�0าเง�นิกั�บส�เข�ยว ติ!อจำากันิ�0นิเราติ�องมี�ว�ธุ�ในิกัารรวมีคำ!าระยะห!างของ Attribute ที่�กัคำ!าที่�ว�ดมีาได� เมี+อเราสามีารถคำ�านิวณ์ระยะห!างระหว!างเง+อนิไขหร+อกัรณ์�ติ!างๆ ได�จำากันิ�0นิเราเล+อกัช้�ดของเง+อนิไข ที่�ใช้�จำ�ดคำลาสมีาเป#นิฐานิส�าหร�บกัารจำ�ดคำลาสในิเง+อนิไขใหมี!ๆ ได�แล�วเราจำะติ�ดส�นิได�ว!าขอบเขติของจำ�ดข�างเคำ�ยงที่�คำวรเป#นินิ�0นิ คำวรมี�ขนิาดใหญ!เที่!าไร และอาจำติ�ดส�นิใจำได�ด�วยว!าจำะนิ�บจำ�านิวนิจำ�ดข�างเคำ�ยงติ�วมี�นิได�อย!างไร (โดยอาจำจำะให�นิ�0าหนิ�กักั�บ จำ�ดข�างเคำ�ยงที่�ใกัล�ติ�ว มี�นิมีากัที่�ส�ดกัว!าจำ�ดที่�ไกัลห!างออกัไป กั3ที่�าให�เราเล+อกัได�)

      K-NN คำ!อนิข�างใช้�ปร�มีาณ์งานิในิกัารคำ�านิวณ์ส(งมีากับนิคำอมีพื่�วเติอร5 เพื่ราะเวลาที่�ใช้�ส�าหร�บกัารคำ�านิวณ์จำะเพื่�มีข90นิ แบบแฟคำที่อเร�ยลติามีจำ�านิวนิจำ�ดที่�0งหมีด ขณ์ะที่� Decision Tree หร+อ Neural Network จำะประมีวลผลเพื่+อสร�างเง+อนิไข หร+อกัรณ์�ใหมี!ได�รวดเร3วกัว!า   เพื่ราะเที่คำนิ�คำของ K-NN ติ�องกัารให�มี�กัารคำ�านิวณ์เกั�ดข90นิที่�กัคำร�0งที่�มี�กัรณ์�ใหมี!ๆ เกั�ดข90นิ ด�งนิ�0นิเพื่+อจำะเพื่�มีคำวามีรวดเร3วส�าหร�บเที่คำนิ�คำ K-NN ให�มีากัข90นิ ข�อมี(ลที่�0งหมีดที่�ใช้�บ!อยจำะติ�องถ(กัเกั3บไว�ในิหนิ!วยคำวามีจำ�า (Memory) ว�ธุ�นิ�0จำะมี�ช้+อว!า Memory-

Based Reasoning ซ่9งจำะเป#นิว�ธุ�ที่�นิ�ามีาอ�างถ9งเป#นิประจำ�าในิกัารจำ�ดเกั3บกัล�!มีคำลาสของ K-NN ในิหนิ!วยคำวามีจำ�า

      ถ�าข�อมี(ลที่�ติ�องกัารหาคำ�าติอบมี�ติ�วแปรอ�สระเพื่�ยงไมี!กั�ติ�วแล�ว จำะที่�าให�เราสามีารถเข�าใจำ Model K-NN ได�ง!ายข90นิ ติ�วแปรเหล!านิ�0ย�งมี�ประโยช้นิ5ด�วยส�าหร�บนิ�ามีาสร�าง Model ติ!างๆ ที่�เกั�ยวข�องกั�บช้นิ�ดของข�อมี(ลที่�ไมี!เป#นิมีาติราฐานิ เช้!นิ Text เพื่�ยงแติ!อาจำติ�องมี�มีาติราฐานิกัารว�ดคำ!าส�าหร�บช้นิ�ดของข�อมี(ลด�งกัล!าวที่�เหมีาะสมีด�วย

Page 36: DATAmining (1)

9.  Association and Sequence Detection

      Association Discovery ใช้�ในการหากฎความสำ มพ นธี.ทั่��เก�ด้ข/�นระหว าง Item ต างๆ เช้ นการใช้� Market-basket

analysis เพ��อว�เคราะห.ข�อม�ลัการสำ �งซื้��อสำ�นค�า Sequence

Detection ก1เป2นว�ธี�การในทั่�านองเด้�ยวก น แต จะใช้�ลั�าด้ บ่ของเหต3การณ์. ทั่��เก�ด้ข/�นเข�ามาเก��ยวข�องด้�วย

      เราจำะเข�ยนิคำวามีส�มีพื่�นิธุ5ออกัมีาในิร(ปของ A B เร�ยกัว!า A

ว!าเป#นิเหติ�กัารณ์5ที่�เกั�ดข90นิกั!อนิ (Antecedent)  หร+อ LHS (Left -

Hand Side) และเร�ยกั B ว!าผลของเหติ�กัารณ์5 (Consequent)

หร+อ RHS (Right – Hand Side) เช้!นิในิกัฎของคำวามีส�มีพื่�นิธุ5 ถ�าคำนิซ่+0อคำ�อนิ แล�วจำะซ่+0อติะป( เหติ�กัารณ์5ที่�เกั�ดกั!อนิกั3คำ+อ คำนิซ่+0อ“ ” “

คำ�อนิ และผลที่�ติามีมีากั3คำ+อ ซ่+0อติะป(” “ ”

      ว�ธุ�กัารที่�ง!ายที่�ส�ดในิกัารว�ดส�ดส!วนิของ Item ที่�เกั�ดข90นิในิ Transaction กั3คำ+อใช้�ในิกัารนิ�บ เราจำะเร�ยกัคำวามีถ�ของคำวามีส�มีพื่�นิธุ5ที่�เกั�ดข90นิซ่9งปรากัฎอย(!ในิฐานิข�อมี(ลว!า Support หร+อ Prevalence เช้!นิ จำากัติ�วอย!างคำวามีส�มีพื่�นิธุ5ของคำ�อนิและติะป( ถ�าคำวามีส�มีพื่�นิธุ5ของคำ�อนิและติะป(จำ�านิวนิ 15 Transaction จำากัจำ�านิวนิที่�0งหมีด 1,000 Transaction เรากั3จำะได�คำ!า Support ของคำวามีส�มีพื่�นิธุ5นิ�0 1.5% คำ!า Support ที่�มี�คำ!าในิระด�บติ�า เช้!นิหนิ9งในิล�านิ อาจำแสดงให�เห3นิถ9งคำวามีไมี!มี�นิ�ยส�าคำ�ญของคำวามีส�มีพื่�นิธุ5นิ�0นิกั3ได�นิอกัจำากัเราจำะด(คำวามีถ�ที่�เกั�ยวข�องกั�บเหติ�กัารณ์5ที่�เกั�ดข90นิของ Item นิ�0นิๆแล�ว เราจำะติ�องด(คำวามีถ�ของเหติ�กัารณ์5อ+นิๆ ที่�เกั�ดข90นิร!วมีกั�บ Item นิ�0นิด�วยในิกัารหากัฎที่�มี�ระด�บนิ�ยส�าคำ�ญ หากัเราติ�0งโจำที่ย5ว!า เมี+อมี�เหติ�กัารณ์5 A (Antecedent) เกั�ดข90นิเป#นิจำ�านิวนิหนิ9ง จำะมี�เหติ�กัารณ์5 B (Consequent) เกั�ดข90นิเป#นิจำ�านิวนิเที่!าใด หมีายคำวามีว!า เราติ�องหาเง+อนิไขที่�จำะที่�านิายเหติ�กัารณ์5 B ที่�เกั�ดข90นิเนิ+องจำากั A

เมี+อเปร�ยบเที่�ยบกั�บป:ญหาในิข�างติ�นิจำะได�ว!า เมี+อผ(�คำนิซ่+0อคำ�อนิไปแล�ว“ บ!อยแคำ!ไหนิที่�เขาจำะซ่+0อติะป(ไปด�วย เราเร�ยกักัารที่�านิายผลอย!างมี�”

Page 37: DATAmining (1)

เง+อนิไขนิ�0ว!าคำวามีเช้+อมี�นิ (Confidence) เราจำะคำ�านิวณ์คำวามีเช้+อมี�นิออกัมีาในิร(ปของอ�ติราส!วนิ (คำวามีถ�ของ A และ B)/(คำวามีถ�ของ A)

      Lift เป#นิเคำร+องมี+ออ�กัอย!างหนิ9งที่�ใช้�ในิกัารว�ดอ�ที่ธุ�พื่ลที่�มี�คำวามีส�มีพื่�นิธุ5ที่�เกั�ดข90นิ คำ!า Lift ที่�มีากัแสดงว!ามี�คำวามี เป#นิไปได�มีากัที่�เมี+อเกั�ดเหติ�กัารณ์5 A ข90นิแล�ว จำะมี�เหติ�กัารณ์5 B จำะเกั�ดข90นิติามีมีา Lift จำะคำ�านิวณ์ออกัมีาในิร(ปอ�ติราส!วนิของ (คำวามีเช้+อมี�นิของ A

B)/(คำวามีถ�ของ B)

      ผ(�คำ�าปล�กัว�สด�ภ�ณ์ฑ์5อาจำแปลคำวามีหมีายของติ�วเลขเหล!านิ�0ได�ว!า กัารขายคำ�อนิและติะป(สามีารถนิ�ามีาเป#นิติ�วพื่ยากัรณ์5 กัารขายไมี�แปรร(ปได�ด�กัว!าจำะนิ�ากัารขายคำ�อนิมีาพื่ยากัรณ์5กัารขายติะป( หากัไมี�แปรร(ปเป#นิส�นิคำ�าได�กั�าไรด�ในิกั�จำกัาร เรากั3สามีารถ นิ�าข�อมี(ลที่�ได�จำากักัารว�เคำราะห5มีาวางแผนิกัลย�ที่ธุ5ที่างกัารติลาด

      คำ�ณ์ล�กัษณ์ะอ�กัอย!างหนิ9งของติ�วสร�างกัฎคำวามีส�มีพื่�นิธุ5กั3คำ+อ มี�คำวามีสามีารถในิกัารระบ�ล�าด�บข�0นิของ Item จำากัติ�วอย!าง เราจำะมีองถ9งข�อมี(ลของคำ�อนิและติะป(โดยรวมี ไมี!ได�มีองลงไปในิส�นิคำ�าแติ!ละติ�วเราจำ9งติ�องเล+อกัข�อมี(ลสร�ปที่�ได�มีาใช้�ด�วยคำวามี ระมี�ดระว�ง มี�เช้!นินิ�0นิเราอาจำไมี!ได�ข�อมี(ลที่�ติ�องกัารจำร�งๆกั3ได� โคำรงสร�างติามีล�าด�บข�0นิของ Item จำะที่�าให�เราสามีารถคำวบคำ�มี ระด�บของข�อมี(ลสร�ปที่�ได�และสามีารถที่�ากัารที่ดลองหาข�อมี(ลสร�ปในิระด�บติ!างๆ

      Sequence Detection จำะเป#นิกัารเพื่�มีติ�วแปรด�านิเวลาเข�าไป ที่�าให�สามีารถติ�ดติามีล�าด�บเหติ�กัารณ์5ที่�เกั�ดข90นิ เพื่+อนิ�ามีาใช้�ในิกัารว�เคำราะห5พื่ฤติ�กัรรมีของข�อมี(ล

      บ!อยคำร�0งที่�ยากัในิกัารติ�ดส�นิใจำว!าเราจำะที่�าอย!างไรกั�บกัฎคำวามีส�มีพื่�นิธุ5ที่�ได� ติ�วอย!างในิเร+องแผนิกัารวางผล�ติภ�ณ์ฑ์5เพื่+อ จำ�ดจำ�าหนิ!ายกัารวางผล�ติภ�ณ์ฑ์5ที่�มี�คำวามีใกัล�เคำ�ยงกั�นิไว�ด�วยกั�นิอาจำเป#นิกัารลดรายได�รวมีที่างกัารติลาดลงไป เนิ+องจำากัล(กัคำ�าจำะ เล+อกัหย�บส�นิคำ�าที่�ติ�องกัารเพื่�ยงอย!างเด�ยว แที่นิที่�จำะเด�นิเล+อกัซ่+0อส�นิคำ�าที่�ติ�องกัารไป

Page 38: DATAmining (1)

เร+อยๆ นิ�แสดงให�เห3นิว!ากัารว�เคำราะห5และ กัารที่ดลองมี�กัมี�คำวามีจำ�าเป#นิติ�องใช้�ร!วมีกั�บกัฎคำวามีส�มีพื่�นิธุ5ที่�ได�จำากักัารว�เคำราะห5 เพื่+อให�ได�ประโยช้นิ5ส(งส�ด

10.  Logistic Regression

      Logistic Regression เป#นิกัารว�เคำราะห5คำวามีถดถอยแบบเส�นิติรงที่�วไป ที่�ใช้�ในิกัารพื่ยากัรณ์5ผลล�พื่ธุ5ของ สองติ�วแปรเช้!นิ Yes/No หร+อ 0/1 แติ!เนิ+องจำากัติ�วแปรติามี (Dependent

Variable) มี�คำ!าเพื่�ยงสองอย!างเที่!านิ�0นิ เราจำ9งไมี!สามีารถสร�างแบบจำ�าลองได�ด�วยว�ธุ�กัารว�เคำราะห5คำวามีถดถอยแบบเส�นิติรง

      ด�งนิ�0นิ แที่นิที่�จำะที่�ากัารพื่ยากัรณ์5ผลล�พื่ธุ5โดยอาศ�ยเพื่�ยงคำ!าของติ�วแปรติามีที่�ได� เราจำะสร�างแบบจำ�าลองโดยอาศ�ย Algorithm ของคำวามีนิ!าจำะเป#นิของกัารเกั�ดเหติ�กัารณ์5 เราเร�ยกัอ�ลกัอร�ที่9มีที่�สร�างข90นิมีานิ�0ว!า Log Odds หร+อ logic Transformation

      อ�ติราส!วนิคำวามีนิ!าจำะเป#นิ : คำวามีนิ!าจำะเป#นิที่�เหติ�กัารณ์5จำะเกั�ด

                        ความน าจะเป2นทั่��เหต3การณ์.ไม เก�ด้

 

      สามีารถแปลคำวามีหมีายได�เช้!นิเด�ยวกั�นิกั�บคำวามีนิ!าจำะเป#นิในิเกัมีกัารแข!งข�นิ หร+อในิที่างกั�ฬา เช้!นิ เมี+อเราบอกัว!า คำวามีนิ!าจำะเป#นิที่�ที่�มีใดที่�มีหนิ9งจำะช้นิะกัารแข!งข�นิฟ�ติบอลคำ+อ 3 ติ!อ 1 หมีายคำวามีว!าคำวามีนิ!าจำะเป#นิที่�ที่�มีนิ�0จำะช้นิะ เป#นิ 3 เที่!าของโอกัาสที่�นิะแพื่� หร+อมี�โอกัาสช้นิะ 75% และมี�โอกัาสแพื่� 25% ว�ธุ�กัารเช้!นินิ�0สามีารถนิ�ามีาใช้�กั�บกัล�!มีล(กัคำ�า ที่�จำะว�เคำราะห5ได�เช้!นิกั�นิ ติ�วอย!างกัารส!งจำดหมีายให�กัล�!มีล(กัคำ�า หากัเราบอกัว!าโอกัาสที่�ล(กัคำ�าจำะติอบสนิองเป#นิ 3 ติ!อ 1 นิ�0นิหมีายคำวามีว!าล(กัคำ�าที่�ติอบจำดหมีายมี�คำ!าเป#นิ 3 เที่!าของล(กัคำ�าที่�ไมี!ติอบจำดหมีาย

Page 39: DATAmining (1)

      Neural Network จำะใช้� Logistic Regression เป#นิเคำร+องมี+อที่�ช้!วยจำ�าแนิกัประเภที่ของติ�วแปร ประเภที่ของล(กัคำ�าที่�จำะซ่+0อหร+อไมี!ซ่+0อส�นิคำ�า และใช้�กัารว�เคำราะห5คำวามีถดถอยในิกัารว�เคำราะห5ติ�วแปรติ!อเนิ+อง เช้!นิคำวามีเป#นิ ไปได�ในิกัารซ่+0อส�นิคำ�าของล(กัคำ�า เป#นิติ�นิ

      แมี�ว!า Logistic Regression เป#นิว�ธุ�กัารที่�มี�ประส�ที่ธุ�ภาพื่ แติ!กั3มี�ข�อจำ�ากั�ดในิเร+องคำวามีเป#นิไปได�ของติ�วแปรติามี (Dependent

Variable) เนิ+องจำากัติ�วแปรติามีเหล!านิ�0นิอาจำไมี!เป#นิอ�สระกั�นิกั3ได� นิอกัจำากันิ�0นิผ(�ที่�ที่�ากัารว�เคำราะห5แบบจำ�าลอง จำะติ�องอาศ�ยประสบกัารณ์5ของตินิเองในิกัารว�เคำราะห5 และติ�องที่�ากัารเล+อกัข�อมี(ลที่�จำะนิ�ามีาว�เคำราะห5ได�อย!างถ(กัติ�อง จำากัติ�วอย!าง ที่�ผ!านิมีา ผ(�ว�เคำราะห5จำะติ�องเล+อกัว!าระหว!าง รายได� คำ!า Square ของรายได� หร+อคำ!า Algorithm

ของรายได� จำะเล+อกัติ�วแปรใดมีาที่�ากัารว�เคำราะห5และพื่ยากัรณ์5 จำะเห3นิได�ว!ากัารว�เคำราะห5ส!วนิใหญ!จำะข90นิอย(!กั�บประสบกัารณ์5ของผ(�ที่�ากัาร ว�เคำราะห5 ซ่9งติ�องเล+อกัติ�วแปรและว�ธุ�กัารที่�เหมีาะสมี จำ9งจำะที่�าให�ได�ผลกัารว�เคำราะห5ที่�ถ(กัติ�อง

      Neural Network จำะใช้� Hidden Layer ในิกัารประมีาณ์ร(ปแบบกัารว�เคำราะห5ที่�ไมี!ใช้!เส�นิติรง(Non - Linear) และที่�ากัารว�เคำราะห5แบบกั9งอ�ติโนิมี�ติ� ผ(�ใช้�จำ�าเป#นิติ�องใช้�คำวามีช้�านิาญเฉพื่าะติ�วกั�บระบบ Neural Network ติ�วอย!างเช้!นิ พื่ฤติ�กัรรมีกัารเล+อกัฟ:งกั5ช้�นิ จำะมี�ผลกัระที่บกั�บคำวามีสามีารถในิกัารเร�ยนิร( �ของระบบ Neural

Network ด�วยเป#นิที่�นิ!าส�งเกัติว!า Logic Transformation มี�ผลกัระที่บติ!อ Logistic Regression เช้!นิเด�ยวกั�บที่�พื่ฤติ�กัรรมีกัารเล+อกัฟ:งกั5ช้�นิมี�ผลกัระที่บกั�บ Neural Network และนิ�นิกั3เป#นิเหติ�ผลหล�กัที่�ไมี!มี� Hidden Layer ใดในิ Neural Network เป#นิ Logistic Regression   

11. Discriminant analysis

Page 40: DATAmining (1)

      Discriminant analysis เป#นิว�ธุ�กัารที่างคำณ์�ติศาสติร5ที่�เกั!าแกั!ว�ธุ�หนิ9งซ่9งใช้�ในิกัารจำ�าแนิกั และว�เคำราะห5ว�ธุ�นิ�0ได�ร�บกัาร เผยแพื่ร!คำร�0งแรกัในิป2 1936 โดย R. A. Fisher เพื่+อแยกัติ�นิ Iris ออกัเป#นิ 3 พื่�นิธุ�5 ว�ธุ�กัารนิ�0ที่�าให�คำ�นิพื่บพื่�นิธุ�5 ของติ�นิไมี�ประเภที่อ+นิๆ อ�กัมีากั ผลล�พื่ธุ5ที่�ได�จำากัแบบจำ�าลองช้นิ�ดนิ�0ง!ายติ!อกัารที่�าคำวามีเข�าใจำ เพื่ราะผ(�ใช้�งานิที่�วๆ ไปกั3สามีารถ พื่�จำารณ์าได�ว!าผลล�พื่ธุ5จำะอย(!ที่างด�านิใดของเส�นิที่างในิแบบจำ�าลอง กัารเร�ยนิร( �สามีารถที่�าได�ง!าย ว�ธุ�กัารที่�ใช้�มี�คำวามีไวติ!อร(ปแบบ ของข�อมี(ล ว�ธุ�นิ�0ถ(กันิ�ามีาใช้�มีากัในิที่างกัารแพื่ที่ย5 ส�งคำมีว�ที่ยา และช้�วว�ที่ยา

      Discriminant analysis ไมี!เป#นิที่�นิ�ยมีในิกัารที่�า Data

Mining เนิ+องจำากัเหติ�ผล 3 ประกัารคำ+อ

1. ติ�วแปรที่�ใช้�ในิกัารว�เคำราะห5ติ�องติ�0งอย(!บนิสมีมี�ติ�ฐานิว!า ข�อมี(ลมี�กัารกัระจำายแบบปกัติ�ร(ประฆั�งคำว�า (Normally

distributed) ซ่9งอาจำเป#นิไปไมี!ได� 2. ติ�วแปรติ!างๆ ที่�ย�งไมี!ได�ร�บกัารจำ�ดล�าด�บ และไมี!เป#นิอ�สระ

กั�นิ ไมี!สามีารถใช้�กั�บว�ธุ�กัารนิ�0ได� 3. ขอบเขติข�อมี(ลที่�ใช้�ในิกัารแบ!งแยกัประเภที่ ติ�องอย(!ในิร(ป

แบบเส�นิติรง (Linear form) แติ!บางคำร�0งเราไมี!สามีารถแบ!งแยกัข�อมี(ลบางอย!างได�

      Discriminant analysis ที่�มี�กัารปร�บปร�งติ!อมีาในิระยะหล�ง ได�แกั�ป:ญหาบางอย!างที่�เกั�ดข90นิในิกัารว�เคำราะห5 เช้!นิ สามีารถใช้�ฟ:งกั5ช้�นิ Quadratic ได� แที่นิที่�จำะติ�องเป#นิฟ:งกั5ช้�นิเส�นิติรงเพื่�ยงอย!างเด�ยว นิอกัจำากันิ�0ย�งสามีารถใช้�กัระจำาย แบบปกัติ�ของข�อมี(ลโดยประมีาณ์ในิกัารว�เคำราะห5 

12.  Generalized Additive Models (GAM)

      เป#นิ Model ที่�ขยายคำวามีสามีารถของ Linear Regression

และ Logistic Regression ว!า Additive กั3เพื่ราะว!ามี�กัารติ�0ง

Page 41: DATAmining (1)

สมีมีติ�ฐานิว!า Model สามีารถเข�ยนิออกัมีาได�ในิร(ปของผลรวมีของ Possibly Non-Linear Function ซ่9ง GAM สามีารถใช้�งานิได�ที่�0งแบบ Regression และ Classification คำ�ณ์สมีบ�ติ�หล�กัที่�เพื่�มีเติ�มีเข�าไปกั3คำ+อกัารหาคำ!า Lift ติ�วแปรผลล�พื่ธุ5จำะเกั�ดข90นิจำากัฟ:งกั5ช้�นิใดของติ�วแปรที่�ใช้�ในิกัารพื่ยากัรณ์5กั3ได� ติราบใดที่�ไมี!มี�กัารกั�าวกัระโดดที่�ไมี!ติ!อเนิ+อง ติ�วอย!าง เช้!นิ สมีมีติ�ว!ากัารขาดกัารช้�าระเง�นิเป#นิฟ:งกั5ช้�นิที่�ซ่�บซ่�อนิของติ�วแปรรายได� ซ่9งคำวามีนิ!าจำะเป#นิของกัารขาด กัารช้�าระเง�นิจำะลดลงติามีรายได�ที่�เพื่�มีข90นิ และคำวามีนิ!าจำะเป#นิของกัารขาดกัารช้�าระเง�นิจำะเพื่�มีข90นิอ�กัคำร�0งในิกัล�!มีผ(�มี�รายได� ปานิกัลาง ในิที่�ส�ดจำะข90นิส(งส�ดกั!อนิที่�จำะติกัลงอ�กัคำร�0งในิกัล�!มีมี�รายได�ส(ง ในิกัรณ์�นิ�0 Linear

Model จำะไมี!สามีารถ แสดงให�เห3นิถ9งคำวามีส�มีพื่�นิธุ5ระหว!างรายได�กั�บคำวามีนิ!าจำะเป#นิของกัารขาดกัารช้�าระเง�นิ ซ่9งมี�ล�กัษณ์ะเป#นิ Non-

Linear ได�

      GAM จำะใช้�คำวามีสามีารถของคำอมีพื่�วเติอร5ในิกัารคำ�นิหาร(ปแบบของฟ:งกั5ช้�นิที่�ให� Curve ที่�เหมีาะสมี ที่�ากัารรวมี คำ!าคำวามีส�มีพื่�นิธุ5ติ!างๆ เข�าด�วยกั�นิ ด�งที่�อธุ�บายมีาแล�วข�างติ�นิ แที่นิที่�จำะมี�กัารใช้� Parameter จำ�านิวนิมีากั เหมี+อนิที่� Neural Network ใช้� GAM

กั�าวไปเหนิ+อกัว!านิ�0นิอ�กัข�0นิหนิ9งและประเมี�นิคำ!าของ Output ในิแติ!ละ Input และเช้!นิเด�ยวกั�นิกั�บ Neural Network GAM จำะสร�างเส�นิโคำ�งข90นิมีาอย!างอ�ติโนิมี�ติ� โดยอาศ�ยข�อมี(ลที่�มี� 

13.  Multivariate Adaptive Regression Splits  (MARS)

      ในิกัลางที่ศวรรษที่� 80 Jerome H. Friedman หนิ9งในิผ(�ที่�คำ�ดคำ�นิ CART ได�พื่�ฒนิาว�ธุ�กัารใหมี!ข90นิมีา โดยติ�องกัารจำะกั�าจำ�ดข�อเส�ยติ!อไปนิ�0ออกัไป

o Discontinuous predictions (Or hard splits) o Dependence of all splits on previous ones

Page 42: DATAmining (1)

o Reduced interpretability due to interactions, especially high-order interaction

โดยกัารคำ�ด MARS Algorithm โดยคำวามีคำ�ดพื่+0นิฐานิง!ายๆ เพื่+อที่�จำะจำ�ากั�ดข�อเส�ยด�งกัล!าวโดย

o แที่นิที่� Discontinuous Branching ที่� Node ด�วยเส�นิติรง 1 คำ(! และในิข�0นิติอนิส�ดที่�ายของกัระบวนิกัาร สร�าง Model  เส�นิติรงด�งกัล!าวจำะถ(กัแที่นิที่�ด�วย Smooth Function เร�ยกัว!า Splits

o ไมี!จำ�าเป#นิที่�ว!ากัารแบ!งแยกัในิคำร�0งใหมี! จำะติ�องข90นิอย(!กั�บคำร�0งกั!อนิ  ที่�าให� MARS ส(ญเส�ยโคำรง สร�างแบบ Tree

ในิ CART และไมี!สามีารถที่�สร�างออกัมีาเป#นิกัฎได� หร+อกัล!าวอ�กันิ�ยหนิ9ง MARS สามีารถที่�จำะคำ�นิหาและแสดงรายกัารติ�วแปรอ�สระที่�มี�คำวามีส�าคำ�ญส(งส�ดเช้!นิเด�ยวกั�บปฎ�ส�มีพื่�นิธุ5ระหว!างติ�วแปรอ�สระ อ�กัที่�0ง MARS

สามีารถ Plot จำ�ดแสดงคำวามีเป#นิอ�สระของแติ!ละติ�วแปรอ�สระออกัมีาได� ผลล�พื่ธุ5ที่�ได�กั3คำ+อ Non-linear step-wise regression tools

Data warehouse , Data mining แลัะ Data Mart 

Data warehouse

          จำากัร(ปแสดงข�0นิติอนิของกัารที่�า Data Warehouse   

DATA TRANSFORMATION

                           &

INTEGRATION   

Page 43: DATAmining (1)

      

   SOURCE            

ร(ปแสดง ติ�าแหนิ!งของ DATA WAREHOUSE 

     DATA

WAREHOUSE           

SOURCE   

Page 44: DATAmining (1)

        

   SOURCE                              

Page 45: DATAmining (1)

          ข�0นิติอนิแรกักั!อนิที่�จำะที่�า Data Mining Process คำ+อกัารจำ�ดขนิาดของข�อมี(ลใหญ!ๆ ให�อย(!ในิร(ปแบบที่�ง!ายติ!อกัารเข�าถ9ง, กัารเข�าไปใช้�งานิและกัาร Sort โดยผ(�ใช้� กัารรวบรวมีข�อมี(ลในิ Process

ของ Data Mining อาจำจำะย�!งยากั เพื่ราะว!าบ!อยๆ พื่บว!าข�อมี(ลไมี!อย(!ในิร(ปแบบที่�เหมีาะสมีที่�จำะเข�าไปใช้�งานิได�

         จำ�ดประสงคำ5ของ Data Warehouse คำ+อช้!วยปร�บปร�งประส�ที่ธุ�ภาพื่ในิกัารติ�ดส�นิใจำที่�เกั�ยวกั�บธุ�รกั�จำที่�ติ�องเกั�ยวข�อง กั�บติ�วเลขจำ�านิวนิมีากั พื่+0นิฐานิด�งกัล!าวติ�0งอย(!บนิหล�กัของ Informational Data (ข�อมี(ลที่�ใช้�จำ�ดกัารองคำ5กัรซ่9งเป#นิข�อมี(ล สร�ปเพื่+อกัารติ�ดส�นิใจำ) แที่นิที่�จำะเป#นิ Operational Data (ข�อมี(ลที่�ใช้�ด�าเนิ�นิกั�จำกัรรมีขององคำ5กัร เช้!นิ ข�อมี(ลของพื่วกั Transaction

ติ!างๆ)

           คำ�าจำ�ากั�ดคำวามีของ Data Warehouse คำ+อกัารรวบรวมีของข�อมี(ลเพื่+อสนิ�บสนิ�นิกัารติ�ดส�นิใจำของฝ่=ายบร�หาร ข�อมี(ล ด�งกัล!าว ถ(กัแบ!งเป#นิระด�บๆ หลายระด�บ เพื่+อให�เกั�ดคำวามีสามีารถในิกัารเข�าถ9งข�อมี(ลได�อย!างรวดเร3ว

     Subjected Oriented ข�อมี(ลในิ Warehouse ถ(กักั�าหนิดในิล�กัษณ์ะ Business Term เช้!นิ ล(กัคำ�า , ส�นิคำ�า, รายงานิว�เคำราะห5ยอดขาย

     Integrated Term ที่�ใช้�ในิ Data Warehouse จำะติ�องถ(กักั�าหนิดให�สมีบ(รณ์5เหมี+อนิกั�นิที่�0งองคำ5กัร และจำะติ�อง ถ(กัติ�องกั�บแหล!งข�อมี(ลที่�0งภายในิและภายนิอกั

     Time Variant ข�อมี(ลในิ Data Warehouse เป#นิล�กัษณ์ะ Time Stamp ณ์ เวลาที่�ข�อมี(ลถ(กัใส!เข�ามีาหร+อข�อมี(ลถ(กัสร�ป ด�งนิ�0นิจำะเป#นิกัารบ�นิที่9กัในิล�กัษณ์ะติ!อเนิ+องและมี�ประว�ติ�และแนิวโนิ�มีกัารว�เคำราะห5ที่�เป#นิไปได�

Page 46: DATAmining (1)

     Non Volatile เมี+อถ(กัใส!เข�ามีาในิ Data Warehouse แล�วข�อมี(ลจำะไมี!ถ(กั Update อ�กั ด�งนิ�0นิจำ9งเป#นิ แหล!งที่�มี�รายงานิถ(กัติ�องและใช้�ว�เคำราะห5เช้�งเปร�ยบเที่�ยบ

     โดยมี�เคำร+องมี+อ 2  ติ�วในิกัารจำ�ดกัารที่�า Data Warehouse

คำ+อ (Data Transformation, Data Cleaning) และ End

User Data Access เคำร+องมี+อเหล!านิ�0จำะที่�าให�มี� นิใจำว!า Data

Warehouse จำะมี�คำวามีถ(กัติ�องของข�อมี(ล แมี!นิย�า มี�ประส�ที่ธุ�ภาพื่และมี�ติ�นิที่�นิในิกัารบร�หารติ�า

      ข�0นิติอนิของกัารที่�า Data Warehouse จำะเร�มีจำากัข�0นิติอนิติ!อไปนิ�0

Data Extraction จำะช้!วยส�งเคำราะห5เอาข�อมี(ลที่�เป#นิประโยช้นิ5ส�าหร�บ Data Mining เที่!านิ�0นิ

Sampling and Selecting จำะเป#นิติ�วกั�าหนิดขนิาดของข�อมี(ล

Aggregation จำะเป#นิติ�วรวบรวมีข�อมี(ลที่�เกั�ยวข�องเข�าไว�ด�วยกั�นิ

Data Cleaning จำะเป#นิติ�วสร�างคำวามีมี�นิใจำว!าข�อมี(ลจำะสมีบ(รณ์5 และลดคำวามีซ่�0าซ่�อนิของข�อมี(ล

Normalization จำะเป#นิติ�วช้!วยลดคำวามีซ่�0าซ่�อนิของข�อมี(ล Overlay เช้!นิ Demographic จำะเป#นิติ�วช้!วยที่�าให�เร!ง

Data Access ได�เร3วข90นิ

 

   ป:ญหาหล�กั ๆ ของ Data Warehouse กั3คำ+อคำ�ณ์ภาพื่ของข�อมี(ล เพื่+อหล�กัเล�ยงป:ญหา GIGO (Garbage In

Garbage Out) ข�อมี(ลคำวรมี� Missing Value นิ�อยที่�ส�ด เพื่ราะอาจำจำะมี�ผลกัระที่บติ!อกัารว�เคำราะห5ข�อมี(ลของ Data

Mining ได� 

Page 47: DATAmining (1)

Data Mart

     ป:จำจำ�บ�นิหลายองคำ5กัรเร�มีห�นิไปหา Data Mart ซ่9งมี�คำวามีเฉพื่าะเจำาะจำงมีากักัว!า และเข�าถ9งได�มีากักัว!า แติ!ขนิาดเล3กักัว!า Data

Warehouse มีากั Data Mart เป#นิกัารแยกัเกั3บข�อมี(ลจำากั Data

Warehouse เพื่+อเกั3บข�อมี(ลให�กั�บแผนิ เฉพื่าะที่�มี�กัารเร�ยกัใช้�ข�อมี(ลนิ�0นิๆ บ!อยเพื่+อไมี!ให�เกั�ดคำวามีซ่�0าซ่�อนิและลดปร�มีาณ์ข�อมี(ลที่�ไมี!เกั�ยวข�องที่�าให�กัาร Process ข�อมี(ลเร3วข90นิ 

Data Mining

     ถ+อได�ว!าเป#นิระด�บกัารนิ�าข�อมี(ลไปใช้�ที่�ส(งกัว!า Data

Warehouse และ Data Mart Data Mining เป#นิว�ธุ�คำ�ดที่�จำะนิ�าเอาข�อมี(ลมีาใช้�เพื่+อกัารว�เคำราะห5ให�เกั�ดประโยช้นิ5ส(งส�ด โดยเฉพื่าะอย!างย�งกัารติ�ดส�นิใจำของฝ่=ายบร�หาร ซ่9งระบบนิ�0เป#นิข�0นิติอนิติ!อไปของ Data Warehouse มี�ระบบกัารที่�างานิอ�ติโนิมี�ติ� สามีารถติ�ดส�นิใจำแที่นิผ(�ใช้�ได� โดยอาศ�ยกัฏเกัณ์ฑ์5ติ!างๆ ที่�กั�าหนิดข90นิมีาแล�วป6อนิให�คำอมีพื่�วเติอร5คำ�ด เคำร+องมี+อที่างธุ�รกั�จำ,เที่คำนิ�คำติ!างๆที่�เราใช้�เพื่+อสนิ�บสนิ�นิ กัารติ�ดส�นิใจำที่างธุ�รกั�จำนิ�0นิมี�พื่+0นิฐานิมีาจำากั เที่คำโนิโลย�สารสนิเที่ศ

      จำากัร(ป เร�มีติ�นิติ�0งแติ! ติารางข�อมี(ลธุรรมีดาไปจำนิถ9งกัารติ�ดส�นิใจำระด�บส(ง เราจำะเห3นิได�ว!า Data Mining เป#นิส!วนิประกัอบอ�นิใหมี!ที่�มี�คำวามีส�าคำ�ญของเคำร+องมี+อที่างธุ�รกั�จำอย!างหนิ9งคำ�ณ์คำ!าของข�อมี(ลที่�ใช้�สนิ�บสนิ�นิกัารติ�ดส�นิใจำจำะเพื่�มีข90นิจำากัล!างไปบนิส�ดของร(ปปBรามี�ด จำ�านิวนิของข�อมี(ลและขนิาด และระด�บกัารติ�ดส�นิใจำในิข�อมี(ลที่�ล�กัษณ์ะที่�ติ!างๆ กั�นิ จำ9งมี�ระด�บของผ(�ติ�ดส�นิใจำติ!างกั�นิ Database

administrator จำะติ�ดส�นิใจำบนิระด�บของ Data Warehouse

และแหล!งข�อมี(ลเที่!านิ�0นิ ส!วนินิ�กัว�เคำราะห5ธุ�รกั�จำและผ(�บร�หารจำะติ�ดส�นิใจำบนิเหนิ+อของปBรามี�ด   

Page 48: DATAmining (1)

          

END USER 

              MAKING

                    DECISION 

BUSINESS

ANALYSIS  

INCREASE POTENTIAL TO

SUPPORT BUSINESS

DECISIONS  

                                                        DATA

                                            PRESENTATION

                                         ( VISUALIZATION )   

                                             DATA MINING 

DATA

Page 49: DATAmining (1)

ANALYSIS    

                      DATA EXPLORATION

              ( OLAP , MDA ) 

DATABASE

ADMINSTRATOR   

                            DATA WAREHOUSE / DATA MART   

     DATA SOURCE

   ( PAPER , FILE , DATABASE , OLTP )   

         ร(ปแสดง Data Mining และเคำร+องมี+อที่างธุ�รกั�จำติ!าง ๆ ( Cabena et al., 1997 ) 

      กัารนิ�าข�อมี(ลของ Data Warehouse ที่�รวบรวมีข�อมี(ลจำากัหลายๆ ที่�และด9งข�อมี(ลเหล!านิ�0นิเข�าไปในิฐานิข�อมี(ล ที่�มี�ขนิาดใหญ!   โดย Data Mining จำะนิ�าข�อมี(ลมีาสร�างแบบจำ�าลองที่างสถ�ติ�   ในิกัารหาร(ปแบบคำวามีส�นิพื่�นิธุ5ของฐานิข�อมี(ล ที่�มี�อย(!   ในิกัารช้!วยว�เคำราะห5กัารติ�ดส�นิใจำในิธุ�รกั�จำหร+อกั�จำกัารอ+นิๆ ติามีติ�องกัาร    

      ร(ปแสดงกัระบวนิกัารจำ�ดกัาร Data Mining

Page 50: DATAmining (1)

ความสำ มพ นธี.ระหว าง Data Warehouse ก บ่ Data Mining

1.  ระบ่บ่คลั งข�อม�ลั (Data Warehouse)

      คำ+อระบบคำล�งข�อมี(ลเพื่+อกัารบร�หารได�ถ(กัออกัแบบมีาเพื่+อใช้�เกั3บข�อมี(ลขนิาดใหญ!ในิร(ปแบบ RDBMS (Relational Database

Management Systems) ที่�มี�ประส�ที่ธุ�ภาพื่ส(ง ในิระบบคำล�งข�อมี(ล ข�อมี(ลที่�ซ่�บซ่�อนิจำะถ(กัรวบรวมี หร+อเปล�ยนิแปลงให�ง!ายติ!อกัารจำ�ดเกั3บและสามีารถเร�ยกักัล�บมีาใช้�ได�อย!างรวดเร3ว ถ(กัติ�อง โดยข�อมี(ลติ!าง ๆ เหล!านิ�0จำะถ(กันิ�ามีาใช้� ส�าหร�บกัารว�เคำราะห5และช้!วยในิเร+องกัารติ�ดส�นิใจำ (DSS) โดยอาศ�ยเคำร+องมี+อ (Tool) ติ!างๆ มีาใช้�ในิกัารจำ�ดกัารที่�ารายงานิ และเพื่�มีประส�ที่ธุ�ภาพื่ส�าหร�บกัารติ�ดส�นิใจำให�รวดเร3วย�งข90นิ โดยผ(�บร�หาร นิ�กัวางแผนิงานิ และนิ�กัว�เคำราะห5ข�อมี(ลสามีารถ เร�ยกัหาข�อมี(ล หร+อ Query เพื่+อให�ได�ร�บคำ�าติอบในิร(ปแบบติารางรายงานิ หร+อ รายงานิ กัราฟ ซ่9งเคำร+องมี+อนิ�0 ถ+อได�ว!าเป#นิ ส�งส�าคำ�ญในิอ�นิที่�จำะนิ�าองคำ5กัรไปส(!คำวามีส�าเร3จำในิกัระบวนิกัารกัารติ�ดส�นิใจำ

กั�ญแจำส�าคำ�ญส�าหร�บองคำ5ประกัอบของระบบคำล�งข�อมี(ล

The integration environment กัารรวบรวมีข�อมี(ลจำากัแหล!งติ!างๆ

The data warehouse environment กัารจำ�ดกัารข�อมี(ลให�อย(!บนิมีาติรฐานิเด�ยวกั�นิ(Homogeneous model)

The decision support environment เป#นิกัระบวนิกัารสนิ�บสนิ�นิกัารติ�ดส�นิใจำโดยใช้�เคำร+องมี+อติ!างๆ เช้!นิ Ad-hoc querying ,What-if analysis ,Analyzing or OLAP and Data mining เพื่+อช้!วยในิกัารว�เคำราะห5โอกัาสที่างธุ�รกั�จำ และกัารวางแผนิเช้�งกัลย�ที่ธุ5  

Page 51: DATAmining (1)

2.  ระบ่บ่การว�เคราะห.ข�อม�ลัแลัะช้ วยในการต ด้สำ�นใจ(Data Mining)

      องคำ5กัรธุ�รกั�จำโดยเฉพื่าะธุ�รกั�จำให�บร�กัารด�านิโที่รคำมีนิาคำมีติ!างพื่ยายามีศ9กัษาข�อมี(ลจำากักัารให�บร�กัารเพื่+อสร�างคำวามีพื่9งพื่อใจำของล(กัคำ�าหร+อผ(�ใช้�บร�กัาร และหาว�ธุ�กัารบร�หารข�อมี(ลและนิ�าข�อมี(ลที่�เป#นิประโยช้นิ5เหล!านิ�0นิมีาใช้�ให�มี�ประส�ที่ธุ�ภาพื่ และได�ประส�ที่ธุ�ผลส(งส�ด Data mining อาจำเป#นิกั�ญแจำส�าคำ�ญที่�จำะนิ�าองคำ5กัรไปส(!ผ(�นิ�าในิติลาดได� ซ่9งเที่คำโนิโลย� data mining ได�ใช้�คำวามีกั�าวหนิ�าที่างกัารว�เคำราะห5ที่างสถ�ติ�และเที่คำนิ�คำแบบจำ�าลอง ในิกัารหาร(ปแบบและคำวามีส�มีพื่�นิธุ5ของฐานิข�อมี(ล (database) หร+อข�อมี(ลบนิระบบคำล�งข�อมี(ล (Data Warehouse) ขององคำ5กัรที่�ซ่!อนิอย(! ซ่9งกัารใช้�ว�ธุ�ธุรรมีดา อาจำไมี!สามีารถมีองเห3นิ

3.  ความสำ มพ นธี.ระหว าง Data mining แลัะ Data Warehouse

      คำวามีเกั�ยวข�องส�มีพื่�นิธุ5กั�นิระหว!าง Data Warehouse กั�บ Data Mining อย(!ที่� Data Mining คำ+อเที่คำนิ�คำ อ�นิล�0าย�คำในิกัารคำ�นิหาร(ปแบบ (Pattern) ของข�อมี(ลซ่9ง Tool ที่�ใช้�ที่�า Data

Mining แติกัติ!างจำากั Tool ที่�ใช้�ในิ กัารคำ�นิหาและรายงานิโดยที่�วไป โดยได�ถ(กัรวบรวมีเอาไว�เป#นิ Package ในิ Software Tools

บร�ษ�ที่ที่�ด�าเนิ�นิธุ�รกั�จำสามีารถซ่+0อ Tool ติ�วนิ�0ได�จำากัร�านิคำ�าคำอมีพื่�วเติอร5 ด�วยเที่คำนิ�คำของ Data Mining อย!างเข!นิ Neural

Networks, Decision Tree, Statistical Processing และ Data Visualization จำะสามีารถช้!วยให�กัารส�ารวจำร(ปแบบข�อมี(ลและว�เคำราะห5ข�อมี(ลในิ Data Warehouse ที่�าได�ด�ข90นิ แนิวโนิ�มีที่�ไกัลติ�วที่�ส�ดซ่9งกั�าล�งพื่�ฒนิาติ�วเองอย(! เรามี�กัจำะได�ย�นิช้+อว!า Warehouse Enabled OLTP คำ+อ Application ที่�รวบรวมีเอากัารสนิ�บสนิ�นิกัารติ�ดส�นิใจำจำากักัารที่�า Data Warehouse และ

Page 52: DATAmining (1)

กัารประมีวลผลแบบ Online Transaction Processing   : OLTP

ร�ปแบ่บ่ของการสำร�างระบ่บ่ Data Mining สำามารถแยกออกจากสำ วนของ Data Warehouse ได้�เป2นลั กษณ์ะด้ งน��

1.  Data Mining Above the Warehouse

   

      เหมีาะส�าหร�บกัารว�เคำราะห5ข�อมี(ลประกัอบ ที่�ไมี!ใช้!เป6าหมีายหล�กัขององคำ5กัร (Key objective) หร+อข�อมี(ลจำ�านิวนิไมี!มีากัไมี!สล�บซ่�บซ่�อนิ มี�ล�กัษณ์ะด�งภาพื่   

      ร(ปแสดง Data Mining Above the Warehouse

2. Data Mining Beside the Warehouse

    

                  ร(ปแสดง Data Mining Beside the Warehouse

   

3.  Data Mining Within the Warehouse

 

Page 53: DATAmining (1)

      ร(ปแสดง  Data Mining Within The Warehouse

4.  Stand-alone Data Mining

      แติ!ส�าหร�บองคำ5กัรที่�มี�กัารใช้�ประโยช้นิ5จำากัข�อมี(ลจำ�านิวนิมีากั แมี�ว!าจำะมี�ฐานิข�อมี(ลย!อยของแติ!ละแผนิกัอย(!  โดยมี�ระบบกัารจำ�ดกัารข�อมี(ลที่� มี�มีาติรฐานิ มี�ประส�ที่ธุ�ภาพื่ด�อย(!แล�ว กัารติ�ดติ�0งระบบคำล�งข�อมี(ล(Data Warehouse) กั3ไมี!จำ�าเป#นิส�าหร�บระบบกัารจำ�ดกัารว�เคำราะห5ข�อมี(ลและช้!วยกัารติ�ดส�นิใจำ(Data mining) กั3ได�

Algorithm สำ�าหร บ่ Data Mining

     เป#นิข�0นิติอนิในิกัารเล+อกัใช้� Algorithm ที่�เหมีาะสมีกั�บป:ญหาที่�ติ�องกัารที่�า Data Mining ซ่9งข90นิอย(!กั�บล�กัษณ์ะ ของป:ญหาและล�กัษณ์ะของข�อมี(ล เช้!นิ ถ�าป:ญหาคำ+อ ที่�าไมีล(กัคำ�าเปล�ยนิใจำไปใช้�“

ผล�ติภ�ณ์ฑ์5ของบร�ษ�ที่คำ(!แข!ง ซ่9งเรามี�ข�อมี(ล ” 2 ส!วนิคำ+อ ข�อมี(ลของล(กัคำ�าที่�เปล�ยนิใจำไปใช้�ผล�ติภ�ณ์ฑ์5ของบร�ษ�ที่คำ(!แข!งและล(กัคำ�าที่�ย�งคำงใช้�ผล�ติภ�ณ์ฑ์5ของบร�ษ�ที่ โดยส�งที่�เรา ติ�องกัารคำ+อ ร(ปแบบของคำวามีส�มีพื่�นิธุ5บางอย!างของล(กัคำ�าที่�ที่�าให�ล(กัคำ�ารายนิ�0นิมี�แนิวโนิ�มีที่�จำะเปล�ยนิใจำไปใช้�ผล�ติภ�ณ์ฑ์5ของ คำ(!แข!ง ซ่9ง Algorithm ที่�เหมีาะสมีกั�บป:ญหาล�กัษณ์ะนิ�0ได�แกั! Classification Tree Algorithm เป#นิติ�นิ กัารเล+อกั Algorithm นิ�0นิอาจำเล+อกัใช้�มีากักัว!า  1 Algorithm เพื่+อใช้�ในิกัารเปร�ยบเที่�ยบผลล�พื่ธุ5

      อ�ลกัอล�ที่9มี ในิกัารที่�า Data Mining มี�อย(!มีากัมีาย ที่�0งนิ�0เพื่ราะ Data Mining คำรอบคำ�มีเนิ+0อที่�กัว�างมีากันิ�นิเอง ยกัติ�วอย!างอ�ลกัอล�ที่9มีที่�สามีารถนิ�าไปประย�กัติ5ใช้�กั�บงานิที่�วๆไปได�

      1.  อ�ลกัอล�ที่9มี กัารนิ�บคำวามีถ�ของรายกัาร

      กัารนิ�บจำ�านิวนิรายกัารที่�เกั�ดข90นิภายใติ�เง+อนิไข เฉพื่าะ อ�ลกัอล�ที่9มีนิ�0มี�ที่�มีาจำากักัารว�เคำราะห5กัารซ่+0อของ เร�ยกัว!า Market basket

Page 54: DATAmining (1)

analysis กัล!าวคำ+อในิกัารซ่+0อส�นิคำ�าของล(กัคำ�า 1 คำร�0ง โดยไมี!ติ�องจำ�ากั�ดว!าจำะซ่+0อส�นิคำ�าในิห�างร�านิ หร+อส�งผ!านิไปรษณ์�ย5 หร+อกัารส�งซ่+0อส�นิคำ�าจำากั visual store บนิเว3บ โดยปกัติ�เราติ�องจำะติ�องกัารที่ราบว!าส�นิคำ�าใดบ�างที่�ล(กัคำ�ามี�กัจำะซ่+0อด�วยกั�นิ เพื่+อจำะนิ�าไปพื่�จำารณ์าปร�บปร�งกัารจำ�ดวางส�นิคำ�าในิร�านิ หร+อใช้�เพื่+อหาว�ธุ�วางร(ปคำ(!กั�นิในิใบโฆัษณ์าส�นิคำ�า กั!อนิอ+นิกั�าหนิดคำ�าว!า กัล�!มีรายกัาร (itemset) กั!อนิ หมีายถ9ง กัล�!มีส�นิคำ�าที่�จำะ ปรากัฏร!วมีกั�นิ เช้!นิ (รองเที่�า,ถ�งเที่�า), (ปากักัา,หมี9กั)

หร+อ(นิมี,นิ�0าผลไมี�) โดยกัล�!มีรายกัารด�งกัล!าวนิ�0 อาจำจำะจำ�บคำ(!กัล�!มีล(กัคำ�ากั�บส�นิคำ�า กั3ได�เช้!นิ ว�เคำราะห5หา ล(กัคำ�าที่�ซ่+0อส�นิคำ�าบางช้นิ�ดซ่�0าๆกั�นิ”

อย!างนิ�อย 5 คำร�0งแล�ว” กัรณ์�นิ�0ฐานิข�อมี(ลเรามี�กัารเกั3บรายกัารซ่+0อขายเป#นิจำ�านิวนิมีากั และคำ�าถามีข�างติ�นิ (query) นิ�0จำ�าเป#นิติ�องคำ�นิหา ที่�กัๆคำ(!ของล(กัคำ�ากั�บส�นิคำ�า เช้!นิ {นิาย กั, ส�นิคำ�า A},{นิาย กั, ส�นิคำ�า B},{นิาย กั, ส�นิคำ�า C},{นิาย ข, ส�นิคำ�า B} เป#นิติ�นิ นิ�บเป#นิงานิที่�หนิ�กัพื่อคำวรส�าหร�บ DBMS และถ�าจำะเข�ยนิ query ข�างติ�นิเป#นิ SQL จำะได�ว!า

      SELECT P.custid,P.item,SUM(P.qty)

      FROM  Purchases P

      GROUP BY P.custid,P.item

      HAVING SUM(P.qty) > 5

      หล�งจำากัที่� DBMS ประมีวลผล SQL นิ�0อย!างหนิ�กั เนิ+องจำากัมี�ข�อมี(ลที่�จำะติ�องติรวจำสอบมีากัมีายหลายคำ(! และแติ!ละคำ(!ติ�องคำ�นิหามีาจำากัที่�0งฐานิข�อมี(ลเลย แติ!ผลล�พื่ธุ5ของ query ช้นิ�ดนิ�0ว!าเป#นิ “iceberg query” ซ่9งเปร�ยบเที่�ยบกั�บ ส�านิวนิไที่ยกั3คำ+อ งมีเข3มีในิมีหาสมี�ที่รนิ�นิเอง

      แสดง อ�ลกัอล�ที่9มี ในิกัารคำ�นิหากัล�!มีรายกัารที่�0งหมีดจำากัฐานิข�อมี(ล ภายใติ�เง+อนิไขที่�กั�าหนิดข90นิ

      for each item  // level 1

Page 55: DATAmining (1)

      // นิ�นิคำ+อปรากัฏในิจำ�านิวนิรายกัารที่�มีากักัว!าที่�กั�าหนิด

      check if it is a frequent itemset

      K = 1

      Repeat  // ที่�าซ่�0าเพื่+อหา frequent itemsets

            // level k +1

            for each new frequent itemset IK with K items

            generate all items IK + 1 with k +1 items,

            Ik is a subset of IK + 1

            Scan all transactions once and check if the generated

            K + 1 – itemsets are frequent.

            k = k + 1

            until no new frequent itemsets are identified

ผลล�พื่ธุ5ของ อ�ลกัอล�ที่9มีนิ�0 จำะใช้�แสดงกัล�!มีของรายกัารที่�ปรากัฏบ!อยคำร�0ง ด�งที่�เรากั�าหนิด

      2.  อ�ลกัอล�ที่9มี เพื่+อกัารจำ�ดหมีวดหมี(! (Classification)

      กัารจำ�ดหมีวดหมี(!ของข�อมี(ลคำ+อกัารส�ารวจำรายกัารในิฐานิข�อมี(ล เพื่+อแยกัแยะให�อย(!ในิหมีวดที่�เราได�กั�าหนิดไว�ล!วงหนิ�า แล�ว เช้!นิ กัารแบ!งกัล�!มีส�นิคำ�าเป#นิกัล�!มีเคำร+องใช้� กัล�!มีอาหารสด กัล�!มีอาหารแห�ง เป#นิติ�นิ อ�ลกัอล�ที่9มี ที่�ใช้�ในิกัารจำ�ดหมีวดหมี(! ออกัเป#นิ 2 แบบ หล�กัๆคำ+อ

o แบบติ�นิไมี� (Decision tree)

Page 56: DATAmining (1)

o แบบนิ�วรอลเนิ3ติ (Neural network)

   

      โคำรงสร�างแบบติ�นิไมี� เป#นิที่�นิ�ยมีกั�นิมีากั เป#นิล�กัษณ์ะที่�คำนิจำ�านิวนิมีากัคำ��นิเคำย ที่�าให�เข�าใจำได�ง!าย มี�ล�กัษณ์ะเหมี+อนิแผนิภ(มี�องคำ5กัร จำากัร(ปแสดงให�เห3นิถ9ง Decision tree ส�าหร�บว�เคำราะห5ว!าล(กัคำ�าบ�านิเช้!ามี�คำวามีสนิใจำ ที่�จำะซ่+0อบ�านิเป#นิของตินิเองหร+อไมี! โดยใช้�ป:จำจำ�ยในิกัารว�เคำราะห5 คำ+อ ระยะเวลาที่�ล(กัคำ�าได�เช้!าบ�านิมีา และอาย�ของล(กัคำ�า 

             ร(ปแสดงติ�วอย!างของ Decision tree เพื่+อว�เคำราะห5โอกัาสที่�ล(กัคำ�าบ�านิเช้!าจำะซ่+0อบ�านิ

โคำรงสร�างอ�กัแบบหนิ9ง ของ อ�ลกัอล�ที่9มีนิ�0คำ+อ โคำรงสร�างนิ�วรอลเนิ3ติเว�ร5กั

      นิ�วรอลเนิ3ติ หร+อ นิ�วรอลเนิ3ติเว�ร5กั เป#นิเที่คำโนิโลย�ที่�มี�มีาจำากังานิว�จำ�ยด�านิป:ญญาประด�ษฐ5 (Artificial Intelligence : AI) เพื่+อใช้�ในิกัารคำ�านิวณ์ คำ!าฟ:งช้�นิจำากักัล�!มีข�อมี(ล ว�ธุ�กัารของนิ�วรอลเนิ3ติ (แที่�ที่�จำร�งติ�องเร�ยกัให�เติ3มีว!า Artificial Neural Networks หร+อ ANN) เป#นิว�ธุ�กัารที่�ให�เคำร+องเร�ยนิร( �จำากัติ�วอย!างติ�นิแบบ แล�วฝ่Dกั (train) ให�ระบบร( �จำ�กัที่�จำะคำ�ดแกั�ป:ญหาที่�กัว�างข90นิได� ในิโคำรงสร�างของ นิ�วรอลเนิ3ติ จำะประกัอบด�วยโหนิด (node) ส�าหร�บ อ�นิพื่�ติ-เอาติ5พื่�ติ และกัารประมีวลผล กัระจำายอย(!ในิโคำรงสร�างเป#นิช้�0นิๆ ได�แกั! input

layer ,output layer และ hidden layer กัารประมีวลผลของนิ�วรอลเนิ3ติ จำะอาศ�ยกัารส!งกัารที่�างานิผ!านิโหนิดติ!างๆ ในิ layer เหล!านิ�0 ติ�วอย!างร(ปเป#นิกัารว�เคำราะห5แบบเด�ยวกั�บร(ปข�างบนิ ในิโคำรงสร�างแบบ นิ�วรอลเนิ3ติ

Page 57: DATAmining (1)

                ร�ปแสำด้ง น�วรอลัเน1ต เพ��อว�เคราะห.การเช้ าแลัซื้��อบ่�านของลั�กค�า

 

      ติารางแสดง Business_info แสดงถ9งรายกัารที่�0งหมีด เกั�ยวกั�บล(กัคำ�าบ�านิเช้!าของบร�ษ�ที่ โดยมี�รายละเอ�ยดเกั�ยวกั�บอาย� และระยะเวลากัารเช้!า รวมีที่�0งกัารซ่+0อบ�านิของล(กัคำ�าแติ!ละราย ด�งนิ�0 

ติาราง Business_info

Age Rent_period Buy23 3 No36 1.5 No20 1.5 No27 2 Yes20 1 No50 2.5 Yes36 1 No36 2 Yes22 2.5 No 

SQL ส�าหร�บ Decision tree ของติ�วอย!างนิ�0แบ!งเป#นิ 2 ช้�ด ส�าหร�บป:จำจำ�ยแติ!ละอย!าง

1. SQL สำ�าหร บ่ root node ด้ งน��

SELECT B.rent_Period , B.Buy ,COUNT(*)

   FROM Business_info B

WHERE B.Rent_Period > 2

GROUP BY  B.Rent_Period,B.Buy

Page 58: DATAmining (1)

ผลล�พื่ธุ5ของ SQL นิ�0คำ+อ

Rent_Period

Buy Yes No

1 0 2  1.5 0 2  2 2 0  2.5 1 1  3 0 1   

2.    SQL สำ�าหร บ่ node ทั่��เป2น child ทั่างขวาของ root 

ค�อ

SELECT B.Age , B.Buy ,COUNT(*)

FROM Business_info B

   WHERE B.Age > 25

GROUP BY  B.Age,B.Buy

ผลล�พื่ธุ5ของ SQL นิ�0คำ+อ

Rent_period

Buy Yes No

20 0 2  22 0 1  23 2 1  27 1 0  36 1 2  50 1 0   

Page 59: DATAmining (1)

      ผลล�พื่ธุ5ที่�ได�แติ!ละโหนิดของ Decision tree  เร�ยกัว!า AVC

sets (Attribute value , Class label ) จำากัติ�วอย!างข�างติ�นิจำะเห3นิได�ว!ามี� 2 AVC sets เพื่+อใช้�ในิกัารจำ�ดกัล�!มีล(กัคำ�า

      แสดงว�ธุ�กัารสร�าง Decision tree ในิหนิ!วยคำวามีจำ�า

      Top-Down Decision tree Induction schema :

      BuildTree (Node n. data partition D ,split selection method S)

1. Apply S to D to find the splitting criterion 2. If (a good splitting criterion is found) 3. Create two children nodes n1 and n2 of n 4. Partition D into D1 and D2 5. BuildTree (n1 ,D1 ,S) 6. BuildTree(n2 , D2,S) 7. End if

3. อ ลักอลั�ทั่/ม อ��นๆ

   นิอกัจำากัอ�ลกัอล�ที่9มีข�างติ�นิแล�ว Data Mining ย�งมี� อ�ลกัอล�ที่9มีอ+นิๆอ�กัจำ�านิวนิวนิมีากั เช้!นิ

1. Database Clustering หร+อ Segmentation ได�แกั!กัารแบ!งข�อมี(ลเป#นิแบบกัล�!มีๆ โดยที่�ไมี!ร( �ล!วงหนิ�าว!าจำะมี�ที่�0งหมีด

กั�กัล�!มี โดยกัารจำ�ดกัล�!มีข�อมี(ลด�งกัล!าวได�จำากักัารพื่�จำารณ์าคำ�ณ์สมีบ�ติ�ในิหลายๆมี�ติ�ของข�อมี(ล ถ�ารายกัารในิข�อมี(ลมี�ล�กัษณ์ะ คำล�ายคำล9งกั�นิเป#นิกัล�!มีเด�ยวกั�นิได� กั3จำะรวมีเข�าด�วยกั�นิ ร(ปแสดงกัล�!มีของข�อมี(ลที่�พื่�จำารณ์าจำากัคำ�ณ์สมีบ�ติ�เพื่�ยง 2 มี�ติ� (ข�อมี(ลอาจำจำะมี�หลายมี�ติ�กั3ได ซ่9งมี�กัจำะไมี!แสดงเป#นิร(ปภาพื่ได�)   

Page 60: DATAmining (1)

                  ร(ปแสดงข�อมี(ลในิ 2 มี�ติ� แสดงกัารแบ!งข�อมี(ลเป#นิ 3

กัล�!มี   

2. กัารติรวจำหาคำ!าคำวามีเบ�ยงเบนิ (Deviation Detection) 

เป#นิกัรรมีว�ธุ�ในิกัารหาคำ!าที่�แติกัติ!างไปจำากัมีาติรฐานิ

หร+อคำ!าที่�คำาดคำ�ดไว�ว!า มี�คำวามีแติกัติ!างมีากันิ�อยเพื่�ยงใด โดยที่�วไปมี�กัใช้�ว�ธุ�กัารที่าง สถ�ติ�หร+อกัารแสดงให�เห3นิภาพื่(Visualization) ด�งติ�วอย!างในิร(ป   ส�าหร�บ อ�ลกัอล�ที่9มี นิ�0สามีารถใช้�ในิกัารติรวจำสอบ ลายเซ่3นิปลอมี หร+อ บ�ติรเคำรด�ติปลอมี รวมีที่�0งหารติรวจำหา จำ�ดบกัพื่ร!อง ช้�0นิงานิในิโรงงานิอ�ติสาหกัรรมี

                                ร(ป Visualization แสดงคำ!าเบ�ยงเบนิ

การประย3กต. Web mining

เหม�องข�อม�ลับ่นเว1บ่ (Web Mining)

      กัารที่�าเหมี+องข�อมี(ลบนิเว3บ เป#นิเสมี+อนิกัารที่�าเหมี+องที่องนิ�0นิ Web Mining เป#นิล�กัษณ์ะเฉพื่าะอย!างหนิ9ง ของกัารนิ�าหล�กักัาร Data Mining มีาใช้�กั�บข�อมี(ลที่�อาจำมี�ขนิาดใหญ!มีากั ที่�0งนิ�0ข90นิอย(!กั�บขอบเขติของระบบ ที่�จำะที่�า Web mining เช้!นิ ข�อมี(ลของเราจำะติ�องรวบรวมีและประมีวลผลจำากัข�อมี(ลที่�0งหมีดบนิเว3บ ข�อมี(ลกั3จำะมี�ขนิาดใหญ! แติ!ถ�าเราประมีวลผล ในิเคำร+อข!ายที่�เล3กัลง หร+อบนิเคำร+องเด�ยวๆ กั3จำะเป#นิเพื่�ยง Data Mining ขนิาดเล3กันิ�นิเอง หากัเรานิ�าข�อมี(ลเหล!านิ�0มีา ผ!านิขบวนิกัาร Web mining (หร+อ Data Mining) กั3จำะได�ข�อมี(ลนิ�าไปใช้�ประโยช้นิ5 ไมี!ว!าจำะเป#นิในิด�านิกัารปร�บปร�ง กัารให�บร�กัารเว3บ  โดยผ(�ด(แลเว3บเอง หร+ออาจำจำะเป#นิข�อมี(ลที่�นิ�าไปใช้�ในิกัารช้!วยกัารด�าเนิ�นิธุ�รกั�จำขอผ(�ประกัอบกัารได�

Page 61: DATAmining (1)

การประย3กต. Web Mining เพ��อการบ่ร�การเว1บ่

      ได�มี�งานิว�จำ�ยจำ�านิวนิมีากัที่�นิ�า Web mining มีาช้!วยในิกัารว�เคำราะห5 งานิบร�กัารเว3บ เพื่+อนิ�าไปพื่�ฒนิากัารให�บร�กัารที่�ด� และนิ!าสนิใจำข90นิ ส!วนิใหญ!จำะเนิ�นิไปที่�กัารนิ�าข�อมี(ลในิร(ปแบบติ�วอ�กัษร (Text) มีาว�เคำราะห5รวมีกั�บข�อมี(ลช้นิ�ดอ+นิ โดยข�อมี(ลเหล!านิ�0มี�กัจำะได�จำากักัารบ�นิที่9กัรายละเอ�ยดในิที่�กัๆคำร�0งที่�มี�ผ(�เข�าใช้�บร�กัารบนิเว3บแติ!ละแห!ง ติ�วอย!างของกัารประย�กัติ5 ใช้� Web mining ในิล�กัษณ์ะนิ�0ได�แกั!

กัารรวบรวมีข�อมี(ลติ�วอ�กัษรเข�ากั�บข�อมี(ล Links บนิเว3บ เพื่+อสร�ปหาเว3บที่�จำ�าเป#นิที่�จำะติ�องได�ร�บอนิ�ญาติ จำ9งจำะเข�าใช้�ได� ภายใติ�ห�วข�อที่�กั�าหนิด โดยจำะมี�คำ�ณ์ภาพื่ด�กัว!ากัารใช้� Search

Engines ที่�มี�อย(!แพื่ร!หลายในิป:จำจำ�บ�นิ กัารผสมีข�อมี(ลเกั�ยวกั�บล�กัษณ์ะกัารใช้� ช้!วงระยะเวลา และ

Links ที่�มี�ผ(�เข�าใช้�บร�กัารเว3บเพื่+อนิ�ามีาพื่�จำารณ์าปร�บปร�ง กัารให�บร�กัาร โดยอาจำจำะเพื่�มีหร+อลดกัารให�บร�กัารบางช้นิ�ดให�เหมีาะสมีกั�บกัล�!มีผ(�ใช้�แติ!ละสภาพื่แวดล�อมี ซ่9งอาจำจำะมี� คำวามีสนิใจำแติกัติ!างกั�นิไป

กัารนิ�าช้นิ�ดข�อมี(ลติ�วอ�กัษร และข�อมี(ลของร(ปภาพื่ (image)

มีาผสมีผสานิกั�นิ เพื่+อประโยช้นิ5ในิกัารคำ�นิหาของ Search

Engines ในิกัรณ์�ที่�ติ�องกัารคำ�นิหาข�อมี(ลที่�เป#นิร(ปภาพื่

      นิอกัจำากันิ�0 Web mining ย�งสามีารถช้!วยให�คำ�นิพื่บข�อมี(ลใหมี!ๆ อ�นิจำะเอ+0อประโยช้นิ5ให�งานิว�จำ�ยด�านิอ+นิๆด�วยเช้!นิ กัารคำ�นิพื่บว�ที่ยากัารใหมี!ๆ จำากักัารว�เคำราะห5ข�อมี(ลข�ามีเว3บไซ่ติ5หลายๆแห!งด�วยกั�นิ

Web mining ก บ่การทั่�าธี3รก�จ E-Commerce

      ในิกัารที่�าธุ�รกั�จำติ!างๆ ไมี!ว!าจำะเป#นิร(ปแบบของห�างร�านิ บร�กัารส�งของที่างไปรษณ์�ย5 หร+อกัารที่�าธุ�รกั�จำแบบ อ�เล3กัที่รอนิ�กัส5นิ�0นิ ป:จำจำ�ยหนิ9งที่�มี�คำวามีส�าคำ�ญมีากัติ!อคำวามีส�าเร3จำที่างด�านิธุ�รกั�จำคำ+อ คำวามีเข�าใจำ

Page 62: DATAmining (1)

ในิติ�วล(กัคำ�า หร+อ กัล�!มีล(กัคำ�า ย�งร( �ข�อมี(ลมีากัย�งที่�าให� เข�าใจำล(กัคำ�าอย!างแที่�จำร�งมีากัข90นิ โอกัาสที่�จำะที่�าธุ�รกั�จำให�ติรงกั�บคำวามีติ�องกัารของติลาดกั3จำะมี�มีากัข90นิด�วย

      ข�อมี(ลล(กัคำ�าด�งกัล!าวมีานิ�0 คำวามีจำร�งแล�วมี�ให�นิ�ามีาใช้�ได�มีากัมีายอย(!แล�วแติ!อาจำจำะอย(!ในิร(ปที่�เป#นิได�ไมี!ช้�ดเจำนิ อ�นิได�แกั! ข�อมี(ลที่�รวบรวมีไว�ที่�ได�จำากักัารบ�นิที่9กัที่� log file ของกัารให�บร�กัารเว3บ หร+อข�อมี(ลจำากัสมี�คำรสมีาช้�กัในิร(ปแบบติ!างๆเป#นิติ�นิ ข�อมี(ลเหล!านิ�0สามีารถอ�านิวยประโยช้นิ5ในิกัารติ�ดติามีด(ผ(�ใช้� (user tracking) ย�งผ(�ใช้�เข�าเว3บบ!อย หร+อนิานิข90นิ เราย�งมี�โอกัาสที่ราบและร( �จำ�กักั�บผ(�ใช้�มีากัข90นิที่!านิ�0นิ ส�าหร�บข�อมี(ลด�งกัล!าวเกั�ยวกั�บผ(�ใช้�จำะมี�กัารว�เคำราะห5ออกัมีา 3

ล�กัษณ์ะด�งนิ�0

1. Demographics เป#นิข�อมี(ลเกั�ยวกั�บที่�อย(! หร+อสถานิที่�ของผ(�ใช้�ในิขณ์ะที่�เข�าบร�กัารเว3บ ซ่9งสามีารถประมีวลผล เป#นิสถ�ติ�บร�เวณ์ที่�อย(!อาศ�ยของกัล�!มีผ(�ใช้�ส!วนิมีากัได�

2. Phychographics เป#นิข�อมี(ลด�านิจำ�ติว�ที่ยา ซ่9งแสดงถ9งพื่ฤติ�กัรรมี หร+อคำ!านิ�ยมีในิด�านิติ!างๆ ของผ(�ใช้�โดยสามีารถ จำะแบ!งแยกักัล�!มีของผ(�ใช้�ติามีข�อมี(ลกัารเข�าใช้�บร�กัาร ที่�0งในิแง!ของเวลาและเนิ+0อหา

3. Technolographics เป#นิข�อมี(ลที่�แสดงถ9งระด�บคำวามีร( � และคำวามีสนิใจำเที่คำโนิโลย�ติ!างๆ ของผ(�ใช้�รวมีถ9งเคำร+องที่� ติ�ดติ!อเข�ามีาด�วย ซ่9งจำะช้!วยในิกัารพื่�ฒนิาส�นิคำ�าและบร�กัารที่�นิ!าสนิใจำและเหมีาะสมีในิแง! เที่คำโนิโลย�ได�ด�ข90นิ

      เมี+อนิ�าข�อมี(ลที่�ว�เคำราะห5ได�ที่�0ง 3 ล�กัษณ์ะนิ�0มีาพื่�จำารณ์าโดยละเอ�ยด จำะเกั�ดประโยช้นิ5อย!างมีากัในิกัารศ9กัษาเกั�ยวกั�บ สภาพื่และพื่ฤติ�กัรรมีโดยรวมีของประช้ากัร ซ่9งจำ�านิวนิข�อมี(ลที่�จำะนิ�ามีาว�เคำราะห5มี�กัจำะมี�จำ�านิวนิมีากั และให�ผลกัารว�เคำราะห5 มี�คำวามีแมี!นิย�าส(ง ในิที่างปฏ�บ�ติ� เที่คำนิ�คำติ!างๆในิกัารว�เคำราะห5ข�อมี(ลของ Data Mining

สามีารถนิ�ามีาใช้�กั�บ Web mining ได�เป#นิอย!างด�

Page 63: DATAmining (1)

      จำากัเนิ+0อหาเกั�ยวกั�บ Data Mining หร+อ Web mining ด�งที่�ได�กัล!าวมีา เห3นิได�ว!าเที่คำโนิโลย�เหล!านิ�0 สามีารถกั!อให�เกั�ดประโยช้นิ5ได�อย!างมีากัมีาย ที่�0งในิแง!กัารพื่�ฒนิาว�จำ�ย หร+อที่างธุ�รกั�จำ กัารเพื่�มีกั�าไร กัารลดติ�นิที่�นิ ได�อย!างมีหาศาล อย!างไรกั3ติามีส�งที่�ติ�องคำ�านิ9งเสมีอ  คำ+อ คำวามีสมีบ(รณ์5 และ ถ(กัติ�องของข�อมี(ลกั!อนิที่�จำะนิ�ามีาว�เคำราะห5 กัารเล+อกัเที่คำนิ�คำของ Data Mining ที่�เหมีาะสมีติรงกั�บคำวามีติ�องกัารที่�แที่�จำร�ง เพื่+อผลล�พื่ธุ5ที่�เราติ�องกัาร 

Software สำ�าหร บ่  Data Mining

     ป:จำจำ�บ�นิ Data Mining เร�มีได�ร�บคำวามีนิ�ยมีใช้�กั�นิในิองคำ5กัรติ!าง ๆ มีากัข90นิ ที่�0งนิ�0เนิ+องมีาจำากัป:จำจำ�ยหลายประกัาร เช้!นิ ปร�มีาณ์ข�อมี(ลที่�แติ!ละองคำ5กัรติ�องเกั�ยวข�องมี�เพื่�มีข90นิ (มี�ขนิาดหนิ!วยนิ�บเป#นิ Gigabyte หร+ออาจำเป#นิ Terabyte) และนิ�บว�นิจำะเพื่�มีข90นิเร+อย ๆ กัารที่�ากัารว�เคำราะห5ข�อมี(ลขนิาดใหญ!เหล!านิ�0เพื่+อสร�างคำ�ณ์คำ!าให�กั�บข�อมี(ลเป#นิเร+องยากัแติ!กั3จำ�าเป#นิ ซ่9ง Data Mining เป#นิเคำร+องมี+อติ�วหนิ9งที่�เข�ามีาช้!วยในิเร+องนิ�0  คำวามีสามีารถของ CPU ที่�เพื่�มีข90นิในิขณ์ะที่�ราคำาลดลง  กัารพื่�ฒนิาผล�ติภ�ณ์ฑ์5ที่�เกั�ยวกั�บ Data Mining ที่�ที่�างานิบนิ PC ( Personal Computer )  เหล!านิ�0ล�วนิเป#นิป:จำจำ�ยที่�ที่�าให�องคำ5กัรติ!าง ๆ เร�มีห�นิมีามีอง Data Mining Tools มีากัข90นิ ติ�วอย!างบร�ษ�ที่ที่�ที่�ากัารพื่�ฒนิาผล�ติภ�ณ์ฑ์5ที่�เกั�ยวกั�บ Data Mining

ที่�มี�ช้+อเส�ยงได�แกั!

Kate โดยบร�ษ�ที่ Acknosoft ใช้�เที่คำนิ�คำ Decision trees

และ Case-based reasoning ใช้�กั�บ

Windows NT และ UNIX คำ(กั�บฐานิข�อมี(ล ( บนิ NT ) คำ+อ Microsoft Access

Knowledge Seeker โดยบร�ษ�ที่ Angoss ใช้�เที่คำนิ�คำ Decision trees และ Statistics ใช้�กั�บ

Page 64: DATAmining (1)

Windows NT ติ�ดติ!อฐานิข�อมี(ลผ!านิที่าง ODBC

Business Miner โดยบร�ษ�ที่ Business Objects ใช้�เที่คำนิ�คำ Neural Networks และ Machine

Learning ใช้�กั�บ Windows NT ติ�ดติ!อฐานิข�อมี(ลผ!านิ ODBC

Intelligent Miner เป#นิผล�ติภ�ณ์ฑ์5ของ IBM

Corporation ใช้�เที่คำนิ�คำ Classification , Association

Rules และ Predictive Modes ใช้�กั�บ UNIX (AIX) บนิ DB2 

เป#นิช้�ดของโปรแกัรมี ซ่9งประกัอบด�วย

Explorer , Diamond , และ Quest

Explorer เป#นิเคำร+องมี+อที่�ใช้�เที่คำนิ�คำแบบ neural

networks ส�าหร�บแกั�ป:ญหาประเภที่ clustering

Diamond เป#นิผล�ติภ�ณ์ฑ์5ที่�ช้!วยในิด�านิกัารแสดงผล ( visualization )

Quest เป#นิเคำร+องมี+อที่�ใช้�เพื่+อที่�าส�งที่� IBM เร�ยกัว!า “Link analysis”

Enterprise Miner โดยบร�ษ�ที่ SAS ใช้�เที่คำนิ�คำ Decision trees , Association Rules , Neural network ,

Regression และ Clustering ใช้�กั�บระบบ UNIX ( Solaris ) ,

Windows NT และ แมีคำอ�นิที่อช้ ติ�ดติ!อกั�บฐานิข�อมี(ลผ!านิ ODBC

และสนิ�บสนิ�นิ Oracle

Mineset โดยบร�ษ�ที่ Silicon Graphics ใช้�เที่คำนิ�คำ Decision trees และ Association Rules ใช้�กั�บ

ระบบ UNIX ( Irix ) บนิฐานิข�อมี(ล Oracle , Sybase และ Informix

Page 65: DATAmining (1)

DataMind Professional Edition , DataMind DataCrucher เป#นิผล�ติภ�ณ์ฑ์5ของ DataMind

Corporation DataMind ใช้�เที่คำโนิโลย�ที่�เร�ยกัว!า “Agent

Network Technology”  ซ่9งมี�พื่+0นิฐานิมีาจำากังานิว�จำ�ยของ Dr.

Khai Minh Pham ที่� University of Paris กัารแสดงผลของ DataMind แสดงผลผ!านิ Microsoft’s Excel

Drawin เป#นิผล�ติภ�ณ์ฑ์5ของ Thinking Machines

Corporation Darwin เป#นิช้�ดของผล�ติภ�ณ์ฑ์5

Data Mining ประกัอบด�วย

StarTree ใช้�เที่คำนิ�คำแบบ Decision tree ,

Classification and Regression Tree ( CART ) ในิกัารที่�า Data Mining

StarNet ใช้�เที่คำนิ�คำแบบ Neural network หร+อ Artificial

neural networks ( ANNs ) ในิกัารที่�า Data Mining

StarMatch ใช้�เที่คำนิ�คำแบบ k-Nearest Neighbor

( KNN ) และ Memory-based Reasoning        ( MBR )

StarGene ใช้�เที่คำนิ�คำแบบ Genetic algorithm และ optimization

StarView เป#นิเคำร+องมี+อที่�ช้!วยในิกัารแสดงผลข�อมี(ล ( data visualization )

 

     ส�าหร�บเที่คำนิ�คำที่�ใช้�นิ �0แติ!ละคำ!ายได�เล+อกัมีาติ!างกั�นิติามีคำวามีเหมีาะสมีในิกัารใช้�งานิแติ!ละด�านินิอกัจำากันิ�0เราย�งสามีารถ ผสมีผสานิเที่คำนิ�คำหลาย ๆ อย!างมีาประย�กัติ5ให�เกั�ดประโยช้นิ5กั�บงานิของเราอ�กัด�วย ยกัติ�วอย!างเช้!นิ นิ�กัว�จำ�ยที่างด�านิประมีวล ผลร(ปภาพื่ ( Image

Processing ) มี�กัจำะใช้�เที่คำนิ�คำ Clustering กั�นิมีากั  ในิขณ์ะที่�นิ�กั

Page 66: DATAmining (1)

ว�ที่ยาศาสติร5ที่�วไปจำะใช้� Neural nets  ส!วนินิ�กัธุ�รกั�จำใช้� Association Rule มีากักัว!า    ส�าหร�บนิ�กัเว�ลด5ไวด5เว3บ กั3ใช้�ประโยช้นิ5จำากัแอพื่พื่ล�เคำช้�นิของ Data Mining ได�เช้!นิเด�ยวกั�นิ ซ่9งมี�คำ�าเร�ยกัเฉพื่าะว!า Web Mining หร+อ Web Data Mining โดยเฉพื่าะอย!างย�งกัารใช้�งานิ Data Mining ในิ

e-commerce และ e-research ที่�มี�กัารแข!งข�นิกั�นิส(งเป#นิเที่คำโนิโลย�ส�าหร�บติลาดขนิาดใหญ! ( Mass market technology )

ค3ณ์สำมบ่ ต�หลั ก ๆ 4 ประการทั่��ซื้อฟต.แวร.จะต�องม�  ด้ งน��

1. มี�เคำร+องมี+อช้!วยในิกัารเติร�ยมีข�อมี(ล ( Data preparation

facilities ) ซ่9งหมีายรวมีถ9งกัารแปลงข�อมี(ลจำากัหลาย ๆ แหล!ง หลายร(ปแบบ ให�สามีารถนิ�ามีาใช้�กั�บ Data Mining

ร!วมีกั�นิได�ถ(กัติ�อง 2. เปBดโอกัาสให�เล+อกัใช้�เที่คำนิ�คำกัารว�เคำราะห5ติ!าง ๆ ของ Data

Mining ได� ( Selection of D.M. operations &

algorithms ) โดยส!วนิใหญ!แติ!ละคำ!ายจำะมี� 2-3 แบบให�เล+อกั 3. ให�ผ(�ใช้�เล+อกัซ่+0อซ่อฟติ5แวร5ได�ติามีขนิาดข�อมี(ลและประส�ที่ธุ�ภาพื่

ติามีติ�องกัาร ( Product scalability and performance )

4. มี�กัารแสดงผลที่�ช้�ดเจำนิและนิ!าสนิใจำ ( Facilities for visualization of results )

   

ข�อเสำ�ยของ Data Mining

      จำากัที่�เคำยกัล!าวไว�ข�างติ�นิว!า Data Mining เป#นิเพื่�ยงเคำร+องมี+อที่�ใช้�ในิกัารว�เคำราะห5เที่!านิ�0นิ ไมี!สามีารถเข�าใจำธุ�รกั�จำ หร+อเข�าใจำข�อมี(ลได�ด�

Page 67: DATAmining (1)

เที่!าคำนิ ด�งนิ�0นิผ(�ใช้� Data Mining จำ9งจำ�าเป#นิติ�องมี�คำวามีร( �คำวามีเข�าใจำในิข�อมี(ลธุ�รกั�จำเคำร+องมี+อและ อ�ลกัอล�ที่9มีได�เป#นิอย!างด�

      อย!างไรกั3ติามี Data Mining จำะช้!วยหาร(ปแบบและคำวามีส�มีพื่�นิธุ5ของข�อมี(ล แติ!ไมี!ระบ�ว!าคำ!าของข�อมี(ลจำร�ง หร+อคำ!าที่�แสดงคำวามีส�มีพื่�นิธุ5จำร�ง เป#นิเพื่�ยงแคำ!ที่�านิายเที่!านิ�0นิ ผ(�ใช้�ติ�องที่�ากัารติ�ดส�นิใจำอ�กัคำร�0ง

      เป#นิคำวามีเข�าใจำผ�ดที่�ว!า Data Mining จำะช้!วยคำ�นิหาคำ�าติอบโดยที่�ไมี!ติ�องถามีคำ�าถามีใดๆ อ�นิที่�จำร�งแล�ว Data Mining ย�งติ�องกัารให�ผ(�ใช้�บอกัร(ปแบบของกัารคำ�นิหาคำ�าติอบด�วย

      อนิ9ง Data Mining  ไมี!ได�เข�ามีาแที่นิที่�คำวามีช้�านิาญของนิ�กัว�เคำราะห5  แติ!จำะเป#นิเคำร+องมี+อที่�จำะช้!วยให�นิ�กัว�เคำราะห5 หร+อนิ�กับร�หารในิกัารติ!อกัรกั�บคำ(!แข!งได�เป#นิอย!างด� 

ประโยช้น.ของการใช้�  Data  Mining

      Data  Mining    ถ(กันิ�ามีาใช้�สนิ�บสนิ�นิกัารติ�ดส�นิใจำ โดยกัานิสร�างมี(ลคำ!าเพื่�มีให�กั�บข�อมี(ลที่�มี�อย(!   ประโยช้นิ5 ที่�แติ!ละ องคำ5กัรได�ร�บจำากักัารใช้�   Data  Mining  สร�ปได� ด�งนิ�0

กัารเอาช้นิะคำ(!แข!งข�นิ   ล(กัคำ�าที่�ด�มี�กัจำะเป#นิที่�ช้+นิช้อบของบร�ษ�ที่คำ(!แข!งเช้!นิกั�นิ   บร�ษ�ที่เหล!านิ�0นิจำะพื่ยายามีแย!ง ส!วนิ แบ!งจำากั Segment  ที่�สามีารถสร�างผลกั�าไรให�กั�บบร�ษ�ที่ได� และกั3พื่ยายามีที่�จำะแย!งช้�งส!วนิแบ!งติลาดนิ�0นิมีา    Data  Mining 

สามีารถนิ�ามีาใช้�ประโยช้นิ5ได�ที่�0งกัารแย!งส!วนิแบ!งติลาด และในิแง!กัารป6องกั�นิมี�ให�เกั�ดกัารเส�ย ส!วนิแบ!งติลาด

ที่�าให�เกั�ดคำวามีร( �ที่�สามีารถนิ�ามีาใช้� หร+อประกัอบกัารติ�ดส�นิใจำได�  เนิ+องจำากั Data  Mining  จำะใช้�เที่คำนิ�คำที่�ซ่�บ ซ่�อนิ  และมี�ล�กัษณ์ะเป#นิ Artificial   Intelligence   ในิกัารสร�างโมีเดลที่�อ�งกั�บข�อมี(ล  ซ่9งรวบรวมีจำากัแหล!งติ!าง ๆ เช้!นิ รายกัารที่าง

Page 68: DATAmining (1)

ธุ�รกั�จำ   ข�อมี(ลประว�ติ�ล(กัคำ�า   และข�อมี(ลอ+นิ ๆ จำากัแหล!ภายนิอกั คำวามีร( �ที่�ได�จำ9งช้!วยให�องคำ5กัร สามีารถคำาดกัารณ์5อนิาคำติ และสามีารถเจำาะกัล�!มีติลาดได�ถ(กัติ�องมีากัข90นิ

ใช้�ในิกัารหาข�อผ�ดพื่ลาดของกัารปฏ�บ�ติ�งานิ หร+อกัารให�บร�กัารได� (Fraud  Detection)

ช้!วยประหย�ดคำ!าใช้�จำ!าย   โดยกัารที่�าให�ข� 0นิติอนิกัารที่�างานิมี�ประส�ที่ธุ�ภาพื่มีากัข90นิ  (Save  Money)

กัารกั�าหนิดเป6าหมีายกัล�!มีล(กัคำ�าได�อย!างมี�ประส�ที่ธุ�ภาพื่มีากัข90นิ  ที่�าให�ยอดขายเพื่�มีข90นิ   เพื่�มีจำ�านิวนิล(กัคำ�า  และ ลดโอกัาสของคำวามีเส�ยงติ!าง ๆ

      

แนวโน�มแลัะการประย3กต.ใช้�งาน Data Mining (Data Mining Trend and Application)

     เนิ+องจำากัในิป:จำจำ�บ�นิมี�กัารนิ�าหล�กักัารและเที่คำนิ�คำของ data

mining มีาใช้�กั�นิอย!างแพื่ร!หลาย ด�งนิ�0นิจำ9งมี�กัารคำ�นิคำว�าว�จำ�ย และพื่�ฒนิาเพื่+อประย�กัติ5ใช้�กั�บงานิในิหลายๆ ด�านิ โดยติ�วอย!างกัารประย�กัติ5ใช้�งานิที่�นิ!าสนิใจำในิป:จำจำ�บ�นิ ได�แกั!

การใช้�งานด้�านการแพทั่ย. (Biomedical and DNA Data Analysis)

     ส!วนิมีากัเป#นิกัารนิ�าไปในิกัารว�เคำราะห5ร(ปแบบกัารจำ�ดเร�ยงติ�วของหนิ!วยพื่�นิธุ�กัรรมีเพื่+อหาสาเหติ�ของคำวามีผ�ดปกัติ�ที่� ที่�าให�เกั�ดโรคำ  คำวามีส�มีพื่�นิธุ5ของร(ปแบบกัารจำ�ดเร�ยงติ�วของหนิ!วยพื่�นิธุ�กัรรมีกั�บ

Page 69: DATAmining (1)

ระด�บคำวามีร�นิแรงของโรคำ รวมีถ9งกัารใช้�ในิ ด�านิ กัารว�นิ�จำฉ�ยโรคำ   กัารป6องกั�นิ และกัารร�กัษาด�วย

การใช้�งานเพ��อการว�เคราะห.ด้�านการเง�น (Financial Analysis)

     เป#นิงานิที่�เกั�ยวกั�บบร�ษ�ที่เง�นิที่�นิ หร+อธุนิาคำารติ!างๆ เช้!นิ กัารว�เคำราะห5กัารให�ส�นิเช้+อ กัารที่�านิายอ�ติรากัารจำ!ายเง�นิกั(� กัารแบ!งกัล�!มีล(กัคำ�าเพื่+อหาเป6าหมีายที่างกัารติลาด เป#นิติ�นิ

การใช้�งานด้�านการขาย (Retail Industry)

      เป#นิงานิที่�มี�กัารเกั3บรวบรวมีข�อมี(ลจำ�านิวนิมีากั จำ9งมี�กัารนิ�า Data Mining มีาประย�กัติ5ใช้�กั�บข�อมี(ลเหล!านิ�0 เพื่+อหากัลย�ที่ธุ5 ที่�ที่�าให�เกั�ดกัารได�เปร�ยบคำ(!แข!งที่างกัารคำ�า เช้!นิ กัารหาล�กัษณ์ะกัารซ่+0อของล(กัคำ�า  คำวามีส�มีพื่�นิธุ5ของกัารซ่+0อกั�บช้!วงเวลา

คำวามีส�มีพื่�นิธุ5ระหว!างติ�วส�นิคำ�า และ กัารว�เคำราะห5ประส�ที่ธุ�ภาพื่ของกัารโฆัษณ์า เป#นิติ�นิ ซ่9งช้!วยให�สามีารถหาว�ธุ�กัารติอบสนิอง คำวามีติ�องกัารของล(กัคำ�าได�มีากัที่�ส�ด และอาจำหมีายถ9งส!วนิแบ!งที่างกัารติลาดที่�เพื่�มีข90นินิ�นิเอง

การใช้�งานด้�านโทั่รคมนาคม (Telecommunication Industry)

     เพื่+อสนิ�บสนิ�นิกัารให�บร�กัารด�านิกัารติ�ดติ!อส+อสารของล(กัคำ�า เช้!นิ กัารว�เคำราะห5ล�กัษณ์ะกัารใช้�บร�กัารด�านิกัารติ�ดติ!อ ส+อสาร  กัารหาคำวามีส�มีพื่�นิธุ5ของกัารใช้�บร�กัารกั�บช้!วงเวลา หร+อกัารติรวจำจำ�บร(ปแบบที่�ผ�ดปกัติ�ในิระบบกัารติ�ดติ!อส+อสาร เป#นิติ�นิ

     จำากัล�กัษณ์ะกัารนิ�าไปใช้�งานิข�างติ�นิในิป:จำจำ�บ�นิเนิ+องจำากัเที่คำนิ�คำ หร+อว�ธุ�กัารที่�นิ�ามีาใช้�นิ� 0นิย�งมี�ข�อจำ�ากั�ดส�าหร�บกัารใช้� กั�บงานิ หร+อข�อมี(ลในิบางประเภที่ ด�งนิ�0นิจำ9งมี�แนิวโนิ�มีในิกัารว�จำ�ยพื่�ฒนิา และ

Page 70: DATAmining (1)

ประย�กัติ5ใช้�อย!างติ!อเนิ+อง เพื่+อหาว�ธุ�กัารที่� เหมีาะสมีที่�ส�ด ซ่9งแนิวโนิ�มีของกัารใช้�งานิที่�ได�ร�บคำวามีสนิใจำในิกัารศ9กัษาติ!อไปในิอนิาคำติ ได�แกั!

การประย3กต.ใช้�งานแนวใหม ๆ (Application Exploration)

     เป#นิกัารนิ�าเที่คำนิ�คำของ Data Mining เข�ามีาใช้�กั�บงานิในิด�านิอ+นิๆ นิอกัเหนิ+อจำากักัารนิ�ยมีใช้�กั�บงานิเพื่+อกัาร แข!งข�นิกั�นิในิเช้�งธุ�รกั�จำด�งเช้!นิในิช้!วงที่�ผ!านิมีา เช้!นิ กัารใช้�งานิในิเช้�งกัารแพื่ที่ย5 กัารว�เคำราะห5ที่างด�านิกัารเง�นิหร+อกัารใช้�งานิ ในิด�านิโที่รคำมีนิาคำมี เป#นิติ�นิ โดยจำะมี�กัารพื่�ฒนิาเพื่+อเป#นิระบบที่�ใช้�งานิเฉพื่าะที่างเพื่�มีมีากัข90นิ

การพ ฒนาว�ธี�การเพ��อใช้�ก บ่ฐานข�อม�ลัขนาด้ใหญ (Scalable  Data  Mining)

     เป#นิกัารพื่�ฒนิาเพื่+อให�ระบบสามีารถใช้�งานิกั�บฐานิข�อมี(ลขนิาดใหญ!ได�อย!างมี�ประส�ที่ธุ�ภาพื่ ซ่9งว�ธุ�กัารหนิ9งที่�ได�ร�บ กัารพื่�ฒนิา คำ+อกัารที่�า mining ในิล�กัษณ์ะที่�มี�เง+อนิไข (Constraint-Based

Mining) โดยเปBดโอกัาสให�ผ(�ใช้�สามีารถ ใส!เง+อนิไขเฉพื่าะบางอย!างให�กั�บระบบ เพื่+อเป#นิแนิวที่างให�ระบบสามีารถคำ�นิหาคำ�าติอบได�ใกัล�เคำ�ยงกั�บว�ติถ�ประสงคำ5ของผ(�ใช้� มีากัข90นิ

การรวมงานของ data mining เข�าเป2นสำ วนหน/�งของระบ่บ่ฐานข�อม�ลั ระบ่บ่คลั งข�อม�ลั รวมถ/งระบ่บ่ฐานข�อม�ลับ่น

web (Integration of Data Mining with Database System ,Data Warehouse System ,and Web Database System)

     เป#นิกัารพื่�ฒนิาให� Data  Mining กัลายเป#นิส!วนิหนิ9งของระบบฐานิข�อมี(ล ระบบคำล�งข�อมี(ล รวมีที่�0งระบบฐานิข�อมี(ล บนิ web ด�วย    เนิ+องจำากัเป#นิระบบหล�กัที่�ใช้�ในิกัารเกั3บข�อมี(ลอย(!แล�ว   ที่�าให�งานิว�เคำราะห5ข�อมี(ลในิระบบนิ�0นิสามีารถที่�างานิ ร!วมี กั�บระบบจำ�ดเกั3บข�อมี(ลได�ง!าย และมี�ประส�ที่ธุ�ภาพื่เพื่�มีมีากัข90นิ

Page 71: DATAmining (1)

การสำร�างมาตรฐานให�ก บ่ภาษาในการทั่�า Data  Mining  (Standardization of Data Mining Language)

     เป#นิกัารพื่�ฒนิาให�เกั�ดภาษาเฉพื่าะส�าหร�บกัระบวนิกัารที่�า Data

Mining  เพื่+อให�เกั�ดคำวามีสะดวกัและง!ายติ!อกัาร ประย�กัติ5ใช้� รวมีที่�0งเป#นิกัารเพื่�มีคำวามีสามีารถในิกัารติ�ดติ!อกั�นิระหว!างระบบด�วย

การสำร�าง Data  Mining เพ��อให�หาความหมายข�อม�ลัได้�ง ายข/�น (Visual Data Mining)

     เนิ+องจำากักัารใช้�งานิในิล�กัษณ์ะนิ�0 เป#นิว�ธุ�กัารส�าคำ�ญที่�มี�ประส�ที่ธุ�ภาพื่ในิกัารคำ�นิหาล�กัษณ์ะแฝ่งบางประกัารจำากัข�อมี(ล

จำ�านิวณ์มีากัๆ ด�งนิ�0นิกัารศ9กัษา และกัารพื่�ฒนิาในิแนิวที่างนิ�0จำะเป#นิกัารหาเที่คำนิ�คำใหมี!ๆ เพื่+อคำวามีสะดวกัติ!อกัารใช้�งานิ และง!ายติ!อกัารเข�าใจำ สามีารถใช้�ในิกัารว�เคำราะห5ข�อมี(ลได�อย!างมี�ประส�ที่ธุ�ภาพื่

การหาว�ธี�การใช้�งานก บ่ข�อม�ลัทั่��ม�ความซื้ บ่ซื้�อน (New Methods for Mining Complex Types of Data)

     เช้!นิข�อมี(ลล�กัษณ์ะเช้�งภ(มี�ศาสติร5 มี�ลติ�มี�เด�ย หร+อข�อมี(ลในิล�กัษณ์ะติ�วอ�กัษร เป#นิติ�นิ ซ่9งมี�กัารใช้�งานิคำ!อนิข�างมีากั ในิป:จำจำ�บ�นิ ด�งนิ�0นิจำ9งมี�กัารคำ�นิหาว�ธุ� ใหมี!ๆ รวมีที่�0งมี�กัารรวมีว�ธุ�กัารที่�มี�อย(!เพื่+อประย�กัติ5ใช้�กั�บกัารว�เคำราะห5ข�อมี(ลประเภที่นิ�0ได� อย!างเหมีาะสมี

การใช้� Mining ก บ่ข�อม�ลับ่น Web (Web Mining)

     เป#นิกัารประย�กัติ5ใช้�งานิกั�บข�อมี(ลบนิอ�นิเติอร5เนิ3ติ เนิ+องจำากัอ�นิเติอร5เนิ3ติเป#นิแหล!งข�อมี(ลขนิาดใหญ! และมี�ผ(�ใช้�งานิ จำ�านิวนิมีากั ด�งนิ�0นิจำ9งมี�กัารนิ�าข�อมี(ลติ!างๆบนิ web ซ่9งได�แกั! web content ,

web log รวมีถ9งกัารให�บร�กัารติ!างๆ บนิอ�นิเติอร5เนิ3ติมีาใช้�ที่�า mining เพื่+อหาแนิวที่างในิกัารติอบสนิองผ(�ใช้�งานิให�ได�มีากัที่�ส�ด

Page 72: DATAmining (1)

การร กษาความปลัอด้ภ ยของข�อม�ลั (Information Security in Data Mining)

     เป#นิกัารพื่�ฒนิาว�ธุ�กัารเพื่+อสร�างคำวามีเช้+อมี�นิในิเร+องคำวามีปลอดภ�ยของข�อมี(ลในิขณ์ะที่�มี�กัารพื่�ฒนิาว�ธุ�กัารเข�าถ9งข�อมี(ล และกัาร Mining ให�สะดวกัติ!อกัารใช้�งานิมีากัข90นิ           

ต วอย างของการประย3กต.ใช้� Data Mining

ใช้� ในการจ ด้การลั�กค�าสำ มพ นธี. (CRM)

     ป:จำจำ�บ�นิมี�กัารนิ�า Data Mining มีาช้!วยในิ Customer life

cycle ที่�0งในิเร+องกัารเพื่�มีฐานิล(กัคำ�า, กัารเพื่�มีคำ�ณ์คำ!าของล(กัคำ�า และกัารร�กัษาล(กัคำ�าช้�0นิด� ในิที่�นิ�0จำะกัล!าวถ9งติ�วอย!าง  กัารเพื่�มีฐานิล(กัคำ�าผ!านิ Data Mining ด�งนิ�0

     ข�0นิติอนิแรกัในิ CRM คำ+อ กัารสร�างโอกัาส และเปล�ยนิโอกัาส นิ�0นิให�เป#นิล(กัคำ�า พื่�จำารณ์าว!า Data mining สามีารถช้!วย จำ�ดกัารคำ!าใช้�จำ!าย  และกัลย�ที่ธุ5ในิกัารสร�างล(กัคำ�าอย!างมี�ประส�ที่ธุ�ภาพื่ได�อย!างไร

      Big Bank and Credit Card Company (BB&CC) มี�กัารจำ�ด Campaign ที่าง direct mail ป2ละ 25 campaign เป#นิประจำ�าที่�กัป2  โดยในิแติ!ละ Campaign จำะเสนิอติ!อคำนิ จำ�านิวนิ 1,000,000 คำนิ ซ่9งอ�ติราส!วนิของคำนิ ซ่9งกัลายมีาเป#นิล(กัคำ�าของ BB&CC มี�ประมีาณ์ 1% ติ!อ 1 Campaign เที่!านิ�0นิ

Page 73: DATAmining (1)

     กัารกัรอกัใบสมี�คำรบ�ติรเคำรด�ติ เป#นิเพื่�ยงข�0นิติอนิแรกัเที่!านิ�0นิ ซ่9งหล�งจำากันิ�0นิ BB&CC จำะติ�องติ�ดส�นิใจำเล+อกัผ(�สมี�คำร ที่�มี�คำวามีเส�ยงที่�ด�เพื่�ยงพื่อเป#นิล(กัคำ�า และพื่บว!าในิจำ�านิวนิล(กัคำ�าที่�ติอบร�บข�อเสนิอกัล�บมีานิ�0นิ มี�จำ�านิวนิของล(กัคำ�าที่�มี�คำวามีเส�ยง ส(งมีากักัว!าล(กัคำ�าที่�มี�คำวามีเส�ยงติ�า  ด�งนิ�0นิในิจำ�านิวนิของล(กัคำ�าในิ mailing list  ที่�กัรอกัใบสมี�คำรกัล�บมีาที่�0งหมีด 6 %  จำ9งมี�เพื่�ยง

16 % เที่!านิ�0นิที่�มี�คำวามีเส�ยงที่�เหมีาะสมีซ่9งกัลายมีาเป#นิล(กัคำ�าของ  BB&CC

      อ�ติรากัารติอบร�บข�อเสนิอ 6% นิ�0นิ  หมีายคำวามีว!าในิจำ�านิวนิคำนิ 1,000,000 คำนิ  มี�ผ(�ติอบร�บข�อเสนิอจำ�านิวนิ 60,000 คำนิ เที่!านิ�0นิ  ถ9งแมี�ว!า BB&CC จำะเปล�ยนิว�ธุ�กัารช้�กัช้วนิล(กัคำ�าใหมี! เช้!นิ ใช้� mailing list ช้�ดใหมี! ใช้�กัารเข�าถ9งล(กัคำ�าโดยว�ธุ�อ+นิ และ เปล�ยนิ แปลงข�อเสนิอใหมี! กั3ไมี!สามีารถเพื่�มีอ�ติรากัารติอบร�บให�มีากักัว!าเด�มีได�   แลในิจำ�านิวนิ 60,000 คำนิ   ที่�ติอบร�บข�อเสนิอ กัล�บมีา  มี�เพื่�ยง 10,000 คำนิเที่!านิ�0นิที่�มี�คำวามีเส�ยงที่�ร �บได�

     คำ!าใช้�จำ!ายในิกัารที่�า direct mail ประมีาณ์ $1.00 ติ!อช้�0นิ ซ่9งคำ!าใช้�จำ!ายรวมีที่�0งหมีด เป#นิจำ�านิวนิ $ 1,000,000 และในิ 2 ป2ติ!อมีา ล(กัคำ�าที่�0งหมีดนิ�0จำะสร�างรายได�ให� BB&CC จำ�านิวนิ $1,250,000

หร+อประมีาณ์ $125 ติ!อคำนิ ด�งนิ�0นิผลกั�าไรที่�ได� ร�บจำากักัารคำ�า  direct mail นิ�0เป#นิจำ�านิวนิ $250,000

     หล�งจำากันิ�0นิ BB&CC จำ9งนิ�า data mining มีาช้!วยในิกัาร focus ติลาดอย!างมี�ประส�ที่ธุ�ภาพื่  โดยในิข�0นิแรกั BB&CC ที่�ากัารที่ดสอบ direct mail กั�บคำนิจำ�านิวนิ 50,000 คำนิ  และที่�ากัารว�เคำราะห5ผลอย!างละเอ�ยด เพื่+อที่�จำะสร�าง predictive model ของคำนิที่�จำะติอบร�บกัล�บมีา (โดยใช้� decision tree) และ credit

scoring model (โดยใช้� neural net) หล�งจำากันิ�0นิจำ9งนิ�า 2

Page 74: DATAmining (1)

Model นิ�0นิมีารวมีกั�นิ เพื่+อที่�จำะหาคำนิที่�มี�ที่�0งคำวามีเส�ยงที่�ด� และมี�คำวามีเป#นิไปได�ที่�จำะติอบร�บข�อเสนิอ

     Model นิ�0จำะถ(กัประย�กัติ5ใช้�กั�บคำนิจำ�านิวนิ 950,000 คำนิที่�เหล+อในิ mailing list ซ่9งจำะมี�คำนิที่�ถ(กัเล+อกัออกัมีา เพื่+อที่�จำะ ที่�ากัารส!ง mail จำ�านิวนิ 700,000 คำนิ  และผลจำากักัารส!ง mail ที่�0งหมีด 750,000 คำนิ  จำะได� 9,000 คำนิที่�มี�คำ�ณ์สมีบ�ติ�ติามีที่�กั�าหนิด ซ่9งพื่บว!าอ�ติรากัารติอบร�บเพื่�มีข90นิจำากั 1% เป#นิ 1.2%  ถ9งแมี�ว!าเมี+อใช้� model ที่�สร�างข90นินิ�0จำะได�ล(กัคำ�าเพื่�ยง 9,000 คำนิ  จำากัเด�มี 10,000

คำนิ  แติ!กั3พื่บว!าหาล(กัคำ�าเพื่�มีข90นิอ�กั 1,000 คำนิ  ไมี!ได�กั!อให�เกั�ดผลกั�าไรเพื่�มีข90นิ เนิ+องจำากัติ�องเส�ยคำ!าใช้�จำ!ายในิกัารส!ง mail ไปย�งคำนิ 250,000 คำนิที่�เหล+อเป#นิจำ�านิวนิ $250,000 ในิขณ์ะที่�ได�ร�บผลกั�าไรเพื่�ยง $125,000 ที่�าให�ผลกั�าไรที่�0งหมีดลดลงอ�กั $125,000    

        Old New DifferenceNumber of pieces mailed

1,000,000

750,000 (250,000)

Cost of  mailing

$1,000,000

$750,000($250,000)

Number of responses

10,000 9,000 (1,000)

Gross profit per response

$125 $125 $0

Gross profit $1,250,000

$1,125,000

($125,000)

Net profit $250,000$375,000$125,000Cost of model 0 40,000 $40,000Final profit $250,000$335,000$85,000

Page 75: DATAmining (1)

ตาราง ข�อม�ลัเปร�ยบ่เทั่�ยบ่ค าใช้�จ ายก อนแลัะหลั งใช้� Data Mining 

     จำากัติารางจำะเห3นิว!าเมี+อใช้� data mining เข�ามีาช้!วยจำะที่�าให�กั�าไรเพื่�มีที่�0งหมีด $125,000 ถ9งแมี�ว!าจำะติ�องเส�ยคำ!าใช้�จำ!าย ในิกัารสร�าง model จำ�านิวนิ $40,000  กั3ย�งพื่บว!าผลกั�าไรส�ดที่�ายเพื่�มีข90นิ $85,000 ซ่9งนิ�บเป#นิ 200% ของคำ!าใช้�จำ!ายในิกัารลงที่�นิ สร�าง model

สร�ป

     กัารนิ�า Data Mining มีาประย�กัติ5ใช้�ในิขบวนิกัารจำ�ดกัารล(กัคำ�าส�มีพื่�นิธุ5   โดยนิ�ามีาสร�าง predictive model  ที่�าให�องคำ5กัร เข�าใจำ คำวามีติ�องกัารของล(กัคำ�ามีากัข90นิ ส!งผลให�กัารที่�าระบบกัารจำ�ดกัารล(กัคำ�าส�มีพื่�นิธุ5  มี�ประส�ที่ธุ�ภาพื่ย�งข90นิ จำะมี�ผลติ!อองคำ5กัร เป#นิอย!างย�ง ในิแง!ของกัารเพื่�มีคำ�ณ์คำ!าของล(กัคำ�า กัารร�กัษาล(กัคำ�าช้�0นิด�  กัารเพื่�มีฐานิล(กัคำ�า กัารเพื่�มีผลกั�าไรให�องคำ5กัร   

ใช้�ในิกัารพื่ยากัรณ์5ราคำาหล�กัที่ร�พื่ย5

      ส�าหร�บกัารศ9กัษากัารที่�างานิของโปรแกัรมีที่�มี�อย(!ในิป:จำจำ�บ�นิที่�ใช้� Data  Mining  เพื่+อกัารประย�กัติ5ใช้�งานิในิด�านิกัาร พื่ยากัรณ์5ข�อมี(ลของราคำาหล�กัที่ร�พื่ย5นิ�0 จำะใช้�กัารพื่ยากัรณ์5ราคำาหล�กัที่ร�พื่ย5ของบร�ษ�ที่อ�นิเที่ล  ในิช้!วงเวลาป2 2535 – 2540 ซ่9งจำะใช้�โปรแกัรมี  Attrasoft  Predictor  2.4  ซ่9งเป#นิโปรแกัรมีที่�สร�างข90นิเพื่+อใช้�งานิด�านิกัารพื่ยากัรณ์5ข�อมี(ล โดยใช้�เที่คำนิ�ดของ Neural 

Network   ในิกัารสร�างแบบจำ�าลอง   ซ่9งข�0นิติอนิกัารที่�างานิหล�กั ๆ ของโปรแกัรมี มี�ด�งติ!อไปนิ�0

1. กัารประมีวลผลข�อมี(ลเบ+0องติ�นิ

ในิโปรแกัรมี Predictor 2.4  นิ�0นิไมี!มี�กัารรวมีคำวามีสามีารถของกัารประมีวลผลข�อมี(ลเบ+�องติ�นิไว�ให� ด�งนิ�0นิผ(�ใช้�ติ�อง

Page 76: DATAmining (1)

ด�าเนิ�นิกัารประมีวลผลเอง ซ่9งในิกัารศ9กัษานิ�0จำะใช้�ว�ธุ�ของกัารหาคำ!า Moving  Average   ซ่9งเป#นิกัารคำ�านิวณ์หาคำ!าเฉล�ยในิช้!วง

เวลาหนิ9งกั!อนิแล�วจำ9งนิ�ามีาใช้�เป#นิ   input  ให�กั�บแบบจำ�าลอง   เพื่+อช้!วยเพื่�มีประส�ที่ธุ�ภาพื่ให�กั�บกัารพื่ยากัรณ์5ข�อมี(ลมีากัข90นิ  โดย

ส!วนิใหญ!จำะใช้�ช้!วงในิกัารหาคำ!าเฉล�ยที่�ประมีาณ์ 2-5  ช้!วงข�อมี(ล

      ในิกัารใช้�เที่คำนิ�คำของ  Moving  Average  นิ�0 เป#นิกัารช้!วยลดคำวามีแปรปรวนิให�กั�บข�อมี(ลที่�มี�ล�กัษณ์ะผ�ดปกัติ�  ที่�าให�โคำรงข!ายสามีารถเร�ยนิร( �ร(ปแบบของข�อมี(ลจำากัคำ!าที่�แนิ!นิอนิมีากักัย�งข90นิ  ซ่!9งมี�ส(ติรที่�ใช้�ในิกัารคำ�านิวณ์ ด�งติ!อไปนิ�0

      ma  (I , m)    =    (1 / m)    t ( j )

           โดยที่�    j  =   I  -  m + 1      ถ9ง   I

2. กัารร�บคำ!า  Input  ของระบบ

ในิกัารร�บคำ!า Input  ของโปรแกัรมีจำะเป#นิกัารที่�ผ(�ใช้�จำะติ�องสร�างข�อมี(ล    และติ�วแปรติ!าง ๆ ที่�กั�าหนิด

กัารที่�างานิของโปรแกัรมีในิร(ปแบบของ  Text  File  ติามีล�กัษณ์ะที่�โปรแกัรมีกั�าหนิดไว� 

3. กัารกั�าหนิดติ�วแปรที่�ติ�องกัารพื่ยากัรณ์5

เป#นิกัารเล+อกัติ�วแปรของข�อมี(ลที่�จำะนิ�ามีาใช้!0ในิกัารพื่ยากัรณ์5 รวมีถ9งช้!วงเวลาในิอนิาคำติที่�ติ�องกัารพื่ยากัรณ์5คำ!าของติ�ว

แปรนิ�0นิ ๆ ด�วย  ในิส!วนินิ�0จำะใช้�ราคำาหล�กัที่ร�พื่ย5รายเด+อนิของบร�ษ�ที่อ�นิเที่ล ในิช้!วงเด+อนิมี�ถ�นิายนิ 2535  ถ9งเด+อนิ  พื่ฤษภาคำมี 2540 

เพื่+อใช้�ในิกัารที่�านิายราคำาหล�กัที่ร�พื่ย5ในิเด+อนิมี�ถ�นิายนิ 2540 

4. กัารสอนิให�โคำรงข!ายจำากัข�อมี(ลเกั!า และกัารที่ดสอบ

Page 77: DATAmining (1)

ส�าหร�บ Predictor  2.4  จำะใช้�หล�กักัารของ Neural 

Network  ในิกัารสร�าง และที่ดสอบแบบจำ�าลอง   โดยที่�จำะมี�กัาร

กั�าหนิดจำ�านิวนิของข�อมี(ลที่�ใช้�สอนิให�โคำรงข!ายจำากัคำ!าที่�ผ(�ใช้�กั�าหนิดไว�ในิ Text  File  ที่�เป#นิ Input

5. กัารแสดงคำ!าของผลล�พื่ธุ5ที่�ได�จำากักัารพื่ยากัรณ์5

ผลล�พื่ธุ5ที่�ได�จำากัารพื่ยากัรณ์5ด�วยแบบจำ�าลองของโปรแกัรมีจำะสร�างเป#นิ  Output  File   ในิล�กัษณ์ะของ Text  File 

จำากักัารว�เคำราะห5ผลล�พื่ธุ5ที่�ได�พื่บว!า   ราคำาของหล�กัที่ร�พื่ย5ที่�เด+อนิมี�ถ�นิายนิ 2540  มี�คำ!าคำวามีนิ!าจำะเป#นิมีากัที่�ส�ด ที่�จำะมี�คำ!า  Moving 

Average (5-MA)  อย(!ในิช้!วง  [ 148.149 , 149.153 ]   ซ่9งเมี+อคำ�านิวณ์จำากัคำ!าข�อมี(ลจำร�ง จำะได�คำ!า 5-MA  ของข�อมี(ลเที่!ากั�บ   148.052   ซ่9งกั3จำะพื่บว!าผลที่�ได�จำากัโปรแกัรมีมี�คำ!าใกัล�เคำ�ยงกั�บข�อมี(ลที่�จำะเกั�ดข90นิจำร�ง 

ติ�วอย!างอ+นิ ๆ

      Hang  Seng  Bank : เป#นิธุนิาคำารที่�ใหญ!เป#นิอ�นิด�บ 2 ในิฮ่!องกัง  ได�เล+อกั  SAS  Data  Mining  Technology  เพื่+อจำ�ดหาบร�กัารที่�เหมีาะสมีส�าหร�บล(กัคำ�า โดย SAS  Enterprise 

Miner  ซ่9งเป#นิหนิ9งในิ   Data  Mining  Solution  ของ SAS

ได�ช้!วยให�ธุนิาคำารได�เห3นิถ9งคำวามีติ�องกัาร และพื่ฤติ�กัรรมีของล(กัคำ�า  ช้!วยให�ธุนิาคำารสามีารถนิ�าเสนิอบร�กัารที่�แสดงถ9งคำวามีเป#นิ ติ�วตินิของล(กัคำ�า  และกั�าหนิดกัลย�ที่ธุ5   รวมีถ9งกัารที่�า Cross – Selling 

ที่�มี�ประส�ที่ธุ�ผล   โดยธุนิาคำารได�นิ�า  SAS  เข�ามีาช้!วยว�เคำราะห5ประส�ที่ธุ�ภาพื่ของผล�ติภ�ณ์ฑ์5 , ประเมี�นิผลโคำรงกัารที่างกัารติลาด  เพื่+อที่�สามีารถจำ�ดงบประมีาณ์ให�กั�บแติ!ละ โคำรงกัารได�เหมีาะสมี   ,  กัารคำาดกัารณ์5ที่างธุ�รกั�จำ  

Page 78: DATAmining (1)

      Standard  Chartered  Bank  :  ธุนิาคำาร   Standard 

Chartered  ติ�องกัารขยายติลาดมีาในิเอเช้�ย ซ่9งประช้ากัรมี�คำวามี หลากัหลาย   โดยที่�สร�างกัล�!มีล(กัคำ�าใหมี!   และย�งคำงร�กัษาล(กัคำ�าเด�มีไว�   ด�งนิ�0นิกัารวางแผนิกัลย�ที่ธุ5จำะติ�องให�คำรอบคำล�มีล�กัษณ์ะที่� แติกัติ!างกั�นิมีากัของล(กัคำ�าให�ได�มีากัที่�ส�ด   ซ่9งนิอกัจำากัจำะติ�องเข�าใจำถ9งล�กัษณ์ะข�อมี(ลล(กัคำ�าแล�ว   ย�งจำะติ�องมี�เคำร+องมี+อที่�ช้!วยในิ กัารเกั3บข�อมี(ล และกัารว�เคำราะห5ที่�มี�ประส�ที่ธุ�ภาพื่ โดยที่างธุนิาคำารได�ใช้�  SAS 

Datawarehousing   และ Analysis  Software  เพื่+อช้!วยในิกัารวางแผนิกัลย�ที่ธุ5  

ข�อด�ของ SAS  Datawarehousing   คำ+อมี�คำวามีย+ดหย�!นิสามีารถรองร�บข�อมี(ลที่�มี�คำวามีแติกัติ!างของล(กัคำ�าได�

      Mellon  Bank   :   Mellon  Bank  ใช้� Software 

Intelligent   Miner  for  Data  บนิ  AIX   ในิกัารติลาดเพื่+อสร�างรายได� กัารจำ�ดกัารคำวามีส�มีพื่�นิธุ5ของล(กัคำ�า    และกัารจำ�ดกัารคำวามีเส�ยง   เช้!นิกัารป6องกั�นิกัารฉ�อโกัง และกัารประมีาณ์หนิ�0เส�ย  เป#นิติ�นิ                  

Page 79: DATAmining (1)

             

สำร3ป

      กัารที่�า data mining เป#นิข�0นิติอนิหล�กัที่�ส�าคำ�ญอย!างหนิ9งในิกัระบวนิกัารหาคำวามีหมีายที่�แฝ่งอย(!ในิกัล�!มีข�อมี(ล จำ�านิวนิมีากัที่�เกั3บไว�ในิฐานิข�อมี(ล โดยที่�าหนิ�าที่�ในิกัารหาร(ปแบบ หร+อคำวามีส�มีพื่�นิธุ5ของข�อมี(ลเหล!านิ�0นิ และเนิ+องจำากัในิ ป:จำจำ�บ�นิ บร�ษ�ที่ หร+อองคำ5กัรติ!างๆ เร�มีให�คำวามีสนิใจำกั�บข�อมี(ลที่�ถ(กัจำ�ดเกั3บไว�เพื่�มีมีากัข90นิ โดยมี�ว�ติถ�ประสงคำ5เพื่+อนิ�าล�กัษณ์ะ เฉพื่าะที่�แฝ่งอย(!ภายในิกัล�!มีข�อมี(ล มีาใช้�สนิ�บสนิ�นิกัารติ�ดส�นิใจำอย!างมี�ประส�ที่ธุ�ภาพื่ติ!อกัารด�าเนิ�นิงานิ ที่�เป#นิประโยช้นิ5ติ!อ

องคำ5กัร ด�งนิ�0นิจำ9งมี�กัารพื่�ฒนิา และประย�กัติ5ใช้�เที่คำโนิโลย� รวมีถ9งระบบในิกัารที่�า data mining อย!างแพื่ร!หลายเพื่�มีข90นิที่�0ง ในิเช้�งงานิว�จำ�ย และเช้�งกัารคำ�า ซ่9งในิบที่คำวามีส�มีมีนิานิ�0ได�นิ�าเสนิอหล�กักัาร และข�0นิติอนิที่�วไปในิกัระบวนิกัาร คำ�นิหาคำวามีหมีายที่�แฝ่งอย(!ภายในิกัล�!มีข�อมี(ล และ Data  Mining รวมีที่�0งประเภที่ของงานิและติ�วอย!างว�ธุ�กัารที่� นิ�ามีาใช้�ในิข�0นิติอนิกัารที่�า data mining ด�วย และนิอกัจำากันิ�0เนิ+องจำากัในิป:จำจำ�บ�นิมี�กัารพื่�ฒนิาระบบส�าเร3จำร(ป ในิเช้�งกัารคำ�าออกัส(!ติลาดคำ!อนิข�างมีากั ซ่9งแติ!ละระบบกั3จำะมี� ล�กัษณ์ะที่�หลากัหลายแติกัติ!างกั�นิออกัไป ด�งนิ�0นิในิกัารเล+อกั ใช้�จำ9งติ�องพื่�จำารณ์าล�กัษณ์ะที่�ส�าคำ�ญของระบบ เพื่+อให�สามีารถติอบ  สนิองติ!อว�ติถ�ประสงคำ5 ที่�ผ(�ใช้�

Page 80: DATAmining (1)

ติ�องกัารได�อย!างเหมีาะสมีที่�ส�ด และถ9งแมี�ว!าว�ธุ�กัารที่�ใช้�ในิกัารที่�า data mining ที่�มี�อย(!ในิ ป:จำจำ�บ�นิย�งสามีารถใช้�แกั�ป:ญหาได�ในิระด�บหนิ9ง แติ!ย�งมี�ข�ดจำ�ากั�ดในิด�านิคำวามีสามีารถของระบบ และคำวามีแนิ!นิอนิของผลที่�ได� ด�งนิ�0นิกัารนิ�าหล�กักัารที่�ได�จำากังานิว�จำ�ยมีาที่ดลอง ประย�กัติ5ใช้�กั�บข�อมี(ลที่�เกั�ดข90นิจำร�งจำะมี�ส!วนิช้!วยให�กัารนิ�า data

mining มีาใช้�ในิองคำ5กัรมี�คำวามีนิ!าเช้+อถ+อมีากัข90นิ และอาจำกัลายเป#นิเคำร+องมี+อที่�ส�าคำ�ญติ!อกัารสนิ�บสนิ�นิกัารติ�ดส�นิใจำด�าเนิ�นิงานิ ในิองคำ5กัร ติ!อไปในิอนิาคำติ                             

Page 81: DATAmining (1)

       

บ่รรณ์าน3กรม 

Dr.Dobb’s Journal. 1996. Algorithm Alley. [Online]. Available : http://www.ddj.com/ftp/1996

Berry,  M. J.A. and Linoff, G., Data Mining Techniques: for marketing, sales, and customer support, Wiley Computer Publishing, 1997.

Cabema,P., et.al., Discovering Data Mining: from concept to implementation, Prentice Hall Publishing, 1998.

Groth, R., Data Mining a hands on approach for business professionals, Prentice Hall Publishing, 1997.

Peter Cabena, et.al. 1998. Discovering Data Mining: From Concept to Implementation. New Jersey. Prentice Hall PTR.

“Mineset”  เข�าถ9งได�จำากั : http://www.sgi.com/