Content-based Probabilistic Text Classifier for Pornorgraphic Web ...

19
Content Content - - based based Probabilistic Probabilistic Text Text Classifier Classifier for for P P ornorgraphic ornorgraphic Web Web Filtering Filtering โดย โดย จันทิ จันทิ มา พลพินิจ มา พลพินิจ ชุมศักดิสีบุญเรือง ชุมศักดิสีบุญเรือง รพีพร ช่ําชอง รพีพร ช่ําชอง อนิรุทธ อนิรุทธ โชติถนอม โชติถนอม สมนึก พวงพรพิทักษ สมนึก พวงพรพิทักษ Informatics Research Laboratory, Faculty of Informatics, Mahasarakham University คณะวิทยาการสารสนเทศ มหาวิทยาลัยมหาสารคาม การประชุมวิชาการสวทช. 2548 วิทยาศาสตรและเทคโนโลยีไทยสูเศรษฐกิจโมเลกุล วันที28-30 มีนาคม 2548 งานวิจัยนี้เปนสวนหนึ่งในโครงงานวิจัยเรื่อง Automated Obscenity Web Sites Filtering Systems

Transcript of Content-based Probabilistic Text Classifier for Pornorgraphic Web ...

Page 1: Content-based Probabilistic Text Classifier for Pornorgraphic Web ...

ContentContent--basedbased ProbabilisticProbabilistic TextText ClassifierClassifierforfor PPornorgraphicornorgraphic WebWeb FilteringFiltering

โดยโดย

จันทิจันทิมา พลพินิจมา พลพินิจชุมศักดิ์ สีบุญเรืองชุมศักดิ์ สีบุญเรือง

รพีพร ช่ําชองรพีพร ช่ําชองอนิรุทธอนิรุทธ โชติถนอม โชติถนอม

สมนึก พวงพรพิทักษสมนึก พวงพรพิทักษ

Informatics Research Laboratory, Faculty of Informatics, Mahasarakham University

คณะวิทยาการสารสนเทศมหาวิทยาลัยมหาสารคาม

การประชุมวิชาการสวทช. 2548 วิทยาศาสตรและเทคโนโลยีไทยสูเศรษฐกิจโมเลกุล วันที่ 28-30 มีนาคม 2548

งานวิจัยนี้เปนสวนหนึ่งในโครงงานวิจัยเรื่อง

Automated Obscenity Web Sites Filtering Systems

Page 2: Content-based Probabilistic Text Classifier for Pornorgraphic Web ...

Automated Obscenity Web Sites Filtering System

Informatics Research Laboratory, Faculty of Informatics, Mahasarakham University

การประชุมวิชาการสวทช. 2548 วิทยาศาสตรและเทคโนโลยีไทยสูเศรษฐกิจโมเลกุล วันที่ 28-30 มีนาคม 2548

School

Computer Room

Internetwww.science.com

www.book.com

www.pornography.com

www.xxx.com

Automatic Web Filtering

Page 3: Content-based Probabilistic Text Classifier for Pornorgraphic Web ...

Automated Obscenity Web Sites Filtering System

Informatics Research Laboratory, Faculty of Informatics, Mahasarakham University

การประชุมวิชาการสวทช. 2548 วิทยาศาสตรและเทคโนโลยีไทยสูเศรษฐกิจโมเลกุล วันที่ 28-30 มีนาคม 2548

Text Checking

Image Checking

Non-pornography

Pornography

Not Sure

Text Image

Text Processing

Image Processing

Web Page

Web Analysis

Page 4: Content-based Probabilistic Text Classifier for Pornorgraphic Web ...

หัวขอที่นําเสนอหัวขอที่นําเสนอ

ที่มาของปญหา ที่มาของปญหา ((BackgroundBackground))

พื้นฐานของระบบการกรองเว็บ พื้นฐานของระบบการกรองเว็บ ((WebWeb FilteringFiltering))

งานวิจัยที่เกี่ยวของ งานวิจัยที่เกี่ยวของ ((Related WorkRelated Work))

กระบวนการทํางานวิจัย กระบวนการทํางานวิจัย ((ResearchResearch MethodologyMethodology))

ชุดขอมูลทดสอบและผลการวิจัยชุดขอมูลทดสอบและผลการวิจัย

สรุปการวิจัย สรุปการวิจัย ((ConclusionConclusion))

Informatics Research Laboratory, Faculty of Informatics, Mahasarakham University

การประชุมวิชาการสวทช. 2548 วิทยาศาสตรและเทคโนโลยีไทยสูเศรษฐกิจโมเลกุล วันที่ 28-30 มีนาคม 2548

Page 5: Content-based Probabilistic Text Classifier for Pornorgraphic Web ...

ที่มาของปญหา ที่มาของปญหา ((BackgroundBackground))

เนื่องจากจํานวนเว็บอนาจารไดเพิ่มขึ้นอยางมาก ดังนั้นการคนหาเครื่เนื่องจากจํานวนเว็บอนาจารไดเพิ่มขึ้นอยางมาก ดังนั้นการคนหาเครื่ององมือสําหรับปองกันผูคนจากเว็บที่ไมเหมาะสมดังกลาวจึงไดรับความสนมือสําหรับปองกันผูคนจากเว็บที่ไมเหมาะสมดังกลาวจึงไดรับความสนใจใจมากขึ้น มากขึ้น

โดยทั่วไปแลวเทคนิคการกรองเว็บ โดยทั่วไปแลวเทคนิคการกรองเว็บ ((Web FilteringWeb Filtering) ) เปนเครื่องมือที่เปนเครื่องมือที่สําคัญที่สามารถควบคุมสารสนเทศบนเว็บได สําคัญที่สามารถควบคุมสารสนเทศบนเว็บได

การประยุกตใชงานของเทคนิคการกรองเว็บสามารถแบงไดเปน การประยุกตใชงานของเทคนิคการกรองเว็บสามารถแบงไดเปน 2 2 วิธีคือ วิธีคือ เทคนิคการกรองเว็บโดยอาศัยเมตะเทคนิคการกรองเว็บโดยอาศัยเมตะดาตาดาตา ((MetadataMetadata) ) และ เทคนิคการและ เทคนิคการกรองเว็บโดยอาศัยเนื้อหาของเว็บ กรองเว็บโดยอาศัยเนื้อหาของเว็บ ((ContentContent))

งานวิจัยนี้ไดนําเสนอการกรองเว็บบนพื้นฐานของ งานวิจัยนี้ไดนําเสนอการกรองเว็บบนพื้นฐานของ Content Content โดยอาศัยโดยอาศัยขอความที่ปรากฏบนหนาเว็บเปนปจจัยสําคัญในการสรางโมเดลเพื่อการขอความที่ปรากฏบนหนาเว็บเปนปจจัยสําคัญในการสรางโมเดลเพื่อการกรองเว็บอนาจาร แบบอัตโนมัติกรองเว็บอนาจาร แบบอัตโนมัติ

Informatics Research Laboratory, Faculty of Informatics, Mahasarakham University

การประชุมวิชาการสวทช. 2548 วิทยาศาสตรและเทคโนโลยีไทยสูเศรษฐกิจโมเลกุล วันที่ 28-30 มีนาคม 2548

Page 6: Content-based Probabilistic Text Classifier for Pornorgraphic Web ...

พื้นฐานของระบบการกรองเว็บ พื้นฐานของระบบการกรองเว็บ ((WebWeb FilteringFiltering))

โดยทั่วไประบบการกรองเว็บจะแบงออกเปน โดยทั่วไประบบการกรองเว็บจะแบงออกเปน 2 2 ลักษณะคือลักษณะคือ

11. . Metadata basedMetadata based เปนระบบการกรองเว็บโดยอาศัยขอมูลหรือสาร เปนระบบการกรองเว็บโดยอาศัยขอมูลหรือสารสนเทศจากภายนอกหนาเว็บ เชนสนเทศจากภายนอกหนาเว็บ เชน

-- การใชขอมูลของผูสรางเว็บ การใชขอมูลของผูสรางเว็บ ((AuthorAuthor) ) -- ลิงค ลิงค ((LinkLink) ) -- URLURL ระหวางเอกสารหรือหนาเว็บ ระหวางเอกสารหรือหนาเว็บ -- IP AddressIP Address

22. . Content BasedContent Based เปนระบบการกรองเว็บที่จะใชสารสนเทศบนหนา เปนระบบการกรองเว็บที่จะใชสารสนเทศบนหนาเว็บ เชน ขอความ รูปภาพ เปนสวนสําคัญในการสรางโมเดลหรือตัวเว็บ เชน ขอความ รูปภาพ เปนสวนสําคัญในการสรางโมเดลหรือตัวกรอง กรอง ((FilterFilter) ) ตัวอยางระบบที่ใชการกรองแบบเนื้อหา เชนตัวอยางระบบที่ใชการกรองแบบเนื้อหา เชน

-- KeywordKeyword

Informatics Research Laboratory, Faculty of Informatics, Mahasarakham University

การประชุมวิชาการสวทช. 2548 วิทยาศาสตรและเทคโนโลยีไทยสูเศรษฐกิจโมเลกุล วันที่ 28-30 มีนาคม 2548

Page 7: Content-based Probabilistic Text Classifier for Pornorgraphic Web ...

งานวิจัยที่เกี่ยวของงานวิจัยที่เกี่ยวของ

โครงการ โครงการ NetProjectNetProject ((20012001) ) ไดประเมินประสิทธิภาพของระบบกรองไดประเมินประสิทธิภาพของระบบกรองเว็บไซตในเชิงพาณิชยที่มีใชอยูในปจจุบัน โดยใช เว็บไซตในเชิงพาณิชยที่มีใชอยูในปจจุบัน โดยใช 22,,794 794 URLsURLs ที่มี ที่มี PornoPornorrgraphicgraphic contentcontent และ และ 11,,655 655 URLsURLs ที่เปน ที่เปน NormalNormal contentcontent

ตารางที่ ตารางที่ 11 แสดงตัวอยางความถูกตองแมนยําบางตัวอยางของระบบกรองแสดงตัวอยางความถูกตองแมนยําบางตัวอยางของระบบกรองเว็บไซตในเชิงพาณิชยที่มีใชอยูในปจจุบันภายใตโครงการ เว็บไซตในเชิงพาณิชยที่มีใชอยูในปจจุบันภายใตโครงการ NetProjectNetProject

PP. . YY. . LeeLee, S, S. . CC. . HuiHui, A, A. . CheukCheuk andand MM. . FongFong.. ““NeuralNeural NetworksNetworksforfor WebWeb ContentContent FilteringFiltering””. . IEEEIEEE IntelligentIntelligent SystemsSystems.. 20022002..

RR. . DuDu, R, R. . SafaviSafavi--NainiNaini and Wand W. . SusiloSusilo. . ““Web Filtering Using Text Web Filtering Using Text ClassificationClassification””.. The The 1111th IEEE Intth IEEE Int. . ConfConf. . on Network on Network ((ICON ICON 20032003)), pp, pp. . 325 325 -- 330330, , 20032003..

Informatics Research Laboratory, Faculty of Informatics, Mahasarakham University

การประชุมวิชาการสวทช. 2548 วิทยาศาสตรและเทคโนโลยีไทยสูเศรษฐกิจโมเลกุล วันที่ 28-30 มีนาคม 2548

Page 8: Content-based Probabilistic Text Classifier for Pornorgraphic Web ...

ตารางที่ ตารางที่ 1 1 การประเมินประสิทธิภาพของระบบกลั่นกรองเว็บไซตในเชิง การประเมินประสิทธิภาพของระบบกลั่นกรองเว็บไซตในเชิง พาณิชยที่มีใชอยูในปจจุบันโดยโครงการ พาณิชยที่มีใชอยูในปจจุบันโดยโครงการ NetProjectNetProject

Informatics Research Laboratory, Faculty of Informatics, Mahasarakham University

การประชุมวิชาการสวทช. 2548 วิทยาศาสตรและเทคโนโลยีไทยสูเศรษฐกิจโมเลกุล วันที่ 28-30 มีนาคม 2548

44 %%6565 %%XX--Stop Stop

1111 %%6565 %%SurfMonkeySurfMonkey

2525 %%7979 %%OptenetOptenet

66 %%4545 %%Norton Internet Security Norton Internet Security

55 %%2020 %%Net Nanny Net Nanny

00 %%3030 %%Internet Watcher Internet Watcher 20002000

2323 %%6565 %%Cyber Snoop Cyber Snoop

33 %%4646 %%CTBER sitter CTBER sitter

22 %%5252 %%Cyber Patrol Cyber Patrol

1010 %%5555 %%BizGuardBizGuard

OverblockingOverblocking RateRateBlocking EffectivenessBlocking EffectivenessFiltering ToolsFiltering Tools

Page 9: Content-based Probabilistic Text Classifier for Pornorgraphic Web ...

กระบวนการวิจัยกระบวนการวิจัย

Term word weighting

Text Document Representation by Vector Space Model

Word Segmentation

Evaluation

Text Classification

Web FilteringModel

Data Collection

Test SetRelevant Feedback

Training Set

1

2

3

55555

SVM

NB

3 fold cross-validation

Page 10: Content-based Probabilistic Text Classifier for Pornorgraphic Web ...

การตัดคํา คือ การแบงตัวอักขระจากขอความ (String) เพื่อหาขอบเขตของแตละหนวยคํา(Morpheme)

การตัดคําขอความภาษาอังกฤษจะงายกวาการตัดตําขอความภาษาไทย โดยจะใชชองวางคั่นในการแยกคํา แตสําหรับภาษาไทย สวนใหญแลวจะมีการเขียนในลักษณะที่ติดกันโดยไมมีการใชเครื่องหมายวรรคตอนใดมาคั่น

การตัดคําขอความภาษาไทยในงานวิจัยฉบับนี้ไดใชการตัดคําแบบพจนานุกรมโดยวิธีการเทียบคําที่ยาวที่สุด (Longest matching) ตัวอยาง

กอนการนําไปหาน้ําหนักคําจะตัด Stop words กอน

การตัดคํา การตัดคํา ((Word SegmentationWord Segmentation))

Page 11: Content-based Probabilistic Text Classifier for Pornorgraphic Web ...

นักวิทยาศาสตรสหรัฐฯบอกเตือนมนุษยโลกอยางนาเสียวสันหลังวา โลกกําลังกาวไปสูอวสานแลว ดีแตวา กวาชีวิตจะมลายสูญสิ้นหมด มันจะยังอยูอีกนานถึง 500 ลานป

นัก / วิทยาศาสตร / สหรัฐ / ฯ / บอก / เตือน / มนุษย / โลก / อยาง / นา / เสียว / สันหลัง / วา / โลก / กําลัง / กาว / ไป / สู / อวสาน / แลว / ดี / แตวา / กวา / ชีวิต / จะ / มลาย / สูญ / สิ้น / หมด / มัน / จะ / ยัง / อยู / อีก / นาน / ถึง / 500 / ลาน / ป

Word Segmentation for Thai Text

ตัวอยางการตัดคําในภาษาไทยแบบอิงพจนานุกรมตัวอยางการตัดคําในภาษาไทยแบบอิงพจนานุกรมดวยการเทียบคําที่ยาวที่สุดดวยการเทียบคําที่ยาวที่สุด

Page 12: Content-based Probabilistic Text Classifier for Pornorgraphic Web ...

นําคําที่ตัดทุกคํามาหาความถี่ (Term Frequency :TF )

สมการหาความถี่และน้ําหนักคํา

TF –IDF =TF х IDFTF –IDF =TF х IDF

โดย |D | คือ จํานวนเอกสารทั้งหมด DF คือ จํานวนเอกสารที่มีคํานั้น ๆ ปรากฏอยู IDF คือ สวนกลับของเอกสาร ซึ่งหาไดจาก

IDF = 1 + log (|D | + DF )

การหาความถี่และน้ําหนักของคํา การหาความถี่และน้ําหนักของคํา ((Term Frequency and WeightTerm Frequency and Weight))

Page 13: Content-based Probabilistic Text Classifier for Pornorgraphic Web ...

ตัวอยางการหาความถี่และน้ําหนักของคําตัวอยางการหาความถี่และน้ําหนักของคําTerm Frequency and WeightTerm Frequency and Weight

4.2284.2282.1142.1142222มนุษย4.2284.2282.1142.1142222เตือน4.2284.2282.1142.1142222บอก4.2284.2282.1142.1142222สหรัฐ4.2284.2282.1142.1142222วิทยาศาสตร5.8635.8631.9541.9543333นัก

TFTF--IDFIDFIDFIDFDFDFTFTFWordWord

เปนความถี่ของคําวา “นัก” ที่ปรากฏในทุกเอกสาร

จํานวนเอกสารที่มีคําวา “นัก”ปรากฏ

IDF = 1 + log (|D|/DF)= 1 + log (27/3)= 1.954

TF-IDF = TF x IDF= 3 x1.954= 5.863

หมายเหตุ สมมติมีเอกสารทั้งหมด 27 เอกสาร

นัก / วิทยาศาสตร / สหรัฐ / ฯ / บอก / เตือน / มนุษย / โลก / อยาง / นา / เสียว / สันหลัง / วา / โลก / กําลัง / กาว / ไป / สู / อวสาน / แลว / ดี / แตวา / กวา / ชีวิต / จะ / มลาย / สูญ / สิ้น / หมด / มัน / จะ / ยัง / อยู / อีก / นาน / ถึง / 500 / ลาน / ป

Page 14: Content-based Probabilistic Text Classifier for Pornorgraphic Web ...

ความแมนยํา (Precision: P)คือโอกาสของเว็บที่กรองไดตรงกับความตองการ Precision = # correct classes found

# correct found

ความระลึก (Recall: R)คือ เว็บที่กรองไดตรงกับความตองการ สวนดวยเว็บที่กรองไดถูกตอง

Recall = # correct classes found# # classes foundclasses found

F-measure = (2 x precision x recall ) (precision + recall )

การวัดประสิทธิภาพการวัดประสิทธิภาพ

Page 15: Content-based Probabilistic Text Classifier for Pornorgraphic Web ...

แสดงเอกสารภายหลังตัดคําและได unique word ซึ่งจะแสดงในรูปของ“bag of words” (Vector Space Model)

Text Document RepresentationText Document Representation

กําหนดให:w = (w1, w2,…,wk,…,wν)ν = จํานวนคําทั้งหมดที่เปน unique word

ดังนั้นเวคเตอรของเอกสารอนาจารคือ di = (wi1, wi2,…, wik, …,wiν) เมื่อ wik เปน ความถี่ของคําที่ k-th ในเอกสาร di

Page 16: Content-based Probabilistic Text Classifier for Pornorgraphic Web ...

ซึ่ง wdik แทน k- th คําที่อยูในเอกสาร di และ N(wdik, di) แสดงถึงน้ําหนักของคํา

wdik ที่ ปรากฏอยูในเอกสาร di และ |di| เปนจํานวนของคํา

ทั้งหมดในชุดเอกสาร ดังนั้นพารามิเตอรของแตละกลุมเอกสารก็คือ

Text Classification Using Naive Text Classification Using Naive BayesBayes

นาอีฟเบส (Naïve Bayes) รูจักกันดีในงานวิจัยดานการกระบวนการจัดกลุม โดยตัวแยกประเภทจะเรียกวา “นาอีฟ” (Naive) และเนื่องจากผลลัพธที่ไดจะเปนเกิดจากการประมวลผลคาในเชิงสถิติบางครั้งจึงถูกเรียกวา “Probabilistic Classifier”

โดย ν คือจํานวนของคําที่เปน unique word ทั้งหมด

เมื่อเอกสาร di จะถูกกลุมดวยการจัดกลุมเอกสาร ของ cj ซึ่งสามารถแสดงไดดังสมการ ),(||

1

);|(|)|();|(dw

cPdPcdPiikdi

ik

Nd

kjdiji w∏

=

= θθ

Page 17: Content-based Probabilistic Text Classifier for Pornorgraphic Web ...

ผลการวิจัยผลการวิจัย

สรางโมเดลการกรองจาก web sites จํานวน 200 web sites (Training set)

ทดสอบจาก 120 web sites (Test set)

ขนาดเวคเตอรของคํา 6,189 คํา

หมายเหตุ: ทดสอบบนพื้นฐานของ 3-fold Cross Validation

94.9194.9196.5096.50

92929696

98989797

เว็บทั่วไปเว็บทั่วไปเว็บอนาจารเว็บอนาจาร

33--foldfold

95.4895.4894.4694.46

94949393

97979696

เว็บทั่วไปเว็บทั่วไปเว็บอนาจารเว็บอนาจาร

22--foldfold

94.9694.9696.4896.48

93939595

97979898

เว็บทั่วไปเว็บทั่วไปเว็บอนาจารเว็บอนาจาร

11--foldfold

F F (%)(%)

R R (%)(%)

P P (%)(%)

ชุดขอมูลชุดขอมูลทดสอบทดสอบ

CrossCrossValidationValidation

Page 18: Content-based Probabilistic Text Classifier for Pornorgraphic Web ...

สรุปการวิจัยสรุปการวิจัย

งานวิจัยนี้ประยุกตเรื่องของการจัดกลุมเอกสารโดยใช Probabilistic Classifier เปนเครื่องมือในการสรางตัวกรองเว็บอนาจารแบบอัตโนมัติ และเปนวิธีการกรองเว็บแบบ Content-based

จากผลการทดลองพบวาจํานวนคําที่พบในเอกสารเปนปจจัยที่สําคัญในการสรางโมเดลสําหรับการกรองเว็บโดยอาศัยขอความ เพราะฉะนั้นหากเพิ่มขนาดของ “bag of words” ใหมีขนาดใหญขึ้นอาจหมายถึงความถูกตองในการทดลองที่เพิ่มมากขึ้นดวย

กรณีที่เว็บไซตทั่วๆไปที่มีกลุมคําในเชิงอนาจาร บางครั้งก็ยากตอการตรวจสอบ โดยเว็บไซตลักษณะนี้จะอยูในกลุมที่เรียกวา “Grey zone” แตกรณีนี้อาจจะปญหาโดยการตรวจสอบและวิเคราะหจากความสัมพันธของคํา หรือความสัมพันธของประโยค ในหนาเว็บนั้นๆ

Page 19: Content-based Probabilistic Text Classifier for Pornorgraphic Web ...

END.