Content-based Probabilistic Text Classifier for Pornorgraphic Web ...
Transcript of Content-based Probabilistic Text Classifier for Pornorgraphic Web ...
ContentContent--basedbased ProbabilisticProbabilistic TextText ClassifierClassifierforfor PPornorgraphicornorgraphic WebWeb FilteringFiltering
โดยโดย
จันทิจันทิมา พลพินิจมา พลพินิจชุมศักดิ์ สีบุญเรืองชุมศักดิ์ สีบุญเรือง
รพีพร ช่ําชองรพีพร ช่ําชองอนิรุทธอนิรุทธ โชติถนอม โชติถนอม
สมนึก พวงพรพิทักษสมนึก พวงพรพิทักษ
Informatics Research Laboratory, Faculty of Informatics, Mahasarakham University
คณะวิทยาการสารสนเทศมหาวิทยาลัยมหาสารคาม
การประชุมวิชาการสวทช. 2548 วิทยาศาสตรและเทคโนโลยีไทยสูเศรษฐกิจโมเลกุล วันที่ 28-30 มีนาคม 2548
งานวิจัยนี้เปนสวนหนึ่งในโครงงานวิจัยเรื่อง
Automated Obscenity Web Sites Filtering Systems
Automated Obscenity Web Sites Filtering System
Informatics Research Laboratory, Faculty of Informatics, Mahasarakham University
การประชุมวิชาการสวทช. 2548 วิทยาศาสตรและเทคโนโลยีไทยสูเศรษฐกิจโมเลกุล วันที่ 28-30 มีนาคม 2548
School
Computer Room
Internetwww.science.com
www.book.com
www.pornography.com
www.xxx.com
Automatic Web Filtering
Automated Obscenity Web Sites Filtering System
Informatics Research Laboratory, Faculty of Informatics, Mahasarakham University
การประชุมวิชาการสวทช. 2548 วิทยาศาสตรและเทคโนโลยีไทยสูเศรษฐกิจโมเลกุล วันที่ 28-30 มีนาคม 2548
Text Checking
Image Checking
Non-pornography
Pornography
Not Sure
Text Image
Text Processing
Image Processing
Web Page
Web Analysis
หัวขอที่นําเสนอหัวขอที่นําเสนอ
ที่มาของปญหา ที่มาของปญหา ((BackgroundBackground))
พื้นฐานของระบบการกรองเว็บ พื้นฐานของระบบการกรองเว็บ ((WebWeb FilteringFiltering))
งานวิจัยที่เกี่ยวของ งานวิจัยที่เกี่ยวของ ((Related WorkRelated Work))
กระบวนการทํางานวิจัย กระบวนการทํางานวิจัย ((ResearchResearch MethodologyMethodology))
ชุดขอมูลทดสอบและผลการวิจัยชุดขอมูลทดสอบและผลการวิจัย
สรุปการวิจัย สรุปการวิจัย ((ConclusionConclusion))
Informatics Research Laboratory, Faculty of Informatics, Mahasarakham University
การประชุมวิชาการสวทช. 2548 วิทยาศาสตรและเทคโนโลยีไทยสูเศรษฐกิจโมเลกุล วันที่ 28-30 มีนาคม 2548
ที่มาของปญหา ที่มาของปญหา ((BackgroundBackground))
เนื่องจากจํานวนเว็บอนาจารไดเพิ่มขึ้นอยางมาก ดังนั้นการคนหาเครื่เนื่องจากจํานวนเว็บอนาจารไดเพิ่มขึ้นอยางมาก ดังนั้นการคนหาเครื่ององมือสําหรับปองกันผูคนจากเว็บที่ไมเหมาะสมดังกลาวจึงไดรับความสนมือสําหรับปองกันผูคนจากเว็บที่ไมเหมาะสมดังกลาวจึงไดรับความสนใจใจมากขึ้น มากขึ้น
โดยทั่วไปแลวเทคนิคการกรองเว็บ โดยทั่วไปแลวเทคนิคการกรองเว็บ ((Web FilteringWeb Filtering) ) เปนเครื่องมือที่เปนเครื่องมือที่สําคัญที่สามารถควบคุมสารสนเทศบนเว็บได สําคัญที่สามารถควบคุมสารสนเทศบนเว็บได
การประยุกตใชงานของเทคนิคการกรองเว็บสามารถแบงไดเปน การประยุกตใชงานของเทคนิคการกรองเว็บสามารถแบงไดเปน 2 2 วิธีคือ วิธีคือ เทคนิคการกรองเว็บโดยอาศัยเมตะเทคนิคการกรองเว็บโดยอาศัยเมตะดาตาดาตา ((MetadataMetadata) ) และ เทคนิคการและ เทคนิคการกรองเว็บโดยอาศัยเนื้อหาของเว็บ กรองเว็บโดยอาศัยเนื้อหาของเว็บ ((ContentContent))
งานวิจัยนี้ไดนําเสนอการกรองเว็บบนพื้นฐานของ งานวิจัยนี้ไดนําเสนอการกรองเว็บบนพื้นฐานของ Content Content โดยอาศัยโดยอาศัยขอความที่ปรากฏบนหนาเว็บเปนปจจัยสําคัญในการสรางโมเดลเพื่อการขอความที่ปรากฏบนหนาเว็บเปนปจจัยสําคัญในการสรางโมเดลเพื่อการกรองเว็บอนาจาร แบบอัตโนมัติกรองเว็บอนาจาร แบบอัตโนมัติ
Informatics Research Laboratory, Faculty of Informatics, Mahasarakham University
การประชุมวิชาการสวทช. 2548 วิทยาศาสตรและเทคโนโลยีไทยสูเศรษฐกิจโมเลกุล วันที่ 28-30 มีนาคม 2548
พื้นฐานของระบบการกรองเว็บ พื้นฐานของระบบการกรองเว็บ ((WebWeb FilteringFiltering))
โดยทั่วไประบบการกรองเว็บจะแบงออกเปน โดยทั่วไประบบการกรองเว็บจะแบงออกเปน 2 2 ลักษณะคือลักษณะคือ
11. . Metadata basedMetadata based เปนระบบการกรองเว็บโดยอาศัยขอมูลหรือสาร เปนระบบการกรองเว็บโดยอาศัยขอมูลหรือสารสนเทศจากภายนอกหนาเว็บ เชนสนเทศจากภายนอกหนาเว็บ เชน
-- การใชขอมูลของผูสรางเว็บ การใชขอมูลของผูสรางเว็บ ((AuthorAuthor) ) -- ลิงค ลิงค ((LinkLink) ) -- URLURL ระหวางเอกสารหรือหนาเว็บ ระหวางเอกสารหรือหนาเว็บ -- IP AddressIP Address
22. . Content BasedContent Based เปนระบบการกรองเว็บที่จะใชสารสนเทศบนหนา เปนระบบการกรองเว็บที่จะใชสารสนเทศบนหนาเว็บ เชน ขอความ รูปภาพ เปนสวนสําคัญในการสรางโมเดลหรือตัวเว็บ เชน ขอความ รูปภาพ เปนสวนสําคัญในการสรางโมเดลหรือตัวกรอง กรอง ((FilterFilter) ) ตัวอยางระบบที่ใชการกรองแบบเนื้อหา เชนตัวอยางระบบที่ใชการกรองแบบเนื้อหา เชน
-- KeywordKeyword
Informatics Research Laboratory, Faculty of Informatics, Mahasarakham University
การประชุมวิชาการสวทช. 2548 วิทยาศาสตรและเทคโนโลยีไทยสูเศรษฐกิจโมเลกุล วันที่ 28-30 มีนาคม 2548
งานวิจัยที่เกี่ยวของงานวิจัยที่เกี่ยวของ
โครงการ โครงการ NetProjectNetProject ((20012001) ) ไดประเมินประสิทธิภาพของระบบกรองไดประเมินประสิทธิภาพของระบบกรองเว็บไซตในเชิงพาณิชยที่มีใชอยูในปจจุบัน โดยใช เว็บไซตในเชิงพาณิชยที่มีใชอยูในปจจุบัน โดยใช 22,,794 794 URLsURLs ที่มี ที่มี PornoPornorrgraphicgraphic contentcontent และ และ 11,,655 655 URLsURLs ที่เปน ที่เปน NormalNormal contentcontent
ตารางที่ ตารางที่ 11 แสดงตัวอยางความถูกตองแมนยําบางตัวอยางของระบบกรองแสดงตัวอยางความถูกตองแมนยําบางตัวอยางของระบบกรองเว็บไซตในเชิงพาณิชยที่มีใชอยูในปจจุบันภายใตโครงการ เว็บไซตในเชิงพาณิชยที่มีใชอยูในปจจุบันภายใตโครงการ NetProjectNetProject
PP. . YY. . LeeLee, S, S. . CC. . HuiHui, A, A. . CheukCheuk andand MM. . FongFong.. ““NeuralNeural NetworksNetworksforfor WebWeb ContentContent FilteringFiltering””. . IEEEIEEE IntelligentIntelligent SystemsSystems.. 20022002..
RR. . DuDu, R, R. . SafaviSafavi--NainiNaini and Wand W. . SusiloSusilo. . ““Web Filtering Using Text Web Filtering Using Text ClassificationClassification””.. The The 1111th IEEE Intth IEEE Int. . ConfConf. . on Network on Network ((ICON ICON 20032003)), pp, pp. . 325 325 -- 330330, , 20032003..
Informatics Research Laboratory, Faculty of Informatics, Mahasarakham University
การประชุมวิชาการสวทช. 2548 วิทยาศาสตรและเทคโนโลยีไทยสูเศรษฐกิจโมเลกุล วันที่ 28-30 มีนาคม 2548
ตารางที่ ตารางที่ 1 1 การประเมินประสิทธิภาพของระบบกลั่นกรองเว็บไซตในเชิง การประเมินประสิทธิภาพของระบบกลั่นกรองเว็บไซตในเชิง พาณิชยที่มีใชอยูในปจจุบันโดยโครงการ พาณิชยที่มีใชอยูในปจจุบันโดยโครงการ NetProjectNetProject
Informatics Research Laboratory, Faculty of Informatics, Mahasarakham University
การประชุมวิชาการสวทช. 2548 วิทยาศาสตรและเทคโนโลยีไทยสูเศรษฐกิจโมเลกุล วันที่ 28-30 มีนาคม 2548
44 %%6565 %%XX--Stop Stop
1111 %%6565 %%SurfMonkeySurfMonkey
2525 %%7979 %%OptenetOptenet
66 %%4545 %%Norton Internet Security Norton Internet Security
55 %%2020 %%Net Nanny Net Nanny
00 %%3030 %%Internet Watcher Internet Watcher 20002000
2323 %%6565 %%Cyber Snoop Cyber Snoop
33 %%4646 %%CTBER sitter CTBER sitter
22 %%5252 %%Cyber Patrol Cyber Patrol
1010 %%5555 %%BizGuardBizGuard
OverblockingOverblocking RateRateBlocking EffectivenessBlocking EffectivenessFiltering ToolsFiltering Tools
กระบวนการวิจัยกระบวนการวิจัย
Term word weighting
Text Document Representation by Vector Space Model
Word Segmentation
Evaluation
Text Classification
Web FilteringModel
Data Collection
Test SetRelevant Feedback
Training Set
1
2
3
55555
SVM
NB
3 fold cross-validation
การตัดคํา คือ การแบงตัวอักขระจากขอความ (String) เพื่อหาขอบเขตของแตละหนวยคํา(Morpheme)
การตัดคําขอความภาษาอังกฤษจะงายกวาการตัดตําขอความภาษาไทย โดยจะใชชองวางคั่นในการแยกคํา แตสําหรับภาษาไทย สวนใหญแลวจะมีการเขียนในลักษณะที่ติดกันโดยไมมีการใชเครื่องหมายวรรคตอนใดมาคั่น
การตัดคําขอความภาษาไทยในงานวิจัยฉบับนี้ไดใชการตัดคําแบบพจนานุกรมโดยวิธีการเทียบคําที่ยาวที่สุด (Longest matching) ตัวอยาง
กอนการนําไปหาน้ําหนักคําจะตัด Stop words กอน
การตัดคํา การตัดคํา ((Word SegmentationWord Segmentation))
นักวิทยาศาสตรสหรัฐฯบอกเตือนมนุษยโลกอยางนาเสียวสันหลังวา โลกกําลังกาวไปสูอวสานแลว ดีแตวา กวาชีวิตจะมลายสูญสิ้นหมด มันจะยังอยูอีกนานถึง 500 ลานป
นัก / วิทยาศาสตร / สหรัฐ / ฯ / บอก / เตือน / มนุษย / โลก / อยาง / นา / เสียว / สันหลัง / วา / โลก / กําลัง / กาว / ไป / สู / อวสาน / แลว / ดี / แตวา / กวา / ชีวิต / จะ / มลาย / สูญ / สิ้น / หมด / มัน / จะ / ยัง / อยู / อีก / นาน / ถึง / 500 / ลาน / ป
Word Segmentation for Thai Text
ตัวอยางการตัดคําในภาษาไทยแบบอิงพจนานุกรมตัวอยางการตัดคําในภาษาไทยแบบอิงพจนานุกรมดวยการเทียบคําที่ยาวที่สุดดวยการเทียบคําที่ยาวที่สุด
นําคําที่ตัดทุกคํามาหาความถี่ (Term Frequency :TF )
สมการหาความถี่และน้ําหนักคํา
TF –IDF =TF х IDFTF –IDF =TF х IDF
โดย |D | คือ จํานวนเอกสารทั้งหมด DF คือ จํานวนเอกสารที่มีคํานั้น ๆ ปรากฏอยู IDF คือ สวนกลับของเอกสาร ซึ่งหาไดจาก
IDF = 1 + log (|D | + DF )
การหาความถี่และน้ําหนักของคํา การหาความถี่และน้ําหนักของคํา ((Term Frequency and WeightTerm Frequency and Weight))
ตัวอยางการหาความถี่และน้ําหนักของคําตัวอยางการหาความถี่และน้ําหนักของคําTerm Frequency and WeightTerm Frequency and Weight
4.2284.2282.1142.1142222มนุษย4.2284.2282.1142.1142222เตือน4.2284.2282.1142.1142222บอก4.2284.2282.1142.1142222สหรัฐ4.2284.2282.1142.1142222วิทยาศาสตร5.8635.8631.9541.9543333นัก
TFTF--IDFIDFIDFIDFDFDFTFTFWordWord
เปนความถี่ของคําวา “นัก” ที่ปรากฏในทุกเอกสาร
จํานวนเอกสารที่มีคําวา “นัก”ปรากฏ
IDF = 1 + log (|D|/DF)= 1 + log (27/3)= 1.954
TF-IDF = TF x IDF= 3 x1.954= 5.863
หมายเหตุ สมมติมีเอกสารทั้งหมด 27 เอกสาร
นัก / วิทยาศาสตร / สหรัฐ / ฯ / บอก / เตือน / มนุษย / โลก / อยาง / นา / เสียว / สันหลัง / วา / โลก / กําลัง / กาว / ไป / สู / อวสาน / แลว / ดี / แตวา / กวา / ชีวิต / จะ / มลาย / สูญ / สิ้น / หมด / มัน / จะ / ยัง / อยู / อีก / นาน / ถึง / 500 / ลาน / ป
ความแมนยํา (Precision: P)คือโอกาสของเว็บที่กรองไดตรงกับความตองการ Precision = # correct classes found
# correct found
ความระลึก (Recall: R)คือ เว็บที่กรองไดตรงกับความตองการ สวนดวยเว็บที่กรองไดถูกตอง
Recall = # correct classes found# # classes foundclasses found
F-measure = (2 x precision x recall ) (precision + recall )
การวัดประสิทธิภาพการวัดประสิทธิภาพ
แสดงเอกสารภายหลังตัดคําและได unique word ซึ่งจะแสดงในรูปของ“bag of words” (Vector Space Model)
Text Document RepresentationText Document Representation
กําหนดให:w = (w1, w2,…,wk,…,wν)ν = จํานวนคําทั้งหมดที่เปน unique word
ดังนั้นเวคเตอรของเอกสารอนาจารคือ di = (wi1, wi2,…, wik, …,wiν) เมื่อ wik เปน ความถี่ของคําที่ k-th ในเอกสาร di
ซึ่ง wdik แทน k- th คําที่อยูในเอกสาร di และ N(wdik, di) แสดงถึงน้ําหนักของคํา
wdik ที่ ปรากฏอยูในเอกสาร di และ |di| เปนจํานวนของคํา
ทั้งหมดในชุดเอกสาร ดังนั้นพารามิเตอรของแตละกลุมเอกสารก็คือ
Text Classification Using Naive Text Classification Using Naive BayesBayes
นาอีฟเบส (Naïve Bayes) รูจักกันดีในงานวิจัยดานการกระบวนการจัดกลุม โดยตัวแยกประเภทจะเรียกวา “นาอีฟ” (Naive) และเนื่องจากผลลัพธที่ไดจะเปนเกิดจากการประมวลผลคาในเชิงสถิติบางครั้งจึงถูกเรียกวา “Probabilistic Classifier”
โดย ν คือจํานวนของคําที่เปน unique word ทั้งหมด
เมื่อเอกสาร di จะถูกกลุมดวยการจัดกลุมเอกสาร ของ cj ซึ่งสามารถแสดงไดดังสมการ ),(||
1
);|(|)|();|(dw
cPdPcdPiikdi
ik
Nd
kjdiji w∏
=
= θθ
ผลการวิจัยผลการวิจัย
สรางโมเดลการกรองจาก web sites จํานวน 200 web sites (Training set)
ทดสอบจาก 120 web sites (Test set)
ขนาดเวคเตอรของคํา 6,189 คํา
หมายเหตุ: ทดสอบบนพื้นฐานของ 3-fold Cross Validation
94.9194.9196.5096.50
92929696
98989797
เว็บทั่วไปเว็บทั่วไปเว็บอนาจารเว็บอนาจาร
33--foldfold
95.4895.4894.4694.46
94949393
97979696
เว็บทั่วไปเว็บทั่วไปเว็บอนาจารเว็บอนาจาร
22--foldfold
94.9694.9696.4896.48
93939595
97979898
เว็บทั่วไปเว็บทั่วไปเว็บอนาจารเว็บอนาจาร
11--foldfold
F F (%)(%)
R R (%)(%)
P P (%)(%)
ชุดขอมูลชุดขอมูลทดสอบทดสอบ
CrossCrossValidationValidation
สรุปการวิจัยสรุปการวิจัย
งานวิจัยนี้ประยุกตเรื่องของการจัดกลุมเอกสารโดยใช Probabilistic Classifier เปนเครื่องมือในการสรางตัวกรองเว็บอนาจารแบบอัตโนมัติ และเปนวิธีการกรองเว็บแบบ Content-based
จากผลการทดลองพบวาจํานวนคําที่พบในเอกสารเปนปจจัยที่สําคัญในการสรางโมเดลสําหรับการกรองเว็บโดยอาศัยขอความ เพราะฉะนั้นหากเพิ่มขนาดของ “bag of words” ใหมีขนาดใหญขึ้นอาจหมายถึงความถูกตองในการทดลองที่เพิ่มมากขึ้นดวย
กรณีที่เว็บไซตทั่วๆไปที่มีกลุมคําในเชิงอนาจาร บางครั้งก็ยากตอการตรวจสอบ โดยเว็บไซตลักษณะนี้จะอยูในกลุมที่เรียกวา “Grey zone” แตกรณีนี้อาจจะปญหาโดยการตรวจสอบและวิเคราะหจากความสัมพันธของคํา หรือความสัมพันธของประโยค ในหนาเว็บนั้นๆ
END.