Web Page Classification with an Ant Colony Algorithm

37
عة م ا ج ب ل ج ة ي ل ك صاد ت قلا ا ر ي ت س ج ما م ن ومات ل ع م داري’* اّ ة ة ي م! ! وارر خ ل م! ن ل ا(ACO) Ant Colony Optimization وت ل ا حات! ف ص وى ت ح م ي! ف ب ي ق! ن لت ل ل ن ل ا ة ي م! ! وارر خ دام! ح ت س ا ي’ مل ع ق تK ب ط ن" " Web Page Classification with an Ant Colony Algorithm اد عد* ا الط: ب ل ا م مد ح ر ي! ت م يT شV يK ي را ط! رافT ش] اK ب ور: ت ك الد

description

A research paper about webpage classification using ant colony algorithm to discover patterns in webpages that lead to determine the classification of its contentاستخدام خوارزمية النمل لتحديد تصنيفات صفحات الويب

Transcript of Web Page Classification with an Ant Colony Algorithm

Page 1: Web Page Classification with an Ant Colony Algorithm

حلب جامعةاالقتصاد كلية

ةإداري معلومات نظم ماجستير

النمل خوارزمية(ACO) Ant Colony Optimization

الوب " " صفحات محتوى في للتنقيب النمل خوارزمية استخدام عملي تطبيق

Web Page Classification with an Ant Colony Algorithm

الب:الط إعداد

طرابيشي منير حمدمالدكتور: بإشراف

الموسى ياسر

2009 - 2010

البحث فهرس

الفصلصفحة

Page 2: Web Page Classification with an Ant Colony Algorithm

( النمل خوارزمية محمد: ( . طرابيشي منير إعداد ياسر: د الموسى بإشراف

ACO النمل أوالL: خوارزمية2البحث مقدمة

2الطبيعية والعلوم التجريبيات. 1.1

2ةالحشر سلوك. 2.1

3مالطعا عن النمل بحث. 3.1

ACO (Ant Colony( النمل على ااعتماد المشاكل حل .4.1Optimization

3

المتجول. 5.1 البائع مسألة لحل النمل خوارزمية TSP(5(استخدام

خوارزمية باستخدام الوب صفحات ثانياL: تصنيفالنمل

Web Page Classification with an Ant Colony Algorithm9البحث + مصطلحات البحث ملخص

10. مقدمة1.2 النصوص ومعالجة الوب في . التنقيب2.2 11لغويا11البحث . مشكلة3.2Ant-Miner13 بالنمل التنقيب. 4.215حسابية . نتائج5.2

Experimental Setup15 التجربة إعداد1.5.2 على المسبقة النصوص معالجة تقنيات تأثير عن نتائج2.5.2

16لغوي أساس

C5.018 خوارزمية مع بالنمل التنقيب مقارنة نتائج 3.5.2 20. خاتمة6.2

22المراجع

1

Page 3: Web Page Classification with an Ant Colony Algorithm

( النمل خوارزمية محمد: ( . طرابيشي منير إعداد ياسر: د الموسى بإشراف

:مقدمة مختلفة مشاكل هناك تزال ال الحاسوبية، القدرات في الهائل التطور مع حتى

حلها يصعب النوع هذا, Combinatorial Optimization التركيبية األمثلة خصوصا لنأخذ اتالمنتج تصميم في يظهر أن يمكن المشاكل من سيارة تصميم مثال

وقياس الخارجي الشكل المقاعد، عدد المحرك، صفات: قوةواال على تعتمد كالموجود صفات،واال هذه من واحدة لكل مستويات ثالث وجدت إذا اإلطار

جلأ االعتبار. من بعين يؤخذ محتمل ترتيب 81 أو هناك سيكون عالهأ

. تركيب1024 أو يوجد مستويات، أربع واصفة لكل واصفات، خمس

كانت إذا حتى ستظهر الممكنة التركيبات من هائل عدد نموذجي، بشكل كل سرد عبر المسائل لهذه األمثل الحل إيجاد إن.نسبيا صغيرة المسائل

بحث خوارزميات تطوير تم لذلكعملي. غير حل هو الممكنة التركيبات أقل وبقدرمعقول وقت في المشاكل لهذه مناسب حل إليجاد)حدسية( كشفية

.المعالجة من:الطبيعية والعلوم التجريبيات. 1

متعددة حدسية تقنيات تطوير تم أكثر، أو الزمن من عقد منذ على اعتمادا الخوارزميات عليها األمثلة واألحياء. من الفيزياء علوم في التقدم مراقبةالتعدين , Genetic Algorithmsالوراثية هذه Simulated Annealingومحاكاة متضمنة واسع وبشكل بنجاح المشاكل من العديد حل في استخدمت التقنيات

.التركيبية األمثلةة:الحشر سلوك. 2

عديدة حدسية. مظاهر أفكار الستخدامها الحشرات إلى العلماء تجهإ حديثا التنظيم، ذاتية تكون النمل مثل الحشرات لمجتمع الجماعية الفعاليات من

سلوك حيث األفراد، بين التفاعل من ينبثق المعقد الجماعي السلوك بمعنى يمثل امنفرد منهم واحد كل ةشامل كونت الذاتي التنظيم بسيطا. نتائج سلوكا على كامل بشكل مبني يكون الذي التفاعل من أتيت هالكن الطبيعة في

هي: ةعديد مكونات على يعتمد الذاتي محلية. التنظيم معلومات التفاعالتج.. السالبة الراجعة التغذيةب.. الموجبة الراجعة التغذية أ.

.المتعددة تجنيد مثل أساسية سلوكية قواعد على تقوم:الموجبة الراجعة لتغذيةاأ.

الضرورية البنى تخلق التي للطعام مصدر عن للبحث األخرى الحشرات.الجماعي للسلوك

الذي السلوك على بقيود مشروطة تكون:السالبة الراجعة التغذيةب. الطعام. مورد نضوب مثل أحداث نتيجة يتم أن مثل العشوائية، األحداث ضرورة إلى تشير:المتعددة التفاعالتج.

.للطعام جديد مصدر يجد ولكن النمل يضيعم:الطعا عن النمل بحث. 3

بشuuكل النمuuل يسuuتطيع ،اجuuد محuuدودة الواحuuدة ةالنملuu قuuدرة أن الرغم على الطعuuام، ومصuuدر مسuuتعمرةال بين المسuuالك يؤسس)يقيم( أقصر أن جماعي البعض بعضuuه مuuع النمuuل يتواصل.الفع بشكل مستعمرةال إلى الطعام وينقل

بينمuuا,النمuuل تجuuذب كيميائيuuة مادة وهي ، الفيرمونالنمل( حمض) باستخدام يتبعuuه. أن اآلخuuر النمuuل يسuuتطيع بحيث الحمض هuuذا من أثر يضع النمل يتنقل

2

Page 4: Web Page Classification with an Ant Colony Algorithm

( النمل خوارزمية محمد: ( . طرابيشي منير إعداد ياسر: د الموسى بإشراف

يقرر الحمض هذا أثر طريقه في يجد عندما ولكن عشوائي بشكل النمل يتنقل الحمض عليuuه الموضuuوع الطريuuق سuuلك ال, إذا أم األثر هذا سيتبع كان إذا فيما بuه الخuاص حمضه يضع بدوره فإنه الuذي الطريuق بuذلك يuدعمون حيث أيضuا

حمض كميuuة بازديuuاد يuuزداد مuuا لطريuuق النمuuل اختيار احتمال فيه. إن يسيرون هuuو الحمض من األكuuثر الكميuuة عليuuه الموجuuود الطريuuق يصبح وبالتالي النمل،

) جاذبية األكثر الطريق لمسuuتعمرة قدم األخرى. إذا النمل لمجموعات( سلوكا تسuلك فإنهuا قصuير واآلخuر طويuل أحuدها الطعuام لمصدر طريقين النمل من

في الحمض واضuuعين النمuuل، من متسuuاوي بعuuدد األمuuر بuuادئ في الطuuريقين أوال. العش إلى سuuيعود األقصuuر الطريuuق يسuuلك الuuذي النمuuل طuuريقهم. لكن

الuuذي للنمل جاذبية أكثر وسيكون بالحمض مرتين يعلم سوف األقصر الطريق سيفضل هولكن متساو بشكل النمل وزعتي عام الطعام. بشكل مصدر إلى يعود

اطريقu النمuل يختuuار أن بالضرورة ليس . لذلكراألقص الطريق سuuابقا، معلمuا السuuماح منهuuا الفائuuدة تكuuون والuuتي واالستكشuuاف بالعشuuوائية يسuuمح وهuuذا

.للطعام جديدة مصادر اكتشاف أو البديلة أو القصيرة الطريق باستكشاف Ant Colony( ACO) النمل على Lااعتماد المشاكل حل. 4

Optimization: حلuuول إليجuuاد وذلuuك االصuuطناعي النمuuل تستخدم عامة حدسية بحث طريقة إن )Combinatorial Optimization( المعقدة التركيبية األمثلة لمسائل جديدة إضuuافية قuuدرات مuuع الحقيقي النمuuل آثuuار على يعتمد الصناعي النمل سلوك حلuوال يبuني فuرد الماضية. كل األحداث لحفظ ذاكرة مثل فعالية أكثر لجعلها

المشuuكلة مuuيزات عن مجمعuuة معلومuuات ويسuuتخدم المطروحuuة، للمشuuكلة تشuuير ACO خوارزميuuة المشuuكلة. إن إلى النمل نظرة لتغيير الخاص وأدائه

,meta-heuristic .(Colorni, Dorigo( التجريبية بعد ما مرحلة من حالة أي إلىManiezzo تخدمواuuذه اسuuة هuuكلة في الطريقuuائع مشuuول البuuالمتج TSP مجموعuuة بين يتنقuuل أن الشuuخص على يجب المشكلة هذه في ، الكالسيكية

الuuتي النمuuل فقuuط. مسuuتعمرة واحuuدة مرة مدينة كل يزور بحيث المدن من تتنقل أنشأت األولى الخطuuوة المuuدن. خالل كuuل تضuuم حلقuuات في عشuuوائيا حمض يوضuع األولى الuدورة إتمuام المuدن. بعuد أقuرب إلى االنتقuال يفضuل الطريuuق على يوضuuع الuuذي الحمض كميuuة إن الطريuuق، كامuuل على النمuuل

كميuuة كuuانت كلما أقصر الطريق كان كلما الطريق، طول مع عكسا تتناسب.أكuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuثر الحمض

الطuuرق المستعمرة تفضل المرة هذه لكن جديد من رحلتها المستعمرة تبدأ الطuuرق تفضuuل أنهuuا إلى باإلضuuافة عاليuuة فيهuuا الحمض كuuيزاتر تكuuون الuuتي

فيهuuا تمuuر ال الuuتي والطuuرق ثuuابت بمعuuدل النمuuل حمض األقصuuر. يتبخuuر من الطuuرق طuuول على الuuذكي النمل مفضلة. يسافر غير تصبح المستعمرة طريuuق أي سuuتحدد Pheromone الuuu وبتuuأثير وبuuالعكس المدن إلى المستودع

ثتحuuد الطuuرق على Pheromone الuuu مسuuتويات , إن سuuتختار على اعتمuuادا النمuuل مستعمرة أمثلة طريق استخدام النمل. تم وجدها التي الحلول نوعية

المسألة الفضاء. تهتم تخطيط مسألة )بالنت( لحل قبل من بمحاولuuة تحديدا محuuدد فضuuاء ضuuمن أمثلي بشuuكل نشاطات وضع أمثلuuه لعمليuuة يمكن فمثال في المكuuاتب من مجموعuuة ضuuمن ومuuوظفين إداريuuة مهمuuات توضع أن تريد

)حركuuة الحركuuة كميuuة تصuuغير عمليuuة تكuuون أن يمكن الحالة هذه مبنى. في النمuuل مملكuuة تجربuuة تطuuوير تم. البنuuاء ضuuمن فعاليuuة والورق( أكuuثر الناس

3

Page 5: Web Page Classification with an Ant Colony Algorithm

( النمل خوارزمية محمد: ( . طرابيشي منير إعداد ياسر: د الموسى بإشراف

على يجب المسuuألة هuuذه في وحيدة آللة الكلي التأخير مسألة على للتطبيق زمن تقليuuل هuuو والهuuدف تنفيuuذها عليها الواجب األعمال سلسلة جدولة اآللة

وقت بين الفuuرق أنuuه على يعuuرف التuuأخير أن , حيث لألعمuuال الكلي التأخير مسuuتقل بشuuكل النمالت تختuuار. للعمuuل األصuuلي والuuوقت العمuuل تنفيذ نهاية

األعمuuال اختيuuار , يتم األعمuuال جدولuuة عمليuuة تنتهي أن إلى متتاليuuة أعمuuال الظاهرية العمل جودة مدى على اعتمادا األصلي( ومuuدى وقته على )اعتمادا العمuuل اختيuuار حسuuن في المتروكuuة رمونيالفuu مسuuتويات على )اعتمuuادا

رمونيالفuu خطuuوط تحuuديث ويتم األعمال من سلسلة كل تقييم الخلف(. يتم بحث وشuuو( خوارزميuuة )سuuونغ حuuل. نفuuذ أفضuuل على اعتمادا على اعتمuuادا هuuذه الطاقuuة. في اسuuتهالك مسuuألة لحuuل الطعuuام عن النمuuل بحث عمليuuة

الكليuuة الطاقuuة بلuuوغ حين في الطاقuuة كلفuuة تصuuغير علينuuا يجب المسuuألة ةالذكيuu النمالت مولد. تقuuوم لكل اإلنتاج حدود ضمن كهرباء وتوليد المطلوبة حين إلى المطلوبuuة الكليuuة الطاقuة مuuوزعين محطة إلى محطة من بالتحرك على النملuuة طريuuق في التuuالي المولuuد اختيuuار المحطات. يعتمuuد كل تشغيل

السuuتخدام المدركuuة والكلفuuة األخريuuات النمالت تركتهuuا التي اآلثار مستوياتuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuد .المول

جدولuuة هي) ACO (النمuuل مستعمرة أمثلة لطريقة األخرى التطبيقات بعض ,االتصاالت شبكات في الحمل وتجزئته, توزيع البيان , تلوينحافالتال سائقي األبحاث بعض قامت. الطرود على تعتمد التي الشبكات في التوجيه عمليات

المذكورة النتuuائج ومقارنة النمل على المعتمدة التجريبات أداء باختيار سابقا حuuاالت من العديuuد البحث. في طرائuuق من الجينيuuة, وغيرهuuا الخوارزمية مع

الخوارزميuuة من أفضuuل النمuل طريقة أن يظهر المتجول البائع مسألة اختبارSimulated( وطريقuuة الجينية annealing( اuuت ولكنهuuل ليسuuة من أفضuuطريق Tabu( واإلستبعاد البحث search( ات توجيه نتائج إنuانت العربuل كuمن أفض

Simulated (التعuدين محاكuاة مuع مقارنuة النمuل تجريبيuة أجل annealing( و Neural( العصبية الشبكات network( ا14/ من لمجموعةuuألة, ولكنهuuلم / مس

النمل خوارزمية أداء كان ,)Tabu search( خوارزميات من/ 3/ من أفضل تكن مقارنة فرعية / مسألة125/ في وحيدة آللة الكلي التأخير مسألة في أفضل

u )Simulatedل مختلفتين طريقتينب annealing( ة على الحصول تمuuل كلفuuأق عينuuة على الجينيuuة الخوارزميuuة مع مقارنة النمل طريقة استخدام عن بقليل النمuuل تقنيuuات أن عام, يبدو الطاقة. وبشكل استهالك لمسألة صغيرة اختبار المشروحة الطبيعي العلم تقنيات من أفضل أداء تعطينا ليست ولكنها سابقا.)Tabu search( باالستبعاد البحث أو المحرم البحث طريقة من أفضل

المتجول. 5 البائع مسألة لحل النمل خوارزمية )استخدامTSP): إال خوارزمي حل لها التي الكالسيكية المسائل من المتجول البائع مسألة تعتبر Heuristic الكشuuفي البحث باسuuتخدام الحuuل اسuuاليب تطuuبيق السuuهل من أنuuه

Searchاuuل عليهuuة مثuuة الخوارزميuuة الجينيuuل وخوارزميuuذلك النمuuنطبق لuuس يلي: ما وفق وذلك النمل خوارزمية

اللحظة في t(0)ة تكونuuة, في بدايuuة الخوارزميuuاللحظ t(1)ونuuل تكuuك

كuل في الفيرمون كمية(t) جديدة, ولتكن مدينة إلى انتقلت قد نملة

.t اللحظة عند مدينة

4

Page 6: Web Page Classification with an Ant Colony Algorithm

( النمل خوارزمية محمد: ( . طرابيشي منير إعداد ياسر: د الموسى بإشراف

النملة تقرر عندما kالuuة إلى اإلنتقuuدة مدينuuا لم جديuuتزره ويتم مسuuبقاTabu قائمة باستخدام ذلك تحديد kتي للمدنuuا الuuة زارتهuuوم النملuuوتق نرمuuز الuuتيVisibility الرؤية مدى على مبني احتمال أساس على بذلك

والمدينuةi الحاليuة مدينتها بين المسافة مقلوب تساوي والتي بu لها

الفuuيرمون وكميuuة = العالقuuة: حسuuبβ لألسj الجديuuدة

حسuبt (t) اللحظuة فيj للمدينuة الموصuلة الزوايا على الموجود

العالقة:

حيث aو bددان تحكم متغيراuuة يحuuة أهميuuر بين العالقuاألث Trailلuuمقاب المتغuuيرين, هuuذين قيم حuuول الدراسات اختلفت حيثVisibility الرؤية

فuإن اآلخuر من أكuبر أحدهما قيمة تكون عندما أنه أظهرت التجربة لكن قيمتهمuuا تسuuاوي عنuuد أمuuا بسuuرعة األمثل الحل من تقترب الخوارزمية

األمثuuل الحuuل من نقuuترب وبالتالي المدن على أكبر بشكل النمل ينتشربتجربته. ذلك من التأكد ويمكن أطول بوقت لكن

زمن وحدة كل في tقيمته للفيرمون تبخر يحدث ρ uال .1 , 0بينل انتهاء بعدuة كuديث يتم للنمالت جولuار تحuيرمون آثuق على الفuالطري

التالية: العالقة وفقTij (t + n) = ρ × Tij(t) + ΔTij

الفيرمون: كمية في التغير حيث

Tree األشuuجار وبنيةPointers المؤشرات باستخدام الحل فضاء بتمثيل سنقومStructureتمثل مدينة وكلuuجل سuuبس Structكuuتخدام وذلuuة باسuuلغ uuuال C++

البرمجي: الكود يلي وفيما#include <iostream>#include <math.h>using namespace std;int Distance[6][6]={{0,0,0,0,0,0},

{0,0,5,1,8,4}, {0,0,0,3,5,2}, {0,0,0,0,7,9}, {0,0,0,0,0,6}, {0,0,0,0,0,0},};

int n=5;double Alpha=3, Beta=5, Q=5;double Ro=0.01;int Ant=100;struct tree{

int Node, Length, Ants;

5

Page 7: Web Page Classification with an Ant Colony Algorithm

( النمل خوارزمية محمد: ( . طرابيشي منير إعداد ياسر: د الموسى بإشراف

double Pheromon, Pr;tree *Son, *Next, *Father;

};tree *Tree=new tree;double round(double x){

if (ceil(x)-x<0.5) return ceil(x); else return (int) x; }double Sum_Son_Node(tree *T){

double P=0.0;tree *t;t=T->Son;do{

P+= pow(1.0/(double) Distance[T->Node][t->Node],(double) Alpha)*pow(t->Pheromon,(double)Beta);

t=t->Next;}while (t!=NULL);return P;

}void Distribut_Ants_Son_Node(tree *T){

double P=0.0;tree *t;P=Sum_Son_Node(T);t=T->Son;do{

t->Ants=round(T->Ants*pow(1.0/(double) Distance[T->Node][t->Node],

(double) Alpha)*pow(t->Pheromon,(double)Beta)/P);

t=t->Next;}while (t!=NULL);

}

void Pheromon_Son_Node(tree *T){

tree *t;t=T->Son;do{

t->Pheromon=t->Pheromon*Ro+t->Ants*Q/t->Length;t=t->Next;

}while (t!=NULL);}void Eval_Nodes(tree *T){

Distribut_Ants_Son_Node(T);Pheromon_Son_Node(T);

}void Print_Path(tree *T){

if (T->Father!=NULL) Print_Path(T->Father);cout<<T->Node<<"("<<T->Ants<<") ";

}

6

Page 8: Web Page Classification with an Ant Colony Algorithm

( النمل خوارزمية محمد: ( . طرابيشي منير إعداد ياسر: د الموسى بإشراف

void Explore_Path(tree *T){

if (T->Son==NULL) Print_Path(T);

else Explore_Path(T->Son);

cout<<endl;if (T->Next!=NULL) Explore_Path(T->Next);

}tree *New_Node(){

tree *T=new tree;T->Son=NULL;T->Next=NULL;T->Father=NULL;T->Length=0;T->Pheromon=1.0;T->Pr=0;T->Ants=0;return T;

}bool Test_Path(tree *T, int i){

bool b=(T->Node==i);while (T->Father!=NULL) {

if (T->Father->Node==i) b=true;T=T->Father;

}return b;

}

void Add_Next_Node(tree *T1,tree *T2,int i,int j){

int l=j+1;while ((Test_Path(T1,l))) l++;if ((l<=n) && (Distance[i][l]!=0)){

T2->Next=New_Node();T2->Next->Length=T1->Length+Distance[i][l];T2->Next->Node=l;T2->Next->Father=T1;Add_Next_Node(T1,T2->Next,i,l);

} else if (l<n) Add_Next_Node(T1,T2,i,l);};void Add_Son_Node(tree *T,int i, int j){

if ((Distance[i][j]!=0)&&(!Test_Path(T,j))){

T->Son=New_Node();T->Son->Length=T->Length+Distance[i][j];T->Son->Node=j;

7

Page 9: Web Page Classification with an Ant Colony Algorithm

( النمل خوارزمية محمد: ( . طرابيشي منير إعداد ياسر: د الموسى بإشراف

T->Son->Father=T;} else if (j<n) Add_Son_Node(T,i,j+1);if ((T->Son!=NULL)&& (T->Son->Node<n)) Add_Next_Node(T,T-

>Son,i,T->Son->Node);if (T->Son!=NULL) Eval_Nodes(T);

};void Form_Path(tree *T){

if (T->Ants>0) Add_Son_Node(T,T->Node,1);if (T->Son!=NULL) Form_Path(T->Son);if (T->Next!=NULL) Form_Path(T->Next);

}void init(){

for (int i=1;i<5;i++)for (int j=i+1;j<=5;j++) Distance[j][i]=Distance[i][j];Tree=New_Node();Tree->Node=1;Tree->Ants=Ant;

}//Resend another set of antsvoid send_ants(tree *t){

if(t->Son!=NULL)Eval_Nodes(t);

elsesend_ants(t->Son);

if (t->Next!=NULL)send_ants(t->Next);

}void main(){

init();Form_Path(Tree);//Resend ants 10 timesfor(int i=0;i<10;i++)

send_ants(Tree);Explore_Path(Tree);

{

8

Page 10: Web Page Classification with an Ant Colony Algorithm

( النمل خوارزمية محمد: ( . طرابيشي منير إعداد ياسر: د الموسى بإشراف

باستخدام الوب صفحات تصنيفالنمل خوارزمية

Web Page Classification with an Ant Colony Algorithm

خوارزميuuة-النمل باستخدام التنقيب من يستفيد البحث هذا : البحث خالصة الuuوب, محتuuوى في التنقيب مجuuال في – التصuuنيف قواعuuد الكتشuuاف النمuuل

فيC5.0 خوارزميuuة من فعاليuuة أكuuثر النمuuل خوارزميuuة اسuuتخدام أن ويظهuuر يبحث تجربتنا. كما في مستخدمةBBC وYahoo وب صفحات من مجموعتين

لغuuوي أسuuاس على النصuuوص معالجuuة تقنيuuات من العديuuد ومخاطر فوائد في محتuuوى في بuuالتنقيب المرتبطuuةAttributes الصuuفات من الكبuuير العuuدد ليقللالوب.

البحث: مصطلحاتخوارزمية C5.0:تخدمة خوارزمية هيuuد مسuuجار لتوليuuرار أشuuمن الق

المعلومuuات انتروبيuuة مفuاهيم مستخدمة التدريبية البيانات من مجموعةInformation Entropyتخدام , يمكنuuذه اسuuجار هuuنيف في األشuuالتص

Classificationطورها Ross Quinlanلخوارزمية امتداد وهي ID3تيuuال العالم. نفس طورها

ةeeeخوارزمي CN2:ة هيuuuتخالص تعليم خوارزميuuuد السuuuمن القواع النصوص.

برنامج WordNet:االنكليزية, يصنف للغة لغوية بيانات قاعدة هو مختصرة تعاريف يوفر المرادفات, كما من مجموعات في اللغة كلمات

بين متنوعة لغوية عالقات على يحتوي الكلمات, كما لمعاني عامة أوفيه. المخزنة الكلمات

التلقائي النصوص تحليل ويدعم والمعجم القاموس من مزيج يمثل وهو ومحمي مطروح وهو االصطناعي الذكاء تطبيقات في واستخداماتها

Princeton برينستون بجامعة المعرفية العلوم مختبرات قبل منUniversityبحرية. استخدامه ويمكن مجانية برخصة

ةeeعالق Hypernym:ة وهيuuول حيث األعم عالقuuم عن نقuuاالس Xهuuأن Hypernymمن Yان إذاuuuك Yلuuuوع يمثuuuمن ن X :لuuuمث color is a

hypernym of red.عالقة Hyponym:ة وهيuuول حيث األخص عالقuuم عن نقuuاالس Xهuuأن

Hyponymمن Yكان إذا Xمن نوع يمثل Y :مثل red is a hyponym of color.

السوق على الحصول Stemming:اللغة في الصرف علم في عملية بأنهاStemming السوق على الحصول عملية تعرف االنكليزية

هذه أو األسلوب هذا مصدرها, ويعد أو لجذرها الكلمات إعادة مفيدة الخوارزمية الطبيعية، اللغات ومعالجة البحث محركات في جدا

cat الكلمة هوstem أو ساقهاcats, catlike, catty ...etcذلك: على مثالالمتقاطع التحقق Cross Validation: مستخدمة تقنية هي احصائيا

K-Fold مثل رياضية أساليب وتستخدم تنبؤي، نموذج جودة لتقديرجزئية. عينات إلى العينة لتقسيم

. مقدمة:1

9

Page 11: Web Page Classification with an Ant Colony Algorithm

( النمل خوارزمية محمد: ( . طرابيشي منير إعداد ياسر: د الموسى بإشراف

كبير االنترنت شبكة على المتوفرة المعلومات كمية إن ويuuزداد جuuدا كuuل نمuuوا صuuفحة. مليuuار4.2 من أكثر فيGoogle موقع يبحث الحالي الوقت سنة. في

أهميuuة بنفس محددة معلومات عن التنقيب على القدرة أصبحت الوب نمو معذاتها. الوب

أنمuuاط إليجuuاد تسuuتخدم التقنيات من مجموعة من يتألف البيانات عن التنقيب بحيث بطريقuuة األنمuuاط هuuذه عن والتعبuuير البيانuuات من مجموعuuة في مفيuuدة يتم المشuروع هuذا . في[1[,]2] ذكي بشuكل القuرار التخuuاذ استخدامها يمكن

عنصuر من القاعuدة التصuنيف. تتuألف قواعuد من كمجموعuة المعرفuة تمثيuل(.Class )صف نتيجة الخصائص( وعنصر قيم من )مجموعة شرطي

IF <attrib = value> AND … AND < attrib = value> THEN <class>. الuuتي للسuuجالت القاعuuدة من به المتنبأ الصف النتيجة( هو )جزء القاعدة صف

القاعدة: على كمثال المتنبئ. صفات على تحتويIF <Salary = High> AND <Mort gate = No> THEN <Good Credit>

فهمه يمكن بأنه يتميز المعرفة تمثيل من النوع هذا )بشuuكلHeuristic حدسuuيا عن التنقيب من العuuام الهuuدف ألن هuuام المسuuتخدم. وهuuذا قبuuل حدسuuي( من

دقيقuuة, بuuل فقuuط ليسuuت الuuتي المعرفة اكتشاف هو البيانات مفهومuuة وأيضuuا من القواعuuد اكتشuuاف هuuو التصuuنيف, الهuuدف مهمuuة . في[1[,]2] للمستخدم

البيانuuات من مجموعuuة على القواعuuد هذه وتطبيق تدريبية بيانات من مجموعة بيانات لمجموعة الصحيح التصنيف توقع أمل التدريب( على أثناء تستخدم )لم

اإلختبار. التصuuنيف قواعuuد من جيuuدة مجموعuuة اكتشuuاف هو المشروع, الهدف هذا في

سuuيتم الuuتي التصuuنيف موضوعها, خوارزميuuة على بناء الوب صفحات لتصنيف اسuuتخدامها سuuيتم , حيث[3] النمuل خوارزميuuة هي البحث هذا في استخدامهاالتصنيف. قواعد الكتشاف في التنقيب في النمل خوارزمية استخدام في البحث للبحث: مهم إتجاه هو الوب

: خالل من مشهورتين وخوارزميتين النمل خوارزمية بين تجريبية مقارنة- الستقراء جدا

أن البيانات, أظهرت من مجموعات ست على طبقت(C4.5,CN2) القواعد أنها التنبؤ. إال لدقة االحترام حفظ مع منافسة فقط ليست النمل خوارزمية

فقط شملت ذلك, المقارنة . ومع[3[,]4] بساطة أكثر قواعد الكتشاف تميلالمهيكلة. البيانات مجموعة في مثال: التنقيب البيانات عن التقليدي التنقيب

أكثر الوب في التنقيب يعد- شبه أو المهيكلة النصوص يشمل ألنه تحديا عدد وجود إمكانية إن ذلك إلى الوب. إضافة صفحات في الموجودة المهيكلة

كبير وتحليلها الوب صفحات في )الكلمات( المتضمنة الصفات من جدا توقيت أن متشائمة( يظهر افتراضات )ضمن النمل خوارزمية باستخدام

حساس حسابها الضروري من السبب . لهذاAttributes [3] الصفات لعدد جدا عدد مع البيانات لمجموعات النمل خوارزمية تسلق يمكن حد أي إلى فهم التنقيب مثل الواقعي العالم من تحدي في التدريب في الخصائص من كبيرالوب. في

- )الuuتي مختلفة نصوص معالجة تقنيات استخدام تأثير دراسة المهم من أخيراالنمل. خوارزمية أداء الخصائص( على عدد تقلل

10

Page 12: Web Page Classification with an Ant Colony Algorithm

( النمل خوارزمية محمد: ( . طرابيشي منير إعداد ياسر: د الموسى بإشراف

لغوياL: النصوص ومعالجة الوب في . التنقيب2أساسية: فئات ثالث إلى الوب في التنقيب تقسيم يمكن.(Content Mining) المحتوى في التنقيب-1.(Usage Mining) االستخدام في التنقيب-2[5]. (Structure Mining) البنية في التنقيب-3

في المخزنuuة للنصوص االوتوماتيكي التحليل المحتوى: يتضمن في - التنقيب1 متuuوفرة أخuuرى وسuuائط وأي والصuuور(Email والHTML ال مثuuل) الملفuuات

الوب. على الuuوب خادمuuات من الuuدخول سuuجالت يحلuuل[6]االسuuتخدام: في - التنقيب2

الوب. يستخدمون عندما المستخدمون يتبعها التي األنماط ليكتشف من البعض بعضuuها مuuع الوب صفحات ترتبط كيف البنية: يحلل في - التنقيب3

التنقيب على يركز المشروع المثال(. هذا سبيل )على التشعبية الروابط خاللالوب. محتوى في

في بuuالتنقيب الuuوب, سuuنقوم محتuuوى في التنقيب مشuuاريع معظم * مثuuلاألخرى. والوسائط الصور ال فقط النصوص

البحث: . مشكلة3 محتuuوى في التنقيب عمليuuة تطرحهuuا الuuتي التحuuديات من البحث مشuuكلة تنبع

:ومنها الوب، بتطبيقuuات مقارنuuة معتuuاد غuuير بشuuكل )الكلمuuات( مرتفعuuة الصفات كمية)1

ي التصنيف لقواعد المحتمل والعدد األبسط البيانات عن التنقيب uuبة أسuuبالنس البحث فضاء يصبح الكلمات, لذلك لعدد جدا. كبيرا

برنuuامج اليوجuuد جدا, حيث عام( معقدة بشكل اللغات )كل االنكليزية اللغة)2 الuuوب. يمكننuuا صuuفحة معuuنى كامuuل بشuuكل يفهم أن يمكنه الحالي الوقت في

يعطينuuا أن يمكن ذلuuك نسبيا, ومع بسيط تفسير على نحصل أن نأمل أن فقط.[7] الخصائص عدد إنقاص في تساعدنا مفاتيحHTML كود

وسuuم في الوب لصفحات أوصاف أو ملخصات بترك الوب مواقع مؤلفي يقوم<meta>:مثل

<meta NAME=”keywords>” أنهuuا المؤلف يعتقد التي المفتاحية الكلمات من قائمة نجد المضمون حقل في

مثل: للصفحة مناسبة<meta NAME=”description>”

محتوى عن عامة فكرة نأمل كما يعطينا الذي من أبعuuد إلى الصuuفحة. إنطالقuuا إلختيuuار لغuuوي أسuuاس على نصuuوص معالجة أساليب تطبيق الممكن ذلك, من

النص. الصلة( من )وثيقة المناسبة الكلمات أكثرWord Net:[8] الكلمات بين العالقات من العديد يحتوي إلكتروني معجم هو.

قاعuuدة بشuuكل وعالقتهuuا للكلمuuات اإلنسuuان لفهم خريطuuة لرسم محاولة ويعد Word من لغويuuة مصuuادر ثالثuuة اسuuتخدمنا المشروع هذا إلكترونية. في بيانات

Netكالتاليللبيانات, مسبقة بمعالجة للقيام::Lمن الصرفي المعالج استخدمناأوال Word Netالسوق إلنشاء Stemsإزالة(

: الكلمة(. مثال ملحقات سوفborrowed, borrowing, borrow وجود من بدال خصائصuuنا. هuuذا قائمuuة إلى إضuuافتها سuuيتم, borrow الكلمuuة فقط لدينا يكون من يكuuون أسuuهل. ربمuuا بشكل األنماط نجد بأن ويسمح الخصائص عدد ينقص

11

Page 13: Web Page Classification with an Ant Colony Algorithm

( النمل خوارزمية محمد: ( . طرابيشي منير إعداد ياسر: د الموسى بإشراف

عنuuد المتفرقuuة, لكن الكلمuuات هuuذه من أنمuuاط على نحصuuل أن الممكن غuuير.Pattern نمط لدينا ينشأ ربما واحدةAttribute صفة في بعضها مع دمجها:Lاeeتخدمناثانيuuاس Word Netدuuل لتحديuuماء كuuا في االسuuدد أن النص. بمuuع

كبuuير الكلمuuات اسuuتخدام المفيuuد من يكuuون ربمuuا الuuوب في التنقيب في جuuدا بكماليuuة نضuuحي الجملuuة.لuuذلك موضuuوع عuuادة كونهuuا كصuuفات فقuuط االسماء

محدد. وقت في فائدة أكثر أنماط إيجاد على القدرة مقابل المعلومات:Lنستخدمثالثا Word Netونستخدمها عام بشكل ما كلمة من الفكرة اللتقاط

نفس لهuuا المختلفuuة الصuuفحات كuuانت ذاتها. فإذا بحد الكلمة استخدام من بدال في أكuuثر اتجاهuuات بإيجuuاد هuuذا لنuuا يسuuمح أن يجب محتوياتهuuا وراء الفكuuرة

, الكلمuuات: )شuuباك, سuuقف تحتوي صفحة كانت إذا ذلك على البيانات. كمثال يمكننuuا ذلuuك , قرميد( عند )مدفأة, غرفة الكلمات تحتوي أخرى باب( وصفحة

)منزل(. الكلمة Tree Root الشجرة جذر أو العالقة إليجاد Word Net استخدام تكuuون أن المحتمuuل ,من واحuuدة إلى6 من الخصuuائص عدد يقلل أن يمكن هذاWord وجuد مخuاطرة. فuإذا األكuثر أنها إال األفضل العائد ذات التقنية هذه Net

النuuوع بهذا خاطئة. للقيام جذر بكلمة ننتهي ربما الكلمات بين الخاطئة العالقة Word من( “is a“) عالقة Hypernym\Hyponym نستخدم الكلمات تعميم منNetشجرية. بنية في مرتبة الكلمات , حيث

OriginalWordsList = [Words From current web page];GeneralisedWordsList = [];RelationshipMaxLength = 2;WHILE (OriginalWordsList.Size > 2)BestRelationShip = NULL;CurrentWord = remove first word from OriginalWordsListFOR (i = 0; i < OriginalWordsList.Size)Get all relationships between all senses of CurrentWordand all senses of OriginalWordsList element i, andfor each relationship compute the number of edgesin the WordNet taxonomy between CurrentWord andOriginalWordsList element iGet the relationship with the shortest number of edges,out of all relationships identified in previous stepIF (number of edges in the shortest relationship RelationshipMaxLength)Save shortest relationship as BestRelationship:BestParent = the parent (generalized) wordBestSecondWord = OriginalWordsList element iEND FORIF (BestRelationship NULL)Add BestParent to GeneralisedWordListRemove BestSecondWord from the OriginalWordsListELSEAdd CurrentWord to GeneralisedWordsListEND WHILE

.( 1الخوارزمية ) األفضل الكلمات تعميم عالقات إيجاد

ة طورنuuا لقuuد uuتخدام طبقت) خوارزميuuة باسuuمكتب JWNL Java World Net Language)عن للبحث Hypernymsزوجuuuات من لuuuادة الكلمuuuوإع Hypernym

ةPseudo-Code الرمuuزي األفضل, الكود uuر للخوارزميuuالخوارزمية( في يظه

12

Page 14: Web Page Classification with an Ant Colony Algorithm

( النمل خوارزمية محمد: ( . طرابيشي منير إعداد ياسر: د الموسى بإشراف

Hypernym" تجuuد الخوارزميuuة الحاليuuة الuuوب صuuفحة في كلمuuة أجuuل . من)1الصفحة. ذات في أخرى وكلمة الكلمة هذه يعم األفضل" الذي

يصuuل الuuذي الطريق في الحواف من األقل بالعدد اإلرتباط هو األفضل التعميم.Hypernym ال باستخدام المعممتين الكلمتين

"لقائمuuة ذلuuك بعuuد إضuuافته يتم الكلمuuات من زوج لكuuل األفضلHypernym ال الكلمuuات القائمuuة هuuذه سuuتحتوي الخوارزميuuة انتهuuاء المعممة". عند الكلمات في القاعuuدة في لهuuا المطابقuuة الكلمuuات بuuدل تسuuتخدم سوف التي المعممة

الحالية. الوب صفحة:Ant-Miner بالنمل . التنقيب4

التنقيب مجuuال في وتطبقهuuا النمل تصرفات من الفكرة تأخذ النمل خوارزمية عن تبحث الطuuبيعي النمuuل سuuلوك في الطعuuام عن البحث من البيانuuات. بuuدال

النمuuuل, باسuuuتخدام التنقيب خوارزميuuuات في التصuuuنيف قواعuuuد عن النمالت Terms) والصuuuفات القيم من أزواج بتجميuuuع يرتبuuuط تتبعuuuه الuuuذي والمسuuuارالشروط(.

في يظهuuر بالنمuuuل التنقيب لسuuuلوك األعلى المسuuuتوى من الرمuuuزي الكuuuود.[3] في الخوارزمية حول مفصل وصف إيجاد يمكن . كما)2الخوارزمية(

حuاالت مجموعuات كuل من التدريبيuة المجموعuة بتشuغيل يبدأ بالنمل التنقيب المكتشuuفة القواعuuد قائمuuة المشروع(. وبuuدأ هذا في الوب )صفحات التدريب

خارجية.Until Loop حلقة تنفذ ذلك فارغة. بعد بقائمة هuuذه من األولى واحدة. الخطوة تصنيف قاعدة نكتشف الحلقة لهذه دورة كل

كuuل أن يعuuني الفuuيرمون, وهuuذا من نفسuuها بالكميuuة اآلثار كل لبدء هي الحلقة النملuuة قبل )من اختيارها يتم كي االحتمالية نفس لها سيكونTerms الشروط

تصاعدي. بشكل الحالية التصنيف قاعدة الحالية( لتنشأTrainSet = {all training cases};DiscoveredRuleList = []; /* initialized with empty list */REPEATInitialize all trails with the same amount of pheromone;REPEATAn ant incrementally constructs a classification rule;Prune the just-constructed rule;Update the pheromone of all trails;UNTIL (stopping criteria)Choose best rule out of all rules constructed by all ants;Add the best rule to DiscoveredRuleList;TrainSet = TrainSet – {cases correctly covered by best rule};UNTIL (stopping criteria)

التنقيب (2الخوارزمية ) لخوارزمية األعلى المستوى من الرمزي الكودبالنمل.

Repeat حلقuuة خالل من منفصuuل بشuuكل قاعuuدة كuuل بناء يتم Loop,ةuuالداخلي :خطوات ثالث من المؤلفة

تصuuنيف قاعuuدة بتشuuييد وتقوم فارغة بقاعدة النملة تبدأاألولى: * الخطوة الحاليuuة. للقاعدة مرة كل في وقيمتها خاصية إضافة خالل من تصاعدي بشكل

- يتم > Attribute i = Value j<خاصية قيمة – يمثلijالشرط الخطوة هذه في Tij(t)×Nij جuuداء مuuع متناسuuب باحتمuuال الحالية للقاعدة إضافتها ليتم إختيارها

كميuuة يمثuuل Tij(t) وijللشuuرط مسuuتقل استكشuuاف تابع قيمة يمثلNij حيث

13

Page 15: Web Page Classification with an Ant Colony Algorithm

( النمل خوارزمية محمد: ( . طرابيشي منير إعداد ياسر: د الموسى بإشراف

أدق . وبشuكلTالuوقت( فهuرسt) التكuuرار عندijبالشرط المرتبط الفيرمون للنقuuاش]1[ المثuuال انظuuرijبالشuuرط المرتبطة المعلومات عائد يمثلNij إن

المعلومات. عائد حول يكuuون التصنيف. كuuذلكijللشرط أفضل ذلك كان كلماNij قيمة ارتفعت كلما

بuuالموقع الموجود الفيرمون بكمية مرتبطTij(t)أعلى. اختياره يتم أن احتمالTijا النملة تتبعه الذي الطريق علىuuة, كلمuuودة زادت الحاليuuدة جuuتي القاعuuال

)الشروط( الطريق لمواضع المضافة الفيرمون كمية ارتفعت كلما النملة بنتها قياسuuها يتم القاعuuدة النملة. )جودة قبل )"استخدامها"( من زيارتها تمت التي

uر ذات المواقع الوقت مرور مع لذلك[3]× الدقة( الحساسية بuuل األثuuاألفض على تحتuuوي والuuتي – للقاعuuدة إضuuافته ليتم األفضل الشرط - أي تتبعها سيتمالقاعدة. بناء في اختيارها احتمال بذلك فتزيد الفيرمون من متزايدة كمية

يتم الuuتي القاعuuدة بتشuuذيب تقuuوم الداخليuuة الحلقuuة منالثانية: * الخطوة دقuuة التحسن التي الشروط – بالقاعدة مرتبط الغير الشروط إزالة أي إنشائها

تزيد ال العملية كانت إذا القاعدة من إزالتها يتم أساسي للقاعدة, بشكل التنبؤ القاعuuuدة جuuuودة مقيuuuاس بنفس تحديuuuدها يتم حيث – القاعuuuدة جuuuودة من

اآلثار. على الفيرمون لتحديث المستخدم على الفuuيرمون كميuuة بتحديث تقوم الداخلية الحلقة منالثالثة: * الخطوة

وبشuuكل النملuuة تبعتuuه الuuذي الطريuuق في الفuuيرمون زيادة خالل من اآلثار كل ارتفuuع كلمuuا القاعuuدة جودة زادت آخر, كلما القاعدة. بمعنى جودة مع يتناسب

القاعدة. بناء في التقدم أثناء تحدث التي للشروط الفيرمون زيادة معدل للتوقuuف( مثuuال: شuuروط عدة أو يتحقق)شرط حتى الداخلية الحلقة تنفيذ يتم

ينتهي المرشuuحة. عنuuدما القواعuuد من األقصuuى العدد بناء من االنتهاء يتم حتى كuuل بين من جuuودة األكuuثر القاعuuدة الخوارزميuuة تختuuار الداخليuuة الحلقuuة تنفيذ

هذه وإضافة الداخلية الحلقة في النمالت كل قبل من إنشائها تم التي القواعد الحuuاالت بحذف الخوارزمية تقوم ذلك المكتشفة. بعد القواعد لقائمة القاعدة

أن التدريب, أي مجموعة من المختارة بالقاعدة صحيح بشكل تغطيتها تم التي من المتوقuع الصuuنف نفس وتحتuuوي للقاعuدة التقuدم تحقuق التي الحاالت كل

السuuبب التuuدريب. لهuuذا مجموعuuة من حuuذفها يتم للقاعuuدة المنطقيuuة النتيجuuة من فقuuط أصغر, مؤلفuuة تدريب بمجموعة يبدأ الخارجية للحلقة التالي التكرار الuuدورات في مكتشuuفة قاعuuدة بأي صحيح بشكل تغطيتها يتم لم التي الحاالت

السابقة. لإليقuuاف شuuروط مجموعuuة أو شرط تنفيذ يتم حتى الخارجية الحلقة تنفيذ يتم

حuuدده معين حuuد من أقuuل مغطuuاة الغuuير الحuuاالت عuuدد يصuuبح مثuuال: حuuتى قائمuuة هي النمuuل باسuuتخدام التنقيب خوارزميuuة مخرجات المستخدم. وتكون

.DiscoveredRuleList المكتشفة القواعدحسابية: . نتائج5

:Experimental Setup التجربة إعداد1.5 تقنيuuة, )تعليميuuة, مختلفuuة أصuuناف ثالث من وب صuuفحة127 من مجموعuuة

ألنuه للتحليuل الموقuع هuذا باختيuار . قمناBBC الu موقع من جمعها رياضية( تم قياسuuية)Tags( وسuuوم لهuuا الصuuفحات صuuارمة, وكuuل معياريuuة بطريقة منظمالتنقيب. في استخدمها يمكن

14

Page 16: Web Page Classification with an Ant Colony Algorithm

( النمل خوارزمية محمد: ( . طرابيشي منير إعداد ياسر: د الموسى بإشراف

بين عالقuuة رسuuم الممكن من يجعuuل مرتفعuuة, ممuuا فيuuه الكتابة معايير أن كماة الحقuuuول في والمعلومuuuات المحتuuuوى uuuالتعريفي (Meta Fieldsنفuuuوالص )

)الموضوع( للصفحة. فقuuد لuuذلك صuuنف من بuuأكثر مصنفةBBC قبل من المنشورة الصفحات بعض تظهuuر وربما االتكنولوجي قسم في الصفحة تظهر التعليم. في قسuuم في أيضuuاجمعها. تم التي المجموعة من الصفحة هذه حذف يتم الحالة هذه Binary الثنائيuuة الخصuuائص من وب, مجموعuة صuفحة كuل من استخلصuuنا لقد

في مطابقuuة كلمuuة هنuuاك يكن لم أو كuuانت إذا فيمuuا تمثل خاصية )كلمات( كلمعطاة. وب صفحات

عuuدد عنuuه ينتج ربمuuا وب صuuفحة أي في الuuواردة الكلمات كل استخدام أن بما من الثالثuuة األنuuواع لتنفيuuذWordNet اسuuتخدمنا الصفات من عملي وغير هائل

الجuuزء في مناقشuuتها تم الuuتي لغuuوي أسuuاس على النصuuوص معالجuuة أساليب كمuuا األساليب هذه من كل تأثير لتقدير بها متحكم بتجارب قمنا أننا الثاني. كما

:يلي(.Stemming) السوق أسلوب وبدون مع بالتجارب قمناأ. الكلمuuات وكuuل كخصuuائص فقuuط األسuuماء باسuuتخدام بالتجuuارب قمنuuاب.

يسuuتطع لم الuuتي الكلمuuات الحuuالتين كلى كخصuuائص. في الموجuuودةWordNetا تركها يتم األسماء هذه خاصة أسماء أنها افترضنا تمييزهاuuبم

بالموضوع. ومرتبطة هامة أسماء عادة تحتوي أنها عالقuuات على المبني الكلمات تعميم استخدام وبدون مع بالتجارب قمنات.

uuuuuuuال Hypernymفي WordNetتخدامuuuuuuة )باسuuuuuuاألولى الخوارزمي (.)1الخوارزمية(

عن التنقيب في عuuادة تسuuتخدم والuuتي للنصuuوص مسuuبقة بمعالجة قمنا كذلك حذفها. يتم الترقيم عالمات مثلStop Words الوقوف كلمات النصوص. حيث

على مفيuuدة غير أو الفائدة قليلة معلومات توصل كلمات الوقوف: هي كلمات ,the“, هم" , و مثuuuال: "الuuuu – النصuuuوص في التنقيب شuuuروط في اإلطالق

and ,they”. للتحقuuقFive-Fold إجuuراء اسuuتخدام يتم المكتشuuفة القواعuuد دقuuة لقيuuاس

.Cross-Validation [1] المتقاطعة النتuuائج uuط هي المقدمuuة متوس uuبئ الدقuuا المتنuuة في بهuuة مجموعuuمن التجرب

التحقق-المتقاطع. إجراء من الخمسة التكرارات تم الuuتي[3] التاليuuة بالمعuuايير النمuuل باسuuتخدام التنقيب خوارزمية إعداد وتم

(:d) المعيار عدا ما التجارب كل في استخدمها(a)No_of_Antsة( القواعد من األقصى النمالت, مثال: العدد )عددuuالمقيم

=3000.(b)Min_cases_per_ruleالعدد( االت من األدنىuدة في الحuالقاع )دةuالواح

=10.(c)Max_uncovered_casesفة( = غير الحاالت من األقصى )العددuuالمكتش

10.(d)No_rules_convergeددuuد )عuuة القواعuuة المتعاقبuuة والمتطابقuuالمطلوب

)القيمة10 من الوسيط هذا قيمة زيادة . تمت20التقارب( = لتحديد التقارب إيقاف لمحاولة20 بالنمل( إلى التنقيب لخوارزمية االفتراضية

اسوأ. قواعد من

15

Page 17: Web Page Classification with an Ant Colony Algorithm

( النمل خوارزمية محمد: ( . طرابيشي منير إعداد ياسر: د الموسى بإشراف

لغوي: أساس على المسبقة النصوص معالجة تقنيات تأثير عن نتائج2.5 لمعالجuuة مختلفuuة تقنيuuات تأثير تقيم القسم هذا في نتائجها رأينا التي التجارب 2 و1 بالنمuuل. الجuuدول التنقيب خوارزميuuة على لغuuوي أسuuاس على النصوص

للنص( ومتوسط المسبقة المعالجة )بعد تهيئة عملية لكل الصفات عدد يبينان الرمuuز بعuuد المكتوب المعياري االنحراف مع المتقاطع الصحة من التحقق دقة

في التعميم أن على يuuuدلWN-Generalization إن االشuuuكال هuuuذه ". في±"WordNetال عالقة على مبني hypernym. Titleجمع فيه يتم الذي المكان هو يتم حيث المكuuان هuuوDescriptionالمستندات, في العنوان حقل من الكلمات

الكلمuuات لمجموعuuتي اإلتحuuاد هuuوUnion و الوصuuف حقuuل من الكلمuuات أخuuذ+ الوصف(. )العنوان.االسماء فقط باستخدام BBC نتائج خوارزمية التنقيب بالنمل على موقع ):1الجدول(

الدقةالخصائص عدد االختبارSetup تهيئة

WN-generalization2.27 ± 4177.34, العنوانWN-generalization2.37 ± 12568.01, الوصفWN-generalization5.27 ± 18870.42, اإلتحاد

Stemming5.92 ± 4669.09, العنوانStemming1.71 ± 15971.00, الوصفStemming2.86 ± 29374.79, اإلتحاد عنuuد المختلفuuةSetup التهيئuuة أنuuواع من نuuوع لكuuل الدقuuة ( يظهuuر1الجuuدول) فقط االسماء استخدام الصفات الكلمات( لتكوين أنواع كل استخدام من )بدال

Attributesالجدول: هذا لتحليل مختلفتين طريقتين . هناك صuuفحة عنuuوان حقuuل من االسuuماء اسuuتخدام تuuأثير تحليل يمكنها واحدة.1

من االسuuماء واسuuتخدام فقuuط الوصuuف حقuuل من فقط, االسماء الوب هنuuاك يوجد ال حيث بالنمل التنقيب خوارزمية أداء )اإلتحاد( على كالهما

عنuد ذلuك اإلتحuاد. ومuع أو الوصuف مقابuل بالعنوان مرتبط واضح نمط أعطتStemming السuuuuوق إيجuuuuاد أوWN-generalization اسuuuuتخدام

العنوان. أو الوصف من االسماء من أفضل نتائج اإلتحاد من االسماء مقابuuلWordNet في التعميم اسuuتخدام تحليuuل لالهتمuuام المثuuير من.2

عuدد لتقليuuل للكشuف كمسuاعدStemming السuوق اسuuلوب اسuuتخدام حقuuل مuuعWordNet في التعميم اسuuتخدام إن الحقيقuuة الصuuفات. في

الدقuة(. % من77.34) الدقuة حيث من األفضuل النتيجة يعطي العنوان اسلوب مع بالمقارنة اسوأ نتائج يعطيWordNet استخدام إن ذلك ومع

أو الوصuuف من كلمات على الخصائص احتوت عندماStemming السوقاإلتحاد.

.كل الكلمات باستخدام BBC نتائج خوارزمية التنقيب بالنمل على موقع ):2الجدول(

الدقةالخصائص عدد االختبارSetup تهيئة

WN-generalization2.93 ± 4781.00, العنوانWN-generalization2.90 ± 16368.69, الوصفWN-generalization2.62 ± 22667.81, اإلتحاد

Stemming6.04 ± 5271.28, العنوانStemming4.90 ± 18874.29, الوصفStemming4.04 ± 33970.97, اإلتحاد

16

Page 18: Web Page Classification with an Ant Colony Algorithm

( النمل خوارزمية محمد: ( . طرابيشي منير إعداد ياسر: د الموسى بإشراف

الكلمuuات كuuل استخدام عند التهيئة أنواع من نوع لكل الدقة ( يظهر2الجدول) من نوعuuان هنuuاك كuuان أخuuرى الصuuفات. مuuرة الوقوف( إلنشاء كلمات )ماعدااستخدامهما: ليتم التحليل

وإتحاد فقط فقط, الوصف العنوان استخدام أثر تحليل يمكنه أحدهما.1بالنمل. التنقيب خوارزمية أداء على والوصف العنوان

اسuuتخدام عنuuد – أن ( ظهuuر2( والجuuدول)1الجuuدول) من النتuuائج خالف على نتيجuuة. أسuuوأ ينتج - اإلتحuuادStemming السوق واسلوبWordNet في التعميم

إلى اإلتحuuاد في البحث قادنuuا الكلمuuات كuuل استخدام عند أنه يبدو السبب لهذا أصuuبح البحث فضuuاء ألن الدقuuة خفض من الكبuuير العuuدد أن جuuدا, أي كبuuيرا

لهuuا صuuلة ال الuuتي الخصuuائص من العديuuد على ليحتوي يميل )والذي الخصائصبالنمل. التنقيب خوارزمية أداء من بالمحتوى( يخفض

أسلوب مقابلWordNet في التعميم استخدام تحليل يمكنه أحدهما.2 ( أظهر2( والجدول)1للجدول) مشابه نحو . علىStemming السوق

: أناستخدام WordNetكان الخصuuائص احتuuوت عنuuدما مفيuuدا

أفضل أعطىWordNet )تعميم العنوان من الكلمات علىالدقة(. % من81.0 نتيجة

استخدام WordNetوق اسلوب من أسوأ نتائج أعطىuuالس Stemmingفات احتواء عندuuات على الصuuف من كلمuuالوص

اإلتحاد. أو2( و)1) الجuuدولين يعuuد ذلuuك ومuuع يعuuدWordNet في التعميم أن على ( دليال

فعال اكتشاف اسلوب فقuuط العنوان من كلمات على الصفات احتواء عند جدا المستخدمة الصفات مجموعات من األقل العدد ذات السيناريوهات هي والتي

الكبuuير اإلتحاد, العدد أو الوصف من كلمات الصفات تحتوي تجربتنا. عندما في إلى ويقودنuuاWordNet في للتعميم مشuuكلة يشuuكل ذلuuك أن يبدو الصفات من

.Stemming السوق اسلوب من أسوأ نتائج في محتوياتهuuا عن مuuوجز وصuuف ليكون الوب صفحة عنوان يميل الحقيقة في

في اإلرباكuuات من أقuuل لعuuدد يقودنا أن الممكن من فقط, والذي واحدة جملةWordNetلكلمة. المختلفة المعاني بين

:C5.0 خوارزمية مع بالنمل التنقيب مقارنة نتائج3.5 اسuuتخدام نتيجuuة من أفضل ( كانت2الجدول) في الكلمات كل استخدام نتيجة

قررنuuا السuuبب مجموعuuات. لهuuذا6 من4 ( في1الجuuدول) في فقuuط األسماء مuuع للمقارنuuة إضuuافية بتجربة والقيام الكلمات كل استخدام نتائج على التركيز

ذات )أداةClementine في والمطuورة جيuد بشuكل المعروفuةC5.0 خوارزمية (3الجuuدول) في اإلختبuuار هذا نتائج المعرفة(. تظهر عن للتنقيب صناعية قدرة لوسuuطائها. بالنسuuبة اإلفتراضuuية بإعuuداداتهاC5.0 خوارزميuuة تشuuغيل تم حيث

مجموعuuات إستخدمت الخوارزميتين كلتا شكل بأفضل عادلة المقارنة ولجعل متطابقuuة واختبuuار تuuدريب المتقuuاطع. التحقuuق إجuuراء من دورة كuuل في تمامuuا

الدقة اإلعتبار بعين األخذ مع المتقاطع التحقق نتائج متوسط ( يظهر3الجدول) )الحuuاالت( في الشروط من الكلي والعدد المكتشفة القواعد عدد– والبساطة

اإلفتراضuuية القواعuuد يتضuuمن ال للقواعuuد المبين المكتشفة. العدد القواعد كل.C5.0 و بالنمل التنقيب لخوارزمية

17

Page 19: Web Page Classification with an Ant Colony Algorithm

( النمل خوارزمية محمد: ( . طرابيشي منير إعداد ياسر: د الموسى بإشراف

للدقuuة باإلعتبار مغمقة, باألخذ األفضل ( النتيجة3الجدول) في تهيئة نمط لكل و التهيئuuة من أنuuواع ثالث في األفضل النتيجة بالنمل التنقيب خوارزمية حققت

C5.0ة في األفضل النتائج حققتuuة. في الثالثuuواع6 من4 المتبقيuuة أنuuلم تهيئ متطابقة الدقة معدالت قيم أن جوهريا, بما الخوارزميتين نتائج بين الفرق يكن

األولى التهيئuuة كuuانت المعيuuاري(. حيث اإلنحuuراف بالحسuuبان )آخuuذين تقريبuuاجوهريا. نتائجهما في الفرق كان اللتين التهيئتين هما الجدول من واألخيرة

المكتشuuفة, اكتشuuفت القواعuuد مجموعuuات بسuuاطة اإلعتبuuار بعين األخuuذ مuuع أنuuواع كuuل في القواعuuد من جوهري بشكل أقل عدد بالنمل التنقيب خوارزمية

كانت بالنمل بالتنقيب المكتشفة الشروط من الكلي التهيئة. العدد أصغر أيضا التهيئuuة. هuuذا أنuuواع كuuل فيC5.0 ب المكتشuuفة تلuuك عدد من جوهري بشكل المعرفuة الشuروط في جيuuد بشuكل أدت بالنمuل التنقيب خوارزميuuة أن يعuني

أن األسuuهل من سuuيجد المسuuتخدم أن أيC5.0 مuuع بالمقارنuuة فهمهuuا الممكنبالنمل. بالتنقيب المكتشفة المعرفة ويستخدم يفسر

كuل بإسuتخدام BBC في موقuع أخبuار C5.0 مقارنuة بين التنقيب بالنمuل و ):3الجدول(.الكلمات

االختبارSetup تهيئةالخوارزمي

ةالدقة

عددالقواعد

الشروط عددالكلي

WN-generalization, العنوان

التنقيب1.91 ± 0.009.40 ± 2.933.0 ± 81.00بالنمل

C5.073.19 ± 4.7712.00 ± 1.4424.80 ± 1.71

WN-generalization, الوصف

التنقيب2.58 ± 0.0012.40 ± 2.903.0 ± 68.69بالنمل

C5.067.78 ± 1.4312.40 ± 0.5027.20 ± 1.46

WN-generalization, اإلتحاد

التنقيب2.40 ± 0.0011.60 ± 2.623.0 ± 67.81بالنمل

C5.071.83 ± 2.0811.60 ± 0.4023.40 ± 0.87

Stemmingالعنوان ,

التنقيب1.70 ± 0.0012.13 ± 6.043.0 ± 71.28بالنمل

C5.077.08 ± 4.4814.00 ± 0.5426.4 ± 0.74

Stemmingالوصف ,

التنقيب2.56 ± 0.0011.66 ± 4.903.0 ± 74.29بالنمل

C5.071.03 ± 4.4111.00 ± 0.5422.25 ± 1.79

Stemmingاإلتحاد ,

التنقيب2.16 ± 0.0010.06 ± 4.043.0 ± 70.97بالنمل

C5.076.39 ± 1.0113.80 ± 1.0127.60 ± 1.63

منهuا صuفحة كuلYahoo موقuع من وب صuفحة429 مع بتجارب قمنا أننا كما وترفيuuه. وتظهuuر التاليuuة: أعمuuال, تقنيuuة الثالثuuة األصuuناف من واحد إلى تنتمي).4الجدول( في النتائج

أربuuع في األفضuuل النتيجة بالنمل التنقيب خوارزمية الدقة, أحرزت مراعاة مع التهيئuuتين في األفضuuل النتيجuuةC5.0 خوارزميuuة أحuuرزت بينمuuا تهيئuuة أنuuواع

تهيئuuة. مuuع أي في جوهريuuة تكن لم الدقuuة في اإلختالفuuات ذلك األخريين. ومع خوارزميuuة أن إال المكتشuuفة القواعuuد مجموعuuات بسuuاطة اإلعتبuuار بعين االخذ

18

Page 20: Web Page Classification with an Ant Colony Algorithm

( النمل خوارزمية محمد: ( . طرابيشي منير إعداد ياسر: د الموسى بإشراف

من جuuوهري بشuuكل أصuuغر تصنيف قواعد مجموعات اكتشفت بالنمل التنقيبالتهيئة. حاالت كل فيC5.0 بu المكتشفة تلك

Yahoo في موقuuع أخبuuار C5.0 مقارنuuة بين التنقيب بالنمuuل و ):4الجeدول(.كل الكلماتبإستخدام

االختبارSetup تهيئةالخوارزمي

ةالدقة

عددالقواعد

الشروط عددالكلي

WN-generalization, العنوان

التنقيب2.32 ± 0.2412.83 ± 2.163.6 ± 88.00بالنمل

C5.089.87 ± 1.8818.6 ± 1.2042.20 ± 6.80

WN-generalization, الوصف

التنقيب2.93 ± 0.0014.53 ± 1.993.0 ± 86.50بالنمل

C5.086.48 ± 1.2515.80 ± 1.0134.60 ± 2.54

WN-generalization, اإلتحاد

التنقيب2.62 ± 0.0013.53 ± 1.963.0 ± 88.15بالنمل

C5.086.46 ± 1.2416.60 ± 0.7439.80 ± 2.41

Stemmingالعنوان ,

التنقيب2.48 ± 0.2412.88 ± 2.523.4 ± 83.54بالنمل

C5.086.70 ± 1.1016.8 ± 0.6630.40 ± 1.80

Stemmingالوصف ,

التنقيب2.19 ± 0.2411.05 ± 1.753.4 ± 87.91بالنمل

C5.083.14 ± 3.6317.4 ± 1.0729.00 ± 1.22

Stemmingاإلتحاد ,

التنقيب2.33 ± 0.0012.00 ± 2.623.0 ± 90.01بالنمل

C5.089.29 ± 2.0911.2 ± 0.1921.40 ± 0.87

. خاتمة:6 على بالنمuuل التنقيب لتطuuبيق األولى المحاولuuة هuuو المشuuروع هuuذا كuuان لقuuد

تتمثuuل التحuuديات, الuuتي من العديuuد تطرح التي الوب صفحات تصنيف مشكلة المعقدة والطبيعة الصفات من الكبير بالعدد الكلمuات. هنuاك بين للعالقuة جدا

حuتى الuوب في التنقيب في النمل خوارزمية استخدام حول آخران مشروعان بشuuكل مختلuuف بحثنuuا فuuإن ذلuuك [. ومع11[ و]6] في البحث, مشروحة تاريخ لمهمuuة مuuوجهين المشروعين بينما التصنيف لمهمة موجه أنه حيث عنهما كبير

[.2] التصنيف عن كبير بشكل تختلف والتيClustering العنقدةيلي: فيما البحث هذا ساهم * لقد:Lأظهرأوال : أن األكuuثر الخوارزميuuة مع بالمقارنة دقيقة نتائج تعطي النمل خوارزمية إنأ.

.C5.0 ثباتا أكثر بشكل المعرفة تكتشف بالنمل التنقيب خوارزميةب. ,C5.0 من إيجازا

المستخدم. قبل من المعرفة تفسير بذلك ميسرة تتفق النتائج هذه بالنمuuل التنقيب خوارزميuuة مقارنuuة من سابقة نتائج مع تماما البيانuuات, كمuuا في التقليuuدي التنقيب فيCN2 وخوارزميةC4.5 خوارزمية مع الخوارزميuuات من بسuuاطة أكuuثر قواعuuد مجموعuuات وجuuد بالنمuuل التنقيب أن

[.4[, ]3] األخرى

19

Page 21: Web Page Classification with an Ant Colony Algorithm

( النمل خوارزمية محمد: ( . طرابيشي منير إعداد ياسر: د الموسى بإشراف

:Lاثانياuuا كمuuينا أننuuاط استقصuuؤثر اإلرتبuuات بين المuuة تقنيuuبقة المعالجuuالمس أداء وبين – الصuuفات عuدد لتقليuuل اسuuتخدمناها- لغuوي أساس على للنصوص النمuuل خوارزميuuة عن بحث أول علمنuuا حuuد على هuuذا أن بالنمل. كمuuا التنقيب

بسuuيط بشuuكلWordNet اسuuتخدام أن أظهuuرت . النتuuائجWordNet يسuuتخدمغالبا. مفيد الكلمات لتعميمHypernym عالقة إليجاد

مuuع التعامل عند عنه ينتج أن يمكن الذي التفسير وسوء األخطاء فإن ذلك ومع وأكuuuثر أطuuuول جمuuuل المuuuيزات يبطuuuل أن األحيuuuان بعض في يمكن تعقيuuuدا

أعاله. المشروحة باسuuتخدام الكلمuuات تعميم كان البحث هذا في استقصيناه الذي السيناريو في

WordNetيطة بمعاني قصيرة جمل على يطبق كان عندما فائدة األكثر هوuuبس Stemming السuuوق بأسuuلوب الكلمuuات ترتيب يكون العنوان. قد حقل في كما األكثر الجمل مع فعالية أكثر كبuuير- بشuuكل الصuuفات عuuدد يuuزدد لم إذا– تعقيدا

بالنمل. التنقيب خوارزمية على بذلك ليتفوق

المراجع:1. Nicolas Holden and Alex A. Freitas. Web Page Classification with an Ant

Colony Algorithm, Computing Laboratory, University of Kent 2005.2. I.H. Witten and E. Frank. Data Mining: Practical Machine Learning Tools with

Java Implementations, Morgan Kaufmann Publications, 2000.3. U.M. Fayyad, G. Piatetsky-Shapiro and P. Smyth. From data mining to

knowledge discovery: an overview. In: U.M. Fayyad et al (Eds.) Advances in Knowledge Discovery and Data Mining, 1-34. AAAI/MIT, 1996.

4. R.S. Parpinelli, H.S. Lopes and A.A. Freitas. Data Mining with an Ant Colony Optimization Algorithm. IEEE Trans. on Evolutionary Computation, special issue on Ant Colony algorithms, 6(4), pp. 321-332, Aug. 2002.

5. R.S. Parpinelli, H.S. Lopes and A.A. Freitas. An Ant Colony Algorithm for Classification Rule Discovery. In: H.A. Abbass, R.A. Sarker, C.S. Newton. (Eds.) Data Mining: a Heuristic Approach, pp. 191-208. London: Idea Group Publishing, 2002.

6. S. Chakrabarti Mining the web: discovering knowledge from hypertext data. Morgan Kaufmann, 2003.

20

Page 22: Web Page Classification with an Ant Colony Algorithm

( النمل خوارزمية محمد: ( . طرابيشي منير إعداد ياسر: د الموسى بإشراف

7. A. Abraham and V. Ramos. Web Usage Mining Using Artificial Ant Colony Clustering and Genetic Programming. Proc. Congress on Evolut. Comp. (CEC-2003). IEEE Press, 2003.

8. M. Cutler, H. Deng, S. S. Maniccam and W. Meng, A New Study Using HTML Structures to Improve Retrieval. Proc. 11th IEEE Int. Conf. on Tools with AI, 406-409. IEEE, 1999.

9. C. Fellbaum (Ed.) WordNet - an electronic lexical database. MIT, 1998.10. E. Bonabeau, M. Dorigo and G. Theraulaz. Swarm Intelligence: from natural to

artificial systems. Oxford, 1999.11. M. Dorigo and L.M. Gambardella, Ant colonies for the traveling salesman

problem. Biosystems 43, 73-81. 1997.12. K.M. Hoe, W.K. Lai, T.S.Y. Tai. Homogeneous ants for web document

similarity modeling and categorization. Ant algorithms, LNCS 2463, 256-261. Springer, 2002.

13. R. Schoonderwoerd, O. Holland, J. Bruten, Ant-like agents for load balancing in telecommunications networks. HP Labs Technical Report, HPL-96-76, May 21, 1996.

المتجول البائع مسألة على النمل خوارزمية الموسى, تطبيق ياسر.14.2010حلب, الماجستير( جامعة لطالب )محاضرات

,www.alhasebat.net الحاسبات النمل. منتدى خطيب, خوارزمية محمد.152006.

الفريق عامة(. منتدى )لمحة االصطناعي اللطيف, الذكاء عبد حسن.16.www.arabteam2000.com, 2009 للبرمجة العربي

االنترنت: مواقع1.www.wikipedia.com.2.www.googlescholar.com.

21