Post on 16-Apr-2017
احسان عسگریان: ارائه دهنده
9/27/2016
1
حجمذخيرهبرايمتعددابزارهايودادهپايگاههايسيستمگسترشهادادهباالي
ونيانسانيروينظرازدادهانبوهحجمرويعملياتانجامبااليهزينهمحدوديت-2،کاروکسبکلباآشناخبرهنيرويکمبود-1)مادي
(دادهبااليحجمبابرخورددرانسانخطايوناتوانيحافظه،
کمبودوليداريماختياردرکهاطالعاتودادهبااليحجموجودباميشوداحساسبشدتدانش
کاربردخالتکمترينبادانشکشفبرايخودکارروشهاييبهنياز
9/27/20162
1960ازتوسطدادههاجمعآوريومديريتسيستمهايايجادIBM, CDC
وکامپيوترهاديسکهارويدادههاذخيره(سالگذشته5محاسبهکلسوديکفروشگاهدر)بازيابيايستا
1970ازدادههايرابطهايطراحيمدلپايگاهايجادپايگاهدادههايرابطهاياوليهايجادزبانپرسوجوبرايتهيهگزارشاتازپايگاهداده(زانهميزانفروشيککاالدريکشعبهبصورترو)بازيابيپويادرسطحرکورد
1980از(توسعهمدلرابطهاي،مدلهايشيگرا،)دادههاپايگاهمدلهايپيشرفتهطراحي...شاخصگذاريوسازماندهيدادههاباDBMSهايDB2،Oracle،Sybase
(دادههايمکاني،مهندسي،)کاربردايجادپايگاهدادههايوابستهبه...بازيابيپويابهينهسازي
9/27/20163
1990ازچندبعديدادههايپايگاهايجادData WarehouseوOLAP
بازيابيپويادرچندسطح(باامکانDrill Down)OLAPاقبگويدچرااتفنميتوانداطالعاتکامليازرخدادهايگذشتهميدهد،ولي
.کندپيشبينيافتادهويا(دادهکاوي)پيدايشايدههاياوليهکاوشواستخراجدانشازانبارهدادهها
2000ازابزارهايپيشرفتهمانندSPSS/Clementine, SGI, SAS
دادههاوسيستمهاياطالعاتيعموميکشفالگوهايجديددرپايگاهبازيابيپويابانگاهپيشروبهآينده؟فروشيککاالدرماهآيندهدريکشعبهخاصچقدراست؟وچرا
درحالحاضر(دادهکاويپويا)دادهکاويبررويکالندادهوجرياندادههاويدئو،متن،تصوير)کشفالگوهايجديددرمنابعناهمگونوبوشبکههاياجتماعي،
(صداتحليلنظراتوسليقهشخصيمشتريان،تحليلبازاربورسو...بازيابيپوياولحظهاياطالعاتمتناسبباکاربردهايخاص،دادههاينامتوازنو...
9/27/20164
9/27/20165
“…The non-trivial process of identifying valid,
novel (previously unknown), potentially useful,
and ultimately understandable (implicit)
patterns in data…”
Fayyad, Piatetsky-Shapiro, Smyth [1996]
data source: databases, texts, web, images, video, etc.
9/27/20166
Statistics
MachineLearning
Databases
Visualization
Data Mining and
Knowledge Discovery
9/27/20167
Data Analysis Tests for statistical
correctness of models Are statistical assumptions
of models correct? Eg Is the R-Square good?
Hypothesis testing Is the relationship
significant? Use a t-test to validate
significance
Tends to rely on sampling Techniques are not
optimised for large amounts of data
Requires strong statistical skills
Data Mining Originally developed to
act as expert systems to solve problems
Less interested in the mechanics of the technique
If it makes sense then let’s use it
Does not require assumptions to be made about data
Can find patterns in very large amounts of data
Requires understanding of data and business problem
9/27/20168
(گيگاياترابايت)حجمانبوهدادهاستنمونهگیریآماریمبتنیبرروشهای.
باحجمزيادوباابعادمختلفدادههايژنتیکیعکسها،دادههایووب،تصاویر
دادههاهناشناختهمفيدازدرونحجمانبوالگوهايکشفاطالعاتنهفتهووتسهاازدادهاییرمجموعهزارتباطمیانبرایتوصیفالگویمفید،مدلی
.معتبر،ساده،قابلفهموجدیداست
پيچيدهتروروابطدادههاحجمبيشتردسترسیبهاطالعاتنهفتهدرمیاندادههامشکلترنقشدادهکاویروشنتر
9/27/20169
مخفيدردادهها(الگوهايجالبتوجه)جستجوبرايدانش
9/27/201610
9/27/201611
Increasing potential
to support
business decisions End User
Business
Analyst
Data
Analyst
DBA
Making
Decisions
Data Presentation
Visualization Techniques
Data Mining
Information Discovery
Data Exploration
OLAP, MDA
Statistical Analysis, Querying and Reporting
Data Warehouses / Data Marts
Data SourcesPaper, Files, Information Providers, Database Systems, OLTP
9/27/201613
Data
Warehouse
Data cleaning & data integration Filtering
Databases
Database or data warehouse server
Data mining engine
Pattern evaluation
Graphical user interface
Knowledge-base
هادادهپردازشحجمانبوهبازيابيوحجمبااليدادههاابعادبااليدادههاطبيعتتوزيعشدهدادههادادههاطبيعتناهمگن
ونرمالسازي،تبديل)نامناسبدادهومختلفيفرمتها
...(پااليشداده،کدگذاريو
یژگیهایوعریفمختلفازقبیلتهایتکنیکعملیاتونیازبهودموجویژگیهایجدیدباانجامعملیاتریاضیومنطقیروی
9/27/201614
امخبيکيفيتياگمشدهدادههاينامعتبرومقاديرادهمختلفبرایپاکسازیدالگوریتمهایوروشهااستفادهاز
دادههاويکپارچگيبروزرساني
حفظحريمشخصيدادهها
حجمبااليدادههاودادههايجريابي
کاوشانتخابروشهايکارابراي
9/27/201615
وقايعآيندهبراساسروندگذشتهپيشبيني
يالگوبرايشناسايطبقهبندياشياء،افراديااتفاقات
يهاويژگوافرادبراساسصفاتودستهبندياشياء
وقايعيکهاحتمالداردهمزمانرخدهندشناسايي
شودميوقايعيکهيکيباعثوقوعديگريشناسايي
9/27/201616
9/27/201617
3832
20 17 14 13 13 13 12 12 12 11 11 10 9 8 8 8
CRM/Consumer analytics BankingFraud detection2 financeDirect Marketing OtherInvestment Credit ScoringTelecom RetailAdvertising BiotechScience InsuranceHealth care E-Commerce
http://www.kdnuggets.com/polls/2008/data-mining-applications.htm
کمکبهمديريتارتباطبامشتريچينشمحصوالتتحليلسبدخريدو(ترياننيازوعالقهمشکاالهايمورد)موردنيازبهمشتريانمحصولپيشنهادشناساييعواملموثردرجذبمشتريانجديد(ازنظرعاليق،سطحدرآمد،)مختلفمشترياندستهبنديمدلهاي...(هايخريدتعيينالگو)بازاريابيوتبليغاتمتناسبباسليقههرمشتري
پيشبينيميزانفروشمحصوالت
تدارکاتسفارشاتوتجديدفروش،خريدو(برنامهريزيانبار)وانبارداريکاالبهينهسازيتجارتونقلومديريتحملتوزيعوتدارکاتکاال
9/27/201618
مشتريانبرايبهبودسرويسهاتحليل
ريسکانواعمشتريانوبيمههاتحليل
مشتريانجديدتوسطنامههايبيمهخريدپيشگوييميزان
تشخيصمواردمشکوکبهتقلب
حليلشناساييعواملتاثيرگذاربررضايتمشتريانبهکمکت
مشتريان(وفاداري)ميزانماندگاري
9/27/201619
تحليلسودبخشيمشتريان
(برايوام)مشتريمديريتاعتباربراساسردهونوع
هخدماتبتحليلسرويسهايمختلفبانکيبرايبهبودفرآيند
مشتريان
تشخيصمشتريانثابتومعتبر
شناساييحسابهايدارايگردشماليمشکوک
الگوهايکالهبرداريازطريقسابقهتراکنشهاپيشبيني
9/27/201620
بيمارانميزانموفقيتاعمالجراحيبراساسشرايطپيشبيني
شناساييعللوعواملموثردربروزبيماريها
تشخيصنسبيبيماريهايخاصباتوجهبهعالئم
پيشنهادداروييوپيشبينيتاثيرداروهابربيمار
شناساييروابطبينبيماريهادرطولزمان
9/27/201621
بهينهسازيمسيروايستگاههايوسائلنقليهعمومي
شناسااييمسايرهاوزمااناوجترافياک)تحليلدادههاايمکااني،...(بهينهسازيمکاندوربرگردانهاو
ي،اناواعحادثاهخساارت)نقاطحادثهخيزشاهريتحليلوشناساييوتشخيصعواملموثربرآن(جرحي،منجربهفوت
پيشبينيخادماتحمالونقالعماوميدرونشاهريماوردنياازشهروندان
زمانبنديوتنظيمهوشمندچراغقرمزچهارراهها
زمانسفربراساستحليل(پيشنهادمسيرهوشمند)مسيريابيپويا
9/27/201622
فروشوشناسايينيازمنديهاپيشبينيبرنامهريزيانبارنقلمديريتحملوقطعاتدرآيندهبرايسفارشاتوتامينپيشنهادکاالوتدارکاتمديريتکميوکيفينحوهتوزيعوتحليل
(تحليلرضايتونيازمشتريان)عواملموثربرجذبسفارش
رقابتتحليلرفتاروجهتشرکتهايرقيبدستهبنديمشتريانورويهقيمتگذاريبرايهردستهتعييناستراتژيقيمتگذاريبرايرقابتدربازار
9/27/201623
يکپارچهسازيمجموعهدادههايناهمگونزيستيبکهپروتئينهاياروابطدرش(چهارم/سوم/دوم/اول)پيشبينيساختار
ژنومواليهايتحليلالگوهايتکرارشونده،ترازبندي،تشخيصويژگيدرت
ژنيوپروتئينيابزارهايمجسمسازيوتحليلدادههايزيستي
9/27/201624
(آوريازنظررفتاريياسود)مشتريانوتقسيمبنديشناسايي
(لترگذاريفي)شناساييالگوهايمشکوکبهتقلبياسوءاستفاده
لافمشاتريانمخت(ماوردعالقاه)پيشبينيسرويسهايموردنياز(يآنهاتبليغاتوپيشنهادبهمشتريانبرحسبنيازوعالقمند)
وفااداريتحليلماندگارييا)شناساييعواملموثردررضايتمشتريان(مشتريان
9/27/201625
تحليلالگوهايدادههايجرياني
تعيينعواملوويژگيهايموثردرانواعحمالت
شناسايياعماليادرخواستهايغيرمتعارفدرشبکه
ابزارهااايمجسمسااازيعملياااتکاااربرانوانااواعمنااابعمااورددرخواستآنهادرطولزمان
9/27/201626
دستهبنديياخوشهبنديمتونتعيينموضوعخبريادستهبندياخبارشناساييهرزنامههادرپستالکترونيکبازيابياطالعاتمرتبطبايکمفهوم
متناستخراجاطالعاتاز
تعيينشباهتمتون(سرقتادبي)کشفتقلبنگارشييوناداريدرسيستمهاياتوماسپيگيرينامههايمرتبطيادستوراتمشابهجستجويبخشنامههاوآييننامههادرسيستمهاياتوماسيوناداريتشخيصنويسندهمتن
9/27/201627
1اشتباه:مجموعهايازابزارهاکهدادههايناقصراتکميلميکند.
1واقعيت:دادهکاويابزارنيستبلکهيکفراينداست(CRISP-DM)هاييابزارهاييکهبرايدادهکاوياستفادهميشوندبهتن
.نميتوانندمشکلدادههاراحلکنند
9/27/201628
2اشتباه:بومستقلازکس)يکفرايندخودمختاروازقبلمشخصاست
(کاررباکميتغييرروشوتکنيک،دادهکاويقابلاستفادهد
سازمانهايمختلفاست
2واقعيت:درهرفازدادهکاويبشدتبهدخالتفردخبرهنيازدارداشدبعدازايجادمدلاوليه،نيازبهبروزرسانيواصالحآنميب
9/27/201629
3اشتباه:سودناشيازدادهکاويبهسرعتهزينههايخودراجبران
ميکند
3واقعيت:نرخبازگشتسرمايهپروژههايدادهکاويبسيارمتغيرهست(متفاوت)يلبازگشتسرمايهدادهکاويبستگيبهعواملزياديازقب:
نه،هزي(شخصخبره)ميزانهزينهراهاندازي،هزينههايپرسنليدارد...آمادهسازيدادهها،اهميتحوزهکسبوکارو
9/27/201630
4اشتباه:نرمافزارهايدادهکاويبراحتيقابلاستفادهاست
4واقعيت:کهدرنرمافزارهاپيادهسازي)تکنيکهايعموميدادهکاوي
.ندبراحتيقابلاستفادهبرايپروژههايمختلفهست(شدنددانشوليتحليلدادههاوهدفدادهکاويبايدترکيبياز
منهشناختداودربارهتکنيکها،روشهاوکاربردهايدادهکاوي.باشدمسئلهخاص
9/27/201631
5اشتباه:دمشکالتدرونکسبوکارسازمانراشناساييميکن(علت)دادهکاويدرکسبوکاربادادهکاويحل(نقاطمبهموپرسشها)همهمشکالت
.ميشود
5واقعيت:فرايندکشفدانشبسياريازالگوهايرفتاريراپوششنميدهد.تنتاجاس(فردخبرهمانندمدير)نتايجفراينددادهکاويبايدتوسطانسان
سازمانمشخصگردد(کسبوکار)شدهودليلمشکالتمتعريفوانجافراينددادهکاويباتوجهبهاهدافکسبوکارسازمان
.ميشود
9/27/201632
6اشتباه:دادهکاويبصورتخودکاردادههاراپاکسازيوآمادهميکند
6واقعيت:اغلبدادهکاويبررويدادههايسيستمهايقديميکارميکند
خيلياوقاتنظارتودقتزياديبرروياينوروددادههانبودهواينهستند...دادههاناقص،حاويفيلدهايخالي،نويز،ناسازگاريو
تدادههاس(آمادهسازي)مشکلترينفازدادهکاوي،فازپيشپردازش
9/27/201633
7اشتباه:دادهکاوييکفرايندآنالينباابزارهايازپيشآمادههست.
7واقعيت:دادهکاوييکفرايندکامالًآفالينوتکرارياست
يآمادهابزارهاي(الگوريتمهاوتکنيکها)تنهابرايبرخيمراحلرهاغلبمراحلفراينددادهکاويبهدانششخصخب.شدهاست
.وابستگيدارد
9/27/201634
برايکاويمناسبداده:دادههاداردجديدوارتباطبينالگوهايکهنيازبهشناساييحوزهايهر.دادههااحساسشود(خالصهسازيوتوصيف)نيازبهگروهبندي.نيازبهپيشبينيپديدههاومشخصکردننيازهايآتينيازبهتحليلوبررسينتايجحاصلازانجاميارخداديکپديدهتحليلعلتوويژگيهايموثردررخداديکپديده
موفقدادهکاوي:شرايطاصليدادهها:
(تعدادکافينمونهها)زيادحجم،(ثبتويژگيهايمتناسبباهدف)کافيبودنويژگي،(بدونفيلدخالي)،کامل(بدونغلطونويز)کيفيتبا،(واقعي)معتبردادهمنابع:صحتداده
(باتوجهبهدادههاوهدفسازمان)کاويروشصحيحدادهانتخاب
9/27/201635
36
9/27/201637
روشهایدادهکاوی
(بدونناظر)توصیفکنندهDescriptive
(Clustering)خوشهبندی
Association)کشفقوانینوابستگی
Rule Mining)
Sequential)کشفالگوهایترتیبی
Pattern Discovery)
(رباناظ)پیشبینیکنندهPredictive
(Regression)رگرسیون
(Classification)دستهبندی
Deviation)تشخیصوکشفتقلب
Detection)
38
oيادگيرينظارتنشدهoوصياتبراساسخصبهتعداديخوشهنامتجانسدادههايطبيعيگروهبندي
مشابهoههادستپيوستگيداخليهردستهوهمبستگيخارجيکمباسايرoدادههاايبراساسنزديکيفاصالهمياانرکوردهااودرصادقارارگارفتن
خوشههاوروديدر
oتفاوتباطبقهبنديکاردرشروعهاخوشهنامعينبودن–
9/27/2016
وده و پیدا نمودن گروه های اشیاء بطوریکه اشیاء درون هر خوشه شبیه یکدیگر ب.اشیاء خوشه های مختلف متفاوت یا غیرمرتبط یا یکدیگر باشند
Inter-cluster distances are maximized
Intra-cluster distances are
minimized
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
0
0.5
1
1.5
2
2.5
3
x
y
Iteration 1
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
0
0.5
1
1.5
2
2.5
3
x
y
Iteration 2
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
0
0.5
1
1.5
2
2.5
3
x
y
Iteration 3
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
0
0.5
1
1.5
2
2.5
3
x
y
Iteration 4
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
0
0.5
1
1.5
2
2.5
3
x
y
Iteration 5
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
0
0.5
1
1.5
2
2.5
3
x
y
Iteration 6
p4
p1p3
p2
p4
p1 p3
p2
p4p1 p2 p3
p4p1 p2 p3
Traditional Hierarchical Clustering
Non-traditional Hierarchical Clustering Non-traditional Dendrogram
Traditional Dendrogram
42
معايبافزونگينامناسببرايدادههايباخصوصياتنامربوطودارايدقتکمترازروشهايديگر
کاربردتقسيمبنديبازارمحصولشناساييمشتريانبازاريابيمستقيمخوشهبندياسناد
9/27/2016
43
عهکشفوتوليدالگوهاييکهوقوعيکرخدادرابراساسواقديگرپيشگوييکند
TID Items
1 Bread, Coke, Milk
2 Beer, Bread
3 Beer, Coke, Diaper, Milk
4 Beer, Bread, Diaper, Milk
5 Coke, Diaper, Milk
Rules Discovered:
{Milk} --> {Coke}
{Diaper, Milk} --> {Beer}
Supportتراکنشهايخريدازدرصد/.0001تنهادر
نابراينبداشتند،،شيروپيچگوشتيباهم:ناستدرجهپشتيبانيبرايقانونزيرپايي
"شير→ پيچگوشتي"
Confidence%80"نان→ پنير"درجهاطمينانقانون
تراکنشهايخريد،اگرنان%80در.است.پنيرنيزوجودداردباشد،وجودداشته
9/27/2016
44
مديريتموجوديوانبار
تبليغاتوبازاريابيچندکاال
مديريتچيدمانقفسههايفروشگاه
سيستمهايتوصيهگر
9/27/2016
شناساييترتيبوقايعبراساساطالعاتگذشتهمشتريانکهکتخاکستريخريدهاند،ششماهبعد%1:40مثال
.شلوارمشکيخريدهانديابديکماهبعدازفروشسيستم،فروشنرمافزارافزايشمي:2مثال.
نيازبهدادههايکامل،دقيقومعتبر
نتيجهبرنامهريزيتوليدبهترمديريتبهينهانبار
9/27/201645
46
متغیرهاایرسبراساسپیوستهمتغیریکپیشبینی•یغیرخطیاخطیوابستگیمدلیکمبنایبر
حلیلمثلت)متغیراصلیزماناست:پیشبینیسریزمانی(اتغییراتسهامدردادههابورسیاتغییروضعیتآبوهو
وشپیشبینیمیزانفروشیکمحصولجدیدبراساسفریغاتمحصوالتمشابهدرگذشته،مشخصاتآنهاومیزانتبل
انجامشدهبرایآنها
9/27/2016
47 9/27/2016
48
الگوطبقهبندیاشیاوافرادبرایشناسایی•یادگیرینظارتشده•
درختتصمیم-شبکهعصبی-بیزین--....
9/27/2016
49
بازاريابيمستقيم
تشخيصاسپم
شناساييوطبقهبنديمشتري
پيشبينيوضعيتآينده
9/27/2016
50
Tid Refund MaritalStatus
TaxableIncome Cheat
1 Yes Single 125K No
2 No Married 100K No
3 No Single 70K No
4 Yes Married 120K No
5 No Divorced 95K Yes
6 No Married 60K No
7 Yes Divorced 220K No
8 No Single 85K Yes
9 No Married 75K No
10 No Single 90K Yes10
Refund
Mar St
Tax Inc
YESNO
NO
NO
Yes No
MarriedSingle, Divorced
< 80K > 80K
Best when the predictor variables are
categorical
9/27/2016
51
Tid Refund MaritalStatus
TaxableIncome Cheat
1 Yes Single 125K No
2 No Married 100K No
3 No Single 70K No
4 Yes Married 120K No
5 No Divorced 95K Yes
6 No Married 60K No
7 Yes Divorced 220K No
8 No Single 85K Yes
9 No Married 75K No
10 No Single 90K Yes10
Training
SetModel
Learn Classifier
Refund MaritalStatus
TaxableIncome Cheat
No Single 75K ?
Yes Married 50K ?
No Married 150K ?
Yes Divorced 90K ?
No Single 40K ?
No Married 80K ?10
Test
Set
9/27/2016
Support Vectors
Small Margin Large Margin
52
53
هکشفتغييراتدردادههابراساسرفتارنرمالگذشت(تفاوتاصليباروشهايدستهبندي)کشفحمالتجديد:
کهتندهسنفوذياتقلبمواردکشفبهقادرروشهادستهايناستندادهرخآنهامشابهقبالً
مواردونهاينگتشخيصبهقادردستهبنديروشهايحاليکهدر.نيستند(نداردوجودآنهاباارتباطدرآموزشيموردکه)
مثالکاربردتشخيصحملهيانفوذدرشبکهاريکشفالگوهايخريدغيرنرمالتوسطکارتهاياعتب
9/27/2016
9/27/201654
55
56 9/27/2016
0.0%
5.0%
10.0%
15.0%
20.0%
25.0%
30.0%
35.0%
40.0%
45.0%
50.0%
2011
2013
2014
www.kdnuggets.com/
57 9/27/2016
58 9/27/2016
59 9/27/2016
60 9/27/2016
61 9/27/2016
62 9/27/2016
63 9/27/2016
64 9/27/2016
65 9/27/2016
66
ب مناسبخش از داده های انتخاب و استخراج داده ها : نمونه گیری مناسب(کسب و کار)داده های سازمان برای انجام داده کاوی از میان انبوه
از برای یافتن روابط احتمالی یا انحراف: تحلیل اکتشافی داده هاتحقیقایده های و رسیدن به اهداف و داده ها در غیرمعمول معیارهای
راهم و تبدیل متغیرها برای ف، انتخاب به واسطه الحاق: داده ها تعدیلمدل هاساخت شرایط ساختن
دن به هدف شناسایی روابط بین متغیرها که پیش بینی و رسی: مدل سازی.مطلوب ما را تسهیل می نماید
ام با استفاده از داده های واقعی کیفیت مدل برای انج: مدل ها ارزیابی.داده کاوی ارزیابی می شود
9/27/201667
درک مساله(Business understanding)
فهم داده(Data understanding)
آماده سازی داده(Data preparation)
مدل سازی(Modeling)
ارزیابی(Evaluation)
توسعه(Deployment)
9/27/201668
9/27/201669
تجارتدرك ها هدرك داد
پيش پردازش
مدل سازي
ارزيابي
بکارگيري
دادهها
9/27/201670
فرایندCRISP-DM(اصالحیابهبود-تکرار)چرخشیپروسهیکدر.می دهدانجامراکاویدادههدف
استشدهدادهنمایشمختلفمراحلمهموابستگی هایتنهاشکلدر.
داردنیازقبلفازهاینتایجبه(شکلدر)بعدفازکلیبصورت.
بهرگشتببهنیازاستممکن(بعدفازبهرفتنبجای)فازهرانجامازبعد.باشدقبلفازهای
DataUnderstanding
Collect Initial DataInitial Data Collection
Report
Describe DataData Description Report
Explore DataData Exploration Report
Verify Data Quality Data Quality Report
BusinessUnderstanding
Determine Business Objectives
BackgroundBusiness ObjectivesBusiness Success Criteria
Situation AssessmentInventory of ResourcesRequirements,Assumptions, andConstraintsRisks and ContingenciesTerminologyCosts and Benefits
Determine Determine Data Mining
GoalData Mining GoalsData Mining Success
Criteria
Produce Project PlanProject PlanInitial Asessment of Tools and
Techniques
9/27/201671
9/27/201672
Data Preparation
Data SetData Set Description
Select Data Rationale for Inclusion /
Exclusion
Clean Data Data Cleaning Report
Construct DataDerived AttributesGenerated Records
Integrate DataMerged Data
Format DataReformatted Data
Modeling
Select ModelingTechnique
Modeling TechniqueModeling Assumptions
Generate Test DesignTest Design
Build ModelParameter SettingsModelsModel Description
Assess ModelModel AssessmentRevised Parameter Settings
Evaluation
Evaluate ResultsAssessment of Data
Mining Results w.r.t. Business Success Criteria
Approved Models
Review ProcessReview of Process
Determine Next StepsList of Possible ActionsDecision
Plan DeploymentDeployment Plan
Plan Monitoring and Maintenance
Monitoring and Maintenance Plan
Produce Final ReportFinal ReportFinal Presentation
Review ProjectExperience
Documentation
Deployment
9/27/201673
شناسایی و آشنایی با دامنه کاربرد یا کسب . های انتخاب حوزه)و کار 1(مهم سازمان
تشخیص اهداف بکارگیری یا کاربردهای مفید داده کاوی در سازمان. 2مورد نظر( کسب و کار)
شناسایی منابع داده و ویژگی ها . به مربوط( فیلدها، متغیرها یا عوامل)3هدف
نمونه برداری . از میان داده های سازمان( بازه زمانی محدود)حجم محدود داده 4
پیش پردازش و آماده سازی داده ها . ها، پاک سازی و تبدیل و کدینگ داده)5...(انتخاب ویژگی های مهم و تاثیرگذار بر هدف و
انتخاب بهترین روش از میان الگوریتم های مختلف موجود . عه یا توس)6و تنظیم ( یک الگوریتم جدید مختص به داده ها و کاربرد فعلی
پارامترهای روش انتخاب شده
انجام فرایند اصلی داده کاوی و ساخت مدل یا استخراج الگوهای . 7
مخفی میان داده ها
ارزیابی خودکار توسط معیارهای مشخص شده برای روش های . 8
بهبرگشت)دانش کشف شده /داده کاوی برای تعیین کیفیت مدل(بستهبهکیفیتنتایج6یا5مرحله
اجرای فرایند بر روی داده های واقعی و پس پردازش نتایج . ر تفسی)9(نتایج و شناسایی و انتخاب الگوها یا دانش مفید و با ارزش
استفاده از الگو. یا ( دنیای واقعی)دانش بدست آمده در کسب و کار /01(تبدیل دانش به حکمت)مدیران تصمیم گیری
76 9/27/2016
آشناييباروشها،تکنيکهاوابزارهايدادهکاوي
آشناييکليبامفاهيمفرايندکاوي،انبارهدادهوداشبوردهايمديريتي
تکنيکهايبدونناظر،باناظرونيمهناظر
آماده،ابزارهايپردازشدادههايعظيموبرنامهنويسيدادهکاويابزارهاي
پيشپردازشدادهوتحليلالگ
آشناييباکسبوکارسازمان
فرايندوگردشکار؛گردشدادههامصاحبهبامديرانبرايشناساييچالشهاومشکالتسطحکالنسيستممصاحبهباکارشناسانبرايشناساييچالشهاومشکالتعملياتيسيستمشناختمشکالتوراههايتقلبدرسيستمموجودفعليدرسيستم(ناموجود)آشناييباگزارشاتموجودوگزارشاتموردنياز
9/27/201677
آشناييباکاربردهايدادهکاويدرحوزههايمشابه
بيمه،،معموالًاهدافوکاربردهايدادهکاويدرمحيطهايآموزشي،بانکداري
.تکراريهستند...توليديوشرکتهايفروشگاهها،
ادهکاويباروشهاوتکنيکهايد(باتوجهبهشناختکسبوکار)نگاشتنيازهايسازمان
هرحوزهايکهنيازبهشناساييالگوهايجديدوارتباطبيندادههادارد.
دادههااحساسشود(خالصهسازيوتوصيف)نيازبهگروهبندي.
نيازبهپيشبينيپديدههاومشخصکردننيازهايآتي
نيازبهتحليلوبررسينتايجحاصلازانجاميارخداديکپديده
پديدهتحليلعلتوويژگيهايموثردررخداديک
9/27/201678
79
معیارهایانتخابحوزه
فاکتورهایتعیینکنندههرمعیار
یدسترسیپذیر با سیستم ( آشنا)موجود بودن شخص خبره(business expert) (درون سازمان)دسترسی به داده ها (از نظر حراست و حریم خصوصی)دسترسی از نظر سطح امنیت داده
اهمیتحوزه
(درجه اهمیت ذینفعان)مدیران میزان استفاده توسط (تعداد ذیفعان یا خدمات بهتر)کاربران میزان استفاده توسط ارباب رجوع و اغلب فرایندهای هدف)میزان درآمدزایی یا هزینه بردار بودنDM کم کردن
(هزینه ها یا افزایش درآمدزایی سازمان است در سیستم( تحلیل های مورد نیاز)تعداد چالش های موجود بعدیمفید بودن نتایج احتمالی داده کاوی برای سازمان و تصمیم گیری های
(گزارشات تحلیلی مورد نیاز مدیران از دیدگاه اهمیت استراتژیک)
کیفیتداده
(تعداد جدول، رکورد و فیلد)حجم داده (استفاده از داده های سالهای گذشته برای تحلیل رفتار)داده داده سابقه (داده های کمّی و پر شدن خودکار فیلدها)واقعی و دقیق بودن تمیز بودن داده ها( بودن خطای داده یا کمnoise و داده خالی یاmissing)
80 9/27/2016