Time series data mining

بورس بررسی در آن کاربرد و زمانی های سری در کاوی داده ، استاندانشگاه آزاد اسالمی واحد تهران جنوبسید محمد میرمحمد مقطع کارشناسی ارشد،

[email protected]تهران،

چکیده: افتند. بعب$$ارتییک سری زمانی، مجموعه ای از مشاهداتی است که به ترتیب زمان اتفاق می

هایی هستند که وابسته به زمان است. مانند دمای روزانهسری های زمانی دنباله ای از داده گ$$ذاریه$$ای س$$رمایهه$$ای س$$هام و ص$$ندوقه$$وا، ک$$ل ف$$روش هفتگی ی$$ک فروش$$گاه و قیمت

ها، ابع$اد زی$$اد و ض$$رورت ب$$روز رس$انیمشترک. خصوصیت یک سری زمانی، حجم زیاد داده-مداوم است و از طرفی دارای ماهیتی عددی و پیوسته می باشد. افزایش استفاده از داده

های سری زمانی، باعث تحقیقات گسترده در فیلد داده کاویهای زمانی، و بطور خاص داده بر روی آنها شده است. مدل پیش بینی سری زم$$انی روش$$ی اس$$ت ک$$ه از مق$$ادیر مش$$اهده

کند. شده قبلی برای پیش بینی آینده مقادیر استفاده می ه$$ای جنب$$ه مهم س$$ری3های زمانی خواهیم داشت و ما در این مقاله مرور جامعی روی سری

کنیم. سپس مروری رویرا بررسی می Similarity measureو Representation، Indexingزمانی یعنی های داده کاوی روی این سری ها خواهیم داشت و در انتها ب$$ه کم$$ک رگرس$$یون، ب$$ازارتکنیک

سهامی را بطور نمونه بررسی خواهیم کرد.

کلمات کلیدی:های زمانی، معیار شباهت, تحلیل زمانی ، معیار فاصله, شاخص بندی داده , کاوش دادهسری

- مقدمه:1 ه**ای زم**انی کالس مهمی از اش**یا داده زم**انیس**ری

ت**وان آنه**ا را در کاربرده**ایهس**تند و ب**ه س**ادگی میمالی و علمی پیدا کرد. بطور مثال:

سری زمانی در اقتص**اد، مانن**د قیمت س**هام• در روزه**ای مت**والی، ص**ادرات در ماهه**ای مت****والی، متوس****ط درآم****د در ماهه****ای

متوالی ... سری زمانی فیزیک، بویژه در علوم مرب**وط•

به آثار جوی، علوم دریایی، فیزیک زمین)ژئ*وفیزیک(.

بازاری**ابی، تجزی**ه و تحلی**ل سری های زم**انی• ارقام فروش در هفته یا ماههای متوالی ی**ک

مسئله مهم در تجارت است. جمعیت نگ***اری، ان***دازه س***ری های زم***انی•

گ**یری س**االنه جمعیت ب**ا ه**دف پیش بی**نی تغییرات جمعیت در مدت زمان ده تا بیس**ت

سال آینده. های زمانی، دادهبینید در سریدر واقع همانطور که می

ها در یک توالی از زمان اندازه گیری می شوند، مثالروزانه یا هفتگی یا ساالنه و.. .

ای از مشاهداتی اس**ت ک**هیک سری زمانی مجموعه به ترتیب زمان ساخته می ش**ود و دارای حجم ب**االی اطالعات،ابعاد زیاد و ض**رورت ب**روز رس**انی م**داوم است و از طرفی دارای ماهیتی عددی و پیوسته می

ه**ای س**ری زم**انی، معی**ارباش**د. بن**ابراین در دادهشباهت سری ها بر مبنای تخمین است.

ه**ای زم**انی مش**کلدر موض**وع داده ک**اوی در س**ری های س**ری زم**انی رااصلی اینست که ما چطور داده

ه**ا و ابع**ادنمایش دهیم. چون با حجم زی**ادی از داده ها س**ر و ک**ار داریم و لزوم**ا تم**ام اینزیادی از داده

ها و ابعاد ممکن است بدرد کار م**ا نخ**ورد. یکیداده از راهکارهای رایج، تبدیل سری زمانی ب**ه دامن**ه ای با ابعاد کمتر و به همراه آن استفاده از شاخص بندی-مناسب است. عالوه بر این معیار شباهت بین س**ری

ه**ای زم**انی وای از س**ریه**ای زم**انی و ی**ا زیرت**والیsegmentation ،ی****ا بخش بن****دی س****ری زم****انی

-موضوعات مهمی در بحث داده کاوی روی این داده.ها می باشند

های سری زم**انی جنبه مهم مدیریت داده3در ادامه را Indexingو Representation، Similarity Measureیعنی

ه**ای داده ک**اویبررسی خواهیم ک**رد. س**پس تکنی**ک ک**نیم. و در انته**ا ی**که**ا را بررس**ی میروی این داده

بازار سهام نمونه را مورد بررسی قرار خواهیم داد.

دها- سه جنبه مهم در مدیریت د2های سری زمانی:

1-2 -Representation: اینکه ما چط**ور خصوص**یات اص**لی ی**ک س**ری زم**انی را نم**ایش دهیم. و اینک**ه

باید بتوانن**د ابع**اد را ک**اهش Representationهای تکنیکدهند در حالیکه خصوصیات اصلی سری حفظ شود.

2-2- Similarity Measure (شباهت (:معیار اینکه چطور می توانیم معیار شباهت را ب**رای س**ری ها تعریف کنیم تا بتوانیم مشخص کنیم ک**ه دو س**ری مختلف ب**ا هم همخ**وانی دارن**د ی**ا ن**ه. اینک**ه چط**ور

توانیم یک فاص**له حس**ی را بین دو س**ری فرمول**همی کنیم. این معیار بای**د ب**ر پای**ه مف**اهیم ادراکی باش**د،

ه*ایی ک**ه ح*تی از لح**اظ ریاض**ی ب*ا همبنابراین سری توانن**د از لح**اظ ادراکی ش**بیه بهمیکسان نیستند، می

باشند.

3-2- Indexing :)اینک**ه چط**ور )شاخص بندی های سری زمانی پ**رسبتوانیم روی حجم عظیم داده

و جو ها را با سرعت باال پاس**خ دهیم. بعب**ارت دیگ**ر ای باید بکار گرفته شود. تکنیک indexingچه مکانیزم

indexing ای مصرف کند و پیچیدگیباید فضای مینیمم محاسباتی آن تا حد امکان حداقل باشد.

جنبه باال خواهیم3در ادامه به توضیح مفصل تری از پرداخت:

Time Series Data Representation -3: ه**ای س**ری زم**انیهمانطور که قبال اشاره شد، داده

دارای ابع**اد زی**ادی هس**تند. اگ**ر این حجم ابع**اد را هایهایی که روی دادهکاهش ندهیم، تعریف الگوریتم

های زمانی عمل کنند بسیار پر هزینه خواهدخام سری کاهشTime series Representationبود. مهمترین دلیل

dimensionابع***اد ی***ا reductionاس***ت. ی***ک تکنی***ک Representation ش**کلی از س**ری را ب**ا ک**اهش بای**د

dimension ه**ا ی**ا ابع**اد ب**ه م**ا بده**د در حالیک**ه خصوصیات اصلی و شکل اص*لی س*ری حف*ظ ش*ده

است. یکی از مشکالت عمده علوم کامپیوتر، انتخاب روش

Representation های سریمناسب و کارآمد برای داده های مختلفی برایزمانی است. با این دیدگاه، تکنینک

Representation ه*ای زم**انی بوج**ود آم**ده اس**ت.سری DFT مثل ، PAA ، APCAو .. ک**ه در ادام**ه در م**ورد

ها صحبت خواهیم کرد.بعضی از این تکنیک در دو دسته ق**رار Representationهای بطورکلی تکنیک

می گیرند:1-Adaptiveکه در آنها شکل سری جدی*د بع**د :

از کاهش ابعاد، سازگار و تقریبا همش**کل ب**اسری اصلی است.

2-Non-Adaptiveکه در آنها شکل سری جدید : بعد از کاهش ابعاد، لزوما س**ازگار ب**ا س**ری اصلی نیست و ممکن است کامال متفاوت ب**ا

شکل اصلی باشد. را Representationه**ای ( نمایی از انواع تکنیک1شکل )

دهد:نشان می

(1شکل)

ه**ایت**رین تکنی**کح**ال ب**ه بررس**ی ب**رخی از رایجRepresentation پردازیم:می

Sampling -1-3 برداری نمونه :یا ای ک**ه س**ری رادر این تکنیک اگ**ر تع**داد نق**اط داده

تع**داد نق**اط داده nدر نظر بگیرم ، mمی سازند، است. این نقاط بهn<mبعد از کاهش ابعاد است که

ص**ورت نمون**ه از س**ری انتخ**اب می ش**وند و ق**راراست نماینده کل نقاط باشند.

اس**ت و ش**کل س**ریNon-Adaptiveاین متد یک مت**د بس**یار کوچ**ک باش**د نمی توان**د nاصلی را زمانیکه

حف**ظ کن**د و ممکن اس**ت متف**اوت از ش**کل س**ریاصلی شود.

(2شکل)

-2-3 ((PAA )Piecewise Aggregate Approximation:

ه**ایها یا بخش segmentدر این روش سری اصلی به میانگین segmentمختلف تقسیم می شود و برای هر

dataمقدار محاسبه می شود و به عن**وان ی**ک point ش**ود. اگ**ربرای نمایش سری جدید در نظر گرفته می

باش**د mای براب**ر طول سری ما یا تعداد نق**اط داده اس**ت ک**ه بع**د از (P1=)p1…pmس**ری م**ا براب**ر dimension reduction ابعاد کاهش (P2=)p1..pn تبدیل به یا

ه**ر ک**دام از نق**اط س**ریاست و n<mمی شود که جدید از فرمول زیر محاسبه می شوند:

ام وk بخش برابر مقدار نقطه انته**ای ekکه در آن sk مقدار ابتدای بخش k.ام است

(3شکل)

3-3 -Adaptive Piecewise Constant Approximation )APCA(:

اس***ت و در آن PAAاین روش تعمیم یافت***ه روش ثابت نیست وبدین ترتیب می تواند segmentطول یک

adaptive .باشکل اصلی سری باشد

(4شکل)

4-3-Piecewise Linear Approximation: تکنیک این PLRیا Piecewise Linear Representationبه

هم گفته می شود.این تکنیک دو روش مختلف دارد:

1-linear interpolation2-linear regression

Linear Interpolation -1-4-3:)=Pاگ**ر ف**رض ک**نیم ت**والی p 1… pj)را داش**ته

باشیم، در این روش خ**ط تخمین براب**ر خطی اس**تpکه متصل می کند. و خ**ط تخمین بع**دیpjرا به 1 bottom-upیک الگوریتم PLR شروع خواهد شد. pjاز

با یک تخمین خوب از سری زمانی آغ**از PLRاست. ،m می شود به شکلی که برای تخمین سری به طول

m /2 ، segmentمورد نیاز است و بطور تکرار ش**ونده هایی که کم هزینه ترین هستند ب**ا همsegmentجفت

ادغام می شوند و این موضوع ت**ا زم**انی ادام**ه پی**دا ه**ا براب**ر تع**داد م**ورد نی**از segmentکند که تع**داد می

باشد.

(5شکل)

(6شکل)

Linear Regression -2-4-3: این روش، سری را با بهترین خطوط اتصال نم**ایش

دهد. بعبارتی بهترین خطی که نشان دهنده تخمینمی و تقریبی از سری است. عالوه بر این کاهش ابعاد با حفظ نقاط برجسته در این روش انجام می شود. به

Perceptually Important Pointsیا PIPاین نقاط برجسته شود. گفته می

)=P نقط**ه )n ب**ا Pدر س**ری زم**انی p1… pn)،) می توانن**د ب*ا توج**ه ب*ه PIPنقاط در فرآیند پردازش

اهمیت نقطه، جای خودشان را عوض کنند. اولین وpn وآخرین یع**نی p1اولین نقطه داده یعنی

ای است ک**هبعدی، نقطه PIPها هستند. PIPدومین اول داشته باشد. نقطه PIPبیشترین فاصله را با دو

ای اس**ت ک**ه بیش**ترین فاص**له را ب**اچه**ارم ، نقط**ه مجاور آنرا بهم متصل کرده داش**ته PIPخطی که دو

باشد. فرآیند PIPدومینباشد. همچنین مابین اولین و مورد نظر PIPتا زمانیکه تعداد PIPپردازش موقعیت

به لیست مرتب Pبدست بیاید و یا تمام نقاط سری کند.الحاق شوند، ادامه پیدا می Lشده

با Linear Regression( نمایشی از 7شکل ) 7 PIP می باشد:

(7شکل)

Representationهای زیادی ب*رای بحث به هر حال تکنیک مطرح شده اس**ت ک**ه از حوص**له این مقال**ه خ**ارج است. در ادامه معیار شباهت را مورد بررس**ی ق**رار

خواهیم داد.

Similarity Measure -4: ه**ایمعی**ار ش**باهت، بنی**اد مهمی ب**رای آن**الیز س**ری

های داده ک**اوی می باش**د.زمانی گوناگون و روش های مرسوم ، معیار شباهت، همخوانیدر پایگاه داده

های س**ری زم**انی ک**هدقیق مقادیر است اما در داده م**اهیتی ع**ددی و پیوس**ته دارن**د، معی**ار ش**باهت ب**ه

روش تخمین است. فرض کنی**د در ی**ک س**ری زم**انی مرب**وط ب**ه س**هام

های زیر را نیاز داریم:پرس و جو پیدا کردن تمام سهام هایی ک*ه ش**بیه س**هام-1

A .هستند پی**دا ک**ردن تم**ام س**هامدارانی ک**ه الگ**وی-2

خریدشان بر مبنای قیمت پایانی س**هام ه*ایhigh-tech .بوده است

ها می توانند جهت بررسی ش**باهت ب**ه دو روشدادهمختلف سازماندهی و پردازش شوند.

1-Whole sequence matching که بر روی کل های سری زم**انی ش**باهت بررس**ی میداده

شود.2-Subsequence matching ،ک**ه در این روش

داش**ته باش**یم و Qای ب**ه ن**ام اگ**ر زیرت**والی ، ش**باهت ب**ه این ص**ورتPس**ری ب**ه ن**ام

Qکه با Pهایی از شود که زیر توالیبررسی میشوند.همخوانی دارند انتخاب می

Indexing -5: کن*د ت*ا س*ازماندهیبه ما کمک می Indexingیک طرح

ه**ا ازها به منظور بازیابی سریع دادهکارآمدی از دادههای بزرگ داشته باشیم. دیتابیس

Data Mining Tasks -6: ه**ای زم**انیه**ای زی**ر را ب**رای داده ک**اوی س**ریروش

دهیم:مورد بررسی قرار می•Query by content

•Motif discovery

•Clustering

•Classification

•Prediction )Forecasting)

•Summarization)Segmentation)

•Anomaly Detection

6-1 -Query by content: ه*ایی اس*ت ک*هاین روش ب*ر مبن**ای بازی*ابی راه ح*ل

بیش**ترین ش**باهت را ب**ه پ**رس و ج**وی درخواس**تیQuery(** 8کاربر دارند. شکل ) by contentرا در ی**ک

دهد: بعدی نشان می2فضای

(8شکل)

هایدر شکل باال، هر نقطه نمایانگر یک سری از داده می باشد که با توجه به خصوص**یات آن در نقط**ه ای

بعدی قرار گرفته است. وقتی یک پ**رس2از فضای و ج**و وارد سیس**تم می ش**ود، تب**دیل ب**ه ش**کلی از

( می شود که قابل مقایسه ب**اRepresentationنمایش ) نقاط دیگر شود. سپس دو گونه مقایس**ه می توان**د

Rangeانجام شود. queryه**ایی را ب**ا فاص**له که س**ری -k-Nearestب**ه م**ا می ده**د و query از eمش**خص

neighborhood کهkنقط**ه ای ک**ه کم*ترین فاص**له ب**ا query دهد.را دارند به ما می

6-2 -Clustering: در کالس**ترینگ ه**دف پی**دا ک**ردن نق**اطی اس**ت ک**ه

ه**ای مختل**فبیشترین شباهت را بهم دارند و کالستربیشترین فاصله را با هم دارند.

(9شکل)

شود:به دو زیر روش تقسیم می clusteringروش 1-Whole Series Clusteringدر این روش ی**ک

سری زم**انی بط**ور کام**ل ب**ا س**ری زم**انی دیگر مقایسه می شود و آنهایی که شبیه هم

گیرند.هستند در یک کالستر قرار می2-Subsequence Clustering در این روش زی**ر

شوند.ها ایجاد و مقایسه میها از سریتوالیClassification -3-6:

ه**ایی از س**ریدر این روش به سری یا زیرت**والی های داده می شود. با توجه به دادهclass labelیک

classموجود که labelشان مشخص اس**ت، م**دل بینی**د و وق**تی س**ری جدی**دی واردآم**وزش میclassتوان**د مق**دار ش**ود، میسیستم می labelآن**را

تخمین بزند.( این فرآیند را نشان می دهد:10شکل )

(10شکل)

ده**د. مجموع**ه آموزش**ی را نش**ان میaش**کل ده*د ک**هرا نشان می label های بدونداده bشکل

ه**ر نقط**هc در ش**کل وارد سیستم شده است.وارد شده به یک کالس نسبت داده شده است.

Segmentation -7: ه**ای زم**انی ب**اه**دف این روش تخمین دقی**ق س**ری

کاهش ابعاد در حالیک**ه خصوص**یات اص**لی آن حف**ظباشد.شده است می

راsegmentation( خ**روجی ی**ک سیس**تم 11ش**کل )دهد:نشان می

(11شکل)

ه**دف این روش ک**اهش خط**ای بازس**ازی س**ری از سری اصلی است و راهکار اصلی برای این موض**وع

)از PLAک**ه سالهاس**ت اس**تفاده می ش**ود روش ( است که پیش تر راج**ع ب**هrepresentationروش های

آن صحبت کردیم.Prediction -1-7:

ه**ای زم**انی اس**ت ویکی از روش های مهم در س**ری ها و مقادیر موج**ود ،در آن به کمک سری یا زیر سری

س**ری ه**ا پیشمقادیر آینده متغیرها و سری ها و زیربینی و تخمین زده می شود.

( سناریوی پیش بینی را نشان می دهد:12شکل )

(12شکل)

Anomaly Detection -2-7:

های سری ک**ه ب**ا ح**الت نرم**الدراین روش زیر توالی-سری تف**اوت قاب**ل مالجظ**ه دارن**د را شناس**ایی می

باشد:( مثالی برای این روش می13کنیم. شکل )

(13شکل)

Motif Discovery -3-7:

هایی است که پیوسته درهدف پیدا کردن زیر توالی اند. . به اینیک سری زمانی بزرگتر تکرار شده

گویند. می motifزیرتوالی ها دهد:( این موضوع را نشان می14شکل )

(14شکل)

در ادامه می خواهیم راجع به پیش بینی بازار سهام صحبت کنیم و درTimeSeries data miningبه کمک

دهیم.ادامه یک بازار نمونه را مورد بررسی قرار می

Timeپیش بینی بازار سهام با استفاده از Series Data Mining:

یکی از موضوعات جذاب برای محققان در امور مالی، در طی سالها ، پیش بینی قیمت آینده سهام

است. و نتایج این تحقیقات به فعاالن در خرید و فروش سهام کمک می کند تا زمان مناسب برای

خرید و فروش سهام را تخمین بزنند و بر مبنای آنتصمیم گیری کنند.

توانیم از هر روش داده کاوی سری زمانیما می برای پیش بینی ارزش آینده سهام کمک بگیریم. در

این مقاله ما از آنالیز رگرسیون که از روش های

Prediction است برای پیش بینی مقادیر آینده قیمت ایم.سهام در بازار نیجریه استفاده کرده

ما برای این کار ازخالصه اطالعات روزانه و هفتگی سهام3قیمت ها درتبادالت بازار سهام نیجریه برای

,First Bank of Nigeria Plc, Zenith Bank Plcبه نام های and Skye Bank ایم. استفاده کرده

Linear Regressionهای داده یکی از رایج ترین تکنیک کاوی برای پیش بینی ارزش مشخصه ها بر مبنای

مقادیر مشخصه های دیگر است و ما در این مثال ازخواهیم استفاده کنیم.این روش می

خط رگرسیون که تخمینی از مقادیر ممکن یک سریاست، به فرمول زیر است:

Y=ax+b

a متغیر مستقل و x متغیر وابسته، Yکه در آن عرض از مبدا خط است. bضریب خط و

از فرمول های زیر محاسبه می شوند:b و aمقدار

Y ،مشخص کننده قیمت فعلی سهام x مقدار P.Eیا میانگین قیمت های سهامyنسبت قیمت به سود ،

x میانگین P.E و nتعداد قیمت های سهام دخیل در فرمول می باشد. سهام مورد نظر جمع آوری شده3داده ای که برای

( است:1است به صورت جدول )(1جدول )

حاال ما می خواهیم با توجه به اطالعات باال ، خط بانک مورد نظر فرموله کنیم. 3رگرسیون را برای

به طور مثال این کار را برای بانک اول انجام داده (2توانید در جدول )ایم. جزئیات این محاسبه را می

مشاهده کنید.

(2جدول )

را محاسبه کردیم. حاال باb و aتا اینجا مقدار جایگذاری در فرمول خط به فرمول زیر می رسیم:

2بهمین ترتیب فرمول خط رگرسیون را برا ی سهام دیگر محاسبه میکنیم.

با داشتن این فرمول ها، وقتی مقدار جدیدی وارد جدیدی برایP.Eسیستم شود، در واقع مقدار

توانیم با جایگذاریسهام مورد نظر محاسبه شود، می ( راy( ارزش سهام )xآن در فرمول باال)به جای

تخمین بزنیم. سهام مورد نظر را3در زیر فرمول بدست آمده از

محاسبه کرده ایم:•First Bank Plc

•y=35.85+0.12 x

•Skye Bank Plc

•y=30.97−0.64 x

•Zenith Bank Plc

•y=14.39+1.16 x

نتیجه گیری:8 - امروزه داده های سری زمانی به طور گسترده در موضوعات مختلف علی الخصوص مباحث مالی و

علمی مطرح هستند و کاربرد دارند. اما بعلت حجم باالی این اطالعات و ابعاد زیاد و ضرورت بروز

رسانی مداوم این داده ها، نیاز به تکنیک هایی است که بتوانند به صورت خودکار الگوهای مفید و

پرکاربرد را از دل این حجم عظیم داده ها کشف نمایند. بنابراین تکنیک های داده کاوی روی این داده

ها می تواند بسیار با اهمیت باشند. ما به طور خاص از داده کاوی در این سری ها در

بازار سهام و پیش بینی قیمت آینده سهام به کمک تکنیک رگرسیون و ساده ترین نوع آن یعنی

رگرسیون خطی استفاده کردیم. اما موضوعی که وجود داشت این بود که ما برای هدف مورد نظرمان

می توانستیم از هر تکنیک داده کاوی دیگری نیزاستفاده نماییم.

در نهایت بدست آوردن مدلی که به ما در پیش بینی وضعیت آینده سهام یک شرکت کمک کند می تواند

منجر به این شود که ذینفعان این بازار بتوانند تصمیمات درست و به موقعی برای خرید و فروش

سهام هایشان بگیرند.

جع:امر[1 ]Tak-chung Fu, A review on time series data

mining, Department of Computing, Hong Kong Polytechnic University, Hunghom, Kowloon, Hong Kong, Elsevier Publications, 2011

[2 ]PHILIPPE ESLING and CARLOS AGON, Time-Series Data Mining, Institut de Recherche et Coordination, ACM Computing Surveys, 2012

[3 ]S Abdulsalam Sulaiman Olaniyi, Adewole, Kayode S., Jimoh, R. G, Stock Trend Prediction Using Regression Analysis – A Data Mining Approach, AJSS Journal, 2010-11

Time series data mining

Data & Analytics

Transcript of Time series data mining