การพยากรณ์โรค...
Transcript of การพยากรณ์โรค...
19/04/60
1
การพยากรณโรคโดยการวเคราะหขอมลอนกรมเวลา
(Disease Forecastingusing Time Series Analysis)
ปณธ ธมมวจยะ
สานกระบาดวทยา
กรมควบคมโรค1
หวขอการฝกอบรม
• แนวคดพ�นฐานดานการพยากรณโรค• การประเมนความแมนยาของการพยากรณ• ข�นตอนการสรางตวแบบเพ&อพยากรณ• การวเคราะหสมการถดถอยเชงเสน
– Time Regression
• การวเคราะหขอมลอนกรมเวลา– Smoothing Technic– Box-Jenkins Method (ARIMA)
2
19/04/60
2
แนวคดพ4นฐานดานการพยากรณโรค(BASIC CONCEPTS IN DISEASE
FORECASTING)
3
Aims of Public Health Research• DESCRIBE
• มผ ปวยดวยโรคปอดอดกนเร �อรงมากนอยเพยงใดในจงหวดแหงหน&ง
• มการสบบหร&เปนสดสวนเทาไรในประชากรผหญงและผชาย
• EXPLAIN
• ทาไมผชายจงสบบหร&มากกวาผหญง
• การสบบหร&มอสองเพ&มความเส&ยงในการเปนโรคมะเรงกระเพาะอาหารหรอไม
• PREDICT
• อตราการเกดข �นของนกสบบหร&หนาใหมในเดกมธยมปลายปหนาจะเปนเทาไร
• ถาสามารถรณรงคใหคนในชมชนเลกสบบหร&ไดเปนผลสาเรจ จานวนผ ปวยโรคหวใจหลอดเลอดรายใหมในปหนาจะลดลงเปนจานวนเทาไร
Source: Morgenstern, 2001 (modified)4
• CONTROL
• มาตรการท&เหมาะสมสาหรบชมชน (ภายใตขอจากดตางๆ) คออะไร
19/04/60
3
Disease has a pattern
• การเกดโรคมรปแบบ (Pattern) ท&อธบายได ตามปจจยตวกาหนด (Determinants)
• การเกดโรคในชมชนไมใชกระบวนการสมตวอยาง (Random process) แตจะเกดมากหรอนอย หรอไมเกดข�นเลยในคนบางกลม บางพ�นท& บางเวลา
• ตองใชความรทางระบาดวทยา เพ&ออธบายปจจยกาหนดตางๆ ท&ทาใหบางคนหรอบางกลมมโอกาสปวยมากกวาปกต
Pathophysiologic pathways
Population/Individual
Health
Genetic/constitutional
factors
Individual riskfactors
Social relationships
Living conditionsHealth infrastructure
Social and economic
policies
Determinants of Human Disease
Climate
Population structure and
migration
Public health policy
19/04/60
4
พยากรณ หมายถงอะไร
• คาพยากรณ (Forecast) = a statement of what is judged likely to happen in the future, especially in connection with a particular situation, or the expected weather condition*
• การพยากรณ (Forecasting) = Process for getting the forecast
• นกพยากรณ (Forecaster) = One who do forecasting
*Source: Cambridge Advanced Learner’s Dictionary7
แนวคดทJเกJยวของกบการพยากรณ
• การวางแผนตางๆลวนอาศยการพยากรณ• โดยปกตแลวคาท&ไดจากการพยากรณมกจะมความ
คลาดเคล&อนเกดข�นเสมอ ไมไดถกตองแมนยาอยางสมบรณแบบ
• การพยากรณท&ดตองอาศย– ความรทางวชาการ (ท�งในเชงเน�อหาและเชงเทคนคการพยากรณ)– ประสบการณ – วจารณญาณ
Source: Ozcan, 2009 8
19/04/60
5
Forecasting Assumptions (1)• The underlying assumption is that past events will continue• Errors will occur because of the presence of randomness and
that actual results are more than likely to be different from those predicted.
• Forecasts of a group of items (aggregate forecasts) tend to be more accurate than those for individual items. – For example, forecasts made for a whole province would tend to
be more accurate than a district or sub-district forecast because forecasting errors among a group tend to cancel each other
Source: Ozcan, 2009 9
Forecasting Assumptions (2)• It is generally accepted that forecast accuracy decreases as
the time horizon (the period covered) increases. – Short - range forecasts face fewer uncertainties than longer –
range forecasts do, so they tend to be more accurate. • Choosing forecasting horizon depends on goals of
organization– A flexible health care organization, which responds quickly to
changes in demand, makes use of a shorter, more accurate forecasting horizon than do less flexible competitors, who must use longer forecast horizons.
Source: Ozcan, 2009 10
19/04/60
6
Forecasting Framework
Surveillance system
Related information
and analyses
Design and conduct
forecasting
Using Results for
decision making
Information for Action! 11
ข4นตอนการพยากรณ
Formulate Problem
Obtain Information
Select Methods
Implement Methods
Evaluate Methods
Use Forecasts
“Forecasting Modelling”
12
19/04/60
7
ลกษณะของการพยากรณทJด
Source: Dr.Charnchainarong Songkasri13
ปจจยทJตองนามาพจารณาในการเลอกโรคหรอภยสขภาพทJจะนามาพยากรณ
Disease Importance
•Frequency
•Severity
•Impact (QOL,
Social, economic)
•Public/political
concern
Modifiability
•Preventable
disease
•Available effective
intervention
•Acceptable cost
Predictability
•Available data
•Available technique
•Available
technology
•Available experts
and experiences
(both content and technique)
14
19/04/60
8
ปจจยทJตองนามาพจารณาในการเลอกเทคนควธการพยากรณ (1)
• Forecast form required: ตองการคาพยากรณออกมาเปนตวเลขผปวยหรอเปนโอกาสท&จะเกด?
• Horizon time frame: พยากรณไปขางหนาระยะส�นหรอยาว?
• Pattern of data: ขอมลในอดตมรปแบบท&ชดเจนหรอไม?
• Cost ant time available for conducting forecasting: คาใชจายและเวลาท&ใหสาหรบการดาเนนการพยากรณมมากนอยเพยงใด?
15
ปจจยทJตองนามาพจารณาในการเลอกเทคนควธการพยากรณ (2)
• Accuracy desired: ตองการความแมนยามากนอยเพยงใด?
• Availability of data: มขอมลอะไรบางท&จะนามาใชได?
• Ease of operation and understanding: ความงายในการดาเนนการและการอธบายผลใหคนอ&นเขาใจ
16
19/04/60
9
Forecasting Methods
Qualitative Methods Mixed Methods
Quantitative Methods
– Expert Judgement
– Jury of Executive Opinion: JEO
– Delphi method
– Risk analysis method
– Expert elicitation
Empirical/Statistical Model Process/Mechanistic Model
– Compartmental (multi-
stage) model e.g. SIR model
for Infectious diseases,
Dynamic model, Markov
model, etc.
– Simple projection/multiplication
– Regression-based model: Linear,
Poisson, Age-Period-Cohort Model, etc.
– Time series analysis: Decomposition,
Smoothing, ARIMA 17
การประเมนความแมนยาของการพยากรณ(EVALUATING FORECASTING
ACCURACY)
18
19/04/60
10
คาตางๆ ทJเกJยวของกบการพยากรณ
• Actual (Observe) value = คาจรงท&ไดจากการเกบขอมลหรอการสงเกต
• Predicted value* = คาพยากรณท&ไดจากสมการ หรอ model– Fitted value* = คาพยากรณจากสมการ ณ ชวงเวลาท&เรามขอมลจรง (อดตถง
ปจจบน) ซ&งทาใหสามารถทาการเปรยบเทยบความคลาดเคล&อนได
– Forecast value* = คาพยากรณจากสมการ ณ ชวงเวลาท&เรายงไมมขอมลจรง (อนาคต) ซ&งเราจะยงไมทราบความคลาดเคล&อนจนกวาเวลาน�นจะมาถง
• Error = คาความคลาดเคล&อน คอ ความแตกตางระหวางคาจรงกบคาทานาย
= คาจรง – คาพยากรณ
19* คาสามคาน� ในตาราแตละเลมอาจใชสลบกนไปมาหรอแทนกนได
20
Measuring Forecasting AccuracyError = Actual – Forecast
Actual
Fitted
Forecast
ปจจบน
19/04/60
11
ตวช�วดสาคญในการประเมนผลการพยากรณ (1)ความคลาดเคล!อนของการพยากรณ (Et) = คาจรง (At) – คาพยากรณ (Ft)
1) Mean Absolute Error (MAE)
2) Mean Absolute Percent Error (MAPE)
21
3) Root-Mean Squared Error (RMSE)
กลม 1: ตวช4วดความแมนยาในการพยากรณ (Model Accuracy)
ตวช�วดสาคญในการประเมนผลการพยากรณ (2)ความคลาดเคล!อนของการพยากรณ (Et) = คาจรง (At) – คาพยากรณ (Ft)
1) Mean Error (ME)
2) Mean Percent Error (MPE)
22
กลม 2: ตวช4วดอคตของตวแบบ (Model Bias)
19/04/60
12
ข4นตอนการสรางตวแบบเพJอพยากรณ(STEPS OF FORECASTING MODELING)
23
Steps of Forecasting Modeling
1. Model specification
2. Model fitting
3. Model diagnosis
4. Model validation
5. Model application, monitoring, and modification
24
19/04/60
13
ข4นตอนการสรางตวแบบเพJอการพยากรณ (Steps of Forecasting Modeling)
1. Model specification การเลอกชนดของตวแบบ
• กรณทา time series: ใหด temporal distribution (ด graph) เพ&อดวามรปแบบ trend, seasonality, cyclic หรอไม
2. Model fitting การประมาณคาคงท&ตางๆในตวแบบหรอสมการ
• ใหโปรแกรมทาการวเคราะห โดยใชขอมลท&มจนถงปจจบน
• ดคา Fit statistics เชน R-squared, Adjusted R-squared, F statistics
• ดคาความคลาดเคล&อน RMSE, MAE, MAPE
3. Model diagnosis การทดสอบขอสนนษฐานเชนnormality equal variance, outlier, etc.
• ดคาสถตท&ใชทดสอบขอสนนษฐานตางๆ เชน Ljung-Box test (ทดสอบ Independent error)
• ดการกระจายของขอมล และ Residual plot ตางๆ 25
ข4นตอนการสรางตวแบบเพJอการพยากรณ (Steps of Forecasting Modeling)
4. Model validation (การทดสอบความถกตองของตวแบบเม&อนาไปใชกบขอมลอ&น)
• ทา “Backcasting”• นาขอมลบางสวนมาสรางตวแบบ (training data)
โดยตดขอมลท&เรามชวงทายออก (testing data) และใหลองหาคาพยากรณชวงทายน�น
• เทยบความแตกตางระหวางขอมลจรงกบคาพยากรณของชวงทาย โดยดคาความคลาดเคล&อน RMSE, MAE, MAPE ท&เกดข�น
5. Model application,monitoring & modification(การนาตวแบบไปใช ตดตามและปรบแก)
• นาขอมลไปพยากรณจรง(ในอนาคต) • ตดตามความคลาดเคล&อน • ปรบการพยากรณ (update ขอมล หรอ เปล&ยนตว
แบบ)
26
19/04/60
14
การวเคราะหสมการถดถอยบนเวลา(TIME REGRESSION ANALYSIS)
27
28
Basic of Correlation and Linear Regression • Quantitative Exposure variable (X) ตวแปรตนเปนเชงปรมาณ
• Quantitative Disease variable (Y) ตวแปรตามเปนเชงปรมาณ
• Objective: To quantify the linear relationship between X and Yเพ&อดวา “ตวแปรตนและตวแปรตามมความสมพนธเชงเสนตรงหรอไม”
ตวแปรตน ตวแปรตาม
19/04/60
15
29
Illustrative Data (Doll, 1955)
per capita cigarette consumption (X)
lung cancer mortality per 100,000 in 1950 (Y)
per capita cigarette consumption (X)
n = 11
30
Sir Richard Doll, 1955
• Form?
• Direction?
• Strength?
• Outlier?
19/04/60
16
31
Correlational Direction and Strength
32
Correlation Coefficient (r)
• Direction of association:
– Positive
– Negative
– ~ 0 (close to zero)
• Strength of association
– close to 1 or –1 ⇒ “strong”
– close to 0 ⇒ “weak”
– guidelines
• if |r| ≥ .7 ⇒ say “strong”
• if |r| ≤ .3 ⇒ say “weak”
19/04/60
17
33
Sir Richard Doll, 1955
• Form: Linear relationship?
• Direction: positive association
• Strength: difficult to determine by eye
• Outlier: no clear outliers
r = 0.737
34
Coefficient of Determination
(r2 or R2 )
• Square the correlation coefficient ⇒
r2 = proportion of variance in Y
mathematically explained by X
• Illustrative data: r2 = 0.7372 = 0.54 ⇒
54% of variance in lung cancer
mortality is mathematically
explained per capita smoking rates
19/04/60
18
35
Cautions
• CorrelaHon ≠ CausaHon
(Confounding)
• Non-linear relations
• Outliers
• Randomness
35
36
Illustrative Data (Doll, 1955)
per capita cigarette consumption (X)
lung cancer mortality per 100,000 in 1950 (Y)
per capita cigarette consumption (X)
n = 11
19/04/60
19
37
Linear RegressionRegression line equation:
ŷ = a + bxŷi = β0 + β1·Xi
where
ŷi ≡ predicted value of Y at xi
β0 ≡ intercept coefficient (value of y when x=0)
β1 = slope coefficient (change in value of y when x increase one unit)
Regression Model: Yi = β0 + β1 Xi + ei
38
Least Squares Line
Residual ≡ distance of data point from regression line (dotted)
The best fitting line minimizes the residuals
Determine a and b of best fitting line via formula, calculator, or computer.
19/04/60
20
39
Regression Coefficient using SPSS
Intercept estimate (β0) Slope estimate (β1)
Regression line:ŷ = 6.756 + 0.023X
40
Regression line: ŷ = 6.756 + 0.023X
6.756(intercept)
“Rise” over 200 units= 200 x 0.023= 4.6
Slope = “rise over run”.023 increase per one unit of X
Since the world is imperfect,
Model: yi = 6.756 + 0.023Xi + ei 40
19/04/60
21
Interpretation of Regression
Coefficients (ββββ)
41
• β0 : for a country with no cigarette consumption (X=0),
average lung cancer mortality rate is 6.756 per 100,000
population
– In several context, this β0 is not meaningful
• β1 : for additional one dollar of per capita cigarette
consumption, average lung cancer mortality rate
increases by 0.023 per100,000 population
Time Regression
• ใชดความสมพนธของขอมลอนกรมเวลา วามความแปรผนไปตามเวลาในลกษณะใดหรอไมมความสมพนธกบเวลาเลย (แตอาจไปสมพนธกบส&งอ&นๆ) ซ& งแสดงความสมพนธได 3 รปแบบคอ– ความสมพนธเชงลบ (negative association) คอ เม&อเวลาเปล&ยนแปลงไปขอมล
ท&เราพยากรณมแนวโนมท&ลดลง
– ความสมพนธเชงบวก (positive association) คอ เม&อเวลาเปล&ยนแปลงไปขอมลท&เราพยากรณมแนวโนมท&เพ&มข�น
– ไมมความสมพนธกนเลย (no association) คอ ขอมลท&เราพยากรณไมมความสมพนธกบเวลา
42
19/04/60
22
แบบจาลองการถดถอยบนเวลาอยางงาย
• กรณท&ความสมพนธเปนเสนตรง เขยนในรปสมการไดดงน� คอ
Y = a + bT ,โดยท&
– Y คอ ขอมลท&ตองการพยากรณ
– T คอ เวลา
– a คอ คาจดตดบนแกน Y (Y-intercept) หรอจดเร&มตนของการนาขอมลมาพจารณา
– b คอ คาสมประสทธv ถดถอย (regression coefficient) หรอคาความชน (slope) ของสมการ
• กรณท&ความสมพนธไมเปนเสนตรง อาจใชวธการแปลงคา (Transformation) ตวแปร Y หรอ T เชน
– Log(Y) = a + bT (หรอ Poisson regression)
– Y = a + b1T + b2T2 43
การประเมนสมการถดถอยบนเวลาเพJอการพยากรณ
• ดคาสถต p value จาก t test ของคาสมประสทธv ของตวแปรเวลา (หรอ p value จาก F test) วามนยสาคญทางสถตหรอไม
• ดคา R2
– มคาใกล 1: ขอมลชดท&ตองการพยากรณมความสมพนธแบบเปนเสนตรงกบเวลา
– มคาใกล 0: ขอมลชดท&ตองการพยากรณมความสมพนธแบบเปนเสนตรงกบเวลา
44
19/04/60
23
ขอควรระวงในการใชสมการถดถอยเพJอการพยากรณ
• เปนการใชแนวโนมของขอมลท&มอยในอดตเปนหลกในการพยากรณ – ถาแบบแผนของความสมพนธไมเปล&ยนแปลงหรอคงเดมในอนาคตการ
พยากรณจะทาไดอยางแมนยา – ถาหากแบบแผนของความสมพนธเปล&ยนแปลง การพยากรณโดยใชแบบแผน
ความสมพนธเดมจะทาการพยากรณไดไมแมนยา
• ทาใหทราบวาขอมลท&ตองการพยากรณมคาเปนเทาใด ณ จดเวลาใดเวลาหน&งในอนาคต แตไมทราบวาการเปล&ยนแปลงน�นเกดจากสาเหตใด
• การพยากรณคาในอนาคตท&ยาวนานคาท&ไดจากการพยากรณอาจไมสมจรงหรอไมสมเหตสมผลนก
45
Exercise 1: Time Regression
1. Dataset: typhoid– ใหทา line graph เพ&อดลกษณะแนวโนมของจานวนผปวยรายป (caseyr)
– ทาการวเคราะหแบบ time regression และแปลผล
2. Dataset: dengue– ใหทา line graph เพ&อดลกษณะแนวโนมของจานวนผปวยรายป (caseyr)
– ทาการวเคราะหแบบ time regression และแปลผล
46
19/04/60
24
การวเคราะหขอมลอนกรมเวลา(TIME SERIES ANALYSIS)
47
ขอมลอนกรมเวลา (Time Series Data)
• ขอมลอนกรมเวลา หมายถง ลาดบของขอมลท&มการวดในชวงระยะเวลาหน&ง ท&มชวงหางของเวลาเทาๆ กน
• ตวอยาง– จานวนผปวยรายใหมโรคเบาหวานในแตละป พ.ศ. 2550-2558
– จานวนผปวยไขเลอดออกรายเดอน พ.ศ. 2554-2558
– จานวนผมารบบรการแผนกผปวยนอกรายสปดาห ในป 2558
– ระดบฝ นละออง PM10 รายวนในจงหวดภาคเหนอตอนบน เดอน ก.พ.- ม.ค. 2558
– จานวนผมารบบรการดวยอบตเหตทางถนนรายช&วโมง ในชวงเทศกาลสงกรานต ป 2558
48
19/04/60
25
Component of Time Series Data: Trend and Irregularity
Irregularity
49
Component of Time Series Data: Cyclic Pattern
50
19/04/60
26
Component of Time Series Data: Seasonality
51
Seasonality Model: Additive vs Multiplicative
52
19/04/60
27
การพยากรณดวยการวเคราะหขอมลอนกรมเวลา
วธการวเคราะหขอมลอนกรมเวลาท&สาคญ ไดแก
• เทคนคการปรบเรยบ (Smoothing Techniques)
• วธการของบอกซ เจนคนซ (Box-Jenkins Methods หรอ ARIMA)
• วธการแยกสวนประกอบ (Decomposition Method)
• Vector of Autoregressive
53
เทคนคการปรบเรยบ (SMOOTHING TECHNIQUES)
54
19/04/60
28
Components of Time Series
สวนประกอบของอนกรมเวลา คอ สาเหตของการแปรผนแบบตางๆ ในขอมลอนกรมเวลาซ& งสามารถแยกสวนประกอบของขอมลอนกรมเวลาออกไดเปน 4 สวนดวยกนดงน� คอ
• แนวโนม (trend component: T)
• วฏจกร (cyclical component: C)
• ฤดกาล (seasonal component: S)
• ผดปกต (irregular component: I)
55
รปแบบของขอมลอนกรมเวลา
• สวนประกอบของขอมลอยในขอมลอนกรมเวลามอยดวยกนสองลกษณะ คอ
1. ตวแบบเชงบวก (Additive model)
Y = T + C + S + I
2. ตวแบบเชงคณ (Multiplicative model)
Y = T x C x S x I
• สาหรบกรณของ Exponential smoothing สวนประกอบหลกท&นามาใชในการเลอกรปแบบ คอ Trend และ Seasonality
56
19/04/60
29
การพยากรณดวยวธ Smoothing
• ส&งนามาใชพจารณาในการเลอกวธการปรบเรยบ คอ ดวาขอมลท&จะทาการพยากรณม Trend และ Seasonality หรอไม
• แบงขอมลอนกรมเวลาไดเปน
1. ไมมแนวโนมและไมมฤดกาล
2. มแนวโนม แตไมมอทธพลของฤดกาล
3. ไมมแนวโนม แตมอทธพลของฤดกาล
4. มท�งแนวโนมแบบเสนตรงและมอทธพลของฤดกาล
57
1. ขอมลอนกรมเวลาทJไมมแนวโนมและไมมฤดกาล
• วธคาเฉลJยเคลJอนทJแบบงาย (simple moving average method: SMA) – คาพยากรณจะไดจากคาสงเกตลาสดจานวนหน&ง โดยน� าหนกท&ใหกบคาสงเกต
แตละคาจะเทากน น&นคอ คาพยากรณเปนคาเฉล&ยของคาสงเกตลาสดจานวนหน&ง
• วธคาเฉลJยเคลJอนทJแบบถวงน4าหนก (weighted moving average method: WMA) – คาพยากรณจะไดจากคาสงเกตลาสดจานวนหน&ง โดยน� าหนกท&ใหกบคาสงเกต
แตละคาไมเทากน โดยปกตจะใหน� าหนกกบคาท&เกดข�นลาสดมากกวาคาท&เกดข�นนานแลว
58
19/04/60
30
ตวอยาง Simple Moving Average
Week จานวนผปวย Three-Week Moving Average
1 8
2 10
3 9
4 11
5 10
6 13
7
(8 + 10 + 9) / 3 = 9(10 + 9 + 11) / 3 = 10(9 + 11 + 10) / 3 = 10
(11 + 10 + 13) / 3 = 11(1/3)
59
ตวอยาง Weighted Moving Average
Week จานวนผปวย Weighted Three-Week Moving Average
1 8
2 10
3 9
4 11
5 10
6 13
7
60
19/04/60
31
1. ขอมลอนกรมเวลาทJไมมแนวโนมและไมมฤดกาล (ตอ)
• วธปรบใหเรยบเอกโปเนนเชยลแบบงาย (simple or single exponential smoothing method: SES) – คาพยากรณจะใชคาสงเกตท&ผานมาท�งหมด โดยน� าหนกท&ใหกบคาสงเกตแต
ละคาไมเทากน โดยน� าหนกท&ใหกบคาท&เกดข�นลาสดจะมากและจะลดหล&นไปสาหรบคาสงเกตท&อยหางออกไป ซ&งการลดลงของน� าหนกน�จะเปนการลดแบบ exponential น� าหนกจะเปนเทาไรน�นข�นอยกบคาปรบน�าหนก (smoothing constant) เปนคาพารามเตอรท&มคาอยระหวาง 0 ถง 1
– รปแบบสมการ คอ
คาพยากรณ ณ เวลา t
คาจรง ณ s ชวงเวลากอนหนา t
น �าหนก 61
What is Exponential Weight
Source: http://www.slideshare.net/JairoMoreno15/exponential-smoothing-5250040362
19/04/60
32
Exponential Weight with Different α
63
Weight
Time
2. ขอมลอนกรมเวลาทJมแนวโนมแตไมมอทธพลของฤดกาล
• วธปรบใหเรยบเอกโปเนนเชยลแบบสองคร4ง (double exponential smoothing method: DES) – จะใชกบอนกรมเวลาท&มแนวโนมเปนแบบเสนตรง หลกการคลายกบ SES แต
น�าหนกท&ใหจะข�นอยกบคาปรบน�าหนกหรอคาพารามเตอรท&เหมาะสมซ&งมคาอยระหวาง 0 ถง 1
• วธปรบใหเรยบเอกโปเนนเชยลแบบ Holt และ Winters (Holt – Winters exponential smoothing method: HWS) แบบไมมผลกระทบของฤดกาล (no seasonal)– มลกษณะรปแบบสมการเชนเดยวกนกบวธปรบใหเรยบเอกโปเนนเชยลแบบ Holt
และ Winters (Holt – Winters exponential smoothing method: HWS) แบบมผลกระทบของฤดกาล (seasonal) แตตดปจจยทางฤดกาล (seasonal factor) ออกไป
• คาปรบน�าหนกสาหรบ คาคงท& คอ α (alpha) • คาปรบน�าหนกสาหรบ คาแนวโนม คอ β (beta)
64
19/04/60
33
3. ขอมลอนกรมเวลาทJไมมแนวโนมแตมอทธพลของฤดกาล
• วธปรบใหเรยบเอกโปเนนเชยลแบบ Holt และ Winters (Holt –Winters exponential smoothing method: HWS) แบบมผลกระทบของฤดกาล (seasonal) หรอ Simple seasonal model – มคาปรบน� าหนกหรอคาพารามเตอร 2 คา คอ สาหรบคาคงท& (จดตดแกน) และ
คาวดอทธพลฤดกาล โดยไมมคาแนวโนม• คาปรบน�าหนกสาหรบ คาคงท& คอ α (alpha)
• คาปรบน�าหนกสาหรบ คาฤดกาล คอ γ (gamma)
65
4. ขอมลอนกรมเวลาทJมแนวโนมแบบเสนตรงและมอทธพลของฤดกาล
• วธปรบใหเรยบเอกโปเนนเชยลแบบ Holt และ Winters (Holt – Winters exponential smoothing method: HWS) แบบมผลกระทบของฤดกาล (seasonal) – สมการพยากรณจะประกอบดวยสวนของแนวโนมและสวนของฤดกาลท&สรางข�น
โดยใชหลกการของการปรบใหเรยบเหมอนกน มคาปรบน�าหนก (หรอคาพารามเตอร) 3 คา สาหรบคาคงท& (จดตดแกน) คาแนวโนม(trend) และคาวดอทธพลของฤดกาล (seasonality)
– คาปรบน�าหนกจะมคาอยระหวาง 0 ถง 1• คาปรบน�าหนกสาหรบ คาคงท& คอ α (alpha) • คาปรบน�าหนกสาหรบ คาแนวโนม คอ β (beta)• คาปรบน�าหนกสาหรบ คาฤดกาล คอ γ (gamma)
66
19/04/60
34
สรป: การเลอก Smoothing Techniques รปแบบตางๆ
อทธพลของฤดกาล
ไมม ม
แนวโนม
ไมม
-Simple Moving Average
-Weighted Moving Average
-Simple (Single) Exponential Smoothing
-Holt-Winters
(Seasonal) without
trend component (or
“Simple Seasonal
Model”)
ม
-Double Exponential
Smoothing
-Holt-Winters (Non-seasonal)
-Holt-Winters (Seasonal)
67
Exponential Smoothing Equation (1)
Simple Exponential Smoothing:
68
19/04/60
35
Exponential Smoothing Equation (2)Double Exponential Smoothing:
69
Exponential Smoothing Equation (3)Holt – Winters Exponential Smoothing (Additive model):
70
19/04/60
36
Exponential Smoothing Equation (4)Holt – Winters Exponential Smoothing (Multiplicative model):
71
ข4นตอนการสรางตวแบบการพยากรณดวย Smoothing Techniques (1)
1. Model specification– Plot กราฟ – ดวาม trend กบ seasonality หรอไม และเลอกรปแบบท&เหมาะสม
2. Model fitting & diagnosis– สรางตวแบบโดยใชขอมลท�งหมด– ดคาวดความคลาดเคล&อนตางๆ (ไดแก RMSE, MAE, MAPE) โดยเปรยบเทยบหลายๆ
วธ– คา error (บางคร� งเรยก residual ) ใน model ไมไดเปนแบบ Independent (หรอ
Random) แสดงวา model ม bias ดงน�นตองทาการหา model ใหม• ดคา Ljung-Box test (ถา p value > 0.05 ใหถอวา error เปนแบบ Independent)• ดกราฟเปรยบเทยบระหวาง actual value กบ fitted value
72
19/04/60
37
ข4นตอนการสรางตวแบบการพยากรณดวย Smoothing Techniques (2)
3. Model validation– ตดขอมลชวงเวลาตอนทายออกไปเทากบชวงเวลาท&เราตองการพยากรณไปขางหนา– สรางตวแบบโดยใชขอมลสวนท&เหลอ (ขอมลตอนตน)– พยากรณคาของชวงเวลาท&เราตดออกไป (เรยก Backcasting)– ดคาวดความคลาดเคล&อนตางๆ (ไดแก RMSE, MAE, MAPE) โดยอาจเปรยบเทยบ
หลายๆวธในกรณท&ตอนทา model fitting แลวพบวามหลายวธท&ใหความแมนยาใกลเคยงกน
4. Model application, monitoring, and modification– ทาการพยากรณไปขางหนาตามท&วางแผนไว– ตดตามตรวจสอบความแมนยา– ปรบปรงตวแบบเปนระยะเม&อไดขอมลจรงเขามาเพ&มเตมหรอพบวามความ
คลาดเคล&อนสง73
Exercise 2: Smoothing Techniques
1. Dataset: typhoid– ใหทา line graph เพ&อดลกษณะแนวโนมของจานวนผปวยรายเดอน (casemo)
– ทาการวเคราะหแบบ Smoothing Techniques เพ&อพยากรณการเกดโรครายเดอนในป 2559
2. Dataset: dengue– ใหทา line graph เพ&อดลกษณะแนวโนมของจานวนผปวยรายเดอน (casemo)
– ทาการวเคราะหแบบ Smoothing Techniques เพ&อพยากรณการเกดโรครายเดอนในป 2559
74
19/04/60
38
วธของ BOX และ JENKINS(หรอ ARIMA)
75
การพยากรณดวยวธของ Box และ Jenkins
• เปนการนา Regression technic มาประยกตใชกบขอมลอนกรมเวลา
• หลกการ: คาของขอมล ณ จดเวลาใดๆ ถกกาหนดมาจาก– คาของขอมลในอดตท&ผานมา
– คาความคลาดเคล&อนในอดต
• Moving Average: MA(q) หมายถง รปแบบท&แสดงวา คา yt ถกกาหนดมาจากคาความคลาดเคล&อน (e) ในอดต ไดแก et-1, et-2,…, et-q
• Autoregressive: AR(p) หมายถง รปแบบท&แสดงวา คา yt ถกกาหนดมาจากคาของมนเอง (y) ในอดต ไดแก yt-1, yt-2,…,yt-p
76
19/04/60
39
ตวอยางรปแบบของ AR (p), MA(q) และ ARMA(p,q)
• AR(1) : yt = θ0 + φ1yt-1 + ε tแปลวา: ขอมล ณ เวลา t (yt )สมพนธกบคาของขอมลกอนหนาน�น 1 ชวงเวลา (yt-1)
• MA(1) : yt = θ0 - θ1 εt-1 + ε tแปลวา: ขอมล ณ เวลา t (yt )สมพนธกบคาความคลาดเคล&อนกอนหนาน�น 1 ชวงเวลา (et-1)
• ARMA(1,1) : yt = θ0 + φ1yt-1 - θ1 εt-1 + εtแปลวา: ขอมล ณ เวลา t (yt )สมพนธกบท�งคาของขอมลกอนหนาน�น 1 ชวงเวลา (yt-1)และคาความคลาดเคล&อนกอนหนาน�น 1 ชวงเวลา (et-1)
Regression Model: Yi = β0 + β1 Xi + ei
77
ลกษณะของขอมลอนกรมเวลาทJตองพจารณาในการใช Box-Jenkins Methods (1)
1. ขอมลอนกรมเวลาทJไมคงทJ (Non-stationary series) คอ มลกษณะอยางนอยขอใดขอหน&ง ดงตอไปน�
• ขอมลแสดงแนวโนม (Trend) คอ มคาเฉล&ยไมคงท&• ขอมลแสดงการเปล&ยนแปลงตามฤดกาล (Seasonal variation)• ขอมลมความแปรปรวนไมคงท& (Non-constant variance)
• ปกตแลวขอมลท&ไดมามกจะมลกษณะเปน Non-stationary• ขอมลท&เปน Non-stationary จะยงไมสามารถนามากาหนดรปแบบของ
ARMA(p, q) ไดในทนท• ตองทาการปรบแกใหเปน Stationary series กอน
78
19/04/60
40
ลกษณะของขอมลอนกรมเวลาทJตองพจารณาในการใช Box-Jenkins Methods (2)
2. ขอมลอนกรมเวลาทJคงทJ (Stationary series) คอ มลกษณะดงตอไปน�อยางครบถวน
• ขอมลไมมแนวโนม (Trend) คอ มคาเฉล&ยคงท&• ขอมลไมมการเปล&ยนแปลงตามฤดกาล (Non-seasonal variation)• ขอมลมความแปรปรวนคงท& (Constant variance)
• Stationary series จะสามารถนามากาหนดรปแบบของ ARMA(p, q) ได
79
การปรบขอมลใหเปน Stationary (1)
1. ถาอนกรมเวลา (Yt) มแนวโนม ตองปรบใหเปนอนกรมเวลาใหมท&ไมมแนวโนม (Zt) โดยการใชวธ Regular Differencing (ใชสญลกษณ d)
• กรณท&หาความแตกตางแคลาดบเดยว (d = 1) เชน หาผลตางระหวางขอมลเดอนใดๆกบหน&งเดอนกอนหนาน�น
zt = yt – yt-1
• ในกรณท&หาความแตกตางแคลาดบเดยวแลวยงพบวาขอมลอนกรมคาของ zt ท&ไดมายงคงมแนวโนมอย ใหทาการหาความแตกตางเพ&มอกลาดบหน&ง (d=2)
zt = (yt – yt-1) - (yt-1 – yt-2) = yt – 2yt-1 + yt-2
80
19/04/60
41
การปรบขอมลใหเปน Stationary (2)
2. ถาอนกรมเวลา (Yt) มความเปนฤดกาล ตองปรบใหเปนอนกรมเวลาใหมท&ไมมฤดกาล (Zt) โดยการใชวธ Seasonal Differencing (ใชสญลกษณ D)
• กรณท&หาความแตกตางของฤดกาลแคลาดบเดยว (D = 1) เชน ขอมลรายเดอนใดๆ กใหหาความแตกตางกบขอมลเม&อ 12 เดอนกอนหนาน�น
zt = yt – yt-12
• ในกรณท&หาความแตกตางแคลาดบเดยวแลวยงพบวาขอมลอนกรมคาของ zt ท&ไดมายงคงมความเปนฤดกาลอย ใหทาการหาความแตกตางเพ&มอกลาดบหน&ง (D=2)
zt = (yt – yt-12) - (yt-12 – yt-24) = yt – 2yt-12 + yt-24
81
การปรบขอมลใหเปน Stationary (3)
3. ถาอนกรมเวลา (Yt) มท4งแนวโนมและมความเปนฤดกาล ตองปรบใหเปนอนกรมเวลาใหมท&ไมมท�งแนวโนมและฤดกาล (Zt) โดยการใชวธ Regular and Seasonal Differencing
• กรณท&หาความแตกตางของท�งแนวโนมและฤดกาลแคลาดบเดยว (d= 1 และ D = 1)
zt = (yt – yt-1) - (yt-12 – yt-13) = (yt – yt-12) - (yt-1 – yt-13)
= yt – yt-1 – yt-12 + yt-13
82
19/04/60
42
การปรบขอมลใหเปน Stationary (4)
4. กรณทJความแปรปรวนของอนกรมเวลาไมคงทJ ( Var(yt) ไมคงท&ในแตละเวลา t) จะตองการปรบอนกรมเวลา (Yt) ใหเปนอนกรมเวลาใหม (Zt) โดยการทา
• Logarithmic transformation
Zt = log(Yt)หรอ
• Square root transformation
�� = ��
83
ตวอยาง: การใชไฟฟารายเดอนของสหรฐอเมรกา
Log transform
Seasonal diff
Regular diff
Source: https://www.otexts.org/fpp/8/1
84
19/04/60
43
การพจารณาเลอกรปแบบของ AR และ MA
ใหดจาก Correlogram
• Autoregressive (AR) –การกาหนดคา p ใหดจาก Partial Autocorrelation
Function (หรอ คา rkk)
• Moving Average (MA)–การกาหนดคา q ใหดจาก Autocorrelation Function ( หรอ
คา rk)
85
86
คอเรลโรเกรม (correlogram) (AR)
แสดง rk และ rkk สาหรบรปแบบ (ก) AR(1) และ (ข) AR(2)
k
k
1
-1
1
1 1
-1
-1 -1
(ก) รปแบบ AR(1) (ข) รปแบบ AR(2)
k
k
1
-1
1
1 1
-1
-1 -1
19/04/60
44
87
คอเรลโรเกรม (correlogram) (MA)
แสดง rk และ rkk สาหรบรปแบบ (ก) MA(1) และ (ข) MA(2)
(ก) รปแบบ MA(1) (ข) รปแบบ MA(2)
k
k
1
-1
1
1 1
-1
-1 -1
k
k
1
-1
1
1 1
-1
-1 -1
ARIMA
• กรณทJเปน Non-stationary series ทJมแนวโนม และจาเปนตองมการทา Regular Differencing เพ&อปรบใหขอมลไมมแนวโนม เราจะเรยกรปแบบน�วา Autoregressive Integrated Moving Average หรอ ARIMA
• การระบรปแบบใหใช ARIMA (p, d, q) ซ& งหมายความวา– ม p เปนอนดบของ AR – ม q เปนอนดบของ MA – d เปนจานวนคร� งท&หาผลตางเพ&อปรบอนกรมเวลา (Yt) ใหเปนอนกรมเวลาท&
stationary (Zt)
ตวอยาง: ARIMA(0, 1, 2) หมายถง… 88
19/04/60
45
SARIMA
• กรณทJเปน Non-stationary series ทJมอทธพลของฤดกาลเขามาเก&ยวของ จาเปนตองมการทา Seasonal Differencing เพ&อปรบใหขอมลใหไมมความเปนฤดกาล เราจะเรยกรปแบบน�วา Seasonal Autoregressive Integrated Moving Average หรอ SARIMA
• การระบรปแบบใหใช SARIMA (P, D, Q)T ซ& งหมายความวา– ม P เปนอนดบของ SAR (Seasonal Autoregressive)– ม Q เปนอนดบของ SMA (Seasonal Moving Average)– D เปนจานวนคร� งท&หาผลตางเพ&อปรบอนกรมเวลา (Yt) ใหเปนอนกรมเวลาท&
stationary (Zt)– T หมายถงคาบของฤดกาล เชน ถาขอมลรายเดอน กจะมคา T = 12
ตวอยาง: SARIMA(1, 1, 0)12 หมายถง...89
ARIMA and SARIMA
• กรณทJเปน Non-stationary series ทJมท4งแนวโนมและอทธพลของฤดกาลเขามาเก&ยวของ จาเปนตองมการทาท�ง Regular และ Seasonal Differencing เพ&อปรบใหขอมลใหไมมแนวโนม และไมมความเปนฤดกาล
• เราจะเรยกรปแบบน�วา General Seasonal ARIMA model
• เขยนแสดงรปแบบดวย: ARIMA (p, d, q) SARIMA (P, D, Q)T
• หรอนยมเขยนส�นๆ: ARIMA (p, d, q) x (P, D, Q)T
ตวอยาง: ARIMA(2,1,0) x (0,1,1)12 หมายถง...90
19/04/60
46
ข4นตอนการสรางตวแบบการพยากรณดวย Box-Jenkins Techniques (1)
1. Model specification– ดวาขอมลเปน Stationary หรอไม
• ถามแนวโนม ใหทา Regular differencing• ถามความเปนฤดกาล ใหทา Seasonal differencing• ถาความแปรปรวนไมคงท& ใหแปลงคาโดย logarithm หรอ square root transformation
– หลงปรบแกแลว สามารถตรวจสอบวาขอมล Stationary หรอไม โดยใช Unit Root Test– ด Correlogram เพ&อประเมนวาควรเปน AR และ MA อนดบใด (หาคา p, q) หรอ SAR และ SMA
อนดบใด (หาคา P, Q)2. Model fitting & diagnosis
– สรางตวแบบโดยใชขอมลท�งหมด– ถาพบวามคา p value ของ term ใดใน Regression model ไมมนยสาคญทางสถต อาจพจารณาตด
ออกไปได– ดคาวดความคลาดเคล&อนตางๆ (ไดแก RMSE, MAE, MAPE) โดยเปรยบเทยบหลายๆรปแบบ– คา error (บางคร� งเรยก residual ) ใน model ไมไดเปนแบบ Independent (หรอ Random) แสดงวา
model ม bias ดงน�นตองทาการหา model ใหม• ดคา Ljung-Box test (ถา p value > 0.05 ใหถอวา error เปนแบบ Independent)• ดกราฟเปรยบเทยบระหวาง actual value กบ fitted value
91
ข4นตอนการสรางตวแบบการพยากรณดวย Box-Jenkins Techniques (2)
3. Model validation– ตดขอมลชวงเวลาตอนทายออกไปเทากบชวงเวลาท&เราตองการพยากรณไปขางหนา– สรางตวแบบโดยใชขอมลสวนท&เหลอ (ขอมลตอนตน)– พยากรณคาของชวงเวลาท&เราตดออกไป– ดคาวดความคลาดเคล&อนตางๆ (ไดแก RMSE, MAE, MAPE) โดยอาจเปรยบเทยบ
หลายๆวธในกรณท&ตอนทา model fitting แลวพบวามหลายวธท&ใหความแมนยาใกลเคยงกน
4. Model application, monitoring, and modification– ทาการพยากรณไปขางหนาตามท&วางแผนไว– ตดตามตรวจสอบความแมนยา– ปรบปรงตวแบบเปนระยะเม&อไดขอมลจรงเขามาเพ&มเตมหรอพบวามความ
คลาดเคล&อนสง92
19/04/60
47
Exercise 3: Box-Jenkins Techniques
1. Dataset: typhoid– ตรวจสอบขอมลอนกรมจานวนผปวยรายเดอน (casemo) วาเปนแบบ
stationary หรอไม– ทาการวเคราะหแบบ Box-Jenkins Techniques เพ&อพยากรณการเกดโรคราย
เดอนในป 2559
2. Dataset: dengue– ตรวจสอบขอมลอนกรมจานวนผปวยรายเดอน (casemo) วาเปนแบบ
stationary หรอไม– ทาการวเคราะหแบบ Box-Jenkins Techniques เพ&อพยากรณการเกดโรคราย
เดอนในป 2559
93
ขอควรทราบ• เน&องจาก Box-Jenkins methods อาศยหลกการของ Regression analysis ดงน�นจงสามารถ
คานวณชวงความเช&อม&นได (เชน 95% Confidence Interval) แตคาดงกลาวไมเหมาะสมท&จะนามาใชเปนตวบงช�ของความแมนยาของการพยากรณในอนาคต – วธการท&เหมาะสม คอ การคานวณ Prediction interval ของคาในอนาคตโดยอาศย Stochastic
model แบบตางๆ
• Exponential Smoothing techniques สวนใหญจะสามารถเขยนแสดงในรปแบบของ Box-Jenkins methods (ARIMA)ได
• SPSS มคาส&ง Expert Modeler ท&ชวยใหเราเลอก model ไดสะดวกข�น (โดยเลอก model ท& fit กบขอมลท&สดมาให) อยางไรกตามผพยากรณควรนามา model ท&ไดมาทดสอบเปรยบเทยบกบ model อ&นๆ (ท&มคา fit statistics ใกลเคยงกน) โดยการทา Backcastingดวย เน&องจาก model ท& fit ท&สดอาจจะไมใช model ท&พยากรณไปขางหนาไดดท&สด
94
19/04/60
48
Exercise 4: Smoothing VS Box-Jenkins Techniques
1. Dataset: typhoid– เปรยบเทยบผลการพยากรณการเกดโรครายเดอนในป 2559 ระหวางการ
พยากรณดวยวธ Smoothing และ Box-Jenkins Techniques
2. Dataset: dengue– เปรยบเทยบผลการพยากรณการเกดโรครายเดอนในป 2559 ระหวางการ
พยากรณดวยวธ Smoothing และ Box-Jenkins Techniques
95
ขอพงระวง
• Smoothing techniques หรอ Box-Jenkins methods เหมาะกบใชพยากรณลวงหนาเปนระยะเวลาส�นๆ (ไมเกน 3 เดอน) และควรมขอมลอยางนอย 50 จดเวลาสาหรบการพยากรณ
• การพยากรณดวยการวเคราะหขอมลอนกรมเวลา อาศยตวขอมลในอดตมาคาดการณส&งท&จะเกดข�นในอนาคต โดยไมไดอธบายวามอะไรเปนสาเหต แตต�งสมมตฐานวา– ขอมลในอดตไดดดซบสาเหตเหลาน�นแลว– ในอนาคต เหตปจจยตางๆจะยงคงเกดข�นและดาเนนไปเหมอนท&ผานมา
• ดงน�น หากมการเปล&ยนแปลงของเหตปจจยตางๆ กจะทาใหผลการพยากรณคลาดเคล&อนไดมาก
96
19/04/60
49
97Source: ปณธ ธมมวจยะ, WESR, 2014
เอกสารแนะนา
• สถตเพ&อการวเคราะหและการพยากรณดวยโปรแกรม EViews. โครงการการประชมเชงปฏบตการทบทวนความรและทกษะดานการพยากรณโรค (ภายใต โครงการพฒนาการพยากรณโรคและภยสขภาพ ป 2557 ) โดย อ.ดร.พฒพฒน ทววชรพฒน
• เทคนคการพยากรณเชงสถต (2555)โดย รองศาสตราจารย ดร.สพรรณ อ�งปญสตวงศ
• Practical Time Series Forecasting (2nd Edition, 2012) by Galit Shmueli
98
19/04/60
50
ขอบพระคณ
• อ.ดร. พฒพฒน ทววชรพฒน มหาวทยาลยเกษตรศาสตร
• อ.ดร. ชาญชยณรงค ทรงคาศร มหาวทยาลยมหาสารคาม
• รศ. ดร. นพ.พงศเทพ ววรรธนะเดช มหาวทยาลยเชยงใหม
99