Иконометрия Лекции 6-8 lek… · начална идея за моделиране...

52
Иконометрия Лекции 6-8 Временни редове проф. д-р Снежана Гочева-Илиева 2014 г.

Transcript of Иконометрия Лекции 6-8 lek… · начална идея за моделиране...

Page 1: Иконометрия Лекции 6-8 lek… · начална идея за моделиране с авторегресия и пълзяща средна. Решен е конкретен

Иконометрия Лекции 6-8

Временни редове

проф. д-р Снежана Гочева-Илиева

2014 г.

Page 2: Иконометрия Лекции 6-8 lek… · начална идея за моделиране с авторегресия и пълзяща средна. Решен е конкретен

2

Съдържание Увод ........................................................................................................................................ 3 §1. Класически модели на временни редове ..................................................................... 4 

1.1. Въведение ................................................................................................................... 4 1.2. Компоненти на временните редове .......................................................................... 5 1.3. Класически модели на временни редове ................................................................. 5 

1.3.1. Адитивен модел ................................................................................................. 6 1.3.2. Мултипликативен модел ................................................................................... 6 1.3.3. Смесен модел ..................................................................................................... 7 

1.4. Анализ на компонентите на временните редове ..................................................... 7 1.4.1. Тренд анализ ........................................................................................................ 7 1.4.2. Определяне на циклични ефекти ....................................................................... 9 1.4.3. Определяне на сезонни ефекти ........................................................................ 10 1.4.4. Отстраняване на случайни изменения ............................................................ 12 

1.5. Други видове модели ............................................................................................... 12 1.5.1. Модел на авторегресия .................................................................................... 12 1.5.2. Модел на пълзящо средно ............................................................................... 13 1.5.3. Модел на авторегресия – пълзящо средно .................................................... 13 

1.6. Пример 1 ................................................................................................................... 14 § 2. Приложение на класическите методи с SPSS ........................................................... 19 

2.1. Описание на използваните данни ........................................................................... 19 2.2. Линейна регресия за моделиране на брутното производство на електроенергия

..................................................................................................................................... 20 2.2.1. Процедури за линейна регресия в SPSS ......................................................... 20 2.2.2. Резултати от линейна регресия ........................................................................ 22 2.2.3. Линейна регресия за квадратичен модел ........................................................ 25 2.2.4. Линейна регресия за логаритмичната трансформация и диагностика на модела .......................................................................................................................... 26 

2.3. Приложение на SPSS за търсене на регресионен модел за нетното производство на електроенергия ............................................................................. 29 

2.3.1. Линейна регресия .............................................................................................. 29 §3. Временен анализ с ARIMA методи ............................................................................. 31 

3.1. Основни стъпки в моделирането с ARIMA ........................................................... 31 3.2. Идентификация на ARIMA (p, d, q) модели .......................................................... 33 

3.2.1. Компоненти на тренда и преобразуване на процеса към стационарен ....... 33 3.3. Авторегресионни компоненти ................................................................................ 37 3.4. Компоненти с пълзящо средно ............................................................................... 37 3.5. Автокорелационни и частични автокорелационни функции .............................. 38 3.6. ARIMA модели за пример 2 .................................................................................... 40 

§4. Приложение на SPSS за ARIMA модели за електропроизводството ...................... 45 4.1. Данни и процедури в SPSS за временен анализ на данни ................................... 45 4.2. ARIMA модели за брутното производство ........................................................... 47 

Заключение .......................................................................................................................... 50 Литература ........................................................................................................................... 51 ПРИЛОЖЕНИE ................................................................................................................... 52 

Page 3: Иконометрия Лекции 6-8 lek… · начална идея за моделиране с авторегресия и пълзяща средна. Решен е конкретен

3

Увод В тези лекции ще разгледаме:

Класически понятия и методи за обработка на временни редове

Методи за анализ на временни редове с помощта на модели, съдържащи

компоненти с авторегресия, тренд и пълзящо средно

Прилагане на теорията и SPSS за решаване на конкретни примери с

реални данни.

Кратко описание на съдържанието

В §1 са изложени началните понятия и класическите модели на степенни

редове като: адитивен, мултипликативен и смесен модел. Разглежда се разлагането на

реда на компоненти, видове трендове, построяване и анализ на тренда. Дават се

начална идея за моделиране с авторегресия и пълзяща средна. Решен е конкретен

пример.

§2 съдържа анализ на временни редове за електропотреблението в България,

по данни от Националния статистически институт. С помощта на SPSS и линейна

регресия са построени линеен и квадратичен модел, както и модел на логаритмичната

трансформация на данните за брутното и нетно потребление на електоенергия.

Направен е статистически анализ на моделите.

В §3 е направено въведение в ARIMA методите за анализ на временни редове

и е разгледан пример от литературата.

В §4 с използване на SPSS са получени ARIMA модели за данните за

електропотреблението. Направен е анализ и е показана адекватността на получените

модели за изследваните данни.

Page 4: Иконометрия Лекции 6-8 lek… · начална идея за моделиране с авторегресия и пълзяща средна. Решен е конкретен

4

§1. Класически модели на временни редове

1.1. Въведение

Понятие за временен ред

Съществуват голям брой величини, които се променят с течение на времето. В

теорията на вероятностите такъв тип величини се наричат случайни процеси или

случайни функции. Най-често случайният процес е непрекъснат във времето и

променя стойностите си в определен интервал от време. Промените обикновено

зависят от други величини (фактори) по един или друг начин – с трайна тенденция,

периодично, циклично, сезонно и т.н.

Анализът на такива случайни процеси с помощта на статистиката

обикновенно се извършва след като те се дискретизират и представят като серия от

данни. Дискретизирането е операция по регистрирането или разпределяне на

стойностите на случайния процес през определен период от време. Периодът е

константна величина, определя се по определени правила и се нарича време на

дискретизация.

Определение 1: Дискретизираните случайни процеси се наричат временни

редове.

Определение 2: Временният ред е множество от статистически наблюдения

над някаква случайна величина, подредени в хронологичен ред.

В почти всички области на човешката дейност се наблюдават явления, които

могат да се характеризират кото временни редове. Например ежедневните средни

стойности на индексите NASDAQ и Dow Jones за период от един месец, три месеца,

една година, ежедневният брой на продажби в голям супермаркет, продажбите на

компютри от дадена фирма за всеки месец и т.н.

Класическият анализ на временните редове е метод, при който изследваният

ред се представя като съставен от отделните компоненти, представящи

различните ефекти от групиране и влияние на фактори.[1]

Page 5: Иконометрия Лекции 6-8 lek… · начална идея за моделиране с авторегресия и пълзяща средна. Решен е конкретен

5

1.2. Компоненти на временните редове

Основни компоненти на временните редове са:

Дългосрочен тренд – T;

Цикличен флуктуации (ефекти) – C;

Сезонни вариации (ефекти) – S;

Случайни изменения – I.

Трендът е такава част от реда, която описва тенденцията на наклона /

нарастваща или намаляваща/, по която се разполагат стойностите на временния ред в

достатъчно дълъг период от време. Трендовете могат да се представят с различни

математически функции - линейни, полиномни, експоненциални, логаритмични,

степенно-показателни и др.

Цикличният ефект е тази част от реда, която представлява периодично

нарастване и намаляване на стойностите му, наблюдавани в един и същ временен

период на повторение. Те се описват най-често с помощта на елементарни

тригонометрични функции.

Сезонните ефекти също са периодични колебания на стойностите на

временните редове, свързани с общоприетите сезони.

Случайни изменения са изменения в стойностите на временните редове,

които нямат конкретно обяснение. Те се дължат на случайни въздействия върху

обекта на изследването и не подлежат на друго описание освен вероятностно.

Трендовете и цикличните ефекти образуват гладки изменения във временните

редове. Затова те обикновено се разглеждат като тяхна обща съставка. Тук те ще

бъдат разглеждани поотделно. Един временен ред може да съдържа няколко

тренда, няколко циклични и няколко сезонни изменения.

1.3. Класически модели на временни редове

В статистиката има голям брой разнообразни методи за изследване и

моделиране на временни редове. Построяването на математически модел на реда

означава да се намери формула (формули), които достатъчно точно възпроизвеждат

Page 6: Иконометрия Лекции 6-8 lek… · начална идея за моделиране с авторегресия и пълзяща средна. Решен е конкретен

6

поведението в промяната реда. Те се използват да се предсказват стойностите на реда

в известен или неизвестен период от време, като се изчислява стойността с помощта

на моделната формула.

Класическите модели са параметрични. При тях временният ред се описва с

една приближаваща функция, зависеща от времето, в която се определят известен

брой коефициенти (параметри) на модела.

Различават се следните основни видове класически модели: адитивен,

мултипликативен и смесен.

1.3.1. Адитивен модел

(1) ˆ Y T C S I

Този модел е сума на компонентите на временния ред, описани по-горе. Той е

сравнително най- лесен за анализиране, лесно се разлага на отделните си компоненти

и поради това обикновено се търси възможност за преобразуване и на други модели

към този тип.

1.3.2. Мултипликативен модел

Има вида:

(2) ˆ . . .Y T C S I

Този модел е съставен като произведение на компонентите. Когато по някаква

причина някой от компонентите отсъства от временния ред, в произведението той се

счита за равен на единица. Ако всички компоненти са положителни, след

логаритмуване той се свежда към адитивен:

(2) ˆlog log( * * * ) log log log log Y T C S I T C S I

или приема вида

Page 7: Иконометрия Лекции 6-8 lek… · начална идея за моделиране с авторегресия и пълзяща средна. Решен е конкретен

7

1 1 1 1 1ˆ . Y T C S I

1.3.3. Смесен модел

(4) ˆ * * Y T C S I

Обикновено в смесения модел само случайните изменения са адитивна

компонента. Изброените три вида модели не са единствени.

Всеки временен ред е резултат от изследването на някакъв обект във времето.

Моделът на временния ред е резултат от изследване на поведението на обекта. Той

по същество е писание на динамични процеси, протичащи в обекта.

1.4. Анализ на компонентите на временните редове

Построяването на посочените по-горе модели на временни редове се извършва

чрез разделяне на отделните компоненти и апроксимиране на всеки от тях с отделна

функция [1]. Тази операция се нарича декомпозиция на временния ред.

Декомпозицията зависи от вида на избрания модел – мултипликативен, адитивен

или смесен. При анализ на редовете последователно се оценяват и отстраняват

посочените вече компоненти в следния ред – тренд, циклични ефекти, сезонни

ефекти, случайни изменения.

1.4.1. Тренд анализ

Трендът е най-използваното средство за прогнозиране на бъдещи стойности на

един временен ред. Анализът на тренда се изразява в намирането на най-

подходящата крива, която описва тенденцията на изменение на временния ред за

даден период на неговото изследване. За оценяването му се използват различни

подходи.

1.4.1.1. Графично изчертаване

За целта е достатъчно в равнината да се изобразят точки с координати,

съответстващи на стойността на наблюдаваната величина в съответните периоди

на времето.

Page 8: Иконометрия Лекции 6-8 lek… · начална идея за моделиране с авторегресия и пълзяща средна. Решен е конкретен

8

1.4.1.2. Метод на пълзящото средно

Един сравнително прост, но ефективен метод за оценяване на гладките

изменения и приблизително определяне на вида на функцията, описваща тренда и

цикличните ефекти на един временен ред, е т.нар. метод на пълзящото осредняване.

Той се получава чрез последователно осредняване на определен брой последователни

стойности на временния ред. Първоначално се избира едно цяло положително число

k, което показва колко стойности от временния ред се използват на всяка стъпка на

осредняването. То се дели на 2, като се взима само цялото число от делението –

in t2

kl

. Препоръчва се стойността на k да не бъде по-голяма от 3 или 5.

Методът на пълзящото осредняване се реализира със следната формула:

(5)

1; 1, 2 , . . . . ,

j l

j uu j l

Y Y j l l n lk

В теорията за анализ на временни редове са разработени и други методи за

извличане на гладни изменения. Такива са методите на експоненциалното и

двойното експоненциално изглаждане, които са по-ефективни от метода на

пълзящото средно. Тези методи не се разглеждат в тази работа.

1.4.1.3. Извеждане на математичен модел на тренда

Най-често уравнението на тренда се намира с метода на регресионния анализ

и, в частност, с метода на най-малките квадрати. Изборът на най-подходящ

математичски модел се основава на внимателен предварителен анализ на характера

на зависимостта и на графичното й изображение. Като най-подходящ следва да се

приеме този модел, при който се получава най-малката стандартна грешка на

оценката [1].

Page 9: Иконометрия Лекции 6-8 lek… · начална идея за моделиране с авторегресия и пълзяща средна. Решен е конкретен

9

Таблица 1. Видове уравнения на тренд.

Тип на тренда Математичски модел

1) Линеен 0 1

ˆ .Y b b t

2) Квадратичен 20 1 2

ˆ . .Y b b t b t

3) Кубичен 2 30 1 2 3

ˆ . . .Y b b t b t b t

4) Експоненциален 1 .0

ˆ . b tY b e

5) Логаритмичен 0 1

ˆlo g . lo gY b b t

6) Дробно-рационален 2

0 1 2

1ˆ. .

Yb b t b t

1.4.2. Определяне на циклични ефекти

За преставяне на основните принципи при анализ на временните редове ще

бъдат разглеждани такива случаи, при които отделянето на компонентите е

сравнително лесно. Предполага се още, че точно описание на реда ще се получи с

адитивен модел от вида (1), в който сезонната компонента е приета за нула.

Следователно моделът, който може да бъде приет за описание на компонентите на

изследвания ред има вида:

(6) Y T C I

Отстраняване на тренда може да се извърши, като се приложи операция

изваждане:

(7) ˆ ˆ( )ciY T C I T Y T C I

Остатъкът от след остраняването на тренда е сумата на цикличната и

случайната компонента. Цикличната компонента (C) може да се опише с една или

няколко тригонометрични функции чрез т.нар. тригонометрична регресия. След това

Page 10: Иконометрия Лекции 6-8 lek… · начална идея за моделиране с авторегресия и пълзяща средна. Решен е конкретен

10

може да бъде отстранена от ciY по същия начин, като тренда (T):

(8) ˆ ˆ ( ) i ciY Y C C I C I

Построяването на тригонометрична регресия не е съвсем проста задача. В

много от задачите при изследване на временни редове се изчисляват други величини,

които характеризират измененията, дължащи се на отделните компоненти.

Отношението

(9)

ˆ.100 %i

YP

T

се нарича процент на тренда и отразява какъв е делът на тренда в измененията на

временния ред. Той отразява колебанията около 100-процентовата линия на тренда.

Друга величина, която характеризира измененията във времевите редове, е

т.нар. относителен цикличен остатък, който се изчислява по формула (10). В някои

случаи той се изчислява в проценти и се нарича относителен процентен цикличен

остатък.

(10)

ˆt

Y TC

T

1.4.3. Определяне на сезонни ефекти

В по-голямата част от задачите, свързани с анализа на временните редове с

цел дългосрочно прогнозиране и взимане на решения в производството, икономиката

и бизнеса, се използват моделите на трендовете. За целите на средносрочното

прогнозиране от съществено заначение е към трендовете да се добавят и цикличните

изменения. При сравнително краткосрочно планиране и оперативно взимане на

решения е необходимо да се отчитат и сезонните изменения във временните редове.

Подобно на цикличните изменения, сезонните изменения имат периодичен

характер. Периодът на повторение може да бъде различен: дневен, седмичен,

месечен, тримесечен, годишен. От гледна точка на икономическата и бизнес

Page 11: Иконометрия Лекции 6-8 lek… · начална идея за моделиране с авторегресия и пълзяща средна. Решен е конкретен

11

активност, най-често се анализират временни редове, в които периодичността е

тримесечна или годишна.

Анализът на сезонните изменения се извършва винаги след отстраняване на

гладките изменения – трендовете и цикличните изменения. Както беше посочено

вече това може да се изпълни с използване на метода на пълзящото осредняване. В

случаите, когато един времеви ред няма циклична компонента, това може да се

извърши с построяване на модел на тренда и последващото му остраняване от реда.

Тогава последващият анализ разглежда само сезонните и случайните изменения.

Предполагаемият модел на изследвания ред може да бъде в адитивен (1) или

мултипликативен (.2) вариант. След направеното предположение за отсъствие на

циклична компонента мултипликативният модел може да се запише така:

(11) ˆ * *Y T S I

По аналогичен начин се записва и адитивният модел, като знаците за събиране

се заменят със знаци за умножение. Видът на модела не променя съществено анализа.

Анализът на временния ред започва с построяване на модел на тренда (T). Той

може да се апроксимира с някой от изброените в Табл. 1 начини. Отстраняването на

тренда се извършва по известният начин. Остатъкът е:

(12)

ˆ * *ˆ *si

Y T S IY S I

T T

Класическият начин за анализ на остатъка е свързан с определяне на т.нар.

сезонен индекс, който може да се използва за целите на прогнозирането.

За по-нататъшния е необходимо да се изчисли какъв е делът на тренда в

измененията на временния ред. За тази цел се използва формула (9). Изчислените

стойности на дела на тренда в измененията на временния ред в проценти се използват

за определяне на сезонните индекси – sI [%]

Периодичността във временния ред е една година (4 тримесечия). Сезонният

индекс се изчислява, като се осреднят процентите на стойностите на дела на тренда

във временния ред за съответните дискретни моменти от периода на повторение.

Page 12: Иконометрия Лекции 6-8 lek… · начална идея за моделиране с авторегресия и пълзяща средна. Решен е конкретен

12

За определяне на стойностите на временния ред след отстраняване на

сезонните изменения, стойностите на изчислените сезонни индекси за съответните

дискретни моменти от периода на повторение (за всяко тримесечеие) се записва

отделно в колона.

Предсказване на сезонните стойности се изчислява по формулата:

(13)

ˆ.100p

s

YY

T

Прогнозирането на стойностите на изследвания временен ред може да се

извърши по следната формула:

(14)

.

100s

p

T IY

1.4.4. Отстраняване на случайни изменения

Случайните изменения във временните редове се описват обикновенно със

средствата за изледване на случайните величини, т.е. със стандартните статистически

средства.

1.5. Други видове модели

Класическите модели не са единствените, които се използват за описание на

временните редове. В съвременната литература са описани множество други модели.

Сравнително добро описание на временните редове може да се направи с т.нар.

модели на авторегресия (АР), пълзящо средно (ПС) и авторегресия-пълзящо средно

(АРПС). Те се построяват чрез добре известния метод на най-малките квадрати

(МНМК), като се отчитат специфичните особености за всеки модел. Това се

разглежда в следващите глави.

1.5.1. Модел на авторегресия

Моделът на авторегресия се записва по следния начин:

Page 13: Иконометрия Лекции 6-8 lek… · начална идея за моделиране с авторегресия и пълзяща средна. Решен е конкретен

13

(15) 1 2(1). (2). ....... ( ).i i i i ny a y a y a n y

В този модел стойността iy се представя като функция на n предхождащи я

стойности i jx (j=1,2,…,n). Той може да се използва в изследването на различни

иконометрични величини, като борсови индекси например.

1.5.2. Модел на пълзящо средно

Моделът на пълзящо средно се записва по следния начин:

(16) 1 2(0). (1). (2). ....... ( ).i i i i i my b x b x b x b m x

В този модел стойността iy се представя като функция на m предхождащи

стойности i jx ( j=1,2,…,m ) на величина, която може да бъде пореден номер на

период на наблюдение или друга величина, от която зависи у.

1.5.3. Модел на авторегресия – пълзящо средно

Моделът на авторегресия – пълзящо средно се записва във вида:

(17) 1 1(1). ..... ( ). (0). (1). ....... ( ).i i i n i i i my a y a n y b x b x b m x

при който величините n и m се наричат порядъци на модела. Той позволява да се

опишат сравнително сложни временни редове чрез прилагане на МНМК. Получаваме

матрици, но в случая регресори са 1 ,,...., , .....,i i n i i p i my y x x x

Те образуват матрицата за всички наблюдения. Останалите изчисления са

същите. След прилагане на МНМК за построяване на модел за временен ред от вида

(18) 1 2 1 2(1). (2). (1). (2).i i i i iy a y a y b x b x

Page 14: Иконометрия Лекции 6-8 lek… · начална идея за моделиране с авторегресия и пълзяща средна. Решен е конкретен

14

1.6. Пример 1

Компания продава автомобилите си в специализиран магазин. Данните за

тримесечните продажби (брой автомобили) за 24 тримесечия са дадени в долната

таблица. Тази задача е дадена за упражнение в [1]. За по-детайлно построяване на

тренда с помощта на метода на най-малките квадрати, тук ползваме ЕКСЕЛ.

Табл. 2. Данни и междинни изчисления за Пример 1.

t трим. Y t*t t*Y Тренд Y-Тренд МА Tренд+MA

1 1 362 1 362 394.693 -32.693

2 2 386 4 772 399.760 -13.760 -4.760 395.000

3 3 437 9 1311 404.826 32.174 -1.426 403.400

4 4 427 16 1708 409.893 17.107 7.707 417.600

5 1 405 25 2025 414.959 -9.959 19.441 434.400

6 2 433 36 2598 420.026 12.974 15.374 435.400

7 3 470 49 3290 425.092 44.908 5.308 430.400

8 4 442 64 3536 430.159 11.841 3.241 433.400

9 1 402 81 3618 435.225 -33.225 2.775 438.000

10 2 420 100 4200 440.292 -20.292 -8.292 432.000

11 3 456 121 5016 445.359 10.641 -18.559 426.800

12 4 440 144 5280 450.425 -10.425 -16.025 434.400

13 1 416 169 5408 455.492 -39.492 -3.492 452.000

14 2 440 196 6160 460.558 -20.558 -0.558 460.000

15 3 508 225 7620 465.625 42.375 -2.625 463.000

16 4 496 256 7936 470.691 25.309 5.109 475.800

17 1 455 289 7735 475.758 -20.758 17.042 492.800

18 2 480 324 8640 480.824 -0.824 9.976 490.800

19 3 525 361 9975 485.891 39.109 -7.091 478.800

20 4 498 400 9960 490.957 7.043 -8.757 482.200

21 1 436 441 9156 496.024 -60.024 -2.624 493.400

22 2 472 484 10384 501.090 -29.090 -6.890 494.200

23 3 536 529 12328 506.157 29.843 6.177 512.333

24 4 529 576 12696 511.223 17.777

                 

300    10871 4900 141714        

Page 15: Иконометрия Лекции 6-8 lek… · начална идея за моделиране с авторегресия и пълзяща средна. Решен е конкретен

15

Ще търсим линеен тренд от Таблица 1, вид 1):

0 1ˆ Y b b t

Системата за метода на най-малките квадрати с полином от първа степен е:

0 11 1

20 1

1 1 1

n n

i ii i

n n n

i i i ii i i

b n b t y

b t b t t y или

0 1

0 1

24 300 10871

300 4900 141714

b b

b b

Решаваме системата по някакъв начин, напр. с изключване на неизвестните.

Ако разделим първото уравнение на 24, а второто на 300 получаваме:

0 1

0 1

12.5 452.9583

16.33333 478.38

b b

b b

След изваждане на уравненията намираме коефициентите:

1 19.42167 / 3.833333 5.066522 b ,

0 1452.9563 12.5*5.066522 389.6268 b .

Тогава уравнението на тренда е:

ˆ 389.6268 5.066522 Y t

С ЕКСЕЛ получаваме и уравнението на тренда и графиката му, както и R2,

дадени на Фиг. 1.

Тъй като така нареченият коефициент на детерминация R2=0.61, то се счита,

че трендът описва около 61% от данните. Тъй като коефициентът пред t е 5.0665>0,

то трендът е положителен. В случая това се тълкува като тенденция за нарастване на

продажбите за периода.

Page 16: Иконометрия Лекции 6-8 lek… · начална идея за моделиране с авторегресия и пълзяща средна. Решен е конкретен

16

Продажби на автомобили

y = 5,0665t + 389,63

R2 = 0,6105

0

100

200

300

400

500

600

0 5 10 15 20 25 30

t, тримесечия

y, брой продад

ени 

автомобили

Фиг.1. Реални данни Y и линеен тренд.

Наблюдават се и варирания около тренда средно с около ±40 автомобила. Това

можем да обясним като сезонност, тъй като шаблонът от по 4 последователни точки

(4 тримесечия) се повтаря при движение отляво надясно по тренда. Тази сезонност

може да се изглади с пълзящо средно, напр. по формула (5).

Отстраняваме тренда с изваждане от данните за Y, съгласно (7). Получаваме

графиката:

Фиг. 2. След отстраняване на тренда в Пример 1.

След изглаждане с k=5 точки в пълзящо средно и крайните 2 данни – с k=3,

получаваме по-малки отклонения в рамките на ±20 автомобила, както се вижда от

графиката:

Page 17: Иконометрия Лекции 6-8 lek… · начална идея за моделиране с авторегресия и пълзяща средна. Решен е конкретен

17

Фиг. 3. Изглаждане на Y-Тренд с пълзящо средно.

Фиг. 4. Адитивен модел от тренд + пълзящо средно.

Фиг. 5. Приближение на получения адитивен модел до реалните данни.

Page 18: Иконометрия Лекции 6-8 lek… · начална идея за моделиране с авторегресия и пълзяща средна. Решен е конкретен

18

Заключение за Пример 1. Получава се по-добро приближение на реалните

данни с адитивния модел, отколкото само с тренд. Грешката е в рамките на 30 броя

автомобили, което е около 6-7%. Тъй като задачата е с малко данни (n=24

тримесечия), то тази точност е удовлетворителна.

Линейната регресия с метода на най-малките квадрати може да се направи с

SPSS. Получават се същите резултати. Там автоматично се дава и значимостта на

модела, която е по-малка от стандартното ниво α = 0.05.

Page 19: Иконометрия Лекции 6-8 lek… · начална идея за моделиране с авторегресия и пълзяща средна. Решен е конкретен

19

§2. Приложение на класическите методи с SPSS

В този параграф ще приложим теоретичните постановки за класическите

регресионни модели, изложени в §1. Ще определим моделите на трендовете за

официални данни и ще направим интерпретация на получените резултати.

Дадени са накратко и основните операции за проведените статистически

анализи с помощта на статистическия пакет SPSS.

2.1. Описание на използваните данни

В тази работа използваме данни от Националния статистически институт, за

регистрираните стойности на производство и доставки за електропотребление в

България в периода 2004 - 2011 година, по месеци, n=96 месеца.

Данните се намират на следната страница на сайта на НСИ:

http:/www.nsi.bg/otrasal.php?otr=30. Пълната таблица с данни е включена в

приложението.

ПРОИЗВОДСТВО И ДОСТАВКИ НА ЕЛЕКТРОЕНЕРГИЯ ЗА 2008 ГОДИНА

І ІІ ІІІ ІV V VІ VІІ

Брутно производство 1 4435 3678 3780 3559 3381 3268 3508

Нетно производство 2 3972 3344 3416 3233 3071 2941 3147

месеци на 2008 годинВръзки

Фиг. 6. Част от вида на страницата на НСИ.

Page 20: Иконометрия Лекции 6-8 lek… · начална идея за моделиране с авторегресия и пълзяща средна. Решен е конкретен

20

2.2. Линейна регресия за моделиране на брутното производство

на електроенергия

В този параграф ще търсим регресионни модели за определяне на трендовете

на изследваните данни. Най-напред ще покажем как се провежда регресионен анализ

с SPSS [3].

2.2.1. Процедури за линейна регресия в SPSS

Стартираме SPSS и отваряме файла с данните energy_data.sav.

От основното меню избираме: Analyze/Regression/Linear (Фиг. 7).

Фиг. 7. Избиране на процедура за линейна регресия в SPSS.

Отваря се прозореца Linear Regression, където правим настройките, показани

на следващата Фиг. 8. Независима променлива (предиктор) е t, зависима е B-

Proizvodstvo.

Page 21: Иконометрия Лекции 6-8 lek… · начална идея за моделиране с авторегресия и пълзяща средна. Решен е конкретен

21

Фиг. 8. Избиране на променливите за линейна регресия в SPSS.

След това от подменютата отдясно избираме допълнителни настройки:

в Statistics: Estimates, Model Fit

в Plots – от Фиг. 9

в Save: Unstandardized

Фиг. 9. Настройки в подпрозореца Plots за Линейна регресия.

Page 22: Иконометрия Лекции 6-8 lek… · начална идея за моделиране с авторегресия и пълзяща средна. Решен е конкретен

22

2.2.2. Резултати от линейна регресия

Първата стъпка от анализа е да построим графика на данните. По оста Ox е

времето t, в месеци, а по вертикалната ос – брутното производство на

електроенергия. Не може визуално да се установи дали има някакъв линеен или дриг

тренд. Затова ще проведем няколко опита за намиране на линеен или квадратичен

тренд, а също и с тренд след трансформация на данните.

Фиг. 10. Графика на данните за брутно производство на електроенергия 2004 -

2011 г. като функция на времето.

Page 23: Иконометрия Лекции 6-8 lek… · начална идея за моделиране с авторегресия и пълзяща средна. Решен е конкретен

23

Линейната регресия провеждаме, за да определим дали има линеен тренд. Тя

се извършва по метода на най-малките квадрати автоматично с SPSS. След

стартиране на процедурата получаваме следните резултати:

А) Общи индекси на модела – Табл. 3.

Коефициентът на корелация е R=0.284, т.е много ниска, коефициент на

детерминация R2=0.081, показващ 8.1 % описание от всички данни. Последната

колона дава стандартната грешка от метода, която за извадка с n наблюдения има

вида, например от [6]:

(19)

2

1

ˆ( )

2

n

i ii

Y Ys

n, при нас n=96.

Таблица 3. Model Summary

Model R R Square

Adjusted R

Square

Std. Error of

the Estimate

1 .284a .081 .071 489.517

a. Predictors: (Constant), t

Б) Резултати от анализ на вариациите ANOVA (ANalysis Of Variances) -

Табл. 4.

Таблица 4. ANOVAb

Model

Sum of

Squares df Mean Square F Sig.

1 Regression 1974050.331 1 1974050.331 8.238 .005a

Residual 22524893.002 94 239626.521

Total 24498943.333 95

Тук най-важна е последната колона, която показва дали моделът е

статистически зnaчим, което се проверява автоматично. Трябва нивото на значимост

Sig. <0.05, където стандартното ниво е 0.05. За нашата задача се получа 0.005<0.05.

Това означава, че макар корелационният коефициент да е малък, той е статистически

валиден.

Page 24: Иконометрия Лекции 6-8 lek… · начална идея за моделиране с авторегресия и пълзяща средна. Решен е конкретен

24

В) Коефициенти на модела - Табл. 5.

Отново най-важна е последната колона, която показва дали коефициентите са

статистически значими. Самите коефициенти са в колона B, а стнадартизираните им

стойности - в колона Beta. В нашия случай и константата B0=3473.693, B1=5.175.

Таблица 5. Coefficientsa

Model

Unstandardized

Coefficients

Standardized

Coefficients

t Sig. B Std. Error Beta

1 (Constant) 3473.693 100.708 34.493 .000

t 5.175 1.803 .284 2.870 .005

a. Dependent Variable: B_proizvodstvo

Формулата на регресионното линейно уравнение е:

(20) ˆ _ ( ) 5.175 3473.693 B proizv t t

Това уравнение може да се използва както за приближение на данните от

извадката, така и за предвиждане на нови значения на електропроизводството. Напр.

ако t=96, след заместване в (20) имаме приближението:

ˆ _ (96) 5.175 * 96 3473.693 3970 B proizv (МВт).

Точната стойност е 4787 МВт (мегаватт) или (MW). Виждаме, че това е доста

над предсказаното от получения модел (20). Затова ще построим нататък по-точни

модели.

Ако заместим t=97, т.е. в следващия месец (извън таблицата данни), моделът

предсказва стойност: ˆ _ (97) 5.175 * 97 3473.693 3976 B proizv (МВт).

Г) Съответствие на модела с реалните данни

На Фиг. 11 са показани всички предсказани данни. Вижда се, че те са много

под реалните и са далече от централната линия (регресионната права (20)), значи

моделът не е достатъчно добър.

Page 25: Иконометрия Лекции 6-8 lek… · начална идея за моделиране с авторегресия и пълзяща средна. Решен е конкретен

25

Фиг. 11. Реалните данни (по Ox) срещу предсказаните по модела (20) с ±5%

доверителен интервал.

2.2.3. Линейна регресия за квадратичен модел

Ще построим квадратичен модел (Табл. 1, случай 2)) от вида:

20 1 2

ˆ . .Y b b t b t .

За да построим модела пресмятаме нова променлива tt=t2. Провеждаме

линейна регресия с 2 независими променливи (предиктора) t и tt. Аналогично на

предния параграф получаваме съответните таблици:

Таблица 6. Model Summaryb

Model R R Square

Adjusted R

Square

Std. Error of

the Estimate

1 .332a .110 .091 484.186

Page 26: Иконометрия Лекции 6-8 lek… · начална идея за моделиране с авторегресия и пълзяща средна. Решен е конкретен

26

Таблица 7. ANOVAb

Model Sum of Squares df Mean Square F Sig.

1 Regression 2696375.688 2 1348187.844 5.751 .004a

Residual 21802567.646 93 234436.211

Total 24498943.333 95

a. Predictors: (Constant), tt, t

b. Dependent Variable: B_proizvodstvo

Таблица 8. Coefficientsa

Model

Unstandardized

Coefficients

Standardized

Coefficients

t Sig. B Std. Error Beta

1 (Constant) 3673.812 151.394 24.267 .000

t -7.077 7.204 -.388 -.982 .328

tt .126 .072 .694 1.755 .082

a. Dependent Variable: B_proizvodstvo

От табл. 7 виждаме, че Sig. =0.004<0.05, т.е. моделът е статистически значим.

Но от Табл. 8 за коефициентите получаваме, че са незначими.

Този модел отпада. Ще опитаме с трансформация на данните.

2.2.4. Линейна регресия за логаритмичната трансформация и диагностика на

модела

Често в статистиката, когато данните са положителни, се прави логаритмична

трансформация. Изчисляваме нова променлива

LogB=Ln(B_proizvodstvo).

Отново провеждаме линеен регресионен анализ, като зависимата променлива

е LogB, независима е t. Получаваме следните таблици и графики.

Page 27: Иконометрия Лекции 6-8 lek… · начална идея за моделиране с авторегресия и пълзяща средна. Решен е конкретен

27

Таблица 9. Model Summaryb

Model R R Square

Adjusted R

Square

Std. Error of

the Estimate

1 .294a .086 .076 .13035

a. Predictors: (Constant), t

b. Dependent Variable: LogB

Таблица 10. ANOVAb

Model

Sum of

Squares df

Mean

Square F Sig.

1 Regression .151 1 .151 8.863 .004a

Residual 1.597 94 .017

Total 1.748 95

a. Predictors: (Constant), t

b. Dependent Variable: LogB

Таблица 11. Coefficientsa

Model

Unstandardized

Coefficients

Standardized

Coefficients

t Sig. B Std. Error Beta

1 (Constant) 8.144 .027 303.692 .000

t .001 .000 .294 2.977 .004

a. Dependent Variable: LogB

Моделът е статистически значим, несъществено по-добър от модел (20).

Формулата на регресионното линейно уравнение е:

(21) ˆ ( ) 0.001 8.144 LogB t t

При предсказване на началните данни трябва да се антилогаритмува, т.е.

0.001 8.144ˆ ( ) tB t e .

Page 28: Иконометрия Лекции 6-8 lek… · начална идея за моделиране с авторегресия и пълзяща средна. Решен е конкретен

28

На Фиг. 12 са показани логаритмуваните данни и пресказаните по модела (21).

Не се наблюдава съществена разлика спрямо Фиг. 11. Правим заключение, че

първоначалният линеен тренд (20) е със същата приложимост, както и (21).

Фиг. 12. Логаритмуваните реални данни (по Ox) срещу предсказаните по

модела (21) с ±5% доверителен интервал.

Фиг. 13. Графика на вариранията след отстраняване на тренда.

Page 29: Иконометрия Лекции 6-8 lek… · начална идея за моделиране с авторегресия и пълзяща средна. Решен е конкретен

29

След отстраняване на тренда (20) получаваме графиката от Фиг. 13. Не се

наблюдават никакви шаблони, за да предполагаме циклични или сезонни влияния.

По тази причини заключаваме, че класическите методи не са подходящи за нашите

данни.

2.3. Приложение на SPSS за търсене на регресионен модел за

нетното производство на електроенергия

2.3.1. Линейна регресия

Начертаваме графика на данните като функция на времето t и добавяме линеен

тренд. Оказва се, че той е статистически незначим, както се наблюдава на

съответните таблици.

Фиг. 14. Графика на данните за нетното производство на електороенергия в

месеци в България от 2004 до 2011 г.

Page 30: Иконометрия Лекции 6-8 lek… · начална идея за моделиране с авторегресия и пълзяща средна. Решен е конкретен

30

Model Summaryb

Model R R Square

Adjusted R

Square

Std. Error of the

Estimate

1 .115a .013 .003 433.141

a. Predictors: (Constant), t

b. Dependent Variable: N_proizvodstvo

ANOVAb

Model Sum of Squares df Mean Square F Sig.

1 Regression 234561.252 1 234561.252 1.250 .266a

Residual 17635435.654 94 187611.018

Total 17869996.906 95

a. Predictors: (Constant), t

b. Dependent Variable: N_proizvodstvo

Аналогично незначими се получават и квадратичен модел, както и от трета

степен, с логаритмуване и т.н.

Извод: С методите на класичеките временни редове не може да се намери

стандартен тип тренд.

Page 31: Иконометрия Лекции 6-8 lek… · начална идея за моделиране с авторегресия и пълзяща средна. Решен е конкретен

31

§3. Временен анализ с ARIMA методи

3.1. Основни стъпки в моделирането с ARIMA

В §1 бяха въведени някои начални общи представи за разлагане на временен

ред на компоненти от тренд, авторегресия и пълзящо средно. В този параграф

последните се разглеждат по-подробно и се въвеждат допълнителни техники, които

се илюстрират с пример от литературата [4].

Описаните модели са т.нар. авторегресионни, интегрирани, с пълзяща средна -

ARIMA (AutoRegressive Integrated Moving Average). Записват се като ARIMA (p, d, q)

модели. Авторегресионният елемент p представлява влиянието на данните от p

предишни моменти в модела. Интегрираният елемент d представлява тенденции

(трендът) в данните, а елементът q показва колко члена се използват за изглаждане

на малки флуктуации с помощта на пълзящо средно.

Стандартно временният анализ на данните се провежда в следните три стъпки:

идентифициране, оценка и диагностика [4].

Идентифициране

Първата стъпка е идентификация на временния ред, която включва изследване

на данните с изчисляване и начертаване на графиката, на графиките на

автокорелационните функции (ACFs) и частичните автокорелационни функции

(PACFs)

Автокорелациите са самостоятелно корелации на серия от резултати със себе

си, като се прескачат един или повече периоди назад във времето (lag). Частичните

автокорелации са самостоятелни корелации с междинни частни автокорелации.

Различни авторегресионни, с пълзящо средни шаблони (подмножества на данните с

близко поведение) често имат влияние за специфични промени в

автокорелациионните и частични автокорелационни функции.

Когато временният ред е дълъг, може да има тенденции, показващи

периодични промени, наричани сезонност, периодичност, или цикличност, както бе

описано и в §1. Например, увеличени вирусни инфекции по време на зимните

Page 32: Иконометрия Лекции 6-8 lek… · начална идея за моделиране с авторегресия и пълзяща средна. Решен е конкретен

32

месеци, завишено електропотребление за отопление в бита и др. По този начин,

сезонността е друга форма на автокорелация, която често се наблюдава в масивите от

данни. Периодична промяна може да възниква и за по-кратки периоди от време.

Например, качеството на производството може да се различава по деня от седмицата,

достигайки в средата на седмицата максимум. Или потреблението на електроенергия

се увеличава през уикенда. Тези модели могат да се идентифицират с помощта ACFs

и PACFs преди построяване на модела и да помогнат за предварително определяне на

(p, d, q).

Анализът на временни редове е по-подходяща техника за моделиране за данни

с автокорелация, отколкото, например линейна регресия. Най-честата причина да не

се получават модели с линейна регресия и класическите методи е нарушаването на

допускането за независимост на грешките. Грешките са също автокорелиращи. И

това трябва да се отчита от модела.

Построяване и оценяване на модела

Втората стъпка при моделиране на временни серии от данни е построяването

на модел и оценка на неговите параметри, тествани срещу нулевата хипотеза, че са

равни на нула.

Диагностика на модела

Третата стъпка е диагностиката, в която се изследват остатъците

(резидиумите). Остатъците са разликите между предсказаните (изчислени) по модела

стойности и наблюдаваните данни. Теоретично допускането е, че остатъците са

случайни и имат нормално разпределение. Ако това не е така, вероятно има още

шаблони в данните, които не са отчетени. Ако всички шаблони от данни са отчетени

в модела, остатъците са случайни. В много приложения на времевите редове,

идентифициране и моделиране на модели в данни са достатъчни, за да намиране на

уравнение, което след това се използва, за да се предскаже бъдещето на процеса.

Това се нарича прогнозиране, което е целта на много приложения на времевите

редове в много области като икономика, среда, екология, социология, техника и др.

Page 33: Иконометрия Лекции 6-8 lek… · начална идея за моделиране с авторегресия и пълзяща средна. Решен е конкретен

33

3.2. Идентификация на ARIMA (p, d, q) модели

Идентификацията на временните редове е процес на намиране на параметрите

на ARIMA (p, d, q). Принципно се търсят възможно най-малките стойности на

параметрите, които обикновено са 0, 1, 2... Когато стойността е 0, елементът не е

необходим в този модел. Средният елемент, d (тренд), се изследва преди p и q. Целта

е да се определи дали процесът е стационарен, а ако не, да се преобразува към

стационарен, чрез отстраняване на тренда преди определянето на стойностите на p и

q. Ще припомним, че стационарният процес има постоянна средна стойност и малка

дисперсия през целият времеви прериод на изследването, т.е. за променливата Y за

ред с n наблюдения:

(22) 1 2 ... nY Y Y

Y constn

, 2 2

1

1( )

1

n

ii

s Y Yn

3.2.1. Компоненти на тренда и преобразуване на процеса към стационарен

Всеки анализ започва с построяване на графиката на данните в зависимост от

времето, направени в SPSS чрез избиране от основното меню на:

Analyze/Forecasting/Sequence Charts…

Двете основни характеристики на графиката са централната тенденция и

дисперсията, съгласно формула (22). Затова следим дали средната стойност Y се

измества с течение на времето. И дали дисперсията 2s се увеличава или намалява

спрямо времето.

Ако средната стойност се променя, тенденцията (трендът) се отстранява чрез

изваждане на всеки две последователни стойности. Ако така не получаваме

стационарен процес може да се използва логаритмична или др. трансформация на

данните.

Броят на изважданията определя стойността на d. След първото изваждане,

ако d = 0, моделът е стационарен и няма тренд. Когато d = 1, трендът е линеен и

трябва да се отстрани чрез изваждане от данните и т.н. За нестационарни временни

Page 34: Иконометрия Лекции 6-8 lek… · начална идея за моделиране с авторегресия и пълзяща средна. Решен е конкретен

34

редове стойностите d= 1 или d =2 обикновено са достатъчни да направят модела

стационарен.

По-нататък ще разглеждаме следния Пример 2 с данните от Фиг. 15. [4]

Фиг. 15. Данни за качеството на търговски продукт (компютри) в течение на 20

седмици, представени в първите две колони – t, Y. [4]

Графиката на тези данни от първите две колони е дадена на Фиг. 16.

Наблюдава се, че има тренд с нарастване по времето.

Средната стойност 0.79Y , което е и нарастването на тренда.

Page 35: Иконометрия Лекции 6-8 lek… · начална идея за моделиране с авторегресия и пълзяща средна. Решен е конкретен

35

За да се отстрани трендът се изчисляват разликите. Разликата означава

изваждане на стойността на по-ранно наблюдение от стойността на по-късно

наблюдение. Първата стойност на Y на Фиг.15, например, е 19, на втората стойност е

21. Оттук получаваме разлика 2. Аналогично изчисляваме до края на стълба и

получаваме dY. По подобен начин изчисляваме вторите разлики d2Y като

извършваме изважданията в получените първи разлики dY и т.н. (виж Фиг. 15).

Фиг. 16. Графика на данните от Пример 2.

След изчисляване на първите разлики имаме графиката на dY – Фиг. 17.

Фиг. 17. Графика на dY от данните от Фиг.15.

Page 36: Иконометрия Лекции 6-8 lek… · начална идея за моделиране с авторегресия и пълзяща средна. Решен е конкретен

36

Може да се направи логаритмична трансформация на първата разлика dY, като

предварително се увеличи с 12, за да няма отрицателни числа. Така се пресмята

колоната Log10_dY_12, съответно графиката е на Фиг. 18.

Фиг. 18. Графика на логаритмичната трансформация на (dY+12) по Фиг.15.

Логиката в §1 ще изложим по-детайлно по-нататък, следвайки [4].

Ако временният ред е стационарен, основната линия в графиката му ще бъде

хоризонтална с постоянна дисперсия. По-точно, в най-простия временен ред няма

зависимости между отделните наблюдения, всяко наблюдение Yt може да се счита

като отделен случаен скок at около постоянната средна (отклонение) в даден момент

време t и можем да запишем най-простия модел като

(23) t tY a

Считаме, че тези случайни отклонения са независими, с постоянна средна и

дисперсия, и такива са и наблюденията. Ако обаче има тренд в данните, резултатът

също отразява тази тенденция, представляваща наклон на процеса. В такъв малко по-

сложен модел, наблюдението в текущото време t, Yt, зависи от стойността на

предходното наблюдение, Yt-1.

(24) 0 1( ) t t tY Y a

Page 37: Иконометрия Лекции 6-8 lek… · начална идея за моделиране с авторегресия и пълзяща средна. Решен е конкретен

37

За данните от пример 2 (Фиг. 15). наклонът на линейния тренд е средната

стойност 0.79 или 0 0.79 . Т.е. моделът е:

(25) 10.79( )t t tY Y a

Когато процесът е станал стационарен, основната линия в графиката му ще

бъде хоризонтална с ще има постоянни отклонения около нея. Това обаче не е така,

нито и за логаритмичната трансформация, което се вижда от графиките на Фиг. 17 и

18. Както и в §2, по-нататък се предпочита по-простият случай без трансформация на

данните.

3.3. Авторегресионни компоненти

Авторегресионните компоненти представляват влиянието на предходни

наблюдения върху процеса за всеки момент t. Стойността на p е броят на

авторегресионните компоненти в ARIMA (p, d, q) модел. Стойността на p е 0, ако

няма връзка между 2 съседни наблюдения. Когато стойността на p e 1, има

зависимост между наблюденията при dY и коефициентът на корелация e 1 . Когато

p= 2, има корелационна зависимост между наблюденията в d2Y и коефициентът на

корелация e 2 и т.н. Това се записва така

(26) 1 1 2 2t t t tY Y Y a

и представлява ARIMA модел с p=2, или ARIMA (2,0,0).

3.4. Компоненти с пълзящо средно

Компонентите с пълзящо средно изразяват отклоненията (скокове) със

случаен характер, дължащи се на предходни случайни отклонения. Стойността q

показва броя на пълзящите средни компоненти в ARIMA (p, d. q). Когато q e нула,

Page 38: Иконометрия Лекции 6-8 lek… · начална идея за моделиране с авторегресия и пълзяща средна. Решен е конкретен

38

няма такива компоненти. Когато q е 1, има зависимост между текущата стойност и

отклонението при лаг 1 (т.е. стъпка назад в реда), като коефициентът на корелация 1

представлява величината на тази връзка. Когато q=2, има връзка между текущата

стойност и случайното отклонение при лаг 2 и корелационен коефициент е 2 , и т.н.

Или ARIMA (0, 0, 2) модел има вида

(27) 1 1 2 2 t t t tY a a a

В по-сложни временни редове може да има едновременно два или три

компонента в ARIMA модела и казваме, че има смесен модел. Това се получава ако

има тренд, има зависимост между всеки текущ и няколко предишни за него члена на

реда, и има зависимост и между отклонениеята с различни лагове. Пример за

зависимост само с лаг 1 е:

(28) 1 1 1 1t t t tY Y a a

3.5. Автокорелационни и частични автокорелационни функции

Моделите се идентифицирани чрез повтарящи се шаблони (групи изменения)

във временния ред. Те могат да се идентифицират с техните ACFs (автокорелационни

функции) и PACFs (частично автокорелационни функции). Тези функции зависят от

фиксиран брой лагове, и се изчисляват за всеки момент t, с изключение на някои

крайни, където не могат да се изчислят.

Формулата за автокорелационната функция ACF в текущ момент t за k-ти лаг

има вида:

(29) 1

2

1

1( )( )

1( )

1

n k

t t kt

k n

tt

Y Y Y Yn k

rY Y

n

където n е броят на наблюденията в цялата серия, k е закъснението (брой лагове), Y е

Page 39: Иконометрия Лекции 6-8 lek… · начална идея за моделиране с авторегресия и пълзяща средна. Решен е конкретен

39

средната стойност на цялата временна серия и знаменателят е дисперсията на целия

временен ред.

Стандартната грешка на автокорелация се основава на квадрата на

авторкорелация от всички предишни автокорелации. За лаг 1, няма предишни

автокорелации, така че 20 0r . Формулата за стандартната грешка е

(30)

12

0

1 2

k

k

ll

r

rSE

n

Формулите за изчисляване на частични автокорелации са много по-сложни и

включват рекурсивна техника [4]. Въпреки това, стандартната грешка за частична

автокорелация е проста и еднаква за всички лагове. Тя е

(31) 1

prSEn

За Пример 2, k=1, с помощта на формула (29) може да се пресметне, че

12 2 2

1[(11 0.79)( 8 0.79)(2 0.79) ... ( 4 0.79)(2 0.79)

19 0.611

[[(11 0.79) ( 8 0.79) (2 0.79) ]19

r

От (30), (31) стандартните грешка на автокорелация и частична автокорелация

за първи лаг са

1

1 2(0)0.22

20rSE

,

10.22

20prSE

Автокорелациите и стандартните грешки за други лагове се изчисляват чрез

същата продцедура.

За първите два лага частичните автокорелационни функции се пресмятат по

Page 40: Иконометрия Лекции 6-8 lek… · начална идея за моделиране с авторегресия и пълзяща средна. Решен е конкретен

40

формулите [4]:

2

2

(1) (1)

(2) (1)(2)

1 (1)

PACF ACF

ACF ACFPACF

ACF

Големи скокове и повтарящи се шаблони в автокорелационните и частично

авокорелационните функции указват на приблизителните стойности на p, q в АРИМА

моделите, което се ползва широко за тяхната идентификация.

Важи правилото – при намерени няколко намерени АRIMA модела да се

избира възможно най-простия от тях.

3.6. ARIMA модели за пример 2

Вече се установи, че временният ред има положителен тренд 0.79. След

отсраняването му се работи с dY.

Построяваме графиките на ACF и PACF – Фиг. 19 и 20. Това става с SPSS като

изберем: Analyze / Forecasting / Autocorrelations …

Фиг. 19. Графика на ACF за данните от пример 2 – виж Фиг. 15.

Page 41: Иконометрия Лекции 6-8 lek… · начална идея за моделиране с авторегресия и пълзяща средна. Решен е конкретен

41

Фиг. 20. Графика на PACF за данните от пример 2 – Фиг. 15.

За dY автокорелационните и частично автокорелационните функции ACF и

PACF имат само по 1 скок извън доверителните интервали и бавно намаляват което

означава, че може да се очаква ARIMA моделът за dY да има 1 авторегресионен член,

т.е. p=1 и един за плаващо средно, т.е. q=1.

Провеждаме анализ на реда за dY с

Analyze/ Forecasting/Create Models,

както е показано на Фиг. 21. Избираме модел ARIMA (1,0,1).

Получаваме

Model Description

Model Type

Model ID dY Model_1 ARIMA(1,0,1)

Page 42: Иконометрия Лекции 6-8 lek… · начална идея за моделиране с авторегресия и пълзяща средна. Решен е конкретен

42

Фиг. 21. Стартиране на анализ на временни редове с SPSS.

Model Statistics

Model

Number of

Predictors

Model Fit statistics Ljung-Box Q(18)

Stationary R-

squared R-squared Statistics DF Sig.

dY-Model_1 1 .664 .664 10.896 16 .816

ARIMA Model Parameters

Estimate SE t Sig.

dY-

Model_1

dY No Transformation Constant .656 .584 1.123 .279

AR Lag 1 -.339 .284 -1.193 .251

MA Lag 1 .954 1.234 .773 .452

t No Transformation Numerator Lag 0 -.008 .051 -.153 .880

Page 43: Иконометрия Лекции 6-8 lek… · начална идея за моделиране с авторегресия и пълзяща средна. Решен е конкретен

43

Вижда се, че моделът и оценките (Estimates) на коефициентите му са незначими

(Sig.>0.05), но това е поради малкия брой данни n=20. Параметрите на модела за dY

след диференциране на изходния временен ред са съгласно формула (28):

(32) 1 1 1 1 1 10.339 0.954 0.653 t t t t t tdY dY dY a dY dY

Коефициентът на детерминация R-squared (R2)=0.664, т.е. моделът описва

66.4% от данните за dY. Приближението е дадено на Фиг. 22.

Фиг. 22. Приближение с ARIMA (1,0,1) на dY.

На Фиг.23 са показани грешките по лаговете, всички са в допустимите

инервали и намаляват с нарастване на времето. Така моделът е диагностициран и

може да се използва за различни цели – приближение и предсказване.

Page 44: Иконометрия Лекции 6-8 lek… · начална идея за моделиране с авторегресия и пълзяща средна. Решен е конкретен

44

Фиг. 23. Изследване на остатъците (грешките) на модела с доверителните

интервали по лагове.

Page 45: Иконометрия Лекции 6-8 lek… · начална идея за моделиране с авторегресия и пълзяща средна. Решен е конкретен

45

§4. Приложение на SPSS за ARIMA модели за електропроизводството

В този параграф ще използваме SPSS за да построим ARIMA модели за

данните за електропроизводството от §2.

4.1. Данни и процедури в SPSS за временен анализ на данни

Има определени изисквания за данни за временен ред, за да може да се

прилага временен анализ в SPSS. Изисква се да няма липсващи данни. Освен това

периодът време се задава подробно, напр. ден, месец, година и т.н. Това се дефинира,

както е дадено на Фиг. 24.

Фиг. 24. Избор на процедурата за дефиниране на данни в SPSS.

Page 46: Иконометрия Лекции 6-8 lek… · начална идея за моделиране с авторегресия и пълзяща средна. Решен е конкретен

46

За нашите данни видът е от Фиг. 25.

Фиг. 25. Прозорец с дефинираните данни.

След като стартираме процедурата Analyze/ Forecasting/Create Models (Фиг.

21), се отваря прозорецът на Time Series Modeler – виж Фиг. 26.:

От ARIMA-Criteria задаваме параметрите p,d,q на избран модел и получаваме

съответното решение.

Page 47: Иконометрия Лекции 6-8 lek… · начална идея за моделиране с авторегресия и пълзяща средна. Решен е конкретен

47

Фиг. 25. Прозорец с за провеждане на временния анализ.

4.2. ARIMA модели за брутното производство

Изледването протича аналогично на решението на Пример 2 от §3.

Последователно получаваме:

Автокорелационната и частично автокорелационната функции ACF и PACF –

фиг. 26-27.

Фиг. 26. ACF за брутно производство.

Page 48: Иконометрия Лекции 6-8 lek… · начална идея за моделиране с авторегресия и пълзяща средна. Решен е конкретен

48

Фиг. 27. PACF за брутно производство.

Наблюдава се повтарящ се шаблон на ACF с цикъл до 10-11 лаг, т.е. очаквано

p=10-11. При PACF има подобен, но не толкова отчетлив и тук възможностите за q са

от 3 нагоре до 10. Прекалено големият единичен скок в лаг 1 на ACF и PACF

означава, че има и тренд.

Провеждаме временен анализ с различни ARIMA модели с идентифицираните

възможни p, q. Сравнявайки резултатите от различни модели даваме най-

добрия и сравнително най-простия. Това е ARIMA (11,1,4). Моделът и

повечето му параметри са статистически значими (Sig. <0.05). Двата

незначими се изключват от уравнението.

Model Description

Model Type

Model ID B_proizvodstvo Model_1 ARIMA(11,1,4)

Model Statistics

Model

Number of

Predictors

Model Fit statistics Ljung-Box Q(18)

Number of

Outliers

Stationary R-

squared Statistics DF Sig.

B_proizvodstvo-Model_1 1 .606 12.973 3 .005 0

Page 49: Иконометрия Лекции 6-8 lek… · начална идея за моделиране с авторегресия и пълзяща средна. Решен е конкретен

49

Параметрите са в колоната Estimate.

ARIMA Model Parameters

Estimate SE t Sig.

B_proizvodstvo No Transformation Constant -6.992 16.819 -.416 .679

AR Lag 1 -.853 .126 -6.764 .000

Lag 2 -.673 .138 -4.873 .000

Lag 3 -.822 .106 -7.715 .000

Lag 4 -.940 .109 -8.596 .000

Lag 5 -.709 .137 -5.188 .000

Lag 6 -.833 .119 -7.023 .000

Lag 7 -.754 .133 -5.667 .000

Lag 8 -.731 .106 -6.878 .000

Lag 9 -.815 .093 -8.778 .000

Lag 10 -.778 .118 -6.584 .000

Lag 11 -.570 .109 -5.219 .000

Difference 1

MA Lag 1 -.703 .138 -5.112 .000

Lag 2 -.343 .160 -2.148 .035

Lag 3 -.274 .153 -1.789 .077

Lag 4 -.653 .135 -4.817 .000

t No Transformation Numerator Lag 0 .300 .305 .983 .328

Графиката на данните и приближението с модела е показано на Фиг. 28.

Page 50: Иконометрия Лекции 6-8 lek… · начална идея за моделиране с авторегресия и пълзяща средна. Решен е конкретен

50

Фиг. 28. Приближение на данните за брутно производство на електроенергия с

ARIMA (11,1,4).

Заключение

Разучени са основите на класическите методи и ARIMA методи.

Те бяха приложени са анализ на реални данни за електропроизводството в

България по известните данни от националния статистически институт за 2004-2011

г. Установи се, че регресионните модели дават по-слаби резултати като адекватност

към данните спрямо ARIMA методите.

Няма данни за други фактори, които влияят върху величината на

електропроизводството, поради което може да се заключи, че моделите дават само

основните компоненти – тренд, авторегресия и плаващо средно.

Page 51: Иконометрия Лекции 6-8 lek… · начална идея за моделиране с авторегресия и пълзяща средна. Решен е конкретен

51

Литература

[1] Д. Дамгалиев, Ж. Теллалян, Бизнесстатистика, Изд. НБУ, 2006, тема 11.

[2] Национален Статистически Институт, сайт:

http:/www.nsi.bg/otrasal.php?otr=30

[3] SPSS IBM Statistics 19, http://www-01.ibm.com/software/analytics/spss/, 2012.

[4] B. G. Tabachnik and L. S. Fidell, Using multivariate statistics, 5th edition, Pearson

Int. Edition, Boston, 2005, Chapter 18.6.

http://wps.ablongman.com/wps/media/objects/2829/2897573/ch18.pdf, 2012.

[5] http://en.wikipedia.org/wiki/Autoregressive_integrated_moving_average

[6] http://onlinestatbook.com/2/regression/accuracy.html

Page 52: Иконометрия Лекции 6-8 lek… · начална идея за моделиране с авторегресия и пълзяща средна. Решен е конкретен

52

ПРИЛОЖЕНИE

1) Използвани данни : от Националния статистически институт, за

регистрираните стойности на производство и доставки за електропотребление (МВт)

в България в периода 2004 - 2011 година, по месеци.