Лекция 7 Многомерный регрессионный анализ

Post on 30-Jan-2016

125 views 4 download

description

Лекция 7 Многомерный регрессионный анализ. Многомерный регрессионный анализ. был разработан для прогнозирования экономической активности в различных отраслях экономики (денежные потоки, уровни доходов, банковские ставки, уровень рождаемости, безработицы и т.д.) - PowerPoint PPT Presentation

Transcript of Лекция 7 Многомерный регрессионный анализ

Лекция 7Многомерный регрессионный анализ

Многомерный регрессионный анализ

был разработан для прогнозирования экономической активности в различных отраслях экономики (денежные потоки, уровни доходов, банковские ставки, уровень рождаемости, безработицы и т.д.)

полезен для прогнозов будущих тенденций и для оценки и корректировки текущей стратегии (оценки настоящего)

Многомерная регрессия

Для прогноза зависимой переменной используется более одной независимой переменной

Признаки хорошей независимой переменной: связанна с зависимой переменной не имеет тесной связи с любой другой независимой

переменной

Мультиколлинеарность

Многомерная регрессия

Зависимая переменная – объем продаж молока

Независимые переменные: цена за 1 л, расходы на рекламу

Многомерная регрессия

Корреляционная матрица составляется из коэффициентов корреляции, вычисленных для каждой возможной пары переменных

r12 = r21 и т. д.

r11 = r22 = r33 = 1

Переменные 1 2 3 1 r11 r12 r13 2 r21 r22 r23 3 r31 r32 r33

Многомерная регрессия

НеделяКол-во молока

(тыс. л) Цена 1 л (руб.) Реклама (руб.)1 16 16 52 5002 20 17 73 5003 15 18 42 0004 10 20 31 5005 12 21 35 0006 11 23 49 0007 10 24 52 5008 5 25 17 5009 5 26 21 000

10 6 30 24 500

16 График остатков

0

0,2

0,4

0,6

0,8

1

1,2

0 10 20 30 40

16

Ост

атки

16 График подбора

0

5

10

15

20

25

0 50

16

16

16

Предсказанное

16

Переменная X 1 График остатков

0

0,2

0,4

0,6

0,8

1

1,2

0 10 20 30 40

Переменная X 1

Ост

атки

Корреляционная матрица

Переменные Продажа Цена Реклама 1 2 3 Продажа 1 1.00 -0.88 0.89 Цена 2 1.00 -0.67 Реклама 3 1.00

Многомерная регрессионная модель

Математическое ожидание зависимой величины является линейной функцией всех объясняющих ее переменных

Многомерная регрессионная функция генеральной совокупности

kkY XXX ...22110

Многомерная регрессионная модель

Статистическая модель многомерной регрессии

Метод наименьших квадратов

kkXXXY ...22110

Многомерная регрессионная модель

Пример с молоком

21

^

00015.058.071.17 XXY

Интерпретация коэффициентов регрессии

b0 – свободный член

(значение при Х1 и Х2, равных нулю)

b1 и b2 – частные или чистые коэффициенты регрессии

(среднее изменение при единичном изменении соответствующей независимой переменной и постоянных значениях других независимых переменных)

^

Y

^

Y

Статистический анализ модели многомерной регрессии

вычисления проводятся на компьютере

2)(

YYSST

2^

)(

YYSSR

2^

)( YYSSE

Статистический анализ модели многомерной регрессии

SST = SSR + SSE

df: n-1 = k + n-k-1

Стандартная ошибка оценки

Стандартная ошибка оценки измеряет отклонение имеющихся данных (Y) от их оценок ( )

^

Y

MSEkn

SSE

kn

YYs sxy

11

)( 2^

'*

Стандартная ошибка оценки

Пример с молоком: • 2 независимые переменные: цена за 1 л и

расходы на рекламу стандартная ошибка оценки = 1.42

• 1 независимая переменная: цена 1 л стандартная ошибка оценки = 2.5

Вывод: использование многомерной регрессии позволяет сделать более точный прогноз

Значимость регрессии

Источник Сумма квадратов

Степени свободы

Среднеквадратичное значение

Отношение F

Регрессия SSR k MSR=SSR/k Ошибки SSE n-k-1 MSE=SSE/(n-k-1)

F=MSR/MSE

Общая SST n-1

Значимость регрессии

Гипотезы:

df=k, n-k-1

0:

...:

1

210

j

k

одинхотьH

H

MSE

MSRF

FFеслияотклоняетсH ,0

Значимость регрессии

Коэффициент детерминации

Многомерный коэффициент корреляции (характеризует корреляцию между зависимой переменной и прогнозом)

Для многомерной регрессии

2

2^

2

)(

)(

YY

YY

SST

SSRR

2RR

)1

(1 2

2

k

kn

R

RF

Значимость регрессии

Пример с молоком

Две независимые переменные

SST=SSR+SSE222=207.86+14.14

R2=0.94

Одна независимая переменная

SST=SSR+SSE222=172.023+49.977

R2=0.77

Отдельные независимые переменные

0:0 jH Проверочная статистика t

jb

j

s

bt

df = n-k-1

Прогнозирование будущих значений зависимой переменной

sxystY '2/

^

Границы интервала прогноза величины Y:

Анализ остатков

2

2

)(

)(1

XX

XX

nh

i

iii

Рычаг – мера влияния i-й точки данных на положение функции регрессии

Стандартизированный остаток

iisxy

i

e

i

hs

e

s

e

i

1'

Анализ остатков

Метки (большие стандартизированные остатки)

2ie

i

s

e

Предостережения при прогнозировании

• прогнозирование вне допустимого множества• небольшой объем выборки• большое количество независимых переменных

• в идеале – 10 наблюдений на одну независимую переменную

• вычисление функции регрессии для одной части данных и проверка ее на оставшихся данных

• при уровне значимости 0,05 отношение F было хотя бы в 4 раза больше соответствующего критического значения

Фиктивные переменные

РаботникОценка

производительности Данные теста способностей

Y Х1

1 5 60 0 Ж2 4 55 0 Ж3 3 35 0 Ж4 10 96 0 Ж5 2 35 0 Ж6 7 81 0 Ж7 6 65 0 Ж8 9 85 0 Ж9 9 99 1 М10 2 43 1 М11 8 98 1 М12 6 91 1 М13 7 95 1 М14 3 70 1 М15 6 85 1 М

Х2

Пол

Фиктивные переменные

Фиктивные, или индикаторные, переменные используются для определения взаимосвязи между качественными независимыми переменными и зависимой переменной

Фиктивные переменные

Фиктивные переменные

Фиктивные переменные

0 для женщин Х2 = (фиктивная переменная) 1 для мужчин

2^

)( YYSSE

21

^

18.212.096.1 XXY

1

^

12.096.1 XY для женщин

1

^

12.014.4 XY для мужчин

Применение в менеджменте

Маркетинг – вывод нового товара на рынок Агрономы – урожайность Медики – давление крови Менеджеры по персоналу – уровень заработной

платы Менеджеры по рекламе – изменение мнения

покупателей Руководство компаний – месторасположение

розничных магазинов

Многомерный регрессионный анализ

Мультиколлинеарность

Выбор «наилучшего» уравнения регрессии

Анализ всех возможных регрессий

Пошаговая регрессия

Мультиколлинеарность

Стоимость дома Год строительства Жилая площадь Кол-во комнат Кол-во продаваемых домов

Неточная линейная зависимость – неустойчивость полученных оценок Рассчитанные величины больше ожидаемых Неверный знак отдельных коэффициентов Значимость регрессии по F-тесту при незначимых t-статистиках

отдельных коэффициентов

Мультиколлинеарность

kjR

VIFj

j ,...,2,1,1

12

Мультиколлинеарность –линейная зависимость между двумя или более независимыми переменными

Степень мультиколлениарности определяется фактором роста дисперсии

- коэффициент детерминации из регрессии j-й независимой переменной по оставшимся (к-1) независимым переменным

VIF близко к 1 – нет проблемы мультиколлинеарности

больше 1- оценка коэффициента при этой независимой переменной неустойчива

2jR

Мультиколлинеарность

Стоимость выпуска газеты: тираж, кол-во семей, объем продаж

Мультиколлинеарность

Мультиколлинеарность

При наличии в модели мультиколлинеарности для оценки эффекта одной отдельно взятой независимой переменной можно:

1. Использовать метод, отличный от метода наименьших квадратов

2. Найти и удалить из набора данных одну или более избыточных независимых переменных

3. Представить зависимую переменную Y как линейную комбинацию некоррелирующих между собой независимых переменных Х

4. Тщательно отобрать независимые переменные в начале исследования

5. Создать новые переменные Х посредством масштабирования (нулевое среднее значение и одно и то же выборочное среднеквадратичное отклонение)

nikjXX

XXX

jij

jijij ,...,2,1,,...,2,1,

)(

~2

Выбор «наилучшего» уравнения регрессии

1. Определение набора возможных независимых переменных

2. Отбор переменных, неадекватных для данному случаю (например, при значительных ошибках измерения; недоступности данных; высокой их стоимости)

3. Сокращение списка независимых переменных (нет «наилучшего» набора переменных, процесс отбора субъективен)

Выбор «наилучшего» уравнения регрессии

Выбор «наилучшего» уравнения регрессии

Выбор «наилучшего» уравнения регрессии

1 шаг – изучение корреляционной матрицы

2 шаг – анализ всех возможных регрессий или пошаговая регрессия

Анализ всех возможных регрессий

1этап – все возможные уравнения регрессии ( )

2 этап – разделение уравнений на множества (по количеству оцениваемых параметров)

Анализ всех возможных регрессий

Анализ всех возможных регрессий

Анализ всех возможных регрессий

3 этап – выбор наилучшей независимой переменной (или переменных) из каждой группы с определенным числом параметров

Анализ всех возможных регрессий

4 этап – выбор наилучшего уравнения

Желательно иметь наибольшее из возможных значений показателя детерминации, НО максимально простое уравнение регрессии

Это уравнение объясняет 89,48% вариации переменной Y

Пошаговая регрессия

Процедура пошаговой регрессии предусматривает добавление в уравнение отдельных независимых переменных, по одной переменной на каждом этапе

1. Рассматриваются все возможные простые регрессии (наибольшая корреляция с зависимой переменной)

2. Следующая вводимая переменная должна привносить наибольший вклад в регрессионную сумму квадратов (F для включения)

3. Проверка уравнения (проверка на значимость независимой переменной на уровне 5%)

, F=4 – критерий для включения или исключения4. Этапы 2 и 3 повторяются, пока все возможные добавления не окажутся

незначимыми, а все возможные удаления – значимыми

Результат пошаговой регрессии – регрессионная модель, содержащая только независимые переменные с величинами t, значимыми на указанном уровне

Пошаговая регрессия

Пример Первая переменная – возраст Вторая переменная – результат теста

способностей Тест на тревожность не имеет тесной связи с

объемом продаж Потенциально хорошие переменные опыта

работы и среднего балла совместно с переменной возраста создают проблему мильтиколлинеарности

Упражнения

1. Что измеряет в многомерной регрессии частный или чистый коэффициент?

2. Пусть уравнение регрессии имеет вид:

Спрогнозируйте значение У при Х1=20 и Х2=7.

21

^

2.12352.7 XXY

Упражнения

3. Объясните каждое из следующих понятий:

а) корреляционная матрица

б) R2

в) мультиколлинеарность

г) остатки

д) фиктивная переменная

е) пошаговая регрессия