ЛЕКЦИЯ 8 - hsehelp.ruhsehelp.ru › sites › default › files › БИ › 3 курс ›...
Transcript of ЛЕКЦИЯ 8 - hsehelp.ruhsehelp.ru › sites › default › files › БИ › 3 курс ›...
ЛЕКЦИЯ 8
МНОЖЕСТВЕННАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ:
ПРОВЕРКА ГИПОТЕЗ О ЛИНЕЙНЫХ ОГРАНИЧЕНИЯХ
НА ПАРАМЕТРЫ РЕГРЕССИИ
1. Напоминание: полученные относительно
множественной регрессии результаты.
2. Проверка гипотезы об одном линейном ограничении.
Пример.
3. Общая схема проверки гипотезы на наличие
ограничений на параметры регрессии.
Итак, относительно модели множественной линейной
регрессии нами уже были получены следующие
реультаты:
1. Спецификация модели:
uXXY kk ...221
В матричном виде: uXY
2. Оценки параметров регрессии:
XXXA
AYYXXXb
1
1,̂
3. Гипотеза об адекватности регрессии в целом:
0...: 320 kH
kjH j ,...,3,2,0:1
Проверяемая статистика: )(
)1(
)1(2
2
knR
kR
F
Нулевая гипотеза отвергается, если knkFF ;1
4. Гипотезы о значимости отдельных параметров регрессии:
kjH j ,...,2,1,0:0
0:1 jH
Проверяемая статистика:
).(. j
j
bes
bt
Если )(;2/ kntt , то основная гипотеза отвергается,
следовательно, что коэффициент 2 статистически значим.
Перейдем теперь к рассмотрению еще одного вида гипотез
относительно параметров регрессии.
Для этого сначала рассмотрим конкретный пример.
Пусть изучается зависимость между числом полных лет
обучения индивида S от переменной, характеризующей
способности индивида к познанию ASVABC, а также от
числа полных лет обучения отца SM и матери SF.
Спецификация такой модели:
uSFSMASVABCS 4321 (1)
По данным, представленным 540 наблюдениями
оценивается модель (1):
Вы видите, что коэффициент при SM оказался
статистически незначимым. Скорее всего, это обусловлено
мультиколлинеарностью между SM и SF.
Поэтому предположим теперь, что образование отца и
матери одинаково важно для числа полных лет обучения
индивида, т.е. фактически наложим ограничение:
43 .
Введем новую переменную SP=SM+SF, тогда получим
uSPASVABCS 321 (2)
Теперь оценим эту модель (2):
Обратите внимание на то, что стандартная ошибка
параметра SP стала существенно меньше. Этот параметр
статистически значим. Таким методом в данном конкретном
примере нам удалось избавиться от мультиколлинеарности.
Но, тем не менее, нам требуется каким-то формальным
образом проверить значимость наложенного ограничения.
То ограничение, которое мы ввели 43 , а также
ограничения вида 1 ji и т.п. называются
линейными, поскольку параметры регрессии связаны между
собой линейными соотношениями.
Для проверки одного линейного ограничения используем F-
тест. Логика его построения такова:
свободыстепенейчислооставшеесяотклоненийквадратовсуммаоставшаяся
свободыстепенейнныхиспользовачислоуравнениякачестваулучшение
F
Введем обозначения:
URRSS – сумма квадратов остатков в регрессии без
ограничений (Unrestricted);
RRSS – сумма квадратов остатков в регрессии с
ограничениями (Restricted)/.
Тогда проверяемая статистика будет иметь вид:
knRSS
RSSRSS
FUR
URR
1
Вернемся к нашему примеру и рассчитаем статистику:
9,0
45406,2023
16,20232027
F
Поскольку оказалось, что F-статистика меньше 1, то она
незначима на любом уровне значимости, а, следовательно,
нулевая гипотеза об одинаковом влиянии отца и матери не
отвергается (наложенное ограничение действительно имеет
место быть).
Сформулируем теперь общую схему проверки гипотезы на
наличие q линейных ограничений в модели множественной
линейной регрессии.
1. На основе имеющихся данных оценить регрессию без
ограничений и найти URRSS ;
2. сформулировать ограничения на основе ваших
априорных суждений (общее количество ограничений
q; число ограничений не превосходит числа параметров
модели и ограничения линейно независимы);
3. оценить новую регрессию с ограничениями на
параметры и найти RRSS ;
4. составить статистику
knRSS
qRSSRSS
FUR
URR
. Если
нулевая гипотеза верна, то эта статистика будет иметь
распределение Фишера knqF , .
Кстати, эта статистика может быть представлена и
через коэффициент детерминации:
kn
R
qRR
FUR
RUR
2
22
1 .
5. Если knqFF , , то нулевая гипотеза не
отвергается, и наложенные ограничения имеют место.