теория вероятностей и математическая статистика....

108
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ БЮДЖЕТНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ ПОВОЛЖСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ТЕЛЕКОММУНИКАЦИЙ И ИНФОРМАТИКИ М. Г. Богданова, О. В. Старожилова ТЕОРИЯ ВЕРОЯТНОСТЕЙ И МАТЕМАТИЧЕСКАЯ СТАТИСТИКА ЧАСТЬ 2. РЕГРЕССИОНЫЙ АНАЛИЗ, ДИСПЕРСИОННЫЙ АНАЛИЗ Учебное пособие Самара - 2015 Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Transcript of теория вероятностей и математическая статистика....

Page 1: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ

БЮДЖЕТНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ

ПОВОЛЖСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

ТЕЛЕКОММУНИКАЦИЙ И ИНФОРМАТИКИ

М. Г. Богданова, О. В. Старожилова

ТЕОРИЯ ВЕРОЯТНОСТЕЙ И МАТЕМАТИЧЕСКАЯ

СТАТИСТИКА

ЧАСТЬ 2. РЕГРЕССИОНЫЙ АНАЛИЗ, ДИСПЕРСИОННЫЙ

АНАЛИЗ

Учебное пособие

Самара - 2015

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 2: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

2

ФЕДЕРАЛЬНОЕ АГЕНСТВО СВЯЗИ

Федеральное государственное образовательное бюджетное учреждение высшего

профессионального образования

«ПОВОЛЖСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

ТЕЛЕКОММУНИКАЦИЙ И ИНФОРМАТИКИ»

Кафедра высшей математики

М.Г. БОГДАНОВА, О.В.СТАРОЖИЛОВА

ТЕОРИЯ ВЕРОЯТНОСТЕЙ И МАТЕМАТИЧЕСКАЯ

СТАТИСТИКА

ЧАСТЬ 2 РЕГРЕССИОНЫЙ АНАЛИЗ, ДИСПЕРСИОННЫЙ

АНАЛИЗ

Учебное пособие

Самара, 2015

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 3: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

3

519.2

С603 Старожилова,О.В.

Теория вероятностей и математическая статистика (Часть 2 Регрессионный

анализ, дисперсионный анализ)//Богданова М.Г.,Старожилова О.В./ -Самара:,

ИНУТПГУТИ, 2015.-144с.

В учебное пособие входят разделы высшей математики: математическая статистика,

регрессионный, дисперсионный анализ. Пособие предназначено для студентов и аспирантов

университетов и вузов, а также для специалистов, желающих изучать высшую математику и

статистику самостоятельно.

Каждый раздел заканчивается контрольными вопросами, которые помогут проверить

теоретическое освоение курса, содержит большое количество задач для самостоятельного

решения и ответы для проверки.

©, Богданова М.Г., Старожилова О.В., 2015

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 4: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

4

Оглавление

1 Статистические оценки параметров распределения 6

1.1 Интервальные оценки. Доверительные интервалы 7 1.2 Доверительный интервал для оценки математического ожидания нормального

распределения при неизвестной дисперсии…………………………………………………. .8 1.3 Доверительный интервал для оценки математического ожидания нормального

распределения при известной дисперсии………………………………………………… 10 Контрольные вопросы………………………………………………………………………12 1.4 Доверительные интервалы для оценки среднего квадратического отклонения

нормального распределения…………………………………………………………………… 12 Контрольные вопросы………………………………………………………………………….. 15

Задачи для самостоятельного решения……………………………………………………16

2 Дисперсионный анализ 21

2.1 Однофакторный дисперсионный анализ………………………………………………21 Задачи для самостоятельного решения………………………………………………………. 28 2.2 Двухфакторный дисперсионный анализ……………………………………………… …34 Задания для самостоятельного решения…………………………………………………… …41

2.3 Двухфакторный дисперсионный анализ с несколькими наблюдениями в

клетке…………………………………………………………………………………………… …43

3 Регрессионный анализ 49

3.1 Задачи регрессионного анализа…………………………………………………………… 49 3.2 Многомерная нормальная регрессионная модель…………………………………….49

3.3 Метод наименьших квадратов для получения уравнения выборочной линии

регрессии…………………………………………………………………………………….50

Задачи для самостоятельного решения 55

4 Линейный регрессионный анализ 57

4.1 Оценка модели регрессии……………………………………………………………… …..58 4.2 Проблемы применения метода линейной регрессии…………………………………61 4.3 Основные предпосылки статистической модели линейной регрессии…………… 62

4.4 Линейная регрессия с негруппированными данными…………………………… …62

Контрольные вопросы………………………………………………………………… …65 Задачи для самостоятельного изучения………………………….………………………65 4.5 Линейная регрессия со сгруппированными данными…….…………………… ….69 Задачи для самостоятельного решения…………………………………………………..76

5 Параметрический кореляционный анализ 82

5.1 Исследование связей между двумя переменными в Excel……………………… …83 5.2 Построение регрессионной модели средствами Excel………………………… …..85

5.3 Прогнозирование данных………………………………………………………… .…89 5.4 Линейная и нелинейная парная регрессия……………………………………… ….90 5.5 Статистические функции, полезные при построении парной линейной

регрессии……………………………………………………………………………………… ...93 5.6 Построение интервальной оценки для функции парной линейной регрессии… ..94

5.7 Проверка значимости уравнения линейной регрессии по критерию Фишера……95 5.8 Нелинейная парная регрессия………………………………………………………...97

Глоссарий 101

Список основных формул 103

Приложение 1Таблица значений функции 104

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 5: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

5

Приложение 2 Таблица значений n,tt …………………………………………….105

Приложение 3 Критические точки распределения 2……………………………………106

Приложение 4 Критические точки распределения Стьюдента……………………… ….107 Список литературы………………………………………………………………………… ….108

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 6: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

6

1 Статистические оценки параметров распределения

Смысл статистических методов заключается в том, чтобы по выборке ограниченного

объема, т.е. по некоторой части генеральной совокупности, высказать обоснованное

суждение об ее свойствах в целом. Числовые значения, характеризующие генеральную

совокупность, называются параметрами.

Одна из задач математической статистики – определение параметров большого

массива по исследованию его части.

Определение Статистической оценкой неизвестного параметра

теоретического распределения называют его приближенное значение, зависящее от данной

выборки 1 2 1 2, , ,k kx x x n n n , т.е. некоторую функцию этих величин, где 1 2, kx x x -

значения признака, 1 2, kn n n - соответствующие частоты.

Статистическая оценка является случайной величиной. Статистические оценки могут

быть точечными и интервальными. Статистическое оценивание может выполняться двумя

способами:

точечная оценка – оценка, которая дается для некоторой определенной точки;

интервальная оценка – по данным выборки оценивается интервал, в котором

лежит истинное значение с заданной вероятностью.

Точечная оценка определяется по выборке одним числом.

Обозначим через - оцениваемый параметр (им может быть и математическое

ожидание и дисперсия и т.д.), а через - его статистическую оценку.

Определение Величину называют точностью оценки. Чем меньше числовое

значение точности оценки , тем точнее определен неизвестный параметр.

Для того чтобы статистические оценки давали «хорошие» приближения оцениваемых

параметров, они должны удовлетворять определенным требованиям.

Чтобы оценка имела практическое значение, она не должна содержать

систематической ошибки и иметь возможно меньшую дисперсию. Кроме того, при

увеличении объема выборки вероятность сколь угодно малых отклонений должна

быть близка к 1.

Определение Оценка параметра называется несмещенной, если ее

математическое ожидание ( )M равно оцениваемому параметру , при любом объеме

выборки, т.е.

( )M

,

и смещенной, если ( )M .

Определение Оценка называется эффективной, если при заданном n она

имеет наименьшую возможную дисперсию.

При рассмотрении выборок большого объема ( n велико) к статистическим оценкам

предъявляется требование состоятельности.

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 7: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

7

Определение Оценка называется состоятельной, если при увеличении

объема выборки она стремится по вероятности к оцениваемому параметру.

Теория точечных статистических оценок не даѐт возможности сделать заключение о

"точности" таких оценок. В этом отношении статистические оценки неизвестных параметров

существенно дополняются результатами интервального оценивания с помощью

доверительных интервалов.

1.1 Интервальные оценки. Доверительные интервалы

В ряде задач требуется не только найти для параметра a подходящие числовые значения

a (дать точечную оценку), но и оценить его точность и надежность. Такого рода задачи

очень важны при малом числе наблюдений, т.к. точечная оценка a в значительной мере

является случайной, и приближенная замена a на a может привести к серьезным ошибкам.

Чтобы избежать этих ошибок, пользуются интервальными оценками, а для определения

надежности – доверительными вероятностями.

Если статистическая оценка параметров закона распределения случайной величины Х

характеризуется двумя числами – концами интервала, то такая оценка называется

интервальной.

Пусть для параметра a получена из опыта несмещенная оценка a . Требуется оценить

возможную при этом ошибку. Зададим некоторую вероятность и находим такое значение

0 , для которого

p a a

или

aaap .

Это равенство означает, что неизвестное значение параметра a с вероятностью

попадает в интервал aa ; .

Определение Надежностью (доверительной вероятностью) оценки *

параметра называется вероятность того, что выполняется неравенство

* .

Определение Доверительным называется интервал, в который попадает

неизвестный параметр с заданной надежностью .

Т.к. неизвестное значение параметра a является неслучайной величиной, а

доверительный интервал является случайной величиной, то лучше говорить, что -

вероятность того, что случайный интервал aa ; накроет точку a .

Доверительный интервал применяется в случае сравнительно небольшого объема

выборки, когда предполагается, что надежность точечной оценки может быть

невысокой.Величина доверительного интервала существенно зависит от объема выборки n

(уменьшается с ростом n ) и от значения доверительной вероятности (увеличивается с

приближением к единице).

При выборке малого объема точечная оценка может значительно отличаться от

оцениваемого параметра, что приводит к грубым ошибкам. Поэтому в таком случае лучше

пользоваться интервальными оценками, то есть указывать интервал, в который с заданной

вероятностью попадает истинное значение оцениваемого параметра. Разумеется, чем меньше

длина этого интервала, тем точнее оценка параметра.

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 8: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

8

Доверительный интервал является показателем точности измерений. Это также

показатель того, насколько стабильна полученная величина, то есть насколько близкую

величину (к первоначальной величине) получите при повторении измерений (эксперимента).

1.2 Доверительный интервал для оценки математического ожидания нормального распределения при неизвестной дисперсии

Пусть произведено n опытов над величиной Х с неизвестными математическим

ожиданием xm и дисперсией xD . Результаты опытов приведены в таблице:

i 1 2 3 n

iX 1x

2x 3x nx

На основе опытных данных для этих параметров построены оценки:

n

x

xm

n

i

i

в

1

- выборочная средняя, n

i

вiв xxn

Dn

nD

1

2

1

1

1

- несмещенная выборочная дисперсия.

(Эти оценки являются состоятельными и несмещенными).

Требуется построить доверительный интервал, соответствующий доверительной

вероятности для математического ожидания случайной величины Х. Т.к. m представляет

собой сумму n независимых величин iX , то согласно центральной предельной теореме ее

закон распределения близок к нормальному.

Т.к. оценка m является несмещенной, то xmmM .

Пользуясь свойствами дисперсии, находим:

n

DXD

nn

X

DmD x

n

i

i

n

i

i

1

2

1 1

Найдем теперь величину , для которой xmmp .

Учитывая, что закон распределения случайной величины m близок к нормальному,

выразим вероятность через функцию Лапласа:

m

x Фmmp 2 ,

где n

DmD x

m - среднее квадратическое отклонение оценки.

Из уравнения m

Ф2 находим значение

2

1Фm ,

где xФ 1 - функция, обратная функции Лапласа.

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 9: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

9

Величина n

Dx

m выражается через неизвестную нам дисперсию xD , поэтому в

качестве ее ориентировочного значения можно взять оценку D и положить приближенно

nn

Dm .

Таким образом, доверительный интервал для математического ожидания случайной

величины Х, соответствующий доверительной вероятности приближенно определяется на

основе неравенств

n

tmm

n

tm x ,

где D , t - значение аргумента функции Лапласа, получаемое из таблиц, с учетом того,

что 2

tФ , т.е.

2

1Фt .

Значения t , удовлетворяющие равенству

tФ2 :

0,8 0,86 0,9 0,95 0,98 0,99 0,998

t 1,34 1,476 1,645 1,96 2,326 2,576 3,09

Для точного построения доверительного интервала необходимо знать закон

распределения случайной величины n

x

xm

n

i

i

в

1 , который в общем случае зависит от

самых неизвестных параметров величины Х.

Пример Пусть объем выборки 25n , 3Bx , 5,1s . Найдем доверительный

интервал для a при 0.99 .

Из таблицы находим, что 2.797t . Тогда

25

5,1797,23

25

5,1797,23 a ,

839,3161,2 a – доверительный интервал, в который попадает a с вероятностью 99,0 .

Пример Для контроля срока службы электроламп из большой партии было отобрано

16 электроламп. В результате испытаний оказалось, что средний срок службы отобранных

ламп равен 980 часов, а среднее квадратическое отклонение их срока службы – 18 часов.

Найти границы, в которых с вероятностью 0,95 заключен средний срок службы ламп во

всей партии.

Решение:

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 10: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

10

16

18961980

16

18961980

9611898016950

..

. ; ; ; ;.

x

в

m

txmn

8298818971 .. xm

Пример На овцеводческой ферме из стада произведена выборка для взвешивания 36

овец. Их средний вес оказался равным 50 кг.

Предположив распределение веса нормальным и определив несмещенную оценку

выборочной дисперсии 36D ,

Найти доверительный интервал для оценки математического ожидания с надежностью а)

0,8; б) 0,9; в) 0,95.

Решение:

36; 36; 6; 50

) 0.8; 2 0.8; t 1.34

1.34 6 1.34 650 50

6 6

в

в x в

x

n D m x

а Ф t

t tx m x

n n

m

48.66 51.34

) 0,9; 2 0.9; t 1,645

1.645 6 1,645 650 50

6 6

48.355 51.645

) 0,95; 2 0.95; t 1,96

1.96 6 1,96 650 50

6 6

48.04 51.96

x

x

x

x

x

m

б Ф t

m

m

в Ф t

m

m

1.3 Доверительный интервал для оценки математического ожидания нормального распределения при известной дисперсии

Пусть теперь случайная величина Х имеет нормальное распределения с неизвестным

математическим ожиданием xm и известной дисперсией 2.

По выборке nXXX ,,, 21 объема n вычислена выборочная средняя

n

X

xm

n

i

i

в

1 .

Определить доверительный интервал для неизвестного математического ожидания,

соответствующий заданной надежности .

Если случайная величина Х распределена нормально, то и выборочная средняя m

также распределена нормально.

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 11: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

11

С учетом этого получим, что доверительный интервал для оценки математического

ожидания случайной величины Х с заданной надежностью определяется на основе

неравенств n

tmm

n

tm x ,

где n - объем выборки, - известное среднее квадратическое отклонение и его оценка, а

2

1Фt .

Если результаты наблюдений оформлены не в виде статистического ряда, а в виде

статистической совокупности, т.е. указаны группы, на которые разбиваются результаты

наблюдений, и частоты получения результатов наблюдений в каждой группе, то

n

mx

xm

n

i

ii

в

1 , где im - частота получения результатов в каждой группе.

Пример Найти доверительный интервал для математического ожидания

нормально распределенной случайной величины, если объем выборки 49n , 28x ,

1,4 , а доверительная вероятность 0.9 .

Решение

Определим t , при котором 45,02

9,0tΦ : 645,1t . Тогда

14

4,1645,18,2

49

4,1645,18,2 a , или

129,3471,2 a .

Найден доверительный интервал, в который попадает a с надежностью 0,9.

Пример Произведено 8 опытов над величиной Х, результаты которых приведены в

следующей таблице:

i 1 2 3 4 5 6 7 8

iX 14 12 9 8 15 7 11 8

Требуется найти оценку m для математического ожидания Х и построить доверительный

интервал, соответствующий доверительной вероятности 860. .

Решение:

1

2

2 21

1

282

1

14 12 9 8 15 7 11 810.5

8

1

1 1

810.5 8.8571,

7 8

n

ii

в

n

iтi

i в вi

i

i

X

m xn

Xn

D X x xn n n

X

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 12: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

12

2 ( ) 0.86; 1.476Ф t t

1.476 1.476 1.476 1.0522 1.533

, 10.5 1.533;10.5 1.533 8.947;12.053x в в

t D D

nn n

m x x

Контрольные вопросы

1. Что называется доверительным интервалом и доверительной вероятностью?

2. Дайте общую схему построения доверительного интервала.

3. Как изменяется доверительный интервал с увеличением надежности? С увеличением

объема выборки?

4. Как изменяется доверительный интервал в зависимости от того, известны ли другие

параметры точно или нет?

1.4 Доверительные интервалы для оценки среднего квадратического отклонения нормального распределения

Будем искать для среднего квадратического отклонения нормально распределенной

случайной величины доверительный интервал вида ,s s , где s – исправленное

выборочное среднее квадратическое отклонение, а для выполняется условие:

p s .

Запишем это неравенство в виде:

(1 ) (1 )s ss s

или, обозначив, qs

(1 ) (1 )s q s q .

Рассмотрим случайную величину , определяемую по формуле 1s

n , которая

распределена по закону «хи-квадрат» с 1n степенями свободы.

Плотность ее распределения 2

2 2

3

2

,1

22

x

n

n

eR n

не зависит от оцениваемого параметра , а зависит только от объема выборки n .

Преобразуем неравенство (1 ) (1 )s q s q так, чтобы оно приняло вид 1 2 .

Вероятность выполнения этого неравенства равна доверительной вероятности ,

следовательно

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 13: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

13

2

1

,R n d

Предположим, что 1q , тогда неравенство можно записать так:

qsqs 1

11

1

1,

или, после умножения на 1ns

q

nns

q

n

1

11

1

1.

Следовательно,

q

n

q

n

1

1

1

1.

Тогда 1

1

1

1

,

n

q

n

q

R n d .

Существуют таблицы для распределения «хи-квадрат», из которых можно найти q по

заданным n и , не решая этого уравнения.

Таким образом, вычислив по выборке значение и определив по таблице значение q ,

можно найти доверительный интервал, в который значение попадает с заданной

вероятностью .

Доверительный интервал для оценки среднего квадратического отклонения случайной

величины Х с надежностью для нормального распределения находится из неравенств

qqx

11, где - несмещенное значение выборочного среднего квадратического

отклонения, q - параметр, который находится по таблице на основе известного значения

объема выборки n и заданной надежности .

Замечание Если 1q , то с учетом условия 0 доверительный интервал для

будет иметь границы

0 (1 )s q

Пример Пусть 20n , 1.3. Найти доверительный интервал для при

заданной надежности 0,95 .

Из соответствующей таблицы находим 0.37q . Следовательно, границы

доверительного интервала:

819,037,013,1 и 781,137,013,1 .

Итак, 781,1819,0 с вероятностью 95,0 .

Значения чисел q в зависимости от объема выборки n и надежности для

определения доверительного интервала среднего квадратичного отклонения xσ

n

n

0,95 0,99 0,999 0,95 0,99 0,999

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 14: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

14

7 0,92 - - 25 0,32 0,49 0,73

8 0,80 - - 30 0,28 0,43 0,63

9 0,71 - - 35 0,26 0,38 0,56

10 0,65 - - 40 0,24 0,35 0,50

11 0,59 0,98 - 45 0,22 0,32 0,46

12 0,55 0,90 - 50 0,21 0,30 0,43

13 0,52 0,83 - 60 0,188 0,269 0,38

14 0,48 0,78 - 70 0,174 0,245 0,34

15 0,46 0,73 - 80 0,161 0,226 0,31

16 0,44 0,70 - 90 0,151 0,211 0,29

17 0,42 0,66 - 100 0,143 0,198 0,27

18 0,40 0,63 0,96 150 0,115 0,160 0,211

19 0,39 0,60 0,92 200 0,099 0,136 0,185

20 0,37 0,58 0,88 250 0,089 0,120 0,162

Пример Случайная величина Х распределена по нормальному закону.

Статистическое распределение выборки представлено в таблице:

ix 3 5 7 8 10 12 14

im 3 7 4 6 7 5 8

Найти с надежностью 0,95 доверительный интервал для оценки математического

ожидания и среднего квадратического отклонения.

Решение:

0598145127106847753340

1

40

1

.

k

i

ii

вn

mxxm

n

22

1

219 3 25 7 49 4 64 6 100 7 144 5 196 8 9,05

40

9,3475

ni i

в вi

x mD x

n

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 15: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

15

40 9.34759.5872; 9.5872 3.096

1 39

; 2 0.95; t 1.9640

в

в x в

nD D

n

t tx m x Ф t

n

1.96 3.096 1.96 3.0969.05 9.05

8.09;10.01

40; 0.95; 0.24

x

x

mn n

m

n q

x

x

x

1 1

3.096 3.096

1 0.24 1 0.24

2.50;4.07

q q

Контрольные вопросы 1. Каким образом определяется доверительный интервал для математического

ожидания нормально распределенной случайной величины при известной дисперсии?

2. Каким образом определяется доверительный интервал для математического

ожидания нормально распределенной случайной величины при неизвестной дисперсии?

3. Как осуществляется построение доверительного интервала для неизвестной

дисперсии нормально распределенной случайной величины, если известно ее

математической ожидание?

4. Как находится доверительный интервал для неизвестной дисперсии нормально

распределенной случайной величины, если известно ее математическое ожидание?

5. Запишите доверительный интервал для оценки математического ожидания.

6. От каких величин зависит точность оценки математического ожидания?

7. Напишите доверительный интервал для оценки среднее квадратическое

отклонение нормально распределенного количественного признака Х.

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 16: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

16

Задачи для самостоятельного решения

1. Найти доверительный интервал для оценки математического ожидания xm

нормального распределения с надежностью .

N вар m n

1 16 16 4 0,95

2 20 25 5 0,95

3 10,43 100 5 0,95

4 30 16 3 0,9

5 13 25 2 0,95

6 75,11 144 12 0,95

7 75,12 121 11 0,95

8 75,13 100 10 0,95

9 75,14 81 9 0,95

10 75,10 169 13 0,95

11 75,09 196 14 0,95

12 75,08 225 15 0,95

13 75,17 36 6 0,95

14 75,16 49 7 0,95

15 75,15 64 8 0,95

16 47,43 144 12 0,998

17 59,39 100 10 0,86

18 47,27 144 12 0,9

19 59,44 81 9 0,99

20 82,78 196 14 0,95

21 59,49 121 11 0,98

22 47,40 144 12 0,9

23 82,83 225 15 0,86

24 59,54 144 12 0,99

25 82,71 169 13 0,9

26 59,42 100 10 0,98

27 47,31 169 13 0,95

28 82,75 100 10 0,99

29 59,45 196 14 0,9

30 47,34 144 12 0,86

2. Произведено 8 опытов над величиной Х

i 1 2 3 4 5 6 7 8

iX 1x

2x 3x 4x 5x 6x 7x 8x

Найти оценку m для математического ожидания величины Х и построить доверительный

интервал, соответствующий доверительной вероятности .

N

вар 1x 2x 3x

4x 5x 6x 7x 8x

1 14 13 17 15 20 25 13 22 0,95

2 35 39 43 35 34 41 37 40 0,98

3 38 45 44 47 45 39 36 39 0,9

4 16 14 17 20 15 13 17 19 0,95

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 17: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

17

5 33 31 21 25 22 20 28 26 0,86

6 26 23 28 25 31 24 30 27 0,99

7 83 90 78 76 85 81 85 82 0,86

8 41 44 52 49 56 42 50 47 0,95

9 19 27 22 29 18 17 25 23 0,99

10 56 61 68 63 52 54 99 62 0,86

11 32 39 37 42 48 31 45 44 0,9

12 74 79 85 80 71 82 70 76 0,998

13 25 28 33 39 21 28 31 26 0,86

14 82 71 73 70 85 77 83 80 0,9

15 41 48 46 52 55 43 50 47 0,86

16 61 72 64 62 78 73 69 74 0,95

17 32 39 44 49 31 48 32 35 0,98

18 61 73 68 73 76 62 79 65 0,95

19 53 59 62 67 61 51 55 58 0,99

20 28 21 29 33 38 23 35 25 0,998

21 29 21 19 28 27 25 18 16 0,9

22 42 54 56 52 43 49 47 41 0,95

23 78 83 75 81 89 79 73 81 0,99

24 38 43 45 49 42 31 37 32 0,86

25 93 101 100 98 95 97 103 100 0,86

26 67 73 75 68 70 63 74 64 0,95

27 23 25 31 29 28 32 34 33 0,99

28 77 83 82 80 75 86 84 74 0,86

29 41 39 46 35 37 38 40 42 0,9

30 58 62 61 59 65 60 54 63 0,998

Выборочные оценки в задачах 3-6 определялись по результатам n наблюдений.

Используя эти данные, найти 90%-ные и 99%-ные доверительные интервалы для

математического ожиданияследующих характеристик

3. Ёмкость конденсатора, если 20x мкФ, 16n , средне квадратичное отклонение

известно и равно 4 мкФ.

4. Время безотказной работы электронной лампы, если 500x , 100n , с.к.о. известно и

равно 10 ч.

5. Диаметр вала, если 30x мм, 9n , 2 9s мм2.

6. Содержание углерода в единице продукта, если 18x г, 25n , 4s г.

7 Интервальный метод оценок статистических характеристик генеральной

совокупности

7.1. Найти доверительный интервал для оценки с надежностью 0,99 неизвестного

математического ожидания a нормально распределенного признака Х генеральной

совокупности, если известны генеральное стандартное отклонение , выборочная средняя

вx и объем выборки n : а) 4 , 210.xв , 16т ; б) 5 , 816.xв , 25т .

7.2. Одним и тем же прибором со стандартным отклонением случайных ошибок

измерений 40 м произведено пять равноточных измерений расстояния от орудия до цели.

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 18: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

18

Найти доверительный интервал для оценки истинного расстояния а до цели с надежностью

950. , зная среднее арифметическое результатов измерений вх м.

Предполагается, что результаты измерений распределены нормально.

7.3. Выборка из большой партии электроламп содержит 100 ламп. Средняя

продолжительность горения лампы выборка оказалась равной 1000 ч.

Найти с надежностью 0,95 доверительный интервал для средней продолжительности а

горения лампы всей партии, если известно, что стандартное отклонение продолжительности

горения лампы 40 ч. Предполагается, что продолжительность горения ламп

распределена нормально.

7.4. Станок-автомат штампует валики. По выборке объема 100т вычислена

выборочная средняя диаметров изготовленных валиков. Найти с надежностью 0,95 точность

, с которой выборочная средняя оценивает математическое ожидание диаметров

изготовляемых валиков, зная, что их стандартное отклонение 2 мм. Предполагается, что

диаметры валиков распределены нормально.

7.5. Найти минимальный объем выборки, при котором с надежностью 0,975 точность

оценки математического ожидания а генеральной совокупности по выборочной средней

равна 30. , если известно стандартное отклонение 21. нормально распределенной

генеральной совокупности.

7.6. Найти минимальный объем выборки, при котором с надежностью 0,925 точность

оценки математического ожидания нормально распределенной генеральной совокупности по

выборочной средней равна 0,2, если известно стандартное отклонение генеральной

совокупности 51. .

7.7. Из генеральной совокупности извлечена выборка объема 10n :

x -2 1 2 3 4 5

mx 2 1 2 2 2 1

Оценить с надежностью 0,95 математическое ожидание а нормально распределенного

признака генеральной совокупности по выборочной средней при помощи доверительного

интервала.

7.8. Из генеральной совокупности извлечена выборка объема 12n :

x -0.5 -0.4 -0.2 0 0.2 0.6 0.8 1 1.2 1.5

mx 1 2 1 1 1 1 1 1 2 1

Оценить с надежностью 0,95 математическое ожидание a нормально распределенного

признака генеральной совокупности с помощью доверительного интервала.

7.9 По данным девяти независимых равноточных измерений некоторой физической

величины найдены среднее арифметическое результатов измерений вx и «исправленное»

стандартное отклонение 6*S . Оценить истинное значение измеряемой величины с по-

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 19: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

19

мощью доверительного интервала с надежностью 990. . Предполагается, что результаты

измерений распределены нормально.

7.10. По данным 16 независимых равноточных измерений некоторой физической

величины найдены среднее арифметическое результатов измерений 842.xв и

«исправленное» стандартное отклонение 8*S . Оценить истинное значение измеряемой

величины с надежностью 9990. .

7.11 Случайная величина Х распределена по нормальному закону. Статистическое

распределение выборки представлено в таблице:

ix 1 3 5 7 9

im 2 5 4 6 3

Найти с надежностью 0,95 доверительный интервал для оценки математического

ожидания и с надежностью 0,99 для оценки среднего квадратического отклонения.

Ответ: 056611416194 .;. ,.;. xxm

7.12 В нескольких мелких магазинах проведена проверка качества 100 изделий, после

чего осуществлена обработка полученных данных. В результате получено несмещенное

значение выборочного среднего квадратичного отклонения =4. Считая распределение

качественных изделий нормальным, найти с надежностью 0,95доверительный интервал для

оценки среднего квадратичного отклонения.

Ответ: 674503 .;.x

7.13 Задания: По данным выборки объема n найдено несмещенное значение

выборочного среднего квадратичного отклонения нормально распределенной случайной

величины Х. Найти с надежностью доверительный интервал для оценки среднего

квадратичного отклонения случайной величины.

N вар n

1 25 3 0,99

2 20 2 0,95

3 144 12 0,98

4 64 8 0,9

5 144 12 0,98

6 49 7 0,998

7 225 15 0,99

8 49 7 0,95

9 196 14 0,9

10 169 13 0,86

11 64 8 0,98

12 81 9 0,998

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 20: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

20

13 121 11 0,86

14 64 8 0,9

15 121 11 0,95

16 36 6 0,99

17 225 15 0,98

18 36 6 0,95

19 81 9 0,99

20 144 12 0,9

21 100 10 0,98

22 144 12 0,86

23 81 9 0,99

24 196 14 0,9

25 121 11 0,86

26 144 12 0,9

27 100 10 0,86

28 144 12 0,9

29 81 9 0,99

30 196 14 0,95

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 21: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

21

2 Дисперсионный анализ

Задачей дисперсионного анализа является изучение влияния одного или нескольких

факторов на рассматриваемый признак.

На практике часто возникает необходимость проверки существенности различия

выборочных средних m совокупностей (m>2). Например, требуется оценить влияние

различных плавок на механические свойства металла, свойств сырья на показатели качества

продукции, количества вносимых удобрений на урожайность и т.п. Для эффективности

решения такой задачи нужен новый подход, который и реализуется в дисперсионном

анализе.

Определение Дисперсионный анализ - статистический метод анализа

результатов испытаний, цель которого оценить влияние одного или нескольких

качественных факторов на рассматриваемую величину X, а также для последующего

планирования.

Дисперсионный анализ — это анализ изменчивости признака под влиянием

контролируемых переменных факторов. В зарубежной литературе дисперсионный анализ

часто обозначается как ANOVA, что переводится как анализ вариативности (Analysis of

Variance). Автором метода является Р. А. Фишер (Fisher R.A., 1918, 1938).

По числу факторов, влияние которых исследуется, различают однофакторный и

многофакторный дисперсионный анализы.

Сущность дисперсионного анализа заключается в расчленении общей дисперсии

изучаемого признака на отдельные компоненты, обусловленные влиянием конкретных

факторов, и проверке гипотез о значимости влияния этих факторов на исследуемый признак.

2.1 Однофакторный дисперсионный анализ

Однофакторный дисперсионный анализ используется в тех случаях, когда есть в

распоряжении три или более независимые выборки, полученные из одной генеральной

совокупности путем изменения какого-либо независимого фактора, для которого по каким-

либо причинам нет количественных измерений.

Для этих выборок предполагают, что они имеют разные выборочные средние и

одинаковые выборочные дисперсии. Поэтому необходимо ответить на вопрос, оказал ли этот

фактор существенное влияние на разброс выборочных средних или разброс является

следствием случайностей, вызванных небольшими объемами выборок. Другими словами

если выборки принадлежат одной и той же генеральной совокупности, то разброс данных

между выборками (между группами) должен быть не больше, чем разброс данных внутри

этих выборок (внутри групп).

Схема однофакторного дисперсионного анализа рассмотрена ниже на примере

исследования влияния различных видов рекламы на прибыль предприятия.

Если разделить виды рекламы на несколько групп (уровней фактора) и через одинаковые

интервалы времени измерять прибыль, то результаты можно представить в виде таблицы:

Номер

измерения

Уровни фактора

Ф1 Ф2 ... Фp

1 х11 х12 … х1p

2 х21 х22 … х2p

. . . … .

. . . … .

. . . … .

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 22: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

22

q хq1 хq2 … хqp

Групповая

средняя 1гx 2гx

… x rp

Число измерений на каждом уровне считаем одинаковым и равным q. В таблице xij-

значение исследуемой переменной, полученной на i-том уровне фактора (i= q,1 ), с j-том

порядковым номером (j= 1, p ).

Под уровнем фактора понимается некоторая его мера или состояние, например,

количество вносимых удобрений, вид плавки металла, номер партии деталей и т. п.

В последней строке помещены групповые средние для каждого уровня фактора. Общую

среднюю можно получить как среднее арифметическое групповых средних.

1

p

rjj

b

x

xp .

На разброс прибыли относительно общей средней влияют как изменения уровня

рассматриваемого фактора, так и случайные факторы. Для того, чтобы учесть влияние

данного фактора, общая выборочная дисперсия разбивается на 2 части, первая из которых

называется факторной - S2

ф, а вторая остаточной – S2ост. С целью учѐта этих составляющих

вначале рассматриваются общая сумма квадратов отклонений вариант от общей средней

2 2 2

1 1 1 1

( ) ( )p q p q

общ ij b ij bj i j i

R x x x p q x

и факторная (межгрупповая) сумма квадратов отклонений групповых средних от общей

средней, которая характеризует влияние данного фактора,

2 2 2

1 1

( ) ( ) ( )p p

ф rj b rj bj j

R q x x q x p x.

Остаточная (внутригрупповая) сумма квадратов отклонений получается как разность

Rост = Rобщ - Rф.

В этой формуле заключена основная идея дисперсионного анализа. Если поделить обе

части этого равенства на число наблюдений, то получим правило сложения дисперсий.

Применительно к данной задаче, т. к.

Rобщ = Rост + Rф,

то равенство показывает, что общая вариация показателя качества, измеренная суммой Rобщ,

складывается из двух компонент - Rост и Rф, характеризующих изменчивость этого

показателя между партиями (Rф) и изменчивость «внутри» партий (Rост), характеризующих

одинаковую (по условию) для всех партий вариацию под воздействием неучтенных

факторов.

В дисперсионном анализе анализируются не сами суммы квадратов отклонений, а так

называемые средние квадраты, являющиеся несмещѐнными оценками соответствующих

дисперсий, которые получаются делением сумм квадратов отклонений на соответствующее

число степеней свободы. Число степеней свободы определяется как общее число

наблюдений минус число связывающих их уравнений.

Поэтому для среднего квадрата 2

ф фS D , являющегося несмещѐнной оценкой факторной

дисперсии, число р - 1, т.к. при его росте используется р групповых средних, связанных

между собой уравнением

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 23: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

23

1

р

rjj

b

x

xp .

Для среднего квадрата

2

ост остS D ,

являющегося несмещенной оценкой остаточной дисперсии, число степеней свободы p ∙q –

p = p(q - 1), ибо при еѐ расчете используются все p∙q наблюдений, связанных между собой

р уравнениями

1

q

ijj

rj

x

xq .

Таким образом

1

ф

ф

RD

p , ( 1)

остост

RD

p q .

Общая выборочная дисперсия вычисляется по формуле

общ

общ

RD

p q ,

(p∙q - число измерений); несмещѐнная общая выборочная дисперсия

2

1

общ

общ общ

RD S

p q ,

где (p∙q - 1) - число степеней свободы несмещѐнной общей выборочной дисперсии.

Схему дисперсионного анализа представим в виде таблицы:

Компоненты

дисперсии Сумма квадратов Средний квадрат

Факторная 2 2 2

1 1

( ) ( ) ( )p p

ф rj b rj bj j

R q x x q x p x 1

ф

ф

RD

p

Остаточная 2

1 1

( )p q

ост ij rj общ фi j

R x x R R ( 1)

остост

RD

p q

Общая 2 2 2

1 1 1 1

( ) ( )p q p q

общ ij b ij bj i j i

R x x x p q x

С целью оценки влияния фактора на изменения рассматриваемого параметра

рассчитывается величина

ф

набл

ост

Df F

D

Т. к. отношение двух выбранных дисперсий Dф и Dост распределено по закону Фишера-

Снедекора, то полученное значение fнабл сравнивают со значением функции распределения

ф

ост

DF

D и критической точке fкр ( ,l,k), соответствующей выбранному уровню значимости

, l = p - 1, k = p(q - 1).

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 24: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

24

Определение Нулевая гипотеза - гипотеза о равенстве групповых математических

ожиданий

Н0: m1 = m2 = … = mp,

где mi - групповое математическое ожидание.

Если fнабл критической области (fкр;+ ), т.е. fнабл > fкр, то гипотеза Н0 о равенстве

групповых математических ожиданий отвергается, т.е. считается, что этот фактор влияет на

результативный признак.

Если же fнабл ≤ fкр, то гипотезу о равенстве групповых средних не отвергаем; в этом

случае говорят, что влияние фактора на признак не подтвердилось выборочными

наблюдениями.

Итак, если fнабл > fкр, то фактор оказывает существенное воздействие и его следует

учитывать, в противном случае он оказывает незначительное влияние, которым можно

пренебречь.

Применительно к данной задаче опровержение гипотезы Н0 означает наличие

существенных различий в размере прибыли в зависимости от видов рекламы на

рассматриваемом уровне зависимости.

Поскольку вывод о том, влияет или нет фактор на результативный признак, основан на

сопоставлении дисперсий, рассмотренный метод называют дисперсионным анализом.

Допустим, что фактор Фi влияет на результативный признак. Для измерения степени

влияния используют выборочный коэффициент детерминации

2

общ

D

ф

.

Коэффициент детерминации показывает, какую долю общей выборочной дисперсии

общD составляет дисперсия, или, иначе говоря, какая доля дисперсии общD объясняется

зависимостью от данного фактора. Заметим, что 1ρ2.

Пример Для проверки влияния внутрицехового оформления на качество продукции

рассмотрены три участка по производству однотипной продукции и приведена выборочная

проверка процента брака за пять месяцев. Результаты помещены в таблицу.

Методом дисперсионного анализа при уровне значимости = 0,05 проверить нулевую

гипотезу о существенном влиянии оформления участка на продукции.

Номер

измерения

Уровни фактора

Ф1 Ф2 Ф3

1 2 3 1

2 4 5 4

3 3 4 5

4 2 3 10

5 1 6 3

Групповая

средняя 2,4 4,2 4,6

Решение: p = 3, q = 5.Находим общую среднюю

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 25: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

25

1 2,4 4,2 4,63,73

3

q

rjj

b

x

xp .

Для расчета

2 2

1 1

( )p q

общ ij bj i

R x p q x

составляем таблицу квадратов вариант

Номер

измерения

(Уровни фактора)2

Ф12

Ф22

Ф32

1 4 9 1

2 16 25 16

3 9 16 25

4 4 9 100

5 1 36 9

Σ 34 95 151

Rобщ = 34 + 95 + 151 - 3∙5∙(3,75) 2

= 71,3

1.14))73.3(36.42.44.2(5)x(p)x(qR 22222p

1j

2

rjфRост = Rобщ - Rф = 71,3 - 14,1 =

57,2.

Определяем факторную и остаточную дисперсии:

14,17,05

1 3 1

57,24,77

( 1) 3(5 1)

7,051,48

4,77

ф

ф

остост

ф

накл

ост

RD

р

RD

p q

Df

D

При уровне значимости = 0,05, чисел степеней свободы р - 1= 2 и p(q - 1) = 12 находим

fкр(0,05;2;12) по таблице распределения Фишера-Снедекора fкр = 3,89.

Так как fнабл = 1,48 < fкр = 3,89, нулевую гипотезу о несущественном влиянии

внутрицехового оформления на процент брака не отвергаем (фактор оказывает

незначительное влияние, которым можно пренебречь).

Пример В условиях предыдущего примера, но с другими выборочными процента

брака оценить влияние внутрицехового оформления на качество продукции.

Номер

измерения

Уровни фактора

Ф1 Ф2 Ф3

1 2 5 7

2 3 4 8

3 4 4 8

4 2 5 7

5 3 5 8

Групповая 2, 4,2 7,6

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 26: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

26

средняя 8

Решение: p = 3, q = 5.

2,4 4,6 7,65

3bx

.

Номер

измерения

(Уровни фактора)2

Ф12

Ф22

Ф32

1 4 25 49

2 9 16 64

3 16 16 64

4 4 25 49

5 9 25 64

Σ 42 107 290

Rобщ = 42 + 107 + 290 - 3∙5∙375∙5 2

= 64

2 2 2 25 (2.8 4.6 7.6 3 5 ) 58,8фR

Rост = 64 – 58,8 = 5,2.

58,829,4

2

5,20,43

12

29,468,37

0,43

ф

ост

набл

D

D

f

fкр(0,05;2;12) = 3,89

fнабл > fкр, гипотеза о существенном влиянии внутрицехового оформления на процент

брака принимается.

Общая выборочная дисперсия

644,27

15

общ

общ

RD

p q

58,83,92

15

ф

ф

RD

p q

Выборочный коэффициент детерминации

2D 3,92

ρ 0,92.D 4, 27

ф

общ

Таким образом, 92% общей вариации качества продукции связано с внутрицеховым

оформлением.

Пример Допустим, что экономиста строительно-монтажного управления интересует

зависимость объѐма выполненных на стройке работ за смену от работающей на стройке

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 27: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

27

бригады. Предположим, что на стройке работают 4 бригады. Будем называть объѐм

выполненных работ результативным признаком, обозначать Х и полагать, что Х – случайная

величина; работающую бригаду назовѐм фактором Ф, а номер работающей бригады –

уровнем и групповой фактора Ф и через Фi - обозначать i-й уровень или группу фактора Ф

(i-ю бригаду 4,1i ). Приступая к выполнению интересующей нас зависимости необходимо

над каждой бригадой провести наблюдения. Обратим внимание на то, что объѐм

выполненных работ зависит не только от работающей бригады, но и от ряда случайных

факторов.

Поэтому по каждой бригаде будет наблюдаться вариация, изменчивость ежедневного

объѐма выполненных работ. Результаты наблюдений расположим в таблице.

Выясним при уровне значимости α = 0,05 зависит ли объѐм работ, выполняемых за

смену, от работающей бригады.

Номер

бригады Объѐм выполненной работы

1 140 144 142 145

2 150 149 152 150

3 148 149 146 147

4 150 155 154 152

p = 4, q = 4.

Номер

измерени

я

Уровни фактора (Уровни фактора)2

1 Ф1 Ф2 Ф3 Ф4 Ф12

Ф22

Ф32

Ф42

2 140 150 148 150 19600 22500 21904 22500

3 144 149 149 155 20736 22201 22201 24025

4 142 152 146 154 20164 23104 21316 23716

5 145 150 147 152 21025 22500 21609 23104 Групповая

средняя 142,75 150,25 147,5 152,75

Σ 81525 90305 87030 93345

Групповая средняя вычисляется по формуле: 4

1

4

jij

x

xгi .

Вычислим средний объѐм выполняемых работ по всем 16 наблюдениям

3125,1484

75,1525,14725,15075,142bx .

Общая вариация признака: 4 4

2 2

1 1

2

( ) 81525 90305 87030 93345

4 4 (148,31) 259,44

общ ij bj i

R x p q x

Общая выборочная дисперсия

259,4416,215

16

общ

общ

RD

p q

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 28: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

28

Факторная вариация

2 2

1

( ) ( )

4 (20377,562 22575,062 21456,25 2332,562 4 21996,597)

220,192

p

ф rjj

R q x p x

13,762.ф

ф

RD

p q

Остаточная вариация Rост = Rобщ - Rф = 39,248.

Факторная и остаточная дисперсия:

73,41

3,271( 1)

73,4022,44

3,271

ф

ф

остост

ф

набл

ост

RD

р

RD

p q

Df

D

= 0,05; р - 1= 2 и p(q - 1) = 12.

Правосторонняя критическая точка

fкр(0,05;3;12) = 3,49 < fнабл = 22,44

Следовательно, объѐм ежедневной выработки зависит от рабочей бригады.

Найдѐм выборочный коэффициент детерминации

ф2

общ

D 13,762ρ 0,84.

D 16,295

Таким образом, 84% общей вариации ежедневного объѐма выработки связано с рабочей

сменой.

Итак, однофакторный дисперсионный анализ позволяет по выборочным данным

выяснить, влияет ли контролируемый фактор на результативный признак, и при наличии

такого влияния оценить его степень.

Первоначально дисперсионный анализ был разработан для обработки данных,

полученных в ходе специально поставленных экспериментов, и считался единственным

методом, корректно исследующим причинные связи. Метод применялся для оценки

экспериментов в растениеводстве. В дальнейшем выяснилась общенаучная значимость

дисперсионного анализа для экспериментов.

Задачи для самостоятельного решения

1.Имеются 4 партии сырья для текстильной промышленности. Из каждой партии

отобрано по 5 образцов и проведены испытания на распределение величины разрывной

нагрузки. Результаты испытаний приведены в таблице.

Номер

партии Разрывная нагрузка (кг/см

2 )

1 200 140 170 145 165

2 190 150 210 150 150

3 230 190 200 190 200

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 29: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

29

4 150 170 150 170 180

Необходимо выяснить, существенно ли влияние различных партий сырья на величину

разрывной нагрузки.

Ответ: fнабл = 3,65 > fкр (0,05;3;16) = 3,24 значит, нулевая гипотеза отвергается на уровне

значимости = 0,05 (с надѐжностью 0,95) различие между партиями сырья оказывает

существенное влияние на величину разрывной нагрузки.

2.Проведено по пять испытаний на каждом из четырѐх уровней фактора Ф. Результаты

испытаний приведены в таблице.Методом дисперсионного анализа при уровне значимости

= 0,05 проверить нулевую гипотезу о равенстве групповых средних.

Номер

измерения

Уровни фактора

Ф1 Ф2 Ф3 Ф4

1 36 56 52 39

2 47 61 57 57

3 50 64 59 63

4 58 66 58 61

5 67 66 79 65

Ответ: fнабл = 1,29 < fкр (0,05;3;16) = 3,24 значит, нулевая гипотеза Н0 принимается.

3.В трѐх филиалах одного из банков были организованы три уровня различных услуг для

клиентов. После этого в течение шести месяцев измерялись объѐмы вкладов Х (тыс. руб.).

Данные приведены в таблице. Проверить нулевую гипотезу о влиянии организации услуг на

объѐмы вкладов при уровне значимости 0,05.

Номер

измерения

Уровни фактора

Ф1 Ф2 Ф3

1 10 17 14

2 15 15 18

3 14 25 30

4 18 22 27

5 20 30 34

6 16 28 40

Групповая

средняя 15,5 28,8 27,2

Ответ: fнабл = 4,5 > fкр (0,05;2;15) = 3,68, гипотеза Н0 принимается.

4.В течение шести лет использовались пять различных технологий по выращиванию

сельскохозяйственной культуры. Данные по эксперименту приведены в таблице:

Номер

наблюдения

(год)

Технология (фактор Ф)

Ф1 Ф2 Ф3 Ф4 Ф5

1 1,2 0,6 0,9 1,7 1,0

2 1,1 1,1 0,6 1,4 1,4

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 30: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

30

3 1,0 0,8 0,8 1,3 1,1

4 1,3 0,7 1,0 1,5 0,9

5 1,1 0,7 1,0 1,2 1,2

6 0,8 0,9 1,1 1,3 1,5

Итого 6,5 4,8 5,4 8,4 7,1

Необходимо на уровне значимости 0,05 установить влияние различных технологий на

урожайность культуры.

Ответ: влияние типа технологии (фактора Ф) на урожайность незначимо, т. к. fнабл = 1,93

< fкр (4;25;0,05) = 2,76.

5.На заводе установлено 4 линии по выпуску облицовочной плитки. С каждой линии

случайным образом в течение смены отобрано по 10 плиток и сделаны замеры их толщины

(мм) отклонения от номинального размера приведены в таблице:

Линия по

выпуску

плиток

Номер испытания

1 2 3 4 5 6 7 8 9 10

1 0,6 0,2 0,4 0,5 0,8 0,2 0,1 0,6 0,8 0,8

2 0,2 0,2 0,4 0,3 0,3 0,6 0,8 0,2 0,5 0,5

3 0,8 0,6 0,2 0,4 0,9 1,1 0,8 0,2 0,4 0,8

4 0,7 0,7 0,3 0,3 0,2 0,8 0,6 0,4 0,2 0,6

Требуется на уровне значимости = 0,05 установить зависимость выпуска качественных

плиток от линии выпуска (фактор Ф).

Ответ: влияние линии (фактора Ф) на качество облицовочной плитки незначимо, т. к.

fнабл = 1,3 < fкр (3;36;0,05) = 2,87.

6.При уровне значимости = 0,05 методом дисперсионного анализа проверить нулевую

гипотезу о влиянии фактора на качество объекта на основании пяти измерений для трѐх

уровней фактора Ф1 - Ф3.

( fкр (0,05; 2; 12) = 3,89).

Вариант Номер

измерения Ф1 Ф2 Ф3

1

1 24 18 22

2 16 14 15

3 12 10 16

4 5 4 12

5 6 16 8

2

1 10 14 12

2 8 5 9

3 7 14 10

4 18 4 7

5 6 12 8

3

1 16 9 14

2 10 8 16

3 20 9 12

4 25 7 16

5 24 5 14

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 31: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

31

4

1 34 38 28

2 36 30 24

3 26 34 22

4 25 36 20

5 30 38 23

5

1 48 40 34

2 38 42 38

3 30 37 44

4 40 33 41

5 36 39 45

6

1 12 10 20

2 16 8 26

3 15 7 28

4 17 5 24

5 14 9 27

7

1 44 40 38

2 45 36 28

3 48 32 30

4 45 35 32

5 40 30 26

8

1 16 18 26

2 12 20 15

3 10 22 28

4 11 25 30

5 10 24 26

9

1 9 4 12

2 11 6 18

3 10 5 24

4 12 6 20

5 9 5 23

10

1 54 32 16

2 50 46 36

3 43 28 30

4 47 37 25

5 36 28 17

11

1 28 36 13

2 24 34 10

3 26 30 14

4 27 29 18

5 25 31 20

12

1 26 34 68

2 45 30 46

3 44 46 28

4 27 17 34

5 42 36 30

13 1 18 24 36

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 32: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

32

2 28 36 12

3 12 28 22

4 14 40 45

5 32 16 40

14

1 47 56 64

2 46 55 60

3 45 54 58

4 41 50 62

5 43 52 61

15

1 16 28 46

2 20 12 43

3 31 40 24

4 56 24 14

5 22 34 6

16

1 8 18 34

2 12 23 36

3 11 22 32

4 10 20 30

5 14 21 33

17

1 31 35 69

2 45 30 54

3 18 38 40

4 16 18 12

5 40 34 36

18

1 12 34 18

2 10 32 21

3 11 30 22

4 10 33 20

5 16 31 28

19

1 8 15 24

2 16 24 34

3 40 42 18

4 12 25 9

5 32 30 14

20

1 124 64 34

2 136 54 30

3 120 44 28

4 133 56 33

5 125 59 31

21

1 17 26 15

2 40 16 12

3 16 17 10

4 36 30 17

5 30 12 44

22

1 45 36 44

2 44 30 28

3 40 31 15

4 41 38 40

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 33: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

33

5 39 35 32

23

1 12 24 20

2 16 20 18

3 14 34 14

4 15 26 20

5 13 28 19

24

1 24 32 30

2 28 42 16

3 40 30 9

4 56 18 16

5 24 24 10

25

1 108 224 326

2 124 234 304

3 110 254 298

4 126 245 318

5 114 236 312

26

1 24 46 68

2 26 45 76

3 25 44 75

4 27 40 68

5 22 43 77

27

1 12 22 21

2 14 20 30

3 36 18 12

4 20 9 31

5 53 44 30

28

1 34 102 68

2 35 98 60

3 30 106 56

4 33 112 57

5 32 110 55

29

1 25 45 56

2 64 24 54

3 30 12 16

4 20 47 32

5 46 18 12

30

1 24 34 45

2 26 30 47

3 25 31 44

4 27 29 42

5 28 32 43

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 34: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

34

2.2 Двухфакторный дисперсионный анализ

Дисперсионный двухфакторный анализ применяется в тех случаях, когда исследуется

одновременное действие двух факторов на различные выборки объектов, т.е. когда

различные выборки оказываются под воздействием различных сочетаний двух факторов.

Может случиться, что одна переменная значимо действует на изучаемый признак только при

определенных значениях другой переменной. Суть метода остается прежней, как и при

однофакторной модели, но в двухфакторной дисперсионном анализе можно проверить

большее количество гипотез.

Допустим, что исследователя интересует зависимость результативного признака Х,

который является случайной величиной от двух факторов A и B. Например, требуется

выяснить, зависит ли качество обрабатываемых деталей от типа станка и вида сырья, из

которого она изготавливается. Это типичная задача двухфакторного дисперсионного

анализа.

Обозначим через p21 A ..., ,A ,A уровни фактора A (типы станков), всего этих уровней p .

Через q21 B ..., ,B ,B обозначим уровни фактора B (виды сырья), всего этих уровней q .

Будем считать уровни фиксированными величинами. Количество различных комбинаций

уровней факторов A и B равно qp . Решение задачи двухфакторного дисперсионного

анализа зависит от количества проведенных наблюдений при каждой комбинации уровней

факторов, если, иначе говоря, в каждой клетке двухфакторного комплекса.

Рассмотрим случай, когда в каждой клетке по одному наблюдению. Результаты

наблюдений и результаты их предварительной обработки расположим в таблице.

Уровни фактора B 1B 2B ... qB

Среднее групповое

(по строке) Уровни

фактора A i

j 1 2 ... q

1A 1 11x 12x ... 1qx 1x

2A 2 21x 22x ... 2qx 2x

... ... ... ... ... ... ...

pA p p1x p2x ... pqx px

Среднее

групповое

(по столбцу) 1x 2x ... qx

где 11x - результат наблюдения, зафиксированный на первом уровне фактора A и первом

уровне фактора B ; 12x - результат наблюдения на первом уровне фактора A и втором уровне

фактора B и т.д.

Очевидно, что общее число наблюдений qpn . Общее среднее всех наблюдений можно

вычислить по одной из следующих формул:

11 12 11...

x

qp

jipq ji

в

xxx x x

n p q .

Выборочная дисперсия величины X :

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 35: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

35

n

S xx

2

D ,

где

22

1 1

Sp q

x вiji j

x x .

Выборочная дисперсия групповых средних ix :

n

S AA

2

D ,

где

22

1

Sp

A i в

i

x x q.

Выборочная дисперсия групповых средних jx :

n

S BB

2

D ,

где

22

1

Sp

B j в

i

x x p.

Влияние на X остаточных факторов измеряется величиной: 2

0Dост

S

n ,

где p

i

q

j

jiij xxxx1 1

220S ,

D D D Dx A B ост .

Обозначим через ia математическое ожидание величины X при уровне iA ( pi ,1 ),

через jb - математическое ожидание величины X при уровне jB ( qj ,1 ).

Если при изменении уровня фактора A сохраняется равенство paaa ...21 , то

считаем, что X не зависит от фактора A . В противном случае Х зависит от фактора А.

Аналогично, если при изменении уровня фактора B сохраняется равенство qbbb ...21 ,

то считаем, что X не зависит от фактора B .

Введем две гипотезы pA aaaH ... : 21 ,

qB bbbH ... : 21 .

Проверка гипотезы AH основывается на сравнении величин 2

AS и 2

oS . Если гипотеза AH

верна, то величина 2

2

o

AA

S

SF или F - распределение с числами степеней свободы 1pl и

11 qpk . Полученное значение AF сравниваем с критической точкой крf ,

соответствующей выбранному уровню значимости (см. таблицу F -критерия Фишера-

Снедекора).

Если ;A крF f , то гипотезу AH отвергаем и считаем, что фактор A влияет на

результативный признак.

Введѐнные показателем вариации запишем в дисперсионную таблицу.

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 36: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

36

Источник

вариации

результативн

ого признака

X

Показатель

вариации

Число

степеней

свободы

Несмещенная

оценка дисперсии

Фактор A n

S ÀA

2

D 1p 1

S2

2

pS

A

A(при

выполнении

гипотезы AH )

Фактор B 2

B

S

n 1q 1

S2

2

qS

B

B

(при выполнении

гипотезы BH )

Остаточные

факторы

2

0Dост

S

n 11 qp

11

S2

2

qpS

o

o

Общая

вариация

2

Dx

x

S

n n-1

2

2

1

x

x

SS

n

(при выполнении

гипотез AH и

BH )

Степень этого влияния по результатам наблюдений измеряется выборочным

коэффициентом детерминации x

A

AD

D2

, который показывает, какая доля дисперсии

результативного признака в выборке обусловлена влиянием на него фактора A .

Если же A крF f , то гипотезу AH не отвергают и считают, что влияние фактора A не

подтвердилось.

Аналогично проверяется гипотеза BH о влиянии фактора B .

Если эта гипотеза выполняется, то величина

2

2

o

BB

S

SF

имеет F -распределение с числами степеней свободы 1pl и 11 qpk .

Найдем критическую точку крf для заданного уровня значимости .

Если ;B крF f , то гипотезу BH отвергают и считают, что фактор B влияет на

результативный признак.

Степень этого влияния по результатам наблюдений измеряется выборочным

коэффициентом детерминации

x

B

BD

D2

,

который показывает, какая доля дисперсии результативного признака в выборке обусловлена

влиянием на него фактора B .

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 37: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

37

Если же B крF f , то гипотезу не отвергают и считают, что влияние фактора B не

подтвердилось.

Пример Выяснить при уровне значимости 05,0 , влияет ли на качество

пряжи, измеряемое величиной разрывной нагрузки, тип машины и вид сырья, из которого

пряжа производится.

Необходимые данные помещены в таблице, в которой для каждого сочетания типа

станка и вида сырья указана нагрузка, при которой пряжа разрывается.

Виды сырья

(уровень фактора B ) 1B 2B Среднее

групповое

(по

строке)

Тип машины

(уровень

фактора A ) i

j 1 2

1A 1 10 50 30

2A 2 20 60 40

3A 3 30 100 65

Среднее групповое

(по столбцу) 20 70

Решение

Число уровней фактора A : 3p .

Число уровней фактора B : 2q .

Общее число наблюдений: 6qpn .

Общее среднее: 456

1003060205010x .

Выборочная дисперсия xD :

535045100

45304560452045504510

2

222222

xS

6

5350D x .

Выборочная дисперсия групповых средних ix :

130045654540453022222

AS ,

6

1300D A .

Выборочная дисперсия групповых средних jx :

3750457045203222

BS ,

6

3750DB .

30045657010045652030

)4540706045402020

4530705045302010

22

22

222

0S

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 38: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

38

300D

6ост

Убедимся, что выполняется тождество:

D D D Dx A B ост ,

6

300

6

3750

6

1300

6

5350.

Источник

вариации

качества

пряжи

Показатель

вариации

Число

степеней

свободы

Несмещенная

оценка

дисперсии

Тип машины

(фактор A ) 6

1300D A 2 650

2

13002

AS

Вид сырья

(фактор B ) 6

3750DB 1 3750

1

37502

BS

Остаточные

факторы

300D

6ост 21213 150

2

3002

oS

Общая

вариация

5350D

6x 5

13001070

5xD

Найдем числовое значение AF -критерия:

33,4150

6502

2

o

AA

S

SF .

1, 1 1 , 2; 2; 0,05 19кр крf p p q f .

A крF f , считаем, что влияние типа машины на количество пряжи не подтвердилось.

Найдем числовое значение BF -критерия:

25150

37502

2

o

BB

S

SF

1, 1 1 , 1; 2; 0,05 18,51кр крf q p q f .

Так как B крF f , то считаем, что вид сырья влияет на качество пряжи. Следовательно,

надо оценить степень этого влияния.

Рассчитаем выборочный коэффициент детерминации:

7,053506

637502

x

B

BD

D.

Таким образом 70% общей выборочной вариации качества пряжи связано с влиянием на

нее вида сырья.

Пример Имеются следующие данные об урожайности 4-х сортов пшеницы на 5-ти

участках земли (блоках):

Сорт Урожайность по блокам, ц/га

1 2 3 4 5

1 87,2 67,2 2,16 2,50 2,82

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 39: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

39

2 2,45 2,85 2,77 2,87 3,25

3 2,32 2,47 2,00 2,40 2,40

4 2,90 2,87 2,25 2,80 2,70

Требуется найти уровни значимости 05,0 , установить влияние на урожайность сорта

пшеницы (фактора A ) и участков земли – блоков (фактора B ).

Решение

Урожайность по блокам

(уровень фактора B ) 1B 2B 3B

4B 5B Среднее

групповое

(по строке)

Сорт

(уровень

фактора A ) i

j 1 2 3 4 5

1A 1 2,87 2,67 2,16 2,50 2,82 2,604

2A 2 2,45 2,85 2,77 2,87 3,25 2,838

3A 3 2,32 2,47 2,00 2,40 2,40 2,318

4A 4 2,90 2,87 2,25 2,80 2,70 2,704

Среднее групповое (по

столбцу) 2,635 2,715 2,295 2,6425 2,7925 2,616

Число уровней фактора A : 4p .

Число уровней фактора B : 5q .

Общее число наблюдений: 20qpn .

Общее среднее: 616,2x .

Выборочная дисперсия xD :

780,1616,270,2

616,280,2616,225,2616,287,2616,290,2

616,240,2616,240,2616,240,2616,200,2

616,247,2616,232,2616,225,3616,287,2

616,277,2616,285,2616,245,2616,282,2

616,250,2616,216,2616,267,2616,287,2

2

2222

2222

2222

2222

22222

xS

20

780,1D x .

Выборочная дисперсия групповых средних ix :

715,0008,0086,0049,00001,05

))616,2704,2()616,2318,2(

)616,2838,2()616,2604,2((5

22

222

AS

20

715,0D A .

Выборочная дисперсия групповых средних jx :

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 40: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

40

576,0616,27925,2

)616,26425,2()616,2295,2(

)616,2715,2()616,2635,2((4

22

222

BS

20

576,0DB .

495,0616,2604,27925,270,2...

...616,2604,2715,267,2

616,2604,2635,287,2

2

2

22

0S

0,495D

20ост .

Убедимся, что выполняется тождество:

остBAx DDDD ,

20

495,0

20

576,0

20

715,0

20

780,1.

Найдем числовое значение AF -критерия:

80,5041,0

238,02

2

o

AA

S

SF .

Составим таблицу для произведенных вычислений:

Источник

вариации

урожайности

Показатель

вариации

Число степеней

свободы

Несмещенная

оценка дисперсии

Сорт

(фактор A ) 20

715,0D A 314 238,0

3

715,02

AS

Блок

(фактор B ) 20

576,0DB 415 144,0

4

576,02

BS

Остаточные

факторы

0,495D

20ост 121514 041,0

12

495,02

oS

Общая

вариация

1,748D

20x 2 – 1 = 19 092,0

19

748,12

xS

1, 1 1 , 3; 12; 0,05 3,49кр крf p p q f .

A крF f , считаем, что влияние на урожайность сорта пшеницы значимо.

Найдем числовое значение BF -критерия:

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 41: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

41

51,3041,0

144,02

2

o

BB

S

SF

1, 1 1 , 4; 12; 0,05 3,26кр крf q p q f . Так как B крF f , то считаем, что

влияние на урожайность участков земли незначимо.

Задания для самостоятельного решения

На пяти предприятиях А1, А2, А3, А4, А5, проверялись 3 технологии производства В1, В2,

В3 однотипных изделий. Данные о производительности труда в условных единицах

приведены в таблице. Требуется на уровне значимости 05,0 установить влияние на

производительность труда предприятия (фактор А) и технологий (фактор В).

Тип

предприятия

(фактор А)

Вид технологии (фактор В)

В1 В2 В3

А1 11x 12x 13x

А2 21x 22x 23x

А3 31x 32x 33x

А4 41x 42x 43x

А5 51x 52x 53x

1

34 28 38

2

48 40 34

36 30 24 38 42 38

26 24 22 30 37 44

25 36 20 40 33 41

30 38 23 36 39 45

3

12 10 20

4

44 30 38

16 8 26 45 36 28

15 7 28 48 32 30

17 5 24 45 35 32

14 9 27 40 30 26

5

16 18 26

6

9 4 12

12 20 15 11 6 18

10 22 28 10 5 24

11 25 30 12 6 20

10 24 26 9 5 23

7

54 32 16

8

8 15 24

50 46 36 16 24 34

43 28 30 40 42 18

47 37 25 12 25 9

36 28 17 32 30 14

9

124 64 34

10

17 26 15

136 54 30 40 16 12

120 44 28 16 17 10

133 56 33 36 30 17

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 42: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

42

125 59 31 30 12 44

11

45 36 44

12

12 24 20

44 30 28 16 20 18

40 31 15 14 34 14

41 38 40 15 26 20

39 35 32 13 28 19

13

24 32 30

14

108 244 326

28 42 16 124 234 304

40 30 9 110 254 298

56 18 16 126 245 318

24 24 10 114 236 312

15

28 36 12

16

26 34 68

24 34 10 45 30 46

26 30 14 44 46 28

27 29 18 27 17 34

25 31 20 42 36 30

17

18 24 36

18

47 56 64

28 36 12 46 55 60

12 28 22 45 54 58

14 40 45 41 50 62

32 16 40 43 52 31

19

16 28 46

20

24 18 22

20 12 43 16 14 15

31 40 24 13 10 16

56 24 14 5 4 12

22 34 6 6 16 8

21

10 14 12

22

16 9 14

8 5 9 10 8 16

7 14 10 20 9 12

18 4 7 25 7 16

6 12 8 24 5 14

23

24 46 68

24

12 22 21

26 45 76 14 20 30

25 44 75 36 18 12

27 40 68 20 9 31

22 43 77 53 44 30

25

34 102 68

26

25 45 56

35 98 60 64 24 54

30 106 56 30 12 16

33 112 57 20 47 32

32 110 55 46 18 42

27

24 34 45

28

8 18 34

26 30 47 12 23 36

25 31 44 11 22 32

27 29 42 10 20 30

28 32 43 14 21 33

29

21 35 69

30

12 34 18

45 30 54 10 32 21

18 38 40 11 30 22

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 43: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

43

16 18 12 10 33 20

40 34 36 16 31 28

2.3 Двухфакторный дисперсионный анализ с несколькими наблюдениями в

клетке

Пусть, например, необходимо выяснить, имеются ли существенные различия между (m)

партиями изделий, которые изготавливали на разных (l) станках по каждому фактору: А –

партия изделий, В – станок.

Все имеющиеся данные представлены в виде таблицы, в которой по строкам – уровни Ai

фактора А mi ,1 , по столбцам – уровни Вj фактора В lj ,1 , а в соответствующих клетках

или ячейках таблицы находятся значения показателя качества изделия xj j k nk ,1 ,

где хi j k - значения наблюдений в ячейке ij c номером k.

Групповые средние находятся по формулам:

в ячейке –

n

i

ijkij xn

x1

1,

по строке –

l

j

iji xl

x1

1,

по столбцу –

m

i

ijj xm

x1

1.

Общая средняя –

m

i

l

j

ijxml

x1 1

1.

Можно показать, что проверка нулевых гипотез НА, НВ, НАВ об отсутствии влияния на

рассматриваемую переменную факторов А, В и их взаимодействия АВ осуществляется

сравнением отношений 2

4

2

1

S

S , 2

4

2

2

S

S , 2

4

2

3

S

S с соответствующими табличными значениями F-критерия

Фишера-Снедекора.

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 44: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

44

Замечание Отклонение от основных предпосылок дисперсионного анализа –

нормальности распределения исследуемой переменной и равенства дисперсий в ячейках

(если оно не чрезмерное) может быть очень чувствительно при неравном числе наблюдений

в ячейках.

Кроме того, при этом резко возрастает сложность аппарата дисперсионного анализа.

Поэтому рекомендуется планировать схему с равным числом наблюдений в ячейках, а

если встречаются недостающие данные, то возмещать их средними значениями других

наблюдений в ячейках.

При этом, однако, искусственно введѐнные недостающие данные не следует

учитывать при подсчѐте числа степеней свободы.

Таблица дисперсионного анализа

Компоненты дисперсии Сумма квадратов

Число степеней свободы

Средние квадраты

Межгрупповая (фактор А)

m

l

i xxnlQ1

2

1 )(

2

1 1 1

)(1 m

i

l

j

n

k

ijkxnl

m

i

l

j

n

k

ijkxnlm 1 1 1

2)(1

m-1

1

12

1m

QS

Межгрупповая (фактор В)

l

j

j xxnmQ1

2

2 )(

2

1 1 1

)(1 l

j

m

i

n

k

ijkxnm

m

i

l

j

n

k

ijkxnlm 1 1 1

2)(1

l-1

)1(

22

2l

QS

Взаимодействие 2

1 1

3 )( xxxxnQ j

m

i

iij

l

j

421 QQQQ

(m-1)(l-1)

)1)(1(

32

3lm

QS

Остаточная m

i

l

j

n

k

ijijk xxQ1 1 1

2

4 )(

m

i

l

j

n

k

ijk

m

i

l

j

n

k

ijk xn

x1 1 1

2

1 1 1

2 )(1

mln-ml= =ml(n-1) )1(

42

4nml

QS

Общая

m

i

l

j

n

k

ijk xxQ1 1 1

2)(

2

1 1 1

2

1 1 1

1( )

m l n

ijki j k

m l n

ijki j k

x

xm l n

mln-1

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 45: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

45

Пример На 3 предприятия А1, А2, А3 проверялись 2 технологии производства В1, В2

однотипных изделий. Данные о производительности труда в условных единицах приведены

в таблице:

Фактор А Фактор В

В1 В2

А1 530, 540, 550 600, 620, 560

А2 490, 510, 520 550, 540, 560

А3 430, 420, 450 470, 460, 430

Определим (в г) средние значения:

в ячейках- 5403

55054053011x ; 600

3

58062060012x .

Аналогично 7,50621x ; 55022x ; 3,43331x ; 3,45332x

Составим таблицу, найдѐм средние по строкам и столбцам.

Фактор В В1 В2 Среднее

групповое

(по строке) Фактор А

j

i 1 2

А1 1 54011x 60012x 5701x

А2 2 7,50621x 55022x 4,5282x

А3 3 3,43331x 3,45332x 3,4433x

Среднее

групповое

(по столбцу)

3,4931x 4,5342x 9,513x

Общее среднее 9,513x .

Вычислим суммы квадратов отклонений:

Q1 = 3∙2((570-513,9)2+ (528,4-513,9)

2 + (443,3-513,9)

2 )=50011,1

Q2 = 3∙3 ((493,3-513,9)2 + (534,4-513,9)

2 ) =7605,6;

Q3 = 3 [(540-570-493,3+513,9)2 + (600-570-534,4+513,9)

2 +

+(506,7-493,3-528,4+513,9)2 + (550-528,4-534,4+513,9)

2

+(433,3-493,3-443,3+513,9)2+(453,3-443,3-534,4+513,9)

2] =1211,1

Q4 = (530-540)2 + (540-540)

2 + (550-540)

2 + (600-600)

2 +

+ (620-600)2 + (580-600)

2 + … + (430-453,3)

2 = 3000;

Q = (530-513,9)2 + (540-513,9)

2 + … +(430-513,9)

2 =61827,8.

Составим таблицу.

Компонента

дисперсии

Суммы

квадратов

Число

степеней

свободы

Средние

квадраты

Межгрупповая

(фактор А)

Q1 =

50011,1 m-1=2 5,250052

1S

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 46: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

46

Межгрупповая

(фактор В) Q2 = 7605,6 l-1=1 6,76052

2S

Взаимодействие Q3 = 1211,1 (m-1)( l-1)=2 6,6052

3S

Остаточная Q4 = 3000 ml(n-1)=12 2502

4S

Общая Q = 61827,8 17

FА = 100250

5,250052

4

2

1

S

S; fкр (2;12;0,05) = 3,88; FА > fкр .

FB = 4,30250

6,76052

4

2

2

S

S; fкр (1;12;0,05) = 4,75; FВ > fкр .

FАB = 42,2250

6,6052

4

2

3

S

S; fкр (2;12;0,05) = 3,88; FАB < fкр .

Т. к. FА > fкр , FВ > fкр , то влияние фактора А и фактора В является существенным.

В силу того, что FАB < fкр взаимодействие указанных факторов незначимо на 5% уровне.

Замечание Вторые формулы для нахождения сумм Q1 , Q2 , Q3 , Q4 , Q

целесообразнее с точки зрения техники вычислений. В данной задаче: 3

1

2

1

3

1

.9250430460470...550540530i j k

ijkx

3

1

2

1

3

1

2222222 430460470...550540530i j k

ijkx

=4815300. 3

1

2

1

3

1

22 )580620600550540530()(i j k

ijkx

+ (490 + 510 + 520 + 550 + 540 + 560)2 +

+ (430 + 420 + 450 + 470 + 460 + 430)2 =

= 28820900. 3

1

2

1

3

1

2 430520510490550540530()(i j k

ijkx

+420+450) 2

+ (600 +620 + 580 + 550 + 540 +

+ 560 +470 + 460 + 430) 2

= 42849700. 3

1

2

1

3

1

222 ...)580620600()550540530()(i j k

ijkx

…+ (470 + 460 + 430) 2

= 14436900.

1,50011323

)9250(

32

28820900 2

1Q .

6,7605323

)9250(

33

42849700 2

2Q .

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 47: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

47

30003

1443690048153004Q .

8,61827323

)9250(4815300

2

Q .

Q3 = 61827,8 – 50011,1 – 7605,6 – 3000 = 1211,1.

Пример На 4 предприятиях В1, В2, В3, В4 проверялись 3 технологии производства А1,

А2, А3 однотипных изделий. Данные о производительности труда в условных единицах

приведены в таблице:

А

В

А1 А2 А3

1 2 3 1 2 3 1 2 3

В1 50 54 58 62 60 58 65 71 65

В2 54 46 50 64 59 60 59 54 61

В3 52 48 50 70 62 60 59 66 64

В4 60 55 56 58 54 50 71 74 62

Требуется на уровне значимости α=0,05 установить влияние на производительность труда

технологий (фактор А) и предприятий (фактор В).

Решение: m=4, l=3, n=3, определим средние значения.

Технологии (фактор А) А1 А2 А3 Среднее

групповое

(по строке) Предприяти

я (фактор В)

j

i 1 2 3

В1 1 54 60 67 60,33

В2 2 50 61 58 56,33

В3 3 50 64 63 59

В4 4 57 54 69 60

Среднее

групповое (по

столбцу)

52,75 59,75 64,25 58,92= x

4

1

3

1

3

1

.2121i j k

ijkx

4

1

3

1

3

1

22222 .12659362...585450i j k

ijkx

4

1

3

1

3

1

2 .1125459291600281961257049294849)(i j k

ijkx

3

1

4

1

3

1

2 .1509219594441514089400689)(j i k

ijkx

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 48: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

48

4

1

3

1

3

1

2 302763348922500404013240026244)(i j k

ijkx + 22500 + 36064 + 35721 +

29241 + 26244 + 42849 =377929.

.75,8825,124962125051334

)2121(

33

1125459 2

1Q

.80625,12496225,125768334

)2121(

34

150921 2

2Q

.67,6163

3779291265934Q

.75,1630334

)2121(126593

2

Q

33,11967,61680675,8875,163043213 QQQQQQ

Компонента

Дисперсии

Суммы

квадратов

Число

степеней

свободы

Средние

квадраты

Межгрупповая

(фактор А) Q1 = 88,75 4-1=3 58,292

1S

Межгрупповая

(фактор В) Q2 = 806 3-1=2 4032

2S

Взаимодействие Q3 = 119,33 3∙2=6 9,192

3S

Остаточная Q4 = 616,67 12∙(3-

1)=24 7,252

4S

Общая Q=1630,75

FB = 2,17,25

58,292

4

2

1

S

S; fкр (3;24;0,05) = 3,01.

FB < fкр , считаем, что влияние на производительность труда предприятия (фактора В)

незначимо.

FА = 7,157,25

4032

4

2

2

S

S; fкр (2;24;0,05) = 3,4.

FА > fкр , считаем, что влияние на производительность труда технологии (фактора А)

значимо.

FАВ = 8,07,25

9,192

4

2

3

S

S; fкр (6;24;0,05) = 2,51.

FАВ < fкр , считаем, что взаимодействие факторов А и В незначимо.

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 49: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

49

3 Регрессионный анализ

Определение Регрессионный анализ - раздел математической статистики,

объединяющий практические методы исследования регрессионной зависимости между

величинами по статистическим данным.

Цель регрессионного анализа состоит в определении общего вида уравнения регрессии,

построении статистических оценок неизвестных параметров, входящих в уравнение

регрессии и проверке статистических гипотез о регрессии.

Методы регрессионного анализа рассчитаны, главным образом, на случай

устойчивого нормального распределения, в котором изменения от опыта к опыту

проявляются лишь в виде независимых испытаний.

3.1 Задачи регрессионного анализа

Регрессионный анализ представляет собой следующий этап статистического анализа.

Определяются точные количественные характеристики изменения Y. Статистическая связь Y

и X сводится к строгим (неслучайным) соотношениям.

На данном этапе решаются основные задачи:

выбор общего вида функции регрессии; ,f x

отбор, если необходимо, наиболее информативных факторов;

оценивание параметров уравнения регрессии 1, n

анализ точности полученного уравнения регрессии, связанный с построением

доверительных интервалов для коэффициентов регрессии, т.е. компонент вектора

1, n , для условного среднего отклика Y X и для прогнозов наблюдений отклика

Y X при значениях факторов 1, nX X X .

Цель регрессионного анализа состоит в определении общего вида уравнения

регрессии, построении статистических оценок неизвестных параметров, входящих в

уравнение регрессии и проверке статистических гипотез о регрессии.

Корреляционный анализ позволяет устанавливать неслучайность (значимость)

изменения наблюдений iY и степень их зависимости от случайных величин X .

1. Возмущения есть случайная величина, а объясняющая переменная – неслучайная

величина.

2. Математическое ожидание возмущения равно нулю 0)( iM

3. Дисперсия возмущения постоянна для любого i : 2)( iD

4. Возмущения не коррелированны (независимы) 0)( jiM ; i j .

5. Возмущения есть нормально распределенная случайная величина.

Для получения уравнений регрессий достаточно 1-4 условий, 5 условие для оценки

точности уравнений регрессии и его параметров

3.2 Многомерная нормальная регрессионная модель

Могомерный регрессионный анализ применяется в случае, если изменения

результативного признака определяются действием совокупности других признаков.

Когда одна случайная переменная реагирует на изменение другой изменением своего

закона распределения, речь идет о так называемой стохастической связи.

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 50: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

50

Частный случай такой связи - когда условное математическое ожидание одной случайной

переменной является функцией значения, принимаемого другой случайной переменной, т.е.

M(Y/x) = f(x),

где f(x) - теоретическая (истинная) функция или модель регрессии Y относительно X.

В общем случае функция регрессии описывает условное математическое ожидание от

заданных значений факторов 1, nX X X . Статистические связи исследуются по

выборкам ограниченного объема. На основании этих данных выполняют поиск подходящих

аппроксимаций для f(x). Чтобы выяснить, как значение одной случайной переменной, в

среднем, изменяется в зависимости от того, какие значения принимает другая случайная

переменная, используют условное среднее значение y x , которое является выборочной

оценкой условного математического ожидания, а соответствующее выражение -

эмпирической функцией регрессии.

Практическое значение знания регрессионной зависимости между случайными

переменными X и Y заключается в возможности прогнозирования значения зависимой

случайной переменной Y, когда независимая случайная переменная X принимает

определенное значение. Прогноз не может быть безошибочным, однако можно определить

границы вероятности ошибки прогноза.

В практике экономических исследований очень часто имеющиеся данные нельзя

считать выборкой из многомерной нормальной совокупности. В этих случаях пытаются

определить поверхность, которая дает наилучшее приближение к исходным данным.

В регрессивном анализе рассматривается односторонняя зависимость случайной

зависимой переменной Y от одной (или нескольких) неслучайной независимой переменной

X . Две случайные величины X и Y могут быть связаны либо функциональной

зависимостью, либо статистической, либо быть независимыми.

При функциональной зависимости каждому значению переменной X соответствует

вполне определенное значение переменной Y . Строгая функциональная зависимость

реализуется редко, т.к. обычно величины подвержены еще действию различных случайных

факторов. Тогда каждому значению одной переменной соответствует не какое-то

определенное, а множество возможных значений другой переменной. Это статистическая

(вероятностная, стохастическая) зависимость.

Определение Корреляционной зависимостью между двумя случайными величинами,

называется функциональная зависимость между значениями одной из них условным

математическим ожиданием другой.

Уравнения [ ] ( )M Y X g x

[ ] ( )M X Y y

называются уравнениями регрессии, ( )g x , ( )y - функциями регрессии, а их графики - линиями

регрессии.

3.3 Метод наименьших квадратов для получения уравнения выборочной линии регрессии

Пусть на вход некоторого устройства подается сигнал x , а на выходе измеряется сигнал

y . Известно, что величины x и y связаны функциональной зависимостью, но какой именно

– неизвестно.

Требуется приближенно определить эту функциональную зависимость y x по

опытным данным.

Пусть в результате n измерений получен ряд экспериментальных точек ,i ix y .

Известно, что через n точек можно всегда провести кривую, аналитически выражаемую

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 51: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

51

многочленом 1n -й степени. Этот многочлен называют интерполяционным.

И вообще, замену функции x на функцию x так, что их значения совпадают в

заданных точках

i ix x , 1,2,...,i n ,называют интерполяцией.

Однако такое решение проблемы не является удовлетворительным, поскольку

i iy x из-за случайных ошибок измерения и влияния на измерения значений iy помех

и шумов в устройстве. Так что

,i i iy x

где i – некоторая случайная ошибка.

Поэтому требуется провести кривую так, чтобы она в наименьшей степени зависела от

случайных ошибок. Эта задача называется сглаживанием (аппроксимацией)

экспериментальной зависимости и часто решается методом наименьших квадратов.

Сглаживающую кривую называют аппроксимирующей.

Обычно для получения уравнения выборочной линии регрессии 2

0 1 2 ... m

x mY b b x b x b x

или 2

0 1 2 ... m

y mX c c y c y c y

используется метод наименьших квадратов.

Задача аппроксимации решается следующим образом.

В декартовой прямоугольной системе координат наносят точки ,i ix y . По

расположению этих точек высказывается предположение о принадлежности искомой

функции к определенному классу функций.

Например, линейная функция 0 1x a a x , квадратичная 2

0 1 2x a a x a x и

т.д. В общем случае 0 1, , ,..., rx x a a a . Неизвестные параметры функции

0 1, ,..., ra a a определяются из требования минимума суммы квадратов случайных ошибок,

т.е. минимума величины

22

0 1

1 1

, , ,...,n n

i i i r

i i

y x a a a .

Величина называется также суммарной невязкой.

Пусть требуется исследовать зависимость )(XY , величины X и Y измеряются в одном

эксперименте.

Восстановим )(XY по результатам измерений. Точное представление )(XY

невозможно.

Будем искать приближенную зависимость по методу наименьших квадратов

)()( xgXY , )(xg - называется наилучшим приближением, если 2)(xgYM

принимает наименьшее значение.

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 52: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

52

Рассмотрим функцию BAXxg )(

которая наилучшим образом приближает X к Y .

Введем обозначения

XMm1 , YMm2 , XD2

1 YD

2

2,

- корреляционный момент, k- коэффициент корреляции этих величин.

Будем искать

BYAXxgXY )()(

Найти такие A и B , что 2][),( BAXYMBAФ принимает наименьшее значение: 2

2 2 2 2

2 2 2 2 2 2

2 2 1 1 2

1 2 1

( , ) [ ]

[ ] [ ] 2 [ ]

2 [ ] 2 [ ]

( ) 2

2 ( ) 2

Ф A B M Y AX B

M Y B A M X BM Y

AM XY AMB X

m B A m Bm

A m m ABm

Исследуем на экстремум

А

Ф = 0])()([2 121

2

1

2

1 BmmmmA

А

Ф = 0][2 12 AmBm

Коэффициент A - коэффициент регрессии.

Прямая 1

1

2

2 mxk

my – прямая регрессии.

Методом наименьших квадратов находим значения коэффициентов А и В

1 1

2

1

n n

i ii i

n

ii

X X Y Y

B

X X

A Y B X

Угловой коэффициент В можно представить как

Y

X

SВ r

S

где r - выборочный коэффициент корреляции,

2 2

1

1( )

1

n

X i

i

S X Xn

, 2 2

1

1( )

1

n

Y i

i

S Y Yn

.

В - выборочный коэффициент регрессии Y на X .

Он показывает, на сколько в среднем изменяется переменная X при увеличении

переменной X на одну единицу.

Воздействие неучтенных факторов и ошибок наблюдений в модели определяется с

помощью остаточной дисперсии.

Минимум равен )1( 22

2 k – остаточная дисперсия, которая характеризует величину

ошибки, допускаемой при использовании приближенного равенства

BAXxgY )( .

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 53: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

53

Пример Найти выборочное уравнение прямой линии регрессии: а) Y на X , б)

X на Y , если известны: выборочные средние 6,3x , 4y , выборочные дисперсии

04,0xD , 25,0yD , выборочный коэффициент корреляции 6,0Br .

Решение а) Выборочное уравнение прямой линии регрессии Y на X имеет вид

xxryyx

y

B,

где xx D ,

yy D .

Поскольку 2,004,0x, 5,025,0y

,

получаем уравнение 6,32,0

5,06,04 xy ,

или 4,15,1 xy .

б) Согласно выборочному уравнению прямой линии регрессии X на Y :

yyrxxy

xB

.

Поэтому получаем

45,0

2,06,06,3 yx , или 64,224,0 yx

Ввиду простоты расчетов аппроксимация линейной зависимости используется довольно

часто. Кроме того, многие функции, зависящие от двух параметров, можно линеаризовать

путем замены переменных.

Для этого необходимо подобрать такое преобразование исходной зависимости

0 1, ,y x x a a , в результате которого она приобретает линейный вид 0 1v b b u .

Далее решается задача линейной аппроксимации для новой зависимости и вычисленные

коэффициенты 0b и

1b пересчитываются в коэффициенты 0a и

1a .

Для ряда часто встречающихся двухпараметрических зависимостей приведем возможные

замены переменных (а также, обратные замены для пересчета 0b и

1b в 0a и

1a )

Вид зависимости Замена

переменных

Огр

аничен

ия

Обратная замена

переменных

Гиперболическая

1

0

ay a

x

v y 1u

x

0x

0 0a b 1 1a b

Логарифмическая

0 1 lny a a x v y

lnu x

0x

0 0a b 1 1a b

Показательная

1

0

a xy a e

lnv y

u x

0y

0 0a

0

0

ba e 1 1a b

Степенная

1

0

ay a x

lnv y

lnu x

0x

0y

0 0a

0

0

ba e 1 1a b

Комбинированная 1

vy

xu e

0y

0 0a b 1 1a b

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 54: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

54

Следующие примеры реализуют аппроксимацию нелинейной зависимости методом

наименьших квадратов с помощью универсального математического пакета.

Пример

n 10 i 0 n 1 X

ii 1 X

T 0 1 2 3 4

0 1 2 3 4 5

a0

2

a1

1

0 0.1

y x( ) a0

a1

x

Zi

y Xi

ZT

1 1.5 1.667 1.75 1.8 1.833 1.857

W rnorm n WT

-0.044 -0.068 -0.047 -0.095 -0.169

Y Z W YT

0.956 1.432 1.619 1.655 1.631 1.838

5 100.5

1

1.5

2

2.5

y x( )

Yi

x Xi

f1u x( )1

x f1v y( ) y

Ui

f1u Xi

Vi

f1v Yi

0 0.5 10.5

1

1.5

2

2.5

Zi

Vi

Ui Ui

Mu1

ni

Ui

Mu 0.293

Mv1

ni

Vi

Mv 1.7

Kuv1

ni

Ui

Mu Vi

Mv

Kuv 0.078

S21

ni

Ui

Mu2

S2 0.069

b1

Kuv

S2 b

11.131

b

0Mv b

1Mu

b0

2.031

i

Vi

b0

b1

Ui

2

0.092

ae0

b0

ae1

b1

x( ) ae0

ae1

x

0 1

1x

ya a e

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 55: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

55

1

i

Yi

Xi

2

1 0.092 F1 x( ) 11

x

T

linfit X Y F1( )2.031

1.131

f2u x( ) exp x( ) f2v y( )1

y

5 100.5

1

1.5

2

2.5

y x( )

Yi

x( )

x Xi x

U reverse f2u X( )

V reverse f2v Y( )

F x( ) 1 x( )T

c linfit U V F( )

c0.536

1.375

2 x( )1

c0

c1

ex

5 101

1.5

2

2.5

y x( )

Yi

2 x( )

x Xi x

2

i

Yi

2 Xi

2

2 0.138

Задачи для самостоятельного решения

Методом наименьших квадратов исследуйте функцию, данные из таблицы:

1 х -1 -0,55 -0,1 -,35 0,8 1,25 1,7 2,15 2,6 3,05

у -6,78 -6,56 -6,14 -5,31 -3,68 -0,85 5,81 18,15 42,4 90,03

2 х 0,01 0,56 1,11 1,66 2,21 2,28 3,3 3,85 4,4 4,95

у 34,23 5,97 1,28 -1,54 -3,54 -5,09 -6,36 -7,44 -8,37 -9,2

3 х -2 -1,6 -1,2 -0,8 -0,4 0 0,4 0,8 1,2 1,6

у 16 10,24 5,76 2,56 0,53 0 0,64 2,56 5,76 10,24

4 х 0,3 1,57 2,84 4,11 5,38 6,65 7,92 9,19 10,46 11,73

у 15,33 4,55 3,41 2,97 2,74 2,6 2,59 2,44 2,38 2,34

5 х -3,5 -2,65 -1,8 -0,95 -0,1 0,75 1,6 2,45 3,3 4,15

у 0,01 0,03 0,07 0,12 0,19 0,2 0,29 0,31 0,325 0,33

6 х 0,15 0,94 1,72 2,51 3,29 4,08 4,86 5,65 6,43 7,22

у -9,69 -4,2 -2,37 -1,25 -0,43 0,21 0,74 1,3 1,58 1,93

7 х 0,35 0,82 1,28 1,75 2,21 2,675 3,14 3,605 4,07 4,535

у 6,86 5,23 4,78 4,57 4,45 4,37 4,35 4,28 4,25 4,22

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 56: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

56

8 х -1 -0,8 -0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 0,8

у 4,14 4,2 4,3 4,45 4,67 5 5,49 6,85 7,32 8,95

9 х 2 2,3 2,6 2,9 3,2 3,5 3,8 4,1 4,4 4,7

у 2,67 4,06 6,16 8,13 10,92 14,29 18,29 22,97 28,39 34,6

10 х -5 -4 -3 -2 -1 0 1 2 3 4

у 0,01 0,02 0,05 0,11 0,21 0,38 0,42 0,47 0,49 0,5

11 х 0,95 1,21 1,47 1,74 2,0 2,26 2,52 2,78 3,05 3,31

у 8,16 3,39 2,19 1,34 0,88 0,61 0,54 0,33 0,28 0,19

12 х 0,35 0,82 1,28 1,75 2,21 2,68 3,14 3,61 4,07 4,535

у 16,99 8,83 6,61 5,56 4,96 4,62 4,29 4,09 3,93 3,8

13 х -1,7 -1,43 -1,16 -0,89 -0,62 -0,35 -0,08 0,19 0,46 0,73

у 26,96 14,46 7,17 2,92 0,45 -0,98 -1,35 -2,31 -2,6 -2,77

14 х -5 -3,5 -2 -0,5 1 2,5 4 5,5 7 8,5

у 0 0,01 0,06 0,28 0,87 2,05 2,92 3,23 3,31 3,33

15 х -2 -1,4 -0,8 -0,2 0,4 1,0 1,6 2,2 2,8 3,4

у 6,8 3,33 1,09 0,02 0,27 1,7 4,35 8,23 13,33 19,65

16 х 0,4 0,86 1,32 1,78 2,24 2,7 3,16 3,62 4,08 4,54

у -20,5 -11,2 -8,3 -6,93 -6,5 -5,59 -5,3 -4,93 -4,83 -4,54

17 х 0,01 0,51 1,01 1,52 2,01 2,51 3,0 3,05 4,0 4,5

у -1,14 2,39 3,01 3,37 3,63 3,83 3,99 4,13 4,25 4,35

18 х -5 -3,91 -2,82 -1,73 -0,64 0,45 1,54 2,63 3,72 4,81

у 0 -0,01 -0,01 -0,03 -0,07 -0,18 -0,2 -0,23 -0,24 -0,25

19 х -2,1 -1,79 -1,48 -1,17 -0,86 -0,55 -0,24 0,07 0,38 0,69

у 0,28 0,29 0,3 0,32 0,36 0,48 0,78 1,52 3,41 8,21

20 х 0,01 0,53 1,05 1,57 2,09 2,61 3,12 3,64 4,16 4,68

у 15,22 3,31 1,26 0,05 -0,81 -1,74 -2,17 -2,48 -2,88 -3,23

21 х 0 0,4 0,8 1,2 1,6 2,0 2,4 2,8 3,2 3,6

у 0,3 7,5 11,37 14,5 17,24 19,9 21,98 24,11 26,12 28,04

22 х -4 -3,01 -2,02 -1,03 -0,04 0,95 1,94 2,93 3,92 4,91

у -0,02 -0,05 -0,12 -0,26 -0,49 -0,72 -0,87 -0,94 -0,98 -0,99

23 х 0,4 0,81 1,22 1,5 2,04 2,45 2,86 3,27 3,68 4,09

у 1,8 0,53 0,12 -0,09 -0,21 -0,31 -0,35 -0,39 -0,43 -0,46

24 х -1 -0,72 -0,44 -0,17 0,12 0,39 0,67 0,95 1,22 1,5

у -4,95 -4,89 -4,74 -4,39 -3,6 -1,93 2,42 12,08 34,33 85,55

25 х 0,01 0,51 1,01 1,51 2,01 2,51 3,01 3,51 4,01 4,51

у -4,76 2,29 3,52 4,24 4,76 5,06 5,48 5,76 6,0 6,21

26 х -5 -3,95 -2,9 -1,85 -0,8 0,25 1,3 2,35 3,4 4,45

у -0,01 -0,03 -0,8 -0,2 -0,49 -0,96 -1,45 -1,76 -1,91 -1,97

27 х 0,5 1,4 2,3 3,2 4,1 5,0 5,9 6,8 7,7 8,6

у 2,41 3,32 4,1 4,3 4,64 4,94 5,0 5,43 5,64 5,84

28 х 0,11 0,499 0,89 1,28 1,67 2,055 2,44 2,83 3,22 3,61

у 6,27 0,6 -0,1 -0,37 -0,52 -0,61 -0,67 -0,69 -0,75 -0,78

29 х 0,01 0,59 1,17 1,75 2,33 2,91 3,48 4,06 4,64 5,22

у 8,82 -3,41 -5,93 -6,67 -7,53 -8,2 -8,74 -9,15 -9,61 -9,96

30 х -2 -1,62 -1,24 -0,87 -0,49 -0,11 0,27 0,65 1,02 1,4

у 37,63 19,33 10,19 5,55 3,21 2,02 1,64 1,11 0,96 0,88

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 57: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

57

4 Линейный регрессионный анализ

Термином линейный регрессионный анализ обозначают прогнозирование одной

переменной на основании другой, когда между этими переменными существует линейная

взаимосвязь

0 1Y b b X.

Разности между фактически полученными значениями Y и вычисленными по

уравнению регрессии соответствующими значениями прогнозов Y называются

отклонениями

YYe .

Величины прогноза являются моделируемыми значениями данных, а отклонения

показывают отличия от модели.

Пример Анализ зависимости между ценами и объемам продаж молока

фермера. Значение выборочного коэффициента корреляции 0.86r .

Уравнение регрессии

Задачами регрессионного анализа являются:

установление формы зависимости между переменными;

оценка функции регрессии;

оценка неизвестных значений (прогноз значений) зависимой переменной.

В регрессионном анализе рассматривается односторонняя зависимость случайной

зависимой переменной Y от одной (или нескольких) независимой переменной X .

также называется функцией отклика, выходной, результирующей, эндогенной

переменной; X - входной, объясняющей, предсказывающей, предикторной, экзогенной

переменной, фактором, регрессором.

Линейная зависимость может быть представлена в виде модельного уравнения

регрессии

0 1[ ]M Y X x .

В силу воздействия неучтенных случайных факторов отдельные наблюдения y будут в

большей или меньшей степени отклоняться от функции регрессии

0 1( )g x x.

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 58: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

58

В этом случае уравнение взаимосвязи двух переменных (парная регрессионная модель)

может быть представлено в виде

XY 10 .

Отклонения (возмущения, остатки) предполагаются независимыми и нормально

распределенными 2(0, )N . Неизвестными параметрами являются 0,

1 и 2 .

Оценкой модели XY 10 по выборке является уравнение регрессии

xbby 10 .

Параметры этого уравнения 0b и 1b определяются по методу наименьших квадратов.

Воздействие случайных факторов и ошибок наблюдений определяется с помощью

остаточной дисперсии 2 .

Оценкой дисперсии является выборочная остаточная дисперсия 2s :

22

1

2

1

2

2

n

e

n

YY

s

n

i

i

n

i

ii

,

где iY - значение Y , найденное по уравнению регрессии; i i ie Y Y - выборочная оценка

возмущенияi.

Число степеней свободы 2n , т.к. две степени свободы теряются при определении двух

параметров 0 Y

b и 1b .

4.1 Оценка модели регрессии

Величина

2

1

2

n

i

i

e

sn

называется стандартной ошибкой оценки и демонстрирует величину отклонения точек

исходных данных от прямой регрессии.

Поскольку, как правило, требуется, чтобы прогноз был как можно более точным,

значение s должно быть как можно меньшим.

Пример Для данных продажи молока 2.72s . Для величины Y ,

принимающей значения от 3 до18, значение s довольно велико.

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 59: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

59

Чтобы получить точечный прогноз, или предсказание для данного значения X , надо

просто вычислить значение функции регрессии в точке X .

Пример Фермер хочет получить прогноз количества молока, которое будет

продано при цене 1.63 рублей за литр:

XY 54.1414.32

44.863.154.1414.32Y

Конечно, реальные значения величины Y не лежат в точности на регрессионной прямой. Есть два

источника неопределенности в точечном прогнозе,

использующем уравнение регрессии.

1. Неопределенность, обусловленная

отклонением точек данных от выборочной прямой регрессии.

2. Неопределенность, обусловленная отклонением выборочной прямой регрессии

от регрессионной прямой генеральной совокупности.

Интервальный прогноз значений переменной можно построить так, что при этом будут

учтены оба источника неопределенности.

Суммарная дисперсия

22YY sss ,

где Ys - стандартная ошибка прогноза, s - стандартная ошибка оценки, Ys - стандартная

ошибка функции регрессии.

Величина 2

Ys измеряет отклонение выборочной прямой регрессии от регрессионной

прямой генеральной совокупности и вычисляется для каждого значения X как.

22 2

2

1

1 ( )

( )

Y n

i

i

X Xs s

nX X

.

Ys зависит от значения X , для которого прогнозируется величина Y .

Величина Ys будет минимальна, когда X X , а по мере удаления X от X , будет

возрастать.

Стандартная ошибка прогноза

ˆ

2

2

1

1 ( )1

( )Y n

i

i

X Xs s

nX X

Границы интервала прогноза величины с надежностью 1 будут равны YstY ,

где статистика t имеет распределение Стьюдента с 2k n степенями свободы.

Госсет Уильям Сит (псевд. Стьюдент)(1876-1937)- английский математик и химик.

Труды по теории вероятностей и математической статистике.

Пример Найдем стандартную ошибку прогноза в точке 1.63X с

надежностью 0.95 .

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 60: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

60

Ранее было получено 2.72s , 1.44X , 2

1

( ) 0.824n

i

i

X X .

ˆ

21 (1.63 1.44)2.72 1 2.91

10 0.824Y

s .

При 1.63X значение 44.8Y .

Находим интервал прогноза 71.644.891.2306.244.8YstY или 1.73 15.5Y

Построенные аналогичным образом интервалы значений прогноза по всем значениям

X имеют вид:

Интервал прогноза очень велик, это связано с тем, что исходная выборка мала, а

значение s сравнительно велико.

Прогноз значений зависимой переменной по уравнению регрессии оправдан, если

значение объясняющей переменной не выходит за диапазон ее значений по выборке (причем

тем более точный, чем ближе X к X ).

Экстраполяция кривой регрессии, т.е. использование вне пределов обследованного

диапазона значений объясняющей переменной может привести к значительным

погрешностям.

Интервал прогноза очень велик, это связано с тем, что исходная выборка мала, а

значение s сравнительно велико.

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 61: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

61

4.2 Проблемы применения метода линейной регрессии

1. Если истинная взаимосвязь не линейная, нельзя

использовать для прогноза прямую линию. Большинство

компьютерных программ не предупреждают об этом.

2. Экстраполяция за пределы имеющихся

данных потенциально опасна.

Вы не располагаете информацией, чтобы

отбросить другие возможности.

3.Резко отклоняющееся значение может серьезно

повлиять на результаты регрессионного анализа.

4. Большое значение имеет то, какая из двух

переменных прогнозируется, а какая служит

основанием для прогноза.

Каждому из этих подходов соответствует своя

линия регрессии.

5. Две линии регрессии сближаются, когда уменьшается фактор случайности точки

данных приближаются к прямой линии.

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 62: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

62

4.3 Основные предпосылки статистической модели линейной регрессии

0 1Y X

1.Зависимая переменная Y есть величина случайная, а объясняющая переменная X -

величина неслучайная.

2. Математическое ожидание возмущения [ ] 0M , дисперсия 2[ ]D .

Возмущения являются нормально распределенными. Для заданного значения X

генеральная совокупность значений Y имеет нормальное распределение относительно

регрессионной прямой совокупности.

На практике приемлемые результаты получаются и тогда, когда значения Y имеют

нормальное распределение лишь приблизительно.

3. Разброс генеральной совокупности данных относительно регрессионной прямой

совокупности остается постоянным всюду вдоль этой прямой (дисперсия зависимой

переменной Y остается постоянной: 2[ ]D Y ).

4 Возмущения , а, следовательно? и значения Y независимы между собой.

Уравнение взаимосвязи двух переменных (парная регрессивная модель) может быть

представлена

xy

где - случайная переменная, характеризующая отклонение от функции регрессии. -

называют возмущением.

Рассмотрим линейный регрессивный анализ, для которого функция x линейна

0 1( )M Y X

Если для оценки параметров линейной функции взята выборка, то парная линейная

регрессионная модель имеет вид 0 1iY X

4.4 Линейная регрессия с негруппированными данными

Регрессией Y на Х или условным математическим ожиданием случайной величины Х

называется функция вида

М(у/х) = f(x).

Оценкой этой функции является выборочное уравнение регрессии или условное среднее

( )x

у f x .

На практике часто используются выборочные уравнения линейной регрессии в виде

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 63: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

63

xу x .

Для определения параметров α и β используется получаемая на основании метода

наименьших квадратов система линейных уравнений

n

i

n

i

ii

n

i

n

i

n

i

iiii

ynx

yxxx

1 1

1 1 1

2

)(

)()(

откуда находятся выражения для α и β.

n

i

n

i

ii

n

i

n

i

n

i

iiii

xxn

yxyxn

1 1

22

1 1 1

)(

))((

,

n

i

n

i

ii

n

i

n

i

n

i

iiii

n

i

i

xxn

yxxyx

1 1

22

1 1 11

2

)(

))(())((

.

Для оценки связи между случайными величинами обычно используется выборочный

коэффициент корреляции.

n

yxnyx

n

yyxxò

i

ââii

n

i

âiâi

xy11

))((

.

;1

1

n

i

iâ xn

x n

i

iâ yn

y1

1.

Выборочный коэффициент корреляции представляет собой отношение

yâxâ

xy

Br .

Пример С целью анализа взаимного влияния зарплаты и текучести рабочей

силы на пяти однотипных фирмах с одинаковым числом работников проведены измерения

уровня месячной зарплаты Х и числа уволившихся за год рабочих Y:

Х 100 150 200 250 300

Y 60 35 20 20 15

Найти линейную регрессию Y на Х и выборочный коэффициент корреляции.

Решение. Составляем расчѐтную таблицу:

i xi yi xi2 xiyi yi

2

1 100 60 10000 6000 3600

2 150 35 22500 5250 1225

3 200 20 40000 4000 400

4 250 20 62500 5000 400

5 300 15 90000 4500 225

Σ 1000 150 225000 24750 5850

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 64: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

64

Найдѐм α и β.

;21,0)1000(2250005

15010002475052

.72)1000(2250005

247501000150225002

Выборочное уравнение регрессии примет вид

0,21 72.x

у x

1000200,

5вx

15030.

y

.10505

30200524750xy

Найдѐм

2 2 2 2 2 2 2 2 21( ) (100 150 200 250 300 ) 200 5000

5вx xвd x x

2 2 2 25850( ) 30 270.

5y yв в

d y y

10500,91.

5000 270Вr

Пример

На основании полученных измерений величин Х и Y

Х 4 6 8 10 12

Y 5 8 7 9 14

Найти линейную регрессию Y на Х и выборочный коэффициент корреляции.

Решение

Составим расчѐтную таблицу:

i xi yi xi2 xiyi yi

2

1 4 5 16 20 25

2 6 8 36 48 64

3 8 7 64 56 49

4 10 9 100 90 81

5 12 14 144 168 196

Σ 40 43 360 382 415

2

5 382 40 430,95

5 360 40

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 65: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

65

.1403605

38240433602

0,95 1.x

у x

408,

5вx

438,6.

y

.6,75

6,885382xy

885

360 2

xd .

.04,96,85

415 2

yd

.89,001,383,2

6,7

04,98

6,7Br

Контрольные вопросы

1. Что показывает коэффициент регрессии?

2. Что показывает коэффициент корреляции?

3. В чем отличие корреляционной зависимости от функциональной?

4. Каким методом определяются параметры линейной регрессии?

5. При каких значениях коэффициента регрессии зависимость случайных величин

является:

а) прямой;

б) обратной?

6. Чем занимается регрессионный анализ?

7. Перечислите свойства линейной регрессии.

8. Запишите уравнение регрессии.

9. Отчего зависит наклон линии регрессии?

10. Что показывает коэффициент детерминации?

11. В чем отличие многомерной от линейной регрессии?

12. Что такое интерполяция и аппроксимация? Чем они отличаются?

13. В чем заключается метод наименьших квадратов?

14. Являются ли необходимые условия минимизации также и достаточными?

15. В каком случае можно линеаризовать аппроксимирующую кривую?

16. С какой целью и каким образом проводится линеаризация?

Задачи для самостоятельного изучения

В таблице1.2 приведены экспериментально полученные точки, определяющие

зависимость между переменными x и y по одной из пяти функций, приведенных в

табл. 1.1пункта 3.3.Необходимо реализовать линеаризацию зависимости, подобрать

параметры 0a и 1a по методу наименьших квадратов и проверить правильность вычислений с

помощью известной зависимости (см. примеры). Документ будет давать пренебрежимо

малую невязку в том случае, когда значения Y вычисляются точно по заданной зависимости

(ошибки только за счет округлений при вычислении).

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 66: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

66

Поскольку вид зависимости первоначально неизвестен, следует проделать вычисления

для всех пяти зависимостей и выбрать ту из них, которая обеспечивает наименьшую из всех

вычисленных суммарную невязку .

Считая, что зависимость между переменными x и y имеет вид 2

0 1 2y x x , в задачах

6 и 7 найти оценки параметров по следующим выборкам .

1.

x 0 2 4 6 8 10 y 5 -1 -0,5 1,5 4,5 8,5

2.

x -2 -1 0 1 2 y 4,8 0,4 -3,4 0,8 3,2

В задачах 8 и 9 найти оценки параметров 0 и

1, считая, что зависимость между

переменными x и y имеет вид 1

0yx

x 2 4 6 12 y 8 5,25 3,50 3,25

3.

x 5,67 4,45 3,84 3,74 3,73 2,18 y 6,8 8,5 10,5 10,2 6,8 11,8

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 67: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

67

Таблица 1.2

1 х -1 -0,55 -0,1 -,35 0,8 1,25 1,7 2,15 2,6 3,05

1 у -6,78 -6,56 -6,14 -5,31 -3,68 -0,85 5,81 18,15 42,4 90,03

2 х 0,01 0,56 1,11 1,66 2,21 2,28 3,3 3,85 4,4 4,95

у 34,23 5,97 1,28 -1,54 -3,54 -5,09 -6,36 -7,44 -8,37 -9,2

3 х -2 -1,6 -1,2 -0,8 -0,4 0 0,4 0,8 1,2 1,6

у 16 10,24 5,76 2,56 0,53 0 0,64 2,56 5,76 10,24

4 х 0,3 1,57 2,84 4,11 5,38 6,65 7,92 9,19 10,46 11,73

у 15,33 4,55 3,41 2,97 2,74 2,6 2,59 2,44 2,38 2,34

5 х -3,5 -2,65 -1,8 -0,95 -0,1 0,75 1,6 2,45 3,3 4,15

у 0,01 0,03 0,07 0,12 0,19 0,2 0,29 0,31 0,325 0,33

6 х 0,15 0,94 1,72 2,51 3,29 4,08 4,86 5,65 6,43 7,22

у -9,69 -4,2 -2,37 -1,25 -0,43 0,21 0,74 1,3 1,58 1,93

7 х 0,35 0,82 1,28 1,75 2,21 2,675 3,14 3,605 4,07 4,535

у 6,86 5,23 4,78 4,57 4,45 4,37 4,35 4,28 4,25 4,22

8 х -1 -0,8 -0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 0,8

у 4,14 4,2 4,3 4,45 4,67 5 5,49 6,85 7,32 8,95

9 х 2 2,3 2,6 2,9 3,2 3,5 3,8 4,1 4,4 4,7

у 2,67 4,06 6,16 8,13 10,92 14,29 18,29 22,97 28,39 34,6

10 х -5 -4 -3 -2 -1 0 1 2 3 4

у 0,01 0,02 0,05 0,11 0,21 0,38 0,42 0,47 0,49 0,5

11 х 0,95 1,21 1,47 1,74 2,0 2,26 2,52 2,78 3,05 3,31

у 8,16 3,39 2,19 1,34 0,88 0,61 0,54 0,33 0,28 0,19

12 х 0,35 0,82 1,28 1,75 2,21 2,68 3,14 3,61 4,07 4,535

у 16,99 8,83 6,61 5,56 4,96 4,62 4,29 4,09 3,93 3,8

13 х -1,7 -1,43 -1,16 -0,89 -0,62 -0,35 -0,08 0,19 0,46 0,73

у 26,96 14,46 7,17 2,92 0,45 -0,98 -1,35 -2,31 -2,6 -2,77

14 х -5 -3,5 -2 -0,5 1 2,5 4 5,5 7 8,5

у 0 0,01 0,06 0,28 0,87 2,05 2,92 3,23 3,31 3,33

15 х -2 -1,4 -0,8 -0,2 0,4 1,0 1,6 2,2 2,8 3,4

у 6,8 3,33 1,09 0,02 0,27 1,7 4,35 8,23 13,33 19,65

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 68: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

68

Табл. 1.2 (продолжение)

1

6

х 0,4 0,86 1,32 1,78 2,24 2,7 3,16 3,62 4,08 4,54

у -20,5 -11,2 -8,3 -6,93 -6,5 -5,59 -5,3 -4,93 -4,83 -4,54

1

7

х 0,01 0,51 1,01 1,52 2,01 2,51 3,0 3,05 4,0 4,5

у -1,14 2,39 3,01 3,37 3,63 3,83 3,99 4,13 4,25 4,35

1

8

х -5 -3,91 -2,82 -1,73 -0,64 0,45 1,54 2,63 3,72 4,81

у 0 -0,01 -0,01 -0,03 -0,07 -0,18 -0,2 -0,23 -0,24 -0,25

1

9

х -2,1 -1,79 -1,48 -1,17 -0,86 -0,55 -0,24 0,07 0,38 0,69

у 0,28 0,29 0,3 0,32 0,36 0,48 0,78 1,52 3,41 8,21

2

0

х 0,01 0,53 1,05 1,57 2,09 2,61 3,12 3,64 4,16 4,68

у 15,22 3,31 1,26 0,05 -0,81 -1,74 -2,17 -2,48 -2,88 -3,23

2

1

х 0 0,4 0,8 1,2 1,6 2,0 2,4 2,8 3,2 3,6

у 0,3 7,5 11,37 14,5 17,24 19,9 21,98 24,11 26,12 28,04

2

2

х -4 -3,01 -2,02 -1,03 -0,04 0,95 1,94 2,93 3,92 4,91

у -0,02 -0,05 -0,12 -0,26 -0,49 -0,72 -0,87 -0,94 -0,98 -0,99

2

3

х 0,4 0,81 1,22 1,5 2,04 2,45 2,86 3,27 3,68 4,09

у 1,8 0,53 0,12 -0,09 -0,21 -0,31 -0,35 -0,39 -0,43 -0,46

2

4

х -1 -0,72 -0,44 -0,17 0,12 0,39 0,67 0,95 1,22 1,5

у -4,95 -4,89 -4,74 -4,39 -3,6 -1,93 2,42 12,08 34,33 85,55

2

5

х 0,01 0,51 1,01 1,51 2,01 2,51 3,01 3,51 4,01 4,51

у -4,76 2,29 3,52 4,24 4,76 5,06 5,48 5,76 6,0 6,21

2

6

х -5 -3,95 -2,9 -1,85 -0,8 0,25 1,3 2,35 3,4 4,45

у -0,01 -0,03 -0,8 -0,2 -0,49 -0,96 -1,45 -1,76 -1,91 -1,97

2

7

х 0,5 1,4 2,3 3,2 4,1 5,0 5,9 6,8 7,7 8,6

у 2,41 3,32 4,1 4,3 4,64 4,94 5,0 5,43 5,64 5,84

2

8

х 0,11 0,499 0,89 1,28 1,67 2,055 2,44 2,83 3,22 3,61

у 6,27 0,6 -0,1 -0,37 -0,52 -0,61 -0,67 -0,69 -0,75 -0,78

2

9

х 0,01 0,59 1,17 1,75 2,33 2,91 3,48 4,06 4,64 5,22

у 8,82 -3,41 -5,93 -6,67 -7,53 -8,2 -8,74 -9,15 -9,61 -9,96

3

0

х -2 -1,62 -1,24 -0,87 -0,49 -0,11 0,27 0,65 1,02 1,4

у 37,63 19,33 10,19 5,55 3,21 2,02 1,64 1,11 0,96 0,88

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 69: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

69

10 На основании полученных по результатам измерений значений величин Х и Y

Х 3 5 7 9 10 12

Y 14 10 9 9 6 5

Найти линейную регрессию Х на Y и выборочный коэффициент корреляции.

Ответ: .4,1699,0 yx y

.93,0Br

11.В магазине были проведены в течение пяти дней подсчѐты числа покупок товара Х

и товара Y:

Х 10 20 25 28 30

Y 5 8 7 12 14

(В данной таблице значения Х расставлены в возрастающем порядке.)

Найти выборочное уравнение линейной регрессии Y на Х и выборочный коэффициент

корреляции.

Ответ: 0,45 1,1x

y x

.89,0Br

4.5 Линейная регрессия со сгруппированными данными

В том случае, когда варианты парной выборки встречаются по нескольку раз, причѐм с

одним значением варианты xi может встретиться несколько вариант yi , которые обычно

представляют в виде корреляционной таблицы.

На пересечении строк и столбцов этой таблицы отмечается частота nij выбора

соответствующей пары (хi, yj), а частоты вариант хi ( 11,i k ), yj ( 21,j k ) находятся как

суммы значений nij соответствующей строки или столбца.

Например, в корреляционной таблице

пара (10,5) встречается 3 раза, т.е. n11 = 3; а частота появления y1=5 находится как сумма

ny1=3+2=5.

Очевидно, что 1 2

1 1

.k

i

k

j

yx nnnji

хi

yi 10 20 30 nyj

5 3 - 2 5

10 5 4 2 11

nxi 8 4 4 n=16

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 70: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

70

Для коэффициента корреляции случайных величин Х и Y в случае сгруппированных

данных используется выражение

21

11

kk

вj j вi i в вji

В

xв yв xв yв

y V n x yx U n x y

rn n ,

где 2

1

k

j

jiji ynU , 1

1

k

i

iijj xnV .

Выборочное уравнение линейной регрессии Y на Х в виде

( )yв

x в в в

y y r x x

или выборочное уравнение линейной регрессии Х на Y в виде

( )xвy в в в

x x r y y.

Для упрощения расчѐтов часто используются условные варианты, которые

подсчитываются по формулам

1

1

h

CxU i

i , 2

2

h

CyV

j

j ,

где 1 2,C С - ложные нули (выбираемые значения); 21,hh - разности между соседними

значениями Х и Y.

Соответственно, для обратного перехода применяются выражения:

11 CUhx ii ; 22 CVhy jj ;

1 1вx h U C ; 2 2вy h V C ;

1xв uh ; 2yв vh ,

где ,в вU V - средние значения условных вариант; vu , - средние квадратичные отклонения

условных вариант.

Выборочный коэффициент корреляции в этом случае вычисляется по формуле 21

11

kk

вв в j j вi iji

B

u v u v

v V nU Vu U nU V

rn n ,

где 2

1

k

j

jiji vnU , 1

1

k

i

jijj unV .

Подсчитав выборочный коэффициент корреляции через условные варианты и осуществив

переход к условным переменным, получаем соответствующие уравнения регрессии.

Пример

Найти выборочное уравнение линейной регрессии Х на Y на основании корреляционной

таблицы.

jyix 15 20 25 30 35 40

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 71: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

71

100 2 1 - 7 - -

120 4 - 2 - - 3

140 - 5 - 10 5 2

160 - - 3 1 2 3

Решение

Для упрощения расчѐтов введѐм условные варианты 5

30ii

xu ,

20

120j

j

yv .

Составим преобразованную корреляционную таблицу с условными вариантами, в

которую внесѐм значения iun и

jvn .

jviu

-3 -2 -1 0 1 2 jvn

-1 2 1 - 7 - - 10

0 4 - 2 - - 3 9

1 - 5 - 10 5 2 22

2 - - 3 1 2 3 9

iun 6 6 5 18 7 8 n=50

Составим новую таблицу, в которую внесѐм подсчитанные значения nij∙Ui в правый

верхний угол заполненной клетки и nij∙Vj в левый нижний угол.

Суммируем верхние значения по строкам для получения значений Vj и нижние значения

по столбцам для Ui и подсчитаем величины uiUi и vjVj.

Затем подсчитаем суммы i

k

i

iUu1

1

и j

k

j

jVv2

1

. Параллельный подсчѐт этих сумм

осуществляется для контроля правильных расчѐтов. В данном случае i

k

i

iUu1

1

= j

k

j

jVv2

1

=17.

Находим вu и вv (по таблице 2)

3 6 2 6 1 5 0 18 1 7 2 80,24.

50вu

1 10 0 9 1 22 2 90,6.

50вv

Находим 2

вu и

2

вv

2 9 6 4 6 1 5 0 18 1 17 4 82,44.

50вu

2 1 10 1 9 1 22 4 91,36.

50вv

Определяем

2 2 2( ) 2,44 ( 0,24) 1,54.u в вu u

2 2 2( ) 1,36 (0,6) 1.v в вv v

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 72: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

72

Итого, получим:

jv

iu

-3 -2 -1 0 1 2 Vj vj Vj

-1

-6 -2 0

-8 8 2 1 7

-2 -1 -7

0

-12

-2 6 -8 0

4 2 3

0 0 0

1

-10 0 5 4

-1 -1

5 10 5 2

5 10 5 2

2

-3 0 2 6

5 10 3 1 2 3

6 2 4 6

Ui -2 4 6 5 9 8 -

Σ=17

ui Ui 6 -8 -6 0 9 16 Σ=17 -

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 73: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

73

Вычисляем выборочный коэффициент корреляции

.314,0154,150

6,0)24,0(5017Br

Осуществим переход к исходным вариантам

1 1 5 ( 0,24) 30 28,8;в вх h u С

2 2 20 0,6 120 132;ввy h v С

1 5 1,54 7,7;хв uh

2 20 1 20.yв vh

Находим уравнение регрессии Х на Y. )132(314,020

7,78,28 yx y или

.8,1212,0 yx y

Пример Найти уравнение регрессии Х на Y по данным:

jyix 10 15 20 25 30 35

15 6 4 - - - -

25 - 6 8 - - -

35 - - - 21 2 5

45 - - - 4 12 6

55 - - - - 1 5

Решение. Для упрощения расчѐтов введѐм условные варианты 5

20ii

xu ,

35

10

j

j

yv .

jviu -2 -1 0 1 2 3

jvn

-2 6 4 - - - - 10

-1 - 6 8 - - - 14

0 - - - 21 2 5 28

1 - - - 4 12 6 22

2 - - - - 1 5 6

iun 6 10 8 25 15 16 n=80

2 6 1 10 0 8 1 25 2 15 3 161,01.

80вu

2 10 1 14 0 28 1 22 2 60.

80вv

2 4 6 1 10 1 25 4 15 9 169,29.

80вu

2 4 10 1 14 1 22 4 61,25.

80вv

.51,1)01,1(29,3 2

u

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 74: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

74

.12,1025,1 2

v

.87,012,151,180

001,180118Br

5 1,01 20 25,05вх

5 0 35 35.в

y

5 1,51 7,55.хв

5 1,12 5,6.yв

).35(87,06,5

55,705,25 yx y

.05,4117,105,25 yx y

.1617,1 yx y

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 75: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

75

ui

vi -2 -1 0 1 2 3 Vj vj Vj

-2

-12 -4

-16 32 6 4

-12 -8

-1

-6 0

-6 6 6 8

-6 -8

0 21 4 15

40 0 21 2 5 0 0 0

1

4 24 18

46 46 4 12 6

4 12 6

2

15

17 34 5

10

Ui -12 -14 -8 4 14 16 - Σ=118

ui Ui 24 14 0 4 28 48 Σ=118 -

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 76: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

76

Задачи для самостоятельного решения

1. Найти уравнение регрессии Х на Y по данным:

хi

yi 10 15 20 25 30 35 40

100 2 4 - 8 4 - 10

110 3 - 5 - 2 10 -

120 - 3 - 4 5 6 -

130 2 - 4 6 - - 5

140 - 4 7 - - 1 5

Ответ: .350655,0 yx y

2. Найти уравнение регрессии Y на Х по данным:

хi

yi 5 10 15 20 25 30

14 4 6 - 8 - 4

24 - 8 10 - 6 -

34 - - 32 - - -

44 - - 4 12 6 -

Ответ: .9,2239,0 xy x

3. Найти выборочное уравнение линейной регрессии Y на Х на основании

корреляционной таблицы.

2

Х

Y 20 25 30 35 40 45

10 4 8 4

20 2 4 2

30 10 8

40 4 10 4

Вариа

нт Корреляционная таблица

11111

Х

Y 10 15 20 25 30 35

15 6 4

25 6 8

35 21 2 5

45 4 12 6

55 1 5

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 77: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

77

3

Х

Y 5 10 15 20 25 30

14 4 6 8 4

24 8 10 6

34 32

44 4 12 6

4

Х

Y 15 20 25 30 35 40

100 2 1 7

120 4 2 3

140 5 10 5 2

160 3 1 2 3

5

Х

Y 20 25 30 35 40 45

105 4 2 1

115 2 1 3 8 5

125 4 2 1 3

135 3 2 10 3 2

145 1 3 8 2

6

Х

Y 10 15 20 25 30 35

15 6 4

25 6 8

35 20 2 5

45 5 12 6

55 1 5

7

X

Y 5 10 15 20 25 30 35

30 6 4 2 5

40 4 5 7 1

50 4 3 5 6

60 5 3 10 2

70 4 10 4 2 8

8

Х

Y 12 17 22 27 32 37

105 4 3

115 2 3 1 10

125 3 5 1 4

135 8 2 1

145 1 2

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 78: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

78

9

Х

Y 10 15 20 25 30 35

14 4 2 1

24 2 1 3 8 5

34 4 2 1 3

44 3 2 10 3 2

54 1 3 9 1

10

Х

Y 10 15 20 25 30 35

20 1 5 7 4

40 2 4 6 5

60 3 5 4 6

80 10 2 3 5

100 2 4 4 8 10

11

Х

Y 5 10 15 20 25 30

15 6 4 2 2

25 4 2 8 1 5

35 10 7 1

45 5 3 8 6 7

55 9 5 4 1

12

X

Y 5 10 15 20 25 30 35

5 10 3 5 1 4

15 4 10 2 8

25 3 4 6 6

35 4 7 1 5

45 2 5 10

13

Х

Y 10 15 20 25 30 35 40

10 2 4 6 5

20 4 7 1 5

30 3 4 5 6

40 3 5 2 10

50 4 2 4 10 8

14

Х

Y 5 10 15 20 25 30 35

30 6 4 2 5

40 4 5 7 1

50 4 3 5 6

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 79: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

79

60 5 3 10 2

70 4 10 4 2 8

15

Х

Y 10 15 20 25 30 35 40

30 4 7 1 5

50 2 4 6 5

70 3 4 5 6

90 10 2 5 3

110 2 4 8 4 10

16

Х

Y 10 15 20 25 30 35 40

100 2 4 8 4 10

110 3 5 2 10

120 3 4 5 6

130 2 4 6 5

140 4 7 1 5

17

Х

Y 5 10 15 20 25 30 35

15 10 4 8 4 2

25 10 2 5 3

35 6 5 4 3

45 5 6 4 2

55 5 1 7 4

18

Х

Y 10 15 20 25 30 35

10 2 4 8 4 10

30 4 7 5 1

50 3 2 5 10

70 2 4 6 5

90 3 5 6 4

19

Х

Y 10 12 14 16 18 20 22

20 2 6 5 4

40 4 5 1 7

60 4 2 8 10 4

80 3 10 2 5

100 3 4 6 5

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 80: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

80

20

Х

Y 5 10 15 20 25 30

80 5 1 4 7

100 2 6 5 4

120 3 4 5 6

140 10 2 3 5

160 10 4 8 2 4

21

Х

Y 10 15 20 25 30 35 40

10 1 5 7 4

20 2 4 6 5

30 3 5 4 6

40 10 2 3 5

50 2 4 4 8 10

22

Х

Y 30 40 50 60 70 80 90

20 6 4 2 5

30 4 5 7 1 6

40 4 3 5 10

50 5 3 4 2 8

60 4 10 2

23

Х

Y 24 28 32 36 40 44 48

10 6 4 2 5

20 4 5 7 1

30 4 3 5 6

40 5 3 10 2

50 4 10 4 2 8

24

X

Y 5 10 15 20 25 30 35

5 10 3 5 1 4

15 4 10 2 8

25 3 4 6 6

35 4 7 1 5

45 2 5 10

25

Х

Y 10 15 20 25 30 35 40

15 2 4 6 5

30 4 7 1 5

45 3 4 5 6

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 81: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

81

60 3 5 2 10

75 4 2 4 10 8

26

Х

Y 20 22 24 26 28 30 32

30 6 4 2 5

40 4 5 7 1

50 4 3 5 6

60 5 3 10 2

70 4 10 4 2 8

27

Х

Y 5 10 15 20 25 30

100 6 4 2 2

110 4 2 8 1 5

120 10 7 1

130 5 3 8 6 7

140 9 5 4 1

28

Х

Y 20 25 30 35 40 45

30 6 4 2

40 4 1 5 7

50 3 4 5 6

60 5 3 10 2

70 2 3 3 5

29

Х

Y 10 15 20 25 30 35

36 4 3

46 2 3 1 10

56 3 5 1 4

66 8 2 1

76 1 2

30

Х

Y 42 46 50 54 58 62

15 4 2 1

25 2 1 3 8 5

35 4 2 1 3

45 3 2 10 3 2

55 1 2 9 1

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 82: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

82

5 Параметрический кореляционный анализ

Одна из наиболее распространенных задач статистического исследования состоит в

изучении связи между выборками (наборами числовых данных каких-либо величин).

Обычно связь между выборками носит не функциональный, а вероятностный (или

стохастический) характер. В этом случае нет строгой, однозначной зависимости между

величинами. При изучении стохастических зависимостей различают корреляцию и

регрессию.

Определение Корреляционный анализ - метод, позволяющий обнаружить

зависимость между несколькими случайными величинами, состоит в определении степени

связи между двумя случайными величинами X и Y.

В качестве меры такой связи используется коэффициент корреляции. Коэффициент

корреляции оценивается по выборке объема n связанных пар наблюдений (xi, yi) из

совместной генеральной совокупности X и Y. Существует несколько типов

коэффициентов корреляции, применение которых зависит от измерения (способа

шкалирования) величин X и Y.

Для оценки степени взаимосвязи величин X и Y, измеренных в количественных

шкалах, используется коэффициент линейной корреляции (коэффициент Пирсона),

предполагающий, что выборки X и Y распределены по нормальному закону.

Линейный коэффициент корреляции – параметр, который характеризует степень

линейной взаимосвязи между двумя выборками, рассчитывается по формуле:

где хi – значения, принимаемые в выборке X, yi – значения, принимаемые в выборке Y;

– средняя по X, – средняя по Y.

Коэффициент корреляции изменяется от –1 до 1. Когда при расчете получается

величина большая +1 или меньшая –1 – следовательно, произошла ошибка в вычислениях.

При значении 0 линейной зависимости между двумя выборками нет.

Степень, сила или теснота корреляционной связи определяется по величине

коэффициента корреляции. Сила связи не зависит от ее направленности и определяется по

абсолютному значению коэффициента корреляции

Знак коэффициента корреляции очень важен для интерпретации полученной связи.

Если знак коэффициента линейной корреляции «+», то связь между коррелирующими

признаками такова, что большей величине одного признака (переменной) соответствует

большая величина другого признака (другой переменной). Иными словами, если один

показатель (переменная) увеличивается, то соответственно увеличивается и другой

показатель (переменная). Такая зависимость носит название прямо пропорциональной

зависимости.

Коэффициент корреляции rxy Теснота связи

+( 0,91…1,00) Очень сильная

Е +( 0,81… 0,90) Весьма сильная

+ (0,65… 0,80) Сильная

+ (0,45… 0,64) Умеренная

+ (0,25… 0,44) Слабая

До + 0,25 Очень слабая

«+» – прямая зависимость,

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 83: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

83

При наличии знака минус, увеличению одной переменной (признака, значения)

соответствует уменьшение другой переменной. Такая зависимость носит название

обратно пропорциональной зависимости.

Задача корреляционного анализа сводится к установлению направления

(положительное или отрицательное) и формы (линейная, нелинейная) связи между

варьирующими признаками, измерению ее тесноты, и, наконец, к проверке уровня

значимости полученных коэффициентов корреляции.

t-статистика Стьюдента

Для того чтобы оценить наличие связи между двумя переменными, также можно

использовать t-статистику Стьюдента, которая оценивает отношение величины

линейного коэффициента корреляции к среднему квадратическому отклонению и

рассчитывается по формуле

Полученную величину tрасч сравнивают с табличным значением tтабл критерия

Стьюдента с n – 2 степенями свободы. Если tрасч > tтабл, то практически невероятно, что

найденное значение обусловлено только случайными совпадениями величин X и Y в

выборке из генеральной совокупности, т.е. существует зависимость между X и Y. И

наоборот, если tрасч < tтабл, то величины X и Y независимы.

5.1 Исследование связей между двумя переменными в Excel

Условие задачи: По 10 интернет-магазинам были определены затраты на

рекламную раскрутку сайтов и количество покупателей, воспользовавшихся после ее

проведения услугами каждого магазина. Определить коэффициент корреляции между

исследуемыми признаками.

Решение

Открываем новую книгу MS Excel и создаем таблицу .Рассчитываем в ячейке С12

коэффициент корреляции, используя функцию КОРРЕЛ из категории

Статистические.

Синтаксис функции: КОРРЕЛ (<массив 1>;<массив 2>),

где <массив 1> – ссылка на диапазон ячеек первой выборки (X); <массив 2> –

ссылка на диапазон ячеек второй выборки (Y).

В нашей задаче формула будет иметь вид: =КОРРЕЛ(B2:B11;C2:C11) – см. рис. 3.

«–» – обратная зависимость

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 84: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

84

Сделаем вывод о тесноте связи между затратами на рекламную раскрутку сайтов и

количество покупателей.

После ввода формулы получаем в ячейке C13 значение коэффициента корреляции

равное 0,93. Делаем вывод, что связь между переменными очень сильная, т.е. имеет место

линейная зависимость (прямая пропорциональность).

Оценим значимость коэффициента корреляции. С этой целью рассмотрим две

гипотезы. Основную Н0: rxy=0 и альтернативную Н 1: r xy≠0.

Для проверки гипотезы Н0 рассчитаем в ячейке С14 t-статистику Стьюдента.

В нашем случае число степеней свободы ν = n – 2 = 10 – 2 = 8 и формула будет

следующей:

=C13*КОРЕНЬ(10-2)/КОРЕНЬ(1-(C13*C13)). После ввода формулы получаем в

ячейке C13 t-статистику Стьюдента (tрасч) равную 7,12

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 85: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

85

Уравнение линейной регрессии имеет вид:

Y = a1X1 + a2X2 + …+ akXk,

где а1, а2, …, аk – параметры, подлежащие определению методом наименьших квадратов

(МНК). Обычно находят первые два параметра, которые принято обозначать a и b. В этом

случае уравнение линейной регрессии имеет вид Y = a X + b.

Коэффициенты a и b вычисляются следующим образом:

где i – номер измерения, xi и yi – значения переменных при i-том измерении, n – число

измерений при моделировании системы.

В среде MS Excel для нахождения модели регрессии (т.е., фактически

коэффициентов a и b) можно использовать несколько способов:

использовать встроенную функцию ЛИНЕЙН;

графический способ – построение линии тренда на диаграмме с показом

уравнения регрессии;

инструмент Регрессия из Пакета анализа;

использовать встроенную функцию СУММКВРАЗН и инструмент Поиск

решения;

использовать встроенные функции НАКЛОН (вычисляет коэффициент a) и

ОТРЕЗОК (вычисляет коэффициент b).

5.2 Построение регрессионной модели средствами Excel

Рассмотрим на примере первые три из перечисленных способов нахождения

модели регрессии.

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 86: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

86

1-й способ. Функция ЛИНЕЙН.

В первом способе для получения коэффициентов а и b линейного уравнения

регрессии

Y = a X + b, описывающего зависимость количества привлеченных покупателей от

затрат на рекламную раскрутку сайтов, воспользуемся статистической функцией

ЛИНЕЙН. Для этого выделите две ячейки D16:E16 и выполните вставку функции

ЛИНЕЙН с аргументами .

Здесь «Известные_значения_y» – диапазон значений «Количество покупателей»,

«Известные_значения_x» – диапазон значений «Затраты на продвижение». Нажмите

комбинацию клавиш SHIFT+CTRL+ENTER.

Получаем следующие значения коэффициентов регрессии – a = 0,01 (ячейка D16),

b = 59,32 (ячейка E16). В ячейку D17 введем уравнение Y = 0,01 X + 59,31, чтобы

продемонстрировать уравнение регрессии:

2-й способ (графический). Построение линии тренда

Для получения уравнения регрессии построим корреляционное поле переменных X

(затраты на продвижение) и Y (количество покупателей). Выделим диапазон ячеек

В2:С11, запустим мастер диаграмм и выберем тип диаграммы

– Точечная

Задаем для диаграммы имя – «Корреляционное поле», название оси Х – «Затраты

на продвижение, руб.», оси Y – «Количество покупателей»

Добавим линию тренда на точечный график. Для этого необходимо выделить

диаграмму и выполнить команду меню «Диаграмма/Добавить линию тренда» (в Excel

2007 на вкладке «Макет» выберите команду «Анализ» и далее «Линия тренда» и

«Линейное приближение»), либо выполнить данную команду из контекстного меню

«Добавить линию тренда…», щелкнув по любой точке графика правой кнопкой мыши.

Линия тренда – графическое представление направления изменения ряда данных.

Выбираем тип тренда «Линейный», который используется для аппроксимации

данных

по методу наименьших квадратов в соответствии с уравнением: Y = a X + b, где a –

угол наклона (в радианах) и b – координата пересечения оси абсцисс (оси Y).

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 87: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

87

На вкладке

Параметры

устанавливаем флажки

«Показать уравнение на

диаграмме» и «Поместить

на диаграмму величину

достоверности

аппроксимации R2».

Щелкаем по кнопке ОК.

Далее можно

отформатировать эти уравнения, выделив их и в контекстном меню выбрав «Формат

подписи линии тренда». R2 – это число от 0 до 1, которое отражает близость линии тренда

к фактическим данным. Линия тренда наиболее соответствует действительности, когда

значение близко к 1.

Сравниваем уравнение регрессии, полученное графическим методом, с

уравнением, рассчитанным с помощью функции ЛИНЕЙН. Как видим, эти

уравнения одинаковые.

3-й способ. Инструмент анализа Регрессия.

Прежде чем начнем использовать этот инструмент, нужно убедиться, что был

активизирован Пакет анализа (меню «Сервис» есть команда «Анализ данных»). Если нет,

то выполните команду «Сервис/Надстройки».

В диалоговом окне «Надстройки» установите флажок «Пакет анализа» и щелкните

по кнопке ОК . Далее выполните команду «Сервис/Анализ данных». Выберите

инструмент анализа

«Регрессия» из списка

«Инструменты анализа».

Щелкните по кнопке ОК. На

экране появится диалоговое

окно «Регрессия»:

в текстовом поле

«Входной интервал Y» введите

диапазон со значениями

зависимой переменной

$C$2:$C$211.

в текстовом поле «Входной

интервал Х» введите диапазон

со значениями независимых

переменных $В$2:$В$11.

Убедитесь, что в поле Уровень надежности введено 95% и переключатель

«Параметры вывода» установлен в положении «Новый рабочий лист».

Щелкните по кнопке ОК.

В результате на новом листе будет отображены результаты использования

инструмента «Регрессия»

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 88: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

88

Среди полученных результатов после применения инструмента Регрессия есть

столбец «Коэффициенты», содержащий значение b в строке «Y-пересечение», а – в

строке «Переменная Х1».

Сравним полученные результаты с ранее рассчитанными коэффициентами a и b –

результаты полностью совпадают.

Следует обратить также внимание на следующие показатели:

а) Столбец «df» – число степеней свободы (используется при проверке

адекватности модели по статистическим таблицам):

в строке «Регрессия» находится k1 – количество коэффициентов уравнения,

не считая свободного члена b;

в строке «Остаток» находится k2 = n – k1 – 1, где n – количество исходных

данных.

б) Столбец «SS» (сумма квадратов):

в строке Регрессия: , где – модельные значения Y,

полученные путем подстановки значений Х в построенную модель; – среднее значение

Y;

в строке Остаток: .

в) Столбец «MS» – вспомогательные величины:

в строке Регрессия: ;

в строке Остаток: .

г) Столбец «F» – критерий Фишера. Используется для проверки адекватности

модели:

.

д) Столбец «Значимость F» – оценка адекватности построенной модели.

Находится по значениям F, и с помощью функции FРАСП. Если значимость F меньше

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 89: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

89

0,05, то модель может считаться адекватной с вероятностью 0,95.

е) «Стандартная ошибка», «t-статистика» – это вспомогательные величины,

используемые для проверки значимости коэффициентов модели.

ж) «Р-Значение» – оценка значимости коэффициентов модели. Если «Р-Значение»

меньше 0,05, то с вероятностью 0,95 можно считать, что соответствующий коэффициент

модели значим (т.е. его нельзя считать равным нулю и Y значимо зависит от

соответствующего Х).

и) Нижние и верхние 95% – доверительные интервалы для коэффициентов модели.

5.3 Прогнозирование данных

Кроме нахождения уравнения регрессии, часто необходимо на основании этого

уравнения предсказать теоретические значения Y при известных значениях X.

Это можно сделать тремя способами.

Способ 1. Создать в Excel обычную формулу, основанную на уравнении регрессии

Y = a X + b, типа C13=$A$19*B13+$B$19, где C13 – адрес ячейки c прогнозным

значением функции Y, B13 – адрес ячейки со значением переменной X, для которого мы

хотим спрогнозировать значение Y, $A$19 – абсолютный адрес ячейки со значением

коэффициента a, $B$19 – абсолютный адрес ячейки со значением коэффициента b. В

нашем случае нужно округлить до целого с помощью функции

ОКРУГЛ($A$19*B13+$B$19;0). После чего скопируем формулу в ячейки С14 и С15.

Способ 2. Также можно вычислить теоретическое значение Y при X из ячейки B13 с

помощью функции ПРЕДСКАЗ. Ее синтаксис – ПРЕДСКАЗ(Xi;<массив Y>;<массив X>).

Аргумент Xi – это точка данных из массива X, для которой предсказывается

теоретическое значение Yi. Теоретическое значение в ячейке D13 вычислим по формуле =

ПРЕДСКАЗ(B13;$D$3:$D$12;$B$3:$B$12). После чего скопируем формулу в ячейки

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 90: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

90

D14 и D15.

Способ 3. Еще один способ прогнозирования – вычислить значения уравнения

линейной регрессии Y для целого диапазона значений независимой переменной X с

помощью функции ТЕНДЕНЦИЯ. Ее синтаксис – ТЕНДЕНЦИЯ(<массив Y>;<массив

X>;<новые значения X>;[<константа>]). Аргумент <новые значения X > – это массив

значений X, для которых функция ТЕНДЕНЦИЯ возвращает соответствующие значения

Y. Новые значения зависимой переменной вычислим в ячейках E13:B15 по формуле

=ТЕНДЕНЦИЯ(E3:E12;B3:B12;B13:B15). Важно оформить эту функцию в ячейках

E13:E15 как массив, для чего после ввода формулы в ячейку B12 нажать клавишу ENTER,

выделить ячейки E13:E15, нажать клавишу F2, после этого нажать комбинацию клавиш

SHIFT+CTRL+ENTER.

Сравним полученные результаты для всех трех способов. Видим, что все три

способа дают одинаковые результаты, что не удивительно, так как во всех случаях

используются линейная регрессия.

5.4 Линейная и нелинейная парная регрессия

Исследуем уравнения линейной регрессии вида

0 1( ) .yx b bx

Пространственная выборка для построения этого уравнения взята из следующего

примера.

Пример Для определения зависимости между сменной добычей угля на

одного рабочего (переменная Y, измеряемая в тоннах) и мощностью угольного пласта

(переменная X, измеряемая в метрах) на 10 шахтах были проведены исследования,

результаты которых представлены таблицей.

1 2 3 4 5 6 7 8 9 10

xi 8 11 12 9 8 8 9 9 8 12

yi 5 10 10 7 5 6 6 5 6 8

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 91: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

91

1. Вычислените коэффициенты уравнения линейной регрессии по пространственной

выборке

2. Вычисление выборочного коэффициента корреляции по пространственной выборке

3. Вычисление оценок дисперсий коэффициентов парной линейной регрессии

1. Решение

1. Коэффициенты, определим на основе метода наименьших квадратов, являются

решением системы уравнений

0 1

2

0 1

;

,

b bx y

bx bx xy

где

2 2

1 1 1 1

1 1 1 1; ; ; .

n n n n

i i ii i

i i i i

xxyyxyxyx xn n n n

Решая эту систему уравнений, получаем

1 22 2;

()

XY

X

xyxy mb

sx x 0 1b = y b x ,

где mXY – выборочное значение корреляционного момента, определенного по формуле:

XYm = xy x y ,2Xs – выборочное значение дисперсии величины X, определяемой по

формуле 2 2 2( ) .Xs x x

Вычислим эти коэффициенты 0 1,b b , используя табличный процессор Excel. На рис.

1.1 показан фрагмент документа Excel, в котором: а) размещены данные таблицы 1; б)

запрограммировано вычисление коэффициентов ,x y , 2 ,x xy системы (1.2); в)

запрограммировано вычисление b0, b1 по формулам (1.4), (1.5) соответственно. Заметим,

что для вычисления средних значений используется функция Excel СРЗНАЧ(диапазон

ячеек).

В результате выполнения запрограммированных вычислений получаем b0 = –2.75; b1 =

1.016, а само уравнение регрессии примет вид

() 2.751.016yx x.

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 92: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

92

Задание. Используя полученное уравнение регрессии, определите производительность

труда шахтера, если толщина угольного слоя равна:

а) 8.5 метров (интерполяция данных);

б) 14 метров (экстраполяция данных).

2

Выборочный коэффициент корреляции определяется соотношением

,XY

X Y

xy xyr

s s

где 2 2( )Xs x x , 2 2( )Ys y y , 2 2

1

1 n

i

i

y yn

.

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 93: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

93

3. Вычислить оценки sb

0

2 , sb1

2

для дисперсий коэффициентов b0, b1. Оценки для

дисперсий коэффициентов 0 1,b b определяются формулами:

22

0 2

1

2

( )b n

ii=

xs = s

x x ,

2

1 2

1

12

( )b n

ii=

s = s

x x

где

2 2

2 1 1

( )

2 2

n n

i i i

i i

y y e

sn n

- оценка дисперсии 2.

Получаем следующие значения: 0

2 21.049, 3.904,bs s 1

2 0.043bs .

5.5 Статистические функции, полезные при построении парной

линейной регрессии

Функции Excel. Приведем некоторые статистические функции Excel, полезные при

построении парной линейной регрессии.

Функция ОТРЕЗОК. Вычисляет коэффициент 0b и обращение имеет вид

ОТРЕЗОК(диапазон_значений_ y ; диапазон_значений_ x ).

Функция НАКЛОН. Вычисляет коэффициент 1b и обращение имеет вид

НАКЛОН(диапазон_значений_ y ; диапазон_значений_ x ).

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 94: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

94

Функция ПРЕДСКАЗ. Вычисляет значение линейной парной регрессии при

заданном значении независимой переменной (обозначена через z ) и обращение имеет

вид

ПРЕДСКАЗ( z ;диапазон_значений_ y ;диапазон_значений_ x ).

Функция СТОШYX. Вычисляет оценку s для среднеквадратического отклонения

возмущений i и обращение имеет вид (YX – латинские буквы):

СТОШYX(диапазон_значений_ y ; диапазон_значений_ x ).

Решение. Фрагмент документа Excel, вычисляющего требуемые величины приведен

на рис.

5.6 Построение интервальной оценки для функции парной линейной регрессии

Построение интервальной оценки для функции регрессии ( ) ( | )f x MYx с

надежностью = 0.95, используя для этого уравнение регрессии ˆ( )y x .

Интервальная оценка (доверительный интервал) для ( ) ( | )f x MYx (при заданном

значении x ) с надежностью (доверительной вероятностью) равной определяется

выражением

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 95: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

95

ˆ ˆˆ ˆ()(,2)(),()(,2)()y yyxtnsxyxtnsx.

Оценка 2

ˆ ( )ys x для дисперсии функции ˆ( )y x имеет вид

22 2

ˆ

2

1

1 ( )()

( )y n

i

i

x xs x s

nx x

,

где

2 2

2 1 1

( )

2 2

n n

i i i

i i

y y e

sn n

- оценка дисперсии 2.

Таким образом, две величины 2

ˆ ˆ( ) ( )y ys x s x (зависит от x ) и ( , 2)t n , вычисляемая с

помощью функции Excel:

( , 2)t n =СТЬЮДРАСПОБР(1 ; 2n ).

Значения нижней H

iy и верхней B

iy границ интервала будем вычислять для

, 1,...,10ix x i . Фрагмент документа, осуществляющий эти вычисления, приведен на рис.

Величина (0.95,10 2)t = СТЬЮДРАСПОБР( 0.05;10 2) = 2.31.

5.7 Проверка значимости уравнения линейной регрессии по

критерию Фишера

Уравнение парной регрессии значимо с уровнем значимости , если выполняется

следующее неравенство:

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 96: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

96

1;1; 2

( 2),r

n

e

QnF F

Q

где F ; 1; n-2 – значения квантиля уровня F-распределения с числами степеней свободы k1

= 1 и k2 = n – 2. Для вычисления квантиля можно использовать следующее выражение

1 ;1; 2nF = FРАСПОБР( ;1; 2n ).

Суммы ,r eQ Q , определяются выражениями:

,r eQ Q Q 2

1

( )n

i

i

Q y y , 2

1

ˆ( )n

e i i

i

Q y y .

Получены следующие значения 25.207rQ , 8.393eQ , 24.025F . Вычисляем

квантиль F0.95; 1; 8 = 5.32. Неравенство выполняется. 24.04 > 5.32 и поэтому уравнение

регрессии () 2.751.016yx x значимо с уровнем значимости = 0.05.

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 97: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

97

5.8 Нелинейная парная регрессия

Пример Приведены значения независимой переменной X (доход американской

семьи в тысяч долларов) и значения зависимой переменной Y (доля расходов на товары длительного пользования в процентах от общей суммы расходов).

ix 1 2 3 4 5 6

iy 10 13.

4

15.

4

16.

5

18.

6

19.

1

Построить уравнение нелинейной регрессии вида 1

0ˆ by b x с использованием

команды «Добавить линию тренда» и вычислить коэффициент детерминации 2R .

Команда «Добавить линию тренда». Используется для выделения тренда

(медленных изменений) при анализе временных рядов. Однако эту команду можно

использовать и для построения уравнения нелинейной регрессии, рассматривая в качестве

времени t независимую переменную x .

Эта команда позволяет построить следующие уравнения регрессии:

линейную 0 1y b bx

полиноминальную 0 1ˆ kkyb bx bx ( 6k );

логарифмическую 0 1ˆ lny b b x

степенную 1

0ˆ by b x ;

экспоненциальную 10ˆ b x

y b e .

Для построения одной из перечисленных регрессий необходимо выполнить

следующие шаги:

Шаг 1. В выбранном листе Excel ввести по столбцам исходные данные 1,i ix , y ,i = n

Шаг 2. По этим данным построить график в декартовый системе координат .

Шаг 3. Установить курсор на построенном графике, сделать щелчок правой кнопкой

и в появившемся контекстном меню выполнить команду Добавить линию тренда .

Шаг 4. В появившемся диалоговом окне активизировать закладку «Тип» и выбрать

нужное уравнение регрессии.

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 98: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

98

Шаг 5. Активизировать закладку «Параметры» и «включить» необходимые для нас

опции:

«Показать уравнение на диаграмме» - на диаграмме будет показано выбранное

уравнение регрессии с вычисленным коэффициентами;

«Поместить на диаграмму величину достоверности аппроксимации (R^2)» - на

диаграмме будет показана значение коэффициент детерминации 2R (для нелинейной

регрессии -индекс детерминации), вычисляемый по формуле 2 1 eQ

RQ

. Если по

построенному уравнению регрессии необходимо выполнить прогноз, то нужно указать

число периодов прогноза.

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 99: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

99

Назначение других опций понятны из своих названий.

Шаг 6. После задания всех перечисленных опций щелкнуть на кнопке «OK» и на

диаграмме появиться формула построенного уравнения регрессии и значение индекса

детерминации 2R (выделено на рис. 2.4 затемнением).

Получаем уравнение

0.3626() 10.18yx x ,

для которого коэффициент детерминации равен 2 0.9921R . Такая величина говорит о

хорошем соответствии построенного уравнения исходным данным.

Пример Используя пространственную выборку таблицы 2.1 и команду «Добавить

линию тренда» построить шесть уравнений нелинейной регрессии (полиномиальное уравнение строится при 2m и 3m ), определить для каждого уравнения коэффициент детерминации

2R (значение выводится), приведенный коэффициент детерминации 2R (значение вычисляется) и по максимальному значению 2R найти наилучшее уравнение

нелинейной регрессии. Приведенный коэффициент детерминации. Коэффициент детерминации

2R характеризует близость построенной регрессии к исходным данным, которые содержат «нежелательную» случайную составляющую ε . Очевидно, что, построив по данным таб. 2.1 полином 5-ого порядка, получаем «идеальное» значение R

2= 1 , по такое уравнение

содержит в себе не только независимую переменную X , но составляющую ε и это снижает точность использования построенного уравнения для прогноза. Поэтому при выборе уравнения регрессии надо учитывать не только величину

2R , но и «сложность» регрессионного уравнения, определяемое количеством коэффициентов уравнения. Такой учет удачно реализован в так называемом приведенном коэффициенте детерминации:

2 2(1) 1ˆ1 1 (1)

( )

enQnR R

nmQnm ,

Линия

регресси

и

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 100: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

100

где m - количество вычисляемых коэффициентов регрессии. Видно, что при неизменных Qe ,Q увеличение m уменьшает значение

2R . Если количество коэффициентов у сравниваемых уравнений регрессии одинаково (например, 2m ), то отбор наилучшей регрессии можно осуществлять по величине

2R . Если в уравнениях регрессии меняется число коэффициентов, то такой отбор целесообразно по величине

2R . Решение. Для построения каждого уравнения выполняем шаги 2 – 6 (для первого

уравнения еще и шаг 1) и размещаем в одном документе шесть окон, в которых выводятся найденные уравнения регрессии уравнения и величина

2R . Затем формулу уравнения и 2R заносим в таблицу 2.2. Далее по формуле (2.1) вычисляем приведенный коэффициент

детерминации 2R и заносим эти значения также в таблицу .

Таблица 2.2

№ Уравнение 2R 2R

1 ˆ 9.28 1.777y x 0.949 0.938

2 ˆ9.87595.1289lny x 0.9916 0.9895

3

2ˆ6.933.53960.2518y x x

(полиноминальная, m= 2 )

0.9896

0.9827

4

2

3

ˆ5.83334.91920.7087

0.0435

y x x

x

(полиноминальная, m= 3 )

0.9917

0.9792

5 0.3626ˆ 10.18y x 0.9921 0.9901

6 0.1225ˆ 9.8675 xy e 0.9029 0,8786

В качестве «наилучшего» уравнения регрессии выбираем уравнение, имеющее

наибольшую величину приведенный коэффициент детерминации 2R . Из таблицы видно,

что таким уравнением является степенная функции (в таблице строка с этой функцией

выделена серым цветом)

0.3626ˆ 10.18y x ,имеющая величину

2R = 0.9901.

Задание. Определить по величине 2R «наихудшее» уравнение регрессии.

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 101: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

101

Глоссарий

Дисперсионный анализ - статистический метод анализа результатов испытаний, цель

которого оценить влияние одного или нескольких качественных факторов на

рассматриваемую величину X.

Доверительный интервал - интервал, в который попадает неизвестный параметр с

заданной надежностью .

Интервальная оценка – по данным выборки оценивается интервал, в котором лежит

истинное значение с заданной вероятностью.

Корреляционный анализ - метод, позволяющий обнаружить зависимость между

несколькими случайными величинами, состоит в определении степени связи между

двумя случайными величинами X и Y.

Линейный коэффициент корреляции – параметр, который характеризует степень линейной

взаимосвязи между двумя выборками, рассчитывается по формуле:

где хi – значения, принимаемые в выборке X, yi – значения, принимаемые в выборке Y;

– средняя по X, – средняя по Y.

Многомерный регрессионный анализ – регрессионный анализ, применяется в случае, если

изменения результативного признака определяются действием совокупности других

признаков.

Надежность (доверительная вероятность) оценки * параметра - вероятность с

которой осуществляется неравенство * .

Несмещенная оценка - оценка параметра для которой математическое ожидание

равно оцениваемому параметру , при любом объеме выборки, т.е.

.

Смещенная оценка - оценка параметра для которой математическое ожидание

не равно оцениваемому параметру , при любом объеме выборки, т.е.

.

Состоятельная оценка - оценка при увеличении объема выборки стремится по

вероятности к оцениваемому параметру.

Статистической оценкой неизвестного параметра теоретического распределения

называют его приближенное значение, зависящее от данной выборки

1 2 1 2, , ,k kx x x n n n , т.е. некоторую функцию этих величин, где 1 2, kx x x -

значения признака, 1 2, kn n n - соответствующие частоты.

Точечная оценка – оценка, которая дается для некоторой определенной точки.

Точность оценки - величина

,

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 102: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

102

где оцениваемый параметр (им может быть и математическое ожидание и дисперсия и

т.д.), - его статистическая оценка.

Эффективная оценка - оценка с наименьшей возможной дисперсией.

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 103: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

103

Список основных формул

1. n

nw i

i относительная частота

2. n

nxF x* выборочная функция распределения

3. n

nx

x

m

i

ii

1 среднее арифметическое вариационного ряда

4. n

nxx

s

m

i

ii

1

2

2 дисперсия

5. 3

1

3

3

3

sn

nxx

s

mA

m

i

ii

коэффициент ассиметрии

6. 334

1

4

4

4

sn

nxx

s

mE

m

i

ii

эксцесс

7.

m

i

iii pcU1

22 критерий Пирсона

8.

r

i i

ii

pn

pnn

1

22 случайная величина

9. xy уравнение взаимосвязи двух переменных

10. 11

2

12

n

xxn

Dn

ns

k

i

Bii

B исправленная дисперсия

11. 1

2

12

n

xxn

ss

k

i

Bii

исправленное среднее квадратическое отклонение

12. Xn

xxx n

n

21lim асимптотически несмещенная оценка

13. ** ΘΘΘp доверительная вероятность

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 104: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

104

Приложение 1Таблица значений функции

x z

dzex

0

2

2

2

1

x x x x x x x x

0,00 0,0000 0,45 0,1736 0,90 0,3159 1,35 0,4115

0,01 0,0040 0,46 0,1772 0,91 0,3186 1,36 0,4131

0,02 0,0080 0,47 0,1808 0,92 0,3212 1,37 0,4147

0,03 0,0120 0.48 0,1844 0,93 0,3238 1,38 0,4162

0,04 0,0160 0,49 0,1879 0,94 0,3264 1,39 0,4177

0,05 0,0199 0,50 0,1915 0,95 0,3289 1,40 0,4192

0,06 0,0239 0,51 0,1950 0,96 0,3315 1,41 0,4207

0,07 0,0279 0,52 0,1985 0,97 0,3340 1,42 0,4222

0,08 0,0319 0,53 0,2019 0,98 0,3365 1,43 0,4236

0,09 0,0359 0,54 0,2054 0,99 0,3389 1,44 0.4251

0,10 0,0398 0,55 0,2088 1,00 0,3413 1,45 0,4265

0,11 0,0438 0,56 0,2123 1,01 0,3438 1,46 0,4279

0,12 0,0478 0,57 0,2157 1,02 0,3461 1,47 0,4292

0,13 0,0517 0,58 0,2190 1,03 0,3485 1,48 0,4306

0,14 0,0557 0,59 0,2224 1,04 0,3508 1,49 0,4319

0,15 0,0596 0,60 0,2257 1,05 0,3531 1,50 0,4332

0,16 0,0636 0,61 0,2291 1,06 0,3554 1,51 0,4345

0,17 0,0675 0,62 0,2324 1,07 0,3577 1,52 0,4357

0,18 0,0714 0,63 0,2357 1,08 0,3599 1,53 0,4370

0,19 0,0753 0,64 0,2389 1,09 0,3621 1,54 0,4382

0,20 0,0793 0,65 0,2422 1,10 0,3643 1,55 0,4394

0,21 0,0832 0,66 0,2454 1,11 0,3665 1,56 0,4406

0,22 0,0871 0,67 0,2486 1,12 0,3686 1,57 0,4418

0,23 0,0910 0,68 0,2517 1,13 0,3708 1,58 0,4429

0,24 0,0948 0,69 0,2549 1,14 0,3729 1,59 0,4441

0,25 0,0987 0,70 0,2580 1,15 0,3749 1,60 0,4452

0,26 0,1026 0,71 0,2611 1,16 0,3770 1,61 0,4463

0,27 0,1064 0,72 0,2642 1,17 0,3790 1,62 0,4474

0,28 0,1103 0,73 0,2673 1,18 0,3810 1,63 0,4484

0,29 0,1141 0,74 0,2703 1,19 0,3830 1,64 0,4495

0,30 0,1179 0,75 0,2734 1,20 0,3849 1,65 0,4505

0,31 0,1217 0,76 0,2764 1,21 0,3869 1,66 0,4515

0,32 0,1255 0,77 0,2794 1,22 0,3883 1,67 0.4525

0,33 0,1293 0,78 0,2823 1,23 0,3907 1,68 0,4535

0,34 0,1331 0,79 0,2852 1,24 0,3925 1,69 0,4545

0,35 0,1368 0,80 0,2881 1,25 0,3944 1,70 0,4554

0,36 0,1406 0,81 0,2910 1,26 0,3962 1,71 0,4564

0,37 0,1443 0,82 0,2939 1,27 0,3980 1,72 0,4573

0,38 0,1480 0,83 0,2967 1,28 0,3997 1,73 0,4582

0,39 0,1517 0,84 0,2995 1,29 0,4015 1,74 0,4591

0,40 0,1554 0,85 0,3023 1,30 0,4032 1,75 0,4599

0,41 0,1591 0,86 0,3051 1,31 0,4049 1,76 0.4608

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 105: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

105

0,42 0,1628 0,87 0,3078 1,32 0,4066 1,77 0,4616

0,43 0,1664 0,88 0,3106 1,33 0,4082 1,78 0.4625

0,44 0,1700 0,89 0,3133 1,34 0,4099 1,79 0,4633

Продолжение приложения 1

x x x x x x x x

1,80 0,4641 2,00 0,4772 2,40 0,4918 2,80 0,4974

1,81 0,4649 2,02 0,4783 2,42 0,4922 2,82 0,4976

1,82 0,4656 2,04 0,4793 2,44 0,4927 2,84 0,4977

1,83 0,4664 2,06 0,4803 2,46 0,4931 2,86 0,4979

1,84 0,4671 2,08 0,4812 2,48 0,4934 2,88 0,4980

1,85 0,4678 2,10 0,4821 2,50 0,4938 2,90 0,4981

1,86 0,4686 2,12 0,4830 2,52 0.4941 2,92 0,4982

1,87 0,4693 2,14 0,4838 2,54 0,4945 2,94 0,4984

1,88 0,4699 2,16 0,4846 2,56 0,4948 2,96 0.4985

1,89 0,4706 2,18 0,4854 2,58 0,4951 2,98 0,4986

1,90 0,4713 2,20 0,4861 2,60 0,4953 3,00 0,49865

1,91 0,4719 2,22 0,4868 2,62 0,4956 3,20 0,49931

1,92 0,4726 2,24 0,4875 2,64 0,4959 3,40 0,49966

1,93 0,4732 2,26 0,4881 2,66 0,4961 3,60 0,499841

1,94 0,4738 2,28 0,4887 2,68 0,4963 3,80 0,499928

1,95 0,4744 . 2.30 0,4893 2,70 0,4965 4,00 0,499968

1,96 0,4750- 2,32 0,4898 2,72 0,4967 4,50 0,499997

1,97 0,4756 2,34 0,4904 2,74 0,4969 5,00 0,499997

1,98 0,4761 2,36 0,4909 2,76 0,4971

1,99 0,4767 2,38 0,'4913 2,78 0,4973

Приложение 2 Таблица значений n,tt

0,95 0.99 0,999

0,95 0,99 0,999

n n

5 2,78 4,60 8,61 20 2,093 2,861 3,883

6 2,57 4,03 6,86 25 2,064 2,797 3,745

7 2,45 3,71 5,96 30 2,045 2,756 3,659

8 2,37 3,50 5,41 35 2,032 2,729 3,600

9 2,31 2,36 5,04 40 2,023 2,708 3,558

10 2,26 3,25 4,78 45 2,016 2,692 3,527

11 2,23 3,17 4,59 50 2,009 2,679 3,502

12 2,20 3,11 4,44 60 2,001 2,662 3,464

13 2,18 3,06 4,32 70 1,996 2,649 3,439

14 2,16 3,01 4,22 80 1,001 2,640 3,418

15 2,15 2,98 4,14 90 1,987 2,633 3,403

16 2,13 2,95 4,07 100 1,984 2,627 3,392

17 2,12 2,92 4,02 120 1,980 2,617 3,374

18 2,11 2,90 3,97 1,960 2,576 3,291

19 2,10 2,88 3,92

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 106: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

106

Приложение 3 Критические точки распределения 2

Число

степеней

свободы k

Уровни значимости a

0,01 0,025 0,05 0,95 0.975 0,99

1 6,6 5,0 3,8 0,0039 0,00098 0,00016

2 9,2 7,4 6,0 0,103 0,051 0,020

3 11,3 9,4 7,8 0,352 0.216 0,115

4 13,3 11,1 9,5 0,711 0,484 0,297

5 15,1 12,8 11,1 1,15 0,831 0,554

6 16,8 14,4 12,6 1,64 1,24 0,872

7 18,5 16,0 14,1 2,17 1,69 1,24

8 20,1 17,5 15,5 2,73 2,18 1,65

9 21,7 19,0 16,9 3,33 2,70 2,09

10 23,2 20,5 18,3 3,94 3,25 2,56

11 24,7 21,9 19,7 4,57 3,82 3,05

12 26,2 23,3 21,0 5,23 4,40 3,57

13 27,7 24,7 22,4 5,89 5,01 4,11

14 29,1 26,1 23,7 6,57 5,63 4,66

15 30,6 27,5 25,0 7,26 6,26 5,23

16 32,0 28,8 26,3 7,96 6,91 5,81

17 33,4 30,2 27,6 8,67 7,56 6,41

18 34,8 31,5 28,9 9,39 8,23 7,01

19 36,2 32,9 30,1 10,1 8,91 7,63

20 37,6 34,2 31,4 10,9 9,59 8,26

21 38,9 35,6 32,7 11,6 10,3 8,90

22 40,3 36,8 33,9 12,3 11,0 9,54

23 41,6 38,1 35,2 13,1 11,7 10,2

24 43,0 39,4 36,4 13,8 12,4 10,9

25 44,3 40,6 37,7 14,6 13,1 11,5

26 45,6 41,9 38,9 15,4 13,8 12,2

27 47,0 43,2 40,1 16,2 14,6 12,9

28 48,3 44,5 41,3 16,9 15,3 13,6

29 49,6 45,7 42,6 17,7 16,0 14,3

30 50,9 47,0 43,8 18,5 16,8 15,0

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 107: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

107

Приложение 4 Критические точки распределения Стьюдента

Число

степеней

свободы k

Уровень значимости a

(двусторонняя критическая область)

0,10 0,05 0,02 0.01 0,002 0.001

1 6,31 12,7 31,82 63,7 318,3 637,0

2 2,92 4,30 6.97 9,92 22,33 31,6

3 2,35 3,18 4,54 5,84 10,22 12,9

4 2,13 2,78 3,75 4,60 7,17 8,61

5 2,01 2.57 3,37 4,03 5,89 6,86

6 1,94 2,45 3,14 3,71 5,21 5.96

7 1,89 2,36 3,00 3,50 4,79 5,40

8 1,86 2,31 2,90 3,36 4,50 5,04

9 1,83 2,26 2,82 3,25 4,30 4,78

10 1,81 2,23 2,76 3,17 4,14 4,59

11 1,80 2,20 2,72 3.11 4,03 4,44

12 1,79 2,18 2,68 3,05 3,93 4,32

13 1,77 2,16 2,65 3,01 3,85 4,22

14 1,76 2,14 2,62 2,98 3,79 4,14

15 1,75 2,13 2.60 2,95 3,73 4,07

16 1,75 2,12 2,58 2,92 3,69 4,01

17 1,74 2,11 2,57 2,90 3,65 3.96

18 1,73 2,10 2,55 2,88 3.61 3,92

19 1,73 2,09 2,54 2,86 3,58 3,88

20 1,73 2,09 2,53 2,85 3,55 3,85

21 1,72 2,08 2,52 2,83 3,53 3,82

22 1,72 2,07 2,51 2,82 3,51 3,79

23 1,71 2,07 2,50 2,81 3,49 3,77

24 1,71 2,06 2,49 2,80 3,47 3,74

25 1,71 2,06 2,49 2,79 3,45 3,72

26 1,71 2,06 2,48 2,78 3,44 3,71

27 1,71 2,05 2,47 2,77 3,42 3,69

28 1,70 2,05 2,46 2,76 3,40 3,66

29 1,70 2,05 2,46 2,76 3,40 3,66

30 1,70 2,04 2,46 2,75 3,39 3,65

40 1,68 2,02 2,42 2,70 3,31 3,55

60 1,67 2,00 2,39 2,66 3,23 3,46

120 1,66 1,98 2,36 2,62 3,17 3,37

1,64 1,96 2,33 2,58 3,09 3,29

0,05 0,025 0,01 0,005 0,001 0,0005

Уровень значимости a

(односторонняя критическая область)

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

Page 108: теория вероятностей и математическая статистика. часть 2. регрессионный анализ, дисперсионный анализу

108

Список литературы

1. Годин, А. М. Статистика: учебник / А. М. Годин. – Москва: Дашков и К°, 2012. –

451 с.

2. Ниворожкина, Л. И. Статистика: учебник для бакалавров: учебник /. – Москва:

Дашков и Кº: Наука–Спектр, 2011. – 415 с.

3. Статистика: учебник / [И. И. Елисеева и др.]. – Москва: Проспект, 2011. – 443 с.

4. Статистика: теория и практика в Excel: учебное / В. С. Лялин, И. Г. Зверева, Н. Г.

Никифорова. – Москва: Финансы и статистика: Инфра–М, 2010. – 446.

5. Тумасян, А. А. Статистика промышленности: учебное пособие / А. А. Тумасян, Л.

И. Василевская. – Минск: Новое знание. – Москва: Инфра–М, 2012. – 429 с.

6. Экономическая статистика: учебник / [А. Р. Алексеев и др.]. – Москва: Инфра–М,

2011. – 666 с.

7. Богданова М.Г.,Старожилова О.В. Методическая разработка к практическим

занятиям «Основные понятия статистики и выборочный метод». Самара, ИУНЛ

Поволжского государственного университета телекоммуникаций и информатики,

2011

8. Блатов И.А., Старожилова О.В. Теория вероятностей и математическая статистика.

Конспект лекций. Самара, ИУНЛ Поволжского государственного университета

телекоммуникаций и информатики, 2011

9. Старожилова О.В., Якимова М.И.Методическая разработка к практическим

занятиям «Показатели значений центра и размаха вариации статистического

распределения». Самара, ИУНЛ Поволжского государственного университета

телекоммуникаций и информатики, 2011

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»