1.1 回归分析的基本思想及其初步应用
-
Upload
haley-oliver -
Category
Documents
-
view
126 -
download
0
description
Transcript of 1.1 回归分析的基本思想及其初步应用
第一课时第一课时
必修 3(第二章 统计 )知识结构
收集数据 ( 随机抽样 )
整理、分析数据估计、推断
简单随机抽
样分层抽样
系统抽样
用样本估计总体 变量间的相关关系
用样本的频率分布估计总体分布
用样本数字特征估计总体数字特征
线性回归分
析
思考:相关关系与函数关系有怎样的不同?
函数关系中的两个变量间是一种确定性关系相关关系是一种非确定性关系
函数关系是一种理想的关系模型 相关关系在现实生活中大量存在,是更一
般的情况
1 、两个变量的关系
不相关
相关关系
函数关系
线性相关
非线性相关
问题 1 :现实生活中两个变量间的关系有哪些呢?
相关关系:对于两个变量,当自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系。
问题 2 :对于线性相关的两个变量用什么方法来刻划之间的关系呢?2 、最小二乘估计
最小二乘估计下的线性回归方程:
ˆˆ ˆy bx a 1
2
1
( )( )ˆ
( )
n
i ii
n
ii
x X y Yb
X X
ˆa Y bX
n
ii
n
iii
xnx
yxnyxb
1
22
1^
xbya ^^
ˆˆ ˆy bx a
n
iixn
x1
1
n
iiyn
y1
1
回归直线必过样本点的中心 ),(
yx
3 、回归分析的基本步骤 :画散点图
求回归方程
预报、决策
这种方法称为回归分析 .
回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法 .
课堂互动讲练
该类题属于线性回归问题 , 解答本类题目的关键首先应先通过散点图来分析两变量间的关系是否相关 ,
然后再利用求回归方程的公式求解回归方程 .
题型一题型一 线性回归分析
学生 学科成绩
A B C D E
数学成绩 (x) 88 76 73 66 63物理成绩 (y) 78 65 71 64 61
( 1 )画出散点图;( 2 )求物理成绩 y 对数学成绩 x 的回归直线方程;( 3 )一名学生的数学成绩是 96 ,试预测他的物理成绩 .
【思路点拨】先画散点图 , 分析物理与数学成绩是否有线性相关关系 , 若相关再利用线性回归模型求解预报变量 .
【解】 (1) 散点图如图:
(2) x =15× (88+76+73+66+63)=73.2,
y =15× (78+65+71+64+61)=67.8.
i= 1
5
x iyi=88× 78+76× 65+73× 71+66× 64+63× 61
=25054.
i= 1
5
x2i=882+762+732+662+632=27174.
n
ii
n
iii
xnx
yxnyxb
1
22
1^
ˆa Y bX
所以b^=
i=1
5
xiyi-5 x y
i=1
5
x2i -5 x 2
=25054-5× 73.2× 67.8
27174-5× 73.22
≈ 0.625.
a^= y -b
^x =67.8-0.625× 73.2=22.05.
所以 y对 x的回归直线方程是y^=0.625x+22.05.
(3)x=96,则y^=0.625× 96+22.05≈ 82,即可以预
测他的物理成绩约是 82.
n
ii
n
iii
xnx
yxnyxb
1
22
1^
ˆa Y bX
【题后点评】求回归直线方程的一般方法是 : 作出散点图 , 将问题所给的数据在平面直角坐标系中进行描点 ,
这样表示出的两个变量的一组数据的相关图形就是散点图 , 从散点图中我们可以判断样本点是否呈条状分布 ,
进而判断两个变量是否具有相关关系 .
例题 1 从某大学中随机选出 8名女大学生,其身高和体重数据如下表:
编号 1 2 3 4 5 6 7 8
身高 165 165 157 170 175 165 155 170
体重 48 57 50 54 64 61 43 59
求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为 172 cm的女大学生的体重。
1. 散点图;
2.回归方程:
3.通过探究栏目引入“线性回归模型”。此处可以引导学生们体会函数模型与回归模型之间的差别。
172.85849.0ˆ xy
分析:由于问题中要求根据身高预报体重,因此选取身高为自变量,体重为因变量.
ˆ
学身高172cm女大 生体重y=0.849×172- 85.712=60.316(kg)
第二课时第二课时
探究?身高为 172 cm的女大学生的体重一定是 60.316kg 吗?如果不是 , 其原因是什么 ?
( 1)由图形观察可以看出,样本点呈条状分布,身高和体重有比较好的线性相关关系,因此可以用线性回归方程刻画它们之间的关系。
( 2)从散点图还可以看到,样本点散布在某一条直线的附近,而不是一条直线上,所以不能用一次函数y=bx+a来描述它们之间的关系。这时我们用下面的线性回归模型来描述身高和体重的关系:y=bx+a +e其中a和b为模型的未知参数, e 是 y 与 之间的误差 , 通常e称为随机误差。
y
产生随机误差e的原因是什么?
e 产生的主要原因:
(1) 所用确定性函数模拟不恰当; (2) 忽略了某些因素的影响; (3) 观测误差,如使用的测量工具不同等.
函数模型与回归模型之间的差别
一次函数模型: y=bx+a
线性回归模型 y=bx+a+e 增加了随机误差项 e ,因变量 y 的值由自变量 x 和随机误差项 e 共同确定,即自变量 x 只能解释部分 y 的变化 .
在统计中,我们也把自变量 x 称为解释变量, 因变量 y 称为预报变量 .
线性回归模型: y=bx+a+e
e y y 随机误差 ˆ ˆe y y e 的估计量样本点: 1 1 2 2( , ),( , ), ... ,( , )n nx y x y x y
相应的随机误差为:, 1,2, ...,i i i i ie y y y bx a i n
随机误差的估计值为:ˆˆ ˆ ˆ, 1,2, ...,i i i i ie y y y bx a i n
ˆie 称为相应于点 的残差 .( , )i ix y
残差分析
在研究两个变量间的关系时,首先要根据散点图来粗略判断它们是否是线性相关,是否可以用线性回归模型来拟合数据 . 然后,可以通过残差 来判断模型拟合的效果,判断原始数据中是否存在可疑数据 . 这方面的分析工作称为残差分析 .
1 2ˆ ˆ ˆ, , , ne e e
0.382
-2.8836.6271.137-4.6182.419
2.627
-6.373残差
5943616454505748体重 /kg
170155165175170157165165身高 /cm
87654321编号
下表为女大学生身高和体重的原始数据以及相应的残差数据:
e
以纵坐标为残差,横坐标为编号,作出图形(残差图)来分析残差特性 .
- 8
- 6
- 4
- 2
0
2
4
6
8
0 2 4 6 8 10
编号
残差 1系列
由图可知,第 1 个样本点和第 6 个样本点的残差比较大,需要确认在采集这两个样本点的过程中是否有人为的错误 . 如果数据采集有错误,就予以纠正,然后重新利用线性回归模型拟合数据 ; 如果数据采集没有错误,则需要寻找其他原因 .
如何刻画模型拟合的精度?
相关指数:2
2 1
2
1
ˆ( )1
( )
n
i ii
n
ii
y yR
y y
在含有一个解释变量的线性模型中, R2 恰好等于相关系数 r 的平方 .
R2 取值越大,则残差平方和越小,即模型的拟合效果越好 .
R2=0.64 ,表明:“女大学生的身高解释了 64%的体重变化”,或者说“女大学生的体重差异有 64%是由身高引起的” .
(2)利用 R2刻画回归效果
R2=1-
i=1
n
yi-y^
i2
i=1
n
yi- y 2
;R2表示______变量对______变量
变化的贡献率.R2越接近___,表示回归的效果越好.
解释 预报
1
问题四:结合例 1 思考:用回归方程预报体重时应注意什么?
1. 回归方程只适用于我们所研究的样本的总体。
2. 我们建立的回归方程一般都有时间性。
3. 样本取值的范围会影响回归方程的适用范围。
4. 不能期望回归方程得到的预报值就是预报变量的精确值。
涉及到统计的一些思想:
模型适用的总体;模型的时间性;
样本的取值范围对模型的影响;模型预报结果的正确理解。
误差与残差,这两个概念在某程度上具有很大的相似性,都是衡量不确定性的指标,可是两者又存在区别。
误差与测量有关,误差大小可以衡量测量的准确性,误差越大则表示测量越不准确。误差分为两类:系统误差与随机误差。其中,系统误差与测量方案有关,通过改进测量方案可以避免系统误差。随机误差与观测者,测量工具,被观测物体的性质有关,只能尽量减小,却不能避免。
残差――与预测有关,残差大小可以衡量预测的准确性。残差越大表示预测越不准确。残差与数据本身的分布特性,回归方程的选择有关。
题型三题型三 残差分析
通过对残差图的分析,得出模型的拟合效果 .
在 7块形状、大小相同的并排试验田上进行施肥量对水稻产量影响的试验,得到如下表所示的一组数据(单位: kg ) :
例例 22
施肥量 x/kg
15 20 25 30 35 40 45
水稻产量y/kg
330 345 365 405 445 450 455
(1) 以施肥量 x 为解释变量,水稻产量 y 为预报变量,作出散点图;(2) 求 y 与 x 之间的回归方程,并求施肥量为 28 k
g 时水稻产量的预报值;(3) 计算残差,并计算残差平方和;(4) 求 R2 ,并说明其含义.
【思路点拨】 作散点图 → 得到x、y有 较好线性关系
→ 代入公式求得线性回归方程 → 将x代入求得对应值 →
求残差平方和i=1
5
e2i → 求得相关指数R2
【解】( 1 )散点图如图所示:
( 2 )由散点图可以看出,样本点呈条状分布,施肥量和水稻产量有较好的线性相关关系,因此可以用线性回归方程近似刻画它们之间的关系。
设回归方程为y^=b
^x+a
^,
x =30, y ≈ 399.3,
于是b^=
i=1
7
xi- x yi- y
i=1
7
xi- x 2
代入数据得:b^≈ 4.75,
a^= y -b
^ x ≈ 399.3-4.75× 30=256.8,
因此所求的回归直线方程是y^=4.75x+256.8.
当 x=28时,水稻产量的预报值是
y^=4.75× 28+256.8=389.8(kg).
(3)因为残差e^
i=yi-y^
i,所以可得
e^
1=1.95,e^
2=-6.8,e^
3=-10.55,e^
4=5.7,
e^
5=21.95,e^
6=3.2,e^
7=-15.55,
所以残差平方和为i=1
7
e^2
i=927.68.
(4)i=1
7
=(yi- y )2=16721.43,
∴ R2=1-927.68
16721.43≈ 0.9445=94.45%.
说明了施肥量对对水稻产量的影响占 94.45%.
【题后点评】在求回归方程时,先画散点图,看样本是否能很好地符合线性相关关系或进行相关性检验 . 相关指数 R2 表示解释变量对预报变量的贡献率 .
第三课时第三课时
题型二题型二 非线性回归分析
对于非线性回归问题 ,并且没有给出经验公式 , 这时我们可以画出已知数据的散点图 ,
把它与必修模块《数学 1》中学过的各种函数(幂函数、指数函数、对数函数等)的图象作比较 ,挑选一种跟这些散点拟合得最好的函数 , 然后采用适当的变量代换 , 把问题转化为线性回归问题 , 使其得到解决 .
例 2 一只红铃虫的产卵数 y 和温度 x 有关 , 现收集了 7 组观测数据列于表中:
温度 xoC 21 23 25 27 29 32 35
产卵数 y/ 个 7 11 21 24 66 115 325
试建立产卵数 y与温度 x之间的回归方程;
选变量
解:选取气温为解释变量 x,产卵数 为预报变量 y。
画散点图
假设线性回归方程为 : ŷ=bx+a
选 模 型
分析和预测当 x=28 时, y =19.87×28-463.73≈ 93
估计参数由计算器得:线性回归方程为 y=19.87x-463.73
所以,一次函数模型拟合效果不太好。
0
50
100
150
200
250
300
350
0 3 6 9 12 15 18 21 24 27 30 33 36 39
当 x=28 时, y =19.87×28-463.73≈ 93
方法一:一元函数模
型
y= c1 x2+c2 变换 y= c1 t+c2
非线性关系 线性关系
问题1 选用 y=c1x2+c2 ,还是 y=c1x2+cx+c2 ?
问题 3
- 200
- 100
0
100
200
300
400
- 40 - 30 - 20 - 10 0 10 20 30 40
产卵数
气温
问题 2 如何求 c1 、 c2 ?
t=x2
方法二,二元函数模型
平方变换:令 t=x2 ,产卵数 y和温度 x之间二次函数模型 y=bx2+a就转化为产卵数 y和温度的平方 t之间线性回归模型 y=bt+a温度 21 23 25 27 29 32 35温度的平方 t 441 529 625 729 841 1024 1225产卵数 y/个 7 11 21 24 66 115 325
作散点图,并由计算器得: y和 t之间的线性回归方程为y=0.367t-202.54将 t=x2代入线性回归方程得: y=0.367x2 -202.54当 x=28时, y=0.367×282-202.54≈85,所以,二次函数模型比一次函数模型较好。
y/产卵数 个
0
50
100
150
200
250
300
350
0 150 300 450 600 750 900 1050 1200 1350
t
产卵数
气温
变换 y=bx+a
非线性关系 线性关系
43c xy c e
- 500
50100150200
250300350400450
- 10 - 5 0 5 10 15 20 25 30 35 40
对数
方法三:指数函数模
型
xccexccecy xc43433 lnlnlnlnlnln 4
abxzzybcac 则有令 ,ln,,ln 43
温度 x/ 21 23 25 27
Z=lny 1.946
2.398
3.405
3.178
产卵数 y/个
7 11 21 24
29 32 35
4.190
4.745
5.784
66 115 325
c
由计算器得: z 关于 x 的线性回归方程
因此 y 关于 x 的非线性回归方程为
849.3272.0^
xz
当 x=28 时, y ≈44 ,指数回归模型比二次函数模型更好C
849.3272.0^
xey
【题后点评】作出散点图,由散点图选择合适的回归模型是解决本题的关键,在这里线性回归模型起了转化的作用 .
函数模型 相关指数 R2
线性回归模型 0.7464
二次函数模型 0.802
指数函数模型 0.98
上节例 2 中最好的模型是哪个 ?
显然,指数函数模型最好!
建立回归模型的基本步骤:( 1 )确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量 ;
( 2 )画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(是否存在线性关系);( 3 )由经验确定回归方程的类型(如观察到数据呈线性关系,则选用线性回归方程 y=bx+a );( 4 )按一定规则估计回归方程中的参数(如最小二乘法);( 5 )得出结果后分析残差图是否异常(个别数据对应残差过大,或残差呈现不随机的规律性等),若存在异常,则检查数据是否有误,或模型是否合适等 .
1) 确定解释变量和预报变量 ;
2) 画出散点图 ;
3) 确定回归方程类型 ;
4) 求出回归方程 ;
5) 利用相关指数或残差进行分析 .
建立回归模型的基本步骤
小 结
实际问题y=f(x)
样本分析y=f(x)
回归模型y=f(x)
抽样
回归
分析
预报精度
预报
变式训练变式训练
次数 (x) 30 33 35 37 39 44 46 50
成绩 (y) 30 34 37 39 42 46 48 51
某运动员训练次数与运动成绩之间的数据关系如下 :
( 1 )作出散点图;( 2 )求出线性回归方程;( 3 )作出残差图;
( 4 )计算 R2 ,并作出解释;( 5 )试预测该运动员训练 47次及 55次的成绩 .
解: (1) 作出该运动员训练次数 (x) 与成绩 (y) 之间的散点图 , 如图所示:由散点图可知 , 它们之间具有线性相关关系 .
(2)可求得 x =39.25, y =40.875,i=1
8
x2i=12656,
i=1
8
y2i=13731,
i=1
8
xiyi=13180,
∴ b^=
i=1
8
xi- x yi- y
i=1
8
xi- x 2
=
i=1
8
xiyi-8 x y
i=1
8
x2i -8 x 2
≈ 1.0415,
a^= y -b
^x =-0.003875,
∴ 线性回归方程为y^=1.0415x-0.003875.
(3)残差分析
将这 8名运动员依次编号为 1,2,3,…,8,因残差
e^
1≈-1.24,e^
2≈-0.37,e^
3≈ 0.55,e^
4≈ 0.47,
e^
5≈ 1.39,e^
6≈ 0.18,e^
7≈ 0.09,e^
8≈-1.07,于是
可作残差图如图所示:
由图可知,残差点比较
均匀地分布在水平带状
区域中,说明选用的模
型比较合适.
(4) 计算相关指数 R2
计算相关指数 R2= 0.9855.说明了该运动的成绩的差异有 98.55% 是由训练次数引起的.(5) 作出预报由上述分析可知,我们可用回归方程= 1.0415x
- 0.003875 作为该运动员成绩的预报值.将 x= 47 和 x= 55 分别代入该方程可得 y≈49
和 y≈57.
故预测运动员训练 47次和 55次的成绩分别为 49
和 57.
预报精度1. 相关指数 R2
2. 残差 e
n n2 2
i ii2 i =1 i =1
n n2 2
i ii =1 i =1
(y - y ) (y - y)R =1- =
(y - y) (y - y)
在含有一个解释
变量的线性 模型
中 R2=r2( 相关关系 )
判断 xi 确定差异百分数
随机误差 , 它的估计值为 .e=y- y e=y- y 对于样本点
它们随机误
差的估计值 称相应残差 .
1 1 2 2 n n(x ,y ),(x ,y ), ,(x ,y )
i ii i ie =y - y =y - bx - a
n2 2
i ii =1
1 1σ = (y - bx - a) = Q(a,b)(n>2)
n- 2 n- 2方差
1) 衡量预报精度
2)确定样本的异常点 .
作 业作 业 教材P 36 2