第七章 数据分析建模方法 ( 下 )

21
1 第第第 第第第第第第第第 第第第 第第第第第第第第 ( ( ) ) * 在在在在在在在在在在在 , 在在在在在在 在在在在在在在 . * 在在在在在在在在在在在在在在在在 , 在 在在在在在在在在 , 在在在在在在在 在在 , 在在在在在在在在在在 . 在在 在在在在

description

第七章 数据分析建模方法 ( 下 ). 问题. * 在建立数学模型的过程中 , 经常需要建立 变量之间的关系. * 由于对研究对象的内部机理不甚了解 , 不 能通过合理的假设 , 或根据物理定律、原理 , 经过机理分析法而得到. 解决思路. * 借助于由实验或测量得到的一批离散数据. * 通过对数据充分观察和分析 , 获得数据所含 信息 ;. * 揭示变量间的内在联系 ;. * 选择适当的数学式对变量间的关系进行拟合. y. x. o. 两类变量关系. 确定性关系 确定的函数关系. - PowerPoint PPT Presentation

Transcript of 第七章 数据分析建模方法 ( 下 )

Page 1: 第七章 数据分析建模方法 ( 下 )

1

第七章 数据分析建模方法第七章 数据分析建模方法 (( 下下 ))

* 在建立数学模型的过程中 ,经常需要建立变量之间的关系 .

* 由于对研究对象的内部机理不甚了解 ,不能通过合理的假设 ,或根据物理定律、原理 , 经过机理分析法而得到 .

问题

解决思路

Page 2: 第七章 数据分析建模方法 ( 下 )

2

* 选择适当的数学式对变量间的关系进行拟合 .

* 通过对数据充分观察和分析 , 获得数据所含 信息 ;* 揭示变量间的内在联系 ;

xo

y

* 借助于由实验或测量得到的一批离散数据 .

Page 3: 第七章 数据分析建模方法 ( 下 )

3

两类变量关

确定性关系 确定的函数关系

相关关系 存在相依关系 , 但未达到相互确定的程度 .

两类数据

已知规律 ( 函数 ) 的测试数据 ( 在特定时间点或距离上的数据 )

呈现随机性的数据 , 可看成具有某种概率分布的随机样本值 .

Page 4: 第七章 数据分析建模方法 ( 下 )

4

针对两种不同类型的数据 , 有不同的建立模型方法 :

1. 数据拟合法 ( 适用于第一类数据 )

基本思想 已知函数 y= f(x) 的一组测试数据 (xi , yi) , (i=1 , 2 ,…, n) ,

寻求一个函数 ψ(x) ,使 ψ(x) 对上述测试数据的误差较小,即 ψ(xi)≈yi ,于是可以用 ψ(x)

来近似替代 f (x).常用的数据拟合方法:一般插值法、最小二乘法、样条函数光顺法等 .

Page 5: 第七章 数据分析建模方法 ( 下 )

5

插值法的基本思想 寻找 f(x) 的近似替代函数φ(x), 在插值节点 xi 上满足 φ( xi )=yi , (i=1,2,… , n) ,

其余点用 φ(x) 近似替代 f (x ), 称 φ(x) 为 f (x)

的插值函数 . )(xf

xix

iy

Page 6: 第七章 数据分析建模方法 ( 下 )

6

最小二乘法基本思想 寻找 f (x) 的近似替代函数 φ(x), 使

n

iii xxf

1

2))()((.min

2. 随机分析方法 对于随机数据进行拟合 ,可用统计学中的回归分析方法或时间序列分析方法 .

二.经验模型的建立二.经验模型的建立

以上两种建模方法都是建立在对数据进行充分分析的基础上 .

Page 7: 第七章 数据分析建模方法 ( 下 )

7

寻找或选择适当的函数拟合变量之间的关系( 函数关系或回归关系 ) 是重要的环节 .

一般步骤

1 )绘制数据散布图;

2 )分析数据散布图;

3 )选择函数关系形式 .

1) 通过分析数据散布图可以获得对变量间关系的感性认识 , 形成初步的看法 , 以便于对问题做进一步的分析 .

见p156

Page 8: 第七章 数据分析建模方法 ( 下 )

8

氮施肥量 N -土豆产量数据散布图

Page 9: 第七章 数据分析建模方法 ( 下 )

9磷施肥量 -土豆产量数据散布图

Page 10: 第七章 数据分析建模方法 ( 下 )

10

2 )分析数据散布图;

对数据散布图进行分析 , 可以分析出变量的关系是:

1 )线性的还是非线性的?

2 )有无周期性?

3 )呈现何种变化趋势?变化率如何?

…,等等有用的初步结论 .

Page 11: 第七章 数据分析建模方法 ( 下 )

11

例 1 建立一个简洁的函数关系式来描述某个地区人的身高和体重的对应关系 , 数据见表 7.4(p156).

曲线特征是体重 W 随身高 H

的增长而单调增长,但可以观察到是非线性增长 .

身高-体重数据散布图

Page 12: 第七章 数据分析建模方法 ( 下 )

12

练习 试分析以下问题 1. 氮施肥量 N 、磷施肥量 P 关于土豆产量的数据散布图 (P153 例 7.1.1).

2. 海浪潮高度 x 随时间 t 的数据散布图 .

Page 13: 第七章 数据分析建模方法 ( 下 )

13

3 )选择函数关系形式 1. 形式尽可能简洁 , 尽可能线性化;原

则 2. 依据实际问题的精度要求 , 合乎实际规律 .

续例 7.2.1 选择幂函数 W= ,

描述身高体重关系 .

acH

优点 此函数可以线性化 .

两边取对数 , 有cHaW lnlnln

Page 14: 第七章 数据分析建模方法 ( 下 )

14

cbHxWy ln,ln,ln 令

变换为线性函数 .baxy

例 7.2.2 可选二次函数

注:其中 b0= y(0) = 15.18.

描述氮肥施肥量与土豆产量间的变量关系 .

2210 xbxbby

关于磷肥施肥量和土豆产量的变量关系可选择威布尔模型:

Page 15: 第七章 数据分析建模方法 ( 下 )

15

合理性 ?

;,.1 Ayx 当有

0, xBeAy Kx

;)0(.2 BAy

3. y 是单调升函数 .

也可以选择 S 函数:

0,1

xbea

yx

Page 16: 第七章 数据分析建模方法 ( 下 )

16

S 函数也满足: ;

1,.1

ayx 当

;1

)0(.2ba

y

3. y 是单调升函数; 哪个模型更好?

分析 S 模型所含参数更少 , 另外若令

,,1 xexy

y

.xbay 可得线性模型

Page 17: 第七章 数据分析建模方法 ( 下 )

17

重要定理 (维尔斯脱拉斯 ) 若函数 f

(x) 在有限闭区间上连续 , 则存在一个多项式序列 {Pn(x)} 在有限闭区间 [a , b] 上一致收敛于 f(x).称 f(x) 在 [a ,b] 上可由多项式函数逼近 .

],[),()(lim baxxfxPnn

例 6.2.3 估计供水塔的水流量 试用以下数据估计任意时刻 (包括水泵正在输水的时间内 ) 从水塔流出的流量 f(t),并估计一天的总用水量 .

Page 18: 第七章 数据分析建模方法 ( 下 )

18

时间 (秒 ) 水位 (0.01英尺 ) 时间 (秒 ) 水位 (英尺 ) 0 3175 46636 3350 3316 3110 49953 3260 6635 3054 53936 3167 10619 2994 57254 3087 13937 2947 60574 3012 17921 2892 64554 2927 21240 2850 68535 2842 25223 2795 71854 2767 28543 2752 75021 2697 32284 2697 79254 水泵开动 35932 水泵开动 82649 水泵开动 39332 水泵开动 85968 3475 39435 3550 89953 3397 43318 3445 92370 3340

Page 19: 第七章 数据分析建模方法 ( 下 )

19

某小镇某天水塔水位散布图

Page 20: 第七章 数据分析建模方法 ( 下 )

20

思考 为什么考虑用多项式函数?有什么优点?

nnn xaxaxaaxP 2

210)(

假设 水位高度(或水塔的水容量)是连续变化的 .

可以选择 n 次多项式 Pn(x)

来近似描述水位随时间的变化规律 .

问题归结为选择足够大的 n 及估计各个系数值 .

Page 21: 第七章 数据分析建模方法 ( 下 )

21

参见电子科技大学《概率统计》 p2

28 “ 非线性交调的频率设计”问题 .