第十章 概率与统计初步

184
第第第 第第第 第第第 10.1 第第第第第第第 10.2 第第第第第第第第 10.3 第第第第第第第第第 10.4 第第第第第第第第第 10.5 第第第第第 第第第第第

description

10.1 随机事件的概率 10.2 随机变量及其应用 10.3 随机变量的数字特征 10.4 区间估计与假设检验 10.5 相关分析和一元回归分析. 第十章 概率与统计初步. 10.1.1 随机事件的概念、关系和运算 必然现象 在一定的条件下,必然会发生的现象 . 例如 向上抛一枚硬币,由于受到地心引力的作用,硬币上升到某一高度后必定会下落.我们把这类现象称为必然现象.同样,任何物体没有受到外力作用时,必定保持其原有的静止或等速运动状态;导线通电后,必定会发热等等也都是必然现象。. 10.1 随机事件的概率. - PowerPoint PPT Presentation

Transcript of 第十章 概率与统计初步

第十章 概率与统计初步

10.1 随机事件的概率 10.2 随机变量及其应用 10.3 随机变量的数字特征 10.4 区间估计与假设检验10.5 相关分析和一元回归分析

10.1.1 随机事件的概念、关系和运算  必然现象 在一定的条件下,必然会发生的现象.

例如 向上抛一枚硬币,由于受到地心引力的作用,硬币上升到某一高度后必定会下落.我们把这类现象称为必然现象.同样,任何物体没有受到外力作用时,必定保持其原有的静止或等速运动状态;导线通电后,必定会发热等等也都是必然现象。

10.1 随机事件的概率

不可能现象不可能现象 在一定条件下在一定条件下 ,, 一定不会发生的一定不会发生的现象现象 ..

例如例如 :: 在标准大气压下纯水在 10

。C 是结冰是不

可能的,所以就称为不可能现象。 同样,一物体在变力作用下作匀速直线运动也是不 可能现象。

随机现象 : 在给定条件下,可能发生,也可能不发

生,其结果是无法事先预测的现象 例如 :

1. 抛掷一枚硬币,当硬币落在地面上时,可能是正面(有国徽的一面)朝上,也可能是反面朝上,在硬币落地前我们不能预知究竟哪一面朝上.我们把这类现象称为随机现象(或偶然现象)

2. 自动机床加工制造一个零件,可能是合格品,也可能是不合格品;

3.3. 现象Ⅰ现象Ⅰ : : 一个盒子中有一个盒子中有 1010 个完全相同的白个完全相同的白球球 ,, 混合后,任意摸一个混合后,任意摸一个 .. 现象Ⅱ现象Ⅱ : : 一个盒子中有一个盒子中有 1010 个球个球 ,5,5 个白球个白球55 个黑球个黑球 ,, 混合后混合后 ,, 任意摸一个任意摸一个 对于现象Ⅰ对于现象Ⅰ ,, 在没有摸之前在没有摸之前 ,, 我们就可以知我们就可以知道摸出道摸出来的为白球来的为白球 ;; 而对于现象Ⅱ在没摸之前我们不能而对于现象Ⅱ在没摸之前我们不能肯定摸到的为什么球肯定摸到的为什么球 ,, 但我们知道只要两种可能但我们知道只要两种可能 ,,并且摸的结果一定是这两种可能之一并且摸的结果一定是这两种可能之一 .. 随着摸球次随着摸球次数的增大数的增大 ,, 发现摸到白球和摸到黑球的机会是等可发现摸到白球和摸到黑球的机会是等可能的能的 ..

统计规律性

每次试验前不能预言出现什么结果 每次试验后出现的结果不止一个 在相同的条件下进行大量观察或试 验时,出现的结果有一定的规律性 —— 称之为统计规律性

对某事物特征进行观察 , 统称试验 .

若它有如下特点 , 则称为随机试验

可在相同的条件下重复进行

试验结果不止一个 ,但能明确所有的结果

试验前不能确定出现哪种结果

随机试验随机试验

我们把试验的结果中发生的现象称为事件,在试验的结果中,可能发生、也可能不发生的事件称为随机事件,简称为事件.通常用字母A, B, C,…表示随机事件

随机事件随机事件

基本事件 —— 实验的不可能再分的结果 .每次试验必定发生且只可能发生一个基本事件 . 复合事件——由若干个基本事件组成的事件

特殊的随机事件:特殊的随机事件:

必然事件—— 在一定条件下必定发生的 事件 , 记为

不可能事件——在一定条件下一定不发生的事件 , 记为 .

例 : 某城市共有 500辆出租车,其牌照编号从 000 1~1000之间选取,记事件

A={偶然遇到一辆出租车,其牌照号码中含有数字 8}

B={连续碰见三辆出租车,其牌照号码均含有数字8} 都是随机事件

C={该城市中出租车牌照编号为 8000}为不可能事件 .

例子

随机试验 随机事件例 1

抛一枚硬币,观察出现的结果 .

A1={ 正面朝上 }, A2={ 反面朝上 }

例 2

从一批产品中任意取 10个样品,观测其中的次品数 .

B={ 取出的 10 个样品中有 1至 3 个次品 }

例 3

记录某段时间内电话交换台接到的呼唤次数 .

C={ 在该段时间内电话交换台接到的呼唤次数不超过 8次 }

例 4

测量某个零件的尺寸与规定尺寸的偏差 x ( mm ) .

D={ 测得零件的尺寸与规定尺寸的偏差小于 0 . 1mm}

  引例 例   从一批含有正品,次品的产品中,任取两件.设有以下事件: A1={ 两件中至少有一件是次品 } A2={ 两件中恰有一件是次品 } A3={ 两件全是次品 } A4={ 两件全是正品 } A5={ 两件中至多有一件次品 } 这些事件间存在着多种关系, 如 : ( 1 ) A1 发生,则 A4 不会发生; ( 2 ) A4 发生,则 A1 不会发生; ( 3 ) A3 与 A4 不会同时发生; ( 4 )当且仅当 A2 与 A3 至少有一个发生时, A1 发生; ( 5 )当且仅当 A2 与 A4 至少有一个发生时发生 ,A5 发生.

A 包含于 B —— BA记为

事件 A 发生必导致事件 B 发生

A B

BA BA AB 且

1. 事件的包含

2. 事件的相等

事件 A 与事件 B 至 少有一个发生

nAAA ,,, 21 的和事件 ——

n

ii

n

kk AA

11 或

A +B 发生

BAA

B

3. 事件的和 ( 并 )

A 与 B 的和事件 —— BA 或 BA

BA —

BA 发生 事件 A 发生,但 事件 B 不发生

BA

B

A A 与 B 的差事件

4. 事件的差

—— A 与 B 互相对立 BAAB ,若

每次试验 A 、 B 中有且只有一个发生

AB 称 B 为 A 的对立事件 ( 或逆事件 ) ,记为

5. 事件的对立

A

B A

—A 与 B 互不相容

AB

A 、 B 不可能同时发生

AB

nAAA ,,, 21 两两互不相容

njijiAA ji ,,2,1,,,

6. 事件的互不相容 ( 互斥 )

注意: “ A 与 B 互相对立”与 “A 与 B 互斥”是不同的概念

若事件 A与事件 B是相互对立的两个事件,则它们一定互不相容;反之不一定 .

例 在 1, 2, 3,…, 10十个数中任选一个,若选取的数为 1则记为 {1},设 A={选取的数为偶数 }, B={选取的数为小于 5的偶数 }, C={选取的数小于 5}, D={选取的数为奇数 }

10},8,6,5,4,3,2,{1BA

}4,2{CA

}10,8,6{ BA

10};,8,6,4,{2DA

}9,7,5,3,1{AD

交换律 A+B=B+A AB=BA

结合律 A+ ( B+C ) = ( A+B ) +C ; A ( BC ) = ( AB ) C

分配律 ( 1 ) A ( B+C ) =AB+AC (第一分配

律) ( 2 ) A+BC= ( A+B )( A+C )(第二

分配律)

运算律 事件运算

对应集合运算

定理 1

若事件 A , B 互不相容,则 称为概率的加法公式 .证明: 设在某一条件下将试验重复进行 n 次,即基本事件总数为 n. 其中事件 A 包含的基本事件数为 m1 ,事件B 包含的基本事件数为 m2 ,

)()()( BPAPBAP

BPAPn

m

n

m

n

mmBAP

)()( 2121

P( A)=

,P( B)=

n

m2

由于 A与 B互不相容,故事件 A+B包含的基本事件 数为 m1+m2,同样由古典概率的定义有

故概率的加法公式成立 .

n

m1

推论 1

若事件 两两互不相容,则

推论 2 事件 A 的对立事件 的概率为

nAAA ,,, 21

)()()()( 2121 nn APAPAPAAAP

A)(1)( APAP

定理 2 设 A , B 为任意两事件,则

证明:因为 A+B= ,并且 与 B互不相容,于是 又由于

)()()()( ABPBPAPBAP

BBA )()()( BPBAPBAP

互不相容,与且 ABBAABBAAA

BA

因此对于三个随机变量,类似地有 P(A1+A2+A3)=P(A1)+P(A2)+P(A3) -P(A1A2) -P

(A1A2) -P(A2A3)+P(A1A2A3) 我们可划出维恩图说明其意义.该结论又称

为“多除少补原理”,对于事件的个数,这一原理还可推广到 n 个的情形.

)()()( ABPBAPAP

)()()( ABPAPBAP

)()()()( ABPBPAPBAP

于是有

因此因此

例 : 一批产品共 50件,其中有 5件是次品,从这批产品中任取 3件,求其中有次品的概率. 解法 1 设 A={ 取到的 3件产品中有次品 }; Ai={ 取到的 3件产品中恰有 i件次品 }(i=1,2,3) 则,

由定理 1的推论 1得

321321 AAAAAAA 两两互不相容,并且,,

)()()(( 321 APAPAPAP )

276.0350

35

045

350

25

145

350

15

245

C

CC

C

CC

C

CC

276.01)(1(350

345

C

CAPAP )

解法 2 设 A={取到的 3件产品中有次品 };

={取到的 3件产品中无次品 },A

频 率

设在 n 次试验中,事件 A 发生了 m 次,

n

mfn 则称 为事件 A 发

生的 频率记作 fn(A), 其中 m 为频数

10.1.2 随机事件的概率

试验序号

n=5 n=50 n=500

nA fn(A) nA fn(A) nA fn(A)

123456789

10

2315124233

0.40.60.21.00.20.40.80.40.60.6

22252125242118242731

0.440.500.420.500.480.420.360.480.540.62

251249256253251246244258262247

0.5020.4980.5120.5060.5020.4920.4880.5160.5240.494

做“抛掷硬币”的试验,我们将一枚硬币抛掷 5 次、50 次、 500 次,各做 10 遍,得到数据如表 1-1所示;其中 A={ 朝上的一面是正面 } , nA 表示事件 A 发生的频数 , 表示 A 发生的频率.

抛硬币试验 :

频率的性质 1)(0 Afn

1)( nf

实践证明:在大量重复试验中,随机事件的频率具有稳定性.也就是说,在不同的试验序列中,当试验次数 n 充分大时,随机事件 A 的频率 fn(A) 常在某个确定的数字附近摆动. 在抛硬币的试验中,“正面朝上”这一随机事件 A 的频率 fn(A) 稳定在数字 0.5 的附近.类似的例子还可以举出很多 .

频率的稳定性

试验者 n nA fn(A)

德 · 莫根蒲 丰K· 皮尔逊K· 皮尔逊

20484040

1200024000

106120486019

12012

0.51810.50690.50160.5005

历史上不少著名学者做过抛掷硬币试验,历史上不少著名学者做过抛掷硬币试验,得到的数据如下: 得到的数据如下:

概率的统计定义

在相同条件下重复进行的 n 次试验中 , 如果事件 A 发生的频率 ffnn(A)(A)稳定在某一数值 P的附近摆动 ,且随 n的增大 ,摆动幅度越来越小 ,则称 P为随机事件 A的概率 ,记作 P(A)

概率的统计定义也提供了一个近似计算概率的概率的统计定义也提供了一个近似计算概率的方法方法 ::

当试验次数 n较大时有 :

事件发生的概率 事件发生

的频率

即当试验次数 n 充分大时 , 就常把事件 A 的频率作为事件 A 的概率的“近似值”(或“估值”).

比如:合格率,废品率,出生率,升学率,死亡率等等,都是频率.

1. 0≤P(A)≤1;

2. P(Ω)=1,P(φ)=0.

于是有下列性质

1 条件概率的概念

)( BAP

一 、条件概率

在事件 B发生的条件下,事件 A发生的概率称为条件概率。记为

10.1.3 几类常见的概率问题

2 、条件概率的性质

如果 A, B是随机试验的两个随机事件,且P( B)﹥ 0的,则称在事件 B发生的前提下事件 A发生的概率为条件概率,记作 P( A︱ B ).这个条件概率定义为

P ( A ︱ B ) =

)(

)(

BP

ABP

例 两城市都处于长江中下游,根据近一百余年的气象资料记录,知道两城市的雨天所占的比例分别为 20%和 18%,两城市同时下雨所占的比例为 12%,求:⑴已知甲市为雨天时,乙市也为雨天的概率; ⑵已知乙市为雨天时,甲市也为雨天的概率 .

}{甲市下雨设 A }{乙市下雨B ,

则有

3

2

18.0

12.0

)(

)()|()1(

BP

ABPBAP

5

3

20.0

12.0

)(

)()|()2(

AP

ABPABP

.

把事件 A 发生的前提下事件 B 发生的条件概率,记作 P ( B ︱ A ).

PP (( BB ︱︱AA )) == )(

)(

AP

ABP

例 已知一批产品的次品率为 5%,正品率中的一级品率为 80%.从中任取一件,试求它是一级品的概率.

解 设 A={被取到的一件产品是正品 }, B={被取到的一件产品是一级品 }.依题意得

)(1)( APAP =1-0.05=0.95

因为 P(B/A)=0.80, BA

AB=B. 于是 P( B) =P( AB) =P( A) P( B/A)

76.080.00.95

时)(,当,, 021321 AAPAAA

)()()()( 213121321 // AAAPAAPAPAAAP

时,有)(当 0121 nAAAP

)/()/()/()( 12121312121 nnn AAAAPAAAPAAPAPAAAP )(

由条件概率的定义可得:P ( AB ) =P ( B ) P ( A︱B )(当 P ( B )≠ 0 时 ) 或P ( AB ) =P ( A ) P ( B︱ A )(当 P( A )≠ 0 时) 此二公式称为概率的乘法公式 注:当 P(AB) 不容易直接求得时,可考虑利用P(A) 与 P(B∣A) 的乘积或 P(B) 与 P(A|B) 的乘积间接求得。

时)(,当,, 021321 AAPAAA

)()()()( 213121321 // AAAPAAPAPAAAP

时,有)(当 0121 nAAAP

)/()/()/()( 12121312121 nnn AAAAPAAAPAAPAPAAAP )(

例 一批产品的次品率为 4%,正品中一等品率为 75%,现从这批产品中任意取一件,试求恰好取到一等品的概率。解: 记 A= { 取到一等品 } , B= { 取到次品 } ,= { 取到正品 } ,

则 由于 故

于是

04.0)( BP 96.0)( BP 75.0)( BAP

BA

BAA

72.075.096.0)()()()( BAPBPBAPAP

 如果事件   构成一个完备事件组,并且    , 则对于任一事件 B ,有

nAAA ,,, 21 ,0)( iAP ni ,,2,1

)/()(

)/()()/()()()()(

1

2211

n

iii

nn

ABPAP

ABPAPABPAPBAPAPBP

称为称为全概公式全概公式

二、全概率公式

例 三门火炮向同一目标射击,设三门火炮击中目标的概率分别为 0.3 , 0.6 , 0.8 .若有一门火炮击中目标,目标被摧毁的概率为 0.2 ;若两门火炮击中目标,目标被摧毁的概率为 0.6 ;若三门火炮击中目标,目标被摧毁的概率为 0.9 .试求目标被摧毁的概率.

解  设事件 B={ 目标被摧毁 }

    显然, A1 , A2 , A3 构成一个完备事件组,由全概公式可得:

3

1

)/()()(i

ii ABPAPBP

321, ,,门火炮击中目标有 iiAi

321, ,,门火炮击中目标第 iiCi

3213213211 CCCPCCCPCCCPAP

321321321 CPCPCPCPCPCPCPCPCP

8.04.07.02.06.07.02.04.03.0

332.0

3213213212 CCCPCCCPCCCPAP

321321321 CPCPCPCPCPCPCPCPCP

8.06.07.08.04.03.02.06.03.0

477.0

3

1

)/()()(i

ii ABPAPBP

482.09.0144.06.0477.02.0332.0

依题意知

应用全概率公式 ,得

9.0/6.0/2.0)/( 321 )(,)(, ABPABPABP

例 某地区的初中毕业生有 70﹪ 报考普通高中, 20﹪报考中专, 10﹪ 报考职业高中,录取率分别为 90﹪, 75﹪ , 85﹪ ,试求:⑴随机调查学生,他如愿以尝的概率; ⑵若某位学生按志愿录取了,那么他报考高中的概率是多少?

解 事件 A={ 该生被录取 } B1={ 该生报考普通高中 }

B2={ 该生报考中专 } B3={ 该生报考职业高中 }

则有 9.0)/(,1.0)(,2.0)(,7.0)( 1321 BAPBPBPBP

85.0)/(,75.0)/( 32 BAPBAP

从而 ⑴ 由全概率公式有 865.0)/()()(3

1

ii

i BAPBPAP

( 2 ) 由逆概率公式有

7263.0865.0

9.07.0

)(

)/()()/( 11

1

AP

BAPBPABP

下面要介绍的逆概公式是全概公式的逆问题:   若已知“结果” B已经发生了 ,要求某一种“原因” Aj 发生的概率.

此公式称为逆概公式(或贝叶斯 (Bayes) 公式).

),,2,1(,)/()(

)/()()/(

1

njABPAP

ABPAPBAP

n

iii

jjj

nAAA ,,, 21 设 构成一个完备事件组

,0)( BP则对于任一事件 B ,

三、贝叶斯公式( 逆概率公式 )

证明 由条件概率的定义及乘法公式有

由此 ,可得

再将全概率公式代入上式 ,

即得

)(

)/()()/(

BP

ABPAPBAP jj

j

)/()()/()()( jjjj ABPAPBAPBPBAP

),,2,1(,)/()(

)/()()/(

1

njABPAP

ABPAPBAP

n

iii

jjj

例 例 设设 88 支枪中有支枪中有 33 支没有经过试射校正,支没有经过试射校正, 55支经过试射校正.一射手用校正过的枪射击时支经过试射校正.一射手用校正过的枪射击时,中靶的概率为,中靶的概率为 0.80.8 ,用未校正的枪射击时,,用未校正的枪射击时,中靶的概率为中靶的概率为 0.30.3 ,今从,今从 88 支枪中任取一支进支枪中任取一支进行射击,结果中靶.求所用的这支枪是经过校行射击,结果中靶.求所用的这支枪是经过校正过的概率.正过的概率.解解设设 A1={A1={ 枪经过试射校正枪经过试射校正 }}

A2={A2={ 枪没有经过试射校正枪没有经过试射校正 }} ,,则则 A1A1 ,, A2A2 构成完备事件组.构成完备事件组.

由题意知 由题意知  PP (( A1A1 )) =5/8=5/8 , , PP (( A2A2 )) =3=3/8/8 ,,

,3.0)/(,8.0)/( 21 ABPABP

由全概公式可得由全概公式可得 ::

2

1

)/()()(i

ii ABPAPBP 3.08

38.0

8

5

又由逆概公式得

)(

)/()()/( 11

1 BP

ABPAPBAP

82.06.0

5.0

3.05

38.0

8

5

8.08

5

引例

 盒中有 3 个黑球和 2 个白球,从中随机抽取 3 个,考虑取得的白球数。

抽取的白球数有三个可能结果: 0 , 1或 2 ,对于不同的抽取次数其结果可能不同。为此,引入一个变量 ξ ,用 ξ表示“抽取的白球数”,该变量的不同取值表达不同的随机事件,如

( ξ=0 ) 表示“抽取的 3 个球中无白球”; ( ξ=1 ) 表示“抽取的 3 个球中有 1 个白球”; ( ξ≤2 )表示“抽取的 3 个球中至多有 2 个白球”。

10.2 随机变量及其应用

10.2.1 随机变量的定义

  如果一个随机试验的结果可以用一个变量ξ 的取值来表示,则称这个变量 ξ 为随机变量。  通常我们用希腊字母 ξ , η , ζ ,…或大写英文字母 X , Y , Z ,…表示随机变量。

例  抛掷一枚硬币,试验的结果为“出现正面”和“出现反面”,引入变量 ξ ,

返回

ξ=1 ,出现正面

0 ,出现反面则 ξ 为随机变量,(ξ=0) , (ξ=1)便是随机事件。

例  在 24 小时内,程控电话交换机接转电话的次数 ξ是一个随机变量,它可取一切非负整数 0,1,2,…. 同时,随机变量 ξ取不同的值就表示不同的随机事件,

例如 (ξ=0) , (ξ=10) , (5≤ξ≤20) 等表示不同的随机事件。

例  在一批灯泡中任意抽取一只,测试其寿命,那么灯泡的寿命 ξ (小时 )是一个随机变量,显然 ξ的一切可能取的值是非负实数值 ,

返回

即 ξ R∈ + {0}∪ ,

而 (ξ=1200) , (ξ≤5000) , (ξ>1500)等都是随机事件。

例 用变量 ξ表示某品种玉米穗位的高低(单位:厘米)。 则 P( 120≤ξ< 130 ) =0.2表示“玉米穗位在 120厘米到 130厘米之间”这个事件的概率为 0.2 。由于

)130120( P )120()130( PP

所以,只需知道 P ( ξ< 130 )与 P ( ξ< 120 )就可以求出 P ( 120≤ξ< 130 )了。

返回

  由此可知,随机试验的结果可以用变量来表示,但这种“变量”与微积分中的“变量”是有区别的 . 以例1中白球数 ξ这个变量为例,它有 : ⑴取值的随机性,也就是说 ξ 取哪一个值,在抽样前无法确定; ⑵取值的统计规律性,也就是 ξ 取 0,1,2 这些值的概率是确定的。

两个特点

随机变量的分类

如“取到次品的个数”, “收到的呼叫数”等 .

随机变量

离散型随机变量

连续型随机变量

所有取值可以逐个一一列举

例如,“电视机的寿命”,实际中常遇到的“测量误差”等 .

全部可能取值不仅无穷多,而且还不能一一列举,而是充满一个区间 .

这两种类型的随机变量因为都是随机变量,自然有很多相同或相似之处;但因其取值方式不同,又有其各自的特点 .

随机变量 连续型随机变量

离散型随机变量

学习时请注意它们各自的特点和描述方法 .

10.2.2 常见离散型随机变量

若随机变量 ξ 的所有可能取值是有限个或可列个 , 则称 ξ 为离散型随机变量设离散型随机变量 ξ 的所有可能取值为 ),2,1(,)( kpxP kk

ξ

kxxx 21

P

kppp 21

则称该式为 ξ 的概率分布或分布列

,,,,, kxxx 21

ξ 取这些值的概率为

概率分布列也常常列成表格的形式:

分布列的性质

),2,1(,0 kpk非负性

11

kkp 归一性

例  对于第一节中的例1,求抽取的白球数 ξ 的分布列。

解  ξ 是离散型随机变量,取值为 0 , 1 , 2 , ξ的分布列为

  

10

6)1( P

10

1)0( P 10

3)2( P

即 0 1 2

10

1

10

6

10

3

P

例 

4

1

6

1

8

1

4 0 3 6 7

8

1

8

1

6

1

4

1

3

1

P已知离散型随机变量的分布列为:

求 ( 1 ) P (-1<ξ≤6) ; ( 2 ) P (ξ=1) 。

解  ( 1 )注意到 -1<ξ≤6 ,离散型随机变量 ξ 的可能取值只有三个,即 ξ = 0 , ξ = 3 及 ξ = 6 ,所以 P(-1<ξ≤6) )6()3()0( PPP

24

13

( 2 ) 注意到 ξ 的可能取值没有 ξ =1,说明事件 (ξ=1) 是不可能事件, 所以   P(ξ=1) = 0

( 1 )两点分布(或 0—1 分布)

)1,0()1()( 1 kppkP kk凡试验只有两个结果 , 常用 0 – 1 分布

描述 , 如产品是否合格、人口性别统计、系统是否正常、电力消耗是否超标等。

= xk 1 0

pk p 1 - p( 0 < p < 1 )

例 

    1 取得正品时, ξ=

0 取得次品时 .

100 件产品中有 95 件正品, 5 件次品,从中任取一件,定义

则有 P(ξ=1) = 0.95 , P(ξ=0) = 0.05 ,即 ξ服从两点分布。

( 2 )二项分布

n 重贝努利 试验中 , 是事件 A 在 n 次试验中发生的次数 , P (A) = p , 若

),,1,0(,)1()()( nkppCkPkP knkknn

则称 服从参数为 n, p 的二项分布,记作),(~ pnB

0–1 分布是 n = 1 的二项分布

两个性质 容易验证二项分布满足概率分布的 :

0)( knkkn qpCkP

1)(00

nn

k

knkkn

n

kk qpqpCp

( 1)

( 2 )

),,2,1,0( nk

设某种传染病进入一羊群,已知此种传染病的发病率为

求:在 50 头已感染的羊群中发病头数的概率分布。

例 

解:把观察一头羊是否发病作为一次试验。,

32p 。

31q发病的概率 不发病的概率

由于对 50 头感染羊来说,是否发病这里将它看作相互独立,所以作为 50 次重复独立试验 . 设 50 头羊群中发病的头数为 ξ ,

则,),(32

50B~ ξ 的分布列为

)( kP kkkC 50

50 )3

1()

3

2( 5010 ,,, k

例 在研究交通事故发生的原因中,酒后驾车引起的交通事故约占整个交通事故的 5%.现有 1000 件交通事故,求其中是酒后驾车引起的交通事故次数的概率分布.解 把一次交通事故作为一次试验,酒后驾车引起的交通

事故的概率 05.0p

其他原因引起的交通事故的概率 95.005.01 q

1000 件交通事故可以看作 1000 次重复独立试验

设 1000 次交通事故中酒后驾车引起的交通事故次数为 )05.0,1000(~ B

于是 的分布列为 kkkCkP 10001000 )95.0()05.0()(

(

k=(0 , 1 … , , 1000).

( 3 )泊松( Poisson ) 分布

),2,1,0(,!

)( kk

ekpk

其中 0 是常数,则称 ξ 服从参数为

的 Poisson 分布。 或)(~ )(p记作

若随机变量 ξ 的分布列

泊松( Poisson )定理 *0lim

nn

np

Poisson 定理说明若 ξ ~ B( n, p), 则当 n 较大,p 较小 , 而 适中 , 则可以用近似公式np

),2,1,0(,!

)1( kk

eppCk

knkk

n

,显然 0!

e

kp

k

k 1!

,00

eeek

pn

k

kn

kk并且

设 则对固定的 k

),2,1,0(!

)1(lim

k

keppC

kkn

nkn

kn

n

例  某电话交换机每分钟转接的电话次数服从 λ=4的泊松分布,试求每分钟正好转接 6次电话的概率和每分钟转接电话次数不超过 3 次的概率。

4

!4

)( ek

kpk

3

0)()}3()2()1()0{()3(

kkPPP ≈0.4335

每分钟转接电话的次数不超过 3 次的概率为

每分钟正好转接 6 次电话的概率为(k=0,1,2,…)ξ ~ p(4) ,于是

设每分钟转接的电话次数为 ξ ,由题意解

7

4

6

4

!

4

!

4)7()6()6(

k

k

k

k

ek

ek

PPP

110674.0214870.0 1042.0 (查附表 2)

每分钟转接电话的次数不超过 3 次的概率为

3

0

)()3(k

kPp

56653.01!

41)3(1

4

4

k

k

ek

P

4335.0

例  人寿保险问题 若一年内某类保险者中人的死亡率为0.005,现有10000人参加保险,试求在未来一年内这些人中至少有 3人死亡的概率.

解 设未来一年中死亡人数为 ξ,则 ξ~ B(10000,0.005)。由于n=10000较大,

p= 0.005较小, ,50np

故可以用泊松分布近似求解。

( 查表 )

为了使用方便,对于不同的 λ , pk 的值可直接查附录中的泊松分布表。

泊松分布是概率论中最重要的离散型随机变量的分布之一,许多稀疏现象,如电话交换机的电话转接次数、放射性物质每分钟分裂的原子数、在一寄生动物的宿主上寄生物的数目等都服从泊松分布。

8753.0!

5)3(

3

5

k

k

ek

P

定义 对于随机变量 , 若存在一个非负可积 函数 f ( x ), 使得对任意 a,b (a < b) 都有

)(d)()( xxxfbaPb

a

则称 是 连续型随机变量 f ( x ) 是它的概率密度函数 .

10.2.3 常见连续型随机变量

x

f ( x)

概率密度函数几何意义

)(xfy

从几何意义上看,概率正好是区间 上以概率密度曲线 为顶得曲边梯形面积

)( baP )( ba,

)(xfy

O ba

由定义容易知道,连续型随机变量 ξ 取一点 a 的概率等于零,即  P(ξ=a) = 0.

因此我们有

b

adxxfbaP

baPbaPbaP

)()(

)()()(

概率密度函数 f ( x ) 的性质★ 0)( xf

★1)()(d)(

pxpxxf

常利用这两个性质检验一个函数能否作为连续性随机变量的密度函数

)( x

例 设连续型随机变量 ξ的概率密度函数为 试确定常数A,并求P(-1≤ξ≤1).

21

)(x

Axf

有由 1)(

dxxf

AxAdxx

Adxxf

arctan1

)(12

1

A

2

1arctan

1

)1(

1)11( 1

1

1

1 2

xdx

xxP

所以

(1) 均匀分布

若 的概率密度函数为

则称 服从区间 ( a , b) 上的均匀分布或称 服从

),(~ baU参数为 a , b 的均匀分布,记作

其他0

)(1

)(bxa

abxf

显然 ,且0)( xf 11

)(

b

adx

abdxxf

对于 中任一子区间 ,有 ba, dc,

ab

cd

ab

dxdxcP

d

c

)(

可见,服从均匀分布的随机变量 ξ在 [a,b] 内任一子区间 [c,d]上取值的概率与该区间长度 d-c成正比,而与该子区间在 [a,b]中所处的位置无关 . 因此, ξ在 [a,b]上概率的分布是“均匀”的,各处取值的可能性一样 .

例 义乌到杭州的公共汽车每隔 15 分钟一趟,若一乘客到站的时间是随机的,问其候车时间超过 8 分钟的概率是多少?

解 设 ξ 为候车时间,则 ξ 在 [0,15] 上服从均匀分布,其概率密度函数为

  0≤x≤15

  其他 于是 

0

15

1)(xf

47.0)815(15

1)()158(

15

8 dxxfxP

(2) 指数分布

若 的概率密度函数为

其他,0

0,)(

xexf

x

则称 服从 参数为 的指数分布,记作 )(~ E

> 0 为常数

显然 ,且0)( xf1)(

0

dxedxxf x

例 假设某元件的寿命服从参数 = 0.0015的指数分布,求它使用 1000小时后还没有坏的概率 .

解 设 ξ 为该元件的寿命,则  

223.0

0015.0

)()1000(

5.1

1000

0015.0

1000

edxe

dxxfP

x

(3) 正态分布

若随机变量 的概率密度函数为

2

2

2

)(

2

1)(

x

exf

则称 服从参数为 , 2 的正态分布记作 ~ N ( , 2 )

, 为常数, 0

• 正态分布图象

f (x) 的性质:

图形关于直线 x = 对称 , 即

1. 在 x = 时 , f (x) 取得最大值 21

2. 在 x = ± 时 , 曲线 y = f (x) 在对应的 点处有拐点3. 曲线 y = f (x) 以 x 轴为渐近线4. 曲线 y = f (x) 的图形呈单峰状

f ( + x) = f ( - x)

• 特别地,当 时,即 ,称为标准正态分布,它的概率密度函数为

10 ,)1,0(N

2

2

2

1)(

x

ex

显然 ,可以证明0)( x

122

1

2

1)( 2

2

dxedxx

x

不难验证 , 若 ),( 2 N~

对于 2

2)(

2

1

2

1)(

x

exf

作标准化代换

x

t

则有 2

2

2

1)(

t

etf

故 )1,0(~ N

即任意一个正态分布都可以通过标准化代换转化为标准正态分布 .

• 正态分布是概率论中最重要的分布之一 . 例如,测量的误差、一批产品的质量指标、人体的身高或体重、农作物的单位面积产量、炮弹弹着点的分布、气象中的月平均气温、湿度、降水量等都服从或近似服从正态分布 .

• 另外,正态分布又具有许多良好的性质,许多分布可用正态分布来近似,它能描述相互独立的多个微小因素的综合效果,在数理统计中解决实际问题时用得最多的就是正态分布或与正态分布有关 .

引例 甲、乙两射手,在同样条件下进行射击。他们命中的环数分别记为 ξ 、η ,其概率分布列分别为:

试问如何来评定两个射手的技术优劣?

10.3 随机变量的数字特征

10.3.1 随机变量的数学期望

解  虽然分布列完整地描述了 ξ 、 η 的统计规律,但对于他们的技术优劣不能直接由分布列看出结果.若考虑平均射中的环数则可求得问题的答案,假定他们各射击 100 次,则

100

1甲平均射中的环数约为

乙平均射中的环数约为

( 8×20+9×50+10×30 ) =9.1(环)

( 8×30+9×10+10×60 ) =9.3 (环)100

1

故从平均射中的环数看,甲的技术优于乙.

设离散型随机变量 的分布列是

若级数

1i

ii xp

的数学期望或平均值 (简称期望 ),记为 Eξ 或 E(ξ )

绝对收敛 ,则称其和为随机变量 ξ

ξ

p p1 p2 … … p4 … …

421 ,, xxx

解 由 Eξ 的定义得

3

1

3

13

3

21 E

设随机变量 ξ的分布列为

求Eξ

例 设随机变量 有分布列

试求 的数学期望 . E

解 此题显然不必考虑1iii xp

的绝对收敛性,因为它是有限和,

5

1iii xpE = ( -1 ) ×0.1+0×0.2+1×0.1+2×0.3+3×0.3=

1.5

常见离散的随机变量的数学期望

(1) 二点分布

设 服从二点分布,其分布列为:

则 =1×p+0×q=p (q=1-p) E

(2) (2) 二项分布二项分布

设 ξ ~ B ( n , p )

n

k

knkkn ppkCE

0

)1()(

n

k

knk ppknk

nnp

1

)1()1(1 )1()!()!1(

)!1(

1

0

)1(1 )1(

n

k

knkkn ppCnp np

特例 若 Y ~ B ( 1 , p ), 则 E(Y)=np

由此可见,当进行 n重贝努利试验时,如果每次成功的概率是 p ,则 n次试验成功的平均次数是 np.

( 3 )泊松分布• 设 服从参数为 λ 的泊松分布,其分布列为

1

1

1

1

0 )!1()!1(! k

k

k

k

k

k

kee

ke

kkE

)0,,3,2,1,0(,!

)( kek

kpk

* ( 4 )几何分布

• 设 服从几何分布,其分布列为

)1,3,2,1(,)( 1 qpkpqkp k

1

1

1

k

k

k

k

kpqqE

kpqE

pqE

q

ppqkpqkpqEq

k

k

k

k

k

k

1

1

1

11

)1(1

1

11

1

分布 期望概率分布

二点分布pP

pP

1)0(

)1(

p

泊松分布1;,2,1,0

!)(

kke

kPk

常见离散的随机变量的数学期望

)1;,,2,1,0(

)1()(

qpnk

ppCkP knkkn

二项分布 np

设连续型函数的随机变量 ξ 的密度函数为 f (x),

dxxfx )( 绝对收敛 , 则称

为随机变量 ξ 的数学期望或平均值 ( 简称期望 ) 。

如果 dxxxf )(

否则称 ξ 的数学期望不存在。

连续型随机变量的数学期望

解.

,)1(

1)( 2

的数学期望求

的密度函数是设随机变量

Rxx

xf

0 22 )1(

12

)1(

1dx

xxdx

xx

0

22

)1()1(

11xd

x

0

2 )1ln(1

x

。, 的数学期望不存在故随机变量该积分不是绝对收敛的

注意 不是所有的连续型随机变量都有数学期望

分布 期望概率密度

均匀分布

其它,0

,,1

)( bxaabxf

2ba

指数分布

其它,0

,0,)(

xexf

x1

正态分布 2

2

2

)(

21

)(

x

exf

数学期望的简单性质

(1) E(c)=c; (c 为常数 ) , 即常量的数学期望常量本身 (2) E(kξ+b)=kE(ξ)+b; k,b 常数 (3) E(ξ+η)=E(ξ)+E(η);

(4) 设 ξ,η 相互独立 , 则 E(ξη)=E(ξ)E(η);

注 : 1. 性质 (3) 和 (4) 可以推广到有限个随机变量 ξ1, ξ2, …, ξn 的情况; 2. 对于“和” , 不要求 ξ1,ξ2,…,ξn 相互独立 ; 对于“积”要求 ξ1,ξ2,…,ξn 相互独立。

引例 甲、乙两射手各打了 6 发子弹 , 每发子弹击中的环数分别为:

甲 10, 7, 9, 8, 10, 6,

乙 8, 7, 10, 9, 8, 8,

问哪一个射手的技术较好?解 首先比较平均环数

甲 = 8.3,乙 = 8.3

有五个不同数

有四个不同数

10.3.2 随机变量的数学期望

再比较稳定程度

34.13)3.86()3.87(

)3.88()3.89()3.810(222

222

甲:

乙:34.5)3.87(

)3.88(3)3.89()3.810(2

222

乙比甲技术稳定,故乙技术较好 .

进一步比较平均偏离平均值的程度

甲])3.86()3.87(

)3.88()3.89()3.810(2[6

1

22

222

乙])3.87()3.88(3

)3.89()3.810[(6

1

22

22

22.26/34.13

89.06/34.5

5

1

2)(k

kk pXEx

4

1

2)(k

kk pXEx

E [ξ - E(ξ)]2

若 E [ξ - Eξ]2 存在 , 则称其为随机

称 D 为 ξ 的均方差或标准差 .

定义

即 D (ξ ) = E [ξ - Eξ]2

变量 ξ 的方差 , 记为 Dξ 或 D(ξ)

两者量纲相同 D(ξ ) —— 描述 ξ 的取值偏离平均值的平均偏离程度

,2,1,)( kpxP kk若 ξ 为离散型 随机变量,分布列为

1

2)(k

kk pExD

若 ξ 为连续型随机变量 ,概率密度为 f (ξ)

dxxfExD )(2

计算方差的常用公式:

由数学期望的性质可知 , 对于连续型随机变量

dxxfExD )()( 2

22

22

22

)(

)()()(2)(

)())(2(

EE

dxxfEdxxxfEdxxfx

dxxfExEx

22 )( EED

• 对于离散型随机变量

22

222

)()()(2

))()(2()(

EEEE

EEEEED

22 )( EE

常见随机变量的方差分布 方差概率分布

两点分布pXP

pXP

1)0(

)1(p(1-p)

二项分布nk

ppCkXP knkkn

,,2,1,0

)1()(

np(1-p)

泊松分布,2,1,0

!)(

kke

kXPk

分布 方差概率密度均匀分布

其它,0

,,1

)( bxaabxf

12)( 2ab

指数分布

其它,0

,0,)(

xexf

x2

1

正态分布 2

2

2

)(

21

)(

x

exf 2

1 D (C) = 0

2 D (kξ ) = k2D(ξ)D(kξ+b ) = k2D(ξ)

( c 为常数 ,k 为常数 )

3 ))())(((2

)()()(

EEE

DDD

特别地,若 ξ ,η 相互独立,则)()()( DDD

方差的简单性质

10.4.1 区间估计

用点估计法来估计总体的参数十分简单易行 , 但由于样本的随机性 , 从一个样本算得估计量的值不一定恰好是所要估计的参数值.那么估计量的值与参数之间到底相差多少 ? 另一方面,不同的样本会得到总体的同一参数的不同估计量, 如何最后确定总体的参数值呢?因此,我们有必要进一步介绍新的估计方法 . 这种方法是根据估计量的分布 , 在满足一定的可信度的条件下 , 指出被估计的总体的参数的可能取值范围.这就是参数的区间估计所要解决的问题.

10.4 区间估计与假设检验

则称区间 为的置信度为 1的置信区间

设 为一给定的很小的正数

),...,(ˆ),,...,(ˆ212211 nn xxxxxx 为两个统计量 ,

称为置信度(也称为置信概率或置信系数)

1)ˆˆ( 21p若 成立

1

)ˆ,ˆ( 21

分别称为是置信区间的上 ,下限. 21ˆ,ˆ

反映了估计的可信度 , 越小 , 越可靠 .

置信区间的长度  反映了估计精度 21ˆˆ

越小 , 1- 越大 , 估计的可靠度越高 , 但

确定后 , 置信区间 的选取方法不唯一 ,

常选最小的一个 .

几点说明

越小 , 估计精度越高 .21ˆˆ

这时 , 往往增大 , 因而估计精度降低

通常取 =0.05 或 0.01

12ˆˆ

1.正态总体期望的区间估计

( 1)总体方差 2已知

nxxxN 212 ,),,(~   设总体 为

总体的样本值 , 于是   )(xE

nxD 2

)(

),(~2

nNx 故 )1,0(~ N

n

xu

从而知

由 N( 0, 1)的分布规律知:

%95)96.1(P

n

x

)96.1( uP

%99)576.2(P

n

x

)576.2( uP

因此,对  可作如下估计:

时当 %5n

xn

x

96.196.1

nx

nx

576.2576.2 时当 %1

以上两式可作为公式使用 .

例 某农场试种新品种水稻,已知该新品种水稻亩产量的方差为 64. 现从该农场的水稻田中随机抽16 亩进行实割实测,得到平均亩产量为 412.5kg.试以 95%的置信度计算该新品种水稻的平均亩产量的置信区间 .解 已知 16n 5.412x 642

由于 05.0

故 nx

nx

96.196.1

__

16

896.15.412

16

896.15.412

即 42.41658.408

于是 的置信区间为 )42.416,58.408(

(2)总体的方差未知

 对于总体的方差未知的随机变量 ),(~ 2 N

当      是大样本时 n≥30n≥30 时作为大时作为大样本而样本而 n<30n<30 时作为小样本较合理),   时作为小样本较合理),    于是有  于是有 

nxxx ,...,2,12 s 2

n

sx

n

sx 96.196.1

n

sx

n

sx 576.2576.2 时当 %1

时当 %5

以上两式也可作为公式使用 .

例   假设豫农 1号玉米穗位(单位: cm)是一个连续型随机变量,现在观测 100珠玉米穗位,测得其平均高度 3.112x 标准差 8.308s

试求置信度是 0.95 时关于总体期望值  的置信区间 .

解 虽然并没说明总体 服从正态分布,但是由于样本容量 n=100可以用大样本下一般总体的置信区间公式 .

n

xn

xI ,

查标准正态分布表可得:

96.1而

100

8.308

n

s

n5.601 96.

故所求的置信区间为: )8.172,8.51()5.60603.112( 3.112,5. I (单位: cm)

说明 若已知 n较大 , 就可把  看作近似的服从    若    若      未知未知 ,, 大样大样本下可用 本下可用 

来代替. 来代替.

x

nN

2

, )(D

S 2

( 3)方差未知的正态总体,小样本下  的区间估计

2 nxxxN 212 ,),,(~   设总体 为

为总体的样本值 , 其中  未知则   

ST

n )( 服从自由度为 n-1 的 t 分布.

对于给定的,可查表确定可查表确定 t由     故 tTP

1

)(t

nP

S

故置信区间为: tn

st

n

s

  假定初生婴儿的体重服从正态分布,随机抽取 12名新生婴儿,测其体重为

3100 2520 3000 3000 3600 3160 3560 3320 2880 2600 3400 2540,95%的置信系数估计新生婴儿的平均体重 .(单位: g)

解 设新生婴儿体重为 由于  服从正态分布且方差服从正态分布且方差 2 未知, 05.0 12n 查 t 分布表,得分布表,得

201.2)11(2/ t 又 3057x 3.375305711

1 12

1

2 i

ixS

故  的置信区间为 201.212

3.3753057201.2

12

3.3753057

即 (2821,3293)

试以

2 、正态总体方差  的区间估计2

1~1 2

2

2

2

nsn

由于 即服从自由度为 n-1  的分布 2

对于给定的 ,,通过查附表可求出 a和 b.

1

1 2

2

2 bsn

aPbaP 得

1

11 22

2

asn

bsn

P

的置信区间。,推求,观测值

,由,给定置信度,,,设

,2

1

21 1)(~

n

n

xx

N

于是, 的置信区间为: 2

a

sn

bsn 22 1

,1

其中 的选取,一般情况下是由 :ba,

2

22

bPaP 而定的 .

))1(

)1(,

)1(

)1((

2/21

2

2/2

2

n

sn

n

sn

例 已知某种木材横纹抗压力的实验值服从正态分布 , 对 10 个试件作横纹抗压力试验得数据如下 : 482 493 457 471 510 446 435 418 394 469

试对该木材平均横纹抗压力的方差进行区间估计 . 解 36.111512.3591 22 sn

04.0

04.0

98.02

12

aP 02.02

2

bP

查表得 7.19,53.2 ba

566

1,4408

1 22

bsn

asn

于是, 的置信区间为: (566,4408) 2

求正态总体参数置信区间的解题步骤:

(1) 根据实际问题构造样本的函数,要求仅含待                   估参数且分布已知;

(2) 令该函数落在由分位点确定的区间里的概率为给定的置信度 1,要求区间按几何对称或概率对称;

(3) 解不等式得随机的置信区间;

(4) 由观测值及值查表计算得所求置信区间。

假设检验

若对参数有所了解

但有怀疑猜测需要证实之时

用假设检验的方法来 处理

若对参数一无所知

用参数估计的方法处理

10.4.2 假设检验

假设检验是指施加于一个或多个总体的概率分布或参数的假设 . 所作假设可以是正确的 ,也可以是错误的 . 为判断所作的假设 ( 称为原假设,记为H0)是否正确 , 从总体中抽取样本 ,根据样本的取值 ,按一定原则进行检验 ,分析由此产生的结果 : 如果结果合理,我们就肯定原假设;如果导致一个不合理的现象出现,则表明原假设不成立,否定H0从而与之对立的结论(称为备选假设,记为H 1 )) 成立.成立.

何为假设检验 ?

假设检验所以可行 ,其理论背景为实际

推断原理 ,即“小概率原理”

假设检验的内容

参数检验

非参数检验

总体均值 , 均值差的检验总体方差 , 方差比的检验

假设检验的理论依据

直接对总体分布进行假设检验

例 根据长期经验和资料的分析,某砖厂生产的砖的抗断强度 ξ 服从正态分布,方差 σ2= 1.21 ,从该厂产品中随机抽取 6块,测得抗断强度如下(单位 : kg/cm2 ) 32.56 29.66 31.64 30.00 31.87 31.03检验这批砖的平均抗断强度为 33.50kg/cm2 是否成立( α=0.05 ) .

解 这批砖的抗断强度 ξ 服从正态分布

)21.1( ,N

假设 H0 :

备选假设

5.331 x

即这批砖的平均抗断强度为 33.5033.50kg/cm2

即这批砖的平均抗断强度不是 33.50) H1 : 5.331 x

则应有 05.096.1 )( >Up 或 95.096.1 )( Up

)),((其中 10U N~n

x

检验 n

xU

621.1

5.333.31 =4.454>1.96

故概率为 0.05 的事件发生了 . 一般地,人们宁可相信把握性较大的事件会发生(概率为 0.95 ),也不愿意相信把握性较小的事件会发生(概率为 0.05 ) . 因此,我们拒绝 H0 ,即这批砖的平均抗断强度为 33.50kg/cm2 不成立 . 于是,备选假设

H1 : 5.331 x 成立

在统计上,通常把发生的概率小于 5%的事件称为小概率事件 . 它在一次试验中是几乎不可能发生的事件,这种思想称为小概率原理 . 例 1 的检验就是利用了小概率原理 . 其中临界值

可称为显著性水平 , 通常取 5%或 1% . 利用了小概率原理,可能犯两类错误:

第一类错误 去真错误

存伪错误第二类错误

正确

正确

假设检验的两类错误

犯第一类错误的概率通常记为 犯第二类错误的概率通常记为

H0 为真

H0 为假

真实情况所作判断接受 H0 拒绝 H0

第一类错误(去真 )第二类错误

( 存伪 )

假设检验步骤

根据实际问题所关心的内容 ,建立 H0与 H1 在 H0 为真时 ,选择合适的统计量 V, 由H1 确

给定显著性水平 , 其对应的拒绝域定拒绝域形式

根据样本值计算 , 并作出相应的判断 .

对于以下几种情形,常常使用 U检验

(1) 一个小样本是否来自某参数已知的正态总

体;

(2) 一个大样本是否来自某参数已知的总体;

(3) 两个大样本间有无显著差异 .

一、 U检验

0 0

0

0

< 0

> 0

2

zU

zU

zU

U 检验法 (2 已知 )

原假设 H0

备择假设 H1

检验统计量及其H0 为真时的分布

拒绝域

)1,0(~

0

Nn

XU

例 设某次考试的考生成绩(单位:分)服从正态分布  N( 70 , 16),从中随机地抽取 100名考生的成绩,算得平均成绩为66.5分,若方差不变,问当显著性水平 α=0.05 时,是否可以认为全体考生的平均成绩仍为 70分? 解 这是一个大样本 (n=100≥30) 是否来自某参 数已知的正态总体的问题,因此用 U检验 .

假设 70:0 xH

即全体考生的平均成绩仍为 70 分 备选假设 70:

1xH

则应有 05.096.1 )( >Up 95.096.1 )( Up 或

),(其中 10N~n

xU

检验 n

xU

1004

705.66

=8.75>1.96

故概率为 0.05 的事件发生了 .

因此拒绝 H0 ,即全体考生的平均成绩仍为 70分不成立 . 于是,接受备选假设 70:

1xH

即不能认为全体考生的平均成绩仍为 70分 .

例 某校从经常参加体育锻炼的男生中随机地选出 50名,测得平均身高 174.34 厘米;从不经常参加体育锻炼的男生中随机地选 50名,测得平均身高难度 172.42厘米 .假设两种男生的身高都服从正态分布,标准差均为

6 厘米,问该校参加体育锻炼的男生是否比不常参加体育锻炼的男生平均身高要高些? )05.0(

解 这是两个大样本间有无显著差异的问题,因此用 U检验 .假设 :

0H xx 21 (备选假设 :

0H xx 21 )则应有 :

05.096.1 )( >Up95.096.1 )( Up 或

)或,(其中 10~2

2

21

2

1

21 Nnsns

xxU

)1,0(~11 21

21 Nnn

xxU

(由于是大样本,故 )21 ss 检验 96.192.3

506506

42.17234.174

2

2

21

2

1

21

nsns

xxU

所以拒绝原假设 H0 ,接受备选假设 H1 , 又又 xx 21

故该校参加锻炼的男生比不常参加锻炼的男生平均身高要明显地高一些 .

对于以下几种情形,常常使用  t 检

(1) 一个小样本是否来自某参数未知的正态总

体;

(2) 两个小样本间有无显著差异 .

二、 t 检验

T 检验法 (2 未知 )

0

0

0

0

2

tT

< 0

> 0

tT

tT )1(~

0

ntn

S

XT

原假设 H0

备择假设 H1

检验统计量及其H0 为真时的分布 拒绝域

例 某地九月份气温 ),( 25.31N~

观察九天,算得 C300x , S=0.9℃, 能否据此样本认为该地区九月份平均气温为 31.5℃. )05.0(

解 这是一个小样本是否来自某参数未知的正态总体的问题,因此用 t 检验 .

假设 ℃xH 5.31:0

即该地区九月份平均气温为 31.5℃

备选假设 ℃xH 5.31:1

则应有 ))1((

2 nttP )1)1((

2 nttP或

ns

xtntt~

1其中

检验 ns

xt

99.0

5.3130 =5>2.306 8025.0t

故拒绝原假设 H0 、接受备选假设 H1 ,即不能据此样本认为该地区九月份平均气温为 31.5℃.

例 2 9 名学生到英语培训班学习,培训前后各进行了一次水平测试,成绩为

假设测试成绩服从正态分布,问在显著性水平 α=0.05 下,判断对学生的培训效果是否显著?

解 这是两个小样本间有无显著差异的问题,因此用 t 检验 .

假设 :0

H xx 21 (备选假设 ) :1

H xx 21 即培训效果不显著则应有 :

)2( 212nnttP 1)2( 212

nnttP或

)2~11

2

( 21

2121

222

211

21

nnt

nnnnsnsn

xxt 其中

)16(1199.257.0

91

91

29925.264973.2079

6.642.60

112

0025.0

2121

222

211

21

t

nnnnsnsn

xxt

检验

所以接受假设 H0,即对学生的培训效果不显著 .

10.5相关分析和一元回归分析

10. 5. 1 相关分析

变量之间的依存关系可以分为两种: 一是函数关系.指变量

之间保持的严格的、确定的关系.如圆的面积 S 与半径 r 之间的

关系可表示为 2S r , 当圆的半径 r 的值取定后, 其圆的面积

也随之确定.二是相关关系.指变量之间保持着不确定的依存关

系, 即变量间关系不能用函数关系精确表达.一个变量的取值不

能由另一个变量唯一确定, 当变量 x取某个值时, 变量 y的取值

可能有几个或无穷多个.

222222

yynxxn

yxxyn

yyxx

yyxxr

ii

ii

相关系数的范围在- 1到 1之间, 即 1 1r .当 r > 0为正相关, 即

两个变量之间的变化方向一致, 都是增长趋势或下降趋势; 当 r < 0 为

负相关, 即两个变量变化趋势相反, 一个下降而另一个上升, 或一个

上升而另一个下降; 当 r =1 为完全正相关; r =1, 为完全负相关; r =0

为不相关; r的范围在0. 3~0. 5 是低度相关; r的范围在 0. 5~

0. 8是显著相关; r的范围在0. 8~1是高度相关.

例 某企业上半年产品产量与单位成本资料如下:

月 份 产量(千件) 单位成本(元)

1

2

3

4

5

6

2

3

4

3

4

5

73

72

71

73

69

68

(1)计算相关系数, 说明两个变量相关的密切程度;

(2)配合回归方程, 指出产量每增加 1000件时, 单位成本平均变动多少;

(3)假定产量为 6000件时, 单位成本为多少元?

10. 5. 2 一元回归分析

在客观世界中, 普遍存在着变量之间的关系.数学的一个重要作用就是

从数量上来揭示、表达和分析这些关系, 而变量之间关系, 一般可分为确定

的和非确定的两类.确定性关系可用函数关系表示, 而非确定性关系则不

然.

例如, 人的身高和体重的关系、人的血压和年龄的关系、某产品的广告

投入与销售额间的关系等, 它们之间是有关联的, 但是它们之间的关系又

不能用普通函数来表示, 我们称这类非确定性关系为相关关系.具有相关关

系的变量虽然不具有确定的函数关系, 但是可以借助函数关系来表示它们

之间的统计规律, 这种近似地表示它们之间的相关关系的函数被称为回归

函数.回归分析是研究两个或两个以上变量相关关系的一种重要的统计方

法.

例 维尼纶纤维的耐热水性能好坏可以用指标“缩醛化度” y来衡量,这个指标越高,耐热水性能也越好,而甲醛浓度是影响缩醛化度的重要因素 . 在生产中常用甲醛浓度 x(克 /升)去控制这一指标,为此必须找出它们之间的关系,现安排了一批试验,获得如下数据:甲醛浓度 x(克 /升)18 20 22   24  26   28 30 缩醛化度 y(克 /升)26.86 28.35 28.75 28.87        29.75

30.00 30.36

• 可在直角坐标系下作图

从图中我们发现随着甲醛浓度 x的增加,缩醛化度 y也增加,且这些点

(i=1,2,…,7)近似地在一直线附近,但又不完全在一条直线上,引起这些点

与直线偏离的原因是由于在生产过程或测试过程中,还存在着一些不可控的因素,它们都在影响着试验结果

.

),( ii yx

.iy .iy iy

这样就可以把试验结果 y看成是由两部分叠加而成的,一部分是由 x的线性函数引起的 .记为 a+bx,另一部分是由随机因素引起的 , 记为 ε,即 :

( 其中

),,(~ 2bxaNy

都不依赖于 x. 上式称为一元线性回归模型 .

则 其中未知参数 2, 及ba

bxay ),0(~ 2 N

将 ),( ii yx 的值代入上式得

777

22

111

xbay

bay

xbay

777

222

111

)(

)(

)(

xbay

xbay

xbay

为求式( 5-8)中 ba, 的估计值 ,a b 必须使

27

22

21

2 s最小 , 记

sbxaybaLi

ii2

7

1

2)]([),(

由最小二乘法可得

7

1

7

1

,0)(2

,0)(2

iiii

iii

xbxayb

L

bxaya

L

yxbxax

ybxa

ii

ii

ii

i

ii

ii

7

1

7

1

27

1

7

1

7

1

7

于是可求出 a, b的估计值,a ,b 从而得方程xbay ˆˆ

它称为 关于的 线性回归方程或回归方程y

其图形称为回归直线 . 它刻划了维尼纶纤维的耐热水性能与“缩醛化度”之间的关系 .

x

一般地,若 n个点 ),(,),,(),,( 2211 nn yxyxyx

近直线 bxay ,记 ,)]([),(1

2

n

iii bxaybaL

根据微积分中的极值原理及最小二乘法,有

n

iiii

n

iii

xbxayb

L

bxaya

L

1

1

0)(2

0)(2

yxbxax

ybxna

i

n

ii

n

ii

n

ii

n

ii

n

ii

11

2

1

11

)()(

)(

( 5-9)

解方程组( 5-9),得到

,)(

))((ˆ

1

22

1

1

2

1

n

ii

n

iii

n

ii

n

iii

xnx

yxnyx

xx

yyxxb ,ˆˆ xbya ( 5-1

0 )

于是得到回归直线方程为: ,ˆˆ xbay

,a ,b 称为 的最小二乘估计 . 若将 xbya ˆˆ

代入此上式,则线性回归方程变为 :

)(ˆ xxbyy .

ba,

这表明,对于样本观察值

),(,),,(),,( 2211 nn yxyxyx

回归直线通过散点图的几何中心 ).,( yx 若记

n

i

n

iiiiixy

n

i

n

iiiyy

n

i

n

iiixx

yxnyxyyxxL

ynyyyL

xnxxxL

1 1

1

2

1

22

1

2

1

22

)(

)(

)(

则 ba, 的估计值可写成

xbyaL

Lb

xx

xy

ˆˆ

ˆ (5-12)

以下求例的线性回归方程 . 由数据可得7n

7

1

681i

ix 24x

7

1

94.202i

iy

99.28y

7

1

2 4144i

ix

16.49007

1

i

ii yx 01.58927

1

2 i

iy

112xxL 07.9yyL 84.29xyL

51.22ˆ a 27.0ˆ b则的线性回归方程为:

.27.051.22 xy xy对

二、非线性最小二乘拟合

在实际问题中,变量之间的关系常常不象线性函数那样简单,未必呈线性趋势 . 但是其中有些作适当的变量代换,可使函数线性化,从而转化为一元线性回归问题 . 现将常见的可线性化函数列于下表:

序号 函 数 线 性 化 方 法 线性化后所得的

线 性 函 数

1 ( c为常数且 c>0 ) u =lny u=ax+lnc

( c为常数且 c<0 ) u=ln(-y) u=ax+ln(-c)

2 ( c>0 ) u=lny u=bv+lnc

3 y=bv+a4 y=a+blnt x=lnt y=bx+a5 y=a+bsint x=sint y= bx+a

axcey

axcey

ecy x

b ,

1

xv

xv

1

x

bay

6 =a+bx y= bx+a

7

(c>0) u=lny, v=lnx u=bv+lnc

8 u= v= u= 9 u=log y,v=logx u=bv+loga10y=a+blogx v=logx y= bv +a

11log y=a+bx u=logy u= bx +a

)(t )(ty

bcxy

xey

10

1

y

1 xe v10

xbay logloglog

有了这些常见的可线性化函数,利用最小二乘法可建立经验公式 .

例 假定对二变量 x和 y的联合观察得如下数据:x 10 12 13 15 17 20 21 23 25 28

y 10.1 9.2 8 7.5 7.4 6.5 6.2 6.5 5.5 5.2

试求 y对 x的线性回归方程 .解 如散点图如右图

随着 x的增加 y 呈较快递降趋势 . 会发现其趋势象双曲函数,我们试用形如

baxy 的函数来逼近 . 此函数可线性化为 ,tu 其中 u=lny, =lna,

,b

t=lnx.经计算得 和 的最小二乘估计:

,707263.3ˆlnˆ a ,6123.0ˆˆ b从而,得 ,a 的估计值 :

,7421.40ˆ a ,6123.0ˆ b

于是,得回归方程: .7412.40ˆ 6123.0xy

为说明回归效果,我们将回归值与实际观测 (j=1,2,…,10) 进行比较:

jy

jy

x 10

12 13

15

17

20 21 23 25

28

y 10.3

9.2

8.0

7.5

7.4

6.5

6.2

6.5

5.5

5.2

9.95

8.90

8.47

7.76

7.19

6.51

6.32

5.97

5.68

5.30

y

计算结果表明回归效果较好 .