试验数据的统计处理和误差分析第一讲概率论的基本概念_凌树森

　　编者按:高技术 ( High-Technolog y)一词在 70年代最早出现于美国 ,近年来已被各国所使用。目前习惯称

为高新技术。高新技术是指在某个时期内 ,对国家的工业、农业和国防以及社会经济发展起核心作用的主导

技术。

发展高新技术是离不开实验的 ,我们整天都在和实验数据打交道 ,从中能获取更多的信息。因此 ,数据处

理和误差分析就成了很重要的工具。

讲座“试验数据的统计处理和误差分析” ,就是为了让搞理化检验的同志更系统、深入、全面地了解这一

工具的原理、思想和方法 ,从而更好地去为生产服务而撰写的。

本讲座除了扼要地介绍概率论和数理统计的基本概念和方法外 ,还着重于应用实例的介绍 ;针对力学性

能试验的特点 ,如疲劳试验和断裂力学试验 ,深入地讨论了一些问题 ,以便使读者在更深的层面上来认识问

题的本质。

读者对本讲座有什么意见和要求 ,请来信告诉我们 ,编辑部将及时把这些意见和要求转达给本讲座的作

者 ,请他在适当的时候 (在接下去的讲座中 )反映并解答你们的意见和要求。

专题讲座

试验数据的统计处理和误差分析　　　第一讲　概率论的基本概念

凌树森(上海材料研究所 , 上海 200437)

中图分类号: O211. 9; O241. 1　　　文献标识码: E　　　文章编号: 1001-4012( 2001) 01-0039-05

1　随机现象和随机事件

在自然界和科学试验中发生的现象是多种多样

的 ,但是归结起来可分为两大类:即必然现象 (又称

确定性现象 )和偶然现象 (又称随机现象或不确定性

现象 )。

在试验中 ,在一定的条件下 ,某事件 (指某一试

验结果 )一定会发生 ,则称它为必然事件。例如 ,在标

准大气压下 ,把水加热到 100°C时 ,它就会沸腾。又

如 ,在拉伸试验中 ,当外加应力大于该材料的抗拉强

度时 ,试样就产生断裂。另外 ,在一定的条件下 ,某事

件一定不会发生 ,则称为不可能事件。例如 ,“两物体

带上同性电荷会互相吸引”“自由抛出的物体不再落

回地面”等都是不可能事件。必然事件和不可能事件

都是属于同一类现象的 ,即确定性现象。

另一类现象是 ,在一定的条件下 ,这类事件可能

出现 ,也可能不出现。例如 ,规定了钱币的正面和反

面 ,我们说“这次掷钱币得正面”“掷一粒骰子出现 2

点” ,我们预测“明年 7月上海的平均温度为 28°C”

等等 ,都是随机事件 ,因为它们可能出现 ,也可能不

出现 ,这类事件都属于随机现象 ,即不确定性现象。

确定性现象的定量描述是用通常的数学方法 ,

即算术、代数、三角、几何、数学分析、微分方程和积

分方程等等 ,而不确定性现象的定量描述 ,则是运用

概率论和数理统计方法来进行的。必须指出的是 ,随

着人们认识的深化 ,不确定性现象又可分为两类 ,一

类是随机现象 ,一类是模糊现象。前者的定量工具是

概率论和数理统计 ,后者的定量工具则是模糊数学。

由于材料强度具有统计的特性 ,这就决定了材

料力学性能试验结果的随机性。特别是材料的疲劳

性能、断裂力学性能、冲击性能等 ,其试验结果的分

散性很大 ,在处理试验结果和进行误差分析时 ,都必

须运用概率论和数理统计的方法。因此 ,作为本讲座

“试验数据的统计处理和误差分析”的基础 ,我们将

·39·

第 37卷第 1期

2001年 1月

理化检验—物理分册PTCA ( PART A: PHYSICAL TEST IN G)

Vo l. 37　 No. 1

Jan. 2001

重点地、扼要地介绍有关概率论和数理统计的基本

概念和方法 ,然后再较深入地讨论材料力学性能试

验中所涉及到的一些数据如何进行处理和分析。

2　概率的定义及其运算法则

2. 1　概率的定义

概率是度量某一事件发生的可能性大小的量 ,

它是随机事件的函数。必然发生的事件 ,其概率为

1,记为 P (U )= 1,其中 U代表必然事件。不可能事

件 ,其概率为零 ,记为 P (V )= 0,其中 V代表不可能

事件。一般的随机事件 ,其概率在 0与 1之间 ,记为

0≤ P ( A)≤ 1, A代表任一随机事件。

2. 2　概率的基本运算法则

( 1)互补定理　设某一事件发生的概率为 P ,

则其不发生的概率为 1- P,即 P ( A )= 1- P( A ) ,其

中 A为事件 A的相反事件。例如 ,掷骰子必定会掷

出一个点数来 ,所以 P (出现 1～ 6任一点 )= 1,另

外 ,出现 3点的概率 P (出现 3点 )= 1 /6,所以 P(出

现 3以外的点 )= 1-16=

56,这就是不出现 3点的

概率。

因此 ,某事件发生的概率与不发生的概率之和

必然为 1,这就是互补定理 ,用公式来表达即为:

P ( A )= 1- P ( A )。

( 2)加法定理　设 A代表掷骰子出现 3点这一

事件 ,P ( A )代表它的概率。 B代表出现 4点这一事

件 , P (B )代表其概率。在一次试验中 , A和 B不会同

时出现 ,我们称 A和 B为互不相容事件 (或称互斥

事件 )。

设用 AB表示“ A和 B同时出现”的事件 ,用 A

+ B表示“出现 3点或出现 4点”这一事件。于是有

P ( AB ) = P ( V ) = 0 ( 1-1)

P( A+ B ) = P ( A ) + P (B ) ( 1-2)

　　上式表明 ,两个互不相容事件之一出现的概率

等于各自出现概率之和。这就是概率的加法定理。如

果用到前面掷骰子的例子中 ,则

P ( A+ B )= P ( A )+ P (B )=16+

16=

13

( 3)乘法定理　沿用上面掷骰子的例子 ,我们

来讨论这样一个问题: 如果先后掷两次 ,那么两次同

时出现 3点的概率是多少? 我们知道 ,第一次掷出 3

点的概率是 1 /6,第二次掷出 3点的概率同样也是

1 /6,两次同时出现 3点的概率自然是16

×16=

136

。

从这个例子我们看到 ,“第二次掷出 3点”这一事件

的概率不受第一次掷出点子的影响 ,我们称这两个

事件是相互独立的 ,或称它们是两次独立的试验。

我们用 P ( A|B )表示在事件 B发生的条件下 ,

事件 A出现的概率 ,称 P ( A|B )为事件 A的条件概

率。当 P( A|B )= P ( A)或 P (B|A )= P (B )时 ,则事

件 A和 B相互独立。这时 ,

P ( AB ) = P ( A|B )P (B ) = P ( A) P (B ) ( 1-3)

　　如果事件 A和 B不是相互独立的 ,则其一般式

为

P( AB ) = P( A|B ) P (B ) = P( B|A )P ( A )

( 1-4)

　　这就是概率的乘法定理。下面举一个纸牌的例

子 ,在总共 52张牌中 ,黑桃出现的概率 P= 1 /4, ,若

抽得一张黑桃牌后再把它放回去 ,则再抽一张时 ,抽

得黑桃的概率仍是 1 /4,不受第一次抽牌的影响 ,这

样前后两次抽牌 (或称为两次试验 ,或两个事件 )就

是相互独立的。但是 ,如果第一次抽到黑桃后不把牌

放回去 ,这时如果再抽一张牌 ,抽得黑桃的概率已不

是 1 /4,而是 12 /51了。设 B表示第一次抽得黑桃 , A

表示第二次抽得黑桃 ,则 AB表示两次抽牌均得到

黑桃 ,于是:

当第一次抽的牌放回去时 ,运用式 ( 1-3)得

P ( AB ) = P ( A ) P( B ) =14

×14=

116

　　当第一次抽的牌不放回去时 ,运用式 ( 1-4)得

P ( A|B ) = P (B ) P ( A|B ) =14×

1251 =

351

3　随机变量及其概率分布

在确定性现象的定量研究中 ,我们应用了自变

量 x和与它相应的函数 y= f (x )的概念。当我们要

定量地来研究不确定现象—— 随机现象时 ,自然地

就引入了随机变量和与它相应的概率分布。

3. 1　随机变量

用来代表或描述随机事件的量称为随机变量。

例如 ,在“掷钱币”的试验中 ,它有两种可能的结果 ,

我们把出现正面记为 1,出现反面记为 0,则令 X 为

随机变量 ,其取值为

X =1　当出现正面时

0　当出现反面时( 1-5)

　　又如 ,对某种材料作拉伸试验 ,其抗拉强度 eb

也是个随机变量 ,它的试验结果可能有很多个 ,我们

也可用随机变量 X来描述该材料 eb的取值大小和

范围。

·40·

凌树森: 试验数据的统计处理和误差分析　第一讲　概率论的基本概念

由此可知 ,随机变量分为两类:离散型随机变量

和连续型随机变量。掷钱币、掷骰子、射击、摸彩和某

电话交换台一分钟内接到的呼唤次数等等都属于离

散型随机变量。而材料的屈服点、抗拉强度、断裂韧

性、疲劳寿命和大气温度的变化等等都属于连续型

随机变量。

3. 2　随机变量的概率分布

随机变量的概率分布定义如下:

( 1)对离散型随机变量　对应于所有随机变量

的概率值 (排列起来 )称为该随机变量的概率分布。

例如 ,对于掷钱币 ,其概率分布为

X 1 0

pk p 1- p

　　又如 ,掷骰子事件 ,其概率分布为

X 1 2 3 4 5 6

pk 1 /6 1 /6 1 /6 1 /6 1 /6 1 /6

　　一般地 ,离散型随机变量的概率分布可表达为

P (X= x k )= pk ,k= 1, 2,…。

( 2) 对连续型随机变量　设 X为连续型随机

变量 , x 为随机变量 X 的某一具体取值 ,我们把

P (X≤ x )= F (x ) ,叫做 X的概率分布 ,其分布函数

是 F( x )。用文字来表达即为: 对应于随机变量 X小

于等于某一具体数值 x的概率 P ( X≤ x ) ,如果它可

以用一个确定的函数 F ( x ) 来表达 , 即

P (X≤ x )= F (x ) ,则 F( x )称为 X的概率分布。

令 F (x )的一阶导数为 f ( x ) ,即 F′(x )= f ( x ) ,

则 f (x )称为随机变量 X的分布密度函数。

4　几种重要的概率分布及其参数

4. 1　正态分布

正态分布又称高斯分布 ( Gauss Dist ribution) ,

在自然界和社会现象中 ,很多随机变量都服从正态

分布。涉及材料力学性能的很多量也都遵循正态分

布 ,诸如 ,试样和零件的尺寸、静载下应力的分布、材

料的屈服点 es、抗拉强度eb、疲劳极限 er、断裂韧性

K IC、拉伸时的伸长率W%和收缩率 j%等等。因此 ,

对正态分布的特点 ,概率的计算 (如查表 )和参数的

估计等必须深入地了解并熟练地掌握 ,以便在数据

处理时能灵活地应用它。

( 1)正态分布的特点　正态分布最重要的特点

是对称性 ,如图 1-1所示。其概率密度函数如下

f (x ) = 1

2π eexp [- ( x - _ )

2

2e2 ] ( 1-6)

式中　_—— 正态分布对称轴的位置 ,称为正态分

布随机变量的数学期望 ,又称为平均

值

　e— —正态分布的拐点位置 ,称为正态分布随

机变量的标准差

图 1-1　正态分布的概率密度函数

_ 和e是正态分布的两个重要参数 ,它们有很

直观的几何意义 ,见图 1-2。其中 _ 表示对称轴离原

点 O的远和近 ,而 e则表示分布曲线的或陡或坦。

从物理含义上来说 ,_ 表示该随机变量 (代表某物理

量或力学量 )平均值的大小 ,而e则表示这个量的分

散或集中程度。因此 ,正态分布的第二个特点就是 ,

几何图形直观 ,分布参数的几何意义和物理含义很

明确。

( a)

( b)

图 1-2　_ 和 e的几何意义

从式 ( 1-6)可知 ,只要求得了参数 _ 和 e,这个

正态分布就是已知的了 ,通常用 N (_ ,e2 )或 N (_ ,e)

来表示正态分布 , X～ N (_ ,e)就表示随机变量 X 服

·41·


从参数为 _和e的正态分布。从下面将要介绍的内

容可知 ,正态分布的第三个特点是概率计算 (查表 )

和参数估计都比较成熟 ,且方法简便 ,易于掌握。

( 2) 概率的计算　只要把式 ( 1-6)所示的概率

密度函数 f ( x )积分 ,便可得到 F (x )

P ( X ≤ x ) = F( x ) =

1

2π e∫x

-∞exp [-

(x - _ ) 2

2e2 ]dx ( 1-7)

式中　F (x ) = P (X≤ x )表示小于等于 x 值的随机

变量 X出现的概率 ,所以又称为累积概率。其图形

见图 1-3所示。

图 1-3　随机变量的累积概率

我们可以用式 ( 1-7)来计算概率值 ,但对于不同

的 _ 和e,每次计算的工作量太大 ,为了简化计算 ,

现引进一个标准正态偏量 t

t =x - _

e( 1-8)

　　把它代入式 ( 1-7)便可得到

F (x ) = H( t ) =1

2π∫t

-∞exp [-

t2

2]dt

( 1-9)

　　上式即为标准正态分布 ,即 N ( 0, 1) ,它的平均

值为 0,标准差为 1。把上式制成数字表格 ,得到

H( t ) -t的对应数值 ,这样一来 ,就把正态分布的概率

计算工作简化为查表 ,大大提高了效率。而对不同的

N (_ ,e) ,只要按式 ( 1-8)计算得到 t便行了。

例如 ,通过长期的积累我们知道 ,某材料的抗拉

强度 eb 的平均值 _ = 850MPa,其标准差 e=

70MPa,现欲预测某一根试样的 eb≤ 800MPa的概

率 P= ?

按上面介绍的步骤 ,首先用式 ( 1-8)计算 t=

800- 85070

= - 0. 7143,然后查标准正态分布表 ,

h( 0. 7143) = 0. 2376。由此可知 ,按已给的 eb～ N

( 850, 70) M Pa,这种材料其 eb≤ 800MPa的概率只

有 23. 76% ,可能性不大。顺便指出 ,标准正态分布

表中 t = 0. 71,h( 0. 71) = 0. 2389; t = 0. 72时 ,

h( 0. 72)= 0. 2358,对于 t= 0. 7143,可按内插法求得

H( 0. 7143)= 0. 2376。

必须注意的是 ,任何一本概率论、数理统计和可

靠性理论的书籍 ,都附有标准正态分布表 ,不过其形

式不太一样 ,一共有三种形式的标准正态分布表 ,它

们相互之间可以换算 ,读者可根据问题的需要 ,查得

所需的数据。三种标准正态分布的形式如图 1-4。

图 1-4　标准正态分布制表的三种形式

有了上述标准正态分布表 ,就可以解决两类问

题: 一类是给定随机变量 X的某一数值 x ,通过式

( 1-8)把它变换成 t ,可求得≤ x时随机变量 X的累

积概率值 ;另一类则是给定概率值 ,反过来求 x。

例 ,已知: 某材料的断裂韧性 K IC ,经过长期的

数据积累 ,得知其服从正态分布 ,即 K IC～ N (_ ,e)=

N ( 80, 9. 0) M Pa m ,现用这种材料制造零件。求:

从设计角度要求 ,能否有 90%的可靠度 (把握 ) ,保

证其断裂韧性 K IC不低于 60MPa m?

解: ( 1) 按式 ( 1-8)计算 t=x- _

e=

60- 809

= - 2. 2222

( 2) 查标准正态分布表得 H( - 2. 2222) =

0. 0132

( 3)根据互补定理 P( X≥ x )= 1- P ( X≤ x )=

1-H( - 2. 2222)= 1- 0. 0132= 0. 9868= 98. 68%

所以 ,该材料 K IC大于 60MPa m的可靠度为

98. 68% ,大于要求的 90% 。

例 ,已知: 某材料的屈服点 es～ N (_ ,e) = N

( 700, 75) M Pa;求:给定可靠度为 95% ,试求该材料

es的波动范围为多大?

解: ( 1) 设 es的波动范围是 ( - t , t ) ,其概率为

0. 95,落在此范围外的概率是 1- 0. 95= 0. 05,由于

正态分布的对称性H( - t )= 1-H( t )= 0. 025,查标

准正态分布表得 t= 1. 96;

( 2)由式 ( 1-8) ,± t=x- _

e解得 x= _± te= 700

·42·


± 1. 96× 75= 700± 147= 553～ 847MPa

即该材料es的 95%可靠度的波动范围是 ( 553

～ 847) M Pa。

4. 2　威布尔分布

威布尔分布 ( Weibull Distribution)是应用范围

非常广泛的一种分布 ,特别是在疲劳强度和疲劳寿

命的研究中 ,占有极其重要的位置。

( 1)威布尔分布的特点　前面介绍的正态分布

虽然应用面很广 ,但它存在一个明显的缺点 (不足 ) ,

即为了使破坏概率越小越好 ,这时零件的强度 (或寿

命 )就趋于零 ,这在物理概念上是说不通的。造成这

一不足的原因 ,是正态分布曲线的对称性。材料或零

件的强度 (或寿命 )总有一个极限值 ,例如材料的疲

劳极限 er ,带裂纹材料也有一个疲劳裂纹扩展的门

槛值 ΔK th ,低于 er或 ΔK th ,材料就不会失效 ,或者

说它的失效概率就等于零。因此 ,从物理概念出发 ,

描述这些性能指标的概率分布不应该是正态的 ,而

应该是偏态的。威布尔分布的特点之一就是它符合

这种物理概念 ,它是偏态的分布 ,当强度 (或寿命 )小

于某一值时 ,其概率为零。

在 1951年和 1952年 ,威布尔发表了两篇文章 ,

他考虑链条的强度 ,而该链条是由一个个链环所组

成的。设链条受到的拉力是 t ,链条中最薄弱的链环

的强度为 r ,经过推导 ,威布尔得到下列概率密度函

数

f ( t ) =

mt0( t - r )

m- 1exp [-

( t - r )m

t0] ( t≥ r )

0　　　　　　　　　　　　　 ( t < r )

( 1-10)

式中　 r— —位置参数 ,代表最小强度或最小寿命

t0— —尺度参数 ,代表特征强度或特征寿命

m— —形状参数 ,又称威布尔斜率或威布尔模

量

式 ( 1-10)称为三参数的威布尔分布 ,这三个参

数的几何意义和物理意义都是很明显的。 r表示曲

线的起点位置 (沿横坐标 t ) ,在物理上它代表链条中

最弱链环的强度 ,当外力 t < r时 ,其失效概率就为

零。 t0表示横坐标 t的比例大小 , t0越大 ,曲线就沿 t

轴拉开 ,形状变坦变胖 ; t0越小 ,则曲线变陡变瘦。在

物理概念上 ,它代表失效概率为 63. 2%时的强度 ,

称它为特征强度。m是决定曲线类型的一个参数 ,它

在三个参数中是最重要的一个 ,也是一个本质的参

数 ,因为它的不同将决定不同类型的失效分布。例

如 ,图 1-5中画出了 r= 0, t0= 1时不同 m值的三条

曲线。其中 m < 1代表早期失效的情况 ; m= 1是指

数分布 ,代表偶然失效的情况 ; m> 1代表老化阶段

将到来 ,特别是 m= 3～ 4时 ,曲线就变成正态分布

曲线了。

图 1-5　m不同时威布尔分布的三种曲线

在研究疲劳寿命的威布尔分布时 ,经常用到下

式

f ( N ) =b

N a - N 0[N - N 0

N a - N 0]b- 1exp [- (

N - N 0

N a - N 0)b]

( 1-11)

式中　N 0——位置参数 ,最小寿命

N a— —尺度参数 ,特征寿命

b— —形状参数 ,威布尔斜率或模量

式 ( 1-11)与式 ( 1-10)一样 ,也是三参数的威布

尔分布。但在某些特定条件下 ,如电子元件的加速寿

命试验 ,疲劳中的高应力 (强化 )试验等条件下 ,上述

三参数变蜕化为二参数的威布尔分布

f ( t ) =mt0tm- 1

exp [-tm

t0]

f ( N ) =bN a

[NN a

]b - 1exp [- (NN a)b ]

( 1-12)

　　 ( 2) 概率的计算　对式 ( 1-10)和式 ( 1-11)积

分 ,便得到下列累积概率的表达式

F( t ) = 1 - exp [-( t - r )m

t0]

F( N ) = 1 - exp [- (N - N 0

N a - N 0)b]

( 1-13)

如是两参数威布尔分布 ,则只要对式 ( 1-12)积分

F( t ) = 1 - exp [- (tZ)m ]

F( N ) = 1 - exp [- (NNa)b]

( 1-14)

式中　Z= t1 /m0 是特征参量的另一种形式。

一般只要通过试验求得威布尔分布的参数 ,便

可通过式 ( 1-13)或式 ( 1-14)得到强度或寿命的累积

概率值。这在以后的介绍和例题中将会进一步说明。

·43·


试验数据的统计处理和误差分析第一讲概率论的基本概念_凌树森

Documents

Transcript of 试验数据的统计处理和误差分析第一讲概率论的基本概念_凌树森