试验数据的统计处理和误差分析第一讲概率论的基本概念_凌树森
-
Upload
jerry-zhang -
Category
Documents
-
view
241 -
download
0
description
Transcript of 试验数据的统计处理和误差分析第一讲概率论的基本概念_凌树森
编者按:高技术 ( High-Technolog y)一词在 70年代最早出现于美国 ,近年来已被各国所使用。目前习惯称
为高新技术。 高新技术是指在某个时期内 ,对国家的工业、农业和国防以及社会经济发展起核心作用的主导
技术。
发展高新技术是离不开实验的 ,我们整天都在和实验数据打交道 ,从中能获取更多的信息。因此 ,数据处
理和误差分析就成了很重要的工具。
讲座“试验数据的统计处理和误差分析” ,就是为了让搞理化检验的同志更系统、深入、全面地了解这一
工具的原理、思想和方法 ,从而更好地去为生产服务而撰写的。
本讲座除了扼要地介绍概率论和数理统计的基本概念和方法外 ,还着重于应用实例的介绍 ;针对力学性
能试验的特点 ,如疲劳试验和断裂力学试验 ,深入地讨论了一些问题 ,以便使读者在更深的层面上来认识问
题的本质。
读者对本讲座有什么意见和要求 ,请来信告诉我们 ,编辑部将及时把这些意见和要求转达给本讲座的作
者 ,请他在适当的时候 (在接下去的讲座中 )反映并解答你们的意见和要求。
专题讲座
试验数据的统计处理和误差分析 第一讲 概率论的基本概念
凌树森(上海材料研究所 , 上海 200437)
中图分类号: O211. 9; O241. 1 文献标识码: E 文章编号: 1001-4012( 2001) 01-0039-05
1 随机现象和随机事件
在自然界和科学试验中发生的现象是多种多样
的 ,但是归结起来可分为两大类:即必然现象 (又称
确定性现象 )和偶然现象 (又称随机现象或不确定性
现象 )。
在试验中 ,在一定的条件下 ,某事件 (指某一试
验结果 )一定会发生 ,则称它为必然事件。例如 ,在标
准大气压下 ,把水加热到 100°C时 ,它就会沸腾。又
如 ,在拉伸试验中 ,当外加应力大于该材料的抗拉强
度时 ,试样就产生断裂。另外 ,在一定的条件下 ,某事
件一定不会发生 ,则称为不可能事件。例如 ,“两物体
带上同性电荷会互相吸引”“自由抛出的物体不再落
回地面”等都是不可能事件。必然事件和不可能事件
都是属于同一类现象的 ,即确定性现象。
另一类现象是 ,在一定的条件下 ,这类事件可能
出现 ,也可能不出现。 例如 ,规定了钱币的正面和反
面 ,我们说“这次掷钱币得正面”“掷一粒骰子出现 2
点” ,我们预测“明年 7月上海的平均温度为 28°C”
等等 ,都是随机事件 ,因为它们可能出现 ,也可能不
出现 ,这类事件都属于随机现象 ,即不确定性现象。
确定性现象的定量描述是用通常的数学方法 ,
即算术、代数、三角、几何、数学分析、微分方程和积
分方程等等 ,而不确定性现象的定量描述 ,则是运用
概率论和数理统计方法来进行的。必须指出的是 ,随
着人们认识的深化 ,不确定性现象又可分为两类 ,一
类是随机现象 ,一类是模糊现象。前者的定量工具是
概率论和数理统计 ,后者的定量工具则是模糊数学。
由于材料强度具有统计的特性 ,这就决定了材
料力学性能试验结果的随机性。特别是材料的疲劳
性能、断裂力学性能、冲击性能等 ,其试验结果的分
散性很大 ,在处理试验结果和进行误差分析时 ,都必
须运用概率论和数理统计的方法。因此 ,作为本讲座
“试验数据的统计处理和误差分析”的基础 ,我们将
·39·
第 37卷第 1期
2001年 1月
理化检验—物理分册PTCA ( PART A: PHYSICAL TEST IN G)
Vo l. 37 No. 1
Jan. 2001
重点地、扼要地介绍有关概率论和数理统计的基本
概念和方法 ,然后再较深入地讨论材料力学性能试
验中所涉及到的一些数据如何进行处理和分析。
2 概率的定义及其运算法则
2. 1 概率的定义
概率是度量某一事件发生的可能性大小的量 ,
它是随机事件的函数。必然发生的事件 ,其概率为
1,记为 P (U )= 1,其中 U代表必然事件。不可能事
件 ,其概率为零 ,记为 P (V )= 0,其中 V代表不可能
事件。 一般的随机事件 ,其概率在 0与 1之间 ,记为
0≤ P ( A)≤ 1, A代表任一随机事件。
2. 2 概率的基本运算法则
( 1)互补定理 设某一事件发生的概率为 P ,
则其不发生的概率为 1- P,即 P ( A )= 1- P( A ) ,其
中 A为事件 A的相反事件。例如 ,掷骰子必定会掷
出一个点数来 ,所以 P (出现 1~ 6任一点 )= 1,另
外 ,出现 3点的概率 P (出现 3点 )= 1 /6,所以 P(出
现 3以外的点 )= 1-16=
56,这就是不出现 3点的
概率。
因此 ,某事件发生的概率与不发生的概率之和
必然为 1,这就是互补定理 ,用公式来表达即为:
P ( A )= 1- P ( A )。
( 2)加法定理 设 A代表掷骰子出现 3点这一
事件 ,P ( A )代表它的概率。 B代表出现 4点这一事
件 , P (B )代表其概率。在一次试验中 , A和 B不会同
时出现 ,我们称 A和 B为互不相容事件 (或称互斥
事件 )。
设用 AB表示“ A和 B同时出现”的事件 ,用 A
+ B表示“出现 3点或出现 4点”这一事件。 于是有
P ( AB ) = P ( V ) = 0 ( 1-1)
P( A+ B ) = P ( A ) + P (B ) ( 1-2)
上式表明 ,两个互不相容事件之一出现的概率
等于各自出现概率之和。这就是概率的加法定理。如
果用到前面掷骰子的例子中 ,则
P ( A+ B )= P ( A )+ P (B )=16+
16=
13
( 3)乘法定理 沿用上面掷骰子的例子 ,我们
来讨论这样一个问题: 如果先后掷两次 ,那么两次同
时出现 3点的概率是多少? 我们知道 ,第一次掷出 3
点的概率是 1 /6,第二次掷出 3点的概率同样也是
1 /6,两次同时出现 3点的概率自然是16
×16=
136
。
从这个例子我们看到 ,“第二次掷出 3点”这一事件
的概率不受第一次掷出点子的影响 ,我们称这两个
事件是相互独立的 ,或称它们是两次独立的试验。
我们用 P ( A|B )表示在事件 B发生的条件下 ,
事件 A出现的概率 ,称 P ( A|B )为事件 A的条件概
率。 当 P( A|B )= P ( A)或 P (B|A )= P (B )时 ,则事
件 A和 B相互独立。这时 ,
P ( AB ) = P ( A|B )P (B ) = P ( A) P (B ) ( 1-3)
如果事件 A和 B不是相互独立的 ,则其一般式
为
P( AB ) = P( A|B ) P (B ) = P( B|A )P ( A )
( 1-4)
这就是概率的乘法定理。 下面举一个纸牌的例
子 ,在总共 52张牌中 ,黑桃出现的概率 P= 1 /4, ,若
抽得一张黑桃牌后再把它放回去 ,则再抽一张时 ,抽
得黑桃的概率仍是 1 /4,不受第一次抽牌的影响 ,这
样前后两次抽牌 (或称为两次试验 ,或两个事件 )就
是相互独立的。但是 ,如果第一次抽到黑桃后不把牌
放回去 ,这时如果再抽一张牌 ,抽得黑桃的概率已不
是 1 /4,而是 12 /51了。设 B表示第一次抽得黑桃 , A
表示第二次抽得黑桃 ,则 AB表示两次抽牌均得到
黑桃 ,于是:
当第一次抽的牌放回去时 ,运用式 ( 1-3)得
P ( AB ) = P ( A ) P( B ) =14
×14=
116
当第一次抽的牌不放回去时 ,运用式 ( 1-4)得
P ( A|B ) = P (B ) P ( A|B ) =14×
1251 =
351
3 随机变量及其概率分布
在确定性现象的定量研究中 ,我们应用了自变
量 x和与它相应的函数 y= f (x )的概念。当我们要
定量地来研究不确定现象—— 随机现象时 ,自然地
就引入了随机变量和与它相应的概率分布。
3. 1 随机变量
用来代表或描述随机事件的量称为随机变量。
例如 ,在“掷钱币”的试验中 ,它有两种可能的结果 ,
我们把出现正面记为 1,出现反面记为 0,则令 X 为
随机变量 ,其取值为
X =1 当出现正面时
0 当出现反面时( 1-5)
又如 ,对某种材料作拉伸试验 ,其抗拉强度 eb
也是个随机变量 ,它的试验结果可能有很多个 ,我们
也可用随机变量 X来描述该材料 eb的取值大小和
范围。
·40·
凌树森: 试验数据的统计处理和误差分析 第一讲 概率论的基本概念
由此可知 ,随机变量分为两类:离散型随机变量
和连续型随机变量。掷钱币、掷骰子、射击、摸彩和某
电话交换台一分钟内接到的呼唤次数等等都属于离
散型随机变量。而材料的屈服点、抗拉强度、断裂韧
性、疲劳寿命和大气温度的变化等等都属于连续型
随机变量。
3. 2 随机变量的概率分布
随机变量的概率分布定义如下:
( 1)对离散型随机变量 对应于所有随机变量
的概率值 (排列起来 )称为该随机变量的概率分布。
例如 ,对于掷钱币 ,其概率分布为
X 1 0
pk p 1- p
又如 ,掷骰子事件 ,其概率分布为
X 1 2 3 4 5 6
pk 1 /6 1 /6 1 /6 1 /6 1 /6 1 /6
一般地 ,离散型随机变量的概率分布可表达为
P (X= x k )= pk ,k= 1, 2,…。
( 2) 对连续型随机变量 设 X为连续型随机
变量 , x 为随机变量 X 的某一具体取值 ,我们把
P (X≤ x )= F (x ) ,叫做 X的概率分布 ,其分布函数
是 F( x )。用文字来表达即为: 对应于随机变量 X小
于等于某一具体数值 x的概率 P ( X≤ x ) ,如果它可
以 用 一 个 确 定 的 函 数 F ( x ) 来 表 达 , 即
P (X≤ x )= F (x ) ,则 F( x )称为 X的概率分布。
令 F (x )的一阶导数为 f ( x ) ,即 F′(x )= f ( x ) ,
则 f (x )称为随机变量 X的分布密度函数。
4 几种重要的概率分布及其参数
4. 1 正态分布
正态分布又称高斯分布 ( Gauss Dist ribution) ,
在自然界和社会现象中 ,很多随机变量都服从正态
分布。 涉及材料力学性能的很多量也都遵循正态分
布 ,诸如 ,试样和零件的尺寸、静载下应力的分布、材
料的屈服点 es、抗拉强度eb、疲劳极限 er、断裂韧性
K IC、拉伸时的伸长率W%和收缩率 j%等等。因此 ,
对正态分布的特点 ,概率的计算 (如查表 )和参数的
估计等必须深入地了解并熟练地掌握 ,以便在数据
处理时能灵活地应用它。
( 1)正态分布的特点 正态分布最重要的特点
是对称性 ,如图 1-1所示。其概率密度函数如下
f (x ) = 1
2π eexp [- ( x - _ )
2
2e2 ] ( 1-6)
式中 _—— 正态分布对称轴的位置 ,称为正态分
布随机变量的数学期望 ,又称为平均
值
e— —正态分布的拐点位置 ,称为正态分布随
机变量的标准差
图 1-1 正态分布的概率密度函数
_ 和e是正态分布的两个重要参数 ,它们有很
直观的几何意义 ,见图 1-2。其中 _ 表示对称轴离原
点 O的远和近 ,而 e则表示分布曲线的或陡或坦。
从物理含义上来说 ,_ 表示该随机变量 (代表某物理
量或力学量 )平均值的大小 ,而e则表示这个量的分
散或集中程度。 因此 ,正态分布的第二个特点就是 ,
几何图形直观 ,分布参数的几何意义和物理含义很
明确。
( a)
( b)
图 1-2 _ 和 e的几何意义
从式 ( 1-6)可知 ,只要求得了参数 _ 和 e,这个
正态分布就是已知的了 ,通常用 N (_ ,e2 )或 N (_ ,e)
来表示正态分布 , X~ N (_ ,e)就表示随机变量 X 服
·41·
凌树森: 试验数据的统计处理和误差分析 第一讲 概率论的基本概念
从参数为 _和e的正态分布。 从下面将要介绍的内
容可知 ,正态分布的第三个特点是概率计算 (查表 )
和参数估计都比较成熟 ,且方法简便 ,易于掌握。
( 2) 概率的计算 只要把式 ( 1-6)所示的概率
密度函数 f ( x )积分 ,便可得到 F (x )
P ( X ≤ x ) = F( x ) =
1
2π e∫x
-∞exp [-
(x - _ ) 2
2e2 ]dx ( 1-7)
式中 F (x ) = P (X≤ x )表示小于等于 x 值的随机
变量 X出现的概率 ,所以又称为累积概率。 其图形
见图 1-3所示。
图 1-3 随机变量的累积概率
我们可以用式 ( 1-7)来计算概率值 ,但对于不同
的 _ 和e,每次计算的工作量太大 ,为了简化计算 ,
现引进一个标准正态偏量 t
t =x - _
e( 1-8)
把它代入式 ( 1-7)便可得到
F (x ) = H( t ) =1
2π∫t
-∞exp [-
t2
2]dt
( 1-9)
上式即为标准正态分布 ,即 N ( 0, 1) ,它的平均
值为 0,标准差为 1。把上式制成数字表格 ,得到
H( t ) -t的对应数值 ,这样一来 ,就把正态分布的概率
计算工作简化为查表 ,大大提高了效率。而对不同的
N (_ ,e) ,只要按式 ( 1-8)计算得到 t便行了。
例如 ,通过长期的积累我们知道 ,某材料的抗拉
强度 eb 的平均值 _ = 850MPa,其标准差 e=
70MPa,现欲预测某一根试样的 eb≤ 800MPa的概
率 P= ?
按上面介绍的步骤 ,首先用式 ( 1-8)计算 t=
800- 85070
= - 0. 7143,然后查标准正态分布表 ,
h( 0. 7143) = 0. 2376。由此可知 ,按已给的 eb~ N
( 850, 70) M Pa,这种材料其 eb≤ 800MPa的概率只
有 23. 76% ,可能性不大。顺便指出 ,标准正态分布
表中 t = 0. 71,h( 0. 71) = 0. 2389; t = 0. 72时 ,
h( 0. 72)= 0. 2358,对于 t= 0. 7143,可按内插法求得
H( 0. 7143)= 0. 2376。
必须注意的是 ,任何一本概率论、数理统计和可
靠性理论的书籍 ,都附有标准正态分布表 ,不过其形
式不太一样 ,一共有三种形式的标准正态分布表 ,它
们相互之间可以换算 ,读者可根据问题的需要 ,查得
所需的数据。三种标准正态分布的形式如图 1-4。
图 1-4 标准正态分布制表的三种形式
有了上述标准正态分布表 ,就可以解决两类问
题: 一类是给定随机变量 X的某一数值 x ,通过式
( 1-8)把它变换成 t ,可求得≤ x时随机变量 X的累
积概率值 ;另一类则是给定概率值 ,反过来求 x。
例 ,已知: 某材料的断裂韧性 K IC ,经过长期的
数据积累 ,得知其服从正态分布 ,即 K IC~ N (_ ,e)=
N ( 80, 9. 0) M Pa m ,现用这种材料制造零件。求:
从设计角度要求 ,能否有 90%的可靠度 (把握 ) ,保
证其断裂韧性 K IC不低于 60MPa m?
解: ( 1) 按式 ( 1-8)计算 t=x- _
e=
60- 809
= - 2. 2222
( 2) 查标准正态分布表得 H( - 2. 2222) =
0. 0132
( 3)根据互补定理 P( X≥ x )= 1- P ( X≤ x )=
1-H( - 2. 2222)= 1- 0. 0132= 0. 9868= 98. 68%
所以 ,该材料 K IC大于 60MPa m的可靠度为
98. 68% ,大于要求的 90% 。
例 ,已知: 某材料的屈服点 es~ N (_ ,e) = N
( 700, 75) M Pa;求:给定可靠度为 95% ,试求该材料
es的波动范围为多大?
解: ( 1) 设 es的波动范围是 ( - t , t ) ,其概率为
0. 95,落在此范围外的概率是 1- 0. 95= 0. 05,由于
正态分布的对称性H( - t )= 1-H( t )= 0. 025,查标
准正态分布表得 t= 1. 96;
( 2)由式 ( 1-8) ,± t=x- _
e解得 x= _± te= 700
·42·
凌树森: 试验数据的统计处理和误差分析 第一讲 概率论的基本概念
± 1. 96× 75= 700± 147= 553~ 847MPa
即该材料es的 95%可靠度的波动范围是 ( 553
~ 847) M Pa。
4. 2 威布尔分布
威布尔分布 ( Weibull Distribution)是应用范围
非常广泛的一种分布 ,特别是在疲劳强度和疲劳寿
命的研究中 ,占有极其重要的位置。
( 1)威布尔分布的特点 前面介绍的正态分布
虽然应用面很广 ,但它存在一个明显的缺点 (不足 ) ,
即为了使破坏概率越小越好 ,这时零件的强度 (或寿
命 )就趋于零 ,这在物理概念上是说不通的。造成这
一不足的原因 ,是正态分布曲线的对称性。材料或零
件的强度 (或寿命 )总有一个极限值 ,例如材料的疲
劳极限 er ,带裂纹材料也有一个疲劳裂纹扩展的门
槛值 ΔK th ,低于 er或 ΔK th ,材料就不会失效 ,或者
说它的失效概率就等于零。 因此 ,从物理概念出发 ,
描述这些性能指标的概率分布不应该是正态的 ,而
应该是偏态的。威布尔分布的特点之一就是它符合
这种物理概念 ,它是偏态的分布 ,当强度 (或寿命 )小
于某一值时 ,其概率为零。
在 1951年和 1952年 ,威布尔发表了两篇文章 ,
他考虑链条的强度 ,而该链条是由一个个链环所组
成的。设链条受到的拉力是 t ,链条中最薄弱的链环
的强度为 r ,经过推导 ,威布尔得到下列概率密度函
数
f ( t ) =
mt0( t - r )
m- 1exp [-
( t - r )m
t0] ( t≥ r )
0 ( t < r )
( 1-10)
式中 r— —位置参数 ,代表最小强度或最小寿命
t0— —尺度参数 ,代表特征强度或特征寿命
m— —形状参数 ,又称威布尔斜率或威布尔模
量
式 ( 1-10)称为三参数的威布尔分布 ,这三个参
数的几何意义和物理意义都是很明显的。 r表示曲
线的起点位置 (沿横坐标 t ) ,在物理上它代表链条中
最弱链环的强度 ,当外力 t < r时 ,其失效概率就为
零。 t0表示横坐标 t的比例大小 , t0越大 ,曲线就沿 t
轴拉开 ,形状变坦变胖 ; t0越小 ,则曲线变陡变瘦。在
物理概念上 ,它代表失效概率为 63. 2%时的强度 ,
称它为特征强度。m是决定曲线类型的一个参数 ,它
在三个参数中是最重要的一个 ,也是一个本质的参
数 ,因为它的不同将决定不同类型的失效分布。例
如 ,图 1-5中画出了 r= 0, t0= 1时不同 m值的三条
曲线。其中 m < 1代表早期失效的情况 ; m= 1是指
数分布 ,代表偶然失效的情况 ; m> 1代表老化阶段
将到来 ,特别是 m= 3~ 4时 ,曲线就变成正态分布
曲线了。
图 1-5 m不同时威布尔分布的三种曲线
在研究疲劳寿命的威布尔分布时 ,经常用到下
式
f ( N ) =b
N a - N 0[N - N 0
N a - N 0]b- 1exp [- (
N - N 0
N a - N 0)b]
( 1-11)
式中 N 0——位置参数 ,最小寿命
N a— —尺度参数 ,特征寿命
b— —形状参数 ,威布尔斜率或模量
式 ( 1-11)与式 ( 1-10)一样 ,也是三参数的威布
尔分布。但在某些特定条件下 ,如电子元件的加速寿
命试验 ,疲劳中的高应力 (强化 )试验等条件下 ,上述
三参数变蜕化为二参数的威布尔分布
f ( t ) =mt0tm- 1
exp [-tm
t0]
f ( N ) =bN a
[NN a
]b - 1exp [- (NN a)b ]
( 1-12)
( 2) 概率的计算 对式 ( 1-10)和式 ( 1-11)积
分 ,便得到下列累积概率的表达式
F( t ) = 1 - exp [-( t - r )m
t0]
F( N ) = 1 - exp [- (N - N 0
N a - N 0)b]
( 1-13)
如是两参数威布尔分布 ,则只要对式 ( 1-12)积分
F( t ) = 1 - exp [- (tZ)m ]
F( N ) = 1 - exp [- (NNa)b]
( 1-14)
式中 Z= t1 /m0 是特征参量的另一种形式。
一般只要通过试验求得威布尔分布的参数 ,便
可通过式 ( 1-13)或式 ( 1-14)得到强度或寿命的累积
概率值。这在以后的介绍和例题中将会进一步说明。
·43·
凌树森: 试验数据的统计处理和误差分析 第一讲 概率论的基本概念