第五章 数据分布特征的描述 本章主要内容 : 1. 集中趋势的描述 2. 数值平均数 3. 位置平均数 4. 离中趋势的描述 本章讲授方法 : 讲练结合 本章讲授课时 : 6 课时
第一节 集中趋势指标一、集中趋势与平均指标(一)集中趋势的含义:是指某一组数据向某
一中心值靠拢的倾向,这种倾向就是集中趋势。(二)平均指标:是用来反映总体的一般水平
和集中趋势的指标,也即集中趋势的中心值。 平均指标的具体表现称为平均数。 现象分布的集中趋势,主要是由平均指标来反
映的。平均指标主要包括数值平均数和位置平均数。
(三)平均指标的作用1. 可以对比不同总体的一般水平,即进行不同空间
的水平比较。2. 可以对不同时间的现象进行比较,即进行不同时
间上的同一现象进行比较。3. 分析现象之间的相互关系,并进行相关推算。(四)平均指标的特点:1. 平均指标是个代表值2. 把被研究总体各单位的标志值的数量差异抽象化
了。
二、数值平均数(一)算术平均数: 1. 定义:是变量的所有变量值之和除以变量值的个数。
2. 计算公式:根据掌握的资料的不同,分为简单算术平均
数和加权算术平均数。 ( 1 )简单算术平均数
总体单位总量总体标志总量
算术平均数
n
xx 资料未分组算术平均数
总体单位的个数 变量值
合计
n
xxx n
21
例如:
某学习小组的五名学生数学学习成绩分别为:62 、 85 、 73 、 90 、 77 。则其平均成绩为:
五名学生的数学平均成绩为 77.4 分
5
7790738562
n
xx
554321 xxxxx
5
387
(分)4.77
( 2 )加权算术平均数
加权算术平均数的计算公式
权数:平均数大小,不仅受变量值的影响,还受各组次数的影响,哪一组次数多,变量值就会趋向于这个值,所以各组次数可以起到一个权衡平均数大小的这样一个作用,所以也称之为权数。
加权算术平均数与简单算术平均数的关系:如果各组次数相等,即权数相当时,加权算术平均数就变成了简单算术平均数了。权数的作用没有了。
f
xfx
f
fx
各组单位数(权数)
根据分组资料计算
某生产小组工人生产零件情况
日产零件(件)
x
人(人
)f
15 - 2020 - 2525 - 30
354
合计 12
组中值x
17.522.527.5
_
人数比重( % )f / 1225.00 41.67 33.33
100.00
x f
52.5115110
275
x*f/12
4.38 9.38 9.17
22.92
f
xfx
f
fx
件)(92.2212
275
x 件)(92.22
( 3 )算术平均数的数学性质
各变量值与其算术平均数的离差之和等于零
各变量值与其算术平均数的离差平方和为最小值.
根据组距数列计算的算术平均数仅是个近似值,是在假定各组数据分布均匀的前提下计算的。
0)( xx 0)( fxx
最小值2)( xx 最小值fxx 2)(
(二)调和平均数 1. 定义:调和平均数是各变量值倒数的算术平均数的倒数。 在实际应用中,更多地是做为算术平均数的变形来应用
的 2. 计算公式: ( 1 )简单调和平均数:各组标志总量相等时,可采用
简单。其计算公式:
x
k
xm
xm
xm
kmH
k
1
21
调和平均数 组数 各组标志总量 各组标志值
例:
市场上某种蔬菜的价格是早市每公斤 1.25元,午市每公斤 1.20 元,晚市每公斤 1.10 元,若某饭店早、中、晚各买 10 元钱的蔬菜,问所购蔬菜的平均价格是多少?
购买蔬菜的金额是标志总量,且三组均为 10 元
该饭店购买的这种蔬菜价格为 1.18 元
x
kH
1元)(18.1
1.11
2.11
25.11
3
权数
( 2 )加权调和平均数
当各组标志总量不相同时。应采用加权调和平均数。其计算公式为:
在这个公式中,各组的标志总量即权数是不相等的,如果相等了,就等于简单调和平均数了。
调和平均数,通常是做为算术平均数的变型来应用的在不同的情况下,有的时候采用算术平均数,有的时候采用调和平均数。
k
k
k
m
m
xm
xm
mmmH
2
2
1
1
21
xm
m
( 3 )调和平均数的应用
在 计算绝对数的平均数时,通常采用加权算术平均数就可以了,当计算相对数或平均数的平均数时,就需要进行判断,是采用加权算术平均数还是调和平均数。
相对数或平均数都是由两个数值比对形成的,我们可以称之为比值变量。
当知道比值变量及其分子时,我们应该以分子做为权数,采用加权调和平均数的计算公式,如果知道比值变量及其分母时,我们应该以分母做为权数,采用加权算术平均数的计算公式。
分母分子
比值变量=加权算术
加权调和
某公司所属三个部门资金利润率及平均占用资金资料如下:
在这个例子中,利润率是个相对数,是个比值变量。如果我们知道了利润率和利润率的分母平均资金占用时,我们可以采用以平均资金占用为权数的加权算术平均数计算公式
部门
甲乙丙
合计
平均占用资金 f(万元)
5080
150
280
资金利润率x ( % )
121524
—
f
xfx
利润总(万元) xf
61236
54
%3.19280
54
如果将上例条件变换如下:
在这个例子中,我们知道了比例变量利润率和分子利润额,所以应该利用以分子利润额为权数的加权调和平均数计算分式:
部门
甲乙丙
合计
资金利润率x ( % )
121524
—
平均占用资金(万元)m/x
5080
150
280
利润总(万元)m6
1236
54
k
k
k
m
m
xm
xm
mmmH
2
2
1
1
21
xm
m%3.19
280
54
(三)几何平均数
1. 定义:几何平均数是 n个变量值乘积后的开n次方根。通常是计算平均比率或平均速度。
2. 计算公式: ( 1 )简单几何平均数
( 2 )加权几何平均数
n
nxxxxG 321 资料未分组
f fff xxxG 321
321 资料已经分组
例:某机械厂五个流水作业车间的合格率分别为 96% 、 94% 、
95% 、 95% 、 96% ,则五个车间的产品平均合格率为?
5
%96%95%95%94%96
n
nxxxxG 321
%20.95
三、位置平均数
(一)中位数 1. 中位数的定义:是变量的所有变量值按大小排列后,处
于中间位置上的那个变量值。 2. 计算方法: ( 1 )根据未分组资料计算: 首先将所有的变量值按大小进行排序; 其次确定中位数。 中位数me =
)2
1(
nx
)12()
2(2
1nn xx
n为奇数
n为偶数
n为变量值的个数
(2) 根据分组资料确定中位数
①根据单项式数列计算: 步骤:第一,确定中位数位置: 第二,对数列中各组的频数进行向上累计或向下累
计 第三,确定中位数:当某一组的累计频数大于或等
于 时,该组的变量值就是中位数。
中位数为 3.
2
1 f
2
1 f
家庭人口数(人
)家庭数(户)
12345
28
53124
合计 79
402
179
2
1
f累计频数
向上累计 向下累计
210637579
797769164
— —
各组频数
② 根据组距数列计算
步骤:第一,确定中位数所在位置; 第二,对数列的各组频数进行向上累计或向下累计; 第三,确定中位数所在组; 第四,根据下面的比例插值法公式确定中位数; 下限公式:
上限公式:
2 f
df
sf
Umm
m
e
12
df
sf
lmm
m
e
12
中位数所在组下限
中位数所以组频数
中位数所在组组距
中位数组以下各组累计次数
中位数组以上各组累计次数
中位数所在组上限
例如,某电子元件厂工人日产量资料如下:
中位数所在组为: 1000 - 1100 件这一组。然后根据下限公式计算中位数为:
日产量(件) 工人数(人)累计频数
向下累计 向上累计800 以下 40 40 534
800 - 900 48 88 494
900 - 1000 59 147 446
1000 - 1100 206 353 387
1100 - 1200 82 435 181
1200 - 1300 56 491 99
1300 以上 43 534 43
合 计 534 — —
df
sf
lmm
m
e
12 )件(25.1058100
206
1472534
1000
(二)众数 1. 定义:众数是变量数列中出现次数最多,频率最高的变
量值。 2. 计算方法: ( 1 )根据单项式数列计算: 出现次数最多的变量值即为众数。 ( 2 )根据组距数列计算: 先确定众数所以组,然后根据下列公式计算。 下限公式
上限公式dlmo
21
1
dUmo
21
2
△1 为众数组次数与下一组次数之差 △2 为众数组次数与上一组次数之差
如上例
在这个例子中,可以看到众数组为 1000 - 1100 这一
组。根据下限公式,我们可计算众数为:
日产量(件) 工人数(人)800 以下
800 - 900900 - 1000
1000 - 11001100 - 12001200 - 1300
1300 以上
404859206825643
合 计 534
dlmo
21
1 件)(24.1054100)82206()59206(
592061000
第二节 离中趋势的描述一、离中趋势和离散指标(一)离中趋势:是指一组数据中各数据值以不同程度的距
离偏离中心的趋势。(二)离散指标:就是反映变量值变动范围和差异程度的指
标,即反映分布中各变量值远离中心值或代表值程度的指标。(反映变量值不一样的程度)
(三)作用: 1. 可以用来衡量和比较平均数的代表性;(反比) 2. 可以用来反映各种现象活动过程的均衡性; 3. 可以反映数据分布的离散程度。 离散指标主要介绍:全距、平均差、标准差、标准差系数。
二、离散指标的测度(一)全距(极差) 1. 定义:最大变量值与最小变量值之差。 2. 计算方法:
在单项式变量数列中,用变量值中的最大值减去最小值即可。而在组距式变量数列中,应用变量值最大组的上限减去变量值最小组的下限。
3.优缺点: 优点:计算简便,应用比较多,如压差、温差等。 缺点:受极值影响大,计算粗糙,没有考虑到所有变
量值。
minmax xxR
(二)平均差
1. 定义:是各变量值与其平均数离差绝对值的算术平均数。 2. 计算公式: ( 1 )简单式:
( 2 )加权式:
平均差在计算上,不利于代数运算,所以通常不用这种
方法计算,而是采用一种更合理的测定方法:标准差。
n
xxDA
.
f
fxxDA.
资料未分组
资料已经分组
(三)标准差
1. 定义:是各变量值与其平均数离差平方的算术平均数的平方根。标准差的平方叫方差。
2. 计算公式: ( 1 )简单式:
( 2 )加权式:
总体的标准差通常用 表示,而样本的标准差通常用 S表示。
n
xx
2
f
fxx 2
资料未分组
资料已经分组
例如,某电子元件厂工人日产量资料如下:日产量(件) 工人数
(人)800 以下
800 - 900900 - 10001000 - 110
01100 - 120
01200 - 130
01300 以上
404859206825643
合 计 534
组中值(件)
7508509501050115012501350
---
x f30000408005605021630
0943007000058050
565500
95474.82
43676.82
11878.82
80.82018282.8236484.8
284686.8
2 ---
3818993
2096487
700850.4
16648.94
679191.2
2043150
3641533
12996854
2xx fxx2
f
xfx 件)(99.1058
534
565500
f
fxx 2
(件)== 01.156534
12996854
(四)标准差系数
1. 定义:是指标准差与其平均数相对比得到的比率。 标准差系数是一个相对指标,当比较的现象水平不相等
或计量单位不同的情况下,可以用这个指标进行对比。 例如: 10 11 12 13 14 101 102 103 104 105 这两组数值的标准差是一致的,但实质上其离散程度是
不一样的。因为其平均水平是不相等的。在这种情况下如果比较其离散程度,应该用相对离散程度来比较。
2. 计算公式: %100
x
=
例如:两个企业工资相关资料如下: 甲企业:平均工资为 1200 元,标准差为 57 元; 乙企业:平均工资为 2000 元,标准差为 60 元。 试比较两个企业的平均工资的代表性。
从上面的计算结果上看,如果从绝对数(即标准差上比较,甲企业的平均工资的代表性好于乙企业,但如果从标准差系数上来看,甲企业的平均工资的代表性就不如乙企业了。
%75.4%1001200
57%100
甲
甲甲 x
%3%1002000
60%100 ===
乙
乙乙
x
Top Related