Download - 第五章数据分布特征的描述

Transcript

第五章数据分布特征的描述本章主要内容 : 1. 集中趋势的描述 2. 数值平均数 3. 位置平均数 4. 离中趋势的描述本章讲授方法 : 讲练结合本章讲授课时 : 6 课时

第一节集中趋势指标一、集中趋势与平均指标（一）集中趋势的含义：是指某一组数据向某

一中心值靠拢的倾向，这种倾向就是集中趋势。（二）平均指标：是用来反映总体的一般水平

和集中趋势的指标，也即集中趋势的中心值。平均指标的具体表现称为平均数。现象分布的集中趋势，主要是由平均指标来反

映的。平均指标主要包括数值平均数和位置平均数。

（三）平均指标的作用1. 可以对比不同总体的一般水平，即进行不同空间

的水平比较。2. 可以对不同时间的现象进行比较，即进行不同时

间上的同一现象进行比较。3. 分析现象之间的相互关系，并进行相关推算。（四）平均指标的特点：1. 平均指标是个代表值2. 把被研究总体各单位的标志值的数量差异抽象化

了。

二、数值平均数（一）算术平均数： 1. 定义：是变量的所有变量值之和除以变量值的个数。

2. 计算公式：根据掌握的资料的不同，分为简单算术平均

数和加权算术平均数。（ 1 ）简单算术平均数

总体单位总量总体标志总量

算术平均数

xx 资料未分组算术平均数

总体单位的个数变量值

合计

xxx n

例如：

某学习小组的五名学生数学学习成绩分别为：62 、 85 、 73 、 90 、 77 。则其平均成绩为：

五名学生的数学平均成绩为 77.4 分

7790738562

554321 xxxxx

387

（分）4.77

（ 2 ）加权算术平均数

加权算术平均数的计算公式

权数：平均数大小，不仅受变量值的影响，还受各组次数的影响，哪一组次数多，变量值就会趋向于这个值，所以各组次数可以起到一个权衡平均数大小的这样一个作用，所以也称之为权数。

加权算术平均数与简单算术平均数的关系：如果各组次数相等，即权数相当时，加权算术平均数就变成了简单算术平均数了。权数的作用没有了。

xfx

各组单位数（权数）

根据分组资料计算

某生产小组工人生产零件情况

日产零件（件）

人（人

15 － 2020 － 2525 － 30

354

合计 12

组中值x

17.522.527.5

＿

人数比重（ % ）f ／ 1225.00 41.67 33.33

100.00

x f

52.5115110

275

x*f/12

4.38 9.38 9.17

22.92

xfx

件）(92.2212

275

x 件）(92.22

（ 3 ）算术平均数的数学性质

　　各变量值与其算术平均数的离差之和等于零

　　各变量值与其算术平均数的离差平方和为最小值．

根据组距数列计算的算术平均数仅是个近似值，是在假定各组数据分布均匀的前提下计算的。

0)( xx 0)( fxx

最小值2)( xx 最小值fxx 2)(

（二）调和平均数 1. 定义：调和平均数是各变量值倒数的算术平均数的倒数。在实际应用中，更多地是做为算术平均数的变形来应用

的 2. 计算公式：（ 1 ）简单调和平均数：各组标志总量相等时，可采用

简单。其计算公式：

kmH

调和平均数组数各组标志总量各组标志值

例：

市场上某种蔬菜的价格是早市每公斤 1.25元，午市每公斤 1.20 元，晚市每公斤 1.10 元，若某饭店早、中、晚各买 10 元钱的蔬菜，问所购蔬菜的平均价格是多少？

购买蔬菜的金额是标志总量，且三组均为 10 元

该饭店购买的这种蔬菜价格为 1.18 元

1元）(18.1

1.11

2.11

25.11

权数

（ 2 ）加权调和平均数

当各组标志总量不相同时。应采用加权调和平均数。其计算公式为：

在这个公式中，各组的标志总量即权数是不相等的，如果相等了，就等于简单调和平均数了。

调和平均数，通常是做为算术平均数的变型来应用的在不同的情况下，有的时候采用算术平均数，有的时候采用调和平均数。

mmmH

（ 3 ）调和平均数的应用

在计算绝对数的平均数时，通常采用加权算术平均数就可以了，当计算相对数或平均数的平均数时，就需要进行判断，是采用加权算术平均数还是调和平均数。

相对数或平均数都是由两个数值比对形成的，我们可以称之为比值变量。

当知道比值变量及其分子时，我们应该以分子做为权数，采用加权调和平均数的计算公式，如果知道比值变量及其分母时，我们应该以分母做为权数，采用加权算术平均数的计算公式。

分母分子

比值变量＝加权算术

加权调和

某公司所属三个部门资金利润率及平均占用资金资料如下：

在这个例子中，利润率是个相对数，是个比值变量。如果我们知道了利润率和利润率的分母平均资金占用时，我们可以采用以平均资金占用为权数的加权算术平均数计算公式

部门

甲乙丙

合计

平均占用资金 f（万元）

5080

150

280

资金利润率x （ % ）

121524

—

xfx

利润总（万元） xf

61236

%3.19280

如果将上例条件变换如下：

在这个例子中，我们知道了比例变量利润率和分子利润额，所以应该利用以分子利润额为权数的加权调和平均数计算分式：

部门

甲乙丙

合计

资金利润率x （ % ）

121524

—

平均占用资金（万元）m/x

5080

150

280

利润总（万元）m6

1236

mmmH

m%3.19

280

（三）几何平均数

1. 定义：几何平均数是 n个变量值乘积后的开n次方根。通常是计算平均比率或平均速度。

2. 计算公式：（ 1 ）简单几何平均数

（ 2 ）加权几何平均数

nxxxxG 321 资料未分组

f fff xxxG 321

321 资料已经分组

例：某机械厂五个流水作业车间的合格率分别为 96% 、 94% 、

95% 、 95% 、 96% ，则五个车间的产品平均合格率为？

%96%95%95%94%96

nxxxxG 321

%20.95

三、位置平均数

（一）中位数 1. 中位数的定义：是变量的所有变量值按大小排列后，处

于中间位置上的那个变量值。 2. 计算方法：（ 1 ）根据未分组资料计算：首先将所有的变量值按大小进行排序；其次确定中位数。中位数me ＝

)12()

2(2

1nn xx

n为奇数

n为偶数

n为变量值的个数

(2) 根据分组资料确定中位数

①根据单项式数列计算：步骤：第一，确定中位数位置：第二，对数列中各组的频数进行向上累计或向下累

计第三，确定中位数：当某一组的累计频数大于或等

于时，该组的变量值就是中位数。

中位数为 3.

1 f

家庭人口数（人

）家庭数（户）

12345

53124

合计 79

402

179

f累计频数

向上累计向下累计

210637579

797769164

— —

各组频数

② 根据组距数列计算

步骤：第一，确定中位数所在位置；第二，对数列的各组频数进行向上累计或向下累计；第三，确定中位数所在组；第四，根据下面的比例插值法公式确定中位数；下限公式：

上限公式：

2 f

Umm

lmm

中位数所在组下限

中位数所以组频数

中位数所在组组距

中位数组以下各组累计次数

中位数组以上各组累计次数

中位数所在组上限

例如，某电子元件厂工人日产量资料如下：

中位数所在组为： 1000 － 1100 件这一组。然后根据下限公式计算中位数为：

日产量（件）工人数（人）累计频数

向下累计向上累计800 以下 40 40 534

800 － 900 48 88 494

900 － 1000 59 147 446

1000 － 1100 206 353 387

1100 － 1200 82 435 181

1200 － 1300 56 491 99

1300 以上 43 534 43

合计 534 — —

lmm

12 ）件(25.1058100

206

1472534

1000

（二）众数 1. 定义：众数是变量数列中出现次数最多，频率最高的变

量值。 2. 计算方法：（ 1 ）根据单项式数列计算：出现次数最多的变量值即为众数。（ 2 ）根据组距数列计算：先确定众数所以组，然后根据下列公式计算。下限公式

上限公式dlmo

dUmo

△1 为众数组次数与下一组次数之差 △2 为众数组次数与上一组次数之差

如上例

在这个例子中，可以看到众数组为 1000 － 1100 这一

组。根据下限公式，我们可计算众数为：

日产量（件）工人数（人）800 以下

800 － 900900 － 1000

1000 － 11001100 － 12001200 － 1300

1300 以上

404859206825643

合计 534

dlmo

1 件）(24.1054100)82206()59206(

592061000

第二节离中趋势的描述一、离中趋势和离散指标（一）离中趋势：是指一组数据中各数据值以不同程度的距

离偏离中心的趋势。（二）离散指标：就是反映变量值变动范围和差异程度的指

标，即反映分布中各变量值远离中心值或代表值程度的指标。（反映变量值不一样的程度）

（三）作用： 1. 可以用来衡量和比较平均数的代表性；（反比） 2. 可以用来反映各种现象活动过程的均衡性； 3. 可以反映数据分布的离散程度。离散指标主要介绍：全距、平均差、标准差、标准差系数。

二、离散指标的测度（一）全距（极差） 1. 定义：最大变量值与最小变量值之差。 2. 计算方法：

在单项式变量数列中，用变量值中的最大值减去最小值即可。而在组距式变量数列中，应用变量值最大组的上限减去变量值最小组的下限。

3.优缺点：优点：计算简便，应用比较多，如压差、温差等。缺点：受极值影响大，计算粗糙，没有考虑到所有变

量值。

minmax xxR

（二）平均差

1. 定义：是各变量值与其平均数离差绝对值的算术平均数。 2. 计算公式：（ 1 ）简单式：

（ 2 ）加权式：

平均差在计算上，不利于代数运算，所以通常不用这种

方法计算，而是采用一种更合理的测定方法：标准差。

xxDA

fxxDA.

资料未分组

资料已经分组

（三）标准差

1. 定义：是各变量值与其平均数离差平方的算术平均数的平方根。标准差的平方叫方差。

2. 计算公式：（ 1 ）简单式：

（ 2 ）加权式：

总体的标准差通常用表示，而样本的标准差通常用 S表示。

fxx 2

资料未分组

资料已经分组

例如，某电子元件厂工人日产量资料如下：日产量（件）工人数

（人）800 以下

800 － 900900 － 10001000 － 110

01100 － 120

01200 － 130

01300 以上

404859206825643

合计 534

组中值（件）

7508509501050115012501350

　 ---

x f30000408005605021630

0943007000058050

565500

95474.82

43676.82

11878.82

80.82018282.8236484.8

284686.8

2　 ---

3818993

2096487

700850.4

16648.94

679191.2

2043150

3641533

12996854

2xx fxx2

xfx 件）(99.1058

534

565500

fxx 2

（件）＝＝ 01.156534

12996854

(四）标准差系数

1. 定义：是指标准差与其平均数相对比得到的比率。标准差系数是一个相对指标，当比较的现象水平不相等

或计量单位不同的情况下，可以用这个指标进行对比。例如： 10 11 12 13 14 101 102 103 104 105 这两组数值的标准差是一致的，但实质上其离散程度是

不一样的。因为其平均水平是不相等的。在这种情况下如果比较其离散程度，应该用相对离散程度来比较。

2. 计算公式： %100

＝

例如：两个企业工资相关资料如下：甲企业：平均工资为 1200 元，标准差为 57 元；乙企业：平均工资为 2000 元，标准差为 60 元。试比较两个企业的平均工资的代表性。

从上面的计算结果上看，如果从绝对数（即标准差上比较，甲企业的平均工资的代表性好于乙企业，但如果从标准差系数上来看，甲企业的平均工资的代表性就不如乙企业了。

%75.4%1001200

57%100

甲

甲甲 x

%3%1002000

60%100 ＝＝＝

乙

乙乙

Top Related

Chapter 5 控制電源元件及其描述

图 1 解释储层沉积微相类型，并类描述其特征

RTN 905 V100R005C01 产品描述 03(20130515)

第三章数据描述的综合指标

第 3 章 VHDL 硬件描述语言 ( 一 )

Ethics Theories 172 - fdjpkc.fudan.edu.cnfdjpkc.fudan.edu.cn/_upload/article/files/fd/fb/cb34c5624040a049a2e... · 系列完整、细致的描述，这些品德和人格特征是美

Bio-oxygen 产品描述：

第八章图像分割、特征提取与描述

Download - 第五章 数据分布特征的描述

Download - 第五章数据分布特征的描述