第二章 地理数据的初步整理

72
第第第 第第第第第第第第第 第第第第第第第 第第第第第第 第第第第第第第 第第第第 (一) 第第第第 第第第第第第第第第第 第 第第第第第 第第第第第 ,体、、、 第第第第第第第第第第第 第第第第第第第第第第第 第第第第第第第第第第 第第第 、、。 第第第第 第第第第第第第第第 第第 第第第第第第第 第第第第第第第第第第第第第第第 ,、、体 第第 第第第第第第第第 :一( x,y 第第第 第第第第第第第第第第 ), 第第 第第第第第 第第第第第 第第第第 第第第第第第第 第第第第第第第第第第第 ,一体,、 第第第第第第 第第第第 、。

description

第二章 地理数据的初步整理. 第一节 地理数据的类型、特征及其采集. 一、地理数据的类型. (一)空间数据. 空间数据,主要用于描述地理实体、地理要素、地理现象、地理事件及地理过程产生、存在和发展的地理位置、区域范围及空间联系。空间数据的表达,可以将其归纳为点、线、面三种几何实体以及描述它们之间联系的拓扑关系 。. 点:由一个独立的坐标点( x,y )定位,可以表示精确的地理坐标点,也可以是一些地理实体的抽象,如道路交叉点、河流汇聚点以及小比例尺地图上的城镇、村庄等。. - PowerPoint PPT Presentation

Transcript of 第二章 地理数据的初步整理

Page 1: 第二章 地理数据的初步整理

第二章 地理数据的初步整理第一节 地理数据的类型、特征及其采集一、地理数据的类型

(一)空间数据 空间数据,主要用于描述地理实体、地理要素、地理现象、地理事件及地理过程产生、存在和发展的地理位置、区域范围及空间联系。空间数据的表达,可以将其归纳为点、线、面三种几何实体以及描述它们之间联系的拓扑关系。 点:由一个独立的坐标点( x,y )定位,可以表示精确的地理坐标点,也可以是一些地理实体的抽象,如道路交叉点、河流汇聚点以及小比例尺地图上的城镇、村庄等。

Page 2: 第二章 地理数据的初步整理

线:由两个以上坐标点定义,有一定的长度和走向,表示线状地物或点实体之间的联系。如交通线、河流及各种地理区域的界线等,都是线实体。

面:表示在空间上连续分布的地理景观或区域。如居民区、工业区、行政区等都是面实体。

点、线、面三种地理几何实体,按照一定的拓扑关系组合、排列,就可以形成更为复杂的地理几何实体。如点、线组合形成网络;线、面组合形成地带;点、面组合形成地域类型;点、线、面组合形成地理区。

Page 3: 第二章 地理数据的初步整理

(二)属性数据

属性数据主要用于描述地理实体、地理要素、地理现象、地理事件及地理过程的有关属性特征,如海拔高度、气温、植被覆盖率、人口数量等。属性数据可以分为两种类型:即数量标志数据和品质标志数据。

( 1 )数量标志数据

Page 4: 第二章 地理数据的初步整理

① 间隔尺度数据

是以有量纲的数据形式表示测度对象在某种量纲下的绝对量。如摄氏温标表示气温,以面积量纲表示土地面积 。

Page 5: 第二章 地理数据的初步整理

是以无量纲的数据形式表示测度对象的相对量。这种数据要求事先规定一个基点,然后将其他同类数据与基点数据相比较,换算为基点数据的比例。因此这类数据常常又称为指数或比例数。如耕地指数、工业发展指数、舒适度指数等。

② 比例尺度数据

Page 6: 第二章 地理数据的初步整理

( 2 )品质标志数据

① 有序数据 表示其顺序关系的数据,则称其为有序尺度或等级尺度数据。这种数据并不表示量的多少,而只是给出一个等级或次序。如用 1 、 2 、 3 等分别表示特大城市、大城市、中等城市等城市等级。

Page 7: 第二章 地理数据的初步整理

② 二元数据

即用 0 、 1 两个数据表示地理事物、地理现象或地理过程的比较判断问题。如在人口统计中,用 1表示男性,用 0 表示女性;用 1 表示多,用 0 表示少等。

Page 8: 第二章 地理数据的初步整理

③ 名义尺度数据

即用数字表示地理实体、地理要素、地理现象、地理事件的状态类型。如在土地利用现状调查中,用数字表示土地利用的状态, 15 表示菜地, 14表示草地等。

Page 9: 第二章 地理数据的初步整理

属性数据根据变量值是否连续也可分为不连续性或间断性数据和连续性数据。

不连续性或间断性数据是指用计数方法获得的数据。如人口数、学校数、作物的苗数等;

连续性数据指称量、度量或测量方法所得到的数据,其各个观察值并不限于整数,在两个整数之间可以有微量数值差异的第三个数值存在。

Page 10: 第二章 地理数据的初步整理

根据数据的来源不同,数据分为横贯数据( cross-sectional data)和纵贯数据( longitudinal data)。

横贯数据指对同一时间、不同个体的观察数据,有时也称为静态数据;纵贯数据指对同样的个体在不同时间上的多次观察所得到的数据,有时称为动态数据。

Page 11: 第二章 地理数据的初步整理

1. 从空间尺度上看,地理学的研究对象—地理区域,既可以是全球范围的、洲际范围的、国家范围的,也可以是流域范围的、地区范围的、城市范围的社区范围等。

2. 从时间尺度上看,地理学的研究对象—地理过程,既有以地质年代和地层年代衡量的古地质过程,也有以历史年代衡量的历史地理过程,还有以天、月、季度、年等时间单位衡量的现代地理过程。

二、地理数据的特征

(一)地理数据的时空特征

Page 12: 第二章 地理数据的初步整理

对于一个地理对象,需要从空间、属性和时间三个方面进行综合描述。在空间方面,需要描述该地理对象所处的地理位置的空间范围;在属性方面,需要描述该地理对象的具体内容;在时间方面,需要描述该地理对象产生、发展和存在的时间范围。

(三)不确定性

主要是由于地理系统的复杂性和数据采集过程中造成的误差。

(二)多维性

Page 13: 第二章 地理数据的初步整理

( 2 )原始记录:来自观测、测量部门的有关专业数据。如来自水文观测站的有关水文数据;来自气象观测站的有关气象数据;来自环境监测部门的空气、水质数据等。

三、地理数据采集

(一)原始资料的收集

( 1 )试验方法:控制一种或多种因素保持不变,记录某种所研究因素的变化情况。

Page 14: 第二章 地理数据的初步整理

( 1 )来自统计年鉴、统计公报中的有关自然资源及社会经济发展数据。如从各级政府统计部门公布和出版的统计年鉴中,可以得到当地的耕地面积、各类农作物播种面积、粮食产量、人口劳动力、工业投资及产值、国内生产总值等数据。

(二)次级资料的收集

( 2 )来自有关单位或个人的不定期的典型调查数据、抽样调查数据。

Page 15: 第二章 地理数据的初步整理

( 3 )来自政府公报、政府文件中的有关数据。( 4)来自档案、图书等文献资料中的有关数据。( 5 )来自互联网的有关共享数据。( 6)地图图件。主要包括各种比例尺的地形图、影像地图、专题地图等。( 7)遥感数据。主要包括各种航空遥感数据和卫星遥感数据。( 8)其他来源的有关数据。

Page 16: 第二章 地理数据的初步整理

对于地理数据的采集,需要特别注意和强调的是数据的质量,即数据的完备性和可靠性。

在数据采集的开始,首先要考虑数据来源的可靠性。

在数据采集过程中,要采取一切可能的手段和技术措施,最大限度地减少数据的误差。

在数据采集完毕后,要对各种数据质量进行检验,要对不同来源的相同数据进行比较,辩别真伪,要通过数据筛选,去粗存精,去伪存真。

对于残缺的但确实必须的数据,要想办法进行及时补充。有时,为了插补残缺的有关地理数据,经常需要运用有关数学方法。

Page 17: 第二章 地理数据的初步整理

第二节 地理数据的初步整理

一、几个基本概念

总体:数据来源的范围。

从一个集合中选取一部分元素,对这部分元素的某些数量指标进行测量,根据测量获得的这些数据来推断这集合中的全部元素的这些指标的分布情况 (包括这些指标的某些特征数字 )。称全部元素组成的集合为总体 (或母体 ),称组成总体的每个元素为总体单元 (或个体 )

Page 18: 第二章 地理数据的初步整理

自然总体:由客观存在的具有相同性质的许多个别事物构成的整体。

测量总体:个体所具有共同属性的数值的整体。

有限总体:组成总体的个体数量是有限个。

无限总体:

定义 1. 总体 (母体 ) 是指研究对象的全体。组成总体的每个元素叫做总体单元 ( 个体 ) 。

Page 19: 第二章 地理数据的初步整理

样本:总体中的一部分个体所构成的整体。

为研究总体数量指标的取值规律 (分布律 ),常常从总体中抽出一部分单元,对这些单元的标志值进行观察,利用这些观察结果对总体的分布进行推断。抽出的这部分单元组成的集合称为样本,抽出的每一个单元叫做样本单元,抽出的单元个数叫做样本容量。抽出一部分单元的过程叫做抽样。假设总体标志为,样本单元数为,观测到的样本单元的标志值记为,则称为总体的容量为的一个样本。其中应视为维随机变量。抽样得到的具体结果叫做样本观察值。

Page 20: 第二章 地理数据的初步整理

自然样本:在自然总体中选取的部分个体所组成的集合。

测量样本:自然样本中的所有个体的测量数据的整体。

统计:包括统计活动、统计资料、统计学

统计活动:是指各国政府或其他机构为满足政治、经济、社会等方面的需要以及科学研究的需要而进行的收集、整理、分析、编制有关数据的一系列活动。这些活动包括统计调查、统计整理、统计描述、统计分析和数据显示等过程。

Page 21: 第二章 地理数据的初步整理

统计资料:指由统计活动产生的原始的或已经加工、整理过的客观现象的数据资料,它是统计活动的成果。

统计学:是研究客观现象数量关系及其变化规律的方法论科学,是一门关于统计资料的收集、显示、描述和分析方法的学科。

Page 22: 第二章 地理数据的初步整理

(一)使用统计表进行整理

统计表是用来表达统计指标与被说明的事物之间数量关系的表格。它可以将大量数据的分类结果,清晰、概括、一目了然的表达出来,明显地反映出事物的全貌及其蕴涵的特性,省去冗长的文字叙述,便于分析、比较、计算和记忆。

1. 统计表的结构及编制

统计表一般由标题、表号、标目、线条、表注等项构成。

二、资料的初步整理

Page 23: 第二章 地理数据的初步整理

( 1 )标题 标题是表的名称,应确切地、简明扼要地说明表的内容。标题应写在表的上方。必要时,应在标题下注明资料的来源(地点、单位)和时间。

Page 24: 第二章 地理数据的初步整理

( 2 )表号 表号是表的序号。若文章中有几张表,则需按它们出现的先后次序编上序号,并写在标题的左方。

( 3 )标目 标目是表格中对统计数据分类的项目。按标目在表中的位置,可分为横标目和纵标目。位于表的左侧者为横标目,因为它与所指明的数字在同一横行;位于表的上端者为纵标目,因为它与所指明的数字在同一纵列。必要时可在横标目和纵标目的上方加上适当的总标目。横标目是要说明的对象,纵标目是要说明的统计指标。如纵标目比较复杂,可将一部分内容移到横标目上去。

Page 25: 第二章 地理数据的初步整理

( 4)线条 线条不宜过多。顶线、底线、隔开纵标目与数字的横线,是表的基本线条。表的左上角不宜有斜线,表的中间不要有横线,表的左右两侧不要用纵线封闭。

( 5 )数字 表内数字必须准确,一律用阿拉伯字母表示,位次对齐,小数的位数一致。表内不应有空格。暂缺或未记录可用“…”或“……”表示,无数字用“—”表示,数字若是“ 0”,则应填写“ 0”。

( 6)表注 它不是表的必要组成部分。若确有必须补充说明的问题,可用简短的小号字写在表的下方。

Page 26: 第二章 地理数据的初步整理

2 、统计表的种类

( 1 )简单表横标目和纵标目只有一个对象的表格,称为简单表

Page 27: 第二章 地理数据的初步整理

( 2 )复合表 横标目和纵标目包含两层以上对象的表格,称为复合表。

Page 28: 第二章 地理数据的初步整理

(二)用统计分组进行整理

所谓统计分组就是根据研究的需要,将总体按照一定的标志划分为若干个组成部分的方法。

步骤:

① 按照研究目的,选择一个或一个以上的分组标志,对调查资料进行分组;

②编制适当表格以便汇总资料;

③ 将资料逐一进行计数和加总。

Page 29: 第二章 地理数据的初步整理

1 、按品质标志分组 按品质标志分组可以将统计资料划分若干个性质不同的组成部分,可以区别个体之间的不同属性。

频数分布表:频数分布通常用表格的形式表示。

由两部分构成:一部分是分组形成的各个组别;另一部分是每一组出现的次数,称为频数 或频率。

频率:各组的频数与总的频数相比的比率。

在进行分组时,要注意划分清楚各组的界限,使每一数据只能属于惟一一组,即要遵循“互斥”原则;同时,也不能使数据有所遗漏,所有的数据都要属于某一组,即要遵循“穷尽”原则。

Page 30: 第二章 地理数据的初步整理

如银行要研究信用卡使用顾客的职业情况,以便根据顾客情况提供更方便的服务,现将职业分为七个类型进行统计:

Page 31: 第二章 地理数据的初步整理

2 、按数量标志分组

选择数量标志为分组标志,就是将总体按数量的差异划分为具有不同数值的组成部分,以便反映出各组别在数量上存在的差异。

( 1 )单项式分组

当整理的是标志值较少且变动范围不大的数据资料时,一般选择进行单项式进行分组,所形成的分布称为单项式频数分布。即把标志值按大小顺序一一排列出来,将每一个标志值作为一组,与相应的统计数构成一个表格。

Page 32: 第二章 地理数据的初步整理

例如有 100 个城市中,具有千人以上的大企业的个数如表所示,求不同企业数分布的频数。

Page 33: 第二章 地理数据的初步整理

( 2 )组距式分组 组距式分组的方法是,首先选择某一数量标志,然后按标志值的大小分为不同的组别,在每一组中都包括若干个标志值,最后将每一组别出现的次数累计加总,由此形成的分布就是组距式频数分布。

Page 34: 第二章 地理数据的初步整理

177 215 197 97 123 159 245 119 119 131 149 152 167 104

161 214 125 175 219 118 192 176 175 95 136 199 116 165

214 95 158 83 137 80 138 151 187 126 196 134 206 137

98 97 129 143 179 174 159 165 136 108 101 141 148 168

163 176 102 194 145 173 75 130 149 150 161 155 111 158

131 189 91 142 140 154 152 163 123 205 149 155 131 209

183 97 119 181 149 187 131 215 111 186 118 150 155 197

116 254 239 160 172 179 151 198 124 179 135 184 168 169

173 181 188 211 197 175 122 151 171 166 175 143 190 213

192 231 163 159 158 159 177 147 194 227 141 169 124 159

例 2 ,如 140 个年级的总学生人数如表所示,计算频数。

Page 35: 第二章 地理数据的初步整理

① 数据排序 :首先对数据按大到小排列或从小到大排列。

② 求极差 :所有数据中的最大观察值和最小值观察值的差值。亦即整个样本的变异幅度。极差 =254-75=179

③ 确定组数和组距

Page 36: 第二章 地理数据的初步整理

样本内观察值的个数 组数 50 5~ 10

100 8 ~ 16

200 10 ~ 20

300 12 ~ 24

500 15 ~ 30

1000 20 ~ 40

样本容量与组数多少的关系

美国统计学家斯特吉斯提供的公式为:

NK lg322.31

式中 ,K代表组数, N代表数据总数。

Page 37: 第二章 地理数据的初步整理

查表,为 8~ 16组,假定为 12 组,则组距 =179/12=14.9, 可近似取 15 。

④ 选定组限和组中点值

每组应有明确的界限,才能使各个观察值划入一定的组内。

首先要选定第一组的中心值,则该组组限确定,其余各组的中心值和组限也可确定。第一组的中心值以最接近最小观察值为好,这样可避免第一组内次数过多。

组距为组与组之间的数值距离,可根据极差确定。组距=极差 /组数。

Page 38: 第二章 地理数据的初步整理

选定第一组的中心值为 75 ,与最小观察值 75 相等。则第二组的中心值为 75+15=90 ,余类推。

中心值选定后,求组限。组限有下限和上限。

下限 =该组中心值– 1/2 组距。即 75-( 15/2 ) =67.5;

上限 =该组中心值 +1/2 组距。即 75+( 15/2 ) =82.5

Page 39: 第二章 地理数据的初步整理

⑤把原始资料的各个观察值按分组数列的各组组限归组。

组限 中心值 次数67.5~ 82.5 75 2

82.5 ~ 97.5 90 7

97.5 ~ 112.5 105 7

12.5 ~ 127.5 120 13

127.5 ~ 142.5 135 17

142.5 ~ 157.5 150 20

157.5 ~ 172.5 165 25

172.5 ~ 187.5 180 21

187.5 ~ 202.5 195 13

202.5 ~ 217.5 210 9

217.5 ~ 232.5 225 3

232.5 ~ 247.5 240 2

247.5 ~ 262.5 255 1

Page 40: 第二章 地理数据的初步整理

(三)统计图 统计图是用来表达统计指标与被说明的事物之间数量关系的图形。统计图以直观形象的形式表达出事物的全貌及其分布特征,使人一目了然,便于理解,印象深刻,容易记忆。

1 、统计图的结构及绘制原则

统计图由标题、图号、标目、图形和图注等项构成。

( 1 )标题 图的名称应简明扼要,切合图的内容,必要时可注明时间、地点。图题的字体在图中为最大,自左向右写在图的下方。

Page 41: 第二章 地理数据的初步整理

( 2 )图号 文章中若有几幅图,则需按其出现的先后次序编上序号,写在图题的左前方。

( 3 )标目 对于有纵横轴的统计图,应在纵横轴上分别标明统计项目及其尺度。横轴是基线,一般表示被观察的现象,尺度要等距,自左向右写在图的下方。

( 4)图形 图形为统计图最重要的部分。图形的高与宽之比以 3 : 5 为宜。一幅图中若有几个图形线,可在图例的适当位置加以标明。

Page 42: 第二章 地理数据的初步整理

( 5 )图注 图注不是图中的必要组成部分。图中若有必须加以解释的地方,可用图注加以说明。图注的文字要简明扼要,字体要小,写在图题的下方。

2 、统计图类型

( 1 )表示间断数据的统计图

①直条图

直条图是用直条的长短表示统计数据的图形。主要用来比较性质相似的间断性资料。按图形中被比资料的组数不同,可分为单式或复式两种。

Page 43: 第二章 地理数据的初步整理

0

5

10

15

20

25

30

甲 乙 丙 丁等级

人数

0 10 20 30

人数

等级

0

5

10

15

20

25

30

35

甲 乙 丙 丁等级

人数

0 10 20 30 40

人数

等级

Page 44: 第二章 地理数据的初步整理

②饼图

饼图用来表示间断性资料构成比的图形。

甲乙丙丁

此外,表示间断性数据的图形还有面积图,柱状图、散点图、圆环图等。

Page 45: 第二章 地理数据的初步整理

( 2 )表示连续性数据的统计图

① 折线图

0

5

10

15

20

25

30

甲 乙 丙 丁

等级

人数

② 直方图

120150

180210240

270300

330360390

32S 40S 60S

Page 46: 第二章 地理数据的初步整理

第三节 数据的基本统计值

(一 )算术平均数 (arithmetic mean)一、表示数据集中趋势的特征量

算术平均数的计算方法:

样本较小:n

y

n

yyyyy

n

ii

n

1321

样本较大:n

yfy

n

iii

1

yi: 为第 i组的中心值, fi: 第 i组变数出现次数

算术平均数是所有观察值的总和除以观察值的个数,简称为平均数或均数。

Page 47: 第二章 地理数据的初步整理

(二)调和平均数 调和平均数就是数据倒数平均数的倒数,其计算公式如下:

n

i in x

n

xxx

nx

121

1111

如果是加权形式则为:

n

i i

i

n

ii

n

n

n

x

m

m

x

m

x

m

x

mmmm

x

1

1

2

2

1

1

21

式中, 表示调和平均数, 是第个数据的权数。x im

Page 48: 第二章 地理数据的初步整理

调和平均数是适应某些比率形式的数据而计算的平均数

例 3 ,某市场三种蔬菜的销售价格和销售金额资料如表所示。求三种蔬菜的平均价格。

蔬菜品种 单位(元 / 千克) 销售额(元)芹菜 2.00 204.0

蒜苗 4.80 249.6

黄瓜 3.90 936.0

合计 — 1389.6

Page 49: 第二章 地理数据的初步整理

千克)元 /(53.3394

6.1389

9.3

936

8.4

6.249

0.2

2040.9366.2490.204

1

1

n

i i

i

n

ii

x

m

mx

(三)几何平均数

nni xxxxx 21

对上式两边取对数

n

iinin x

nxxxx

nx

121 ln

1lnlnlnln

1ln

Page 50: 第二章 地理数据的初步整理

也可用下式:n

nn x

xx

0

例如,表为各国原煤生产量,计算年平均发展速度

1960 1965 1970 1975 1980

前苏联 37492 42788 43271 48467 49299

中国 39152 47528 55039 57590 71446

波兰 10444 11883 14010 17162 19311

德国 14325 13546 11634 9675 8714

Page 51: 第二章 地理数据的初步整理

;或前苏联 %38.1010138.137492

4929920 x

;或美国 05.1030305.139152

7144620 x

;或波兰 %12.1030312.110444

1931120 x

。或德国 %55.979755.014325

871420 x

Page 52: 第二章 地理数据的初步整理

(四)中位数

中位数也称中央数,将地理数据按从大到小排列 ,居中间位置的中数。

当地理数据项为奇数时,第 n+1/2 位数,就是中位数;当地理数据项为偶数时,第( n/2 ) +1位数与第 n/2 位数的平均数,就是中位数。如用表示中位数,可写成:

1222

1 2

1; nnene xxxxm

对于分组的资料 , 可按下式计算:

Page 53: 第二章 地理数据的初步整理

对于组距式分组资料,首先要根据累计频数确定中位数组,即中位数位置所在的组。然后根据公式推算中位数。计算公式如下:

确定中位数组:

2

10

ff

Page 54: 第二章 地理数据的初步整理

m

m

mee f

hfN

LM

12

例 4,确定下列数据的中位数。( 1 ) 8, 1 , 4, 9, 6, 5 , 2( 2 ) 8, 1 , 4, 6, 5 , 2

Page 55: 第二章 地理数据的初步整理

组别 频数 向上累计 向下累计30~ 40 4 4 50

40~ 50 6 10 46

50~ 60 8 18 40

60~ 70 12 30 32

70~ 80 9 39 20

80~ 90 7 46 11

90~ 100 4 50 4

合计 50 — —

用下表组距式分组资料计算中位数。

Page 56: 第二章 地理数据的初步整理

中位数在应用中具有两大优点:一是中位数不受个别极端值的影响,表现出稳定的特性。有明显极值的数据,在选择反映集中趋势的指标时,中位数是一个较好的选择。二是中位数在使用时方便。

(五)众数

是变量序列中出现频数 (次数 ) 最多的数。在频数曲线上位置正居最高点,在分组频数表中,频数最大那一组的中位数就是众数。

Page 57: 第二章 地理数据的初步整理

众数一般用表示。如果有两个(或多个)变量出现次数相同并最多,那么,两个(或多个)变量值都是众数;如果有有两个(或多个)变量出现次数最多但不相同,则出现次数最多的数值是主要众数,其他为次要众数。当然数据中变量值出现的次数都相同,则该数据没有众数。

Page 58: 第二章 地理数据的初步整理

1. 根据位分组资料确定众数 例 6,确定下列数据的众数( 1 ) 1.70 , 1.75 , 1.75 , 1.74, 1.75 , 1.78,

1.79;( 2 ) 1.60 , 1.59, 1.60 , 1.65 , 1.65 , 1.60 ,

1.65 ;( 3 ) 1.59, 1.60 , 1.65 , 1.70 , 1.74, 1.75 ,

1.78。2.根据分组资料确定众数 如果是单项式分组资料,只要找出出现频数多的数值即可。

Page 59: 第二章 地理数据的初步整理

某小区按家庭规模分类资料

按家庭人口分组(人 /户)

家庭数(户)

1 3

2 56

3 420

4 14

5 及以上 7

合计 500

对于组距式分组资料,首先需要确定众数所在的组—众数组,然后按内插法近似计算众数值。计算公式为:

Page 60: 第二章 地理数据的初步整理

hff

fLM

mm

mm

11

100

组别 频数30~ 40 4

40~ 50 6

50~ 60 8

60~ 70 12

70~ 80 9

80~ 90 7

90~ 100 4

合计 50

Page 61: 第二章 地理数据的初步整理

众数在有时时候具有不可替代的作用。例如,在集贸市场里了解某种商品的交易价格时,因为无法收集到有关销售量或是销售额的数据,最简单的方法就是了解市场中出现次数最多的交易价格,以此作为平均价格。

众数不仅可以代表数值型变量的集中趋势,还可以代表非数值类型变量的集中趋势。例如,房地产商关心哪种“格局”房屋销售最多。

Page 62: 第二章 地理数据的初步整理

众数还有一个作用是,当样本数据出现两个众数时,它提醒我们应怀疑这样的数据是否来自两个不同的总体。

众数的实际代表一样只有在数据足够多,且有明显的集中趋势时,才能体现得最好,否则,不宜用众数代表集中趋势。

Page 63: 第二章 地理数据的初步整理

二、表示离散程度的描述

(一 )极差(全距)

用频数分布表求全距的方法是:最大一组与最小一组中值之差,或者是最大一组与最小一组下限之差。

Page 64: 第二章 地理数据的初步整理

n

xxd

n

ii

1

离差又称真差,它是各个观察值与均值之差的和的平均。计算公式为:

(二)离差(偏差、离均差)

Page 65: 第二章 地理数据的初步整理

如果是频数分布资料,平均差的公式改写为加权形式:

f

fxxd i

(三)方差与标准差

方差是全部数据离差平方的平均数,也称为均方差。计算公式为:

标准差为方差的平方根,即:

n

xxn

ii

1

2

n

i

i

n

xx

1

22

Page 66: 第二章 地理数据的初步整理

n

i

i

n

xxS

1

22

1

11

2

n

xxS

n

ii

标准差公式还可采用以下两种方法计算:矫正数法:

1

/)( 22

n

nxxS

Page 67: 第二章 地理数据的初步整理

加权法:1

/)( 22

n

nxfxfS iiii

(三)离散系数(离差系数,变异系数) 离散系数就是标准差与均值的比值,一般用或表示,总体的离散系数公式为:

C

样本的离散系数公式为:

x

SCs

Page 68: 第二章 地理数据的初步整理

离散系数实质上是标准差相对于均值的大小。因此,如果比较均值不相同的两组数据相对离散程度时,使用离散系数,要比使用标准差更准确。

例如假定有甲、乙两个工人,甲平均每小时生产40 个零件,标准差为 5 件;乙平均每小时生产 80个零件,标准差 为 6件。那么哪个工人生产零件的稳定性更好呢?

Page 69: 第二章 地理数据的初步整理

(五)标准偏度系数 用来测度数据分布的不对称性情况,刻画了以平均值为中心的偏向情况,其计算公式为:

n

i

i

S

xx

ng

1

3

1 6

1

Page 70: 第二章 地理数据的初步整理

(六)标准峰度系数用来测度数据在均值附近的集中程度,其计算公式为:

n

i

i

S

xx

n

ng

1

4

2 31

24

Page 71: 第二章 地理数据的初步整理

习题

1. 100 个小区水稻产量的资料如下(小区面积 1m2,单位 10g),试根据所给资料编制次数分布表。并绘制方柱图和多边形图。用加权法分别计算平均数和标准差。

37 36 39 36 34 35 33 31 38 34

46 35 39 33 41 33 32 34 41 32

38 38 42 33 39 39 30 38 39 33

38 34 33 35 41 31 34 35 39 30

39 35 36 34 36 35 37 35 36 32

35 37 36 28 35 35 36 33 38 27

35 37 38 30 26 36 37 32 33 30

33 32 34 33 34 37 35 32 34 32

35 36 35 35 35 34 32 30 36 30

36 35 38 36 31 33 32 33 36 34

Page 72: 第二章 地理数据的初步整理

2. 试分别计算以下两个玉米品种的 10 个果穗长度( cm)的标准差及变异系数,并解释其结果。

BS24 19 21 20 20 18 19 22 21 21 19

金皇后 16 21 24 15 26 18 20 19 22 19

3.观察 10 个月份的大风日数: 3 , 6, 2 , 5 , 3 , 3 , 4,3 , 4, 3 。如每一观察值分别以 y1,y2,….yn来表示,那么n是多少? y3 、 y7 各是多少?、 yi 、 yi-1 各是多少?计算该样本的中数、众数、极差和标准差各为多少?