抽样设计的理论与方法

46
1 抽抽抽抽抽抽抽抽抽抽 抽抽抽抽抽 抽抽抽抽 抽抽抽抽抽 抽抽抽抽[email protected]

description

抽样设计的理论与方法. 中国科学院 数学与系统科学研究院 杨 军 联系方式: [email protected]. 报告提纲. 首先简单介绍调查的基本概念和主要组成部分,以对抽样调查有个总体认识 讲述抽样调查中的抽样设计,包括各种抽样设计与相应的估计方法以及辅助信息的利用,重点是简单随机抽样、分层抽样、整群抽样、系统抽样、多相抽样 参考文献. 一、调查的主要组成部分. 调查概述 调查设计 数据的收集方法 调查问卷设计 抽样方法 抽样估计 样本量的确定 数据收集的实施 数据处理 数据发布与数据分析. 调查概述. - PowerPoint PPT Presentation

Transcript of 抽样设计的理论与方法

Page 1: 抽样设计的理论与方法

1

抽样设计的理论与方法中国科学院

数学与系统科学研究院

杨 军联系方式: [email protected]

Page 2: 抽样设计的理论与方法

2

报告提纲首先简单介绍调查的基本概念和主要组成部分,以对抽样调查有个总体认识讲述抽样调查中的抽样设计,包括各种抽样设计与相应的估计方法以及辅助信息的利用,重点是简单随机抽样、分层抽样、整群抽样、系统抽样、多相抽样参考文献

Page 3: 抽样设计的理论与方法

3

一、调查的主要组成部分 调查概述 调查设计 数据的收集方法 调查问卷设计 抽样方法 抽样估计 样本量的确定 数据收集的实施 数据处理 数据发布与数据分析

Page 4: 抽样设计的理论与方法

4

调查概述调查指使用明确的概念、方法和程序,以有组织、有条理的方式,从一个总体的部分或所有单元中收集感兴趣的指标信息,并将这些信息综合编辑成有用的简要形式的所有活动。调查的重要性。调查是认识客观世界的一种手段,通过调查获取信息,了解现状,进行管理决策和预测。调查的任务。科学地反映客观情况,为解决问题、制定政策或策略提供依据,调查是为决策服务。

调查设计 调查前准备 调查的实施 调查的分析与报告

Page 5: 抽样设计的理论与方法

5

调查设计调查目标的确定调查方法的选择抽样设计的有关问题调查中各种误差及其控制

Page 6: 抽样设计的理论与方法

6

1 、邮寄调查:被调查者在没有访员协助下完成问卷。

2 、人员面访:由调查人员协助完成问卷。

3 、电话访问:访员通过电话协助被调查者完成问卷。

4 、网络调查:调查者利用网络进行调查。

数据的收集方法

Page 7: 抽样设计的理论与方法

7

调查问卷设计问卷的作用与设计原则问卷结构与问题类型问卷设计的技巧问卷的度量方法

Page 8: 抽样设计的理论与方法

8

问卷的开发程序

向用户和调查对象咨询

参考以前相同主题的问卷

草拟问题

审议、测试和修改问卷

试点调查和问卷的定稿

Page 9: 抽样设计的理论与方法

9

抽样方法什么是抽样

抽样是通过抽取总体中的部分单元,收集这些单元的信息,用来 对总体进行推断的一种手段非概率抽样 概率抽样

Page 10: 抽样设计的理论与方法

10

抽样估计 抽样估计的基本原理 加权 总体均值、比例及总量的简单估计 辅助信息的使用 调查估计量的抽样误差估计

Page 11: 抽样设计的理论与方法

11

样本量的确定影响样本量的因素: 估计值要求的精度;提供的经费能支持

多大的样本;调查的时间要求;需要和能招聘到多少调查人员等。

Page 12: 抽样设计的理论与方法

12

数据收集的实施数据收集是调查中收集每一个被抽中的单元个体数据的过程。必要的公关工作调查前的准备数据收集过程调查过程及调查质量的控制

Page 13: 抽样设计的理论与方法

13

数据处理

数据处理的简要过程1 、全面核查问卷上的数据2 、对问卷上的回答进行编码3 、将数据录入计算机4 、详细审核、插补5 、进行离群值的检测6 、将数据储存在数据库中

Page 14: 抽样设计的理论与方法

14

数据处理

数据处理的简要过程1 、全面核查问卷上的数据2 、对问卷上的回答进行编码3 、将数据录入计算机4 、详细审核、插补5 、进行离群值的检测6 、将数据储存在数据库中

Page 15: 抽样设计的理论与方法

15

数据发布与数据分析调查报告统计表和统计图数据分析保密和泄密控制

Page 16: 抽样设计的理论与方法

16

抽样设计的理论和方法• 抽样调查中的一些基本概念 总体和样本:总体是指研究对象的 全体 ` ,它

是由研究对象中的单元组成的。总体中单元的数目称作总体容量;样本是指抽样时按照抽样的规则所抽中的那部分单元所组成的集合。

总体抽取样本

推断总体

样本

Page 17: 抽样设计的理论与方法

17

研究的目标参数:

总体总量、总体均值、总体比例的估计及其相应的方差估计入样概率与抽样比

入样概率是指某个总体单元被选入样本的概率

抽样比:指样本量 n 与总体的容量 N 的比例

下面介绍主要抽样方法与相应的估计方法:

Page 18: 抽样设计的理论与方法

18

(一)简单随机抽样 定义:设总体中有 N 个单元,不加条件从中随机

抽取 n 个单元为样本,每个单元都有同样的概率被抽中的抽样方法。

总体总量和总体均值

( 1) 与

( 2)

N

iiYY

1

N

iiyNN

YY

1

1

Page 19: 抽样设计的理论与方法

19

样本均值 ( 3)

总体均值和总量的估计 (4)

(5)

n

iiyn

y1

1

n

iiyn

yY1

n

iiyn

NyNY

1

ˆ

Page 20: 抽样设计的理论与方法

20

估计量的方差 (6)

而 (7)估计量的方差估计 (8)

(9)

),1()(2

fn

SyV

2

1

2 )(1

1

N

ii YY

NS

)1()(2

fn

syv

2

1

2 )(1

1

n

ii yy

ns

Page 21: 抽样设计的理论与方法

21

简单随机抽样的特点优点:

( 1)比较容易理解和掌握;( 2)抽样框不需要其他辅助信息;( 3)理论上比较成熟,有现成的方差估计公式。

缺点: ( 1)没有利用辅助信息;( 2)样本分散,面访

费用较高;( 3)有可能抽到较差的样本;( 4)抽选大样本比较费时

Page 22: 抽样设计的理论与方法

22

(二)分层抽样

定义:在抽样之前将总体分为同质的、互不重叠的若干子总体,也称为层。然后在每一个层独立地随机抽取样本。

分层抽样示意图

Page 23: 抽样设计的理论与方法

23

首先介绍分层抽样的的一些符号:用下标 h表示层的编号用 分别表示总体和样本中第 h 层第 i

个单元指标值;用 表示 h 层的层权用 表示 h 层的抽样比

分别表示 h 层 ( 总体 ) 均值与样本均值;

),,2,1( Lh

hihi yY ,

NNW hh /

hhh Nnf /

h

n

ihihh

N

ihih nyyNYY

hh

/,/11

)1/()(),1/()(2

1

2

2

1

2

h

n

ihhihh

N

ihhih nyysNYYS

hh

Page 24: 抽样设计的理论与方法

24

分别为 h 层的 ( 层内 ) 方差和样本方差下面介绍分层抽样适用的场合和优点1)在调查中不仅需要对总体进行参数估计,也需要对层的参数进行估计。

2)使样本更具代表性。3)便于组织管理和数据汇总4)对不同层 可以按照不同情况和条 件,具体采用不同的抽样方法。

5)分层抽样可以提高估计量的精度

估计量及其性质

Page 25: 抽样设计的理论与方法

25

总体均值的估计 (10)

对分层随机抽样,有如下简单估计 (11)

总体总和的简单估计为 (12)

无偏性:如果层的估计具有无偏性,分层的总体总量和总体均值的估计具有无偏性。

对分层随机抽样, 的一个无偏估计为

h

L

hhh

L

hhst YN

NYWY ˆ1ˆˆ

11

L

hhh

L

hhhst yN

NyWy

11

1

h

L

hhstst yNyNY

1

ˆ

)( styV

Page 26: 抽样设计的理论与方法

26

(13)

分层抽样的缺点: ( 1)对抽样框的要求比较高,必须有分层的

辅助信息;( 2)收集或编制抽样框的费用比较高;( 3)若调查变量与分层的变量不相关,效率可能降低;( 4)估计值的计算比简单随机抽样复杂

L

h

hhL

h h

hhh

L

h h

hhst N

sW

n

sWf

n

sWyv

1

2

1

22

1

22

)1()(

Page 27: 抽样设计的理论与方法

27

比估计和回归估计-利用辅助信息 

比估计和回归估计主要是利用辅助变量来提高估计精度比估计及其基本性质如果 之间大致呈正比例关系,采用比估计量对简单随机抽样,总体均值和总量的比估计量为

( 14)

(15)

有时候,调查的目的是要估计总体 与 的比值:

ii XY ,

;Xx

yX

x

yyR

;ˆRR yNX

x

yX

x

yY

Y X

Page 28: 抽样设计的理论与方法

28

(16)

对它的估计为 (17)

基本性质对于简单随机抽样,当样本量大时

X

Y

X

YR

x

y

x

yR ˆ

.1

)(1

)ˆ(

;1

)()1(

)ˆ(

;1

)(1

)(

;)ˆ(,)ˆ(,)(

1

2

2

1

22

1

2

N

RXY

Xx

fRV

N

RXY

n

fNYV

N

RXY

n

fyV

RREYYEYyE

N

iii

N

iii

R

N

iii

R

RR

Page 29: 抽样设计的理论与方法

29

对于实际问题的方差估计,仍用样本估计,用 (18)估计 。对分层抽样,比估计有分别比和联合比两种形式。回归估计及其基本性质对简单随机抽样,总体均值的回归估计定义为 (19)

若回归系数设定,则回归估计为无偏估计,且其方差估计可表示为 (20)

如回归系数为 1 ,称为差估计量。

2

1

)ˆ(1

1

n

iii xRy

n2

1

)(1

1

N

iii RXY

N

),()( XxyxXyylr

)2(1

)( 222yxxylr sss

n

fyv

Page 30: 抽样设计的理论与方法

30

如回归估计量采用样本回归系数 (21)

则总体均值的回归估计量为 (22)

基本性质:

当样本量较大时,将相应的样本估计量代入上式,得相应的样本估计。对分层抽样,有相应的分别回归估计和联合回归估计。

n

ii

n

iii

xx

xxyyb

1

2

1

)(

))((

),()( XxbyxXbyylr

)1

()1

()1(1

)(

)1

()(

2/322

nO

nOS

n

fyMSE

nOYyE

ylr

lr

Page 31: 抽样设计的理论与方法

31

(三)与单元大小成比例的概率抽样1 、定义:根据单元的大小不同, 入样概率不同的

一种不等概率抽样。如农场的大小不同,其抽选概率可以根据面积大小成比例,也可以按人数多少成比例。用英文的字头简称为 PPS 抽样。

2 、优缺点:优点是当研究的变量与单元大小有关时,由于使用了辅助信息,可以提高抽样效率。但缺点是对抽样框需要有高质量的抽样框,成本较高;对于单元大小不相关的变量就不适用;估计量的抽样方差估计比较复杂。

Page 32: 抽样设计的理论与方法

32

pps 抽样是一种特殊的不等概率抽样,对放回地不等概率抽样,介绍 Hansen-Hurvitz 估计量。若 是按 的入样概率进行的多项抽样抽取的样本指标值,相应的 值为 。则总体总和的估计 (Hansen-Hurvitz 估计 ) 为 (23)

是无偏的,且有方差估计 (24)

对不放回地不等概率抽样,采用 Horvitz-Thompson

估计量

nyyy ,,, 21 iZ

iZ nzzz ,,, 21

n

i i

iHH z

y

nY

1

2

1

)ˆ()1(

1)ˆ(

n

iHH

i

iHH Y

z

y

nnYv

n

i i

iHT

y

nY

1

Page 33: 抽样设计的理论与方法

33

(四)整群抽样 1 、定义:由若干个有联系的基本单元组成的集合称为群,抽样时以群为抽样单元的抽样方法就称为整群抽样。 整群抽样示意图:

黄色为总体红色为群白点为基本单元

Page 34: 抽样设计的理论与方法

34

整群抽样的优点: ( 1)能大大减低收集数据的费用;( 2)当总体单元自然形成的群时,容易取得抽样框,抽样也更容易;( 3)当群内单元差异大,而不同群 之间的差异小时 ,

可以提高效率。

缺点: ( 1)若群内个单元有趋同性, 效率将会降低;( 2)通常无法预先知道总样本量,因为不知道群内有多少单元;( 3)方差估计比简单随机抽样更为复杂可以综合利用分层和整群抽样技术,采取分层整群抽样,比如人体尺寸调查,采用分层提高样本代表性,采用整群抽样,便于数据的收集。

Page 35: 抽样设计的理论与方法

35

总体

(五)多阶抽样

定义:它是由两个或更多个连续的阶段抽取样本的方法。 多阶抽样示意图:第一阶样本

最终样本

Page 36: 抽样设计的理论与方法

36

优点: ( 1)当群具有同质性时,多阶抽样的效率高于整群抽样;( 2)样本的分布比简单随机抽样集中,采用面访可以节约时间和费用;( 3)不需要整个总体单元的名录框,只要群的名录框和抽中群的单元名录框。缺点: ( 1)效率不如简单随机抽样;( 2)通常不能提前知道最终的样本量;( 3)调查的组织较整群抽样复杂;( 4)估计值与抽样方差的计算较为复杂。

Page 37: 抽样设计的理论与方法

37

定义:又称等距抽样,对研究的总体按一定的顺序排列,每隔一定的间隔抽取一个单元的抽样方法。 抽选方法:设总体单元数为 N ,要抽 n 个单元为样本,先计算抽样间隔 k=N/n ,在 1到 k之间抽取一个随机起点 r ,则被抽中单元的顺序位置是: r , r+k , r+2k ,…。当 N不能被 n 整除

时,采用圆形系统抽样方法。

(六)系统抽样

Page 38: 抽样设计的理论与方法

38

2 、系统抽样的优点( 1)没有抽样框时可代替简单随机抽样方法简单;( 2)不需要辅助的抽样框信息;( 3)样本的分布比较好;估计值容易计算。

3 、系统抽样的缺点 ( 1)若抽样间隔与总体的某种周期性变化一致,会得一个差的样本;( 2)不使用辅助信息使抽样效率不高;( 3)使用概念框时,不能预先知道样本量;( 4)没有一个无偏的方差估计量;( 5)当 N不能被 n 整除时会得到样本量不同的样本。

我们国家的国家统计局的调查多采用系统抽样,它便于操作。

Page 39: 抽样设计的理论与方法

39

定义:在同一个抽样 框内,先抽一个大样本,收集基本的信息,然后在这个大样本中再抽一个子样本,收集调查的详细信息。 多相抽样示意图:

(七)多相抽样

•。。。。。。。。。

。。。

第一相样本 第二相样本。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。

Page 40: 抽样设计的理论与方法

40

优点:( 1)利用了第一相样本的信息,能显著提高估计值的精度;( 2)适用于某些调查指标的数据收集费用特别高或给被调查者带来较重负担的情况。缺点: ( 1)整个调查的时间要长;( 2)调查费用要比较高;( 3)调查的组织比较复杂;( 4)估计值和抽样误差的计算会相当复杂。

Page 41: 抽样设计的理论与方法

41

主要的抽样方法,大致就有上述几种,在实际中采用哪种抽样设计,要根据具体情况,灵活掌握,当然也可以组合起来使用。抽样方案和参数估计是一体的,所以在抽样设计时要考虑到后续的数据处理。

Page 42: 抽样设计的理论与方法

42

参考书目冯士雍 , 施锡辁 . 抽样调查-理论、方法与实践 . 上海科学技术出版社, 1996.

冯士雍 ,倪加勋 ,邹国华 . 抽样调查理论与方法 , 中国统计出版 ,1998.

加拿大统计局《调查技能》项目组编,中国国家统计局《调查技能》项目组译 ,冯士雍 (审校 ). 调查技能教程,中国统计出版社 , 2002.

赵民德,谢邦昌 . 探索真相,中国统计出版 ,2001.

胡健颖 ,孙山泽 ,抽样调查的理论和方法 , 北京大学出版社 ,2000. 柯惠新 ,丁立宏 ,市场调查与分析 ,中国统计出版社 ,2000.

梁小筠 ,祝大平 .抽样调查的方法和原理 , 华东师范大学出版社 ,1994.

Page 43: 抽样设计的理论与方法

43

我的一些工作:一、可靠性方面1.Dan Yu and Jun yang, Storage reliability evaluation of complex

repairable system, Proceeding of East Asian Symposium on

Statistics, 2002.11 。2 、杨军 ,于丹 . 一种基于可用度的装备贮存模型及其应用 , 系统工程理论与实践 ,2004.7 。3 、杨军 ,于丹 . 修如旧模型中贮存系统备件量的计算及其置信区间 , 中国科学院研究生院学报 ,2004.10 。4 、于丹 , 杨军 .复杂系统贮存可靠性综合评估 , 中国电子学会论文集可靠性分会第十二届学术年会论文选 ,2004.10 。

Page 44: 抽样设计的理论与方法

44

5 、 Jun Yang(speaker), Dan Yu. One kind of Composite Repairable Model and its Availability Fiducial Inference,The Joint Meeting of CSPS and IMS 2005.7 。6 、杨军 ,于丹 . 一种可修系统 贮存模型及其可用度 Fiducial 推断 ,系统科学与数学 ,2004 年接受。7 、杨军 ,冯士雍 ,于丹 .可修系统的一种 复合贮存模型及其可用

度估计 ,工程数学学报 , 已录用。8 、杨军 ,于丹 . 修如新模型中贮存系统备件量的计算及其置信上限 , 应用概率统计 , 一审通过 (二审中 ) 。

二、抽样调查 (缺失数据 )9 、杨军 ,冯士雍 . 抽样调查中缺失数据的插补方法 ,应用概率统计 , 已投。10、杨军 ,姜健 .随机变量和模型及其实证研究 ,数理统计与管理 , 已投。

Page 45: 抽样设计的理论与方法

45

11 、 Jun Yang.Two kinds of noniterative computing methods for Bayes posteriors,to be submited.12 、杨军 .比例 bootstrap 及其方差估计的相合性 ,待投。13 、 Jun Yang. Regression imputation using response probability, to be submited.14 、杨军 . 物理事理人理方法论对调查工作的应用 ,待投。

三、统计质量控制15 、于振凡 , 张玉柱 , 姜健 , 杨军 , 涂玉娟等 .GB/Z 4887-2005《累积和控制图─用累积和技术进行质量控制和数据分析导则》 ,中华人民共和国国家标准化指导性技术文件 ,2005 。(注:杨军 , 涂玉娟是主要起草人 )

欢迎大家和我联系与合作 ,Email:[email protected]

Page 46: 抽样设计的理论与方法

46

谢谢各位!