生物统计学的未来

29
生生 生生生生生 生生 生生生生生 生生生 生生生 生生生生生生生生生生 生生生生生生生生生生

description

生物统计学的未来. 方积乾 中山大学公共卫生学院. 一、引言. 学术界往往很不了解统计学的作用 许多统计学成就来自复杂的数学和计算工具,所以只进入少数学者的视野. 什么是统计学?. 统计学是一个学科,研究变异性、不确定性和面对不确定性的决策 ---- 对所有科学技术都重要,注定是一门多学科的科学 ---- 多数统计学应用和许多统计学研究是其它专业领域的科学家完成的 ( DR Cox ). 统计学科研的作用. 统计学越来越不同于其它数学领域,计算机和信息科学工具至少和概率论一样重要。 统计学科研的作用是发展新的工具,应用于科学前沿。. 统计学界. - PowerPoint PPT Presentation

Transcript of 生物统计学的未来

Page 1: 生物统计学的未来

生物统计学的未来生物统计学的未来

方积乾方积乾中山大学公共卫生学院中山大学公共卫生学院

Page 2: 生物统计学的未来

一、引言一、引言 学术界往往很不了解统计学的作用学术界往往很不了解统计学的作用

许多统计学成就来自复杂的数学和计算工许多统计学成就来自复杂的数学和计算工具,所以只进入少数学者的视野具,所以只进入少数学者的视野

Page 3: 生物统计学的未来

什么是统计学?什么是统计学? 统计学是一个学科,研究变异性、不确定性和统计学是一个学科,研究变异性、不确定性和

面对不确定性的决策面对不确定性的决策 ---- ---- 对所有科学技术都重要,注定是一门多对所有科学技术都重要,注定是一门多

学科的科学 学科的科学 ---- ---- 多数统计学应用和许多统计学研究是其多数统计学应用和许多统计学研究是其

它专业领域的科学家完成的它专业领域的科学家完成的(( DR CoxDR Cox ))

Page 4: 生物统计学的未来

统计学科研的作用统计学科研的作用 统计学越来越不同于其它数学领域,计算统计学越来越不同于其它数学领域,计算

机和信息科学工具至少和概率论一样重要。机和信息科学工具至少和概率论一样重要。

统计学科研的作用是发展新的工具,应用统计学科研的作用是发展新的工具,应用于科学前沿。于科学前沿。

Page 5: 生物统计学的未来

统计学界统计学界 在美国,现有在美国,现有 8686 个统计学、生物统计学和个统计学、生物统计学和

生物计量学的博士点生物计量学的博士点

很大一部分统计学家工作于统计系之外 很大一部分统计学家工作于统计系之外 ---- ---- 生物统计系、医学院、商学院、社会生物统计系、医学院、商学院、社会

科学系科学系 ---- ---- 政府机构、工业界(尤其是制药厂)政府机构、工业界(尤其是制药厂)

Page 6: 生物统计学的未来

统计学的现状统计学的现状 数据收集数据收集 ---- ---- 高速计算机和传感器以及某些实验科学可高速计算机和传感器以及某些实验科学可

产生巨量数据(例如人类基因组)产生巨量数据(例如人类基因组) ---- ---- 需要新工具来组织和提取重要信息。 需要新工具来组织和提取重要信息。 (Na(Na

tional Science Foundation (1998) report tional Science Foundation (1998) report 98-95)98-95)

数据和信息的区别:将数据转化为信息需要数据和信息的区别:将数据转化为信息需要统计理论和实践方面的洞察力、技术和训练。统计理论和实践方面的洞察力、技术和训练。(Zelen)(Zelen)

Page 7: 生物统计学的未来

统计学的现状统计学的现状 科研合作的机会增多科研合作的机会增多 ---- ---- 应用、多学科课题中统计学的错用严重应用、多学科课题中统计学的错用严重 ---- ---- 由于大量数据的产生,人们主张统计人员由于大量数据的产生,人们主张统计人员

进入研究团队 进入研究团队 (National Science Foundation (1998) report (National Science Foundation (1998) report

98-95) 98-95)

Page 8: 生物统计学的未来

统计学的现状统计学的现状 科学引用指数(科学引用指数( Science Citation IndexScience Citation Index ):): 1991-20011991-2001 年其间年其间 25 25 位引用最多的数学科学家位引用最多的数学科学家

中中 1818 位是统计学或生物统计学家;位是统计学或生物统计学家; Journal of the American Statistical AssociatJournal of the American Statistical Associat

ion ion 是被引用最多的数学科学杂志;是被引用最多的数学科学杂志; 最重要的一篇文章是最重要的一篇文章是 Efron (1979) Efron (1979) 引入 引入 boostboost

rap rap 方法;方法; 500 500 次最近的引用中只有次最近的引用中只有 152 152 次出次出现在统计学文章中现在统计学文章中

Page 9: 生物统计学的未来

统计学的核心统计学的核心 统计学与数学的其它分支不同,总是和应用、统计学与数学的其它分支不同,总是和应用、

结果的重要性联系在一起。 结果的重要性联系在一起。 (National Scien(National Science Foundation (1998) report 98-95) ce Foundation (1998) report 98-95)

统计学的核心是学科内在的东西,而不是特定统计学的核心是学科内在的东西,而不是特定科学问题对统计学的要求。科学问题对统计学的要求。

统计学核心方面的研究着重基于该学科普遍原统计学核心方面的研究着重基于该学科普遍原理发展统计模型、方法和相关理论。理发展统计模型、方法和相关理论。

Page 10: 生物统计学的未来

统计理论和统计实践统计理论和统计实践 有些同事称自己是数理统计学家或应用统有些同事称自己是数理统计学家或应用统

计学家。这两个术语过时了,必须丢弃。计学家。这两个术语过时了,必须丢弃。 前者不和数据打交道,后者不涉及理论 前者不和数据打交道,后者不涉及理论 (S(S

elen)elen)

Page 11: 生物统计学的未来

二、统计研究面临的挑战二、统计研究面临的挑战

数据增长的规模:数据增长的规模: 数据 数据 ---- ---- 指数指数 数据分析 数据分析 ---- ---- 二次方二次方 统计学家统计学家 ---- ---- 线性线性

数据缩减和压缩数据缩减和压缩 “ “ 缩减”缩减” : : 用新的思路指导模型选择、预测用新的思路指导模型选择、预测

和分类 “压缩”和分类 “压缩” : : 深刻了解数据结构有助深刻了解数据结构有助于压缩储存和较好地重现于压缩储存和较好地重现。。

Page 12: 生物统计学的未来

统计学界以外的数据分析统计学界以外的数据分析

---- ---- 许多方法和计算策略是统计学界以外发展许多方法和计算策略是统计学界以外发展起来的 起来的 (( 如如 machine learning machine learning 和 和 neural nneural network) etwork)

---- ---- 未来研究应将这些未来研究应将这些 machine learning machine learning 和其它方面发展起来的大量、复杂数据集的分和其它方面发展起来的大量、复杂数据集的分析方法纳入统计学核心知识。析方法纳入统计学核心知识。

---- ---- 如果我们的目标是利用数据解决问题,那如果我们的目标是利用数据解决问题,那末我们必须从单纯依靠数据模型走向采纳各种末我们必须从单纯依靠数据模型走向采纳各种各样工具。各样工具。

Page 13: 生物统计学的未来

大大 pp小小 nn 多变量分析多变量分析

例例 : : 曲线资料、谱、图像、曲线资料、谱、图像、 DNA DNA 微阵列微阵列 ---- ---- 几乎没有现成的统计理论支持和理解主成几乎没有现成的统计理论支持和理解主成

分分析、典则分析等用于降维的富有启发性的分分析、典则分析等用于降维的富有启发性的方法方法

---- ---- 其它领域的创新可能有助于这个问题。其它领域的创新可能有助于这个问题。 例: 随机矩阵理论,过去例: 随机矩阵理论,过去 4040 年发展了有许多年发展了有许多模型和方法,近年引起了概率和组合数学方面模型和方法,近年引起了概率和组合数学方面极大的兴趣。极大的兴趣。

Page 14: 生物统计学的未来

Bayes Bayes 和有偏估计和有偏估计

发展和开拓发展和开拓 Bayesian Bayesian 方法和现代非参数、半方法和现代非参数、半参数统计之间的联系,包括研究 参数统计之间的联系,包括研究 Bayesian Bayesian 和和and frequencist and frequencist 结合的方法学。结合的方法学。

---- ---- 对于具有大量变量的巨型数据,需要更广对于具有大量变量的巨型数据,需要更广泛的有偏估计理论。泛的有偏估计理论。

---- ---- 也需要进一步的也需要进一步的 Monte CarloMonte Carlo 方法做推断。方法做推断。

Page 15: 生物统计学的未来

证明和计算实验之间的中间地带证明和计算实验之间的中间地带

证明 – 太难,或非头等重要证明 – 太难,或非头等重要 计算实验– 太任意和不足以令人信服计算实验– 太任意和不足以令人信服 例: 混合模型 – 大多忽略识别问题,因为困例: 混合模型 – 大多忽略识别问题,因为困难,并加重模型结构的多样性难,并加重模型结构的多样性

Page 16: 生物统计学的未来

三、生命科学中的统计学三、生命科学中的统计学

上半个世纪的里程碑:上半个世纪的里程碑:

-- -- 生物统计学生物统计学 -- -- 统计流行病学统计流行病学 -- -- 随机化临床试验随机化临床试验

Page 17: 生物统计学的未来

与未来统计学有关的与未来统计学有关的 生命科学的四个领域 生命科学的四个领域

-- -- 生物分子序列分析和功能基因组学生物分子序列分析和功能基因组学-- -- 遗传流行病学遗传流行病学-- -- 进化、群体遗传学和生态学进化、群体遗传学和生态学-- -- 计算神经科学计算神经科学

Page 18: 生物统计学的未来

生物统计与生物信息生物统计与生物信息 分子生物学已进化到信息科学,出现了新学科分子生物学已进化到信息科学,出现了新学科 CC

omputational Biology, omputational Biology, 或 或 Bioinformatics. Bioinformatics. -- -- 发现和实施算法,以了解生物学过程发现和实施算法,以了解生物学过程 -- -- 主要工具主要工具 : : 计算、统计和 “计算、统计和 “ machine learnimachine learni

ng” ng” 技术 技术 -- -- 分析方法主要是特定的,尚处初级阶段分析方法主要是特定的,尚处初级阶段 这是统计科学家用武之地,尤其,这是统计科学家用武之地,尤其, micro-arraymicro-array

技术已经创造了新颖的统计学问题,激发了许多技术已经创造了新颖的统计学问题,激发了许多新的生物统计学研究。新的生物统计学研究。

-- -- 若干生物统计系已经改名为若干生物统计系已经改名为 Biostatistics anBiostatistics and Bioinformatics.d Bioinformatics.

Page 19: 生物统计学的未来

中医临床试验中医临床试验 ““ 东方传统医学的某些方面可能真的有效东方传统医学的某些方面可能真的有效 ,,

可以充实西方医学可以充实西方医学 .. 去年我在中国大陆参加去年我在中国大陆参加了一个会议了一个会议 ,, 主题是 中药临床试验的设计。主题是 中药临床试验的设计。很明显,东方在汇集传统医学有效性和安很明显,东方在汇集传统医学有效性和安全性方面的临床试验将会有重要的发展。全性方面的临床试验将会有重要的发展。

(Zelen)(Zelen)

Page 20: 生物统计学的未来

加强协作活动加强协作活动 价值:发展统计方法学、多学科研究。价值:发展统计方法学、多学科研究。 虽然不同人有不同侧重,同一个人不同时期也虽然不同人有不同侧重,同一个人不同时期也

有不同侧重,所有统计学家都要有两方面的活有不同侧重,所有统计学家都要有两方面的活动:方法学研究和其它专业中的应用。动:方法学研究和其它专业中的应用。

Page 21: 生物统计学的未来

大学与工业界关系大学与工业界关系 生物统计学的领导地位主要在大学。 生物统计学的领导地位主要在大学。 工业界正聘用许多年轻有为生物统计学家,有工业界正聘用许多年轻有为生物统计学家,有助于加强工业界与大学间关系。助于加强工业界与大学间关系。

大学与工业界有许多共同目标,工业界开始介大学与工业界有许多共同目标,工业界开始介入教育过程。入教育过程。

学术界要抓紧与工业界相结合的过程。学术界要抓紧与工业界相结合的过程。 (Zelen)(Zelen)

Page 22: 生物统计学的未来

统计科学与卫生决策统计科学与卫生决策 我们不仅负责收集数据和解释数据,也要引导决策。我们不仅负责收集数据和解释数据,也要引导决策。 许多公共卫生问题需要决策:许多公共卫生问题需要决策: -- -- 世界范围的艾滋病流行世界范围的艾滋病流行 两年前在远东爆发的流行两年前在远东爆发的流行 Avarian Avarian 病毒的扩散 病毒的扩散 目前在某些阿拉伯国家的目前在某些阿拉伯国家的 PolioPolio爆发爆发 决策者得到的输入是数据,多半要精制和综合成定量模决策者得到的输入是数据,多半要精制和综合成定量模型。这些模型可预测疾病流行的速度、最敏感的亚人群、型。这些模型可预测疾病流行的速度、最敏感的亚人群、所需疫苗的规模等等……所需疫苗的规模等等……

我期待我们的同行们在公共卫生决策中发挥更大的作用我期待我们的同行们在公共卫生决策中发挥更大的作用 ,,尤其是在国际范围内尤其是在国际范围内 . (Zelen). (Zelen)

Page 23: 生物统计学的未来

四、统计学教育四、统计学教育 ““统计学年轻人有足够的职业机会,学术界、工统计学年轻人有足够的职业机会,学术界、工

业部门、政府机构” 。业部门、政府机构” 。 “ “在美国,很高比例的统计研究生出生于外国,在美国,很高比例的统计研究生出生于外国,毕业后留在美国”。毕业后留在美国”。

(National Science Foundation (1998) report 98-9(National Science Foundation (1998) report 98-95)5)

““对生物统计学的需求从来没有象今天这样大,对生物统计学的需求从来没有象今天这样大,特别是美国。美国 特别是美国。美国 National Research Council National Research Council 研究结论: 在所有的卫生科研行业,最最缺乏生研究结论: 在所有的卫生科研行业,最最缺乏生物统计学和流行病学人才”。(物统计学和流行病学人才”。( Zelen)Zelen)

Page 24: 生物统计学的未来

教育改革教育改革 : : 需求变了,训练必须变!需求变了,训练必须变!

科学技术快速发展。大学教学计划必须变化以科学技术快速发展。大学教学计划必须变化以抓住新的科学机遇。否则,我们的专业与未来抓住新的科学机遇。否则,我们的专业与未来无关。 无关。

我预见,未来的生物统计学家需要生物信息学我预见,未来的生物统计学家需要生物信息学和遗传学方面的训练;较少侧重传统数理统计,和遗传学方面的训练;较少侧重传统数理统计,而要更多注意数据分析,尤其是大型数据库的而要更多注意数据分析,尤其是大型数据库的处理。 处理。 (Zelen)(Zelen)

Page 25: 生物统计学的未来

多层次教育多层次教育 鼓励统计专业学生在一个或几个应用领域获鼓励统计专业学生在一个或几个应用领域获

取更深更广的专业知识。取更深更广的专业知识。 统计学研究生教育要提供足够深而广的、现统计学研究生教育要提供足够深而广的、现代统计学家所使用的工具,包括数学、计算代统计学家所使用的工具,包括数学、计算机科学和基础科学。机科学和基础科学。

博士后教育和继续教育帮助新毕业研究生发博士后教育和继续教育帮助新毕业研究生发展专业技术,帮助年长统计学家更新知识。展专业技术,帮助年长统计学家更新知识。

Page 26: 生物统计学的未来

未来有用的统计和计算方法未来有用的统计和计算方法 随机过程随机过程 有限 有限 Markov Markov 链链 , , 点过程点过程 , Gaussian , Gaussian 随机场随机场 隐 隐 Markov Markov 模型和模型和 Markov Markov 链 链 Monte Carlo – Monte Carlo – 重重

要算法要算法 传统方法的改进传统方法的改进 -- -- 多重比较 多重比较 ((微阵列微阵列 )) -- -- 主成分 主成分 (( 主成分曲线主成分曲线 )) -- -- 似然分析 似然分析 ((随机过程的似然分析随机过程的似然分析 )) -- -- 实验设计 实验设计 ““User-friendly” User-friendly” 算法算法 与生命科学家的交流 与生命科学家的交流

Page 27: 生物统计学的未来

将通讯资源用于教育将通讯资源用于教育 将专业课程收集到网上将专业课程收集到网上 ,, 无偿使用无偿使用 -- -- 幻灯放到网上幻灯放到网上 ,, 在老师指导下在老师指导下 ,, 生物统计生物统计

学生可学到主要生物统计学中心的课程学生可学到主要生物统计学中心的课程 -- -- 学术讲座也可以上网 学术讲座也可以上网 -- -- 这种做法在流行病学已有先例这种做法在流行病学已有先例 : (: (

http://www.pitt.edu/~super1http://www.pitt.edu/~super1) ) PittsburghPittsburgh 大学的 大学的 Prof. Ron LaPorte Prof. Ron LaPorte 及及

其同事其同事 , , 已经收集了 已经收集了 2000 2000 个课程和学术讲个课程和学术讲座座 ,, 放在网上供无偿使用。放在网上供无偿使用。

Page 28: 生物统计学的未来

生物统计学的领导地位生物统计学的领导地位 我期待许多外国学生将回到他们的祖国,在生物我期待许多外国学生将回到他们的祖国,在生物

统计学教育和实践方面的影响。统计学教育和实践方面的影响。 我可以预见,虽然生物统计学某些方面的领导地我可以预见,虽然生物统计学某些方面的领导地

位目前在美国或英国,但位目前在美国或英国,但 see that some of the see that some of the leadership in biostatistical science, which is leadership in biostatistical science, which is in in 将会逐渐被其它国家分享。新的生物统计学项将会逐渐被其它国家分享。新的生物统计学项目将在许多国家兴起,尤其是东方国家。(目将在许多国家兴起,尤其是东方国家。( PacifPacific Rim countriesic Rim countries :日本、中国大陆)。:日本、中国大陆)。

(Zelen)(Zelen)

Page 29: 生物统计学的未来

ReferencesReferences

1. Lindsay BG, Kettenring J, Siegmund DO (2004). A repor1. Lindsay BG, Kettenring J, Siegmund DO (2004). A report on the future of statistics. Statistical Science. 19(3) 3t on the future of statistics. Statistical Science. 19(3) 387-413.87-413.

2. National Science Foundation (1998). Report of the seni2. National Science Foundation (1998). Report of the senior assessment panel of the international assessment or assessment panel of the international assessment of the US mathematical science. Report 98-95, Nationof the US mathematical science. Report 98-95, National Science Foundation. Arlington, VA.al Science Foundation. Arlington, VA.

3. Lindsay BG, Kettenring J, Siegmund DO (2004). Statisti3. Lindsay BG, Kettenring J, Siegmund DO (2004). Statistics: Challenges and opportunities for the twenty-first ccs: Challenges and opportunities for the twenty-first century. http://www.stat.psu.edu/~ bgl/nsf_report.pdfentury. http://www.stat.psu.edu/~ bgl/nsf_report.pdf

4. Zelen M (2005). Biostatisticians, biostatistical science 4. Zelen M (2005). Biostatisticians, biostatistical science and the future. (Keynote talk given before the Eastern and the future. (Keynote talk given before the Eastern Mediterranean Region of the Biometric Society, May 2Mediterranean Region of the Biometric Society, May 2005)005)