学生学业测量和评价

24
1 学学学学学学学学学 华华华华华华华华华华华华华华华 华华华 华华 2007.11

description

学生学业测量和评价. 华东师范大学高等教育研究所所长 唐安国 教授 2007.11. 1. 2. 3. 教学评价的意义和职能. 学业测量及评价. 思考. 本次报告分为三个部分. 教学评价定义:对教学活动现实的或潜在的价值作出判断的过程 形成型评价:通过诊断教育方案计划、教学过程中存在的问题,为正在进行的教育活动提供反馈信息,以促进实践中正在进行的教育活动质量的评价 总结型评价:在教学活动发生后关于教育效果的判断,与分等鉴定,作出决策相联系. 价值判断是在事实判断的基础上,根据评价人的目的、目标、需要和期望对客观事实作出判断。 - PowerPoint PPT Presentation

Transcript of 学生学业测量和评价

Page 1: 学生学业测量和评价

1

学生学业测量和评价•华东师范大学高等教育研究所所长•唐安国 教授•2007.11

Page 2: 学生学业测量和评价

学生学业测量和评价 2

本次报告分为三个部分

教学评价的意义和职能1

学业测量及评价2

思考3

Page 3: 学生学业测量和评价

学生学业测量和评价 3

教学评价的意义和职能

• 教学评价定义:对教学活动现实的或潜在的价值作出判断的过程

• 形成型评价:通过诊断教育方案计划、教学过程中存在的问题,为正在进行的教育活动提供反馈信息,以促进实践中正在进行的教育活动质量的评价

• 总结型评价:在教学活动发生后关于教育效果的判断,与分等鉴定,作出决策相联系

• 价值判断是在事实判断的基础上,根据评价人的目的、目标、需要和期望对客观事实作出判断。

• 价值判断的特点:客观性与主观性的高度统一

Page 4: 学生学业测量和评价

学生学业测量和评价 4

两类教学评价对比

结果性的过程性的准则

综合性的,对最后获得的资料有较高度概况

分析性的,不要求对评价资料作高度概况,较具体

对评价抽象化程度要求

考察活动的最终效果,一般在过程结束后进行,对教学活动全过程的检验

直接指向正在进行的活动,以改进教学活动为目的,是在过程中进行的评价

覆盖教育过程时间

外部导向。评价报告主要是呈交各级政策制定者,为其采取行政措施提供依据

内部导向。评价结果主要提供给那些正在实施教学活动的人参考

评价报告的听取人

作出教学效果的判断,从而区分优劣,分等级或鉴定合格,为决策部门的决策提供依据

帮助师生把注意力集中到提高教学质量上

目的、期望的用途和职能

总结型( Summative )

形成型( Formative )

类型

Page 5: 学生学业测量和评价

学生学业测量和评价 5

学生的学业评价• 定义:对学生个体学

业进展和行为变化的评价

• 现代学业评价:以教育目标为依据,衡量学生个体的发展是否达到预定教育目标的过程

• 测量工具 : 考试、测验 • 在测量的基础上对学

生个体发展和学习效果作出价值判断

Page 6: 学生学业测量和评价

学生学业测量和评价 6

学业评价六大步骤

随机抽样编制试卷

确定和表述所考课程的教学目标

编审试题

结果处理

实施考试取得信息

评分

Page 7: 学生学业测量和评价

学生学业测量和评价 7

步骤 1. 确定和表述所考课程的教学目标

• 设计代考课程的教学目标方法有三步:以较抽象的术语来表达课程的一般目标;将每一目标分解成内容成分与行为成分两方面;制作双向细目表

• 学业评价须以一定的判断准则作为根据,这个根据即为教学目标、教学活动和教学评价三者关系

教学目标

教学活动 教学评价

教学目标、教学活动和教学评价三者之间的关系

Page 8: 学生学业测量和评价

学生学业测量和评价 8

认知领域1.00 知识 1.10 特定事物 1.11 专门术语1.12 特定事实 1.20 处理特定事物的方法及手段1.21 常规 1.22 趋势和顺序1.23 分类和范畴 1.24 标准 1.25 方法论1.30 某一学科领域中普遍原理与抽象概念1.31 应用原理与概括的知识1.32 关于理论与结构的知识及智力智能

2.00 理解 2.10 转化 2.20 解释 2.30 推断

3.00 应用 3.10 规则 3.20 方法 3.30 概念

4.00 分析 4.10 要素 4.20 关系 4.30 结构原理

5.00 综合 5.10 归纳个人所要表达的见解5.20 拟定计划或实施规划5.30 引出一套抽象关系

6.00 评价 6.10 根据内在证据逻辑地评价6.20 根据外部标准逻辑地评价

情意领域1.0 接受(注意) 1.1 发现 1.2 积极

地接受 1.3 受控制的或有选择的注意

2.0 反应 2.1 按指令默认 2.2 积极的反应 2.3 满意地反映

3.0 价值判断 3.1 领会一种价值 3.2选择一种价值 3.3 确信一种价值

4.0 价值的体系化 4.1 价值的概念化4.2 价值体系的组织

5.0 一个价值或价值复合体的个性化5.1 赋予价值观 5.2 赋予世界观

布卢姆( B.J.Bloom):认知领域与情意领域的教育目标分类

转引自竹田清夫《新行为主义教育方法学》

Page 9: 学生学业测量和评价

学生学业测量和评价 9

步骤 2 .编审试题• 编审试题是将比较抽象的教育目标具体化,使目标达到可操作• 构成上 : 试题由刺激(给定的情景和条件)、反应(预期的行为和反

应)和标准(提供评判依据)三部分组成• 外形上:试题可分为固定应答型(选择题、配对题等)和自由应答型

(问答题、简述题等)两类• 编制试题即制作测试量尺;审定考试试题则是检验所制量尺是否标准• 编制原则和程序:紧扣教学大纲且难易适度;同一试卷统一规格编写;

试题用词恰当,文字简明,表义确切;避免与教材相同表述;试题各自独立等

• 试测:保证正式考试的信度、效度,并为建立常模提供依据

Page 10: 学生学业测量和评价

学生学业测量和评价 10

各类试题类型的优缺点及命题原则

3. 指导语要叙述清楚4. 安排卷面要易于理解、易于评分

1.限于使用同质性资料2.选项的数目要多于题干的数目,且不限制每个选项被选择的次数

1.仅能测量机械记忆的知识2.若命题者不理解限于采用同质性资料以及提供超量选项的重要性,则会出现暗示

1.短时间内测量大量内容2.可有效测量知识相关性,可广泛用于不同场合3. 较易命题

配合题

4.避免暗示5.只采用似是而非的迷惑答案以吸引未具有这方面知识的学生6.避免使用“以上皆是或皆不是”答案

1. 每道题只能测量一个重要问题2. 题干应只涉及一个明确的问题3. 试题叙述必须简单、清晰、准确

1.命题需专门技巧2.易受暗示影响3. 不能测量完整推理论证能力、对知识的综合运用能力及表达写作能力

1.适用于测量各种不同层次学习 2. 试卷容量大,测量面广,信度高3.利于培养判断力4. 评分标准统一、客观、准确 5 具诊断效果

选择题固定应答型或选择型

4. 不允许学生随意选择试题作答5. 应提示每题作答的时间

1. 测量较高层次的学习成果2.明确而有系统的陈述问题3.避免出现含糊的一般性问句,要说明应对回答长度的限制

1. 试题取样不广且不均匀,无法有效代表学科的全部内容2. 评分主观性强,易受无关因素影响

1.可用于测量高层次的学习结果2. 对学生的学习态度和方式有积极影响3.可培养写作能力4 试题编写容易

论述题

4.避免可能的提示和只需机械记忆的试题5.“填充题型”空格不要太多

1. 一个试题只能有一个简短具体的答案2.填充的部分须是“关键问题”3. 要编成“直接问句”形式,避免猜测因素

1.无法考核复杂的学习结果2.记分不够客观

1.命题容易2. 受猎测的成都小

简答题(含填充题)

自由应答型或供应型

命题原则缺点优点小分类大分类

Page 11: 学生学业测量和评价

学生学业测量和评价 11

试题和试卷的四个质量指标

试题和试卷质量指标 信度:指同一份试卷两次或多次测试程度

大致相同的考生,考试得分相符合的程度。 若两次考试成绩基本一致, 说明考试信度高,反之则低

区分度:指试题能对应试者水平差异的鉴别能力;区分度好的试题能把不同水平的考生成绩区分开

难度:衡量试题难易程度的质量指标;指试题对应试者实际水平的适合程度

效度:指考试结果的有效程度,即用某种量具 对某一对象测得的结果与欲测的结果相符合的 程度。某次考试效度高,意味着考试所测到的 内容恰恰是需要测试的内容;而效度低或根本 没有效度,说明需要测试的内容没有完全测到, 或完全没有测到

Page 12: 学生学业测量和评价

学生学业测量和评价 12

质量指标列表

一份试卷要求 P 和 D 呈现一个合理的分布,即不是所有试题都是高难度和高区分度,或相反。 一份试卷的难易程度由难易程度不等的各试题组成。高和低难度试题宜各占 1/3~ 1/4, 其余为一般难度的试题。区别度也如此。 不过,对于择优型测试, D 值应偏高

所谓高低分组是指考生在该题得分以从高到低排序,两端各取27% 的考生组成高、低分组。鉴别能力好的试题,D 值在 0.5~ 0.65 ;较好的在 0.4~ 0.5 ,在 0.3 以下,不宜采用

积差相关计算法点二列相关计算法(略)

D=PH - Pt

D :区分度PH :某题高分组的通过率或答对率Pt :某题低分组的通过率或答对率

以 D 表示,其值处于 -1至1 之间,即- 1≤ D≤1

D=1 :试题能准确鉴别应试者个体水平差异;D=0 :该题无区分能力;D= - 1 :考试分数与应试者的实际水平相反

区分度

试题的难易程度一般控制在 P 值 0.4~ 0.7 之间;试题的平均难度即 P 值控制在 0.5~ 0.6 之间。 P 值在 0.4 以下和 0.8 以上的试题,应少用或不用

选择题: P=R/N

P :难度值即没有通过率R :选错某题正确答案人数N :应考人数

问答题: P=X/a

P :难度值即答错率X :全体应试着的失分数的平均值a :该题满分值

常用考试中答对或通过某题人数在整个应试者中所占的比例来表示( P )

难度

备注举例 2举例 1表示方法质量指标

Page 13: 学生学业测量和评价

学生学业测量和评价 13

续前表

不能以考试信度高低作为衡量该次考试效度的标准 信度较高只表明所测到的内容较好地反映了考生的水平,但没有回答所测到的内容是否反映了全部要测的内容 一次考试的信度高仅是效度高的必要条件,而不是充分条件

预测效度:考试在预测应试者将来从事某种学习或工作能够达到应有水平方面的有效程度。通常是求考试实得分数与能够体现考试目的的效标分数之间的相关系数。如选拔性考试内容效度:测到的内容与需要测到的内容相符合程度

效度指一次考试结果与主试者主观愿望的符合程度。常用的两种考试效度:预测效度,内容效度

效度

1.严格按照程序编制试题和纸卷,最大限度控制施测过程中无关因素的干扰,如泄露试题或考场纪律差;2.扩大题量,降低某一试题比重 3. 总之即增加试题和试卷编制的科学性和控制随机误差

折半法、再测法及等值法计算一次考试等值的两部分得分以及两次等值考试得分之间的相关系数

信度提高质量指标的方法举例表示方法质量指标

Page 14: 学生学业测量和评价

学生学业测量和评价 14

步骤 3. 通过随机抽样编制试卷• 考试时,须从全部符合要

求的试题中抽取以部分作为试题

• 抽样的两种方式:在一门课程中随机抽样;将一门课程先分解为若干单元,在各单元中随机抽样。后一种方法能保证试卷有较大覆盖面

• 随机抽样的基础性工作即建立题库

• 即将经过筛选,符合标准的题目填卡、编目,输入计算机,便于在需要时很快拼配出试卷

Page 15: 学生学业测量和评价

学生学业测量和评价 15

题库试题卡样式

题库试题卡样式(正面)

题库试题卡样式(反面)

正确答案使用情况

测试结果统计分析资料

题库编号试题号所属学科

编题目编题人

试题来源

试题原文:

Page 16: 学生学业测量和评价

学生学业测量和评价 16

步骤 4. 实施考试,取得信息

制定实施考试方案

印刷试卷

设置考场

施测

阅卷评分

分数转换

编写考试分析报告

统计分析

实施考试的 7 个基本环节如下:

Page 17: 学生学业测量和评价

学生学业测量和评价 17

步骤 5.阅卷评分

如将一次考试的原始分数转换成标准分数,就符合比率量表的要求

等距、等质,具相同的零点,因此可作四则运算

比率量表

变量不具有相同的零点。数值可以作加减运算,但不表示倍数关系

具有相同计量单位(单位间的距离是确定的)

间距量表

只能解决同类比较重先后次序,却不能在不同排序之间进行加减运算原因是位次排序之间是不等距的

如高校科研投入排序用来反映事物相对顺序关系的分值来表示的一种量表

位次量表

低水平的量表,但在心理与教育测量中应用广泛

单项选择题,可供选择的答案有四个,但答案只按对或错两类加以区分

与分类有紧密联系,它是对被测量变量仅作的定性描述

名义量表备注举例定义

量表:是一种用以测量的工具四种量表

斯蒂文斯( S.S.Stevens )《论测量量表》

Page 18: 学生学业测量和评价

学生学业测量和评价 18

综合使用量表• 由于不同考试科目之间的难度及考

试过程中各环节质量的可控程度不一致,因而,对于不同科目的考试而言,原始分数之间不具可比性,失去了不同科目考试分数相加的条件

• 原始分数的转换,是以常模为标准参照点,把原始分数变为具有同一计量单位的分数

• 标准分数表示考生的成绩在考试总体中的位置。既可以把某考生的分数与其他考生的分数比较,也可与该生不同科目或不同考试中的分数比较

• 模糊量表是名义量表(分类描述)在更高层次上的推广

• 由于实际测量活动的复杂性,需要依据阶段不同使用两种以上的量表

Page 19: 学生学业测量和评价

学生学业测量和评价 19

步骤 6. 考试结果的统计分析与对策• 统计分析的目的:对整个考试

结果进行全面检验,获得各种反映试题及考试质量指标的数据,以判断考试是否可靠有效,是否符合规定的考试目的。同时找出教学过程中的薄弱环节及问题,提出改进措施

• 统计分析的内容:整个考试分数的分布情况,试题和试卷难易程度,信度、效度是否达标等

• 举例:就某门考试,分析考试分数的分布问题

汇集全班考试的原始分数;分组;计算组距;计算每一组的下限值;分组统计各组的频数(即每组内人数);画出考试成绩分布曲线;分析失分原因(可用因果分析图);列出对策

Page 20: 学生学业测量和评价

学生学业测量和评价 20

考试结果的处理环节

4

3

2

1

分析失分原因(如因果分析图)

收集数据,作出相关统计

画出考试成绩分布曲线

列出对策

Page 21: 学生学业测量和评价

学生学业测量和评价 21

因果分析图(鱼刺图)

教师 学生

授课时间安排不当

缺乏教学经验综合练习少

青年教师

缺乏管理实践能力

粗枝大叶综合能力差

平时测验少

计算能力差

教学目标不甚明确

缺乏了解

考试太仓促

实践环节太少

重视不够

联系实际差

内容繁杂筛选不当

不是专用教材

教学管理 教材

Page 22: 学生学业测量和评价

学生学业测量和评价 22

对策表

1.召开座谈会、了解教育对象2. 根据教育目标重新设计教学环节

教学目标不甚明确5

1.平时加强对实际问题的综合研讨、交流2.组织课题小组

学生综合能力差4

1组织相互听课2. 交流经验3. 向老教师学习

教师缺乏教学经验3

1. 有目的地参加教育管理活动2. 参加有关课题研究

教师缺乏管理实践经验2

1.针对教育目标筛选2.自编讲义

教材内容繁杂1

落实人员相应措施存在问题序号

Page 23: 学生学业测量和评价

学生学业测量和评价 23

思考

11测量的信度、效度、难度与区别度的概念及计算

22你对试题库的看法?如何建立你所教课程的试题库?

33如何结合实际,进行一次考试后的统计分析和对策分析

Page 24: 学生学业测量和评价

24