教育测量与评价的质量特性 衡量测验质量的四个指标
教育测量与评价的质量特性
1. 衡量测验质量的四个指标
从教育测量的理论上来讲,一个良好的测验应该具备恰当的难度和区分度,具备较高的信度和效度,也就是说,测验的信度、效度、难度和区分度是衡量测验质量的基本指标。其中,前两个指标主要是对整个测验而言,后来两个指标主要是对测量的项目而言。
·信度(reliability) 简单地说就是测量结果的可信程度,指的是测量结果的稳定性程度,记为rxx。具体地说,测验的信度是指同一组学生用同一测验实施两次后所得分数的一致性,或者同一组学生经过一次测验后,用另一个同质的测验再测一次,这两次测验所得分数的一致性。估算测验的信度有三种方法:重测信度、复本信度、同质性信度。
·效度是指测量结果的准确性和有效性的程度,亦即测量是否达到了预期的目的,理解为测量的结果正确反映所欲测量的特性或功能的程度。效度分为三大类:内容效度、效标关联效度和结构效度。
内容效度是指测验目的代表所欲测量的内容和引起预期反应所达到的程度。
预测效度是指测验与将来的效标之间的关联程度。
所谓结构效度,是指一个测量能实际测量出理论上的构念或心理特性的程度。
不同的测验对效度系数有不同的要求。例如,智力测验分数与教师对学生的等级评定之间的效度系数一般在0.30~0.50的范围内;两种不同的智力测验或标准测验之间的相关系数应达到0.60—0.80,才能符合要求。
·难度是指测验的难易程度,是试题对学生知识和能力水平的适合程度的指标。在教育测量中,某测验的难度一般是用正确解答该测验题的人数与参与测验的学生数的比值来刻画的。用公式表示即:P=R/N,其中,P表示某测验题的难度,R表示答案对该测验题的人数,N表示参加测验的人数。测验题目的难度必须根据测验的目的确定和评价。难度是试题对学生知识和能力水平的适合程度的指标,是由参与测量的被试群体的整体水平决定的。
·区分度,又叫鉴别力,是指测验对考生实际水平的区分程度,用符号D表示。区分又分为正区分(D>0)、零区分(D=0)和负区分(D<0),正区分又称积极区分,负区分又称消极区分。所谓正区分是指实际水平高的考生得了高分,实际水平低的考生得了低分;
2. 信度的估算方法
根据统计学的基本原理,估算测验的信度有三种方法:重测信度、复本信度和同质性信度。
①重测信度也叫稳定性系数,它指的就是用同一量表(测验或评价表)对同一组被试施测两次所得结果的一致程度,其大小等于同一组被试在两次测验上所得分数的相关系数。一般而言,时间间隔越长,可能由于被试的身心成长发展、遗忘、施测情境改变等因素,而容易使信度降低。重测信度适用于速度测验而不适用于难度测验。
所谓异质性测验就是说一个测验包括几个不同的部分,这几个部分分别测量几个不同的心理特质,它们之间可能并不存在相关或相关较低。
所谓复本测验是指在试题格式、题数、难度、指导语说明、施测要求等方面都相当,并且都用来测量相同潜在特质或属性,但试题又是不相同的测验。复本测验也称作平行测验。
②复本信度指的是两个平行测验测量同一批被试所得结果的一致性程度,其大小等于同一批被试在两个复本测验上所得分数的相关系数。
③同质性信度也叫内部一致性信度,它是指测验内部所有题目间的一致性程度。
分半信度的计算方法和等值复本信度的方法类似,必须用斯皮尔曼一布朗公式加以校正:
rxx=2rhh/(1+rhh)
式中,rxx为整个测验的信度系数;rhh为两个“半测验”上得分的相关系数。
注意:由于对实施指导语的错误理解,对答案纸的错划,时间记录的错误以及一些不能预见的干扰等,都会产生误差。对一组被试实施测验不是同一个主试,而是由很多的主试实施,以及主试本身在安排测验上有较多的余地,这些也会引起误差。此外,记分也会产生误差,如论文式的测验和其他自由反应的测题格式,记分就很难做到完全客观,从而产生误差。
3. 提高测验信度的方法
(1)适当增加测验题目的数量;
(2)测验的难度要适中(测验的难度适中,能使测验的信度达到最大,也能使测验的区分度达到最大,所以,必须使测验的难度适中);
(3)测验的内容应尽量同质; (4)测验的程序应统一;
(5)测验的时间要充分; (6)评分要尽量做到客观化、减少评分误差;
(7)应试者参加测验的动机水平、积极性、疲劳程度也会影响测验分数,从而影响信度。引起应试者参加测验的强烈动机,提高其积极性,使其保持旺盛的精力,都对提高测验信度有一定作用。
4. 信度和效度的关系
在效度和信度之间,首先要重点保证是高效度,因为,高效度必然高信度;反之,则不然。特别是对于教育测量而言,效度问题显得更为重要。在处理信度与效度的关系问题上,首先要保证高的效度。因为,高效度必然高信度;反之,则不然。
信度是效度的必要条件。虽然信度高的测验效度不一定高,但效度高的测验,信度却一定比较高。效度和信度的关系是:效度的最大值等于信度的平方根。
5.难度
(1)难度对测验的影响:影响测验分数的分布状态、影响测验分数的离散程度、影响测验的鉴别能力。
难度值过大或过小,都会造成测验分数的偏态分布。难度值越接近0,测验的难度就越大,正确回答试题的人数就越少,测验分数就越是集中在低分段,其分数分布呈正偏态。测验难度直接影响测验分数的离散程度,因为难度过大或过小,测验分数的分布都呈偏态分布,亦即测验分数都分布在高分段或低分段,这样,测验分数的离散程度就变小了。适中的难度可使试题的区分度达到最大。
(2)影响题目难度的因素:考查知识点的多少、考查能力的复杂程度或层次的高低、考生对题目的熟悉程度、命题的技巧、利用经验判断或者通过预测调整难度。
对于其他类型的测验,目的不同对难度的要求也不同。
6. 区分度与测验信度、难度的关系
(1)区分度与信度的关系:提高区分度可以达到理想的测验信度。
(2)区分度与难度的关系:难度适中,可使区分度达到最大值。难度为1时,区分度为0。