[测验技术] 从经典测验理论CTT 到项目反应理论IRT再到计算机化自适应测验 CAT

随着时代推移与社会发展，考试弊端逐渐显现，早期设立的考试制度或者方法在许多方面已不能适应现在的要求。因此探索新型考试方式的改革非常必要。随着计算机的出现以及信息技术和网络技术的高速发展，考试的手段与方法发生了革命性变化，从考试理论的发展看，它经历了从经典测验理论 CTT 到项目反应理论 IRT 这两个阶段的完善和发展。
基于 CTT 的测验统计量依赖于被试的样本，在大多数的情况下都需要符合总体正态分布的前提，遇到小样本或者明显偏态分布样本的情况下，测验结果的准确性与推广性都不强。同时 CTT 模型中被试能力的估计值被定义为以样本作为参照的相对值，不同批次的测量间很难直接进行比较，所以对于特定的被试会在特定测验项目上作出怎样的反应无法提供预测。项目反应理论，又称潜在特质理论（Latent Trait Theory），从六十年代提出以来得到了很大的发展，在八十年代 IRT 已经取代 CTT 成为占有统治地位的测量理论。这种理论认为被试可否正确回答某道试题的概率是由其能力和试题的性质共同决定的，被试的能力与试题难度的差越大，则被试在该题答对概率越大，反之，则概率越小。项目反应理论将考生能力与试题难度定义在同一个度量上，克服 CTT 中试题难度与考生能力不可比之缺陷。基于 IRT 理论的计算机化自适应测验 CAT，指基于 IRT 的指导，把计算机技术和测量技术结合的考试形式。自适应测验中，对每个被试来说，不同能力水平被试施测难度不同的项目，所测项目既不太难也不过易，系统根据被试不同能力水平，选择一组最适合测量被试个体的特质水平的项目对被试进行施测，使得测试结果最大限度地反应被试能力水平。从而对所有特质水平上的被试能力可提供相同精度的测量，对其能力水平进行更为精确的度量，真实反映出他们的实际水平。自适应测试与传统考试相比其测验时间可以大大缩短，既能兼顾精度又能考虑到测验跨度，做到因人施测，能解决传统考试中所存在的根本问题。
项目反映理论及其指导下的计算机化自适应考试的主要研究内容及理论支撑包括：参数估计、测验等值、选题策略及终止规则。
自适应测验一大优点是能够用较少的试题施测，却达到较高的测量精度。测验是否终止是依据测验目标是否达到来决定的。一般有三种方式决定测验是否结束：确定测试题数或测验时间，取决于对估计标准误差的要求以及比较被试特质参数最后两次的估计值，当这两个值之差小于某一预先给定的值之时停止。a 分层选题策略是 CAT 研究的重要内容。研究选题策略，从而降低被试能力估计误差，减少项目调用次数并且平衡项目曝光均匀性，是在 CAT 研究中不断探讨的问题。虽然由于 a 分层选题策略在某些方面存在不完善，后来又陆续开发了 b 分层、c 分层选题策略，但是算法均较复杂且还是有不少缺陷，因此，a 分层选题策略在ＣＡＴ中仍然有很大需求。
由于 IRT 理论的计算机化自适应测验有诸多优点，近年来基于 IRT 理论的计算机化自适应测验被广泛地应用于心理测量、教育等领域。而电子商务师在线考试系统正是这样一个典型的教育考试系统。因此，在研究与分析基于 IRT 的计算机化自适应测验的终止测试条件、a 分层选题策略，得出影响 a 分层法的各因素之最佳状态，改进了ａ分层选题策略及与之相对应的终止测试条件的基础上，结合项目实际情况，设计基于 IRT 的CAT 测试系统是有实际意义的。

分享到: QQ空间 腾讯微博 腾讯朋友

返回列表

[测验技术] 从经典测验理论CTT 到项目反应理论IRT再到计算机化自适应测验 CAT

[收藏此主题] [关注此主题的新回复]

[通过 QQ、MSN 分享给朋友]