[测验技术] IRT 参数模型的选择

IRT 参数模型的选择
设计基于 IRT 的 CAT 测试时，首先要考虑选择哪一个 IRT 模型。一般选择的原则是：既能适合测试的需要，同时要够简洁。通常，IRT 参数模型选择步骤如下：
（1）分析被测者潜在特质的维度
在“电子商务职业开发项目” 中，研究者一般会分别从被试者的“技能掌握的深度”、“技能掌握的广度”以及“技能掌握的熟练程度”三个维度出发设计测验项目，通过比照被试者在测试上得分高低来评估其与合格电子商务师的符合程度。最终结果一方面可以与面试结果进行对照，另一方面也可通过对项目难度、项目区分度、项目一致性等参数估计，来为是否定义为合格的电子商务师确定明确分界值。
由于测量中所有设计的题目只是测量三个维度中的一个维度，不存在一道题目测试多个维度的情况，所以可以被视作为一个单维度测试模型。
（2）双值/多值记分模型
IRT 理论发展至今理论上已日趋成熟，尤其二级评分测验的 IRT 模型已被广泛用于测量实践当中。但另一方面，IRT 理论在描述多级反应量表数据的时候不那么完善。以五点量表为例，研究证明将 1，2，3 分报告为 0 分，而 4，5 分报告为 1 分不会对参数估计精度有太大影响，这样可以在要求较粗略情况下用两级 IRT 模型对参数进行估计。但将一个五级 Likert 量表编码成二级量表必然损失相当大一部分信息量，研究人员需要更完善的方式估计多等级题目各种参数。
Samejima 提出等级反应模型（Graded Response Model，GRM）规定：被试在项目恰得 K 分概率，是两个概率差值，即： P()P()-P()*i,k1*i,ki,k，这里 P()*i,k 表示该被试在项目上得 K 分及 K 分以上概率。GRM 规定除零等级外对应每等级 K 难度为 bi，k，等级难度随等级数增加上升。模型规定项目各等级上区分度 a 相等，这样按双参数 LOGISTIC 模型可以写作： P()*i,k 为等级反应模型中项目类型特性函数，P()i,k 为等级反应模型的运算特性函数。IRT 模型“局部独立性假设”要求被试对项目应答时独立，但 GRM 模型假设能答对高难度项目被试一定答对低难度项目，这在一定程度违反了该假设。然而局部独立性假设只是理论假设，实际测量中几乎没有测验能遵守。GRM 假定只是意味相关仅限同一原始项目的虚拟项目间，而不同原始项目虚拟项目间并没有相关。同时 IRT 模型最大优点之一就是对违反模型假设测验，模型参数估计仍然是稳定的；Reckase 研究甚至表明，对于明显违反单维性测验，IRT 模型对于能力参数估计仍然稳定的。因此我们相信，多级反应数据转换成多个虚拟二级反应数据不会影响对被试能力准确估计。
（3）选择参数模型
项目反应理论有三个参数模型，理论上看，三参数模型在一些题型有优势，但实际应用过程中，却有困难。有时被试会出现特异反应模式，即考生答对困难及有鉴别度的试题却答错相当容易的试题。这些情况下进行最大近似值估计，最大近似值往往不收敛，以致无法获得固定最大近似估计值。这种特异反应模式所产生问题，一般只出现在三个参数模式上，不会出现在一个或两个参数模式里。有时也会出现在 40 个测试项目以上测试里。另外使用三参数模型校准，需大量考生样本，标准情况需要 500 人以上，实际开发中难度很大。由于电子商务师测试有别于一般的考试，题型分为客观题与操作题两部分，因此自适应系统的题型仅限于客观题且以单选题为主，可以认为单选题猜测系数为 0.25，是固定的。而且大量研究表明，两参数模型参数设置适中，可应用于大专院校及社会上的各种考试系统设计中，所以选择两参数模型是相对合理的。
结论：对于“电子商务职业开发项目”来讲，选择单维，二值记分，两参数 IRT 模型符合项目实际需求。因此，最终项目采用二参数 Logistic 模型作为 IRT 的参数模型。

分享到: QQ空间 腾讯微博 腾讯朋友

返回列表

[测验技术] IRT 参数模型的选择

[收藏此主题] [关注此主题的新回复]

[通过 QQ、MSN 分享给朋友]