PDF文库 - 千万精品文档,你想要的都能搜到,下载即用。

学术论文_科学研究_科研成果_信息技术与工程系.pdf

Hopeless(绝望)4 页 746.517 KB下载文档
学术论文_科学研究_科研成果_信息技术与工程系.pdf学术论文_科学研究_科研成果_信息技术与工程系.pdf学术论文_科学研究_科研成果_信息技术与工程系.pdf学术论文_科学研究_科研成果_信息技术与工程系.pdf
当前文档共4页 2.88
下载后继续阅读

学术论文_科学研究_科研成果_信息技术与工程系.pdf

第 32 卷第 1 期 2015 年 1 月 Vol. 32 No. 1 Jan. 2015 计算机应用与软件 Computer Applications and Software 项目反应理论在题库建设中的应用研究 罗永莲 贾玉芳 ( 晋中学院计算机科学与技术分院 摘 山西 晋中 030600) 通常的题库管理系统都要根据经典测量理论,选择样本组进行测量,然后根据测量统计分析的结果,修改或选择合适的 要 试题以完成题库建设。这种方法对测试组的能力有一定的依赖性,所得到的修正参数也存在偏差。针对经典测量理论存在的问题, 提出以项目反应理论为基础,通过多次迭代,利用最大似然估计法估计被测试组的能力参数,在此基础上产生题目参数。用此题目 参数对试题相应初始值进行修正,并根据这些参数指标组合成卷。实验结果表明,此方法估计出的题目参数相对稳定,不因测试组 的不同而有明显变化,实践证明能显著提高试题的有效性。 项目反应理论 关键词 中图分类号 TP391. 1 最大似然估计 文献标识码 难度分析 区分度分析 A DOI: 10. 3969 / j. issn. 1000-386x. 2015. 01. 022 ON APPLICATION OF PROJECT RESPONSE THEORY IN ITEM BANK CONSTRUCTION Luo Yonglian Jia Yufang ( School of Computer Science and Technology,Jinzhong University,Jinzhong 030600,Shanxi,China) Abstract Usually the management systems of examination item bank all select the sample group according to classical test theory for meas- urement,then according to statistical analysis results of the measurement,the system modifies or selects proper test items to complete the construction of test item bank. Such method partly depends on the ability of the test group,and the correction parameters derived will deviate as well. Aiming at the problem of classical test theory,in this paper we propose that taking item response theory as the basis,through multiple iterations,and using maximum likelihood estimation method to estimate the ability parameters of the test group,the item parameters are generated based on this. These item parameters will be employed to correct the corresponding initial value of the test items,and the test paper will be composed according to these parameter indexes. Experimental results show that the item parameters estimated by this method are relatively stable,and do not significantly alter with different test groups,the practice proves that the method can remarkably improves the effectiveness of the test items. Keywords Item response theory Maximum likelihood estimation Difficulty analysis Discrimination analysis 鉴于以上特点,研制了一个小型题库管理系统,该系统以项 0 引 言 目反应理论为基础,通过计算机自适应测验估计题目参数与被 测试组的能力参数,提高了题库标注的准确性和试题的有效性。 题库管理系统的试题参数设置与修正直接影响着试题的整 体难度与区分度等指标,也决定了对学生学习情况的考察效果。 传统题库的试题参数设置与修正,一般都遵循经典测量理 论 CTT( Classical Test Theory) 的指导,CTT 采用线性确定性模 1 相关技术及解决思路 计算机自适应测验以项目反应理论为理论依据。项目反应 型, 即由被测试学生的考试正确率与区分情况等来修正相关参 [1] 数 。CTT 不论被测试组能力水平高低都使用相同的测试项 方法将其参数化、模型化。将对考生和试卷题目进行评价的指 目进行测试。这种情况下,对试题难度、区分度及测验信度的 标统称为参数,通常只关心被试组能力参数( θ) 和题目区分度 估计依赖于被测试组,对被测试组能力的估计依赖于所使用的 测验题目,并且它只提供平均测量精度。因此基于 CTT 的所产 参数( a) 、难度参数( b) 。其中参数 θ、a、b 的值都可根据被试 [2] 生的试题受众范围小,适用对象相对固定 理论将被试组水平与题目参数关联起来,并且通过构造模型的 [4] 者对题目的解答情况进行估计 。 [5] 。 根据具体问题,可出现几种情况 : 随着计算机技术的发展,项目反应理论 IRT( Item Response Theory) 得以迅速推广应用,目前一些大型的考试都相继采用了 以 IRT 为基础的计算机自适应性测验 CAT( Computerized Adap- 第一,己知题目参数,估计被试组能力参数; tive Test) 。IRT 采用非线性概率模型,它的理论体系有参数不 收稿日期: 2013 - 07 - 21。山东省教育科学“十一五”规划课题( GH [3] 变性的优点,并能给出不同水平被测试组的测量精度 。 第二,已知被试组能力参数,估计题目参数; - 08072) 。罗永莲,副教授,主研领域: 中文信息处理。贾玉芳,本科。 第1 期 罗永莲等: 项目反应理论在题库建设中的应用研究 第三,同时估计被试组能力参数和题目参数。 87 大似然估计。 针对被测群体的易变性,及出命题人的主观性采用第三种 方法,即同时对各参数进行估计。具体流程如图 1 所示。 m L( θ) = P( U j1 ,U j2 ,…,U jm ; θ) = ∏ P Uj jk Q1j -U jk ( 3) k =1 式中的 P j ,由二参数项目反应模型计算,其计算如式( 4) : 1 P j ( θ; a j ,b j ) = 1 + exp[- 1. 7a j ( θ - b j) ] ( 4) 其中 a j 和 b j 的值取初始区分度( a j0 ) 和初始难度( b j0 ) 。 解对数似然方程,得到的最大似然估计值即为被试能力参 数的初值估计值 θ1 。 图1 3. 2 参数估计流程图 题目参数初值估计 以上一步估算出的能力参数为已知,代入测试样本值,利用 2 式( 5) ,作关于参数 a j 和 b j 的最大似然估计,其中的 P j ,同样由 式( 4) 计算,其中的 θ 值取被试组能力参数的第一次估计值 θ1 。 标注试题参数 m 设题库中的题型( 填空、选择、简答、判断对错等) 数为 l, L( a j ,b j ) = P( U j1 ,U j2 ,…,U jm ; a j ,b j ) = ∏ P Uj jk Q1j -U jk 可将试题库的题目表示为: I = { I1 ,I2 ,…,I l } ( 5) k =1 计算得到题目参数的第一次迭代值 a j1 和 b j1 。 其中 I i ( i = 1,2,…,l) 表示第 i 种题型。设题型 i 的题目数为 v,则: I i = { I i1 ,I i2 ,…,I iv } 其中题型 i 的第 j 题 I ij 的参数标注包括: 编号、试题内容、试题 3. 3 被试能力参数与题目参数的联合最大似然估计 将题目参数的第一次迭代值 a j1 和 b j1 作为题目区分度和难 度的 输 入 值,进 入 下 一 轮 迭 代,直 至 能 力 参 数 估 计 的 标 准 差 SE( θ) 不超过给定值 ε,其计算公式为: 答案、难度参数、区分度参数、所属章节、使用次数、分值、答 n SE( θ) = 题时间等。 1 ( θ i - θ) 2 n - 1∑ i =1 ( 6) 槡 部分参数如编号、试题内容、试题答案等由命题人设置, 其中的 θ 为第 i 次迭代值。题目参数和能力参数的最后一次估 动态参数如使用次数、分值、答题时间等由题库算法自动更新 或考试后评卷教师在试卷分析之后赋值。题目的难度参数和区 分度参数的初始值将在测试过程中加以修正,题目 I ij 的初始区 分度( a0 ) 和初始难度( b0 ) 利用式( 1) 和式( 2) 设定。 a0 = a + 2. 0 ( 1) b0 = b ( 2) 其中,a 为题目 I ij 的经典区分度,b 为题目 I ij 的经典难度。其值 由命题人根据经验、相关参照等来设置。 3 计算机自适应测验 试题题目的初始设置受到命题人主观判断的影响,对于不 i [7] 计值即为最终参数值 3. 4 的经典区分度和经典难度情况一无所知,则可根据教师或出题 人的经验来设定初始估计值; 二是在测试前对类似题目参数有 所了解,可采用同类题目的平均水平作为初始值。此值的选取 对测验精度影响极小,但影响测验的效率。因此,在每次自适应 [8] 测试完成时,应对同类题目的经典参数进行修正 。 修正题目参数的过程中,若出现题目难度超过或低于给定 的值,或者题目区分度低于给定的值,则淘汰该题目。设 ε 为被 试验能力参数域值,具体算法如算法 1。 算法 1 参数修正算法 初始化变量 n = 0( 计数器) ,数组 A( ) ; 算机自 适 应 测 验,对 相 应 参 数 进 行 修 正,可 使 其 更 客 观、 [6] 。 定位到首记录; While ( 未到表记录末尾) { 准确 试题中的题目参数取初始值,随机选择一个被测试组,记录 取出本记录的题目区分度参数 a 和难度参数 b; While ( SE( θ) > ε) { 测试组的答题情况作为参数估计样本,由此估计被测试组人员 的能力参数,并进一步估计题目相应参数。由于参数估计的前 n = n +1 提是命题人设置的初始试题参数,应反复迭代估计,以逐步减少 代入值 a,b,利用式( 3) 和式( 4) 估计 θ 值; A( n) = θ; 以至消除其主观影响。 被试组的能力参数初值估计 代入 θ 值,利用式( 4) 和式( 5) 估计 a,b 值; 代入 n 及 A( n) ,利用式( 6) 计算标准差 SE( θ) } ; 设选取的被 测 试 组 人 数 为 m,对 于 第 j 题 的 测 试 结 果 表 示为: 用 a,b 值更新题目区分度参数和难度参数; 取下一条记录} 。 U = { U j1 ,U j2 ,…,U jk ,…,U jm } 其中题目反应变量 U jk = 0 表示第 k 人答错第 j 题,U jk = 1 表示 第 k 人答对第 j 题。 修正与评价试题参数 确定题目参数初始估计值有两种情况: 一是测试前对题目 同的测试群体,相应参数偏差很大,根据项目反应理论,采用计 3. 1 。 4 试题抽取算法 根据题目设定的初始区分度和初始难度,利用最大似然估 计法估计被试组的能力参数 θ 的初值。设第 j 个题答对的概率 为使试题的整体参数指标更适合考试要求,对抽出的试题 为 P j ,答错概率为 Q j ,利用式( 3) 的似然函数作关于参数 θ 的最 应按题型计算其平均难度、平均区分度及重复率等指标,以实 88 2015 年 计算机应用与软件 Tag = 1} ; 现分别对每个题型进行评价,最终抽取符合要求的题目组合 i = i + 1} ; 成题。 计算参数指标 If Tag = 0 Then 修正参数 β i ,重抽试题; 1) 计算难度的平均值 根据数组 A 中的试题编号组卷; 修改表记录中的“使用次数”字段。 4. 1 利用式( 7) 计算题型 I i 的难度平均值R i 。 ni 1 R ij ni ∑ j =1 Ri = ( 7) 其中 n i 为题型 I i 的题数,R ij 为题型 I i 中第 j 个题目的难度参数。 2) 计算区分度的平均值 实验与评价 5 5. 1 基于同一被测试组的实验 采用一个测试组进行实验,对题目参数的修正算法跟踪,记 利用式( 8) 计算题型 I i 的区分度平均值W i 。 录其参数迭代过程,其中部分题目相关的能力参数 θ 初值与终 ni 1 Wi = W ij ni ∑ j =1 ( 8) 值分布如图 2 所示。 其中 n i 为题型 I i 的题数,W ij 为题型 I i 中第 j 个题目的区分 度 参数。 3) 计算难度方差和标准差 2 分别利用式( 9 ) 和 式 ( 10 ) 计 算 试 题 难 度 方 差 S i 和 标 准 差 Si 。 ni S2i = 1 ( R2ij - n i R2i ) ni - 1 ∑ j =1 S i = 槡S i 2 ( 9) ( 10) 4) 计算试题重复率 为防止部分试题在考试中反复出现,利用式( 11) 计算题型 I i 的重复率 T i 。 k ∑( m × lm ) Ti = j =1 k 图2 被测试组能力参数分布图 由图可知,经过多次迭代,同一测试组对于不同题目的能力 参数趋于稳定,即能力参数取决于测试组能力,而不是题目参 数值。 ( 11) 其中 k 为题型 I i 的试题总数,l m 为已使用次数为 m( m≥0) 的题 将估计的最终 θ 值按题型分组,计算其平均值和标准差,结 果如表 1 所示。 表1 目被抽中的数量。 不同题型的 θ 值对照表 题型 选择 判断 填空 名词解释 简答 设题库中的题目按试题类型存放,且每个题型 I i 要求的题 θ 平均值 0. 39 0. 40 0. 29 0. 24 0. 21 2, 3, 4) 为各参数指标的域值,抽取试题 目数量为 N i ,设 β j ( j = 1, 的算法如算法 2。 θ 标准差 0. 16 0. 13 0. 85 1. 26 2. 54 抽取试题算法 4. 2 算法 2 试题抽取算法 由表 1 可知,能力参数的估计准确程度与题型有关,与客观 将各题型中的试题按章的顺序排列; 初始化变量 Tag( 结束标记) ,i( 计数器) ,数组 A( ) ; 题相关联的参数稳定性好,而与主观题相关联的参数稳定性较 差。分析其原因,是取样本过程中采用( 0 - 1) 分布,即对于每 统计章数 IC i ; Num = Floor( N i / IC i ) ; While ( Tag and i < 500) { 5. 2 定位到首记录; While ( 未到表记录末尾 ) { 在本章中产生 Num 个随机数; 将所选试题编号记入数组 A( ) ; 个题只有对、错之分,客观题的特性更符合这一前提。 基于不同测试组的实验 为了验证题目参数与被测试组力参数之间的关系,将测试 组成员按以往成绩分成优、良、中、差四组,比较各组关于部分 题目的能力参数 θ 终值,分布如图 3 所示。 定位到下一章} ; If 所选题数 < N i Then 在题型 I i 中产生随机数补足; If 所选题数 > N i Then 在数组 A 中产生随机数去除多余的题目; 利用式( 11) 计算题型 I i 的 T i ; If T i < 待定参数 β1 Then{ 利用式( 7) 、式( 8) 和式( 10) 计算题型 I i 的R i 、W i 和 Si ; 图3 If R i > β2 and W i < β3 and S i > β4 Then 不同测试组能力参数分布图 ( 下转第 152 页) 152 2015 年 计算机应用与软件 的平均接受质量的自适应方法的改进。其主要目的是在达到自 适应调整传输速率、有效利用带宽的同时,保证较好的 QoS 体  验。解决原有基于平均接收质量的自适应过程中,缓冲区振荡 ( 上接第 88 页) 2011: 135-136. on Consumer Electronics,Las Vegas,NV, 调整和带宽急剧恶化时可能导致的视频中断问题,并在优先保 计算各组估计的 θ 终值平均值与标准差,结果如表 2 所示。 证视频流畅度的基础上,通过调整接收质量的平均范围,达到减 表2 少视频质量振荡的效果。仿真结果表明: 在自适应的过程中,本 文所提出的自适应方法达到了保证流畅度、减少视频质量振荡 的目标,且在非振荡状态的调整过程中,由于平均范围的调整, 自适应的效率也有所加快。 参 考 不同测试组的 θ 值对照表 组别 优 良 中 差 θ 平均值 θ 标准差 0. 49 0. 12 0. 39 0. 15 0. 33 0. 14 0. 19 0. 15 由图 3 和表 2 可知,对于不同测试组,其能力参数是有区别 文 献 [1 ] 杨戈,廖建新,朱晓民,等. 流媒体分发系统关键技术综述[J]. 电 2009, 37( 1) : 137-145. 子学报, [2 ] 秦丰林,刘琚. P2P 网络流媒体关键技术[J]. 电子学报,2011,39 ( 4) : 1-9. 的,即此参数也可用来作为学生能力水平评价的一个指标。不 同分组的 θ 值稳定程度没有明显差别,即参数 θ 的估计稳定性 不因测试组的不同而有明显变化。 由四个测试组分别数估计题目参数,部分题目的难度参数 对照表如表 3 所示。 表3 [3 ] Pushpendra Kumar Chandra,Bibhudatta Sahoo. Performance Analysis of Load Balancing Algorithms for Cluster of Video on Demand Servers [C]/ /2009 WEJEJ International Advance Conputing Conference: IACC 2009. [4 ] 李洋,李俊. 一种流媒体系统中文件存储分配算法[J]. 计算机系 2010, 19( 12) : 44-48. 统应用, 题目 组别 优 良 中 差 [5 ] Nguyen A T ,Li B,Eliassen F. Chameleon: Adaptive peer-to-peer streaming with network coding[C]/ / IEEE INFOCOM. San Diego,CA, US, 2010. [6 ] Xiao X,Shi Y,Gao Y,et al. LayerP2P: A New Data Scheduling Approach for Layered Streaming in Heterogeneous Networks[C]/ /28th 2009. IEEE INFOCOM, [7 ] 陈卓,冯钢,陆毅. 一种分层 P2P 流媒体系统重叠 网 的构 建策 略 [J]. 计算机科学, 2012, 39( 5) : 69-74. [8 ] 范铭娜,杨坚,赵宇. 基于概率估计的自适应媒体播放算法[J]. 计 2010( 24) : 217-219. 算机工程, 部分题目的难度参数对照表 1 2 3 4 5 6 7 8 0. 62 0. 58 0. 60 0. 61 0. 44 0. 44 0. 37 0. 39 0. 83 0. 85 0. 83 0. 79 0. 23 0. 26 0. 24 0. 23 0. 52 0. 50 0. 46 0. 49 0. 72 0. 72 0. 78 0. 71 0. 53 0. 59 0. 58 0. 57 0. 16 0. 12 0. 09 0. 11 由表 3 可知,具有不同能力参数的测试组,测得的题目参数 相对稳定,即利用项目反应理论估计出的参数不因测试组的不 同而有明显变化。 6 结 语 该系统的设计主要是基于项目反应理论,通过计算机自适 应测验估计题目参数与被测试组的能力参数,并将测试得到的 最大似然估计值作为设定题目参数的重要依据。在此基础上, [9 ] Van Leuven S,Van Wallendael G,De Cock J,et al. Generic Tech- 通过设计的抽题算法得到更有效的试题。该系统在教学实践中 niques to Improve SVC Enhancement Layer Encoding Digest of Techni- 的应用证明,测试所得的各项参数与学生实考的统计结果相吻 cal Papers[C]/ / Proceedings of 2011 IEEE International Conference 合,能够正确评价学生水平。 on Consumer Electronics,Las Vegas,NV, 2011: 135-136. [10] Prangl M,Kofler I,Hellwagner H. Towards QoS Improvements of TCPBased Media Delivery[C]/ / Proceedings of the Fourth International Conference on Networking and Services ( ICNS’08) , 2008: 188-193. [11] Mathis M,Semke J,Mahdavi J,et al. The Macroscopic Behavior of the TCP Congestion Avoidance Algorithm[J]. ACM SIGCOMM -Computer Communication Review, 1997, 27( 3) : 67-82. [12] Wenger S,Wang Y K,Schierl T,et al. RTP Payload Format for SVC Video[S]. Internet Draft draft-ietf-avt-rtp-svc-19, 2009. [13] Li-Na Zhang,Chun Yuan,Yu-Zhao Zhong. A Novel SVC VoD System with Rate Adaptation and Error Concealment over GPRS / EDGE Network[C]/ / Congress on Image and Signal Processing, 2008. [14] Nguyen A T ,Li B,Eliassen F. Chameleon: Adaptive peer-to-peer streaming with network coding[C]/ / IEEE INFOCOM. San Diego,CA, US, 2010. [15] 鲍荣真,蔡明. 基于图着色的 P2P 流媒体数据调度算法[J]. 计算 2011, 31( 1) : 190-193. 机应用研究, [16] Van Leuven S,Van Wallendael G,De Cock J,et al. Generic Techniques to Improve SVC Enhancement Layer Encoding Digest of Technical Papers[C]/ / Proceedings of 2011 IEEE International Conference 为简化研究问题,测试组的测试样本采用( 0 - 1) 分布,但 部分题型( 如名词解释、简答) 的解题结果不能简单用对、错来 衡量,因此今后应在这方面作进一步研究。 参 考 文 献 [1 ] 王军华,方智敏,方芳. 基于 IRT / CTT 混合模型的上机测试软件研 2008, 25( 8) : 158-160. 究与实现[J]. 计算机应用与软件, [2 ] 马世晔. 题库理论与目前我国题库的发展状况[J]. 教育理论与实 1996, 16( 1) : 44-46. 践, [3 ] 李欣然,樊 永 生. 改 进 量 子 行 为 粒 子 群 算 法 智 能 组 卷 策 略 研 究 [J]. 计算机科学, 2013, 40( 4) : 236-239. [4 ] 张淑梅,辛涛,曾莉,等. 2PL 模型的 EM 缺失数据处理方法研究 [J]. 应用概率统计, 2011, 27( 3) : 241-255. [5 ] 杨跃诚,钟汝能,孙瑜,等. 基于 IRT 的计算机化自适应测试系统研 2011, 33( S2) : 294-298. 究[J]. 云南大学学报: 自然科学版, [6 ] 罗永莲,郭 玉 栋. 经 典 测 量 理 论 在 小 型 专 业 题 库 中 的 应 用 研 究 [J]. 计算机应用与软件, 2009, 26( 10) : 105-106, 129. [7 ] 沈南山. 基于 IRT 模型的数学学业成就水平测试分析[J]. 安徽师 2012( 1) : 67-73. 范大学学报: 人文社会科学版, [8 ] 罗永莲. 专业课程小型题库管理系统的研究[J]. 电脑开发与应 2009, 22( 2) : 50-51. 用,

相关文章