三基于项目反应理论多侧面Rasch模型的分析28（第3页）

天才一秒记住【畅想小说网】地址：http://www.cxtra.net

表5-3结果显示，12号评分员最严格（-0.28），22号和24号评分员最宽松（-1.11）。

估计标准误（ModelS.E）值越大说明评价越不稳定，值越小则越稳定。

表中结果表明：28号评分员评价最不稳定，7号、8号评分员评价较稳定。

表5-328名评分员宽严程度与一致性结果

续表

表5-3下备注部分RMSE指估计标准误均方根，其值在0～1，越小越好；AdjS.D是校正测量误差后的估计值标准差，其平方值即真实变异量。

分离指数（Separation）是AdjS.D除以RMSE的结果，它表示测评的有效性；分离信度是真实变异占测评总变异的比例，其值介于0～1，值越大说明差异越大。

表中分离信度值0.91，说明各评分员宽严程度存在较大差异；卡方检验结果表明28位评分员的宽严程度存在显著性差异（χ2（27）=533.3，p＜0.001）。

如前文所述，fit值用于描述实际测评值与模型估计值差异的统计量，其结果如表5-3中第六列、第七列所示。

它是评分员测评稳定性的指标，用于说明就整体而言每位评分员在观察测评过程中的自身一致性程度。

多侧面Rasch模型通过对fit值设定某个范围来拟合实际测评情况。

有研究认为fit值介于0.5～1.5是可接受的范围，[35]也有研究认为fit值在0.8～1.2更合适。

[36]fit值设定范围越窄对测评工作要求越严格，越能体现测评工作的科学性和权威性。

实际工作中，fit值具体采用哪个取值范围通常根据测评目的和需要来确定。

鉴于托幼机构教育质量评价的权威性和高风险性，我们选择0.8～1.2。

当fit值小于0.8时，说明评分员评价过于一致，仅用少数几个评价等级来进行评分；当fit值大于1.2时，表明评分员内部一致性较差。

基于infit考虑了项目方差，其值受极端值影响小，我们主要采用infit值进行考量。

由表5-3可知，28位评分员的infit值均大于0.8，意味着这次测评没有自身内部过于一致的评分员。

fit值大于1.2的有三位评分员：14号、18号和2号。

这说明，整体而言这三位评分员的自身内部一致性较差。

分析自身一致性较差的评分员测评特征，一方面可以为评分员提供有针对性的培训；另一方面也可以为《量表》的编制等提供测量学参考与建议。

2.自身内部一致性较差的评分员分析

从上表结果可知2号、14号和18号三位评分员的fit值均大于1.2，认为这三位评分员的自身内部一致性较差。

我们对这三位的非期望测评结果（uedresponses）进行了分析，如表5-4所示：MFRM软件包分析处理的非期望测评的部分结果。

MFRM软件包将标准化残差绝对值大于3的均列出。

由表5-4可知，评分员2、评分员14出现非预期评分的频次相对较高。

其中，评分员2的异常值出现在两个班级的三个不同项目（包括“午睡空间与设施”

“活动区角”

“安全”

）。

其中，两位评分员（评分员2和评分员18）在项目4“午睡空间与设施”

上均出现非期望测评结果。

该项目主要从幼儿在园午睡休息的空间、设施方面进行观察测评，之所以出现非期望值，可能是因为该项目一般是在组织幼儿午睡的环节进行观察，观察时间比较短暂；这一时间往往也是评分员即将吃午餐的时间，因此可能造成时间冲突，观察比较匆忙，甚至可能没有仔细观察午睡环境而仅凭模糊印象进行推测评分；另外，评分员经过一上午的观察测评，可能比较疲倦，也易产生测评误差。

评分员14测评结果异常值出现在四个班级的四个不同项目（包括“卫生间”

本章未完，请点击下一章继续阅读！若浏览器显示没有新章节了，请尝试点击右上角↗️或右下角↘️的菜单，退出阅读模式即可，谢谢！

如遇章节错误，请点击报错(无需登陆)