2011年6月20日,星期一

行动计划 101心理测量摘要#9:1 / 1.5 SD SS(15/22)子测试比较存在问题"rule-of-thumb"

关于我以前的“临时”帖子,我在NASP 列表服务器响应中写了很多东西,以至于我决定接受我的电子邮件响应,更正一些错字,然后将其发布为博客。稍后我可能会再来写更长的IAP 101研究摘要或报告。

从事智力测验的心理学家经常比较子测验分数,以确定它们在统计学上和实践上是否不同……作为临床解释过程的一部分。大多数IQ测试发布者提供完善的统计程序(用于评估两个测试分数的统计差异的表格或软件;置信度范围比较经验法则)。

但是,传统和临床知识产生了一个常见的“经验法则”,这是有问题的。典型的情况是当临床医生减去两个测试SS(M = 100; SD = 15)并调用经验法则时,差异必须为15 SS点(1 SD)或22/23点(1.5 SD) 。这是不正确的。

SS差异分数的SD等级不为15!当您减去两个SS(平均值= 100; SD = 15)时,所得分数分布的平均值为零,SD的值为15(除非您将分布转换/重新缩放为该比例),差异SD的大小为的功能 两种措施之间的相关性比较.

SD(diff)是应使用的统计信息,并且有许多不同的论坛用于计算该指标。不同的SD(diff)会根据作为比较基础的基本问题或假设而有所不同。

评估得分差异的一种方法是SEM波段重叠法。这很简单,它基于基本的统计计算(在不同情况下取平均值,以便有一个简单的经验法则),其中结合了有关 差异评分的可靠性。测试发布者还提供表格,以评估子测试在某种程度上的差异的统计显着性,例如各种Wechsler手册和软件。这些都是心理上合理且可辩护的程序……。再说一遍……这些都是心理上合理且可辩护的程序。我重复这个短语,是因为我在下面所说的观点最近在州SP研讨会上被误解了,因为我说WISC-IV中的表格有问题……这不是我所说的,也不是我在这里所说的) 。

但是,我认为在这种情况下,我们必须做得更好,并且有一个更合适,更好的度量标准来评估两个不同测试分数之间的差异,尤其是当基本假设是两个度量应该相似时,因为它们形成了一个综合或群集。这意味着“相关”……而不是任何两个测试的简单比较。

当尝试评估群集或组合的“统一性”时,应使用与问题的基本假设一致的SD(diff)度量。即,人们期望分数相似,因为它们是一个因素。这意味着度量之间的“相关性”。有一个SD(diff)计算,其中包含要比较的度量之间的相关性。当使用这种方法时,适当的SD(diff)可以从大约10点(对于“紧密”或高度相关的Gc测试)到大约27点(对于“松散”或每周相关的测试)不等。簇)。

此SD(diff)指标的信息来自Payne和Jones(1957年,点击这里)(感谢Joel S.最近引起了我的注意)。另外,下面的两个表显示了在WISC-IV和WJ-III上进行一些示例测试比较时应使用的不同且恕我直言的更合适的SD(diff)值。 (点击图片放大)






从表中可以看出,只有在比较的两个测试之间的相关性为中等程度时,“ 15”(如果使用缩放分数,则为3)和“ 22”(如果使用缩放分数,则为4.5)的经验法则才是正确的。当所比较的测试之间的相关性很高时(当您具有“紧密”能力域时),用于评估差异的适当SDdiff度量标准对于口语比较可能低至9.9点(对于1 SDdiff)和14.8(对于1.5 SDdiff)比较WISC-IV Sim / Vocab时,来自WJ-III GC群集的/ 通用电器n Info测试或2.2标度得分(1 SDdiff)和3.3(1.5 SDdiff)。

相反,当能力域非常宽或“松散”时,由于特质/测试之间的相关性就不高,因此人们会期望更多的变异性。在回顾以上表格时,可以得出结论,对于包含WJ-III Gv和Glr群集的测试,非常低的测试相关性会产生1 SDdiff,几乎是15点法则(27-28点)的两倍。

我已经用许多数量论证了这一点(有些人也同意我的观点),但相信要使用的适当SS(diff)不是“一种适合所有情况的大小”。当比较任何两个测试时,置信区间和传统的子测试显着差异方法表在心理上都是合理的并且可以正常工作。但是,当问题变成比较测试之一时, 基本问题围绕这样一个假设,即测试分数应该相似,因为它们具有共同的能力(相关),然后恕我直言,我们可以做得更好...针对这些情况,有更好的方法。我们可以改善我们的做法。我们可以前进。

这一点类似于对组均值进行简单的t检验。当一个人有两个独立的样本时,t检验公式将包含一个标准误差项(以分母表示),该标准误差项不包含任何相关性/协方差参数。但是,在计算相关样本t检验时(这意味着得分之间存在相关性),误差项会包含有关该相关性的信息。这是相同的概念.....仅适用于组与个人分数比较。

我敦促人们阅读1957年的文章,审阅我在上面提供的表格,并仔细研究这个问题。有一个更好的办法。 15/22 SS经验法则仅在被比较的两个测试之间存在一定程度的相关性时,并且当比较暗示一个共同的因素或能力时才是准确的。如果使用这种简单的经验法则,那么在高度相关的测试(例如Gc)的情况下,从业者可能会使用过于严格的规则,并且在评估相关性较低的群集/复合材料的测试时会过于宽松(我称之为 能力域凝聚力点击这里 对于以前的帖子,它解释/说明了这个概念)。当我们未能合并有关比较度量之间的相关信息时,15/22 SS的经验法则会导致有关测试差异异常性的错误决定。而且,即使通过此方法(或简单分数差异方法)找到了这种差异,也不一定表示某些东西是“错误的”,并且无法计算或解释聚类。这一点最近在一个 教学视频 乔尔·施耐德(Joel Schneider)博士对构成复合材料的考试分数方差来源的分析

如果使用此处推荐的推荐SDdiff度量标准很有意义,我建议从业者避免使用15/22(1 / 1.5 SD)的经验法则,而应使用测试发布者提供的表格或使用简单的SEM置信带重叠的经验法则。有时简单一些可能会更好。


-使用我的Kevin McGrew的iPad使用BlogPress的iPost

没意见: