医学量表条目的筛选考评方法及其应用 2005年第5卷第8期 | 39康复网

　　【摘要】量表作为医学研究的基本工具，应用的越来越多，但只有科学合理的量表才能被推广使用。本文对医学量表的条目筛选方法、考评方法及其应用进行了探讨。

　　【关键词】量表;条目筛选;信度;效度;反应度

　　【Abstract】 As a basical tool in medical research，medical scale was used more and more widely.But only scientific and reasonable scale can be generalized and applied.This paper was to discuss the method of item selection and scale evaluation in the development of scale，and to discuss some related questions in application.

　　【Key words】 scale;item selection;validity;reliability;responsiveness

　　随着医学模式向生物—心理—社会模式的转变，在医学领域中出现了越来越多的量表。量表（scale）是采用数字或等级对人的心理、行为等进行客观描述，是进行医学研究的基本工具之一。量表的研制一般包括下列步骤:明确研究目的及测量对象;设立研究小组;确定概念的可操作化定义及其构成;撰写条目，形成条目池;筛选条目，形成初始量表;预试验，考评量表;修改和完善量表［1］。量表是否切实可用，要看量表的考评结果，如果要使量表的考评结果满意，必须做好量表条目的筛选。因此，量表的研制中最重要的两步是:筛选条目和量表考评。现对条目筛选和考评的主要方法及其应用探讨如下。

　　1 条目筛选

　　在条目筛选前应首先确定条目池，对所有可能要调查的条目进行分类汇总即形成条目池，条目池的确定方法有多种，比如查阅文献法、专家咨询法等。在条目池确定前应特别注意量表的研究目的，因目的（比如是用于横断面研究还是前瞻性研究）不同确定条目池的侧重点就不同，因这通常需与专业知识结合起来考虑，在此只讨论客观的挑选方法。

　　目前，条目的筛选应遵循重要性大、敏感性高、独立性强、代表性好、确定性好的原则，并兼顾可操作性及可接受性［2］。条目的客观筛选主要包括离散趋势法、相关系数法、因子分析法、区分度分析法等，现在又尝试采用克朗巴赫α系数法和重测信度法［3］。通常采用的以上4种筛选方法主要是从重要性、确定性、敏感性、代表性、独立性、区分性的角度对条目进行筛选。新增的克朗巴赫系数法和重测系数法分别从内部一致性和稳定性的角度筛选条目。

　　1.1 离散趋势法此法是从敏感性角度挑选条目。条目的离散趋势小，用于评价时区别能力就差，因此应选离散趋势较大的条目。因大部分量表采用计分方法，得到的值是计分值，各条目的量纲相同，均值相差也不会太大，通常采用标准差来反映离散趋势，但应注意，若各条目的计分值不服从正态分布，应先做变量变换使之服从正态分布。

　　1.2 相关系数法此法是从代表性和独立性角度挑选条目。计算每个条目与各维度的相关系数并做统计检验，保留与其所在维度相关性高并且与其它维度相关性差的条目。因通常量表的各条目呈正态分布或经变量变换后成正态分布，一般采用Pearson的积矩相关系数r，否则需用Spearman或Kendall的等级相关系数。对于各条目采用有序分类回答的量表，任两个条目间的结果可列为双向有序列联表，因此其相关检验也可用列联表χ 2 检验，相关程度的度量可用Kendall的τb或τc系数以及Goodman和Kruskal提出的γ系数。

　　1.3 因子分析法此法是从代表性角度挑选条目。此处的因子分析通常指的是探索性因子分析，通过对整个量表所有的条目进行因子分析，根据各因子与各条目的因子负荷分别考虑各个因子主要由哪些条目决定，选择各因子内负荷较大者作为入选条目，多数采用因子负荷≥0.4作为入选标准。当然，入选标准的确定还需要按照所研究的问题而定。

　　1.4 区分度分析此法是从区分的角度和重要性的角度进行筛选。一般对各条目进行t检验，选取能够区别不同类别的条目。也可采用逐步回归或逐步Logistic回归，应用逐步回归的量表一般有一个总评分或（和）维度得分，将其作为因变量Y，用Y与各条目（X 1 ，X 2 ，…，X n ）进行逐步回归分析筛选出对Y影响较大的条目;应用逐步Logistic回归根据因变量Y的不同类别进行回归分析即可。

　　1.5 克朗巴赫α系数法此法是从内部一致性的角度对条目进行筛选。最初克朗巴赫α系数是克朗巴赫（Chron-bach LJ）1951年提出用来测量信度的指标，也是现在考评信度最常用的指标。为了提高条目筛选的质量，现在尝试把它运用到条目筛选，计算某一方面的Chronbach'sα系数，比较去除某一条目后的系数变化。如某一条目去除后Chron-bach'sα系数有较大上升，则说明该条目的存在有降低该方面的内部一致性的作用，应该去掉，反之，则保留。

　　其计算公式为α=k k-11-∑k i=1 s i2 S T2

　　其中，k表示量条目数，S 2i 为第i题得分的方差，S 2T 为总得分的方差。其SAS程序［4］为:data a;input no x1-xk;cards;;proc corr alpha nocorr;var x1-xk;run;

　　1.6 重测信度法此法是从稳定性的角度进行条目筛选。其也是常用的对量表进行信度考评的方法之一，现在同样把它运用于条目筛选。它的计算是以稳定的人口作为访问对象，间隔一段时间对每个对象进行重测，计算每一个条目先后两次的相关系数，保留相关系数高的条目。但应注意两次测量相距时间不能过长，并且假定在这段时间内被调查者的情况没有发生变化。

　　以上方法各有优劣，比如相关系数法、因子分析法等利用了数据的相关结构;离散趋势法、区分度分析法等利用了数据的变异结构。当然还有许多其它条目筛选方法，比如可对量表结构进行探讨的聚类分析法，可对量表进行反应度评价的逐步判别分析……均可作为条目的筛选方法。为了保证入选条目的质量可结合多种方法，分别从不同的角度和目的来挑选指标，多采用几种方法的优点是当有些条目有同等重要的机会被其它方法选进时，这时研究者难以取舍，这样可采用别的方法来决定最终采用哪些条目。对于最终的入选条目还应结合其它的一些特性（如专业知识、可操作性等）来决定取舍。

　　2 量表的考评

　　对条目筛选后所形成的量表进行以下几方面的考评［2，5，6］ :

　　2.1 可行性主要解决量表是否容易被人接受及完成量表的质量问题。通常用以下指标衡量:

　　2.1.1 量表的接受率实际操作中以量表的回收率表示。通常要求达到调查对象的85%以上。

　　2.1.2 量表的完成率即接受调查的对象完成量表的比例，通常要求达到85%以上。

　　2.1.3 完成量表的时间一般完成一份量表的时间控制在20min以内比较容易被人接受。

　　2.2 信度（reliability）信度又称可靠性或精确度，用以反映相同条件下重复测量结果的近似程度。评价量表信度的指标有以下几种。

　　2.2.1 重测信度（test-test reliability）通过用同样的量表，对同一组调查者重复测验并进行相关分析，以此来评价该调查量表信度高低。计算同前，但这次用两次测验的相关系数来反映测量结果的稳定程度。相关分析得到的相关系数也称为重测信度系数，国际量表标准下限是0.7。但从重测信度系数的假设条件可看出被调查者的情况可能随时间发生变化，那么两次测量的差异受前一次测定的影响，即被调查者在第二次填写量表时会受前一次填写干扰，因而第二次测定的结果不一定能反映被调查者的真实情况。因此，重复测定的间隔时间显得尤其重要，应视具体研究情况而定。多数学者认为一般以1～4个星期为宜，研究者可根据具体研究的问题而定。

　　2.2.2 分半信度（split-half reliability）多在不能进行重测时被采用，其方法是将所列条目按奇偶数或前后分成两半，采用Spearman-brown公式估计相关系数R，以此为标准来衡量整个量表的信度。在条目分为两半时应注意两部分必须尽可能相当（比如内容、形式、题数等）。计算这两半得分（分别看成两个量表）的相关系数r（又称分半信度系数）。不过这只是原半个量表的信度，整个量表的信度系数R=2r/（1+r）。一般要求R>0.7。但应注意，由于分拆量表的方法很多，不同的分拆方法可能得出不同的分半信度，这是该法的明显不足。

　　2.2.3 克朗巴赫α系数（Chronbach'sαcoefficient）此系数表示量表的内在一致性，是最常用的测量信度的系数。一般认为α系数应达到0.7以上。因分半信度系数是建立在两半问题条目分数的方差相等这一假设基础上的，但实际数据并不一定满足这一假定。如果两半的方差不相等，信度往往被低估。Chronbach'sα系数克服了分半信度的缺点，它对量表的内部一致性作了更为慎重的估计，因为它相当于将任一条目的结果同其他所有条目的结果作了比较。因Chronbach'sα系数是计算各个领域或维度的一致性，因此计算α系数时应按照领域或维度分别进行计算。α系数的应用条件是:量表中所有条目应该是平行、共性的，即所有条目必须测量同一现象，并以相同程度解释该现象的变异［7］。但Chronbach'sα系数也有缺点，Patrick认为除非量表中的条目数精确地反映了预测内容，否则α系数将低估信度，Waltz也认为α系数可能低估了量表的信度。

　　以上是比较常用的考评量表信度的方法，其中分半信度和Chronbach'sα系数都是评价内部一致性的指标。前者指的是两半量表所测分数间的一致性，后者指的是量表中题项与题项间的一致性。当然还有其它的方法比如:基于因子分析的θ和Ω系数法。根据测量的结果，用各条目的得分构成一相关矩阵，求其特征方程的解，计算θ系数:θ=［k/（k-1）］（1-1/λ）进一步利用因子分析法求出各条目共性因子方差，计算Ω系数:Ω=1-k-∑h i2 k+2r

　　式中k为条目数，λ为条目得分所构成相关矩阵的最大特征值，r为各条目间相关系数总和，h i2 为第i个条目的共性方差。θ系数法要求分析的条目数在5个以上，以得到比较稳定的结果［8］。目前，有关这两种方法应用于信度评价的报道尚少。巫秀美［6］以“中老年预防结肠癌社区干预试验的健康行为问卷”为例，比较了α系数、θ系数和Ω系数，结果为α系数最小，Ω系数最大，因而认为θ系数和Ω系数避免了α系数低估信度的缺点。因子分析中的共性方差h i2 等于各条目在各因子上的载荷值的平方和，所以，理论上Ω系数综合了各条目对欲测概念的个别贡献，且对量表的性质无特殊要求。

　　还可采用因子分析法求出因子负荷，计算条目在相应因子上的负荷，也可计算各条目与其所在维度的得分或（和）各因子与量表总分之间的相关系数，并作统计检验，从相关性对量表的信度进行评价等。但应该注意的是，如果这些方法在条目筛选时已采用，再在考评时应用就起不到考评的作用。

　　2.3 效度（validity）又称准确度，用于反映测量结果与“真值”的接近程度。评价量表效度的指标有以下几种。

　　2.3.1 内容效度（content validity）内容效度主要涉及量表语言表达的准确性问题，在确定条目时就应尤其注意。只要在确定条目时各方面征求意见，量表可达到很好的内容效度。

　　2.3.2 标准效度（criteria validity）以相对准确的测量指标作为“金标准”考察测量指标是否与其一致。常用的统计方法为相关分析，故相关系数又被称为效度系数。它的计算必须有一个公认有效的量表作为标准，此标准通常被称为“金标准”，检验新量表与标准量表测定结果的相关程度。如没有“金标准”可通过采用相同领域的不同的量表的相关系数，并进行检验，从而进行效度研究。相关系数在0.4～0.8之间比较理想。

　　2.3.3 结构效度（construct validity）反应多个测量结果是否具有稳定的结构，结构效度通常被认为是最强有力的效度评价。效度分析最理想、最常用的方法是利用因子分析来考察量表的结构效度。其一是对筛选后的条目进行重新整理后，再次采用探索性因子分析，探索性因子分析在考察量表的结构效度主要从以下两方面来考察量表的结构效度:（1）公因子应与设计时假设的量表的结构一致，且共因子的累积方差贡献率达到40%;（2）每个条目都应在其中一个公因子上有较高的负荷（>0.4）而对其它因子的负荷值较低［5］。其二是通过条目筛选和量表整理后，提出理论模型。通过采用验证性因子分析来对量表效度进行考评。

　　2.4 反应度（responsiveness）又称为区分效度（discriminant validity），指被调查者若有所变化，调查结果必须对此变化作出反应，又可把它归为效度的一个方面。对量表进行反应度的考评非常有必要，因如果量表对被调查者变化不敏感的话，量表的实用价值不高，因此有关量表反应度的研究越来越受到重视，但至今没有统一的比较理想的方法。现在对量表的方应度的考评多从时间的角度进行纵向考评，对量表的反应度考评可对被调查者间隔一段时间进行重测，然后采用配对t检验、方差分析，根据检验结果作出结论［7］也可通过判别分析考察量表在不同情况下的区分能力。

　　除以上对量表进行效度评价的方法外，当然还有其它的方法比如:集合效度和区分效度。集合效度是各条目与其所属维度间的偏相关系数;区分效度是求各条目与非所属维度间的偏相关系数。

　　有时我们所需的量表国外已经存在，这就需要对量表的进行翻译及修订。由于文化背景不同，翻译的量表应进行文化调适，量表的文化调适过程也就是考察新量表与源量表的等价性的过程。评价一个量表的不同版本，可考虑以下6种等价性:（1）概念等价性;（2）语义等价性;（3）技术等价性;（4）测量等价性;（5）条目等价性;（6）功能等价性，其中前四种是必须的［2］。对跨文化量表的等价性研究日益迫切，对于跨文化量表的等价性的研究可采用验证性因子分析，判断不同版本的等价性的标准有2个:（1）是模型与数据的拟合程度，（2）是对模型参数相等所作的假设检验，根据检验结果作出相应的结论［8］。

　　因量表指标会受到各种因素的影响，随着量表研究的拓展和深入，对于影响因素对量表各维度的影响可采用以因子得分为因变量，影响因素为自变量进行逐步回归分析［9］。因结构方程模型具有其它方法不具有的优点，比如:可同时处理多个因变量，可容许因变量和自变量含有测量误差、同时估计因子结构和因子间的关系、容许更大弹性的测量模型、估计整个模型的拟合程度等［10］，对量表影响因素分析和结构效度的评价将来会有广阔的应用前景。

　　参考文献

　　1 方积乾，陆盈.现代医学统计学.北京:人民卫生出版社，2002，120-124.

　　2 方积乾.生存质量测定方法及应用.北京:北京医科大学出版社，2000，55-59.

　　3 郝元涛，孙希凤，方积乾，等.量表条目筛选的统计学方法研究中国卫生统计，2004，4（21）:209-211.

　　4 郭秀花，罗艳霞，周诗国，等.调查问卷的可靠性分析方法及实例应用.中国卫生统计，2003，4（20）:233-234.

　　5 方积乾.医学统计学与电脑试验，第2版.上海:上海科学技术出版社，2001，.

　　6 巫秀美，倪宗瓒.因子分析在问卷中信度效度评价的应用.中国慢性病预防与控制，1998，6（1）:28-31.

　　7 许军，郭榕，刘永生，等.自评健康评定量表修订版的反应度研究.中国卫生统计，2003，5（20）:272-275.

　　8 郝元涛，方积乾.验证性因子分析在量表等价性中的应用研究.中国卫生统计，2003，3（20）:130-132.

　　9 胡小华，龚幼龙.大肠癌患者生命质量的多因素分析.中国卫生统计，2003，5（20）:322-325.

　　10 侯杰泰，温忠麟，程子娟.结构方程模型及其应用.北京:教育科学出版社，2004，7.

　　作者单位:261042山东潍坊，潍坊医学院卫生统计教研室

　　（编辑卉梅）

作者：秦浩陈景武 2006-8-19