主成分改进的Logistic回归模型方法在流行病学分析中的应用 2005年第5卷第2期 | 39康复网

摘要：目的探讨在涉及多自变量的Logistic回归分析中变量间多重共线性的诊断和处理方法。方法应用主成分改进的Logistic回归方法进行多重共线性变量的诊断与处理。结果去除了回归模型中变量间的多重共线性影响，建立了较为理想的关系模型。结论在Logistic回归模型分析中应用上述方法进行多重共线性的诊断和处理是有效及可行的。

关键词：多重共线性；Logistic回归；主成分分析

中图分类号：R18125 文献标识码：A 文章编号：1009-9727（2005）02-207-03

Application of modified logistic regression model in the analysis of epidemiology QIU Jiong-liang1, ZHENG Jian-ning1, ZHANG Yang2 （Department of Health and Quarantine in Ningbo Entry-exit Inspection and Quarantine Bureau, Ningbo 315012, Zhejiang, PR China）

Abstract: Objective To explore the diagnosis and treatment of multivariable multicollinearity in the logistic regression analysis Methods The data with multivariable multicollinearity were diagnosed and treated using the logistic regression model method improved by principal component analysis Results The effect of multicollinearity among variables were eliminated in the regression model and an ideal mathematical model was constructed Conclusion The new method is effective and feasible for diagnosis and treatment of multivariable multicollinearity in the logistic regression model analysis

Key words: Multicollinearity; Logistic regression; Principal component analysis

在医学研究中，经常利用一些可以控制或易测量的变量（称作解释变量）去解释、控制或预测另外一些变量（称作反应变量），这就需要应用各种多元分析方法，而其中的Logistic回归分析法是一种较为常用且有效的统计学方法。但在Logistic回归法的变量筛选及参数估计中，都要求各变量之间相互独立，而有很多研究中各自变量间并不独立，而是相互之间存在一定程度的线性依存关系，被称作多重共线性（multicollinearity），这种多重共线性关系常会增大估计参数的均方误差和标准误，有的甚至使回归系数的方向相反，导致方程极不稳定，从而引起Logistic回归模型拟合上的矛盾及不合理［1］。比如，多因素分析与单因素分析的结果相互矛盾，在单因素分析中某因素为致病因子，而在多因素分析中则变为保护因素等。

本文应用一种称作"主成分改进的Logistic回归方法"，其能有效处理多因素分析中的共线性问题，在信息损失较少的前提下，由原变量综合成彼此独立数目较少的主成分，以主成分代替原变量进行模型拟合，然后再使各主成分变量还原为原变量。此种方法可对具有共线性问题的模型进行较为精确的参数估计及Wald检验。

1 原理与方法

首先将原设计矩阵的各列解释变量观察值矩阵X标准化为X*，然后进行主成分变换，选择r使得前r个特征根之和在p个特征根总和中所占比例大于90%，根据选定的r将矩阵X'*X*的特征向量构成的正交阵φ剖分为φ=（φ1︱φ2），Z1=X*φ1为前r个主成分的得分值。具体公式如下：

Zj= ilijXi j=1，2，……，r(1)

由于各主成分Z1，Z2，………Zr间的相关系数为0，则可以Z1，Z2，…Zr为自变量，用通常的Logistic回归模型估计方法，得到Z1，Z2，………Zr的回归系数估计，α＾1，α＾2……α＾r，拟合的模型为：

P(y=1｜z)=eα0+ri=1α＾izi 1+eα0+ri=1α＾izi(2)

将(1)式代入(2)中，得到原变量回归系数的估计β＾=(β＾1，β＾2……β＾p)

P=(y=1｜X)=eα0+ri=1β＾iXi 1+eα0+ri=1β＾iXi(3)

其中β＾i=lTiα＾=lilα＾1+li2α＾2+……+lirα＾r i=1,2……p(4)

获得了原变量回归系数β＾i的估计值后，还须对之进行Wald检验。

由SAS统计软件可以得到α＾1，α＾2……α＾r的协方差矩阵：

    =var(α＾) cov(α＾1，α＾2)……cov(α＾1，α＾r)
    …………
    cov(α＾r，α＾1) cov(α＾r，α＾2)……var(α＾r)
    =σ＾11 σ＾12……σ＾1r
    ……
    σ＾rl σ＾r2……σ＾rr(5)

由极大似然估计的性质，α＾T=(α＾1，α＾2……，α＾r)渐近服从正态分布。N(α＾i，cov(α＾i))。因为正态分布具有线性变换的不变性，由β＾i=lTiα＾=lilα＾1+li2α＾2+……+lirα＾r，故β＾渐近服从正态分布。只要得到β＾的方差，就可以求得β＾=0的wald检验。而β＾的方差可由(4)、(5)式获得：

var(β＾1)=lTlli= j klijljkσ＾jk(6)

因此，β＾=0的wald检验统计量为：

ui=β＾i/var(β＾i)(7)

若原自变量Xi中仅部分变量有线性依存关系，则对有线性依存关系的变量进行主成分分析，再将主成分变量与其余变量一起拟合Logistic回归模型，其余步骤同上。

2 应用分析

本文应用的数据来自2001年舟山群岛上进行的某病流行病学调查资料。该项调查涉及的研究对象为：自2001年1月起经县及县以上医院确诊的某病新发病人138例，和从舟山海岛的自然人群中随机选择的140例相应对照。对照是以与病例同年龄(10岁为一组)、同性别、同居住地作为1：1频数匹配条件，采用三阶段整群随机抽样方法从舟山海岛的自然人群中选择。共随机抽取140名健康人作为对照组，其中133例接受调查，应答率为95．0％。调查均采用面访的方式进行。研究的目的是确定海岛地区某病与相关因素的流行病学关系。通过初步的变量筛选后，确定16个与该病可能相关的变量X1～X16。

应用主成分改进的Logistic回归方法分析该16个变量对该病发生的危险度(OR值)、95％可信区间。因考虑男、女性在该病的危险因素上可能存在着差异，故数据分析均分性别进行。以上分析均在SAS8．0软件中编程实现［2］。

2．1 Logistic回归共线性诊断 (1)预选自变量的相关分析：对16个预选变量进行两两相关性分析，根据两两相关系数的大小判断各自变量间的关联程度，结果为该16个变量的相关性较显著(rs>0．6，P<005)。(2)多重共线性的诊断：对该16个变量分性别进行主成分分析，主成分分析的特征值及累计比例见表l。由该16个预选变量的主成分分析结果可见，各变量间存在着较为显著的相关性：男、女性组前8个主成分特征值的累计比例分别占整个资料的信息量的92．3％和91．3％；另外，在16个特征值中两组均存在值小于0．1的主成分。因此，可以认为该两组资料存在多重共线性变量。如将原始数据直接进入Logistic回归模型可能会增大估计参数的均方误差和标准误，使方程极不稳定，甚至使回归系数的方向相反，以致出现相反的结果。

表1 16个变量(X1～X16)的主成分分析-相关系数矩阵的特征值及累计比例 (略)

Table 1 The principal component analysis of sixteen variables (X1～X16)-Feature values
and accumulative ratioes of the matrix of correlation coefficients

2．2 应用主成分改进的Logistic回归方法分析与该病相关的因素 (1)男性组中与该病发生相关的因子分析：根据主成分分析，选择前8个主成分(累计比例达92．3％)进入Logistic回归模型，然后将原16个变量(X1～X16)回代入估计的模型中，得到原始变量的回归系数估计值。通过Wald检验对所得的原变量系数估计值进行显著性检验，结果见表2。主成分改进后的Logistic回归结果与原始数据直接进入Logistic回归相比较，各估计系数的标准误均有所减小，提示模型结构较为稳定，其结果的可靠性更高。由分析结果可见，X2、X4、X13三个因素为该病发生的危险因素，其OR值均大于10，分别为1．09(P=0039)、139(P=0009)、1．55(P=0013)：而X9、X12则是保护因素，OR值均小于10，分别为086和073，其P值小于或接近005的检验水准。(2)女性组中与该病发生相关的因子分析：详见表3。由分析结果可见，X2、X4、X16为该病发生的危险因素，其OR值均大于10(P<005)，分别为111、133与141；而X6、X9、X10与X12在女性组则为该病的保护性因素，其OR值分别为077(P=0029)、079(P=0002)、055(P=0004)、080(P=0025)。

表2 男性组中与某病发生相关的因子分析 (略)

Table 2 Factor analysis of the variables related with some disease in males

表3 女性组中与某病发生相关的因子分析 (略)

Table 3 Factor analysis of the variables related with some disease in females

3 讨论

在流行病学研究中一般较为重视混杂因素对研究结果的影响，而对于研究变量间的多重共线性问题的关注较少，部分研究者甚至错误地认为在多元线性回归中存在多重共线性而在Logistic回归法中共线性问题可以忽略，因此，许多研究人员在对流行病学调查所获取的数据进行统计分析时不考虑变量与变量之间是否存在相关性，认为 Logistic回归模型就是一个万能模型，而一味地将尽可能多的变量放入该回归模型中以求获得尽可能多的阳性结果。殊不知正是由于变量间多重共线性问题的存在，增大了估计参数的均方误差和标准误，有的甚至使回归系数的方向相反，使许多有意义的阳性因子被错误地剔除出回归模型，或者由于所导致的回归系数方向相反而使得原本起到危险作用的危险因素变为保护性因素，从而出现Logistic回归模型结果矛盾，无法从生物学方面给予合理的解释。

目前，对线性回归中出现的多重共线性问题的诊断和处理方法较多，但对于 Logistic回归模型变量的共线性处理相对较少。本文采用主成分改进的Logistic回归方法对海岛地区某病与相关因素的流行病学关系进行了系统性分析，对具有多重共线性关系的16个预选变量进行了共线性诊断及处理，去除了回归模型中变量间的多重共线性影响，建立了该病与相关变量的关系模型，取得了较为理想的结果。

参考文献：

［1］刘韵源．状态风险分析及其在生物医学中的应用——定常协变量问题［M］北京：科学出版社，1990．

［2］ SAS公司．SAS系统一SAS／STAT软件使用手册［M］．北京：中国统计出版社，1997．

基金项目：卫生部基金项目（NoWKZ-2001-1-17）

作者单位：1宁波出入境检验检疫局卫生检疫处，浙江宁波 315012； 2浙江大学医学院流行病学教研室，浙江杭州 310006

作者简介：裘炯良（1975～），男，浙江宁波人，流行病学与卫生统计学硕士，主要从事卫生检疫工作及流行病学研究

作者：裘炯良郑剑宁张扬