Logistic回归分析是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,疾病预测等领域,在临床回顾性研究中,常用于探讨引发疾病的危险因素,并根据危险因素预测疾病发生的概率等。

  以发生心血管事件的风险分析为例,在研究数据中标记一组为发生心血管事件,另外一组未发生心血管事件,两组人群在临床基线资料可能存在差异,因此因变量设定为是否“发生心血管事件”,值为“是”或“否”,自变量可以包括多个变量和因素,如年龄、性别、高脂血症、糖尿病等。自变量既可以是连续的,也可以是分类的。

  然后通过logistic回归分析,可以得到自变量的权重,从而可以了解哪些因素是发生心血管事件的危险因素,同时根据该权值可以根据危险因素预测个体发生心血管事件的可能性。

  Logistic回归分析包括二元Logistic和多元Logistic,二元Logistic是指因变量为二分类变量,如上诉举例,即发生心血管事件和未发生心血管事件。多元Logistic是指因变量为多分类变量,如慢性肾脏病患者预后:死亡、进入终末期肾脏病、维持稳定。

  临床回顾性研究主要以二元Logistic回归分析为主,研究设计因变量较少涉及多分类变量,有些研究中涉及多分类变量时,也可以通过合并转化为二分类变量。

  下面主要介绍二元Logistic回归分析的操作流程。

  (一)第一步,原始数据的转化

  原始数据表,需将因变量如“是否发生心血管事件”转换为“0”和“1”。对于分类变量如性别、是否合并高血压、是否合并糖尿病,应将数据转换为“0”和“1”的二分类变量。对于自变量为多分类的变量,可依次转换为“0”“1”“2”。

  对于自变量为连续性变量如年龄,可以根据临床研究的实际情况转换为分类变量,如“0”表示<18岁,“1”表示18-40岁,“2”表示41-60岁,“3”表示>60岁。也可直接按照连续变量纳入研究。

  第二步,单因素Logistic回归分析

  SPSS的操作流程为:“分析”——“回归”——“二元Logistic回归分析”。将所需研究变量置于“因变量”,协变量选择所需研究的变量。Logistic回归选项处勾选“估算值的相关性”以及“95%置信区间”。逐一选择变量,终得出具有临床统计学意义的相关变量。

  值得注意的是,有些研究往往并不单纯选择P<0.05,为了校正更多相关的变量,会选择P<0.1的变量纳入多因素Logistic回归分析,在实际操作中需根据研究的实际情况进行选择。

Logistic回归分析

Logistic回归分析

  (三)第三步,多因素Logistic回归分析

  SPSS的操作流程为:“分析”——“回归”——“二元Logistic回归分析”。将所需研究变量置于“因变量”,协变量选择单因素Logistic回归分析中具有统计学意义的变量。

  有时候,即使单因素Logistic回归分析不具有统计学意义,但是临床上认为两者具有较为密切的关系,仍可以将该变量放入多因素Logistic回归模型进行分析。

Logistic回归分析

  此外,在多因素Logistic回归分析中,“方法”主要包括以下几类。

  1. Enter:所有自变量强制进入回归方程;

  2. Forward:Conditional:以假定参数为基础作似然比概率检验,向前逐步选择自变量;

  3. Forward:LR:以大局部似然为基础作似然比概率检验,向前逐步选择自变量;

  4. Forward:Wald:作Wald概率统计法,向前逐步选择自变量;

  5. Backward:Conditional:以假定参数为基础作似然比概率检验,向后逐步选择自变量;

  6. Backward:LR:以大局部似然为基础作似然比概率检验,向后逐步选择自变量;

  7. Backward:Wald:作Wald概率统计法,向后逐步选择自变量。

  在自变量较多的情况下,选择逐步回归的方法Forward能够校正自变量中可能存在的贡献不大的变量,也可以起到校正共线性变量的作用,建立的多元回归模型预测效果更佳。

  Backward只是筛选变量的顺序与Forward存在差异,但是终的统计结果与Forward相同。当变量较少或者单因素Logistic回归分析有意义的变量较少时,选择ENTER能够更好地建立预测模型。