首页 > 文献资料
-
卡方自动交互检测法及其应用
卡方自动交互检测法(chi-squared automatic interaction detector,CHAID)早由Kass于1980年提出,其核心思想是:根据给定的反应变量和解释变量对样本进行优分割,按照卡方检验的显著性进行多元列联表的自动判断分组.利用卡方自动交互检测法可以快速、有效地挖掘出主要的影响因素,它不仅可以处理非线性和高度相关的数据,而且可以将缺失值考虑在内,能克服传统的参数检验方法在这些方面的限制,结果的解释也简单明了.现就卡方自动交互检测法及其应用进行探讨.
-
回归树的建模与应用
近年来,大量研究致力于建立新的回归技术解决经典回归中假设过于严格的问题,包括预测变量与反应变量的线性关系、反应变量的正态性及方差齐性等.当线性关系不成立时选用线性模型明显不适宜,此时一种方案是在模型中加入交互作用项或采用变量变换,但这种方式容易导致解释时的困难,并且可能仍然不能解决非线性的问题.另一种解决方案则是选用非参数回归技术,包括Friedman和Stuetzle[1]提出的光滑技术和Yarnlod等[2]及Breiman等[3]提出的分类与回归树.其中分类与回归树的区分关键在于反应变量为连续性变量或为分类变量,若为连续性变量则建立回归树,反之则建立分类树.现就回归树的建模与应用进行探讨.
-
第十三讲如何处理随访资料
随访(follow-up),也称追踪,对应的研究常称为随访研究或追踪研究.在生物医学领域,随访广泛应用于临床试验、动物实验及流行病学调查等,获取的资料称为随访资料.当以随访时间作为反应变量时,这种资料的分析统称为生存分析(survival analysis).
-
脓毒症研究的新策略--非线性观点
一、非线性系统的定义非线性是相对于线性而言,线性是指各反应变量之间相互独立、互不影响,如在忽略空气摩擦的前提下计算铅球的抛物线运动轨迹时,重力、下落及前进速度是3个独立的变量,它们构成了一个线性方程,研究者通过这个方程即可知道铅球的运动轨道.牛顿著名的4个运动方程式即是建立在线性理论上,并极大的促进了科学家们对物理世界的研究工作. 但是到了19世纪,生命科学的进展使人们意识到线性理论的局限性,生物学领域的问题通常要借助非线性方程来解决.非线性系统理论又可称之为复杂系统理论、动力系统理论或混沌理论.它研究的是一个庞大、复杂的整体,而整体由许多活跃的可变因素构成.这些可变因素高度相关,彼此互相影响,并恰恰因此使整体具有稳定运动和协调变化的特点.
-
前瞻研究中Logistic回归参数估计的应用条件
Logistic回归模型是分析反应变量为独立二分类资料的常用统计分析方法,对模型中的参数通常采用的是极大似然估计法(Maximum likelihood estimate,MLE),当资料的样本含量足够大、分层后格子不稀疏时,估计的结果是令人满意的,如果所得资料样本含量比较少或者资料中分层很多而致格子稀疏(数据结构不平衡)时,MLE估计结果可靠性会大为减低[1,2].
-
多元多水平模型在儿童生长发育研究中的应用
数据的层次结构(hierarchical or cluster structure,或系统结构)现象广泛存在于医学的各个领域[1,2],如生长发育的调查中,按地区、人群进行分层抽样,所得的数据有地区和个人2个层次;同时,研究者感兴趣的反应变量或结局变量常不止1个,许多健康状态的测量经常是多维的.
-
应用目标规化进行统计控制
通过对直线回归方程进行逆运算,可以进行统计控制,即要求应变量y在一定范围内波动,可以通过控制自变量x的取值来实现.如果某因变量y受多个自变量的影响,如何根据y确定自变量的佳取值,这是多元回归难以解决的问题,而目标规化方法是解决此类问题的有效途径.
-
引入指示变量进行两样本均数的比较
两样本均数的比较,在资料具有正态性与方差齐性的条件下,一直使用t检验(或F检验)处理,这两种方法均属于单变量分析。目前,由于多变量分析理论的快速发展和广泛应用,将上述单变量资料引入指示变量,转化为双变量资料后,再进行直线回归分析,其结论与t检验的结论是完全一致的。 一、方法及意义 将符合t检验的两样本变量值合并,总样本例数为n=n1+n2,把原始变量值看作Y,再引入一个指示变量值X值。Y值作为应变量,引入的X值看作事先选定的自变量。两样本合并引入相反的指示变量的数据如下:Y: Y11 Y12 Y13 …… Y1n1 Y21 Y22 Y23……Y2n2X: 0 0 01 1 1 …… 0 1 1 11 0 0 0 …… 1
-
GENMOD过程和GLIMMIX过程的比较
重复测量资料(repeated measurement data)是指对同一观察单位进行重复观察或测量所得到的资料,它以节省样本含量、资料容易收集、检验效能高等优点受到医学界科研人员的青睐.当反应变量是二分类变量时,为二分类重复测量资料,其在临床研究中非常多见,如在乳腺增生患者疗效研究中,定期记录患者治疗期间的变化,检测指标为是否有改善的二分类变量;呼吸道疾病疗效记录为是否好转的二分类变量等.
-
Box-Cox变换及其在SAS软件中的实现
Box-Cox变换简介在统计工作中,特别是在一般线性模型的运用中,经常出现模型残差不符合正态分布的情况,此时如直接使用线性模型,显然是不合适的,而通常的解决办法有二:一是对应变量y进行变量变换;一是使用广义线性模型.本文讨论前者.
-
非线性混合效应模型和广义线性模型拟合随机效应logistic回归的应用比较
在临床药物试验中药物疗效的评价经常遇到二分类资料,即反应变量有两个水平如有效、无效;成功、失败等.二分类变量服从二项分布,可采用logistic回归模型.运用logistic回归模型对分类资料进行分析,能给实际研究带来很多便利.与多元线性回归相比,logistic回归具有许多独特的优点,如对正态性和方差齐性不做要求,系数的可解释性等.
-
多元线性回归系数的图形解析
线性回归分析(linear regression analysis)是研究事物之间线性关系常用的统计分析方法之一,据自变量数目是否单一可分为简单线性回归分析(simple linear regression)和多元线性回归分析(multiple linear regression).简单线性回归的数学模型简单,回归直线形象直观,回归系数的解释也通俗易懂.多元线性回归的数学模型及变量间的关系相对复杂,其回归系数常被解释为"在固定其他自变量或扣除其他自变量影响时,Xi每改变一个单位时应变量Y的平均变化量".但究竟如何固定或扣除,以及扣除的回归贡献的去向,各类参考书籍中少有提及.
-
用矩法进行正态性检验及其在统计软件中的实现
有些统计方法只适用于正态分布资料或近似正态分布的资料,如用t检验和方差分析进行两个或多个样本均数的比较,每个样本都要满足正态性要求,进行直线回归要求应变量y来自正总体,因此在进行资料的分析之前,首先要探讨样本资料是否来自正态总体,即正态性检验.
-
广义可加模型及其SAS程序实现
回归分析中,非参数回归以其适用性强,对模型假定要求不严等优点,扩展了参数回归的应用范围,增强了模型的适应性[1].但非参数回归也有其局限性[2],当模型中的解释变量个数较多而样本含量并不是很大时,非参数回归拟合的效果并不尽如人意,容易引起方差的急剧增大.这种由于维度的增加而使方差急剧扩大的问题通常被称为"维度的孽根(curse of dimensionality)".而且非参数回归多是建立在核估计和光滑样条基础上的,其解释性也是一个问题.为了解决这些问题,Stone(1985)提出了可加模型(additive models),这种模型对多变量回归方程估计一个可加近似值.可加近似值有两个优点:(1)由于每一个个体的可加项是以单变量平滑估计的,因而"维度的孽根"可以避免;(2)个体项的估计解释了应变量如何随着自变量的变化而变化的.为了使可加模型扩展到更广范围的分布族,Hastie和Tibshirani(1990)又提出了广义可加模型(generalized additive models,GAM).它使反应变量的均值通过一个非线性连接函数而依赖于可加解释变量,同时还允许响应概率分布为指数分布族中的任意一员.许多广泛应用的统计模型均属于广义可加模型,包括带正态误差的经典线性模型、二分类数据的非参数logit模型、Poisson数据的非参数对数线性模型等.
-
临床试验适应性设计的反应变量-适应性随机化方法简介
所谓随机化是指试验设计中,将处理以一定的概率(机会)分配给观察单位,它是控制偏倚的基本手段之一,是得到正确统计推断的基础.常用的随机化方法大体可分为四种类型[1]:
-
CMH统计分析方法在多中心试验s×r表资料的应用
多中心试验中,有时试验的对象分为两组或两组以上,分别给予不同的处理,其结果作为反应变量不仅仅是二分类,也可能是多分类,且属性可能是有序的,也可能是无序的或名义的,这样构成分层的s×r列联表资料.多中心试验的2×2、2×r(列变量为有序变量)和s×2(行变量为有序变量)列联表资料是s×r列联表资料的特殊情况.本文阐述CMH统计分析方法在多中心(或分层)试验广义s×r列联表资料的应用.
-
外科临床研究中常用的统计分析方法
选择临床研究中统计分析方法时择,必须了解研究的目的 、研究的设计、资料的类型、资料的分布和样本量的大小.否则常会造成统计分析方法的误用,严重影响科研的质量.应根据实验设计类型和目的 ,结合应变量和自变量的数据类型、数据分布来选定适当的统计分析方法.外科医生应了解如何合理实验设计,选择合适的统计方法来回答临床问题.
-
条件Logistic回归模型拟合方法简介
1 概 念条件 Logistic 回归模型又称配对 Logistic 回归模型, 适用于配对 (配伍) 方法收集的应变量为二分类资料的 Logistic 回归分析. 包括 SPSS 和 SAS 在内的多数统计软件都没有为条件 Logistic 回归模型提供直接拟合的程序, 但根据模型原理, 对数据格式略加变换后, 可采用 Cox 比例风险回归模型 (Cox 回归模型) 进行拟合 [1].
-
直线相关与回归分析的区别和联系
区别:①资料要求不同:直线相关分析要求两个变量都是正态分布;回归分析要求因变量Y服从正态分布,而自变量X是能精确测量和严格控制的变量. ②统计意义不同:直线相关分析反映两变量间的伴随关系,这种关系是相互的、对等的,不一定有因果关系;回归则分析反映两变量间的依存关系,一般将"因"或较易测定、变异较小者定为自变量,这种依存关系可能是因果关系或从属关系. ③分析目不同:直线相关分析的目的是把两变量间直线关系的密切程度及方向用一统计指标表示出来;回归分析的目的则是把自变量与应变量间的关系用函数公式定量表达出来,回归分析不仅可以揭示X对Y的影响大小,还可以由回归方程进行数量上的预测和控制. ④变量的意义不同:在回归分析中,因变量Y处在被解释的特殊地位;在直线相关分析中,X与Y处于平等的地位.
-
医学研究中Logistic回归与其他方法的结合应用
Logistic回归(logistic regression)属于概率型非线性回归,是分析反应变量为独立分类资料的常用统计分析方法,由于对资料的正态性和方差齐性不做要求、对自变量类型也不做要求等,使得近年来Logistic回归模型在医学研究各个领域被广泛用,如流行病学、病因学的队列研究、病例对照研究,临床诊断的判别模型,治疗效果评价等.