首页 > 文献资料
-
考虑多阶段抽样设计的误差估计
多阶段随机抽样是公共卫生开展人群抽样调查的常用设计.多阶段抽样设计下获得的样本具有复杂样本的特征,存在群效应或数据不独立,若不考虑抽样设计,通常会低估抽样误差或增加统计推断Ⅰ类错误的风险.由于复杂样本误差估计形式较复杂,目前常用统计软件均默认采用极群方差估计策略来简化样本结构,即假设样本来自于一阶段整群抽样,忽略除第一阶段抽样外的所有抽样设计,从而实现对误差的近似估计.然而,在初级抽样单元入样比较高时,后继抽样阶段对误差的贡献不可忽略,极群方差估计策略可能导致无效的误差估计.本文旨在介绍考虑多阶段抽样设计下的误差估计方法,并通过对现实数据进行多阶段模拟抽样,探讨在不同抽样设计下,极群方差估计策略和考虑多阶段抽样设计下的误差估计差异.模拟结果显示,随初级抽样单元入样比的增加,极群方差估计策略估计的误差出现不同程度的偏倚,且随入样比增加偏倚加重;而考虑多阶段抽样设计下的误差估计则较准确反映误差水平,可得到准确的统计推断结果.
-
死因监测整群抽样与不等概率抽样设计方案的比较
为比较不同整群抽样设计方法 的抽样误差及设计效应,评价不等概率抽样在死因监测中的应用效果.以陕西省107个县(市、区)作为抽样框架,采用等概率整群抽样和不等概率整群抽样等设计方案抽取样本,用复杂抽样方法 计算不同方案样本的抽样误差和设计效应.不同的抽样方案得到不同的抽样误差估计,分层整群抽样的标准误小于完全随机整群抽样;不等概率抽样(πPS抽样)的设计效率虽略逊于等概率的完全随机整群抽样,但扩大了监测范围.结论 :对于抽样框架明确的整群抽样调查数据,在统计分析时不应脱离预先设定的抽样设计方案和设计参数.死因监测采用不等概率抽样设计,能增加样本的权重,提高死亡率的地区代表性.
-
国家人体生物监测项目抽样方法及误差估计
目的 探讨国家人体生物监测项目抽样方法,并通过计算抽样误差来评估抽样设计.方法 该监测采用多阶段复杂抽样方法,并以贵州省抽样结果为例,应用多阶段不等概率抽样误差计算方法计算贵州省抽样误差及变异系数,探讨多阶段抽样设计下误差估计方法.结果 该监测覆盖全国31个省(自治区、直辖市)的152个监测点,抽取21 888名3 ~ 79岁城乡居民,三个阶段置换率分别为5.26%、6.35%及40.6%.经计算贵州省抽样误差为3 207 594人,变异系数为0.097.结论 根据多阶段不等概率抽样方法计算,贵州省抽样变异系数较小,精度较高,但该计算方法未考虑人群缺失率、应答率等非抽样误差的权重调整,大型公共卫生监测项目多阶段抽样误差计算方法有待继续研究.
-
整群抽样调查数据分析中应正确计算抽样误差
为了澄清整群抽样调查数据分析中正确计算抽样误差的必要性,以在某市15岁及以上人群中开展的一次两阶段整群抽样调查为例,分别采用适用于单纯随机抽样数据的方法和考虑了复杂抽样设计的方法对数据进行分析.结果 显示,忽略对复杂抽样设计的考虑,不恰当的采用适用于单纯随机抽样数据的方法进行数据分析,不仅有可能大大低估样本统计量的抽样误差,在进行假设检验时,甚至会得到错误的结果,故正确分析和报告整群抽样调查数据的抽样误差是非常必要的.
-
复杂抽样调查数据实例分析
提出复杂抽样调查数据的分析思路和方法以及忽视权重和抽样设计时会出现的问题.文中以2002年中国居民营养与健康状况调查数据中高血压患病率的估算为例,分加权和不加权、考虑和不考虑整群设计特征的四种组合情况对数据进行分析.表明忽视权重的设置会影响点估计和标准误的估计,忽视对整群设计特征的考虑不仅会高估结果的精确度,还会得到地区间患病率有差异的假阳性结论.因此使用合理的统计方法分析复杂抽样调查数据非常有必要.
-
第五讲如何对数据资料进行一般性统计分析
医学论文中常用的一些统计方法,如t检验、χ2检验,虽然计算简单,却容易出错.作者通过剖析医学科研论文中的正反两方面实例,以引起作者的足够重视.一、随机误差医学观察值不可避免地存在误差.统计上的误差概念专指随机误差(random error),即多种不可控制因素的影响造成的误差,大小没有方向性和系统性,如人体身高值、体重值及实验室检测结果.由于各种统计分析方法都需度量观察值的随机误差大小,因而在论文中表述统计结果时,都必须报告变异指标,如正态分布资料选用标准差s或±s,偏态分布资料选用四分位数间距或极差(大值~小值).统计指标的随机误差(与研究的样本大小有关,又称抽样误差),用标准误(standard error,s)表示,如样本均数的误差用s或±s表示,样本率p的误差用sp或p±sp表示.系统误差和过失误差不属于随机误差的范畴,必须在研究中尽可能杜绝,如测量仪器偏差、失灵、数据记录或计算机录入错误等.
-
从抽样误差谈起
为什么要先从抽样误差来谈医学统计学呢?抽样误差尽管不是医学统计学中重要的内容,但却是一个源头和起因.要讲清一个故事的来龙去脉,首先应从源头说起.
-
肝纤维化动物模型及其影像检查进展
随着研究的深入,人们对肝纤维化的发生机制有了更深的认识,明确提出肝纤维化甚至肝硬化有可能逆转的观点[1].如何有效早期诊断和防治肝纤维化,已成为国内外研究热点.肝纤维化的诊断方法包括病理学、血清学和影像学三类.肝活检组织病理学是诊断肝纤维化和肝硬化的金标准,但此方法有创、局部取材有时不能反映肝脏整体情况,存在不可避免的抽样误差,且只能静态评估,不便于动态观察.
-
实验数据的统计分析与科研论文的撰写
几乎所有的实验的结果,包括有非常明显的实验效果的实验结果,都需要用适当的统计分析方法进行评价[1].数据的分析应主要围绕研究的目的进行,对实验的假设进行验证.同时,数据分析的主要目标是提取数据中所有能被解释的有用信息,考虑生物的变异和实验所产生的误差对研究结果的影响,尤其是防止抽样误差对于实验(治疗)效果的错误判断的重要工具.当然,也存在统计学有显著性差异,而不存在生物学意义的现象.因此,在撰写科研论文时,既要有正确的实验设计和使用正确的资料统计分析方法,又要准确描述和解释实验结果.
-
循证医学方法学在人工智能时代背景下面临的挑战
传统循证医学作为临床医学研究的标准性方法,为解决若干重要临床争论提供了很好的思路。然而,新近发表的研究表明:以Meta分析为代表的循证医学方法,其理论支柱之一的“异质性检验”存在方法学缺陷,而且受到样本数影响、抽样误差导致假异质性的挑战,导致同类患者群采用同样干预却出现自相矛盾的结果,使得临床医师无所适从。我们从经典循证医学的缺陷着手,将临床与基础研究的数据相结合,提出新型的计算技术模型,将机制性解释和临床宏观表型吻合,使个体化精细医疗成为可能。
-
磁共振弥散加权成像对肝纤维化的诊断
目前肝硬化的诊断主要依靠肝脏活检,其为金标准,但因其有创性的检查且抽样误差较大等原因,患者多不愿接受,且后续治疗的过程中,为监测疗效连续的活检会给患者带来不必要的精神负担及经济负担,且并不利于患者疾病的恢复.磁共振弥散加权成像是一种对水分子运动敏感的全新的成像技术,可以在分子水平上反映组织结构和功能状态,并且是唯一一项能够反映出组织细胞及细胞膜结构是否完整的技术[1].本研究将探讨磁共振弥散加权成像对肝纤维化的诊断价值.
-
PSU数量与入样比对抽样误差近似估计和统计推断影响
目的 了解初级抽样单元(PSU)数量与入样比对抽样误差近似估计和统计推断的影响,为今后调查的抽样设计提供参考.方法 收集2010年中国慢性病及其危险因素监测中的98587条收缩压测量数据开展二阶段模拟抽样;采用泰勒级数线性化法估计每个样本在考虑有限总体校正(FPC)和不考虑FPC情况下的均值、标准误及95%可信区间,比较估计的标准误和真实标准误间差异,分析不同设计下95%可信区间包含总体均值参数的概率.结果 PSU个数增加至10个时,抽样误差迅速从4.13 mmHg降到1.91 mmHg,下降了53.8%,但PSU个数增加至≥20个时,估计精度未见明显提升;在考虑FPC情况下,随着PSU入样比的增加,均值95%可信区间覆盖真值的概率波动较大:入样比<30%时,95%可信区间覆盖真值概率在94.0%上下波动;入样比>30%时,95%可信区间覆盖真值的概率呈现出震荡下降的趋势,低到达88.2%,统计推断较敏感;在不考虑FPC情况下,95%可信区间覆盖真值概率均较考虑FPC情况高,在PSU入样比>20%时,95%可信区间覆盖真值概率较入样比<20%时出现了一个小幅跃升,统计推断较保守.结论 PSU数量的确定需同时考虑估计精度和调查可行性;PSU入样比过大时,应慎重使用基于误差近似估计的统计推断.
关键词: 复杂抽样设计 初级抽样单元(PSU) 抽样误差 统计推断 -
百分位数的可信区间估计
百分位数(percentile)是用于描述计量资料尤其是偏态分布资料极为常用的指标体系.如用于允许区间的估计,变异度的描述,百分位数回归等.但百分位数本身亦存在抽样误差,有必要对其进行区间估计.本文介绍百分位数的bootstrap区间估计,并与二项分布近似法进行比较.
-
影响临床研究质量的因素及其控制
临床医学研究中不可避免存在误差,包括:随机误差(random error)(又称抽样误差或机遇)和系统误差(systematic error)(又称人为误差或偏倚).
-
大数据时代统计分析转型
随着数据规模的扩大,传统的抽样分析面临着挑战.对抽样分析结果是否具有整体代表性以及数据自身的可靠性提出质疑,这就需要运用大数据分析方法再次完成检验.随着人们对大数据分析方法的逐渐掌握,其对以往小样本、小数据精确度的痴迷程度必将逐步减弱.过去对小数据而言,基本、重要、关键的要求是减少抽样误差,以保证数据分析结果的质量.随着信息化时代的来临,人们掌握的数据越来越多,不再仅是利用手头的有限数据,而需对与之相关的全部数据甚至海量数据进行汇总分析应用,这也正切合了计算机的大优势.
-
人群健康研究的统计学方法第三讲计量资料的统计推断
1 总体均数的可信区间估计1.1 抽样误差的概念在医学研究中,通常采用的是抽样研究的方法.也就是从研究的总体中,随机抽取有代表性的个体(样本)进行研究,目的是用样本的信息推论总体特征,这在统计学中称为统计推断(statistical inference).
-
《基础流行病学》讲座
第八讲流行病学研究中的偏差1 引言 流行病学的研究工作通常都以人群作为靶人群或参照人群(统计学称为总体)。我们希望通过试验人群(样本)中产生的研究结果代表总体的情况。但是,结果受到自身、被观察对象,以及研究方法等影响而产生偏差,使真实的联系被掩盖起来或造成虚假的联系。常见的偏差有抽样误差和偏性两大类。1.1 抽样误差抽样误差是指样本结果(指标)与总体情况(参数)之间的差异。这种误差是抽样研究本身故有的,是机遇或偶然性造成的。因此,抽样误差也叫随机误差。所以,为了使样本能真实代表总体情况,就要使总体中的每一个人都有同等的机会被抽取。要做到这一点,调查对象分布尽量要均匀,样本要足够大,抽样方法做到随机化。所谓随机,就是非主观性地、完全由机会决定。
-
计数资料统计结果再分析举例
医学科研人员如何正确分析统计资料结果,对研究的结论至关重要.
-
慢性乙型肝炎患者肝纤维化无创诊断模型的建立和验证
肝纤维化是许多慢性肝病的共同病理过程.大量临床研究表明肝纤维化可减轻或逆转.肝纤维化的早期诊断,对判断慢性肝病的疾病进展、临床结局、选择抗肝纤维化治疗药物及其疗效考核具有重要临床意义.目前肝穿刺病理检查仍然是诊断肝纤维化的金标准.但肝穿刺是一种有创检查,有一定的并发症发生率,患者依从性较差;存在抽样误差和观察者误差;且仅取到五万分之一的肝组织.可能会低估真实病情[1].血清学检查具有无创、易检测、重复性好、价格适宜等特点.近十年的各类研究表明血清学多指标联合检测可明显提高诊断准确性.
-
生物统计学教学中的三个规律
基本概念是生物统计学的基础,是重中之重.正确理解基本概念须掌握个体变异规律、抽样误差规律和风险可控规律.本文通过实例深入浅出地讲解了这三个规律及其之间的关系,以期在教学中学生更好地理解、消化和吸收,同时加强统计思维的训练.