首页 理论教育 前瞻性队列研究的样本量确定

前瞻性队列研究的样本量确定

时间:2023-08-05 理论教育 版权反馈
【摘要】:前瞻性队列研究是队列研究的基本形式。4.确定样本大小确定队列研究样本量大小也主要取决于4个因素:①非暴露人群的发病率,P0越接近0.5,所需样本越大。例11-5以队列研究分析孕妇暴露于某药物与婴儿先天性心脏病之间的联系,已知非暴露者所生婴儿先天性心脏病发病率为0.008,估计RR为2,设α=0.05(双侧),β=0.10,求样本量。

前瞻性队列研究的样本量确定

(一)概念

队列研究又称前瞻性研究,是将一个范围明确的人群按是否暴露于某种可疑因素分为暴露组和非暴露组,或按是否不同程度地暴露于某种可疑因素分成多个亚组,追踪其有关研究疾病的结局,比较不同暴露水平的各组之间疾病结局发生频率的差别,分析和推断该暴露因素是否为所研究疾病的危险因素或病因。队列研究模式图如图11-3所示:

图11-3 队列研究原理示意图

(二)队列研究的类型

依据研究对象进入队列时间及观察终止时间不同,队列研究可分为前瞻性队列研究、历史性队列研究和双向性队列研究三种。

1.前瞻性队列研究 研究对象的分组根据研究开始时研究对象的暴露状况而定。此时结局尚未出现,需要追踪观察一定时间才能得到,其性质是前瞻性的。更确切地说,该方法是从现在开始至将来结束。前瞻性队列研究是队列研究的基本形式。该方法可以直接获得暴露与结局的第一手资料,因而信息准确,不易产生信息偏倚。但因该研究需长时间随访,费时、费力,所以该方法应用受到一定限制。

2.历史性队列研究 研究对象的分组根据其既往暴露资料而定,研究开始便可从历史资料中获得每位研究对象的结局。即研究开始时间便是观察结束时间。该方法虽然收集暴露资料和判断结局同时完成,但性质还是属于前瞻性的。若有完整的历史记录,该方法的资料收集和分析可在较短时间内完成,可达到事半功倍的效果。

3.双向性队列研究 有时历史资料积累的时间较短,达不到疾病的潜隐期,需继续观察一段时间以满足研究的要求。这种在历史性队列研究之后继续前瞻性地观察一段时间的研究称为双向性队列研究,也称混合性队列研究。

(三)队列研究的实施

队列研究能证实暴露因素与疾病的因果联系,但其实施起来较为复杂,难度较大,因而在实施前要周密考虑。

1.确定研究因素 常称为暴露因素或暴露变量,通常是在描述性研究和病例对照研究的基础上确定的。在研究中要考虑如何选择、规定和测量暴露因素。暴露的测量应采用敏感、精确、简单和可靠的方法。

2.确定研究结局 结局变量是指随访观察中将出现的预期结果事件,即研究者希望追踪观察的事件,是观察的自然终点,不是观察期的终止。既可是终极的结果(如发病或死亡),也可是中间结局(如分子或血清的变化)。除研究结局外,也可同时收集多种可能与暴露有关的结局。

3.确定研究人群 包括暴露组和对照组

(1)暴露人群的选择

1)特殊暴露人群或职业人群:这部分人群的暴露史明确,发病率也高,故易得出结果。特殊暴露人群指对某因素有较高暴露水平的人群。如果暴露因素与疾病有关,则高度暴露人群中疾病的发病率或死亡率就可能高于其他人群,这将有利于探索暴露与疾病之间的联系。所以在研究暴露与疾病的关联时,常常首先选择特殊暴露人群。例如,选择遭受过原子弹爆炸危害的人群或接受过射线治疗的人群,用以研究放射线辐射与白血病的关系。

某些职业中常存在特殊暴露因素,它可能与某些疾病有关,所以某些职业人群也是特殊暴露人群。例如,选择染料厂工人研究联苯胺致膀胱癌的作用,选择石棉作业工人研究石棉与肺癌的关系等。

2)一般人群:这种人群的代表性最好,得到的结果外推性好,但这部分人群发病率低,所得的RR值较小,实施较困难。此时选择一般人群作研究对象时要考虑两点:①所研究的因素与疾病是人群中常见的;②研究需要观察一般人群的发病情况,特别是想要观察环境因素与疾病的关系时,无特殊暴露人群或不需要特殊暴露人群。

3)有组织的人群:这部分人群易于联系,应答率较高,代表性较好,且易控制混杂。如由医生协会登记注册的执业医师

(2)对照人群的选择:对照人群的选择正确与否直接影响着队列研究的真实性。选择对照组的目的是进行比较,因此要注意与暴露人群的可比性。即对照人群除未暴露于所研究的因素外,其他因素如年龄、性别、职业等应尽可能与暴露人群相同。

1)内对照:选定一群研究对象后,有暴露史的作为暴露组,余下的作为对照,这就叫内对照。队列研究应尽量选用内对照,因为这是最理想的对照,除暴露因素外它与暴露人群的可比性好。同时,选用内对照较方便可行,特别是当暴露人群来自于一般人群或有组织的人群时常用内对照。

2)外对照:暴露人群选定后,从其他人群中选择对照人群,这叫外对照,一般当暴露人群为职业暴露或特殊暴露人群时常用外对照。如以放射科医生作为研究放射线致病的暴露人群,则可以不接触射线或接触射线极少的五官科医生为外对照。

3)不另设对照:也称一般人群对照,就是将结果与一般人群的发病率或死亡率进行比较,其优点是一般人群的发病率或死亡率容易得到且较稳定,但其资料比较粗糙,可能缺乏要比较的项目。此时应注意与同时期的人群资料进行比较。

4.确定样本大小 确定队列研究样本量大小也主要取决于4个因素:①非暴露人群的发病率(P0),P0越接近0.5,所需样本越大。②暴露人群的发病率(P1),暴露人群与对照人群发病率之差越大,所需样本量越小。③显著性水平α,即假设检验时的第Ⅰ类错误。要求假阳性错误出现概率越小(即α越小),需样本量越大。通常α取0.05或0.01。④检验效能1-β,即检验假设时能够避免假阴性出现的能力,β为检验假设时出现第Ⅱ类错误的概率。

在得到了确定的参数(即非暴露人群的发病率P0、暴露人群的发病率P1、显著性水平α、检验效能1-β)后,可用公式11-3计算样本量(N)。

如已知P0与估计的相对危险度RR,则P1=RR×P0

例11-5 以队列研究分析孕妇暴露于某药物与婴儿先天性心脏病之间的联系,已知非暴露者所生婴儿先天性心脏病发病率(P0)为0.008,估计RR为2,设α=0.05(双侧),β=0.10,求样本量。

zα(双侧)=1.96,zβ(单侧)=1.282,P0=0.008,P1=RR×P0=2×0.008=0.016

即暴露组和非暴露组各需观察3 892人。

除了计算,还可以通过查表或直接上网检索相关网站的方法获得样本含量。

5.资料的收集

(1)基线资料收集:收集每个研究对象在研究开始时的基本情况,包括待研究的暴露因素的暴露状况,疾病与健康状况,年龄、性别、职业、婚姻等个人状况,家庭环境、个人生活习惯及家族疾病史等。获取方式:①查阅医院、工厂、单位及个人健康保险的记录或档案;②访问研究对象或其他能够提供信息的人;③对研究对象进行体格检查和实验室检查;④环境调查与检查。

(2)随访:随访即对所确定的研究对象进行追踪观察,目的是确定终点事件的发生情况,即有多少观察对象发病或死亡,还有多少研究对象尚在观察中,有多少人已无法追踪(失访),研究对象的暴露情况有无变化等。

随访的方法分为直接法(如信函调查、面访、定期体检)和间接法(根据医院病历、死亡登记、疾病报告卡、人事档案、劳保资料、保险档案等间接判断研究对象的结局),应根据实际情况选用其中一种方法或两种方法兼用,以尽量减少失访(即由于某些原因导致无法知晓研究对象的结局),并保证获得真实、可靠的信息。

(3)结局资料收集:首先要明确观察终点,通常是发病或死亡,也可以其他健康效应作为终点,但终点的确定较为复杂。如对恶性肿瘤的队列研究中常以死亡为观察终点,因为死亡比发病更容易判断,如果以发病为观察终点可能会出现较多的假阳性或假阴性。其次,要确定追踪观察的期限,主要依据所研究的暴露因素和研究对象的暴露水平、样本量及所研究疾病的性质来确定。例如,如果以恶性肿瘤的发生或死亡为观察终点,随访期往往需要数年或数十年。

(四)队列研究资料的分析

队列研究结束后也应对所获得的资料进行整理,然后进行描述性分析,将研究对象的组成、随访的经过、结局的发生和失访率等情况做出描述。再按年龄、性别、时间分别计算各研究组在随访期的疾病发病率和死亡率,然后进行比较。

1.资料整理 资料分析前,首先要对资料进行审查、修正或剔除,对不完整的资料设法补齐。队列研究资料常整理成如表11-3形式。

表11-3 队列研究资料整理表(www.xing528.com)

2.统计描述 即描述研究对象的组成、人口学特征、随访时间及失访情况等,分析两组的可比性及资料的可靠性,并进行率的计算。

(1)累积发病率(CI):指某一固定人群在一定时期内某病新发生例数与观察开始时总人数之比。随访期越长,则病例发生越多,所以CI表示发病率的累积影响。故样本量大,人口稳定,资料比较整齐的情况下可计算累积发病率。

(2)发病密度(ID):是指一定时期内的平均发病率。其分子仍是一个人群在观察期内新发生的病例数,分母则是该人群每一成员所贡献的人时的总和。所谓人时(person-time,PT)是观察人数乘以随访单位时间的积。发病密度既说明该人群发生的新病例数,又说明了该人群的大小和发生这些例数所经历的时间。时间单位常用年,故又称人年数。例如一个人观察满5年为5人/年,5个人观察满一年也是5人/年。故多在人口波动较大、样本量小的情况下应用发病密度。

3.统计推断 一般常用χ2检验分析两组的差异。如果暴露组与非暴露组发病率的差异有显著性意义,可认为暴露与疾病之间有统计学联系。由于队列研究可直接计算研究对象的结局发生率,因此借此估计暴露与发病之间的关联强度。常用的反映关联强度的指标有相对危险度、归因危险度、人群归因危险度和人群归因危险度百分比等。

(1)相对危险度(RR):又称率比,是指暴露组发病率(Ie)与非暴露组发病率(I0)之比,它反映了暴露与疾病的关联强度。

RR说明暴露组的发病危险是非暴露组的多少倍。RR无单位,比值范围在0至∞之间。RR=1,表明暴露与疾病无联系;RR<1,表明存在负联系(提示暴露是保护因子);反之RR>1时,表明两者存在正联系(提示暴露是危险因子)。比值越大,联系越强。

表11-4 RR值的关联强度参考表

(2)归因危险度(AR):又称率差,是指暴露组发病率与非暴露组发病率之差,它反映发病归因于暴露因素的程度。

AR表示暴露可使人群比未暴露时增加的超额发病的数量,如果暴露去除,则可使发病率减少多少(AR的值),因此AR在疾病预防中很有意义。

(3)归因危险度百分比(AR%):是指暴露人群中由暴露因素引起的发病在所有发病中所占的百分比。

(4)人群归因危险度(PAR):是指总人群发病率中归因于暴露的部分。

式中,It为全人群发病率。

(5)人群归因危险度百分比(PAR%):表示全人群中由暴露引起的发病在全人群全部发病中的比例。

例11-6 某吸烟与肺癌的队列研究获得的资料为:吸烟者肺癌年死亡率为Ie=0.96‰,非吸烟组肺癌年死亡率为I0=0.07‰,全人群中肺癌年死亡率为It=0.56‰。试计算上述各指标。

RR=Ie/I0=0.96‰/0.07‰=13.7,表 明 吸 烟 组 的 肺 癌 死 亡 危 险 是 非 吸 烟 组 的13.7倍;

AR=Ie-I0=0.96‰-0.07‰=0.89‰,表明如果去除吸烟,则可使肺癌死亡率减少0.89‰;

AR%=(Ie-I0)/Ie×100%=92.7%,表明吸烟人群中由吸烟引起的肺癌死亡在所有肺癌死亡中所占的百分比为92.7%,找到肺癌的主要病因。

PAR=It-I0=0.56‰-0.07‰=0.49‰,表明如果去除吸烟,则可使全人群中的肺癌死亡率减少0.49‰;

PAR%=(It-I0)/It×100%=87.5%,表明全人群中由吸烟引起的肺癌死亡在所有肺癌死亡中所占的百分比为87.5%。

(五)常见偏倚及其控制

1.选择偏倚 由于最初选定的研究对象有人拒绝参加;历史性队列研究时,有些人的档案丢失或记录不全;研究对象为志愿者,他们往往是具有某些特征或习惯的;早期病人在研究开始时未能发现;抽样方法不正确、执行不严格等原因所造成。

控制选择偏倚要有一个正确的抽样方法,即严格遵守随机化的原则;严格按规定的标准选择对象;对象一旦选定,坚持随访到底。

2.失访偏倚 在一个较长的追踪观察期内,总会有对象迁移、外出、死于非终点疾病或拒绝继续参加观察而退出队列。失访率最好不超过10%。

控制失访偏倚主要靠尽可能提高研究对象的依从性,在选择研究对象时选择那些符合条件并且依从性好的研究对象。如果失访率达到20%以上,则研究的真实性值得怀疑。

3.信息偏倚 在获取暴露、结局或其他信息时所出现的系统误差或偏差,又称为错分偏倚,如判断有病为无病,判断有暴露为无暴露等。由于仪器不准确、检验技术不熟练、诊断标准定义不明确或掌握不当、询问技巧欠佳造成结果不真实等。

控制信息偏倚包括选择精确稳定的测量方法、校准仪器、严格实验操作规程、同等地对待每个研究对象、提高临床诊断技术、明确各项标准、严格按规定执行、做好调查员培训等。

4.混杂偏倚 混杂是指所研究因素与结果的联系被其他外部因素所混淆,这个外部因素就称为混杂因素。它是疾病的一个危险因子,又与所研究的因素有联系,它在暴露组与对照组的分布是不均衡的。性别、年龄是最常见的混杂因素。

控制混杂偏倚可对研究对象作某种限制以获得同质的样本;在对照选择中采用匹配的办法,研究对象抽样严格遵守随机化的原则等措施。

(六)队列研究的优缺点

队列研究的优点:样本代表性较好;暴露及结局资料准确;偏倚较少发生,研究结论可靠;可以同时研究一种暴露因素与多种疾病的关系。因此,队列研究常用于验证病因假设。

队列研究的缺点:耗费人力、物力;研究周期长;实施难度较大;失访难以避免,失访较多时可能会影响到研究结论的正确性;不适用于罕见病的病因研究。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈