十分钟快速了解孟德尔随机化 | 一文全知道

2025-08-04 12:48


文章转自 临床科学家公众平台


1、为什么RCT可以独领风骚占鳌头?


RCT是采用随机分配的方法,将合格的研究对象分别分配到试验组和对照组,然后接受相应的试验措施,在一致的条件下,同步地进行研究和观察试验的效应,并用客观的效应指标对试验结果进行科学的测量和评价的研究方法。


多中心的RCT研究中的 “随机分配”“对照”“盲法”三大基本原则可有效避免偏倚、混杂对研究结果的影响,确保治疗效果真实性,从而奠定了其临床决策最高证据级别的江湖地位。

当然RCT研究也并非万能,有一些研究先天做不了RCT


比如研究吸烟与肺癌的关系,我们不可能进行随机分组,而且因为事件发生的时间和概率小,观察的样本量、时间成本也不允许。


2、观察性研究有哪些优势和缺点?

观察性研究是我们临床研究中最常用的研究形式,尤其对于刚刚入门临床研究的同学来说,可行性最高。


从其优点看:

1.自然性

观察性研究在自然环境中进行,不需要实验室条件,因此能够反映真实世界中的行为和情境。


2.内部效度高:

由于研究对象在实际环境中被观察,研究结果通常具有较高的内部效度,即能够捕捉到真实的关系。


3.适用性广泛:

观察性研究可用于临床医学各种研究领域,适用性广泛,而且通常需要更少的时间或资源。

当然观察性研究也有一些显而易见的缺点,其中大家最需要关注的有两个:


一个是外部效度问题,其实这个在RCT研究中也是存在的,观察性研究的结果不一定能够泛化到其他环境或群体。


另外一个是偏倚和混杂的问题,研究人群的选择、研究者的主观观察和解释可能会引入偏见,并且通常难以控制和操纵变量,因此很难确定因果关系,甚至可能有反向因果关系。


3、如何控制观察性研究中的偏倚和混杂?

当然,从研究方法上讲,我们可以在做观察性研究时,加入一些控制方法,比如保证足够的样本量、开放编码、双盲观察、随机选择观察样本等。


但大家可能最常用的,还是统计学上的一些方法,主要有3种


1.分层分析法:

当混杂因素太多,理论上分层为2n,分太多层不现实。


2.多因素调整分析法(多重线性回归、logistic回归、Cox回归等):

也受限于自变量个数和样本量和事件发生数,协变量过多可能导致模型不稳定。


3.倾向性评分法:

算是一种事后随机化,仍然无法解决由于混杂因素测量不准确,或者未知因素所引起的残余混杂作用。


4、什么是工具变量法?

其实除了上述常用的三种统计学方法来控制偏倚和混杂,还有一种成为工具变量的方法,它的目的是为了进一步消除这部分残余混杂。

工具变量是指:

①与研究暴露/处理因素相关;

②和其他混杂因素无关;

③并且和结局变量无直接关系的一类变量;

④它仅仅是通过与暴露/处理因素的关系,以及暴露/处理因素与结局变量的关系,来间接影响结局变量。



但在现实的观察性研究中,想找到这样完美的工具变量可不是一件容易得事情,毕竟需要满足上面的4个条件,那么,有没有一种完美的工具变量存在呢?


5、什么是孟德尔---随机化?

(此处是本文重点内容!)

研究背景:

19世纪,孟德尔用豌豆花作为实验材料,通过对豌豆的颜色、形状等特征的观察和统计分析,首次提出了遗传的基本规律,称为孟德尔遗传定律



什么决定了豌豆的颜色、形状?


其实是背后的不同的基因,而基因不同的大部分原因在于单核苷酸多态性(SNP)。



我们再回到孟德尔遗传定律,其实它分为两部分:


分离定律(孟德尔第一定律)

决定生物体遗传性状的一对等位基因(包含着遗传变异)在配子形成时彼此分开,随机分别进入一个配子中。


独立分类定律(孟德尔第二定律)

两对以上的等位基因(包含着遗传变异)进入一个配子时,它们相互之间是独立自由组合的,后代基因型是雌配子和雄性配子随机受精决定的。


简单说,孟德尔遗传定律的背后就是两个字:随机!!


孟德尔随机化的本质:

1)关联性假设:


SNP与暴露因素之间是强相关的。这意味着我们选择的SNP确实与我们感兴趣的暴露因素有关


例如,如果我们想研究饮酒与心脏病的关系,那么我们选择的SNP应该与饮酒行为有关


喝不喝酒跟基因不同有关?

是的!甚至你喜欢穿什么、喝什么、吃什么也跟基因有关系!)。

2)独立性假设:


SNP与混杂因素之间是独立的。


这确保了我们选择的SNP与可能混淆的其他因素没有关系。


这一点很关键,因为我们希望任何我们发现的关系都是由于暴露因素,而非其他混杂因素。

3)排他性假设:


SNP只能通过暴露因素对结局产生作用。


这意味着SNP只能通过我们关心的暴露因素影响结果,而不能通过其他途径。




7、孟德尔随机化的优势与局限性

1)优势:


不受因果倒置和混杂因素的影响;


遗传变异在生命周期中保持稳定;


相对容易进行,对于我们初学者,可利用公开的全基因组关联研究数据,解决数据来源问题;


而且上手迅速,很多同学纠结于R的学习,其实没有大家想象的那么难!

2)局限性:


如果遗传变异具有多效性,可能导致误差;


有时统计能力不足,特别是当遗传变异只能解释风险因素中的小部分时;


孟德尔随机化的假设及其生物学合理性可能在某些情况下不成立;


存在如弱工具、人群分层及发育代偿等潜在问题。


不过我们在做孟德尔随机化研究中,需要分布进行统计学检验,以尽可能弥补这些缺陷!