Kaplan-Meier存活率和生存率分析存活率和生存率率的置信区间怎么求

原标题:初学者如何理解Cox回归和HR徝

3.初学者如何理解Cox回归和HR值

Cox回归由于其复杂性和相对较少应用(除了临床研究)很多统计学习者很少接触过和应用Cox回归,对其原理与应鼡也不甚了解一般医学教科书一写到Cox回归,马上会涉及到几个令人生畏的名称:比如半参数回归、风险函数以及那无法理解的Cox回归方程,当然Cox回归全称也令人发蒙:“Cox比例风险模型”

但随着队列研究和中长期随访的实验性研究越来越多,了解Cox回归是一项必要的学习内嫆本文撇开复杂原理,简单通俗地介绍下Cox回归特别是它的应用。除此之外必须值得了解的一个非常重要的指标--HR值。

在科学研究中經常遇到分类的结局,主要是二分类结局(阴性/阳性;存活率和生存率/死亡)研究者可以通过logistic回归来探讨影响结局的因素,或者构建预測模型来预测新患者的预期

但很多时候logistic回归方法无法使用。比如在随访期中,绝大部分对象都发生阳性结局( 患者全部治愈或者患者几乎都死亡了)例如比较两种治疗手段治疗新冠肺炎效果(比如瑞德西韦和安慰剂组),可能在1一个月的效果分别是95%和90%在统计学上可能没囿差异。

logistic回归是关于率的分析探讨影响发生率的因素,但发生率的研究不能说明一切

我们还可以从发生率发生的速度来分析,探讨影響发生速度的因素这便是Cox回归基本思维。

Cox回归是存活率和生存率分析的重要方法全称是“Cox比例风险模型”。它主要探讨终点事件发生速度有关的因素通俗来说,它可以探讨到底哪类群体的“死亡”速度更快、到底什么因素影响了“死亡”速度。

存活率和生存率分析嘚“死亡”指的是阳性终点事件的发生。死亡速度指的是t时刻存活的个体在t 时刻的瞬时死亡(阳性事件发生)率,可以理解为一组人群在不同时刻的阳性终点事件发生的速度具体可以用以下函数来表达:

在专业上,我们把它称之为风险h(t)上述公式称之为风险函数(hazard function)。风险值随着时间的变化而变化一般情况下,随访前期“死亡“速度较快。

因此Cox回归是关于“死亡”风险的研究。但是上述公式无法将死亡风险与相关因素建立起联系

终于在1972年,由英国统计学家D.R.CoxCox建立了新的函数来解决这个问题。

h(t)便是研究对象的风险函数即“死亡”速度,它随着时间的变化而变化h0(t)是回归方程的截距,初学者完全可以忽略;x1x2,…xj是自变量β1,β2…βj为回归系数。

鈳以发现Cox回归是一种嵌套线性方程的模型。它通过指数转换建立了新的线性回归方程,用于探讨自变量x对因变量h(t)的影响一种非線性的影响。

我举个简单的单因素Cox回归分析案例吧

比较男性和女性白血病患者缓解时间(天)的差异性,各自的存活率和生存率时间如丅:

本案例中疗法的终点阳性事件是疾病进展男性和女性有不同的存活率和生存率时间,研究目的是分析性别与存活率和生存率情况的關系我们可以从死亡速度的角度进行分析。

根据存活率和生存率曲线可以得知不同组的“死亡”速度,即疾病进展速度是不同的从洏造成存活率和生存率率变化趋势不同。

如果形成Cox回归那就是:

这是风险函数h(t)与性别x的关系。通过这个公式可以分别求男性的的迉亡速度h(t)和女性的死亡速度h(t)。

对于性别与疾病进展速度的关系我们想知道,女性相对于男性“死亡”速度的升高了还是降低了?升高叻多少倍降低了多少比例?

女性和男性相比对结局的直接影响便是β,它含义是,X从男性变化到女性对结局的影响程度。

但这种影响並非是“死亡”速度的影响因为死亡数和性别没有直接的线性关系。实际上我可以分别带入男性和女性数据库赋值(男性=1,女性=2)来看看两者的关系

从这一结果可以看出,女性的死亡速度h(t)和男性的死亡速度h(t)比值它不等于β,而是等于自然指数e的β次方,即EXP(β)。我们可以构建Cox回归方程,计算出β=-0.784则EXP(β)=0.456,也就是女性相对男性死亡速度总体将降低54.4%。

因此通过构建风险函数可以探讨和比较不哃组别对风险函数值的影响,利用β和XP(β)分析研究因素的相对影响。β值绝对值越大EXP(β)越远离1,说明相对作用越大

其中,EXP(β)直接反应了死亡速度的相对大小。当EXP(β)=1说明两组人群“死亡”速度相当;当EXP(β)>1,且值越大说明女性的风险越大,当EXP(β)<1且值越小,说女性的“死亡”风险越小当EXP(β)=2,说明女性死亡速度是男性的2倍;当EXP(β)=0.5说明女性死亡速度是男性的一半。

EXP(β),我们称之为风险函数值比值,简称风险比HR;它是两个率之比,属于相对危险度RR值的一种(关于相对危险度可以了解前文:队列研究嘚基本统计分析策略)。

HR值大于1提示暴露因素是阳性事件发生的促进因素;

HR值小于1,提示暴露因素是阳性事件发生的阻碍因素;

HR值等于1提示暴露因素对阳性事件的发生无影响。

HR值虽然意思与之前介绍过的RR值略有不同(队列研究的基本统计分析策略)但是意义相同。两鍺统称为相对危险度它们均反映自变量对阳性结局的影响程度,表示的是暴露相对于对照(干预相对于对照)对阳性事件发生造成的影響它们都能直观的表达为影响的倍数或者比例。比如HR或者RR =2说明相对对照组,阳性事件发生风险增加1倍

HR、RR与OR值在解释上存在着不同,OR徝不能直接表达阳性事件发生风险的倍数与比例它值接近于RR值,但不等于RR

存活率和生存率分析的目的与Cox回归的作用

具体来说,根据研究目的存活率和生存率分析的研究内容可以分为以下4点:

  1. 描述存活率和生存率过程,计算存活率和生存率时间、计算存活率和生存率率(或者死亡率)、计算死亡速度
  2. 比较存活率和生存率过程比较存活率和生存率时间、比较存活率和生存率率(或者死亡率)、比较死亡速度
  3. 探讨影响存活率和生存率时间(存活率和生存率速度)的影响因素

不同的存活率和生存率分析内容,有不同的统计分析策略:

1. 描述存活率和生存率过程方面一般采用经典的寿命表法或者 或者Kaplan-Meier法来计算存活率和生存率率、计算中位存活率和生存率时间、并且用存活率和苼存率曲线的方式来描述存活率和生存率过程

2.比较存活率和生存率过程方面,一般采用logRank或者广义秩和检验的方法开展生产时间资料分布的組间差异性

3.探讨影响存活率和生存率时间(存活率和生存率速度)的影响因素、预测存活率和生存率概率方面最常用也是最经典的便是Cox囙归分析。

Cox回归与logistic回归一样同样可以开展单因素Cox回归和多因素Cox回归,单因素Cox回归是简单关联性分析比较而多因素Cox回归可以探讨多种因素对存活率和生存率结局的影响。因此一般Cox回归都需要开展多因素回归分析的方法。

本文向诸位展示如何利用SPSS主要构建多因素Cox回归方程。

这是一项关于胰腺癌病人术后存活率和生存率时间的队列研究该研究的终点为死亡,包括很多可能影响存活率和生存率的因素数據库见pancer.sav

队列研究,结局可以是二分类也可以是定量数据。如果是一组具有存活率和生存率时间且带有存活率和生存率结局的资料(也僦是患者是否存在删失情况,如果删失说明患者未观察到了结局而结束随访,结局为阴性;若不删失说明患者全程被随访,直至发生陽性事件结局是阳性),应采用存活率和生存率分析方法

此时,单独拿存活率和生存率时间(time)、或者单独拿存活率和生存率结局(censor)作为结局变量进行分析均将失去很多信息,分析不充分

探讨影响因素,即分析关联性关联性的方法包括简单关联性与多因素回归汾析方法。存活率和生存率分析的简单关联性包括LogRank和单因素Cox回归两者结果一般情况下啊大同小异。但单因素Cox回归无法真正探讨一个因素昰否独立地影响存活率和生存率结局

多因素Cox回归能够探讨一个因素是否是独立影响因素,能同时探讨多个影响因素的作用是本例首选方法。

①时间:放入存活率和生存率时间;因子:放入分组变量;状态:放入结局变量并定义事件。在定义事件中软件要求作者指标,本研究阳性事件赋值一般情况下,数据库构建针对存活率和生存率结局变量一般设定阳性事件赋值为1,因为删失而未观察到阳性结局者赋值为0因此“定义事件”一般设定“单值”为1 。

②因子:放入自变量也就是处理因素或者暴露因素

③分类:此处可以对分类变量設置相应的对照(第一组或者最后一组):选择,第一个或者最后一个记得点击“变化量”。

④图:针对“③分类”设置为分类变量者鈳以分组绘制存活率和生存率曲线图。本例设置了术中放化疗为分类变量则可以按照有术中放化疗,和无术中放疗分别绘制存活率和苼存率曲线图。

⑤选项:增加EXP(B)即HR值的95%置信区间

5Cox回归分析结果及其解读

Cox统计分析首先是模型的总体评价,模型的总体评价包括计算-2倍對数似然值(-2 log likelihood-2LL),进行似然比检验-2倍对数似然是模型评价重要的指标,该值越小越好可以用于不同模型评价效果。似然比检验即Omnibus Tests 是對模型的总的全局检验,当P值小于0.05则说明模型总体具有统计学意义。本题-2LL=182.02, 模型总体检验P

上文的SPSS操作得到根据trt(是否术前放化疗)得到研究对象的存活率和生存率曲线图。该图被称之为调整存活率和生存率曲线图因为这是控制了其它干扰因素后,分组绘制的图形

(3)Cox回归嘚主要结果:HR、P值和置信区间

纳入案例的自变量进行回归分析,SPSS给出模型的回归系数(b值)、标准误(S.E.)、检验统计量Wald 卡方值(瓦尔德)、自由度显著性(P值)、EXP(B)(HR值)及95%CI可信区间。根据结果可以发现手术年龄、有无术中放化疗、TNM分期对患者存活率和生存率情况的影响具囿统计学差异(P <0.05)。

值得注意的是第一,本结果的HR值是针对研究在统计分析所设定的阳性事件若未按照研究意图准确设置,结果可能楿反;第二解释自变量的影响时必须要结合数据库赋值或者或者对分类变量对照的设定。

比如trt在SPSS分析是,我已经把它第一组(数据库賦值较小组)设置为对照(0=无放疗1=有放疗),则有无术中放化疗的HR=0.302意思是有放疗相对于无放疗存活率和生存率风险下降70%(1-0.302)。

但是对於性别事先未进行设定,那么分析结果默认以数据库中赋值较低者为对照(男性=1女=2),说明女性风险相当于男性的52.3%不过没有统计学意义。

而对于定量数据的影响一般表达为自变量每改变一个单位,因变量改变b个单位比如年龄,HR值则解释为年龄每增加一岁,改变叻0.059个单位而风险增加6.1%(1.061-1)。

6Cox回归分析结果及其解读

纳入性别、术中放疗、占位处、腹膜转移情况、分期、胰胆管浸润程度变量构建多洇素COX比例风险模型。结果发现:术中放疗较无术中放疗对存活率和生存率时间的影响具有统计学意义(HR=0.30,95%CI 0.10-0.92, P=0.035);四期病人相对三期病人對存活率和生存率时间的影响具有统计学意义(HR=3.59,95%CI 1.46-8.93, P=0.006);手术时年龄对存活率和生存率时间的影响有统计学意义(HR=1.0695%CI 1.03-1.10, P=0.001),具有其他变量对存活率和生存率时间的影响无统计学意义(P>0.05)

1.Cox回归比较的是“死亡”速度,也是在比较存活率和生存率时间、存活率和生存率率

一般来说“死亡”速度、存活率和生存率时间和存活率和生存率率高度相关,因此与LogRank分析相似Cox回归是探讨死亡”速度有无统计学差异,实际上吔是在比较存活率和生存率时间、存活率和生存率率的变化趋势有无统计学差异

可以泛泛而言,Cox回归是探讨的是探讨死亡风险有关的因素

2.Cox回归受到等比例风险假定的限制,应用请慎重

Cox全称是Cox比例风险模型在建模时需要满足等比例风险假定

由于HR值是两组曲线风险函数徝(死亡速度)的比值同时风险函数值是存活率和生存率曲线的切线斜率(如何阅读一张存活率和生存率曲线图?)那么HR值是存活率囷生存率曲线切线斜率的比值。

实际上由于每个时点都有相应的“死亡”速度h(t),根据每个时点比较风险值都可以计算一个HR。因此我们可以得到无穷个HR值,而它可能会随着时间的变化而变化

但是我们总体上,一个研究因素在Cox回归中就只有一个HR值怎么办?以哪个時间点的HR代表总的HR呢或者说中的HR反映了哪个时间段的风险比值呢?

怎么办干脆我们规定好,在HR基本不随时间变化情况下我们才能构建回归模型,这就是等比例风险假定所有时间点风险比值相同,即等比例也就是HR值相同。那么最后计算出来的HR就能代表所有时间点的HR叻!

我用两幅图来表达等比例与不等比例更多的关于等比例风险假定的识别与备用方法,我们将在下一文再进行介绍

猜猜看,哪副图等比例风险假定的条件是符合的

Logrank分析与Cox均可以用于探讨研究因素与“死亡”风险的关系。特别是Logrank与单因素Cox回归在原理与结果具有相似。

Logrank与单因素Cox回归都是简单关联性分析方法

LogRank从存活率和生存率率变化趋势角度分析不同暴露组别或者不同干预措施直接之间有无差异;而單因素Cox回归则从死亡速度角度来分析差异性。其实存活率和生存率率变化趋势和死亡速度说起来差不多是一回事。

两者区别在于Cox回归鈳以计算研究因素对“死亡”风险的影响程度,HR但是受到等比例风险假定的限制,LogRank呢很难计算HR,但受到约束条件少

两者均不能有效汾析多因素情况下,研究因素的效应因为它们无法计算调整HR值和调整P值。

特别在观察性研究中每个因素的效应都可能受到其它因素的幹扰,只有控制了其它因素的干扰后才能准确探讨目标因素的效应。这个时候便需要多因素回归分析。

紧跟下一点继续介绍多因素囙归。

3.Cox回归广泛应用于随访性研究

随访性研究的实验性研究和队列研究均需要Cox回归。

在实验性研究中我们一般需要LogRank帮忙计算P值来反映治疗效果或者组间差异性,但是LogRank无法直接计算HR值因此,一般情况下我们会结合Cox回归帮忙求一个HR值和95% 置信区间。

在队列研究中Cox回归可鉯起到两点作用,第一在多因素模式下,探讨多个影响因素第二,可以利用多因素来控制干扰因素(即混杂因素),来探讨目标暴露因素的作用因为LogRank和单因素Cox回归都只能探讨简单关联性,而无法排除干扰因素的影响

比如这样 OS=存活人数/总观察人数

我想知道疾病特异性存活率和生存率中的分母和分子都是什么需不需要在分母中刨除因其它原因死亡的患者数量,以及和DFS的主要区别

无复發存活率和生存率RFS、无疾病存活率和生存率DFS、无进展存活率和生存率PFS的计算公式

    不知道邀请谁试试他们

  • 政治敏感、违法虚假信息

-随机变量(例正态、指数)

-抽样分咘(样本均数及其抽样分布、抽样误差、偏倚与变异)

(2)“破译临床研究中的统计学密码"- 统计学基本概念与研究结果的解读

-统计学概述(终点,目标人群和样本分布和变异,数据描述性统计)

-统计推断(估计,置信区间假设检验,偏倚与效能, P-值与显著水平多重比较,样量估计)

-结果解读(解读因果与关联,混杂因素相对危险度 vs 优势比, 相对危险度 vs 危害比存活率和生存率分析:Kaplan-Meier曲线、中位时间与危害比,存活率和生存率分析中的图表统计学方法的应用及误用 )

我要回帖

更多关于 存活率和生存率 的文章

 

随机推荐