之前咱们在介绍TCGA筛到候选分子该如何往下做、介绍Oncomine的使用时,曾经提到过基础研究的数据构成,理想情况下应该包括四个维度,即分子、细胞、动物、组织(临床样本)。

从数据库或前期的高通量筛选课题中找到一些有潜力的候选分子后,需要在临床样本中看看它跟生存、预后的相关性,进一步确认它的研究价值。我们的单元课02就是来解决这个问题,怎么分析某个分子和临床的相关性。

你要问了,标题说的批量发SCI是什么鬼?

再回顾一下《TCGA筛到了基因,如何继续往下做?》这一节,酸菜提到过此类研究的风险,有可能你拿到的候选分子做下来是没有表型的,这种风险还蛮常见。所以通常不会只选一个分子,而是有3-5个备胎。

这些备胎里有一个验证成功了,那就保本了;成了2个就赚一个,成了3个就是3篇SCI了。没错,一个分子发一篇。

只做临床相关性的话,发1-2分是意料之中的。如果想冲上3-5分,可做亚组分析增加层次感,也给文章的讨论部分带来一些更深入讨论的空间。但再想往上就难了,需要增加其他的实验了。

有一点需要注意的是,本节课讲的是基础研究中,某分子与临床指标相关性的分析。它和临床研究中的病例对照研究、诊断性研究有相似的地方。

区别在于,此处观察的暴露因素是一个新型的待深入阐释作用机制的分子,离临床应用还有很远;而且在数据的处理上,也没有临床研究这么多严格的规范,酸菜总结了四个字:不太严谨。

不过也不代表可以胡来,该有的规矩还是有的。只是说如果你已经学习过临床研究的统计方法,今天的内容可能对你来说应该很Easy。如果啥都没学过,这便是很好的一个入门课。

仍然是五道题带路,今天用的是SPSS 23。来嘞~

第一题基线表的制作

小明想研究某基因(代号ABC)的表达与患者肿瘤恶性程度的相关性,于是回顾性收集了80例患者的信息和肿瘤样品的石蜡切片,通过免疫组化检测了ABC在肿瘤组织中的表达,数据见Excel“基线资料数据-作业”,请你帮忙做基线数据表:

基线数据表:

1) 年龄可按55岁为界线分组

2) 病程可按5年为界线分组

3) ABC的表达(即“ABC(IHCScore)”),可按0至2=低表达,3至4=高表达

基线表是要对纳入研究的患者的一些特征做总结,也就是简单的描述性统计。其中包括人口学特征,以及跟所研究的疾病相关的一些临床信息,包括你考虑到的所有潜在的混杂因素。

先看看示例数据,80例去身份识别的临床资料保存在Excel表中。我就截取前10例展示一下。

先判断数据类型,不同的数据类型在基线表中会有不同的参数来表示。分类变量(如性别、年龄、是否肥胖等)通常用“例数(百分比)”的形式;而连续变量要看是否符合正态分布,符合就用“平均值±标准差”,不符合就用“中位数(1/4-3/4分位数)”。

主要提醒注意一些容易不小心弄错的数据类型,比如T分期,1~4看起来是数字,其实是等级变量,分类变量的一种,也可以写成T1~T4,所以也是用“例数(百分比)”去描述的。同理,Treatment那里1~3也只是3种处理方法的代号,实际工作中你应该是写处理名称比如“手术”啥的。

还有年龄、病程和基因表达值,原来是数值型变量,但题目要求按照55岁为界分成两组,其实也就变成了二分类变量。

那么除去随访时间(这个不做基线,而是将来做生存分析时才会用到),剩下的全都是分类型变量,这样统计起来就很简单了。

先要做些文字转换,因为到后边做回归分析的时候,对表格中的文字不能正确处理,所以要将文字转换成数字,比如性别一列中, “男”→“1”、“女”→“0”,肥胖一列中,“是”→“1”、“否”→“0”等等,用Ctrl+H批量替换就好。然后在SPSS中再赋值(见下文)。

接下来就是转换年龄、病程和ABC(IHCScore)的数据类型。就演示下年龄,在表格后边新建一例,命名为“年龄分组”。

然后点工具栏上的筛选,表头右下角就会出现下拉框的箭头。上边的表是已经点好筛选的,所以你早就看到那个小箭头了。

然后点击“年龄(岁)”数据那列的小箭头→数字筛选→大于:

然后就筛选出了55岁以上的样本,在“年龄”一列填上“0”:

然后用同样的办法做好≤55岁组,填上“1”。同样处理好其他需要分组的数据。接下来在SPSS中打开Excel表:

接下来的弹窗主要提醒确认勾选上“从第一行数据中读取变量名”,其他的默认就好。或者再在工作表那里检查一下是否覆盖了Excel表中的所有数据。

对照了一下Excel表,显然N84是不对的,应该是N81,说明多出来的单元格可能操作时不小心输入了空格之类肉眼看不见的字符,要清除,否则统计时会出错的。你也可以在范围里填上“A1:N81”来排除那些冗余数据。

打开之后可大致查看SPSS中的表格。然后在下方点变量视图。

在变量视图中可查看并修改每个变量的类型、小数点位数等等。就先按刚才说的变量类型修改好。测量那列,名义表示无序的分类变量,有序就是有序的分类变量,即等级变量,标度为连续数值变量。

然后就做刚才说过的赋值。在转换过数字的那个变量的“值”那一格点一下,弹窗中填好各数字对应的值,比如刚才转过的性别中,“女”为0,“男”为“1”,那就是这样:

接下来做频率统计。菜单栏上找“分析→描述统计→频率”,然后把左边需要统计频率的变量选到右边来,点确定。

运行好之后会得到每个变量的频率表:

然后在Excel里就新建一个表格,把各种变量及分组做为第一列,第二列填上“例数(百分比)”就好了。

第二题单因素分析

小明想研究某基因(代号ABC)的表达与患者肿瘤恶性程度的相关性,于是回顾性收集了80例患者的信息和肿瘤样品的石蜡切片,通过免疫组化检测了ABC在肿瘤组织中的表达,数据见Excel“基线资料数据-作业”,请你帮忙进行以下分析:

单因素分析ABC的表达是否跟表中的因素相关,年龄、ABC的表达分组同第一题,即:

这里是分类变量之间的相关性分析,可以用卡方检验。“分析→描述统计→交叉表”,然后把基因表达值做为交叉表的列,其他因素为行。点开“统计”选卡方。

于是得到每个变量和ABC表达值的关系,比如性别:

上方是一个交叉频数表,下方的卡方检验表则是基因表达值和性别的相关性。它提供了多种检验方法的显著性,一般样本量>40且事件频数不为0时,选皮尔逊卡方;样本量<40且事件频数有可能为0时,选费希尔精确检验。

所以此处选皮尔逊的0.34为P值。看完所有因素和基因表达的相关性分析后,将频数、P值整理成如下表格:

第三题多因素Logistic回归

多因素Logist回归分析ABC的表达是否是肿瘤发生转移的独立风险因素。

肿瘤转移与否是作为结局,它个二分类变量,所以选择二元Logistic回归。如果结局是多元分类变量,比如好、中、差,则选择多元Logistic回归。

分析→回归→二元Logistic回归。然后因变量选择转移,把其他潜在的影响因素选作协变量。虽然年龄、病程、ABC表达我们刚才做了分组,但这里最好是选择原始的连续值数据。

然后在右边“选项”中勾选上“Exp(B)的置信区间”

在结果中找到最后一张表,我们需要的主要是后面三个,显著性、Exp(B)(即OR)及其95%置信区间。当然也可以看看相关系数B,是正相关还是负相关。然后自己整理到Excel表里吧。

显然治疗方法和肥胖都是p < 0.05,ABC表达倒不是。所以ABC不是肿瘤转移的独立风险因素。

第四题单因素Cox回归

单因素Cox回归分析各个因素与患者生存的关系。

Cox回归是生存分析的一种。菜单栏中“分析→生存分析→Cox回归”。然后在把随访时间选到“时间”变量中,“状态”则是生存状态,把要分析的单变量放到“协变量”中,这里先做性别。

然后定义事件,选择单值,填“1”,即咱们的数据表中用“1”表示发生了结局事件(死亡)。还要像上边Logistic一样在选项中选上95% CI。

在输出的结果中,同样找到刚才的那几个值,Exp(B)就是Hazard Ratio。

用同样的方法做好其他因素的分析,然后整理成Excel表的汇总结果。

可以看到在单因素Cox分析中,跟生存有显著相关的几个因素是治疗、病理分化、转移和ABC基因表达。

第五题多因素Cox回归

多因素Cox回归分析各个因素与患者生存的关系。

这和上边的操作差不多,区别就在于,多因素是把所有要分析的因素同时放到“协变量”中。就选择单因素Cox回归中得到有显著性差异的那四个。最后就得到一张汇集各因素结果的表。

最后把单因素和多因素Cox回归的结果整合到一张表中。

收摊。

这回SPSS的内容比较多,加上Excel的操作还比较琐碎,没法一下子展示完,所以最后照规矩我是要安利单元课的。

单元课02 《临床相关性经典统计分析》课件里面还藏了一些GraphPad Prism的箱线图展示、Word里三线表的制作等等。大家在解螺旋公众号下输入咒语“单元课02”即可下载。

太多了太多了,搞得我心生惭愧,好了,SPSS基础班的可以下课了,R语言搞事班的请继续看第二条,麦子首次原声讲解用R语言做作业。