本文最后更新于:2 个月前
介绍
下载TCGA数据的方法有很多,之前介绍了如何用gdc-client批量下载数据、网页下载等。基于网上有很多用TCGAbiolinks包下载数据的教程,所以也想学习一下这个方法。
TCGAbiolinks的优点在于具备一体化的下载整合,无需再使用复杂的方法对下载的单个数据重新进行整合,换句话说,就是TCGAbiolinks包下载的数据是合并了的。不需要在进行读取合并等等操作。
TCGA数据库中含有的癌症名称、简写、中文名称对照表 | 小谭的部落阁 (gitee.io))
数据下载
疾病缩写查看
可以查看所有支持的癌症种类的缩写
查看癌症种类的缩写中英文对照表参考博客[TCGA数据库中含有的癌症名称、简写、中文名称对照表](TCGA数据库中含有的癌症名称、简写、中文名称对照表 | 小谭的部落阁 (gitee.io))
癌症选择下载
请求时我们将GDCquery
函数,使用发现=GDCquery
函数一共有11个参数:
具体这些参数代表什么意思,请查看[基于TCGA数据库筛选和肾癌(KIRC亚型)差异基因(实现)](基于TCGA数据库筛选和肾癌(KIRC亚型)差异基因(实现) | 小谭的部落阁 (gitee.io))网页下载部分的信息,这些参数与网页选择是一一对应的。
设置癌症简写,请求数据结果如下
我们打开可视化列表即可发现,收到的表的每一行是一个病例,里面详细记录了病例的编号、是否同步恶性、观察时间等等信息。
列表共117个病例,每个病例有71项记录参数。
接下来我们将下载我们需要的数据,参数要求与网页下载对照即可明白
请求到的数据如下图所示,我们需要把他们全都下载下来
方法一般选择api
, files.per.chunk
指切片数量,在网络不好的情况下啊,切片数量尽量小。
这里介绍了下载信息,可以观察我们下载的数据
在这步执行完后,我们可以发现,在工作路径里多了GDCData的文件夹,其中就是我们下载解压好的文件。
接下来自然是把所有的数据合并到一个表中,所以有
温馨提示,这一步生成的表格打开和写入的话,非常消耗性能,谨慎操作
接下来进行一般的数据处理,我们简单写写就行
我们得到了如下的表格,列明为miRNA编号,行名为病例的编号,接下来就是数据分析了
数据分析
病例随身参数筛选
clinical
存着病例随身参数,是病例的详细参数,而我们不需要所有,我们筛选一下,只要其中的几项存入meta中即可。
我们就得到了normal样本25个,tumor样本66个
保存数据
使用DESeq2进行差异分析
创建tumor、normal对照表,以及创建DESeqDataSetFromMatrix
计算所有参数
去除NA
添加上下调标记
使用edgeR方法
limma方法
差异分析结果的可视化
火山图##有错误