转录组学
定义: - 狭义上:转录组即特定环境下一个细胞或一群细胞的基因组转录出来的所有mRNA的总和; - 广义上:转录组是特定组织或细胞在某一发育阶段或功能状态下的转录出来的所有RNA的总和,主要包括mRNA和非编码RNA(ncRNA)
一、非编码RNA数据分析
1. miRNA
(1)miRNA的主要特征
参考:中国科技大学章张教授的基因组学第9章RNA与转录组_哔哩哔哩_bilibili
(2)miRNA的计算识别
- 同源比对,通过保守miRNA在不同物种间的序列相似性,进行同源序列搜索预测
- 邻近茎环结构搜索,通过对已知miRNA附近区域进行茎环结构预测来发现成簇存在的miRNA
- 基于比较基因组学的算法,根据物种之间的亲缘关系来确定基因组上的共线性,从而查找物种之间的保守miRNA
- 基于高通量miRNA测序数据的挖掘方法 ,对一个物种的miRNA进行从头预测
2. LncRNA
(1)LncRNA的主要特征

(2)LncRNA的鉴定方法和功能预测
鉴定: - 获取链特异性RNA数据 - 通过fastQC进行数据质控 - 使用TopHat、HISAT进行读段比对,使用Stringtie、Cufflink进行转录本拼接,获取具有正负链信息的总转录本 - LncRNA采取一定的过滤手段: - 与已注释基因无重叠 - 有单个外显子的转录本,与已知基因不能靠太近 - 转录本长度\(\ge 200nt\) - 表达量FPKM\(\ge 0.5\) - 翻译潜能CPC score\(\le 0\) - 不具有已知功能域(从Pfam中查询) - 过滤获得LncRNA
功能预测: 1. lncRNA与RNA分子互作预测 1. lncRNA作为miRNA的诱捕靶标 2. lncRNA与其他RNA分子互作预测,计算RNA分子之间碱基配对时的结合能 2. lncRNA与蛋白质分子互作预测:机器学习方法(Fisher线性判别关系、支持向量模型和随机森林) 3. lncRNA功能注释平台:AnnoLnc,通过提交序列,选择物种即可预测LncRNA结构、表达、功能、进化
二、编码mRNA数据分析
RNA-seq与基因芯片的优缺点;RNA-seq转录组分析流程等,已经在考研资料中p54中做较为详细的阐述。 下面介绍在RNA-seq功能分析中,差异表达
RNA-seq的应用: - 检测在特定情况下所有基因的表达量(如发育阶段、不同的组织、正常 vs 患病、药物处理、基因扰动) - 找到新基因或转录本 - 建模可变剪接 - 发现基因突变或基因融合(translocation染色体易位导致) - 无需知道基因组序列或被预测的基因 - 通过数字来代表基因的表达量 - 有很好的检测范围,对于低表达和高表达水平相差5个数量级\(>10^{5}\)
1. RNA 质量检测 通过跑胶来测定所获得的RNA分子量,最常用的指标是DV200(指RNA长度>200nt)。一般情况下DV200>30%认为RNA质量较高,基本上是全长RNA 2. 实验设计 - 去除核糖体RNA,因为冗余的r/tRNA占总RNA大多数,都是RNA-seq所不需要的 - PloyA尾巴识别,PloyA适合用于鉴定经过剪接的mRNA,也正是实验所关注的 - 链特异性识别方向性RNA,对于新LncRNA的鉴定很有用 - 评估所需要的生物学重复 - 1个实验组和对照组,可以作为是探索性实验,但不适合发表文献 - \(\ge 2\) 对于细胞系样本来说是OK的,因为细胞系样本都是单克隆出来的样本,差异性不算很大 - \(\ge 3\) 就适合动物样本,因为动物样本间的差异性就很大了,需要较多的生物学重复 - 对于人类那就需要更多的生物学重复样本了
3. RNA-seq 测序方案的设置 RNA-seq 的测序方案主要关注测序深度和测序读长 1)测序深度要多深? 测序读长至少要有 15X 的测序深度 人类编码区总长:\(3Gb\times 3\%=0.1Gb\) 或 \(3kb\times 30K=0.1Gb\) RNA-seq 所需要的 15X 能用的碱基数为 \(0.1Gb\times 15=1.5Gb\) 由于只有 70%的 clean reads 可以匹配到基因组上,RNA-seq 的总测序碱基为 \(1.5Gb/70\%=2.14Gb\) 假设 reads 的平均长度为 50bp,则需要的 reads 数为 \(2.14Gb/50bp=42.8Mb\)
clean reads:1)去掉接头 adaptor;2)去除 N 的比例>10%的 reads;3)去除低质量 reads(质量值 Q<5 的碱基数占整个 read 50%以上)
2)测序读长要多长? 测序读长的设置,有 3 种情况 1. 研究基因表达水平或鉴定差异表达基因:无需确定整个基因的全长序列,只需要有 read 准确定位到某个基因上即可,这样 read 不需要很长,对于酵母菌而言设置 20 bp 即可,对于人类设置 100 bp 即可 2. 研究可变剪切:跨越多个剪切位点或外显子的 read 越多越好,即读长越长越好。如某一基因由于可变剪切存在多个转录本,跨越剪切位点的 read 可以归为特定的转录本 3. denovo 拼接:为防止来自不同基因的高度相似的序列错误的组装到一个转录本上,需要 reads 越长越好
RPKM、FPKM 和 TPM
RPKM的全称为Reads Per Kilobase Million,中文翻译就是每千个碱基的转录每百万映射读取的reads数。 计算公式: \[ RPKM=\frac{落在该基因上的总reads数}{\frac{样本中所有的reads数}{1000000} \times \frac{该基因的长度}{1000}} \] 计算顺序是:先对reads的测序深度均一化,再对基因长度均一化
FPKM和RPKM类似,只不过FPKM把reads换成了fragment,即把读序换成了片段。 - 在单端测序中,读序就是片段,所以RPKM和FPKM一致; - 在双端测序中,一个DNA片段对应两条读序,此时FPKM就更合适了,一条fragment的两条reads不会被统计2次。
TPM:每百万条reads的转录本。 计算公式: \[ \begin{array}{l} A=\frac{该基因上的reads数}{该基因的长度}\\ TPM=A\times \frac{1}{\sum A}\times 10^{6} \end{array} \] 计算顺序是:先对基因长度均一化,再对reads的测序深度均一化
可见,当我们把每个样本的各个基因的RPKM、TPM求和发现:每个样本的\(\sum\limits RPKM\)不相等,但是每个样本的\(\sum\limits TPM\)相等。 这也说明了RPKM和FPKM是无法比较同一基因在样本间的差异,(总的大小都不一致,更别谈单个基因比较);但TPM是可以比较同一基因在样本间的差异(总大小一致)
参考:StatQuest学习笔记24——RPKM FPKM TPM - 简书 (jianshu.com) & RPKM, FPKM and TPM, Clearly Explained!!! - YouTube
多重假设检验
在RNA-seq中鉴定差异表达基因,会存在多重假设检验问题。对于一次检验认为假阳性的概率为0.05,但经过10000次假设检验后,可能会得到500个假阳性。 在多重假设检验中,主要有两种检验方法: 1. Bonferroni 校正,就是将每次得到的 p 值除以总的检验次数。 这样的校正很严格,拒绝的不仅是假阳性,一些真阳性也会被拒绝 2. Benjamini-Hochberg,BH 校正。其就是将假阳性与真阳性之间的比例控制在一定范围内 使用q-value来代替原始的p-value \[q=p\times \frac{m}{k}\] 计算方法首先要把p值进行从小到大排序,m表示p值总数,k表示当前p值所处位置。 校正之后的q值会比原来的p值大,且当q值大于p值中的最大值时还需要将该q值设置为最大的p值
参考:[统计] 多重假设检验:Bonferroni 和 FDR
可变剪接识别
来源: - 大部分基因含有内含子,在编码的过程中,内含子的信息不需要传递给蛋白质。在转录完成后形成的初始 mRNA 后,所有的内含子都切掉,这是一种正常的剪接方式,即组成型剪接 (constitutive splicing)。 - 可变剪接 (alternative splicing) 跟它有一定区别,例如在正常情况下,三个外显子在一起;如果发生了可变剪接,由于某些原因中间的外显子被跳过,形成的 mRNA 不一样,这种序列的不一样可能使蛋白质中间少了一段,或者中间的外显子不是 3 的倍数的话,那么它会使得后面的蛋白质完全不一样了,改变了蛋白质的组成。
可变剪接的类型按复杂可分为8中,简单可分为5种 1. 外显子跳跃(exon
skipping),中间的外显子被跳过 2. 内含子保留(intron
retention),外显子之间的内含子被保留 3.
5'端可变剪接(A5SS),剪接时3'端剪接位点相同,但是在5'端剪接位点不同 4.
3'端可变剪接(A3SS),剪接时5'端剪接位点相同,但是在3'端剪接位点不同 5.
外显子排除(MEE),采取不同的外显子组合方式,可以是124或134 6.
额外,第一外显子可变剪接(AFE),基因的第一个外显子被跳过,使得前一基因的外显子可以和随后的基因剪接在一起
7.
额外,最末外显子可变剪接(ALE),基因的最后一个外显子被跳过,使得先前的外显子可以个下一个基因的外显子剪接在一起
RNA-seq可变剪切一般分析过程: - 比对软件:hisat2、 star、 tophat AS识别软件: - 依赖已有的gtf文件,Asprofile、rmats、cash,不依赖的有leafcutter AS差异分析: - 定量再进行差异表达分析 - 推荐软件:cash/rMATS 参考:RNA-seq 可变剪切 - 简书 (jianshu.com)
基因融合
基因融合一共有5种类型 1. 染色体间的易位融合:融合的基因位于不同的染色体 2. 染色体间的复杂重拍融合:两个在不同染色体上的基因融合后,第三个基因随之被激活 3. 染色体内的缺失融合:在一个缺失片段两侧的基因融合 4. 染色体内的复杂重排融合:同一染色体多个区域进行基因融合 5. 嵌合体融合:由相邻的基因形成转录本嵌合体
融合基因的鉴定: 使用一些能够鉴定融合基因的比对软件(如TopHat-Fusion)将RNAseq序列比对到参考基因组上,然后通过BLAST将比对的结果与对应的基因组注释文件进行比对,找到融合基因位点。
GO 基因本体论
1. 什么是本体论,有哪些公开的生物医药本体论? 本体论的定义:在所研究概念的领域中,使用统一的术语来定义各个实体的类型、特点以及实体之间的关系
2. 什么是基因本体论GO,GO由哪三种类型组成? GO的定义:按照严格的生物学背景、采取统一的术语结构注释基因及其产物的数据库,包含几千个术语。 GO分为三大类型:细胞组分(Cell Component,CC)、分子功能(Moluecular Function,MF)、生物学过程(Biological Process,BP)
3. GO的结构以及GO中的关系 GO的结构是包含三个分支的树,每一个分支是一副有向无环图(DAG),含有大量的节点和分支。越高层的节点代表的意义越广泛,越低层的节点代表的意义越具体。 GO主要用两种方式进行存储 - OBO file - 由[term]为一个术语的开始 - 然后是GO的ID——名称name——属于哪一种分支namespace——定义def——同义词synonym——与其他term的关系 - 最后以空行结尾 - XML file:类似于HTML语言的结构
GO中的关系,主要有 -
A is a B
:代表A属于B的子类型,如有丝分裂周期is a
细胞周期
-
A part of B
:代表A是B的一部分,如线粒体内膜part of
线粒体
-
A regulates B
:代表A调节B,有两种分别是positive regulates
和negative regulates
:代表正调节和负调节
对于关系之间的推断
is a
和part of
合并,结果仍然是part of
is a
或part of
与regulates
合并,则结果仍然是regulates
小技巧:is a
< part of
<
regulates
KEGG 代谢通路
KEGG 全称为 Kyoto Encyclopedia of Genes and Genomes (京都基因与基因组百科全书)是关于基因、蛋白质、生化反应及代谢通路的综合生物信息学数据库。
在存储内容上,KEGG 一共有 19 个子库,分类系统信息、基因组信息和化学信息三类 - 基因组信息存储在 KEGG GENES 数据库中,包含完整和部分测序的基因组序列 - KEGG PATHWAY 数据库存储图解的细胞生化过程如代谢、膜转运、信号传递、细胞周期和同系保守的子通路信息。 - KEGG BRITE 数据库存储包含多个生物学对象的基于功能进行等级划分的本体论数据库,包括分子、细胞、物种、疾病、药物以及他们之间的关系。 - KEGG DRUG 存储日本所有非处方药和美国大部分处方药 - KEGG DISEASE 存储疾病基因、通路、药物以及疾病诊断标记