基因组注释

一、策略

  • 从头注释(de novo prediction):通过已有的概率模型来预测基因结构,不需要利用外部的证据来鉴定基因及判断该基因的外显子-内含子结构,能够在基因数量层次预测较好,但在预测剪切位点和UTR区准确性较低
  • 同源预测(homology-based prediction):有一些基因蛋白在相近物种间的保守性高,所以可以使用已有的高质量近缘物种注释信息通过序列联配的方式确定外显子边界和剪切位点
  • 基于转录组预测(transcriptome-based prediction):通过物种的RNA-seq数据辅助注释,能够较为准确的确定剪切位点和外显子区域。

每一种方法都有自己的优缺点,所以最后需要用EvidenceModeler(EVM)和GLEAN工具进行整合,合并成完整的基因结构。基于可靠的基因结构,后续可才是功能注释,蛋白功能域注释,基因本体论注释,通路注释等。 参考:如何对基因组序列进行注释 - 简书 (jianshu.com)

二、基因组结构注释流程

  • 必要的基因组重复序列屏蔽
  • 从头寻找基因, 可用工具为: GeneMarkHMM, FGENESH, Augustus, SNAP, GlimmerHMM, Genscan
  • 同源蛋白预测, 内含子分析: GeneWise, Exonerate, GenomeThreader
  • 将EST序列,全长cDNA序列和Trinity/Cufflinks/Stringtie组装的转录组和基因组联配
  • 如果第4步用到了多个数据来源,使用PASA基于重叠情况进行联配
  • 使用EvidenceModler根据上述结果进行整合
  • 使用PASA更新EVM的一致性预测,增加UTR注释和可变剪切注释
  • 必要的人工检查

1. 重复序列的屏蔽

重复屏蔽:真核生物的基因组存在大量的重复序列,植物基因组的重复序列甚至可以高达80%。尽管重复序列对维持染色体的空间结构、基因的表达调控、遗传重组等都具有重要作用,但是却会导致BLAST的结果出现大量假阳性,增加基因结构的预测的计算压力甚至影响注释正确性。基因组中的重复按照序列特征可以分为两类:串联重复(tandem repeats)和散在重复(interspersed repeats). 参考:如何对基因组序列进行注释 - 简书 (jianshu.com)

鉴定基因组重复区域的方法有两种:一种基于文库(library)的同源(homology)方法,该文库收集了其他物种的某一种重复的一致性序列,通过相似性来鉴定重复;另一种是从头预测(de novo),将序列和自己比较或者是高频K-mer来鉴定重复。 目前重复序列注释主要软件就是RepeatMasker和RepeatModel

2. 从头预测

基于已有模型或无监督训练 目前的从头预测软件大多是基于HMM(隐马尔科夫链)和贝叶斯理论,通过已有物种的注释信息对软件进行训练,从训练结果中去推断一段基因序列中可能的结构,在这方面做的最好的工具是AUGUSTUS 它可以仅使用序列信息进行预测,也可以整合EST, cDNA, RNA-seq数据作为先验模型进行预测。

AUGUSTUS依赖于已有的模型,而GeneMark-ES/ET则是唯一一款支持无监督训练模型,之后再识别真核基因组蛋白编码区的工具。

根据已有的模型或者自训练可以正确预测很大一部分的基因,但如果需要提高预测的正确性,还需要额外的信息。在过去就需要提供物种本身的cDNA, EST,而现在更多的是基于转录组序列进行训练。尽管RNA-seq数据在基因组上的比对情况能够推测出内含子位置,根据覆盖度可以推测出外显子和非编码区的边界,但是仅仅依赖于RNA-seq的覆盖不能可信地推测出蛋白编码区(Hoff K.J. Stanke M. 2015).

AUGUSTUS可以利用转录组比对数据中的位置信息来训练模型,GeneMark-ET可以利用RNA-seq得到的内含子位点信息自我训练HMM参数,进行基因预测。BRAKER2将两者进行整合,使用GeneMark-ET根据RNA-seq无监督训练模型寻找基因,然后用AUGUSTUS进行模型训练,最后完成基因预测

3. 同源预测

目前使用率没有从头预测的策略高。但是在以前,RNA-seq没有普及的时候,只有少部分物种有EST和cDNA序列,使用同源预测的确是一个不错的选择 目前进行同源预测的工具是基于TBLASTn + GeneWise完成 GeneWise:主要用于将蛋白质序列和DNA序列进行比对,从而对DNA序列上的编码区进行预测

4. 转录本数据预测

有两种策略 - 一种是使用HISAT2 + StringTie先比对再组装, - 一种是从头组装,然后使用PASA将转录本比对到基因组上

基于HISAT2 + StringTie: 使用HISAT2将目标序列比对到参考基因组上; 再使用StringTie进行转录本预测

基于PASA: 使用Trinity进行从头组装; 再使用PASA将组装好的序列比对到参考基因组上

三、基因组功能注释流程

主要包括:预测基因中的功能域、功能分类以及所在的生物学通路 ## 1. 基于已知基因和功能域数据 ### (1)利用NR、Uniprot/Swiss-prot数据库进行注释 基因功能的注释依赖于上一步的基因结构预测,根据预测结果从基因组上提取翻译后的 蛋白序列 和主流的数据库进行比对,完成功能注释。常用数据库一共有以几种:

  • Nr:NCBI官方非冗余蛋白数据库,包括PDB, Swiss-Prot, PIR, PRF; 如果要用DNA序列,就是nt库
  • Pfam: 蛋白结构域注释的分类系统
  • Swiss-Prot: 高质量的蛋白数据库,蛋白序列得到实验的验证
  • KEGG: 代谢通路注释数据库
  • GO: 基因本体论注释数据库

注意:数据库本身不具有注释的功能,只是你使用blastp进行序列相似性搜索后,返回的结果被认为是注释信息 参考:如何对基因组序列进行注释 - 简书 (jianshu.com)

(2)利用InterPro功能域数据库进行注释

参考xuzhougeng学长的表述

  • InterPro注释
  • Pfam数据库注释(可以通过hmmscan搜索pfam数据库完成)
  • GO注释(可以基于NR和Pfam等数据库,然后BLAST2GO完成,)
  • Reactome通路注释,不同于KEGG

补充:整合了PROSITE Pfam PRINTS SMART TIGRFAMs等功能数据库和一些其他的数据库(PIRSF SUPERFAMILY CATH-Gene3D) 在线版为InterProscan,仅支持单条序列查询 ## 2. 基于功能分类和代谢途径 ### (1)利用GO定义基因功能 GO(Gene Ontology)将功能分为三类:细胞组分(cell component)、分子功能(molecular function)、生物学过程(biological process)

直接从上述的InterProscan中获取,再通过WEGO进行统计和可视化,也可使用AgriGO进行后续的GO分析

(2)利用KEGG等数据库生物学代谢通路信息

常使用KASS,获得KO(KEGG Orthology)代号、KEGG代谢通路及各个代谢通路对应的图谱


四、重复序列的注释流程

在第一步基因组结构注释中,将重复序列给屏蔽,但在重复序列中存在一类分散重复序列,该分散重复大部分是转座元件

转座元件:转座元件(TE)可以在宿主基因组上自主移动的DNA序列。它们的长度通常在100bp-10000bp之间。和病毒类似,TE也是非常错综复杂并且自私的元件。TE通常能够编码具有多种生化功能的蛋白,或者还含有非编码的调控序列,这些蛋白和调控序列对TE的转座有非常重要的作用。

因此对重复序列中转座元件的注释也十分重要

转座元件的鉴定方法: 1. 基于相似性,通过比对输入序列与已知TE的相似性,对输入序列进行TE识别 2. 从头开始,依据基因组序列内部自身重复性,重构出转座元件的祖先序列

各自的优缺点: 相似性的方法有先验知识,更有可能发现真正的TE家族,但无法检验分化程度很大,亲缘关系较远的TE家族; 从头预测的方法比较适合新测序的基因组,对于未知TE的预测很重要。

重复序列具体注释流程: - 对于新测序的基因组: - 使用de novo软件预测: - ReAS,基于Sanger测序片段,重构更为古老的复杂序列的祖先序列 - PILER、RepeatScout,以基于已拼接的基因组序列预测TE - LTR_FINDER,预测LTR反转座子 - 初步筛选出TE后,需要过滤掉污染和冗余 - 对构建的基因组TEs库进行分类识别 - 与Swiss-Prot数据库进行BLASTn比对,高匹配得分->假基因或重复基因,向下输出低匹配得分 - 与Repbase数据库进行BLASTn比对,将高匹配得分->识别出的de novo TE - 与TE蛋白质数据库进行BLASTx比对,高匹配得分->识别出的de novo TE - 与Repbase TE数据库进行tBLASTx比对,高匹配得分->识别出的de novo TE - 转座元件注释 - DNA水平上,使用RepeatMasker将识别出的de novo TE与Repbase数据库(动物)、TIGR(植物)进行比对注释 - 蛋白质水平,则使用RepeatProteinMasker子程序

五、假基因的注释流程

假基因 定义:基因组中与真基因序列相似但缺乏功能的DNA序列。按照形成机制的不同,假基因可以分为非加工假基因和加工假基因。非加工假基因又称为复制型假基因,是通过基因组DNA复制或不平衡交换形成的,多位于其同源功能基因附近;加工假基因又称反转座假基因,是成熟的mRNA反转录形成的cDNA,然后整合到基因组中。加工假基因因为缺少内含子,两末端有短的定向重复序列,3'端有多聚腺嘌呤尾,而被视为一种特殊的反转录转座子。

假基因的注释流程 - 获得去除重复序列的基因组序列和蛋白质序列 - 利用BLAST在基因组序列中搜索与蛋白质相似的序列,去除与已知基因高度重叠的序列 - 去除冗余和重叠的BLAST匹配片段 - 合并相邻序列 - 确定假基因的母基因重新进行比对 - 对剩余的序列利用FASTA与基因组序列重新进行比对 - 与以前通过实验获得的已知假基因合并 - 根据两种假基因的特征对假基因进行筛选和分类(与编码蛋白质的序列高度相似、PloyA尾巴等)


基因组注释
https://bacontesla.github.io/blog/7-基因组注释/
作者
Bacon Tesla
发布于
2023年8月30日
许可协议