序列特征分析

一、DNA序列特征分析

DNA分子携带两类遗传信息: - 第一类信息存储于具有功能活性的DNA序列中,能够通过转录过程形成RNA - 第二类信息属于调控信息,主要存在于特定DNA区域,能够被各种起调控作用的蛋白质或其他分子特异性识别结合,完成各种生物学过程。

1.DNA序列基本信息

(1)DNA序列组分分析

DNA的碱基组成有两种方法表示 1. 碱基比例:一条DNA序列中4种碱基所占的比例 2. GC含量:GC含量是一个基因组中或DNA分子中,鸟嘌呤和胞嘧啶所占的比例。在DNA分子中由于(A/T)和(C/G)的比值都是1,但(A+T)/(G+C)之比随DNA的不同而变化,即不同生物的基因组或不同的DNA片段具有特定的GC含量。由于GC碱基结合形成3个氢键比AT形成2个氢键要稳定,因此常用GC含量来衡量DNA的稳定性。GC含量与物种的密码子使用频率有关,还与DNA分子的溶解温度有关,是进行核酸杂交反应的重要参数

(2)序列转换

定义:DNA序列具有双链性、双链互补性及开放阅读框在两条序列上存在等特性,因此进行序列分析时需要针对DNA序列进行各种转换,如反向序列、互补序列、互补反向序列、显示DNA双链、转换为RNA序列

(3)限制性核酸内切酶位点

限制性核酸内切酶 定义:通过识别 DNA 分子上的特征序列,并在特定位点或其周围水解产生双链 DNA 分子。限制性核酸内切酶切割形式有两种,分别产生具有突出单股 DNA 的黏性末端或无突起的平滑末端。不同的限制性内切酶识别的位点不同,但一般都是 4~8 个碱基,且多数为回文对称结构。在生物信息学领域的 REBASE 收录各种内切酶信息以及分析工具 NEBCutter2

2.DNA 序列特征信息

(1)开放阅读框识别

开放阅读框,即 Open Read Frame 定义:从序列 5‘端的一个起始密码子(ATG)到 3‘端的终止密码子(TTA、TAG、TGA)之间的片段。每个序列都有 6 种开放阅读框,其中 3 个起始于第 1,2,3 碱基位点并沿着给定序列的 5‘->3‘的方向延伸,而另外三个则始于第 1,2,3 个碱基位点但沿着互补序列的 5‘->3’的方向延伸。通常情况下选择长度最长的 ORF 作为编码蛋白质的序列。

在真核生物中,由于内含子的存在,ORF 被分割为若干个小片段,并且其长度变化范围特别大,因此相比于原核生物 ORF 的识别要更加困难。但真核生物外显子和内含子的连接区域符合 GT-AG 规则,因此借助此规则有助于识别真核生物 ORF。生物信息学领域常用 NCBI 的 ORF Finder 来识别原核生物的 ORF。

(2)密码子偏好性

定义:密码子偏好性也称 codon usage bias。是指生物体中编码同一种氨基酸的同义密码子非均匀使用的现象。在一个物种或一个基因中,同一种氨基酸往往倾向于使用一种或几种特定的同义密码子,而较少使用或不使用其他同义密码子。密码子偏好性的产生与诸多因素相关,如基因的表达水平、翻译起始效应、基因的碱基组分、GC 含量、tRNA 的丰度等。对于密码子偏好性的分析有 3 种方法,分别是密码子使用的相对频率 RSCU、密码子适用指数 CAT 以及有效密码子数。

密码子使用的相对频率relative synonymous codon usage 定义:指一个或一组蛋白质编码基因序列中某个特定密码子的使用频率与对应的氨基酸的所有同义密码子的平均使用频率的比值。由于它表征了一个氨基酸的同义密码子频率的比值,因此排除了氨基酸组成对密码子使用的影响。如果一个密码子在序列分析中没有偏好性,则 RSCU 的值为 1,如果使用频率相对较高则 RSCU 的大于 1。

密码子适应指数codon adaption index 定义:表征一个基因序列中密码子的使用与一组具有高表达水平的蛋白质编码基因序列中同义密码子的使用模式的相似程度。该指数基于为保证 mRNA 在翻译上的效率和精度,细胞中丰度最大的 tRNA 总是被优先选择,与此对应在自然选择中高表达基因的序列也倾向于选择与这些 tRNA 相应的同义密码子。如果一个基因的 CAI 等于 1,则表示该基因的密码子全部选择了高表达基因集中频率最大的同义密码子。一个基因的 CAI 越接近 1 则表示其序列的密码子使用偏好性越接近参考基因集,反之则背离参考基因集。表达水平越相近的基因,其 CAI 也相近,因此这个指数可以用来预测基因的表达水平。

有效密码子数effective number of codon 定义:直接测量某个基因的密码子偏好程度,如果一个基因平均使用每一个密码子,则 Nc 为 61,如果只使用每组同义密码子中的一个,则 Nc 为 20。

基因组结构信息

(1)重复序列分析

定义:重复序列是指真核生物基因组中重复出现的核苷酸序列。重复序列按照其组织形式可以分为两大类,即串联重复序列和散在重复序列。前一种成簇存在于染色体的特定区域,后一种分散在染色体的各个位点上。 根据序列重复次数可分为三大类: - 低重复序列,在整个基因组中只含有 2~10 个拷贝,如酵母 tRNA 基因、人和小鼠的珠蛋白基因 - 中度重复序列:重复次数在几十次到几千次,重复单元的平均长度约 300 bp,如 rRNA 个 tRNA 基因 - 高度重复序列:重复几百万次,一般是少于 10 bp 的短片段,如异染色质上的卫星 DNA


二、蛋白质序列特征信息

(1)蛋白质理化性质分析工具

ProtParam 是 ExPASy 的一种分析蛋白质基本物理化学性质参数计算的工具。用户输入一条蛋白质的序列,便可以得到一些列蛋白质的理化性质,如残基数、分子质量、等电点、氨基酸组成、消光系数、半衰期、不稳定系数等

ProtScale,是 ExPASy 的一种分析氨基酸亲/疏水性分析工具。该程序收集氨基酸的 50 余种性质参数,可用于对蛋白质的亲疏水性及二级结构形态等特征进行分析。ProtScale 使用 Kyte&Doolittle 疏水性标度,氨基酸打分大于 0 表示疏水性、小于 0 表示亲水性

(2)蛋白质的跨膜区分析

TMpred 是 EMBnet 开发的可以分析蛋白质跨膜区的在线工具。TMpred 是基于 TMbase 数据库的统计分析来预测蛋白质跨膜区和跨膜方向。TMbase 来源于 Swiss-Prot 库,并包含每个序列的一些附加信息,如:跨膜结构区域的数量、跨膜结构域的位置及其侧翼序列的情况。Tmpred 利用这些信息并与若干加权矩阵结合来进行预测。 使用: 输入:蛋白质序列+指定采用的跨膜螺旋疏水区的最小长度和最大长度 输出:可能的跨膜螺旋区、相关性列表、建议的跨膜拓扑模型以及结果的图形显示。

(3)蛋白质的信号肽分析

SignalP,是丹麦技术大学的生物序列分析中心 CBS 所开发的信号太在线预测工具,运用神经网络方法,预测多种生物体的氨基酸序列信号肽剪切位点的有无及出现位置。SignalP 的预测结果含有 3 个分值,C 值、S 值和 Y 值。 - S 值用于预测提交序列中的信号肽剪切位点,即成熟蛋白和信号肽的分界点,具有高 S 值的氨基酸将被看做是信号肽,低 S 值则被视为成熟蛋白质部分。 - C 值代表信号肽剪切位点的得分,高 C 值位点标志信号肽剪切位点的位置 - Y 值是综合 C 值和 S 值后的分值,可以明确显示那个位点具有高 C 值又同时是 S 分值由高转低的位置 - D 值是 mean S 值和最大 Y 值的平均值,该值是区分预测序列是否是信号肽序列的重要指标。

RNA序列和结构特征

RNA的序列特征

RNA分子一般为单链长分子,不会形成类似于DNA的双螺旋结构。RNA分子内部会有单链自折叠现象,使序列内部的碱基可以配对,从而形成多种多样的结构。由于RNA用尿嘧啶替代了DNA中的胸腺嘧啶,使得RNA比DNA更具有柔性,结构上也会更加多变。

RNA的结构特征

RNA可分为四级结构 - 一级结构:RNA序列的核苷酸排列顺序 - 二级序列:RNA序列通过单链自折叠和序列内部的碱基配对,形成由一种到多种特定形状的二级结构元件组合形成的平面结构 - 三级结构:由各二级结构元件之间的相互作用,在空间形成稳定的三维构象 - 四级结构:RNA分子与其他生物大分子结合而形成的复杂空间结构。

RNA的二级结构特征: 很多同源的RNA有着相同或相似的二级结构或三级结构,但是在一级结构上却很少有特别相似的序列片段。例如16sRNA,要保持原来结构的碱基互补保持不变,即使对序列进行很大程度上的突变,对于其功能也往往没有太大影响。因此要确定RNA的功能,要分析RNA的二级结构保守性,而不是序列保守性。

提问:相比于mRNA,对于非编码RNA的注释为什么不能只依赖序列信息? mRNA的主要功能是作为模板携带遗传信息,编码特定蛋白质,这也就决定了mRNA的注释更加依赖于一级序列,通过许多基因预测软件可以预测序列中基因区域,以及基因序列内部的如5'UTR、3'UTR、外显子、内含子的注释,还可以通过序列直接注释基因中的可变剪切位点得到不同的mRNA序列注释信息。 但是对于非编码RNA,决定其功能的往往是二级结构或三级结构。1)许多同源的非编码RNA往往具有相同或相似的二级或三级结构,而在一级序列上很少有特别相似的序列片段,因此要确定ncRNA的功能,需要分析RNA的二级结构保守性;2)非编码RNA通常需要与靶基因相互作用才能发挥生理功能,如miRNA主要通过结合RISC并作用与mRNA的3'UTR上,降解其靶mRNA或抑制其靶mRNA的翻译,因此对于miRNA的功能注释不仅要看自身序列,还要预测其作用的靶基因,目前有基因序列信息预测miRNA靶基因、基于表达信息预测miRNA以及基于高通量测序结CLIP-seq(紫外交联免疫沉淀和高通量测序)技术结果识别被miRNA直接靶向的基因;3)非编码RNA的表达具有时序性和组织特异性,因此要确定其功能,需要检测非编码RNA的表达模式,包括组织特异性表达、发育阶段表达、细胞亚群表达等,可以提示其功能的时空范围;4)非编码RNA往往会结合特异蛋白质,形成ncRNA-蛋白质复合物才能发挥作用,因此对于ncRNA的注释还要看其与哪些蛋白质发生相互作用,这个时候还需要通过蛋白质组学来确定ncRNA的功能;5)ncRNA往往还会发生化学修饰,如甲基化、假尿嘧啶化等,这些修饰会影响ncRNA的结构以及作用方式,因此还需要对ncRNA进行化学修饰检测。

提问:相比于mRNA,为什么预测非编码RNA不能只看序列相似性? 首先,预测mRNA可以只看序列相似性,因为mRNA的主要功能是作为模板携带遗传信息并编码特异蛋白质,因此只要两条mRNA在序列上相似,就可以说明其编码的蛋白质序列或生理功能具有很大的相似性。 由于ncRNA会发生单链自折叠和碱基配对而形成二级或三级结构,往往同源的ncRNA具有相同或相似的结构,但其在序列上却很少有特别相似的序列片段,因此对于ncRNA的预测,不能仅仅看序列的保守性,更需要分析二级结构的保守性。 例如miRNA的预测通过四种方式识别:同源比对、邻近茎环结构搜索、基于比较基因组学的算法以及基于高通量ncRNA测序数据发掘。通过同源比对方法,的确可以获得不同物种间序列相似性较高的保守miRNA,但是由于miRNA存在二级结构,因此,对于ncRNA的预测还需要对于候选ncRNA位点附近序列进行RNA二级结构预测,以确定该段序列能否形成茎环结构。同时还要验证miRNA的位置以及miRNA和miRNA* 的互补情况,还需要计算miRNA的最小折叠自由能MFE及MFEI,一般前体miRNA的MFE很小,且MFEI>0.85。这有同时满足这些标准,才能够将同源比对的保守序列是为miRNA。

关于重复序列对OLC和DBG算法的影响

  • 对OLC来说,重复reads会被全部表示为图中的节点,并与其他reads形成大量重复的重叠关系,增加计算量和内存需求。OLC通过预先屏蔽重复reads,然后在contig构建后利用reads信息恢复重复序列。
  • 对DBG来说,重复的k-mers会被折叠为同一个节点,因此不会像OLC那样增加计算量。DBG天然具有处理重复序列的高效性。
  • 增加reads长度是克服重复序列的关键,因为可以增加OLC的重叠长度cutoff和DBG的k值。但DBG算法难以使用较大的k值。
  • 对基因组中重复序列含量较低的简单基因组,DBG可以组装较好,但对重复序列含量较高的复杂基因组,其组装效果较差。

综上,论文分析认为OLC更适合利用较长的reads来跨越重复序列;而DBG虽在计算上处理重复序列更高效,但受限于难以使用较大k值的问题。重复序列仍是目前算法面临的主要挑战。


序列特征分析
https://bacontesla.github.io/blog/11-序列特征分析/
作者
Bacon Tesla
发布于
2023年9月10日
许可协议