分子进化
一、同源Homologs
1.区分:同源、直系同源、旁系同源和异同源 - 同源(Homologs):来源于同一祖先的相似序列称为同源序列 - 直系同源(Orthologs):来自于不同物种的垂直家系,也就是物种形成,进化而来的基因,并典型的保留与原始基因相同的功能(随着进化分支,一个基因进入不同物种并保留了原有的功能) - 旁系同源(Paralogs):同一物种中的来源于基因复制的基因,可能会进化出新的但与原功能相关的功能 - 异同源(Xenologs):通过水平基因转移,来源于共生或病毒侵染所产生的相似基因(异同源的产生,既不是垂直进化来的,也不是水平复制来的,而是真核生物与原核生物接触时转移而来的)
2.同源=相似序列? 同源并不一定等于相似序列,因为相似序列既可以来源于同一祖先,又可以单纯的相似,不来源于同一祖先。
3.总结: 直系同源:不同物种,基因具有相似功能 旁系同源:同一物种,基因产生新的功能 异同源:原核与真核的水平基因转移HGT [[4-序列比对#5. 一致度、相似度和同源性|一致度、相似度和同源性的区分]]
二、构建进化树
构建精确的phylogenetic tree通常需要以下步骤: 1. 收集多种相关的同源序列进行多序列比对。比对算法应尽量准确,如T-Coffee,MUSCLE等。 2. 根据比对结果计算序列距离或Likelihood函数,获得置信度评分。常用Jukes-Cantor模型、Kimura模型等。 3. 使用复杂树构建算法生成候选树,评估树的置信度。常用算法有最大似然法、贝叶斯推断、最大简约法等。 4. 进行Bootstrapanalysis,从比对结果中通过重采样评估树的稳健性。 5. 结合理论假设评估树的合理性,进行必要的人工调整获得最终树。 6. 在final tree上展示Bootstrapsignificance值或posterior概率作为节点可靠性评估。 7. 使用可视化软件展示和修饰最终的进化树。 8. 在论文中给出算法细节和参数设置,说明树的意义和局限性。
总之,构建可靠的进化树需要采用多种确保可重复性和精确性的方法,同时辅以生物学解释,才能充分反映复杂的进化历史。这需要研究者的谨慎和审慎态度。
辨别: 1. 指导树guided tree、系统发育树phylogenetic tree、进化树Evolutionary tree? 指导树和系统发育树主要区别在于树的构建方式: 1. 指导树是在多序列比对前先构建的树,用于指导比对程序的树构建过程。 2. 系统发育树是在多序列比对后才构建的进化树,用于表示其最终的进化关系。 也就是说,指导树是输入信息,系统发育树是输出结果。 具体来说: - 指导树的构建通常只利用序列信息(相似性得分、Kmer分析和GC含量等),通过距离计算构建,不太准确。 - 系统发育树的构建利用了比对结果,通过各种复杂算法计算,可以更准确反映序列的进化关系。 - 指导树帮助提高多序列比对的速度和质量。 - 系统发育树是多序列比对的最终结果产品。 而进化树,只要能够表示一定进化关系的都属于进化树,换句话说,指导树和系统发育树属于进化树,其中指导树是初级的进化树,系统发育树是准确反映进化关系的进化树
2. 无根树和有根树的区别以及二者转化关系? - 有根树反映了树上基因或蛋白质进化的时间顺序,通过分析有根树的树枝长度,可以了解不同的基因或蛋白质以什么方式和速率进化; - 而无根树只反映分类单元之间的距离,不涉及谁是谁的祖先问题。 - 无根树可以通过外类群转化为有根树。 - 外类群是指索要研究内容之外的一个群,与研究内容在进化关系上有明显的差异 - 确定外类群后,外类群与原无根树之间所构成的内节点就是所形成的有根树的根
3. 物种树与分子树的区别? - 物种树是基于每个物种整体的进化关系,也就是基于整个基因组构建; - 而分子树是基于不同物种里某一个基因或蛋白质序列之间的关系构建的 - 物种树和分子树所构建的树枝顺序可能完全不同,因为分子树中某一基因可能经历过特殊的进化、特殊的环境影响或发生了水平基因转移
4. 无根的双分叉树,给定顶结数目N,计算内结点数目、周支、内支以及分支数目? 在双分叉树中一个内结点有3个分支,且一定连接两个顶结,因此内结数目为\(N-2\),周支为\(N\),内支为\(N-3\),分支为\(N+(N-3)=2N-3\)
三、替代模型
p距离(p-distance) 定义:两序列间差异核苷酸所占的比例,其可以简便的描述序列分歧大小。当序列间亲缘关系较近时,p距离可以估计每个位点上的核苷酸替代数,但当p较大时,由于没有考虑回复突变和平行突变,替代数可能会被低估
Jukes & Cantor模型 突变率相同
Kimura模型 转换大于颠换
三、分子钟与中性学说
分子钟(molecular clock) 定义: 来源于不同生物系统的的同一蛋白质分子的氨基酸随着时间的推移,以几乎一定的比例相互置换,即氨基酸在单位时间以同样的速率进行置换,即某一种蛋白质在不同物种间的取代数与所研究物种间的分歧时间接近正线性关系,进而将分子水平的这种恒速变异称为分子钟。
内容: - 分子钟应当被看作是核苷酸和氨基酸突变的随机性所导致的随机钟,并不是以固定间隔进行跳动 - 不同蛋白质间或蛋白质的不同区域间进化速率差异很大,不同的蛋白质可以有自身固定的分子钟 - 速率恒定性不一定对所有物种都适用,可能只存在于某一个类群。
误区: - 所有蛋白质都保持一个相同的恒定的进化率❌:DNA 和蛋白质的进化速率在一定时期内可看作是近似恒定的 - 所有蛋白质的进化速率都与化石记录相符合❌:同蛋白质的进化速率与化石记录大体上是存在正相关性和一致性的,不可能完全相符合
中性学说(netrual theory of molecular evolution) 定义: 分子进化的中性学说认为多数或绝大多数的突变都是中性或近中性的,既无利也无害,自然选择对它不起作用,因此对于这类中性突变,不会出现自然选择和适者生存的情况。生物的进化主要是中性突变在自然群体中进行随机的“遗传漂变”的结果,而与选择无关。这些突变全靠一代又一代的随机漂变而被保存或趋于消失,进而形成在分子水平上的进化性变化或种内变异。
三、建树方法
1. 距离矩阵法 Distance Matrix
(1)非加权平均连接聚类法 UPGMA
对于新类与原有物种之间的距离有两种计算方式 例如,在前两步中,ab聚为一类,然后前一步中又将abc聚为一类,在当前步骤中,需要计算新类与其他原有类之间的距离 1.可以使用原始矩阵进行计算,如想知道abc到d的距离,可以\(D_{((a,b,c)d)}=(ad+bd+cd)/3\) 2.也可以使用上一步的矩阵计算,利用上一步中ab新类到d的距离×2加上c到d的距离的和除以3\(D_{((a,b,c)d)}=((ab)d\times 2+cd\times 1)/(2+1)\)
(2)邻接法 NJ
1. 首先计算每个物种的净分歧度
\[ S_{X}=\sum\limits D_{x}/(N-2) \]
N-2为自由度
- 计算两两物种之间的最小速率矫正距离
\[ M_{ij}=D_{ij}-S_{i}-S_{j} \]
Mij全部求出来之后,寻找最小的Mij,将物种i和物种j合并为一个节点U1

- 合并成一个节点后,需要计算物种i和物种j各自到节点的距离
\[ \begin{array}\\ S_{iU1}=D_{ij}/2+(S_{i}-S_{j})/2\\ S_{jU1}=D_{ij}-S_{iU1} \end{array} \]

- 求其他物种到节点的距离,即其他物种到节点中物种i的距离 - 节点中物种i到该节点的距离
\[ D_{XU1}=D_{Xi}-D_{iU1} \]

- 不断计算,直到不再有新的节点出现
对于是选用UPGMA还是NJ构建距离矩阵,要看各分支的突变率是否相等。 - UPGMA只在各分支突变率相同的时候能得到较好的结果,即认为分子钟在起作用; - NJ则是允许各分支的突变率有所不同
主要区别在于,非加权组平均法(UPGMA)是基于平均链接方法的聚集层次聚类方法,而邻接法(NJ)是基于最小演化准则的迭代聚类法。 UPGMA的假定条件是:在进化过程中,每一世系发生趋异的次数相同,即核苷酸或氨基酸的替换速率是均等且恒定的。 UPGMA生成有根树,而NJ生成无根星型树。由于UPGMA方法假定演化速率相等,因此分支末端相等,NJ方法允许不相等的演化速率,因此分支长度与变化量成正比。 参考:系统发育树邻接法(NJ)和非加权组平均法(UPGMA)之比较_51CTO博客_邻接法构建系统发育树
一张图表示
2. 最大简约法 MP
最大简约法的理论基础是奥卡姆(Ockham)哲学原则,这个原则认为:解释一个过程的最好理论是所需假设数目最少的那一个。方法:计算所有可能的拓扑结构,计算出所需替代数最小的那个拓扑结构,作为最优树。 参考:进化树构建的方法及原理详解 - 组学大讲堂问答社区 (omicsclass.com)
注意点:哪些位点才能作为最大简约法的信息位点 informative site - 对于最大化的简约,只需考虑那些信息位点(informative site)(该位点至少存在两种不同的碱基,且每种不同碱基至少出现两次) - N条序列对应的拓扑结构共有\(\frac{C_{N}^{2}}{2}\)(N=4,拓扑结构数=3)
参考ppt中建树方法 -
对于位点1,如果seq1和seq2在一起,则只会发生一次(T->A)替换,如果是seq1和seq3在一起,则(1,3)和(2,4)就会存在两次(T->A)替换;
- 同样对于位点2和3与site1一致; -
分别计算三种拓扑结构的总替换数,选最小替换数的拓扑结构为最大简约法的进化树
-
总的来看,尽量将同一碱基的seq放在一块,一个个site统计,但这种思路只适合4条序列💦
最大简约法的缺点以及适用条件 >缺点:相比之下,MP法无需引入处理核苷酸或者氨基酸替代时所必需的假设。同时,MP法对于分析某些特殊的分子数据(如插入序列和缺失)有用。在分析的序列位点上没有回复突变或平行突变,且被检验的序列位点数很大的时候,MP法能够获得真实的系统树。但MP法推导的树不是唯一的,在分析序列上存在较多的回复突变或平行突变,而被检验的序列位点数又比较少时,最大简约法可能会出现建树错误。 >适用条件:故MP法适用于序列残基差别小,具有近似变异率,包含信息位点比较多的长序列。 >参考:邻接法,最大简约法,贝叶斯法,最大似然法详解 (baidu.com)
3. 最大似然法 ML
- 基本思想是:当从模型总体随机抽取n组样本观测值后,最合理的参数估计量应该使得从模型中抽取该n组样本观测值的概率最大,而不是像最小二乘估计法旨在得到使得模型能最好地拟合样本数据的参数估计量。
- 方法:选取一个特定的替代模型来分析给定的一组序列数据,使得获得的每一个拓扑结构的似然率都为最大值,然后再挑出其中似然率最大的拓扑结构作为最优树(所以分析时间比较长)
应该不会考察如何使用ML构建进化树
4. 贝叶斯推断法 Bayesian
贝叶斯法(Bayesian method)是近年来发展起来的一种新的利用贝叶斯演绎法预测种系发生史的系统进化分析方法。它使计算时间大大缩短,不但保留了最大似然法的基本原理,还引进了马尔科夫链的蒙特卡洛方法(Markov chain Monte Carlo/MCMC),来模拟演化树的较晚期可能性分布。贝叶斯法根据多种分子进化模型,利用马尔科夫链的蒙特卡洛方法产生所有参数的后验概率(posterior probability)估计值,这些参数包括拓扑结构、分支长度和替代模型各参数的估计。该方法不仅可以对模型的参数进行直接量化,而且可以分析很大的数据集,其采用后验概率来表示各分支的可信性。 参考:邻接法,最大简约法,贝叶斯法,最大似然法详解 (baidu.com)
什么是后验概率? 可以认为是该树正确的概率,所有可能树的后验概率总和为1
5. 选择合适的建树方法
首先通过各个物种之间的比较,根据一定的假设(进化距离模型)推导得出分类群之间的进化距离,构建一个进化距离矩阵,进化树的构建则是基于这个矩阵中的进化距离关系。如果序列的相似性较高,各方法的结果差别不大;现在文章较常见的是NJ和ML模型。可根据序列相似度选择建树方法,对于近缘序列,可以用MP,MP一般不用在远缘序列上,这时一般用NJ或ML。 NJ和ML需要选择模型:蛋白质序列一般选择Poisson Correction(泊松修正)模型,核酸序列选择Kimura 2-parameter(Kimura-2参数)模型。 参考:系统进化树简介及构建 - 简书 (jianshu.com)
一张图总结各种建树法的优缺点和适用条件
四、Bootstrap检验树
Bootstrap值是指根据所选的统计计算模型,设定初始值1000次,就是把序列的位点都重排,重排后的序列再用相同的办法构树,如此让模型计算并绘制1000株系统发育树,这是命令阶段产生的。如果原来树的分枝在重排后构建的树中也出现了,就给这个分枝打上1分,如果没出现就给0分,这样给进化树打分后,每个分枝就都得出分值。系统发育树中每个节点上的数字则代表在命令阶段要求的1000次进化树分析中,有多少次最后一般换算重百分数。一般bootstrap的值>70%,则认为重建的进化树较为可靠。如果bootstrap的值太低,则有可能进化树的拓扑结构有错误,进化树是不可靠的。因此,一般推荐用两种以上不同的方法构建进化树,如果所得到的进化树类似,且bootstrap值总体较高,则得到的结果较为可靠。通常情况下,只要选择了合适的方法和模型,构出的树均是有意义的,研究者可根据自己研究的需要选择最佳的树进行分析。 参考:进化树构建的方法及原理详解 - 组学大讲堂问答社区 (omicsclass.com)
系统发育树的评估有三种方法: - 基于重复抽样检验 - 自展法 - 折刀法 - 内支检验(interior branch test) 内支检验定义:通过检验内支长度是否显著大于0而评价构建的系统发生树的一种检验方法。若一颗树的拓扑结构正确,则表明正确拓扑结构的所有分支长度估计的期望值为0或正值,而不正确的拓扑结构至少有一个内部分支长度为负值。常用于距离法构建的树。
五、建树软件的使用
MEGA
参考:如何使用MEGA软件进行序列比对、计算遗传距离以及构建系统发育树?(收藏版) - 知乎 (zhihu.com)
文字版描述(用于考试,如果可能考的话) 1. 数据准备与导入,事先准备一个fasta格式文件,导入MEGA中 2. 序列比对,点击logo图标“W”即Clustal W,或”💪“,即MUSCLE。选择默认参数,比对完后保存.meg文件 3. 计算遗传距离,点击distance图标,选择“Compute pairwise distance”,选择bootstrap1000和p-distance方法,其他默认 4. 构建系统发育树,点击phylogeny图标,选用NJ或UPGMA方法建树
问答
1. 什么是中性学说,其对分子进化有什么影响? 定义如上,中性学说揭示了分子进化的规律,是解释生物大分子进化现象的重要理论。中性学说强调遗传漂变和突变在分子进化中的作用,既承认自然选择在表型进化中的作用,又强调分子水平进化现象的特殊性。
2. 什么是bootstrap sample及bootstrap tree? bootstrap是自展法中对原始数据进行随机打乱后形成的伪数据集,bootstrap tree是使用为数据集重新构建的系统发育树
3. 折刀法与自展法有什么区别? 折刀法与自展法的不同点在于抽样方式,折刀法在每次抽样时去除一个可变分类单元OTU,再对剩余的OTU进行分析,折刀法的新数据集比原始数据集小