生信考研常见问题
什么是遗传图谱?用来构建遗传图谱的标记有哪些? 定义: 遗传图是应用遗传学分析方法将基因或其他DNA顺序标定在染色体上构建的连锁图,家系分析等。遗传图距单位为厘摩(cM), 每单位厘摩定义为1%交换率。
主要标记有基因标记和DNA标记: - 基因标记(性状标记) - DNA标记:以DNA片段为标记,通过DNA片段的电泳使DNA产生多态性,有1) RFLP (Restriction fragment length polymorphism),2)SSLP (simple sequence length polymorphism) SSLP (simple sequence length polymorphism)即简单序列长度多态性,3)SNP(Single Nucleotide Polymorphism) SNP(Single Nucleotide Polymorphism)即单核苷酸多态性。
什么是物理图谱?物理图谱和遗传图谱的联系和区别? - 定义: 应用分子生物学技术来直接将DNA分子标记、基因或克隆标定在基因组的实际位置。物理图的距离依作图方法而异,如辐射杂种作图的计算单位是Cr,限制性片段作图与克隆作图的图距是DNA的分子长度,即碱基对(bp,kb) - 区别: 1. 遗传图谱通过遗传重组所得到的基因在具体染色体上线性排列图称为遗传连锁图。它是通过计算连锁的遗传标志之间的重组频率,确定他们的相对距离,而物理图谱则是基因或克隆在基因组的实际位置。 2. 遗传图谱分辨率有限:分辨率依赖于得到的交换的数目。对于人类和大多数真核生物来说,巨大数量的后代不易获得;遗传图谱覆盖面较低;遗传图谱分子标记的排列有事会出现差错。 - 联系: 1. 二者均可以在一定程度上对基因进行定位; 2. 且物理作图必须在遗传作图的基础上才可进行,并且进行下一步的基因组测序; 3. 遗传图谱和物理图谱可以整合。
如何构建其物理图谱?
主要有限制性作图、荧光原位杂交、序列标签位点作图、克隆作图。 - 限制性作图:将限制性酶切位点标定在DNA分子的相对位置,主要是通过比较一种DNA分子被不同限制性内切酶切割所产生的片段大小来完成。局限性在于只能应用于相对较小的DNA分子。 - 荧光原位杂交FISH:在染色体上进行DNA杂交,以便识别荧光标记探针在染色体上位置的方法。可用于大基因组,但难于操作,数据积累慢,一次实验定位的标记不超过3-4个。 - 序列标签位点(STS)作图:STS是指一段短的DNA(100-500bp)易于识别,在待研究的染色体或基因组中仅有1个拷贝。因此当2个片段含有同一STS顺序时,可以确定这两个片段彼此重叠。序列标签位点作图是通过PCR或分子杂交将特定DNA顺序定位在及阴虚染色体区段中。通过放射杂交和克隆文库获得作图对象。 - 克隆作图:通过克隆的DNA片段之间的重叠顺序构建重叠群(Contig),绘制物理图谱连锁图。
作图所用的载体主要有YAC载体、PAC载体、BAC载体。
如何构建Mate-pair文库?
- 首先将基因组DNA随机打断到特定大小;
- 然后经末端修复,生物素标记和环化等实验步骤后,再把环化后的DNA分子打断成400-600bp的片段并通过带有亲和素的磁珠把那些带有生物素标记的片段捕获;
- 这些捕获的片段再经末端修饰和加上特定接头后建成大片段文库,不需要克隆到细菌中,直接在Illumina上对这些大片段文库的两端进行测序;
- 这种从较大跨度两端所获得的序列对大基因组或者复杂基因组的组装和基因组结构变异发掘具有非常重要的作用,特别适合于新基因组测序项目。
什么是GC skew?
答:DNA链组成的非对称性:GC分布不对称(GC skew),AT分布不对称(AT skew)GC skew = (nG - nC)/(nG +nC),用来衡量G和C的相对含量,如果G>C则GC skew 的值为真值,G在大多数细菌基因组中,前导链富含G(A),而滞后链中的C(T)多。打破A=T 和C=G的碱基频率发生的偏移,被称之为“AT(AT-skew)”和“GC(GC-skew)”。由于通常GC偏移比AT偏移发生的更明显,所以习惯上更多地只考虑GC偏移。用于复制起点和终点的定位:因为GC偏移在前导链中是正值而在滞后链中为负值,所以GC偏移值是前导链起点、终点以及转变成滞后链的信号,反之亦然。这使得GC偏移成为在环状染色体(circular chromosomes)中标记起点和终点的一个有用的工具
人类基因组有何特点? 1. GC含量变化大:总的GC含量是41%,但有的区域GC富含,有的区域GC 少。 2. CpG 岛:GC二核苷酸含量低,是预期的五分之一。因为C常被甲基化变成T,甲基化的CpG残基经常分布在管家基因的启动子和外显子区域。甲基化的CpG结合蛋白募集组蛋白去乙酰化酶有利于转录。在基因剪切,基因组印记和X染色体失活有作用。 3. 遗传图谱和物理图谱的比较:两种图谱的比较发现:每个核苷酸的重组率。在男性的生殖细胞中的突变率大约是女性的生殖细胞的两倍。大多数的突变可能来自男性。 4. 重复片段:超过50%的重复DNA。五个类型: 1. 散在重复(来源于转座子); 2. 加工的假基因; 3. 简单重复序列(微卫星,小卫星); 4. 片段重复:在已完成的人类基因组测序的 5. 3%的片段重复,典型的是10-50kb. 中心粒包含大量的染色体上的复制DNA;5.串联重复块(比如在着丝粒附近) 5. 基因含量:基因含量:有大约21,000个人类基因,比早期估计的少很多。 6. 存在C值悖论,例如人和小鼠比较,二者在基因数量上差不多,但是人明显有更加复杂的生命活动。 7. 人类基因组中具有来自细菌和病毒的基因,这是通过水平基因转移影响的。
C值悖论:在每一种生物中其单倍体基因组的DNA总量是特异的,被称为C值。DNA的长度是根据碱基对的多少推算出来的。各门生物存在着一个C值,在每一门中随着生物复杂性增加,其基因组大小的最低程度也随之增加。但物种的C值和它进化的复杂性之间没有严格的对应关系,这种现象称为C值悖论。高等生物的C值不一定就意味着高于低等生物。
基因预测比较困难平均的外显子平均只有150个核苷酸;外显子和内含子的边界很难确定;内含子的长度在几千碱基的长度;假基因,非编码RNA很难鉴定。
在已有的基因水平转移研究中进化树分析法、碱基组成分析法、选择压力分析法、内含子分析法、特殊序列分析法和核苷酸组成偏向性分析法等几种是常用的方法;
什么是侧向基因转移?如何检测? 答:侧向基因转移(LGT)也叫基因水平转移(HGT):一个基因组中获得的基因直接来源于其他的生物体,但不经过世代。这种转移非单向的(不涉及DNA的互惠交换)。 1. 碱基组成分析法 - 不同细菌物种之间基因组GC含量是不同的, 每个细菌物种基因组的GC含量相对来说是比较稳定的, 而且在不同基因间是相对一致的, 它们不受外界因素的影响。 - 如果某菌株某段特定DNA序列的GC含量明显高于或低于其基因组的其他部分, 就暗示着该特定DNA序列是通过水平转移从外源的细菌或其它物种的质粒中得到的。 1. 选择压力分析法 - 亲缘关系较远的两个物种, 如果它们某个特定的基因高度相似, 且其所编码的氨基酸也没有发生改变, 同时该基因不处于选择压力之下,那么该基因就可能在两个物种之间发生了水平转移。 - 判断基因是否处于选择压力主要是考察非同义替代数目(dN)与同义替代数目(dS)的比率(dN/dS)。若某个基因的dN/dS数值显著大于该基因所在物种的保守基因的dN/dS值, 则表明该基因在进化上不受选择压力。 2. 内含子分析法 - 如果遗传进化差距较大的两个物种的某个特定基因, 不仅其编码区高度同源, 非编码的内含子区也高度同源, 则预示着该基因很可能是通过水平转移而得到的。 3. 进化树分析法 - 先进行Blast相似性搜索。在亲缘关系较远的物种间,它们的某个特定基因或特定基因的某一段序列相似性极高, 一般就可以作为基因水平转移的初始证据或怀疑对象。 - 再利用进化树上进化枝的排列。有些基因在物种中是相当保守的, 可以用它们来建立所研究物种的进化关系, 作为判断其他基因是否发生水平转移的参考标准。用水平转移目标基因 vs. 保守基因或传统的分类学方法构建的进化树, 从而判断出目标基因是否发生水平转移以及发生转移的时间和地点。
介绍一下MicroArray或RNA-seq分析基因表达谱分析流程。 - MicroArray: - 设计实验—>RNA和探针的制备—>芯片杂交—>图像分析—>基因芯片的数据分析—>Biological confirmation—>Microarray databases. - RNA-seq: - 总的RNA—>去除rRNA的mRNA—>片段化—>加接头—>反转录以及RNaseH消化—>cDNA扩增—>PAGE选择大小—>高通量测序—>测序数据。
RPKM简单计算 假设一基因体只有两个基因,A基因9 KB,B基因1 KB,如今有一sample,其map到A基因的read 有18 million 个,map 到B基因的有2 million 个,如下图所示。
\[ RPKM_{A}=\frac{18M}{(18M+2M)\times 9KB}=0.1 \]
\[ RPKM_{B}=\frac{2M}{(18M+2M)\times 1KB}=0.1 \]
基因组组装的两类算法分别是什么?各自代表性软件有哪些?
OLC:Overlap-Layout-Consensus 主要可以分为三个步骤:
(1)对所有的reads进行两两比较,找到相互重叠的reads。当然两条reads之间的重叠区域需要>阈值(cutoff
value)。(这个方法跟早期的贪婪算法有点区别。贪婪算法是先找到一条reads,然后找到与它重叠区域最多的序列拼接,依次。)这样找到的拼接是局部最优解,当遇到重复序列的时候会遇到很大的问题。但是OLC算法是找到所有的overlap。
(2)构建reads的重叠区域图,将reads拼接成contigs。
(3)在不同的contigs中找到一条最优的拼接路径,确定contigs的排序和方向,形成scaffolds。
DBG的步骤主要包括了:
(1)构建不同k-mers (2)按照Eulerian
Path将不同的k-mer拼接成contig
比如有两条read
read1:ACTAGCTA
read2:CTAGAA
取k=3
read1:ACT,CTA,TAG,AGC,GCT,CTA
read2: CTA,TAG,AGA,GAA
最后的路径就是
ACT-CTA-TAG-AGC-GCT-CTA-TAG-AGA-GAA
得到拼接序列ACTAGCTAGAA
(3)真实的情况比这个还要复杂很多,而且会遇到测序错误或者SNP等问题,需要进一步对德布鲁因图简化。