DNA测序技术

考法

  1. Sanger测序技术的基本原理是什么?
    • 应用该技术的测序平台的初始型号是什么?最新型号是什么?目前用的最广泛的型号是什么?
  2. 第二代测序技术有哪些?
    1. 其原理是什么?
    2. 不同的测序平台之间的区别是什么?
    3. 哪一种平台是目前使用最为广泛的,其最新型号是什么?
    4. 第二代测序技术与第一代测序技术相比有何优缺点?
  3. 第三代测序技术有哪些?
    1. 其原理是什么?
    2. 不同的平台之间的区别是什么?
    3. 哪一种平台是目前使用最为广泛的,其最新型号是什么?
    4. 相比于第一代、第二代测序技术又有什么优缺点?
  4. 现在哪一种测序技术使用最为广泛,为什么?

一代测序-Sanger测序法

1. 基本原理

  • 首先要回答Sanger测序法用到了什么特殊的试剂,这种试剂为什么特殊?
  • 再回答对于这种试剂该如何使用?
  • 最后回答使用后会导致什么样的结果,对于结果如何观察得到正确的序列?

: Sanger测序法使用了一种叫做双脱氧核糖核苷酸的试剂ddNTP,其中N代表ATCG四种碱基,由于ddNTP的五碳糖2',3'位置上羟基均被脱去,所以ddNTP在DNA合成时无法形成3'-5'磷酸二酯键,从而会起到终断DNA合成的作用。因此在正常的PCR体系中,除包含常规的dNTPs外,还加入一种ddNTP,当DNA合成时添加的是dNTP则会继续合成,一旦添加的是ddNTP则会立即终止合成。由于ddNTP在不同的位置掺入,因而当我们分别使用4种不同的ddNTP时会形成一系列不同长度的新DNA链 ## 2. 步骤 分离待测核酸模板——进行DNA合成反应——变性聚丙烯酰胺凝胶电泳分离——放射自显影 注意: - 4支试管均加入了4中dNTP,但每支试管只加入一种特定的ddNTP(1-ddATP,2-ddGTP,3-ddCTP,4-ddTTP) - sanger测序法适用的特殊试剂——带有放射性同位素标记的ddNTP;后续全自动测序仪则是使用带有荧光标记的ddNTP - 模板链方向是3'-5'。合成链,即测序链是5'-3'合成,不需要 DNA 连接酶

3. Sanger测序仪

第一代Sanger测序仪:ABI370A,通量1000bp 主力Sanger测序仪:ABI3730 / ABI3730XL


二代测序

1. Illumina 测序技术

测序原理: - 文库构建:对样本DNA待测文库的构建,使用超声波打断后序列组装,插上不同的接头用于后续识别,构建单链DNA文库; - 簇生成:通过控制加样浓度,使得待测的DNA碎片均匀地分布在flowcell上,即一个范围内有且仅有一条DNA单链碎片(DNA簇)。通过桥式PCR扩增与变性放大碱基信号强度; - 测序:加入带有终止荧光信号的dNTP,使得每次合成只能加上一个碱基,同时簇发出的同一种荧光从而将此次碱基检测出来,然后再去除终止信号,进行第二次碱基荧光信号检验,如此循环直至测完整个read。测完后使用index1引物来识别出该read的index,随后便再进行桥式PCR扩增测定反链的序列,使得read的有效长度加倍。 - 数据分析:根据不同的索引,将样本库中的序列分离,同时将具有相似序列的read聚类,正反链配对生成连续序列,与参考基因组对齐,用于后续分析

有几个问题1.为什么Illumina测不长? Illumina检测的是一簇荧光发出的信号,在碱基延伸过程中,前一部分可能是正常配对延伸的,但越到后面,就越容易出现碱基错配或者上一轮的碱基终止信号未被脱去导致碱基延伸出现不同步的现象,这就会使得一簇的荧光信号中出现异常,干扰总体荧光信号检测,使得后面的测序数据准确率不高,也可称为碱基质量不高。且read1会比read2质量高,因为酶的活性会随着测序过程不断降低。

由于在二代测序中,单个DNA分子必须扩增成由相同DNA组成的基因簇,然后进行同步复制,来增强荧光信号强度从而读出DNA序列;而随着读长增长,基因簇复制的协同性降低,导致碱基测序质量下降,这严格限制了二代测序的读长(不超过500bp),因此,二代测序具有通量高、读长短的特点。 参考:第二代测序原理的详细解析! - 知乎 (zhihu.com)

2.为什么建库的时候需要片段长度均一? 流动的DNA片段结合到flowcell中时,短片段会比长片段更容易结合上去,如果长度不均一,那么结合到flowcell上的片段均为短片段,长片段就不会被测序

3.为什么建库时需要碱基平衡? 在拍摄荧光照片的时候,要保证照片中四种荧光出现次数均一,如果存在某一种荧光数量特别多就会导致最后的测序质量很低(这是由其算法决定的,需要解方程)

4.Adaptor序列为什么会出现在结果中? 由于insert片段比需要测序的片段要略短一点,(比如需要测150bp的序列,但insert序列没有150bp),此时便会把3'端的adaptor序列给测进去。DNA是沿5'-3'延伸的。

5. 单端测序和双端测序 - 单端测序:首先将DNA样本进行片段化处理形成200-500bp的片段,引物序列连接到DNA片段的一端,然后末端加上接头,将片段固定在flow cell上生成DNA簇,上机测序单端读取序列。 - 双端测序:有Pair-end和Mate-pair两种 - Pair-end:指在构建待测DNA文库时在两端的接头上都加上测序引物结合位点,在第一轮测序完成后,去除第一轮测序的模板链,用对读测序模块(Paired-End Module)引导互补链在原位置再生和扩增,以达到第二轮测序所用的模板量,进行第二轮互补链的合成测序。 - Mate-pair:文库制备旨在生成一些短的DNA片段,这些片段包含基因组中较大跨度(2-10 kb)片段两端的序列,更具体地说:首先将基因组DNA随机打断到特定大小(2-10 kb范围可选);然后经末端修复,生物素标记和环化等实验步骤后,再把环化后的DNA分子打断成400-600 bp的片段并通过带有链亲和霉素的磁珠把那些带有生物素标记的片段捕获。这些捕获的片段再经末端修饰和加上特定接头后建成mate-pair文库,然后上机测序

单端测序虽然也可以测得 DNA 的两端序列,但是由于单端测序是混合在一个文件里面,所以无法确定是哪一对正负序列来自同一待测 DNA 序列,因此单端测序是无法进行染色体结构变异的分析。 单端测序对于下游的碱基测到的质量较低,但双端测序则是测得两端均质量较高的序列信息,同时双端测序还知道中间未测序列的距离,即使对于重复出现的序列,双端测序也可推断出不同序列出现的位置,大大减少了序列回帖的误差。因此可以用于基因组组装。

6. 如果参考基因组没有突变,某实验室的测序文库模板长度为 500 bp ,用双端测序技术进行序列测序,根据序列比对结果: - 如果发现某些读长对的两端在基因组中的位置相距 1000bp,则说明该实验所用的样本对应的基因组区域缺失了500bp;相距 200bp 则说明样本对应的基因组区域插入了300bp。 - 如果某些读长对的 R1 和 R2 分别比对到不同的基因上,这说明发生了基因融合。

再介绍几个Illumina常用的测序仪 比较常用的就是Miseq和Nextseq两种型号,测得快才是王道

Illumina常用的测序仪

2. 罗氏454测序技术

焦磷酸测序技术:由DNA聚合酶、ATP硫酸化酶、荧光素酶和三磷酸腺苷酸双磷酸酶4种酶催化的同一反应体系中的酶级联化学发光反应。 - 引物与模板DNA退火后,在DNA聚合酶催化下,dNTP添加到测序引物的3'末端的同时释放一分子的焦磷酸(PPi); - 在ATP硫酸化酶的作用下,生成的PPi可以和APS结合形成ATP; - 在荧光素酶的催化下,生成的ATP又可以和荧光素结合形成氧化荧光素,同时产生可见光; - 通过微弱光检测装置及处理软件可获得一个特异的检测峰,峰值的高低则和相匹配的碱基数成正比。如果加入的dNTP不能和DNA模板的下一个碱基配对,则上述反应不会发生,也就没有检测峰。

测序原理: 1. 文库构建:将DNA超声波打断,并在两端接上不同的接头,同时分离去除两端为同一接头的DNA片段 2. DNA扩增:将DNA片段固定在微珠上,与矿物油混合高速震荡,形成“油包水”的液滴,保证一个液滴中仅含有一个微珠和一条DNA模板,通过PCR扩增,在微珠上形成大量的单克隆模板;然后收集微珠,将微珠放在芯片的微孔中,每一个微孔就是一个测序通道 3. DNA测序:采用焦磷酸测序技术,通过每次放入不同的碱基,能与模板结合上的碱基便会产生荧光信号,且由于单克隆片段可以增强荧光信号;通过确定加入碱基的顺序,就能得到放入不同碱基的感光信号。这样不断的循环,我们就能拿到一条完整的序列的信号。

缺点:454技术优势测序读长较长,平均可达400bp,缺点是无法准确测量类似于PolyA的情况时,测序反应会一次加入多个T,可能导致结果不准确。也正是由于这一原因,454技术会在测序过程中引入插入和缺失的测序错误。

3. Ion Torrent测序技术

Ion Torrent基于半导体测序原理,是第一个没有光学感应的高通量测序平台。 测序过程不再检测荧光信号或生物素来源的光信号,而是通过检测dNTP结合释放的H+获取碱基信息

测序原理:当核苷酸掺入到正在生长的DNA链中时,质子H+释放,从而改变孔的pH,这引起金属氧化物感测层的表面热量的变化,以及下面的场效应晶体管的源极端子的电势变化,通过收集电势变化并识别碱基的类型完成测序

优点:无以伦比的快速,2个小时完成测序工作;Ion Torrent的化学测序原理自然简单,无修饰的核苷酸、无激光器或光学检测设备,因而可达到极小的测序偏差和出色的测序覆盖均衡度。

缺点:测序通量目前还不够大,非常适合小基因组和外显子验证的测序,增加半导体芯片的容量将有望提高测序仪的处理能力。

5. 二代测序的共同点

  1. 将目标DNA剪切为小片段
  2. 单分子独立扩增
  3. 每次只复制一个碱基(A,C,T,G)并检测信号
  4. 高分辨率的成像系统
  5. 都会由于基因簇复制的协同性降低,碱基合成不同步导致测不长

三代测序

1. PacBio SMRT测序技术

测序原理请见考研资料P94 回答一下几个问题 1.为什么PacBio被认为是“伪三代”测序技术? 不管是Illumina还是PacBio都是边合成边测序,每合成1bp的碱基就释放一个荧光,只是PacBio能够做到单分子的荧光检测。因此只能说明PacBio的光学检测系统更高级,其测序的核心原理没有变。PacBio核心技术应该是其光学系统,采用了零模波导孔(zero-mode waveguides,ZMW)ZMW是直径50~100nm、深度100nm的孔状纳米光电结构,通过微加工在二氧化硅基质的金属铝上形成微阵列,光线进入ZMW后会呈指数级衰减,从而使孔内仅有靠近基质的部分被照亮。因此大部分游离的荧光标记dNTP不会被激发,只有结合到DNA酶上的dNTP其荧光基团才被激光照亮,使荧光信号与本底噪音区分开来。

2.PacBio有什么优缺点? PacBio有两种测序模式,CCS和CLR。CCS可以循环不断地测序,其准确率高达99%及以上(HiFi read),CLR可以测很长的读长,可用于基因组组装,缺点是很贵且准确率不高,只有90%左右。 CCS和CLR

2. Nanopore 测序技术

测序原理请见考研资料P94 回答一下几个问题 1.从原理上来说,Nanopore最容易出现哪种类型的错误? 当DNA出现多聚的同类型碱基片段时,就无法检测出到底是有多少个碱基,多少会出现测多或测少的情况。

2.Nanopore有什么优缺点? 优点就是可以测得很长的读长,只要DNA不断裂,甚至可以测一整条染色体的序列,在基因组组装上有很大的优势。同时还是实时获得数据并实时分析;可以读取DNA的任何表观遗传修饰,不像NGS需要先用亚硫酸氢盐处理才能测得甲基化胞嘧啶;样品制备相对简单且便宜,单样品常规1h,特快10min。 缺点也比较明显,其准确率不是很高。

基于最新的碱基转换算法flip-flop,其准确率在93~95%,其提高测序深度来降低错误率,一致性准确度最高可达99.999%

3.Nanopore的核心技术是什么? 如果说PacBio的核心技术是其光学系统,那么Nanopore的核心技术就是马达蛋白,他可控制核酸通过纳米孔的速度,解决了核酸易位速度过快或电流变化幅度太小导致准确度低的问题,实现更高的准确度。

Nanopore

3. 三代测序的共同点

  1. 长读长
  2. 单分子测序,无需扩增
  3. 可检测碱基修饰
  4. 连续测序,速度快(取决于所用聚合酶的速度或通过纳米孔的速度)
  5. 便携(Nanopore)
  6. 错误率较高(近年有突破,部分产品测序准确率已>99%)
  7. 存在系统错误,对同聚物(如AAAAAAA)识别有问题
  8. 通量比二代测序低,成本比二代测序高,尚不适合定量分析

4. 三代测序读长和准确性比较

三代测序读长和准确性比较 可以看出,在读长上,PacBio CLRs没有ONT的ultra-long read长; 在精确度上,PacBio HiFi具有最高的准确度!


高通量测序技术区分标准

  1. 测序读长
    1. 二代测序的读长在几十到数百bp;
    2. 而三代测序读长可达数kb、数十kb甚至数百kb和Mb水平。
  2. 单分子测序还是克隆扩增后测序
    1. 三代测序均采用单分子测序;
    2. 二代测序均采用克隆扩增后测序。
  3. 测序化学方法
    1. Ion Torrent、Illumina和PacBio均是边合成边测序的化学方法;
    2. Oxford Nanopore选择纳米孔测序。
  4. 检测方法
    1. Illumina、罗氏454、PacBio以光学信号作为检测对象来测序;
    2. Ion Torrent是第一台没有光学信号的高通量测序平台,其检测H+浓度;
    3. 而纳米孔测序通过检测碱基带来的电信号差异来获取碱基信息。

第一代、第二代、第三代测序的优缺点

  1. 第一代测序技术以其可达 1000 bp 的测序读长、99.999%的高准确性帮助人们完成了大量的测序工作,但其测试速度慢、成本高、通量低。其可以用于从头测序和下一代测序的验证。
  2. 第二代测序技术又称高通量测序技术、大量并行测序技术,以低成本、高灵敏度、99%以上的准确度,1 次可对几百、几千个样本的几十万至几百万条 DNA 分子同时进行快速测序分析。但序列读长为 13~450bp,二代测序比起第一代测序技术则要短很多。相对于第三代,都仍然需要扩增的方法放大信号,扩增后再检测。
  3. 第三代测序技术是指单分子测序技术。最大的优点就是单分子测序,测序过程无需进行 PCR 扩增,能有效避免因 PCR 偏向性而导致的系统错误,同时提高了读长,并保持二代技术的高通量,低成本的优点。但三代测序的准确性较低于一代和二代。

DNA测序技术
https://bacontesla.github.io/blog/DNA测序技术/
作者
Bacon Tesla
发布于
2023年7月12日
许可协议