基因表达数据分析
基因表达测定方法
总览: - 低通量测序 - RT-qPCR - 高通量测序 - 基因芯片技术 - cDNA芯片 - 寡聚核苷酸芯片 - 下一代测序技术RNA-seq
RT-qPCR 原理:利用CT值和起始拷贝数的对应关系,通过外标准曲线精确计算未知样品的起始拷贝数。RT-qPCR的灵敏度和准确度都很高,是高通量数据筛选结果验证的金标准
基因芯片 定义:通过与一组已知序列的核酸序列杂交进行核酸序列测定和定量的方法。先在一块基片表面固定序列已知的靶核苷酸的探针,将待测样本中的mRNA提取后通过反转录反应过程获得标记荧光的核酸序列,然后与基片探针进行杂交反应后,再将基片上未互补结合的片段洗去,对芯片进行激光共聚焦扫描,测定芯片上各点的荧光强度来推算待测样品中各种基因的表达量。
问答
什么是微阵列?微阵列有哪些类型? 什么是基因芯片?基因芯片有哪些类型?
cDNA芯片和寡核苷酸芯片的区别有哪些? - 首先从实验设计上,cDNA 采取的是一次实验一个基片以及双通道测定荧光强度,并使用两次荧光强度的比值代表基因的表达水平;寡核苷酸芯片采取的是一次实验一个芯片以及单通道测定荧光强度,直接反应基因的表达水平。 - 从基因表达量上,cDNA是一个基因一个位点spot;而寡核苷酸芯片是一个基因多个探针位点。 - 从参照上,cDNA以两种荧光染色(Cy3/Cy5);而寡聚核苷酸芯片是用核苷酸相配和错配为参照。 - 从探针制作上,cDNA的探针长短不一;而寡聚核苷酸芯片使用寡聚核苷酸原位光刻技术,同一批芯片上的所有探针都是在同一条件下合成的,探针浓度的均一性很好。
基因芯片与RNA-seq相比有什么优缺点? 基因芯片 - 优点: - 其稳定可靠(RNA-seq只有在测序量高对低表达基因的定量才可靠); - 积累了大量不可重复获取的数据 - 缺点: - 只能检测已知或确定的序列 - 无法检测新发现、未放置到芯片上的基因 - 有部分探针的信号可能收到非特异性杂交及个体序列的差异
RNA-seq - RNA-seq不仅可以检测已知参考基因组的转录本,而且对没有已知的参考基因组信息的非模式生物RNA-seq同样也可以测定转录本 - RNA-seq测序精确到一个碱基,通过短的序列可以反应两个外显子的连接,通过长的序列或短的双端序列可以反应多个外显子的连接 - RNA-seq可以同时测定序列的变异 - 由于DNA序列可以准确无误地定位到基因组上,因此RNA-seq的背景噪声很小,测定的动态范围更大,其测定表达的比值可达到9000倍,而基因芯片的敏感度低,动态范围要小的多 - RNA-seq在基因表达的定量上准确度很高 - RNA-seq在测定技术及生物学重复性更好 - RNA-seq的测定需要RNA样本量少
基因表达数据分析的实验设计要求有哪些? 1. 实验重复: 1. 生物学重复:多个生物样本进行重复。 2. 技术重复:不同实验重复使用实验技术以求技术可行,如同一次使用多张芯片 2. 实验的随机化 1. 所有的内容,随机以免小概率实践影响实验的准确性。如探针需要随机分布,以抵消杂交不均匀的影响 3. 实验的模块化 1. 每天的实验应该进行完整实验,而不是一天实验、一天对照。
基因表达数据分析的数据分析如何做? 1. 如果实验无法进行生物学重复,则计算FC值。求得实验组和对照组基因表达的比例,(标准化处理的实验组数据处理对照组数据)和期望的阈值比较。如果FC大则有显著差异 2. 可以进行生物学重复,则需要进行假设检验。如T-test。确认问题-确认零假设\(H_0\)和备择假设\(H_1\)-选择显著性水平-选择合适的检验数学模型-计算并选择合适的p值-查表比较p值和标准p值-接受或拒绝原假设。
基因芯片数据为什么要进行预处理? 由于获取的芯片原始数据来源于不同的芯片平台,数据信息会有差异,在对基因芯片数据进行聚类、分类分析之间需要对数据进行预处理
预处理过程中,基因芯片数据为什么要进行数据对数化? 因为芯片原始数据一般呈偏态分布,影响数据的进一步分析,将数据对数转换后,数据可近似服从正态分布,通常以2为底的对数转换
预处理过程中,基因芯片数据为什么要进行过滤? 因为每个点的荧光强度值为前信号值减去背景信号值,如果某一其邻近基因的背景信号值很大,就会导致该点的信号很小或为负值。因此需要去除表达水平很低、负值的数据或明显的噪音数据
Affymatrix芯片中为什么要设置探针对(PM和MM)? 因为一个芯片上存在来自于一个基因的一组探针,探针组上又有许多探针对,每一对探针对由匹配探针(piar match)和错配探针(mismatch)组成。芯片中MM探针的所用是检测非特异杂交信号,理论上MM只有特异杂交信号,而不会有特异杂交,MM的信号值永远小于其对应的PM信号值,因此可以做一个PM-MM或PM/MM,即可去除背景噪声的影响。
芯片数据为什么要做均一化(标准化)处理? 使各次/组测量或各种实验条件下的测量可以相互比较,消除测量间的非生物学来源的差异。非生物学的来源可能由样品制备、点样、杂交过程、杂交信号处理等
什么是M-A plot?意义是什么? M-A plot即Minus-versus-Add plot,主要应用在基因组数据或转录组的数据展示,主要是对于数据分布情况的可视化。该图将数据转换为M(对数比)和A(平均值),然后绘制这些值来可视化两个样本中测量值之间的差异。 M常对应每个基因在实验条件较之对照条件下表达量的倍数差异值的对数化log2FC。A利用差异对比组的FPKM进行计算
M-A plot为什么要对数化 1. 取对数后的两组数据的值差异比不取对数时更独立于其值大小 2. 对于取对数后的值标准化只需简单的加法即可 3. 取对数后使分布不太过度偏斜 4. 取对数后使变异大小跨度更真实 5. 取log2而不取ln或log10是因为芯片的信号值大小范围为0 ~ \(2^{16}-1\)的整数值(一般都是用计算机的16位来存储信号强度值)
什么是批次效应? 由于不同实验条件、不同试剂、不同操作者、不同仪器、不同实验条件等导致不同批次的实验测量结果(比如基因表达量)发生差异,这些差异并没有反映不同批次中所用样本之间的生物学差异。 批次效应导致的影响: - 批次效应和处理效应不完全重叠,相当于扩大了组内效应,使得组间差异/组内差异的比值减小,降低了处理效应的显著性,组间差异显著的基因的数量减少。即导致假阴性。 - 批次效应与样本处理条件的因素效应相同,则会加大样本之间的差异,最终难以区分差异是由于实验处理导致还是批次效应导致。即导致假阳性。 批次效应的评估: 通过水平重复样本之间的整合效应进行评估。 批次效应的规避: - 实验方法: - 一次收集完所有的样本并一次做完实验 - 混样技术,混样方式一次建库 - 生物信息学方法:PCA主成分分析和CCA典型相关分析 - CCA:CCA进行降维,然后在标准化CCA空间寻找最小互近邻(被称为锚,anchors)。为避免非相似细胞间异常锚的产生,使用SNN来评估细胞类型的相似性。通过寻找批次间的最小互近邻(mutual nearest neighbor,MNN),即批次间相似类型的细胞在批次间共有的邻居,再根据这些细胞对计算校正因子,用于后续校正。
参考:40.stat115 chapter 6.5 batch effect removal_哔哩哔哩_bilibili 关于批次效应的处理
RNA 降解是否会影响基因芯片检测质量?反应在基因芯片数据中的荧光强弱有什么规律? RNA 降解会导致反转录后产生的 cDNA 减少,使得基因芯片上某一基因的探针与 cDNA 结合发出的荧光信号减弱,最终会影响基因的表达量测定。反应在基因芯片数据中的荧光强弱会随着某一组织或细胞中该基因的表达量变化而变化,若基因处于活跃表达状态,呈现在基因芯片上的荧光就越强,反之被沉默表达的基因反应出较弱的荧光信号。
为什么要对基因表达量进行聚类?(目的) 聚类是为了可视化数据,理解数据大致的特征,总览基因的表达行为,对样本进行分类。 - 基因聚类是为了将不同样本(sample)或不同条件(condition)下具有相似表达模式的基因聚类 - 样本聚类是为了将在所有基因范围内具有相似表达模式的样本聚类
什么是基因表达模式? 基因表达模式可以看做是一个基因在所有样本之中表达情况的概型,例如 gene 1 在 a, b, c 三个样本中高表达,在 d, e, f 三个样本中低表达,而 gene 2 在这 6 个样本中也是如此表达,则认为 gene 1 与 gene 2 具有相似的表达模式(similar expression profile/pattern)
对基因表达量聚类所使用的距离?[[10-生信算法专题#^215e31|距离]] 一般有两种方式用来度量聚类分析中的距离尺度,分别是几何距离和线性相关系数。 几何距离可以衡量对象在空间上的距离远近关系,空间上相近的基因会被判为同一类,反之则为不同类。几何距离有曼哈顿距离 (绝对值距离)、欧式距离等。 几何距离比较适合衡量样本间的相似性,或基因在样本空间内的相似性。当基因表达量数据是一系列具有相同变化趋势的数据时,运用几何距离会丢失重要信息。这个时候对于具有相似表达模式的基因就需要使用相关性系数来衡量距离,如皮尔森相关系数(Pearson correlation coefficient),可以使用 1-cor 来表示基因表达模式的距离(越相关,cor 越大,1-cor 越小,距离越近)
- 基因芯片的背景矫正和标准化分别是用来做什么的?