生信自学笔记(二)生物信息

基本类型

1. 核苷酸序列数据

DNA 或 RNA 当中四种碱基的排列顺序。

  • DNA : A T C G
  • RNA : A G C U

2. 蛋白质序列和结构数据

蛋白质序列是指 20 种氨基酸的排列顺序(即蛋白质的一级结构)。
蛋白质结构数据指的是蛋白质的三级结构信息。其三级结构是在各种二级结构的基础上,再进一步盘曲或者折叠形成的具有一定规律的三维空间结构。蛋白质二级结构(英语:Protein secondary structure)在生物化学及结构生物学中,是指一个生物大分子,如蛋白质及核酸(DNA 或 RNA),局部区段的三维通式。二级结构是由生物大分子在原子分辨率结构中所观察到的氢键来定义的。蛋白质的二级结构通常是以主链中氨基之间的氢键模式来定义

这里写图片描述

3. 分子标记数据

分子标记(Molecular marker)是遗传标记的一种,是在基因水平上的标记,是直接在 DNA 分子上检测遗传变异。分子标记能对不同发育时期的个体、任何组织器官甚至细胞作检测,数量极多,遍及整个基因组,多态性高, 遗传稳定,不受环境及基因表达与否的限制,正是因为这些优点分子标记的应用越来越广泛。它包括 RFLP、RAPD、AFLP、SSR 和 ISSR 等等。
分子标记大多以电泳谱带的形式表现,大致可分为下图的三大类。

这里写图片描述

4. 生物芯片数据

玻璃或高分子为基材,配合微机电自动化、或其他精密加工技术,所制作之高科技元件,有如半导体芯片一般能快速进行繁复运算;生物芯片具有快速、精确、低成本之生物分析检验能力。在分子生物学,生物芯片基本上是小型化的实验室,可以同时执行数百个或数千个生化反应。
生物芯片技术起源于核酸分子杂交。该技术根据生物分子间特异相互作用的原理,将生化分析过程集成于芯片表面,实现生物信息的存储和集成。

不同芯片上的载体材料分别为:

  • 基因芯片:cDNA 或寡核苷酸。互补DNA(complementary DNA,cDNA)是一种利用逆转录酶,以 RNA(通常是mRNA)为模板做成的复制品,经常用来将真核生物的基因(以 mRNA 形式)复制到原核生物细胞中。若一个 cDNA 含有许多来自不同基因的 mRNA,称为 cDNA 基因库(cDNA library)。另外也可制成只含单一mRNA的cDNA。

  • 蛋白质芯片:蛋白质或抗原。

  • 细胞芯片:细胞

  • 组织芯片:组织切片

DNA 测序技术

第一代测序技术

双脱氧链终止法(dideoxy chain-termination method),又称桑格法(Sanger method),为一种常用的核酸测序技术,用于 DNA 分析,由英国生物化学家弗雷德里克 · 桑格于 1977 年发明。双脱氧链终止法与化学降解法以及其衍生方法统称为第一代 DNA 测序技术,为人类基因组计划所使用主要测序方法。

基本原理(搬运自 wiki + 果壳)

双脱氧链终止法采用 DNA 复制原理。 Sanger 测序反应体系中包括目标 DNA 片段、脱氧三磷酸核苷酸(dNTP)、双脱氧三磷酸核苷酸(ddNTP)、测序引物及 DNA 聚合酶等。 测序反应的核心就是其使用的 ddNTP:由于缺少 3’-OH 基团,不具有与另一个 dNTP 连接形成磷酸二酯键的能力,这些 ddNTP 可用来中止 DNA 链的延伸。此外,这些 ddNTP 上连接有放射性同位素或荧光标记基团,因此可以被自动化的仪器或凝胶成像系统所检测到。
DNA 是脱氧核糖核酸,这就像有一个东西他一边是螺母一边是螺钉,可以一个接一个连起来,然后把螺母视为 - OH,双脱氧就是少一个螺母,如果连上 ddNTP 就无法继续延伸了。
将待测的核酸链分为四份,分别加入四种双脱氧核苷酸后,以加入 ddGTP 为例(相应地还有 ddATP、ddCTP、ddTTP),在 DNA 聚合酶合成到需要 G 碱基的核苷酸时,普通 dGTP 和双脱氧的 ddGTP 都有一定概率被合成到核酸链上。那些合成上 ddGTP 的核酸链不再延伸,而合成上 dGTP 的会继续朝下反应。这样,加入 ddGTP 的这份溶液最后会生成所有以 G 结尾的长度不一的核酸链。
将这四份核酸链溶液同时进行电泳检测,从条带的位置以及链越短在凝胶中迁移越远的原则,即可判断出这些核酸链相互间的长短关系,从而推算出序列信息。短的跑得快在前面,长的慢在后面,由于四种溶液分开,所以断在哪里,哪个位置就是这种核苷酸。
总而言之一句话,某个地方有某种碱基,那它不一定会断裂,但是如果断裂了,一定是因为断裂处有这种碱基。

还有一种化学降解法,此处先略去不表

第二代测序技术

主要是三大测序公司 (Illumina、454、ABI) 研发的测序仪在引导潮流。

基本原理(搬运自 PLOB

2.1. Illumina Solex 技术的基本原理及过程:
(1) 文库制备

将基因组 DNA 打成几百个碱基 (或更短) 的小片段,在片段的两个末端加上接头 (adapter)。

(2) 产生 DNA 簇

利用专利的芯片,其表面连接有一层单链引物,DNA 片段变成单链后通过与芯片表面的引物碱基互补被一端 “固定” 在芯片上。另外一端 (5’或 3’) 随机和附近的另外一个引物互补,也被 “固定” 住,形成 “桥 (bridge)“。反复 30 轮扩增,每个单分子得到了 1000 倍扩增,成为单克隆 DNA 簇。DNA 簇产生之后,扩增子被线性化,测序引物随后杂交在目标区域一侧的通用序列上。

(3) 测序—边合成边测序 (Sequencing By Synthesis) 的原理:

加入改造过的 DNA 聚合酶和带有 4 种荧光标记的 dNTP。这些核苷酸是 “可逆终止子”,因为 3’羟基末端带有可化学切割的部分,它只容许每个循环掺入单个碱基。此时,用激光扫描反应板表面,读取每条模板序列第一轮反应所聚合上去的核苷酸种类。之后,将这些基团化学切割,恢复 3’端粘性,继续聚合第二个核苷酸。如此继续下去,直到每条模板序列都完全被聚合为双链。这样,统计每轮收集到的荧光信号结果,就可以得知每个模板 DNA 片段的序列。目前的配对末端读长可达到 2×50 bp,更长的读长也能实现,但错误率会增高。读长会受到多个引起信号衰减的因素所影响,如荧光标记的不完全切割。

(4) 数据分析

自动读取碱基,数据被转移到自动分析通道进行二次分析。

2.2. ROCH-454 技术的基本原理及过程 :

(1) 样品输入并片段化

样品来源,如基因组 DNA、PCR 产物、RNA 等小序列片段,若样品碱基的数量级在 Kb 以上,则要打断为 300-800bp 左右;对于小分子的非编码 RNA 或者 PCR 扩增产物,这一步则不需要。短的 PCR 产物则可以直接跳到步骤 (3)。

(2) 文库制备

借助一系列标准的分子生物学技术,将 A 和 B 接头(3’和 5’端具有特异性)连接到 DNA 片段上。接头也将用于后续的纯化,扩增和测序步骤。具有 A、B 接头的单链 DNA 片段组成了样品文库。

(3) 单链 DNA 文库被固定在特别设计的 DNA 捕获磁珠上。每一个磁珠携带了一个独特的单链 DNA 片段。磁珠结合的文库被扩增试剂乳化,形成油包水的混合物,这样就形成了只包含一个磁珠和一个独特片段的微反应器。

(4) 乳液 PCR 扩增

独特片段在微反应器复制,没有竞争及污染序列的影响。乳液被打破后,上百万拷贝序列仍结合在磁珠上。

(5) 携带 DNA 的捕获磁珠随后放入 PTP 板中进行后继的测序。然后将 PTP 板放入测序仪中,含有四种碱基的四个单独的试剂瓶,根据 A、T、C、G 的顺序依次循环进入 PTP 板中,然后根据焦磷酸测序技术,利用软件分析数据,确定碱基的顺序。

2.3 ABI 测序原理及其过程:

ABI 测序与其它第二代测序技术最大不同点在于前者使用的是 DNA 连接酶,而不是 DNA 聚合酶且使用了荧光探针。

(1) 文库制备

基因组 DNA 打断,两头接上接头,制成文库,若是转录组测序,也可以反转录成 cDNA,然后制成文库。

(2) 乳液 PCR / 微珠富集

在 PCR 反应前,将包含 PCR 所有反应成分的水溶液注入到高速旋转的矿物油表面,水溶液瞬间形成无数个被矿物油包裹的小水滴,这就构成了独立的 PCR 反应空间。理想状态下,每个小水滴只含一个 DNA 模板和一个 P1 磁珠,由于水相中的 P2 引物和磁珠表面的 P1 引物所介导的 PCR 反应且拷贝数量级呈指数增长,PCR 反应结束后,P1 磁珠表面就固定有拷贝数目巨大的同来源 DNA 模板扩增产物。

(3) 微珠沉积

3’修饰的微珠沉积在一块玻片上。在微珠上样的过程中,沉积小室将每张玻片分成 1 个、4 个或 8 个测序区域。SOLiD 系统最大的优点就是每张玻片能容纳更高密度的微珠,在同一系统中轻松实现更高的通量。

(4) 连接测序

SOLiD 连接反应的底物是 8 碱基单链荧光探针混合物,探针的 5’末端分别标记了 6-FAM、CY5、CY3、Texas Red 这 4 种颜色的荧光染料;探针 3’端 1~5 位为随机碱基,其中第 1、2 位构成的碱基对是表征探针染料类型的编码区,而 3~5 位的 “n” 表示随机碱基,6~8 位的 “z” 指的是可以和任何碱基配对的特殊碱基。单向 SOLiD 测序包括五轮测序反应,每轮测序反应含有多次连接反应。第一轮测序的第一次连接反应由连接引物 “n” 介导,由于每个磁珠只含有均质单链 DNA 模板,所以这次连接反应掺入一种 8 碱基荧光探针,SOLiD 测序仪记录下探针第 1、2 位编码区颜色信息,随后的化学处理断裂探针 3’端第 5、6 位碱基间的化学键,并除去 6~8 位碱基及 5’末端荧光基团,暴露探针第 5 位碱基 5’磷酸,为下一次连接反应作准备。第一轮的第一次反应,模板链增加了 5 个碱基,1、2 位上的碱基根据荧光颜色可以确定是哪几种,所以第二次反应,从 6-10 位,又增加 5 个碱基,6、7 位碱基可以根据荧光颜色读取,以此类推可以知道 11 位、12 位、16 位、17 位……

第二轮连接引物 n-1 比第一轮错开一位,可以得到 0、1 位起始的若干碱基颜色信息,五轮测序反应反应后,按照第 0、1 位,第 1、2 位… … 的顺序把对应于模板序列的颜色信息连起来,就得到由 “0,1,2,3…” 组成的 SOLiD 原始颜色序列。

(5) 数据分析

测序完成后,获得了由颜色编码组成的 SOLiD 原始序列。根据双碱基编码对应的颜色,可以推断出碱基的种类。

这里写图片描述

第三代测序技术

基本原理(搬运自 baidu)

第三代测序技术原理主要分为两大技术阵营:
第一大阵营是单分子荧光测序,代表性的技术为美国螺旋生物 (Helicos) 的 SMS 技术和美国太平洋生物 (Pacific Bioscience) 的 SMRT 技术。脱氧核苷酸用荧光标记,显微镜可以实时记录荧光的强度变化。当荧光标记的脱氧核苷酸被掺入 DNA 链的时候,它的荧光就同时能在 DNA 链上探测到。当它与 DNA 链形成化学键的时候,它的荧光基团就被 DNA 聚合酶切除,荧光消失。这种荧光标记的脱氧核苷酸不会影响 DNA 聚合酶的活性,并且在荧光被切除之后,合成的 DNA 链和天然的 DNA 链完全一样。
第二大阵营为纳米孔测序,代表性的公司为英国牛津纳米孔公司。新型纳米孔测序法(nanopore sequencing)是采用电泳技术,借助电泳驱动单个分子逐一通过纳米孔 来实现测序的。由于纳米孔的直径非常细小,仅允许单个核酸聚合物通过,而 ATCG 单个碱基的带电性质不一样,通过电信号的差异就能检测出通过的碱基类别,从而实现测序。

猜你喜欢

转载自blog.csdn.net/jining11/article/details/81221261