鹏仔先生-趣站-一个有趣的网站!
鹏仔先生

鹏仔先生

当前位置:网站首页 > 文字大全 > 正文

illumina 双端测序

作者:百变鹏仔日期:2023-08-04 09:08:39浏览:9分类:文字大全

illumina 双端测序

illumina 双端测序(pair end)

illumina测序的核心在于利用可逆终止的、荧光标记的dNTP进行边合成边测序(Sequencing-By-Synthesis, SBS )

Flowcell(流动池)是有着2个或8个lane(泳道)的玻璃板,每个lane可以测一个样本或者多样本的混合物,且随机布满了能够与文库两端接头分别 互补配对或一致 的寡核苷酸(oligos,P7和P5接头)。一个lane包含两列,每一列有60个tile,每个tile会种下不同的cluster,每个tile在一次循环中会拍照4次(每个碱基一次)。

B站视频链接,讲的很详细: 陈巍学基因视频1:Illumina测序化学原理_哔哩哔哩_bilibili

1. 利用转座子(transposome)对双链DNA进行剪切以及接头(adapter)的连接

2. 接头连接成功后,利用低循环扩增技术在接头处进行修饰,分别在两端添加sequencing primer binding site1 / sequencing primer binding site2(即测序引物结合位点)、index1/index2以及我们称之P5和P7的寡核苷酸序列

下图是维基百科的示意图,详细一些。

注意:

关于index,也叫barcodes,因为一个lane可以同时测多个样品,为了避免混淆样品的read products,每种样品的DNA由一种index修饰,这样测序得到的reads都是具有index标记的,在测序结果中,依据之前标签与样品的对应关系,就可以获得对应样品的数据。而这里的 index1和index2是为了区分paired-end测序得到的双端reads

1. Flowcell上随机分布了两种不同的寡核苷酸序列,分别 与P5互补(即P5’),与P7一致(即P7)

2. 待测sequence通过P5与folwcell上的P5’序列杂交互补,以待测sequence为模板进行互补链(即reverse strand)的延伸,互补链的两端为P5’和P7’。

3. 接下来模板链被切断并洗下

Reverse strand的P7’与Flowcell上的P7杂交互补,进行链的合成,这就是我们所熟知的 桥式PCR

接下来合成的双链被解链,再分别与Flowcell上的接头杂交互补,延伸,解链,杂交,延伸,解链...如此重复35个循环

4. 桥式PCR完成后,使用NAOH将双链解链,并利用甲酰胺基嘧啶糖苷酶(Fpg)对8-氧鸟嘌呤糖苷(8-oxo-G)的选择性切断作用,选择性地将P5’与链的连接切断, 留下与Flowcell上P7连接的链 ,也就是Forward strand。同时游离的3’端被阻断,防止不必要的DNA延伸

1. 测序引物(sequencing primer)结合到靠近P5的测序引物结合位点1(sequencing primer binding site 1)上,在系统中加入四种dNTP和DNA聚合酶。这里的dNTP有两个特点:它是有荧光基团标记的,每种碱基标记的荧光基团不一样;它的3’末端连了一个叠氮基,这个叠氮基能够阻断后面的碱基与它相连

因此在聚合酶的作用下,与Forward strand相应位置碱基配对的dNTP就会结合到新合成的链上,而由于叠氮基的存在,后面的dNTP无法继续连接。这时用水将剩余的dNTP和酶给冲掉,将Flowcell进行扫描,扫描出来的荧光对应的碱基的配对碱基即是该链该位置的碱基。同时在这个Flowcell上有成千上万个cluster也在进行同样的反应,因此一个循环就能同时检测多个样本(这也是高通量的核心所在)。这个循环完成后,加入化学试剂把叠氮基和标记的荧光基团切掉,进行下一个循环(碱基的连接、检测与切除)。如此重复直至所有链的碱基序列被检测出,也就是Forward read 序列。

2. Index测序:所有循环结束后,read products 被洗掉,index1 primer与链上index primer1 结合位点杂交配对,进行index1的合成及检测

3. Index1测序完成后,洗脱测序产物。此时机器已通过荧光得到了index1的序列

4.Index2测序:Forward strand顶端的P5序列与Flowcell上的P5’杂交配对,进行index2测序。测序完成后洗脱产物

1. 洗脱index2测序产物后,以Flowcell上的P5’为引物,Forward strand为模板进行桥式扩增,得到双链

2. NAOH使双链变性为单链,并洗去已经测序完成的Forward strand

3. 类似的,readprimer2结合到靠近P7’的read primer binding site 2开始对Reverse strand的测序。测序完成后即可得到Reverse read序列。

前面介绍的都是paired-end的测序,而single-end测序方式是只将index,sequencing primer binding site以及P7/P5添加到 fragamented DNA片段的一端,另一端直接连上P5/P7,将片段固定在Flowcell上桥式PCR生成DNA簇,然后单端测序读取序列

什么是基因二代测序?

目前我们主要分析的数据还是二代测序的数据,也就是大家经常挂在嘴边的 NGS ,而这其中最大的赢家应该算是 illumina 测序公司了,其经典的边合成边测序(sequencing by synthesis,SBS)巧妙地利用带不同荧光的dNTP来让碱基组成可视化,本身还是很有意思的。但随之而来的就有一些问题,比如以RNA-seq为例, 如果你是一个经典的从表达矩阵开始的数据分析选手,那其实建库细节对你来说好像也没那么重要;而如果你是一个从原始fastq下机数据(甚至建库实验)开始的数据分析选手,此时建库的细节就可能显得尤为重要,需要你做到知根知底。 或许你经常遇到一些名词,其中有一些可能让你感到迷惑:

现在我们就以illumina经典的 TruSeq Stranded mRNA 建库测序为例来走一遍整个illumina测序的流程,为什么会选择这个建库策略呢? 首先,RNA-seq是目前我们触手可及、应用最广的基因表达量检测技术;其次,相较之于链非特异性测序,链特异性测序对大多数人来说更复杂,更难以理解。 关于链特异性测序我之前已经有一个长篇大论谈到了这个问题: 一文阐述链特异性测序——stranded? reverse-stranded? un-stranded? ,阅读量还不错,反馈也还可以,有兴趣的可以去看看,在这里就只以 TruSeq Stranded mRNA 为例了。

老规矩,我还是以图辅以文字的方式来先整体介绍一下 TruSeq Stranded mRNA

对着流程看,提前说一下, 红色始终代表sense strand的信息,天蓝色代表antisense strand的信息

注意了,我们现在回到这个结构,开始走上机测序的流程:

做过fastq文件比对的人都知道,这个过程中非常重要的,大家挂在嘴边的就是 去接头 ,第三个名词出来了: adapter 。那么到底什么是接头? fastqc 这样的软件又是怎样检测到的? cutadapt fastp trimmomatic trim_galore 这些软件又是怎么去接头的?似乎这些都是灰色地带,下面是我的理解:

首先还是看文库结构:

这实际上很好理解,我们没有人去adapter是从fastq文件中每条read的开头去的。那么什么是adapter呢?你可以简单理解为,在一个文库中,非生物学序列的其余序列都属于adapter,包括 P5、P7、测序引物结合位点 。那么fastqc是怎么检测adapter的呢?你去看看fastqc的GitHub,会发现它有这样的几个序列:

你可能会觉得很神奇,其实fastqc判断你的序列有没有adapter就是在和这几个序列做简单的匹配罢了。接踵而来的问题就是:

首先给答案:

听起来很离谱,画个图就清楚了:

果然,不能说完全相同,只能说一模一样,也就是说,现在市场上所有的Tn5转座酶都必须将这段序列连接到DNA的两端,这样才能让我们检测到adapter。

你可能还是不信,好吧,那再来一个其它的例子吧:

这不能说完全相同,只能说一模一样吧……总该信了?

结束了上面的测试,你或许会发现一个问题: 那按这么说,是不是read1和read2的测序引物的3'端总是会有部分是一样的啊?一样的部分就是作为判断adapter是否存在的那条序列? 你自己看看上面的那个图,不就知道了, 事实上就是这样。

最后,为了让你更信,我还把trim_galore的adapter序列也粘贴在这里,这不和fastqc的一模一样?原来纷繁复杂的illumina测序竟然这么统一!

第二代测序为高通量测序,采用微珠或高密度芯片边合成边测序,代表有454,solexa,solid,高通量,可一次获得数G数据,相对与第三代,都仍然需要扩增的方法放大信号,扩增后再检测。

第二代测序技术的核心思想是边合成边测序(Sequencing by Synthesis),即通过捕捉新合成的末端的标记来确定DNA的序列,现有的技术平台主要包括Roche/454 FLX、Illumina/Solexa Genome Analyzer和Applied Biosystems SOLID system。

第一代测序技术的主要特点是测序读长可达1000bp,准确性高达99.999%,但其测序成本高,通量低等方面的缺点,严重影响了其真正大规模的应用。因而第一代测序技术并不是最理想的测序方法。

经过不断的技术开发和改进,以Roche公司的454技术、illumina公司的Solexa,Hiseq技术和ABI公司的Solid技术为标记的第二代测序技术诞生了。

第二代测序技术大大降低了测序成本的同时,还大幅提高了测序速度,并且保持了高准确性,以前完成一个人类基因组的测序需要3年时间,而使用二代测序技术则仅仅需要1周,但在序列读长方面比起第一代测序技术则要短很多。

1)测序文库的构建(Library Construction)

首先准备基因组(虽然测序公司要求样品量要达到200ng,但是Gnome Analyzer系统所需的样品量可低至100ng,能应用在很多样品有限的实验中),然后将DNA随机片段化成几百碱基或更短的小片段,并在两头加上特定的接头(Adaptor)。如果是转录组测序,则文库的构建要相对麻烦些,RNA片段化之后需反转成cDNA,然后加上接头,或者先将RNA反转成cDNA,然后再片段化并加上接头。片段的大小(Insert size)对于后面的数据分析有影响,可根据需要来选择。对于基因组测序来说,通常会选择几种不同的insert size,以便在组装(Assembly)的时候获得更多的信息。

2)锚定桥接(Surface Attachment and Bridge Amplification)

Solexa测序的反应在叫做flow cell的玻璃管中进行,flow cell又被细分成8个Lane,每个Lane的内表面有无数的被固定的单链接头。上述步骤得到的带接头的DNA 片段变性成单链后与测序通道上的接头引物结合形成桥状结构,以供后续的预扩增使用。

3)预扩增(Denaturation and Complete Amplification)

添加未标记的dNTP 和普通Taq 酶进行固相桥式PCR 扩增,单链桥型待测片段被扩增成为双链桥型片段。通过变性,释放出互补的单链,锚定到附近的固相表面。通过不断循环,将会在Flow cell 的固相表面上获得上百万条成簇分布的双链待测片段。

4)单碱基延伸测序(Single Base Extension and Sequencing)

在测序的flow cell中加入四种荧光标记的dNTP 、DNA聚合酶以及接头引物进行扩增,在每一个测序簇延伸互补链时,每加入一个被荧光标记的dNTP就能释放出相对应的荧光,测序仪通过捕获荧光信号,并通过计算机软件将光信号转化为测序峰,从而获得待测片段的序列信息。从荧光信号获取待测片段的序列信息的过程叫做Base Calling,Illumina公司Base Calling所用的软件是Illumina’s Genome Analyzer Sequencing Control Software and Pipeline Analysis Software。读长会受到多个引起信号衰减的因素所影响,如荧光标记的不完全切割。随着读长的增加,错误率也会随之上升。

5)数据分析(Data Analyzing)

这一步严格来讲不能算作测序操作流程的一部分,但是只有通过这一步前面的工作才显得有意义。测序得到的原始数据是长度只有几十个碱基的序列,要通过生物信息学工具将这些短的序列组装成长的Contigs甚至是整个基因组的框架,或者把这些序列比对到已有的基因组或者相近物种基因组序列上,并进一步分析得到有生物学意义的结果。

参考资料:

百度百科-第二代DNA测序技术鹏仔 微信 15129739599

百科狗 baikegou.com

免责声明:我们致力于保护作者版权,注重分享,当前被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!邮箱:344225443@qq.com)

图片声明:本站部分配图来自网络。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!

  • 上一篇:已经是第一篇了
  • 下一篇:已经是最后一篇了
内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,本着为中国教育事业出一份力,发布内容不收取任何费用也不接任何广告!)