详细介绍一下第二代第二代dna测序技术ppt中的pair-end是什么意思

当前位置: >>
二代测序4个平台比较illumina&Roche
illumina MiSeq&HiSeq1000 和 Roche454 Junior&FLX 性能比较表Illumina MiSeq通量 最高通量的个人化测序仪,自动完成 从簇生成到测序到数据一级分析和 二级分析 ? 读长 运行费用 数据准确 性 2x300bp 300-1000 美元/G 的数据量 ? Illumina SBS
测序化学原 理 是二代测序技术中最被广泛 证明和认同的(市场份额和 发表文章数量均远超过竞争 对手) ? ? 实验周期 数 据 质 量 不 受 Homopolymeric regions 影响 &Q20 数据质量( &80%数据 为 Q30) 提供最快的二代测序的实验流程,最 快可在 8 小时内完成从 DNA 样本建库 到数据分析获取全过程。 流程包括: ? 文库制备:1.5 小时,使用快 每此运行可产出 300M-15 Gb 数据Roche 454 Junior0.035G 数据量Illumina HiSeq1000全球最高通量的二代测序: 300G 的数据量;Roche GS FLX 0.45G 碱基数据量;400 bp 70,000 美元/G 的数据量 ? Q20 数据质量 (如果无重复序 列) ? 焦 磷 酸 测 序 存 在 homopolymer 无法正确读取2x100bp 60 美元/G 的数据量 ? Illumina SBS 测 序 化 学 原 理 是二代测序技术中最被广泛 证明和认同的(市场份额和 发表文章数量均远超过竞争 对手) ? ? 数 据 质 量 不 受 Homopolymeric regions 影响 &Q20 数据质量 (&80%数据为 Q30)450bp 20,000 美元/G 的数据量? Q20 数据质量 (如果 无重复序列) ? 焦磷酸测序存在 homopolymer 无 法 正确读取整个实验流程需要数天时间,包括: ? ? 文库制备:1 天,且需要大量 的手工操作 ePCR+ Enrichment: 在主机外 进行,且需要大量手工操作, 手动进行。 ? 测序:10 小时文库制备:1.5 小时 Netera 快速方法 和 1 天的 TruSeq 标准方法。 8.5 天产生 300G 数据。整个实验流程需要数天时 间,包括: ? 文库制备:1 天,且 需要大量的手工操 作 ? ePCR+ Enrichment: 在主机外进行, 且需 要大量手工操作, 手 Illumina MiSeq速 Nextera(1ng 上样量)方法 ? 在一个仪器系统内、以不到 4.5 小时(1 X 36 bp)的时间 完成从自动化簇生成到测序 全过程 ? 在一个仪器系统内, 以不到 2 小时的时间完成初级和次级 分析 ? ? 应用范围 ? ? ? ? ? ? ? ? 2 X 150 bp 运行约需 24 小时 2 x 250 bp 运行约需 35 小时Roche 454 JuniorIllumina HiSeq1000Roche GS FLX动进行。 ? 测序:10 小时中小基因组的研究: 扩增子测序 靶向重测序 Clone Checking 小基因组测序 (de nove/重测 序,&20Mb) ChIP-Seq 小 RNA 测序 宏基因组(16S) 以及更多应用……小基因组的测序应用功能基因组研究的各个领域: ? ? ? ? ? ? ? ? 全基因组深度测序(大基因 组,中等基因组,小基因组) 全基因组 de novo 测序进行小基因组 DNA 和 RNA 的研究。肿瘤基因组测序 ChiP-Seq 小 RNA 甲基化 转录组研究 宏基因组 所有应用都已得到验证软件支持?原厂软件可完成碱基识别, 序列拼装,基因变异和缺失 分析,reads counting 和小基 因组 De Novo 拼装原厂软件可快速完成小基因 组的拼接?原厂软件可完成碱基识别, 序列拼装,基因变异和缺失 分析,reads counting?原厂软件可快速完 成小基因组的拼接?作为市场占有率超过 2/3 的 二代测序,有着最广泛的第 三方软件支持?作为市场占有率超过 2/3 的 二代测序,有着最广泛的第 三方软件支持发表文献& 2500 篇文章在各个领域的&1500 篇文章在各个领域的& 2500 篇文章在各个领域的&1500 篇 文 章 在 各 Illumina MiSeq应用 ? ?Roche 454 Junior应用Illumina HiSeq1000应用Roche GS FLX个领域的应用Q20 表示单条序列里对应碱基的准确性为 99%,Q 值越高,数据质量约好。 * (publicized accuracies) - Loman et al. Nature Biotechnology, April 2012& &&&&&&高通量测序的方式主要有:单端测序、paired-end/mate-paired(PE/MP)测序&--相关文章
“” 的更多相关文章
illumina 的 mate-pair paired-end and single read以solexa为例,对单端测序(Single-read)和双端测序(Paired-end和Mate-pair)进行介绍。Paired-end方法是指在构建待测DNA文库时在两端的接头上都加上测序引物结合位点,在第一轮测序完成后,去除第一轮测序的模板链,用对读测序模块(Paired-End Module)引导互补链在原位置再生和扩增,以达到第二轮测序所用的模板量,进行第二轮互补链的合成测序(图2)。
【原创】DNA测序实验流程和DNA测序原理 一个试剂盒的测序流程。
全基因组鸟枪法测序 对某基因组文库全部克隆片段进行末端序列测定中未测到的碱基数,即缺口(gap),与已测定的总碱基数相关。当m值达到5(即随机测定的碱基数达到基因组5倍时),基因组中未测定的碱基数为基因组总碱基数的0.67%(e-5=0.0067)。鸟枪法测序的缺点随着所测基因组总量增大,所需测序的片段大量增加,各个片段重叠或一个连续体的概率是2n2-2n高等真核生物(如人类)基因组中有大量重复序列,导致判断失误。
搞怪礼物:把自己的DNA序列片段做成相框挂图 | 爱…售价从225美元到440美元不等,而除了DNA,这家公司还能为你制作指纹和唇印,甚至通过DNA序列为你分析整个家族史——流程和制作DNA相框一样,只是,他们回寄你的不再是DNA序列照片,而是一副超大的二维码图片,用手机拍摄就能被带到DNA 11公司为每个寻根客户提供的独立页面,上面会记录你的DNA序列,以及你们家族的DNA系谱,以及,数千年前老祖宗的资料!
引物纯化方式选择指南 生工引物纯化方式选择指南。所以,如您要对PCR产物克隆后测序,一定要选择ULTRA PAGE纯化或HPLC纯化的引物。A、测序引入的错误对于PCR产物进行的克隆而言,无论是TA克隆或酶切克隆,引物区往往位于载体两端,如果用载体引物进行测序,此时克隆引物区离测序引物区的距离比较近,处于测序起始阶段或正好处于测序染料峰所在的区域内(90-120 bp),这两个区域也是最容易产生测序错误的地方。
第二代测序技术(东拼西凑的课程论文)_FantasyJ_新浪博客第二代测序技术(东拼西凑的课程论文)( 00:37:28)Illumina/Solexa Genome Analyzer测序的基本原理是边合成变测序。目前一些模式生物的全基因组重测序、非模式生物的全基因组测序以及一些生物的转录组测序都采用了新一代测序技术,比如说前不久刚发表的熊猫的全基因组(Ruiqian Li et al,2009)测序就是用Solexa测序技术完成的。
【专题】第二代测序技术漫谈【专题】第二代测序技术漫谈作者: holyala (站内联系TA) 发布: 今天看到一个帖子讨论第二代测序,可惜回帖寥寥。将磁珠与测序试剂加入PTP中,使之可用于上机测序。Solexa平台的应用范围极广,几乎囊括了目前基因组学研究的所有方面,例如基因组从头测序(de novo)、重测序(re-sequencing)、基因组结构分析、转录组测序、表达谱分析、小RNA及非编码RNA测序、表观遗传学研究等等。
罗氏第二代创新高通量基因组测序系统-技术前沿(杂志)-生物技术世界。GS FLX系统超高通量测序技术原理与GS 20一样,GS FLX系统的测序原理也是基于焦磷酸测序法,一种依靠生物发光进行DNA序列分析的新技术;6)数据读取和分析工具: GS FLX 系统提供三种不同的生物信息学工具对测序数据进行分析,适用于不同的应用:例如多达3GB序列的重测序,对比已知参考序列进行的扩增产物差异分析,及 120MB的从头测序工作等。
测序过程常见问题分析与解答DNA测序样品用什么溶液溶解比较好?与测序引物有关的问题:答:对于通用测序引物,只要正确使用,一般不会有太大问题,测序引物问题主要发生在客户自己提供的PCR引物上。应该明确的一点是并不是所用的用于PCR的引物都可以用来作测序,以下几种PCR引物将是不适 合用作测序引物的:通常用于测序的引物纯度要在90%以上,引物纯度低时,测序反应的背景将 明显增大,直接影响到测序结果。
我们比较了454测序仪最初的技术参数(每次可以获得两千万碱基序列,测序长度100bp,准确 率96%)和用于对James Watson进行测序时的技术参数(每次可以获得一亿碱基序列,测序长度250bp,准确率超过99%),结果发现摩尔定律真的适用于基因组测序领域。此外,虽然目前的第二代测序仪的测序长度较短,但它们具有高通量的优势,因此可以将纳米孔测序技术和这些第二代测序技术结合起来,以弥补第二代测序仪在测序长度方面的不足。
其中,焦磷酸测序法是后来Roche公司454技术所使用的测序方法2–4,而连接酶测序法是后来ABI公司SOLID技术使用的测序方法2,4,但他们的共同核心手段都是利用了Sanger1中的可中断DNA合成反应的dNTP。Illumina的这种测序技术每次只添加一个dNTP的特点能够很好的地解决同聚物长度的准确测量问题,它的主要测序错误来源是碱基的替换,目前它的测序错误率在1%-1.5%之间,测序周期以人类基因组重测序为例,30x测序深度大约为1周。
中国生物器材网--DNA测序技术的现状和发展(下)不过SMRT测序仪采用的并不是这种方法——等DNA聚合酶完成了复制工作之后再判读序列的方法,该技术采用的是实时对DNA聚合酶的工作状态进行 监测的方法,每一个DNA链分子都被吸附在小孔的底部,在DNA聚合酶复制的同时,SMRT测序仪就会实时读出每一个碱基,这样就能得到完整的序列。SMRT测序仪在提高测序速度的同时还能够提高测序的准确率。
宏基因组学(又称元基因组学,环境基因组学,生态基因组学等),是研究直接从环境样本中提取的基因组遗传物质的学科。功能基因组学(Functuionalgenomics)又往往被称为后基因组学(Postgenomics),它利用结构基因组所提供的信息和产物,发展和应用新的实验手段,通过在基因组或系统水平上全面分析基因的功能,使得生物学研究从对单一基因或蛋白质得研究转向多个基因或蛋白质同时进行系统的研究。
外显子区域序列富集技术策略—基于NimbleGen SeqCap技术。2) 最新解决方案推介:NimbleGen SeqCap EZ Exome Library V3序列捕获方案 new!b) NimbleGen SeqCap EZ Exome Library V3覆盖了更多外显子区域以及miRNAs区域,信息更为全面:c) NimbleGen SeqCap EZ Exome Library V3进一步完善了可运用于大规模多样本研究的富集方案,建立了可进行捕获前或捕获后混合样本的multuplex技术。
基因的特性有DNA碱基序列决定,DNA序列分析(SEQUENCING)是分子生物学研究的重要手段和进一步认识、改造目的的基因的基础。检测的时候,把受检者的DNA从其血液、口腔黏膜或其它细胞样品中提取出来,然后用PCR技术将待检测的基因片段定位并大量复制,最后根据不同的基因突变情况采用基因测序、SNP分型,凝胶电泳等方法判断待测基因的基因型,从而对相应疾病的患病风险进行预测或对不同药物在体内的强弱代谢进行分析。
美国加州大学戴维斯分校(UC Davis)医学院及Pacific Biosciences公司的研究人员利用单分子实时测序技术,
他们认为,北卡小组测序了同水熊虫一起生活的细菌的DNA,尽管他们已经尽力了,但还是误将这些基因当做了水熊虫的基因。如果这种技术奏效——大部分也确实奏效了——那就说明两个基因确实是连在同一条DNA链上的,也就是说,源于细菌的基因不可能是污染导致的(译者注:北卡小组在组装好的基因组中,挑选了107个包含外源基因和动物基因,或是包含两个外源基因的片段作为目标序列进行PCR,获得了104个大小吻合的扩增产物)。
“杀不死”的水熊虫竟是个基因“小偷”?目前,研究小组发现水熊虫启动了一些“偷“来的基因,在原本的生物体中,这些基因与对抗环境压力相关。因此他们推测,水熊虫传奇般的耐受能力可能与外来基因本身的特殊功能有关。目前,北卡罗来纳大学的研究者正在计划逐步灭活水熊虫的外源基因,看它们是否会失去那传奇般的无敌能力。因此他们认为,北卡小组的测序和分析发生了错误,误将跟水熊虫一起生活的细菌基因统计进去。
人类基因组计划。其内容可简单地概括为遗传图、物理图与序列图的绘制,处于核心位置的是序列图的绘制——测定人类基因组的全部DNA序列,从而获得人类全面认识自我最重要的生物学信息。序列图是HGP的核心,它与遗传图、物理图密不可分,它本身又是核苷酸水平的物理图。第二阶段将产生一张完整的人类基因组DNA序列图,目标是通过填补序列中的间隙和将全序列的准确率提高至99.99%,从而产生一个“完成的”人类基因组序列。
物理图谱(Physics Map):物理图谱描绘DNA上可以识别的标记的位置和相互之间的距离(以碱基对的数目为衡量单位),这些可以识别的标记包括限制性内切酶的酶切位点,基因等。DNA是很大的分子,由限制酶产生的用于测序反应的DNA片段只是其中的极小部分,这些片段在DNA链中所处的位置关系是应该首先解决的问题,故DNA物理图谱是顺序测定的基础,也可理解为指导DNA测序的蓝图。
Illumina公司的新一代测序仪Genome Analyzer最早由Solexa公司研发,利用其专利核心技术“DNA簇”和“可逆性末端终结(reversible terminator)”,实现自动化样本制备及基因组数百万个碱基大规模平行测序。Genome Analyzer技术的基本原理:需要样品量少Genome Analyzer系统需要的样品量低至100ng,能应用在很多样品有限的实验(比如免疫沉淀、显微切割等)中。单个或配对末端支持Genome Analyzer系统支持单个片段或配对末端文库。
这是因为要测序的DNA是用分子克隆技术插进载体DNA中的,载体DNA的序列是已知的,可以根据载体DNA序列设计引物,最后测序的结果实际上是前面有一段载体DNA序列,后面才是我们要的DNA序列)。把四份样品中的新DNA链综合起来看,就是一条条长短不一的DNA片段,每个不同片段的长度只差一个核苷酸,那么,如果能把这些DNA片段从短到长依次排列,看它们最后一个核苷酸是什么样的,依次记下来,不就是我们想要的DNA序列了吗?
科学家改良基因组组装工艺流程。利用太平洋生物科学公司的单分子实时DNA测序平台,生成的读取片段达到数万个核苷酸长度,比人类基因组计划时期的主力技术——桑格测序技术还要长。太平洋生物科学公司首席科学官乔纳斯·克拉奇也表示,通过与JGI微生物和微生物基因组组装与注释领域的科学家合作,他们才能改变单分子测序组装方法,使组装结果质量更高,而且在速度和价格方面能与下一代测序与组装方法竞争。
#表观全局#Epigenomic Assays:表观遗传检测方法荟萃(Cell SnapShot)中... #表观全局#Epigenomic Assays:表观遗传检测方法荟萃(Cell SnapShot)中英互译V1.2 原创
Huan 生物信息 生物信息。基因组尺度的开放染色质位置作图,是通过直接测序DNA片段测量基因组的染色质松弛区域是否转座子插入或核酸酶消化的情况。全基因组尺度范围内测量染色质DNA片段间互作的高通量测序需要 单个样品5亿的Read。
或直接在PCR产物5''端加上测序接头Forward primer(Primer A-key):5''-测序接头(30b)+模板特异序列-3''Reverse primer(Primer P1-key):5''-测序接头(23b)+模板特异序列-3''2)基因组DNA文库:DNA样品通过物理作用打碎成200~300bp的小片段,通过试剂盒在模板片段两端加上测序接头,完成文库的构建测序接头上标记有生物素,用于下一步纯化2.一个DNA片段 = 一个磁珠 每一个单链DNA片段被固定在一个磁珠上,进行乳液PCR形成簇。
另外一个杰出的基因组学家文特尔(Craig Venter)表示,“非常坦白地说人类基因组从未完全测序。”哈佛医学院的大咖级人物George Church也说,“人类基因组没有被完全测序,据我所知也没有任何其他的哺乳动物基因组被完全测序。”George Church曾在测序技术领域取得了关键的早期进展。造成这些测序结果的空白间隙(或者漏洞)的原因是:DNA测序机器在测序基因组时不像人类读书那样从第一个字看到最后一个字。
哈佛大学的研究人员把一张手掌的照片和一段策马奔腾的动态图片编码成 DNA 片段,借助 CRISPR 基因编辑技术剪切到大肠杆菌的基因当中,在数代繁衍后重新读取 DNA 片段,图像的还原度达到了 90%,成果发表在本周的《自然》杂志上。这是一项有趣的研究——它并没有降低 DNA 存储技术的成本,更像是用 CRISPR 技术来炫技,证明它可以把数据写进活的细胞,再通过细胞的复制,得到还原度比较高的 DNA 片段。
高通量测序技术(High-throughputsequencing,HTS)是对传统Sanger测序(称为一代测序技术)革命性的改变, 一次对几十万到几百万条核酸分子进行序列测定, 因此在有些文献中称其为下一代测序技术(next generation sequencing,NGS )足见其划时代的改变, 同时高通量测序使得对一个物种的转录组和基因组进行细致全貌的分析成为可能, 所以又被称为深度测序(Deep sequencing)。第三代测序技术也叫从头测序技术,即单分子实时DNA测序。
PCR (Polymeras Chain Reaction) 检测又称聚合酶链式反应。是一种在体外快速扩增特异性DNA序列的技术。自1985年以来,PCR技术的出现极大地改变了DNA分子研究的指导方法(朱永长等,1995)。PCR技术的应用范围很广,在检测植物遗传转化方面可以利用设计的特异引物对转化材料进行锚定PCR,以检测插入转化材料的特异片段及片段的大小。当前位置: >>
基因组二代测序数据的自动化分析流程
Hereditas (Beijing) 2014 年 6 月 , 36(6): 618D 624技术与方法基因组二代测序数据的自动化分析流程李文轲 1, 李丰余 1,2, 张思瑶 1, 蔡斌 1, 郑娜 1, 聂宇 1, 周到 2, 赵倩 11. 中国医
学科学院 , 北京协和医学院 , 国家心血管病中心 , 阜外心血管病医院 , 心血管疾病国家重点实验室 , 北京 . 中南民族大学生物医学工程学院 , 武汉 430074摘要: 二代测序技术的发展对测序数据的处理分析提出了很高的要求。目前二代测序数据分析软件很多 , 但是绝大多数软件仅能完成单一的分析功能 (例如:仅进行序列比对或变异读取或功能注释等 ), 如何能正确高效地 选择整合这些软件已成为迫切需求。文章设计了一套基于 perl 语言和 SGE 资源管理的自动化处理流程来分析 Illumina 平台基因组测序数据。 该流程以测序原始序列数据作为输入 , 调用业界标准的数据处理软件 (如: BWA, Samtools, GATK, ANNOVAR 等 ), 最终生成带有相应功能注释、便于研究者进一步分析的变异位点列表。该流 程通过自动化并行脚本控制流程的高效运行 , 一站式输出分析结果和报告 , 简化了数据分析过程中的人工操作, 大大提高了运行效率。用户只需填写配置文件或使用图形界面输入即可完成全部操作。该工作为广大研究者分 析二代测序数据提供了便利的途径。关键词:  二代测序 ; 自动化数据分析 ; 流程 ; 变异检测Automatic analysis pipeline of next-generation sequencing dataWenke Li1, Fengyu Li1, 2, Siyao Zhang1, Bin Cai1, Na Zheng1, Yu Nie1, Dao Zhou2, Qian Zhao11. State Key Laboratory of Cardiovascular Disease, Fuwai Hospital, National Center for Cardiovascular Disease, Chinese Academy of Medical Sciences and Peking Union Medical College, Beijing 100037, C 2. College of Biomedical Engineering, South-Central University for Nationalities, Wuhan 430074, ChinaAbstract: The development of next-generation sequencing has generated high demand for data processing and analysis. Although there are a lot of software for analyzing next-generation sequencing data, most of them are designed for one specific function (e.g., alignment, variant calling or annotation). Therefore, it is necessary to combine them together for data analysis and to generate interpretable results for biologists. This study designed a pipeline to process Illumina sequencing data based on Perl programming language and SGE system. The pipeline takes original sequence data (fastq format) as input, calls the standard data processing software (e.g., BWA, Samtools, GATK, and Annovar), and finally outputs a list of annotated variants that researchers can further analyze. The pipeline simplifies the manual operation and improves the efficiency by收稿日期 : ; 修回日期 :
基金项目 : 国家重点基础研究发展计划 (973 计划 )项目 (编号: )和中央高校基本科研业务费专项资金 (编号: 2012-XHGX02)资助 作者简介 : 李文轲 , 硕士 , 助理研究员 , 研究方向:生物信息学。 Tel: 010-; E-mail:
通讯作者 : 赵倩 , 博士 , 副研究员 , 研究方向:遗传学 , 生物信息学。 E-mail:
DOI: 10.3724/SP.J.18 网络出版时间 :
17:22:30 URL: ki.net/kcms/detail/11.1913.R.2.002.html 第6期李文轲等 : 基因组二代测序数据分析流程的自动化实现619automatization and parallel computation. Users can easily run the pipeline by editing the configuration file or clicking the graphical interface. Our work will facilitate the research projects using the sequencing technology.Keywords: next g aut variantion detection二代测序技术 (Next-generation sequencing)大幅 度降低了测序的时间和成本 , 使得大规模测序逐渐 成为常规的实验室研究和临床检测手段。测序产生 的数据量急剧增加 , 如何高效地分析这些数据 , 已 成为迫切需要解决的问题。目前 , 分析序列信息的 生物信息学软件纷繁复杂 , 但基本上每个软件只能 完成单一的分析功能 , 实现一个完整的分析流程则 需要对众多软件进行整合 , 而手动串联的效率往往 不尽人意 ; 同时 , 这些软件需要在 Linux 工作环境下 以 命 令行 运行 , 要 求用 户具 备 较好 的计 算机 背景 ; 另外 , 即便一些实验室完成了分析流程的构建 , 他 们往往不会公开许多细节, 新用户仍然要从头建 起。本研究致力于构建经典的二代测序数据分析流 程 , 并实现各个环节的高效自动化管理和分析 , 减 轻研究者前期的工作负担 , 促进相关领域进一步对 基因组测序研究项目的顺利开展。(Hiseq2500), 甚至更高的 250 个碱基 (Miseq)。测序 读 长 不 断 增加 , 测序 通 量也 在 不 断 上升 。 Illumina Hiseq2500 是目前世界上通量最高的测序平台 , 最 多可以在大约 10 d的时间内测定 3000 亿个碱基 ―― 即 6 ~ 7 个人类全基因组或 60~ 80 个人类全外显子 组的序列测定。 Illumina 平台以 FASTQ 格式 [2] 存储测序结果 , 这 也是本流程的输入文件。 FASTQ 文件记录内容包括 所测的碱基读段和质量 , 其数据格式如图 1 所示。 每条读段 (reads) 占四行:第一行和第三行为读段识 别码 , 包含测序仪 SN号、产生读段的巷道 (lane)、该 读段的编号等信息 ; 第二行为读段测到的碱基序列 ; 第四行为所测到碱基的质量分数 , 每一个碱基都会 对应一个质量分数。 1.2 数据处理流程及软件简介 目前测序数据处理软件很多 , 我们综合考虑了 适用性和效率, 整合出了一套标准的数据处理流 程。 具体来说 , 获得 FASTQ 格式的原始测序数据后 , 需要对数据进行以下处理: (1) 使用 BWA 软件把这 些短序列和参考基因组进行对比 , 确定短序列在基 因组上的位置 , 把短序列组装成完整的人类参考基 因组 ; (2)使用 Samtools 软件把这些短序列调整成按 一定顺序 (1~22, X, Y, 其他 )排列的序列 , 并进行数 据格式的转换 ; (3)使用 Picard 软件把测序产生的冗11.1数据的获取和分析流程的构建Illumina 测序数据 本 流 程 适 用 于 Illumina 测 序 平 台 产 出 的 双 端(Paired ends) 测序数据。 Illumina 测序技术采用边合 成 边测 序 (Sequencing by synthesis, SBS) 的 方法 , 早期的 GA测序仪测序读长只有 100 个碱基 , 随着技 术 的 改 进 , 目 前 的 读 长 已 经 增 加 到 150 个 碱 基[1]图1FASTQ 格式示例 620Hereditas (Beijing)2014第 36 卷余信息和噪声去掉 ; (4)使用 GATK 寻找样本测序数 据与参考基因组的差异 , 列出这些差异点 ; (5) 使用 Annovar 对这些变异位点进行功能注释 , 得到一个 易于理解的变异位点列表。处理流程图如图 2 所示。的序列比对软件 , 能高效地比对短序列和参考基因 组 , 找到短序列在参考基因组上的位置 , 该软件最 长支持至 1 Mb 的短序列比对。 BWT 方法通过 B-W 转换将基因组序列按一定规则压缩并建立索引 , 再 通过查找和回溯来定位读段 , 在查找时可通过碱基 替代来实现允许的错配。 采用 Burrows-Wheeler 转换 的代表软件是 Bowtie 和 BWA。比对结果如图 3 所 示:界面上方是测到的短序列 , 下方是短序列所比 对到的参考基因组。 1.2.2 SAM 文件处理软件 Samtools 读 段 定 位 到 基 因 组 后 推 荐 采 用 SAM(Sequence Alignment/Map)[4] 格式或其二进制版本 BAM 格式来 存储。二进制版本可大大节省存储空间 , 但不能直 接用普通文本编辑工具显示。 SAM 文 件 处 理 软 件 Samtools 可 以 很 好 的 对 SAM/BAM 格式数据进行操作 , 因此 , 本文使用它 来进行数据格式转换和排序。 1.2.3 测序噪声去除和测序数据评价软件 Picard 对组装好的全基因组数据 , 需要将过度重复测 到的数据进行剔除 , 并且需要对数据质量进行评价 , Picard 软件可以很好地完成这两项工作 [5]。 1.2.4 变异检测软件 GATK GATK主要用于在测序数据中寻找变异 [6], 包括 单碱基变异 (SNV)、短插入缺失 (INDEL), 是当前业 界用来寻找变异的主流软件。图2处理流程图1.2.1读句比对软件 BWA BWA(Burrows-Wheeler Alignment tool) 是基于[3]Burrows-Wheeler变换(Burrows-Wheeler Transform)图3比对结果示例利用 Broad Institute 的 IGV(Integrated Genomics Viewer)对数据进行可视化 , 图 4 同。 第6期李文轲等 : 基因组二代测序数据分析流程的自动化实现621变异指测序序列和参考序列的差异。如图 4 所 示 , 参考序列上的碱基是胸腺嘧啶 (T), 而测序数据 上的碱基是鸟嘌呤 (G), 说明此处有一个 T → G 的 突变。 1.2.5 变异注释软件 ANNOVAR ANNOVAR是一个用于高效注释变异的工具[7] 。 注释信息包括变异所在的染色体 , 开始位置 , 结束 位置 , 参考序列信息和观察到的序列信息的列表。 一个变异经过 ANNOVAR 注释之后 , 其功能一目了 然 , 便于进一步的生物学分析。务正在进行时 , Perl对它进行监控 ; 当计算完成 , Perl 去查看它的输出的计算结果 , 并把结果作为下一个 计算任务的输入, 往计算节点上投放新的计算任 务。如此循环 , 直到流程运行完毕。 同时 , 由于每次运行的样本不同 , 数据的输入 输出位置也有差异。如果每处理一个新的样本 , 就 要对流程源码进行大量修改, 将不利于流程的使 用。为此 , 本流程定义了一个配置文件 (config file) 。 通过配置文件可以指定:流程处理的样品名、数据 输入输出路径、参考序列文件 , 甚至流程中涉及到 的软件的位置、 软件的运行方式 ; 另外 , 我们还提供 了对流程中主要软件参数的修改 , 以满足高级用户 需求。每次进行一个新样本的分析 , 不需要修改主 程序代码 , 只要为其创建一个配置文件 , 主程序会 自动读取配置文件 , 生成相应的执行代码。 流程文件构成如图 5 所示。22.1自动化实现基于 Perl 语言的流程设计 本数据处理流程主要使用 Perl 编程语言实现对各个软件的高效串接和自动化操作 。一项计算任[8]图4单碱基突变示例2.2基于资源管理软件 (SGE)的并行设计 流程的运行环境是计算机集群 , 其有别于普通PC 机 , 一般是由一台管理主机来协调许多计算主机 来完成大型的计算任务。根据这样的硬件特点来设图5 分析流程结构计流程 , 需要考虑以下两个问题: (1) 如何让众多计 622Hereditas (Beijing)2014第 36 卷算机协同工作 ; (2) 程序设计尽可能让计算任务并行 , 充分利用计算资源 , 缩短计算时间。 SGE(Sun Grid Engine) 是使用最广泛的分布式 资源管理器 (DRM)。 SGE软件为用户提供了 SGE系统 提交要求计算的任务的方法, 动态分配工作负荷 。 主 节点接受用户提交的计算任务 , 根据计算节点的负[9]载情况 , 动态决定把计算任务分配到哪个计算节点 上进行 , 使众多计算机协同工作。 通过分析各个软件的工作方式 , 我们对中间多 个步骤进行了并行设计 , 配合 SGE, 对计算机资源 进行高效调用 , 从而大大缩短流程运行时间。流程 的并行设计如图 6 所示。图6流程并行设计2.3基于 Java 的图形界面设计 按照预定格式填写配置文件后 , 本流程即可在3.2结果展示 自动化运行完全部流程 , 得到一系列结果 , 包终端直接运行 , 不过为了进一步改善用户体验 , 使 操作更加更加简洁直观, 我们还提供了一个基于 Java 开发的图形界面:WGS_Pipeline_Runner。使用 时 , 用户可以直接调用已有的配置文件 , 并进行修 改 , 也可以直接在表单界面进行填写 , 完成后可以 保存至本地。完成配置文件后 , 点击 Run 即可自动 化完成分析流程 , 一步输出分析报告。图形界面如 图 7 所示。 本流程所涉及的所有软件说明、自动化代码及 使用说明、配置文件说明等均可在 / wksofia/wgs_pipeline 中下载使用。括: BWA align 读句定位生成的 sai 文件 , BWA sampe 整合 pair-end 信息得到的 sam 文件 , Samtools convert 转换 sam 得到的 bam 文件 , Samtools sort 对 bam 文 件排序得到的 sorted.bam 文件 , Picard rmdup 去除重 复得到的 sample_duprmed.bam 文件 , GATK UG 和 GATK VQSR 得到的一系列 raw.vcf 文件 , Filter 过滤 后得到的 filtered.vcf 文件 , 以及 Annotation 注释后 的 csv 变异文件。此外还给出了一个包含对实验数 据质量评价的 summary 文件。综合以上结果 , 用户 能够从中挖掘出感兴趣的变异信息。 在这些结果中, 用户最值得关注的主要有两个文 件: (1)经过功能注释的变异列表(见 Annotation 文件夹); (2)对实验数据质量的评价表(见 sample.Summary)。 变异列表 (部分 )如表 2 所示。 每个个体大约会携带大约 3 百万个所谓的“变 异” , 其中一些跟某些疾病的患病风险有关 , 科研人 员正是希望找到这种致病变异。表中每一行代表一 个变异 , 这个列表包含的信息主要有:这个变异在 所在的基因 , 变异的功能 , 是否处于重复序列 , 是 否被前人报道过。 测序数据评价如表 3 所示。该表主要关注两个 方面:平均测序深度和参考序列的覆盖度。33.1流程测试运行效率统计 一个 135 GB 的人类全基因组测序数据 , 在计算机集群上使用该流程来处理大约耗时 50 h, 各阶段 运行耗时如表 1 所示。与该自动化流程相比 , 在不 考虑中间衔接耗时、不采用并行的情况下 , 执行同 样流程用时在一周以上。可见, 本流程不仅简化 了分析操作 , 更极大地节约了时间 , 从而加速科研 进展。 第6期李文轲等 : 基因组二代测序数据分析流程的自动化实现623图7 表1图形界面 流程详细运行时间项目 BWA align BWA sampe Samtools convert Samtools sort Picard rmdup Queue GATK UG GATK VQSR Filter Annotation 总共 耗时 (h) 3 4 2 7 5 20 5 1 2 1 ~50 OR4F5 SAMD11 KLHL17 Nonsynonymous SNV Nonsynonymous SNV Synonymous SNV 0.87表2变异列表 (部分 )功能预测 重复 区域 0.99 千人基 因组 0.65 Dbsnp 数据库 rs2691305 rs rs4970441基因4结 语本项目成功整合了一系列二代测序数据分析软件 , 形成了一套经典的数据分析流程。本流程通过 并行化设计和自动化处理, 一方面简化了操作成 本、缩短了数据分析周期 , 另一方面也使本流程可 以引入更完善的数据校验步骤, 增强结果的可信 度。 本流程针对 Illumina 平台双端测序数据开发 , 满 足了大部分处理需求 , 并对其他用户提供了一个很 好的参考 , 后续我们将根据用户需求对该自动化流 程进行持续维护。该评价表会在分析完成后 , 通过电子邮件自动 发送到用户邮箱 , 既便于用户第一时间知道自己的 数据质量 , 也方便了监控。 624Hereditas (Beijing)2014第 36 卷表3测序数据评价表 (部分 )短序列量 1,209,494,555 短序列比对百分比 99.06% 平均测序深度 40.42 至少测到 5 次的碱基 99.60% 至少测到 10 次的 碱基 99.10% 至少测到 20 次的 碱基 94.20%样品 样品 1随着二代测序技术的逐步发展 , 二代测序已经 广泛应用于科研和临床研究。本流程提高了二代测 序数据分析的入门和运转效率 , 其必将在二代测序 相关基因组学研究中 , 促进广大科研人员工作的高 效进行。Data Processing Subgroup. The sequence alignment/map (SAM) format and SAMtools. Bioinformatics, ): . [DOI] [5] Picard. http://picard.sourceforge.net[DOI] [6] McKenna A, Hanna M, Banks E, Sivachenko A, Cibulskis K, Kernytsky A, Garimella K, Altshuler D, Gabriel S, Daly M, DePristo MA. The genome analysis toolkit: a MapReduce framework for analyzing next-generation DNA sequencing data. Genome Res , ): . [DOI] [7] Wang K, Li M, Hakonarson H. ANNOVAR: functional annotation of genetic variants from high-throughput sequencing data. Nucleic Acids Res , ): e164. [DOI] [8] Scbwartz RL, Pboenix T, Foy BD著 . 盛春 , 蒋永清 , 王 晖译 . Perl 语言入门 ( 第五版 ). 南京 : 东南大学出版社 , . [DOI] [9] ORACLE INC. N1 Grid Engine 6 用 户 指 南 .参考文献[1] Illumina Inc. Illumina Sequencing Technology. http://www. /documents/products/techspotlights/techspotl ight_sequencing.pdf. [DOI] [2] Cock PJA, Fields CJ, Goto N, Heuer ML, Rice PM. The Sanger FASTQ file format for sequences with quality scores, and the Solexa/Illumina FASTQ variants. Nucleic Acids Res , ): . [DOI] [3] Li H, Durbin R. Fast and accurate long-read alignment with Burrows-Wheeler Transform. Bioinformatics , ): 589C595. [DOI] [4] Li H, Handsaker B, Wysoker A, Fennell T, Ruan J, Homer N, Marth G, Abecasis G, Durbin R, 1000 Genome Project/cd/E.grid.eng6/8177681/esqcr/index.html. [DOI] (责任编委:胡松年 )

我要回帖

更多关于 ngs第二代测序技术 的文章

 

随机推荐