2.辽宁石油化工大学 石油天然气工程学院, 辽宁 抚顺 113001
2.College of Petroleum Engineering, Liaoning Shihua University, Fushun 113001, China
第二代测序技术使得DNA测序进入高通量、低成本时代,直接通过聚合酶或者连接酶进行体外合成测序,一次能对几十万到几百万条DNA分子进行序列测序,使得对一个物种的转录组测序或基因组深度测序变得方便易行[1-3].第二代测序平台主要包括罗氏454公司的GS-FLX测序平台、Illumina公司的Solexa Genome Analyzer测序平台和ABI公司的SOLID测序平台.这些新的测序技术产生的数十亿短片段也给传统的从头测序序列的拼接与组装带来了巨大挑战.序列拼接与组装任务是将测序生成的reads短片段拼接起来,恢复出原始序列,拼接质量直接影响到序列标注、基因预测、基因组比较等后续工作.目前,Velvet,ABySS,SOAPdenovo,VCAKE,SPAdes等[4-6]多种与二代测序技术相匹配的de novo组装工具应运而生,而如何在众多组装工具中,根据序列属性和具体要求来选择与分析组装工具的实用性,对组装最佳结果及后续信息分析尤为重要.
类芽孢杆菌属(Paenibacillus)是1993年由Ash等[7]将11个菌种从芽孢杆菌中分出来的,是芽孢杆菌属分类上的新发展.类芽孢杆菌在工农业、医药、化工等领域具有重要意义,具有生物防治、产抗菌蛋白、固氮、絮凝等重要功能[8].目前对类芽孢杆菌的研究中以模式种多黏类芽孢杆菌(Paenibacillus polymyxa)居多,大多涉及多黏类芽孢杆菌的分离筛选、生长条件、代谢产物的分离鉴定及农业医学等方面的应用[9-10].目前,类芽孢杆菌属已有多黏类芽孢杆菌Paenibacillus polymyxaE681和Paenibacillus polymyxaSC2等29个菌种完成了全基因组测序工作,而对于测序后的基因工程学还有待深入研究.
Paenibacillus Shenyangensis是本课题组从桃树栽植土壤中距表层深10 cm处土样中经过分离纯化得到的高效微生物絮凝剂产生菌,并鉴定为类芽孢杆菌属新种.本课题组已完成高效产絮菌种的分离筛选、培养条件优化、结构检测和机理分析等研究.本文在Paenibacillus Shenyangensis基因组测序数据基础上,应用目前国际上常用的AbySS,SPAdes和SOAPdenovo三种拼接组装软件对原始测序数据进行拼接比较,同时改变与优化拼接参数以获得最佳拼接效果,并于最佳拼接条件下预测基因,为后续生物信息学分析提供基础数据.
1 材料与实验方法 1.1 菌株与培养基本实验所用菌种Paenibacillus Shenyangensis由东北大学课题组从果树种植土壤分离纯化得到[11],现保存于中国科学院微生物研究所菌种保藏中心(CGMCC2040),通过16S rRNA序列检测分析及理化性质检测确定为类芽孢杆菌属(Paebubacillus sp.)微生物的新种.将纯化菌株接种于发酵培养基中,在30 ℃,150 r/min的摇床中发酵培养36 h,其絮凝率可达到90%以上.
1.2 基因组测序与序列拼接采用Bacteria DNA Kit (OMEGA)提取菌种基因组DNA,TBS-380 fluorometer (Turner BioSystems Inc., Sunnyvale, CA)定量后取高质量DNA (OD260/280=1.8~2.0, > 6 μg)用于建库分析,并于Illumina Hiseq 2000测序平台进行双端测序.
用paired-end测序数据及软件SolexaQA进行低质量reads过滤,得到的clean reads用于序列拼接与组装.应用目前国际上常用的AbySS,SPAdes和SOAPdenovo三种拼接组装程序对测序数据进行拼接比较,同时改变与优化拼接参数以获得最佳拼接结果.
1.3 基因序列比对以NCBI中下载的两株同属近缘种的基因组(表 1)作为参考序列,用Mauve与之进行比对分析,并用BRIG (BLAST ring image generator)可视化展示拼接基因组与类芽孢杆菌属其他两种基因序列相似性的程度.
用Glimmer 3.0预测基因信息并统计预测结果,将预测到的基因序列或蛋白序列分别与NCBI-NR,Swissprot和KEGG数据库进行blast比对,将数据库中匹配最好的基因(e-value < 1e-5)进行功能注释.
2 结果分析 2.1 基因序列拼接优化结果用三种拼接软件对絮凝菌测序序列进行拼接组装,通过改变频数统计关键参数k-mer对scaffold组装数量、最大scaffold长度、基因组总长和N50的影响,综合筛选出三种软件的最优拼接结果,其中N50和Max scaffold是评估组装软件优越性的重要指标.拼接结果如表 2所示.
在k-mer分别为23,25和29时,三种软件的拼接结果分别达到最优.就scaffold的数量而言,SOAPdenovo和ABySS较低,分别是64个和49个,而SPAdes结果较差,有195个;从拼接的最大长度而言,SOAPdenovo与ABySS相近,分别为337 819和322 581 bp,小于SPAdes的426 344 bp,但是三者组装的scaffold总长度相近;N50作为拼接质量的重要评价标准,SOAPdenovo的最长,为293 864 bp,质量最好;就拼接序列的错配率而言,SOAPdenovo也是最低的,每100 kb的长度错配率只有0.77%,远低于ABySS和SPAdes.
2.2 与类芽孢杆菌其他种参考基因组的比较絮凝菌基因组序列与NCBI数据库中类芽孢杆菌中参考基因组Paenibacillus sp.JDR-2、参考基因组aenibacillus sp.Y412MC10比对的结果如图 1所示.在图 1a中,每个刻度表示基因组上500kb,环状结构由内向外分别为:Paenibacillus Shenyangensis拼接得到的基因组scaffolds、参考基因组Paenibacillus sp.JDR-2、参考基因组Paenibacillus sp.Y412MC10、最外圈用交替的蓝色和红色作为scaffolds的分隔,序列比对时相似性(sequence identity)越高紫色和绿色环的颜色会越深;絮凝菌与Paenibacillus sp.Y412MC10和Paenibacillus sp.JDR-2分别有833和643个基因相同(图 1b),其中三菌种共有基因456个,在后续基因预测与注释工作中,这些共有基因为基因功能注释提供一定依据.
用Glimmer 3.0预测AbySS,SPAdes和SOAPdenovo三种软件拼接序列中的基因数量并统计预测结果,如图 2所示,不管从基因总数还是从大于300,1 500,3 000 bp的不同长度基因来比较,后两者之间数据相差不大,而SOAPdenovo的预测结果均优于另外两种,共预测成功4 800个基因.
将SOAPdenovo预测成功的4 800个基因分别与NCBI-Nr (National Center for Biotechnology Information,non-redundant),KEGG (Kyoto encyclopedia of genes and genomes)数据库,SwissProt (SwissProt protein databases)蛋白数据库进行比对,分别比对成功4 393(91.52%),3 920(81.67%)和3 293(68.60%).其中NCBI-Nr数据库比对成功率最高,比对结果统计如图 2所示.
与NCBI-Nr比对成功的4 393个基因中,有49.2%的比对数据是来自类芽孢杆菌属(图 3b),包括paenibacillus polymyxaSC2,paenibacillus sp.Y412MC10,paenibacillus lactis154,paenibacillus terraeHPL-003,paenibacillus polymyxaE681和paenibacillus sp.oral taxon786 str.D14等常见类芽孢杆菌.比对结果的E-value值(图 3a)表示匹配假阳性的概率,该值越小表示匹配的可信度越高,预测基因与NCBI-Nr比对成功的4 393个基因中,E-value值小于e-15占比85.9%, 本比对数据可信度较高.
本研究通过AbySS,SPAdes和SOAPdenovo对絮凝菌Paenibacillus Shenyangensis基因组进行拼接与比较分析可知,不同的拼接软件对絮凝菌的组装与拼接结果存在一定差异,其中SOAPdenovo软件拼接结果最优,其N50,Max scaffold和错配率分别为293 864 bp,337 819 bp和0.77,更适合于本实验基因组的拼接.预测的4 800个基因中有4 393个与NCBI-Nr比对成功,其匹配假阳性概率E-value值小于e-15占比85.9%,本实验数据可信度较高,也证明了SOAPdenovo组装的优势.因此选择合适的组装软件和参数,充分利用测序的数据对于基因组的拼接组装是十分重要的,也为进一步的酶学及代谢工程的研究提供理论基础与基本数据.
[1] | Scheibye A K, Hoffmann S, Frankel A, et al. Sequence assembly[J]. Computer Biology and Chemistry , 2009, 33 (2) : 121–136. DOI:10.1016/j.compbiolchem.2008.11.003 |
[2] | Stephan C S. Next-generation sequencing transforms today's biology[J]. Nature Methods , 2008, 5 (1) : 16–23. |
[3] | Olena M, Marco A M. Applications of next-generation sequencing technologies in functional genomics[J]. Genomics , 2008, 92 (5) : 255–264. DOI:10.1016/j.ygeno.2008.07.001 |
[4] | Anton B, Sergey N, Dmitry A, et al. SPAdes:a new genome assembly algorithm and its applications to single-cell sequencing[J]. Journal of Computational Biology , 2012, 19 (5) : 455–477. DOI:10.1089/cmb.2012.0021 |
[5] | Li R Q, Zhu H M, Ruan J, et al. Denovo assembly of human genomes with massively parallel short read sequencing[J]. Genome Research , 2009, 20 (2) : 265–272. |
[6] | Giuseppe N, Bud M. Comparing de novo genome assembly:the long and short of it[J]. Plos One , 2011, 6 (4) : 1–14. |
[7] | Ash C, Priest F G, Collins M D. Molecular identification of rRNA group 3 bacilli using a PCR probe test[J]. Antoni Van Leeuwenhoek , 1993, 64 (3) : 253–260. |
[8] | Naghmouchi K, Hammami R, Fliss I, et al. Colistin A and colistin B among inhibitory substances of Paenibacillus polymyxa JB05-01-1[J]. Archives of Microbiology , 2012, 194 (5) : 363–370. DOI:10.1007/s00203-011-0764-z |
[9] | Sadhana L, Silvia T. Ecology and biotechnological potential of Paenibacillus polymyxa:a minireview[J]. Indian Journal of Microbiology , 2009, 49 (1) : 2–10. DOI:10.1007/s12088-009-0008-y |
[10] | Mokaddem H, Sadaoui Z, Boukhelata N, et al. Removal of cadmium from aqueous solution by polysaccharide produced from Paenibacillus polymyxa[J]. Journal of Hazardous Materials , 2009, 172 (2/3) : 1150–1155. |
[11] | Jiang B H, Zhao X, Liu J L, et al. Paenibacillus shenyangensis sp.nov., a bioflocculant-producing species isolated from soil under a peach tree[J]. International Journal of Systematic an Evolutionary Microbiology , 2015, 65 (1) : 220–224. |