摘要
本文首次给出了荷包牡丹亚科完整的质体基因组。与已经报道的两个罂粟科质体基因组相比,荷包牡丹质体基因组的大小、结构、基因数量及替换速率都有较大的不同。本研究团队打算构建一个模型解释新发现的重排现象,其中包括至少6个反向重复边界的位移和5个倒位,大量的基因复制和重新定位,反向重复区和小单拷贝区2倍的扩张。从单拷贝区转移至反向重复区基因的替换速率降低,accD和clpP替换速率提高。accD替换速率的升高和一个大的氨基酸重复(AAR)Motif插入有关,但clpP替换速率的升高原因不明。分析发现荷包牡丹个体间accD和clpP有可变的AAR,此外比较三个罂粟科质体基因组发现:罂粟rps15失去了编码功能,但是发现了其功能转移到细胞核中。
材料方法
新鲜植物叶片(单株荷包牡丹),200mg用于总DNA提取。
测序方案:Illumina HiSeq 2000,71.2 million 100 bp PE reads,文库550bp。
质体基因组组装:Velvet v1.2.10(k-mer),组装成包含一个拷贝IR的最大contig当作是一个完整质体,Geneious R7 v7.1.8(手动检查),基因组覆盖深度:Bowtie v2.2.9,注释:DOGMA,tRNA预测:tRNAscan-SE v1.3.1,ARAGORN v1.2.38,环状及线性质体基因组作图:OGDRAW v1.2,二级结构:tRNAscan-SE 2.0 web server。散布重复序列鉴定:blastn(11bp,e值1× 10-10,90%序列相似性),串联重复序列:Tandem Repeats Finder v4.09(默认参数)。
组装结果验证:设计引物(Primer3),扩增产物用1.5%琼脂糖胶电泳评估。
罂粟科三个物种+外群(领春木)质体基因组多比对:Mauve v2.3.1。
基因排序和方向确定:(GRIMM) v2.0.1(分析过程中先去除IR);
PCR产物测序:ABI 3730xl DNA Analyzer。
研究结果
1、荷包牡丹质体基因组结构
![荷包牡丹质体基因组变异和重构分析 荷包牡丹质体基因组变异和重构分析]()
![荷包牡丹质体基因组变异和重构分析 荷包牡丹质体基因组变异和重构分析]()
和截止2018年1月1日NCBI报道的1936种测序被子植物质体信息相比,荷包牡丹的叶绿体基因组比被子植物叶绿体基因组大小的中位数(154,853bp)要大出34kb,SSC和IR区变异较大(主要是一些重复序列)。IRB/SSC扩张(ycf1-rpl32),IRA/SSC(ndhF N端部分),ndhF C端及部分序列在SSC区域。
![荷包牡丹质体基因组变异和重构分析 荷包牡丹质体基因组变异和重构分析]()
A.荷包牡丹质体基因组和NCBI报道的1936种(截止2018.1.1)被子植物质体基因组的GC含量;荷包牡丹的GC含量(39.2%)高于已报到物种的中位数(37.6%);B.1857种被子植物(含两个IR区域)的基因组大小、LSC/SSC/IR区间的大小,箭头所指为荷包牡丹对应区域的大小。
2、荷包牡丹质体基因组结构进化
![荷包牡丹质体基因组变异和重构分析 荷包牡丹质体基因组变异和重构分析]()
A.PCR验证荷包牡丹倒位和易位事件;A/C.红色/蓝色箭头表示PCR引物扩增区域;B.11个扩增区域凝胶电泳结果(对重排区域的连接点设计junction引物用来证实组装结果);D.线性化荷包牡丹质体基因组不同位置reads深度;(红色虚线以上是IR区域)
![荷包牡丹质体基因组变异和重构分析 荷包牡丹质体基因组变异和重构分析]()
外群领春木和3个罂粟科物种质体基因组共线性比较分析(13个共线性block),和其他3个物种相比,荷包牡丹存在8个倒位和14个断点(trnQ-psbK, atpH-petN, atpI-psbM, trnI-trnQ, rps16-ndhB, ndhB-trnN, trnN-trnK, psbA-trnH, trnH-trnI, trnL-trnR, trnV-rps12, rps7-ycf1, trnL-rpl32, rpl32-ndhF);
![荷包牡丹质体基因组变异和重构分析 荷包牡丹质体基因组变异和重构分析]()
荷包牡丹质体基因组重排模型构建,A.罂粟科祖先质体基因组结构(用烟草质体基因组代表),a-f是推测的罂粟科中间阶段质体基因组变化情况(IR边界位移,倒位,操纵子中断,基因复制和重定位);current:当前荷包牡丹质体基因组结构。
3、荷包牡丹质体基因组accD、ycf1基因的多样性
![荷包牡丹质体基因组变异和重构分析 荷包牡丹质体基因组变异和重构分析]()
与领春木相比accD基因结构在荷包牡丹发生显著变化(片段插入);
![荷包牡丹质体基因组变异和重构分析 荷包牡丹质体基因组变异和重构分析]()
和其他几个物种相比,荷包牡丹accD基因存在AARs插入,将保守结构域分裂成两段(7个“GEEKVEIEAEETEV”,2个“GEEKVE”)
![荷包牡丹质体基因组变异和重构分析 荷包牡丹质体基因组变异和重构分析]()
6个荷包牡丹个体accD氨基酸序列的比较(亮蓝和暗蓝方框表示两种AAR,星号是AAR motif中的错配氨基酸)
![荷包牡丹质体基因组变异和重构分析 荷包牡丹质体基因组变异和重构分析]()
6个荷包牡丹个体ycf1氨基酸序列的比较(粉色:保守结构域,红色:3个氨基酸重复热点,紫色方框:EKQN,橙色:EENN)
4、罂粟科质体基因组编码蛋白基因核酸替换率
![荷包牡丹质体基因组变异和重构分析 荷包牡丹质体基因组变异和重构分析]()
罂粟科3个物种编码蛋白基因的dN/dS<1,符合质体基因组比较保守的原则;
![荷包牡丹质体基因组变异和重构分析 荷包牡丹质体基因组变异和重构分析]()
只有clpP、rpl23、rpl36、yfc2受到正向选择
![荷包牡丹质体基因组变异和重构分析 荷包牡丹质体基因组变异和重构分析]()
罂粟科3个物种IR、SC或SC-IR区域基因dN、dS的分布频率
5、功能基因转移至核内的推测
![荷包牡丹质体基因组变异和重构分析 荷包牡丹质体基因组变异和重构分析]()
A.4个物种质体编码的rps15的核酸/氨基酸序列比较,黑色:之前报道的rps15基因区,红色方框是核糖体蛋白S15的保守结构域;
罂粟中质体编码的rps15 N端缩短,编码区域存在3个提前终止密码子,并且缺少重要的保守结构域,因此罂粟的rps15推测为假基因。
B.罂粟细胞核编码的rps15的核酸/氨基酸序列;绿色:质体转运肽,红色:核糖体蛋白S15的保守结构域;细胞核编码的rps15由质体转移到细胞核中是在罂粟转录组数据中发现的。
研究亮点
1、针对罂粟科物种荷包牡丹进行质体基因组测序及denovo组装,与已经报道的其他罂粟科质体基因组相比较,发现存在很大的结构变异,在扩展和倒位边界设计引物进行扩增验证拼接结果是否正确。
2、通过与外群—领春木进行质体基因组比较,发现荷包牡丹与其他物种间存在8个倒位和14个断点。并以烟草作为祖先物种,分析了荷包牡丹质体基因组的演化模型。
3、对发现的荷包牡丹质体基因组accD、ycf1基因的多样性进行物种间的比较分析,并针对6个不同的荷包牡丹个体利用一代测序进行两个基因的比较(均发现存在较大差异)。
4、通过对罂粟科所有编码蛋白基因的dN/dS分析发现,只有clpP、rpl23、rpl36、yfc2受到正向选择(dN/dS>1),利用罂粟的转录组数据推断细胞核编码的rps15由质体转移到细胞核中。
参考文献
Reconfguration of the plastid genome in Lamprocapnos spectabilis: IR boundary shifting, inversion, and intraspecifc variation[J].2018.scientific reports. IF=4.122