常用啮齿类实验动物Cyt b的比较以及系统进化关系分析
从分子水平探索物种的遗传结构、系统发育关系已成为近年来群体遗传学和进化生物学研究中的重要领域。国外学者利用微卫星技术、mtDNA、RFLP和DNA测序技术对啮齿动物的遗传结构、地理分布及系统进化进行了较多研究。而国内学者对啮齿类动物的系统发育关系的相关报道很少。
线粒体DNA上的Cyt b基因,进化速度适中,一个较小的基因片段就包含着从种内到种间乃至科间的进化遗传信息,在系统进化和分类研究、群体遗传结构研究等方面有很强的适用性。1989年,Kosher等用一系列标准的保守区引物,扩增100多个物种的线粒体DNA同源片段,包括哺乳类、鸟类、两栖类、鱼类和一些无脊椎动物,为从分子水平上研究系统进化、分类和群体遗传结构等提供了一个良好的手段。目前,Cyt b基因主要用于动物系统进化和分类地位研究、遗传多样性研究以及物种识别、分子动物地理学等研究领域。
本研究通过测定中国地鼠的线粒体Cyt b基因序列,并结合GenBank相关序列资料,运用分子生物学软件在DNA分子水平上对中国地鼠和常用的几种实验动物的Cyt b基因测序结果进行分析处理,建立系统树,对其亲缘关系进行分子验证;为探讨啮齿类动物的起源提供新的分子水平证据;为我国特有的资源——中国地鼠的分子系统地位以及基因库资源状况等研究领域提供遗传学资料。
一、材料和方法
1.实验材料 实验动物是山西医科大学实验动物中心饲养的中国地鼠。Taq酶、10×buffer、MgCl2、dNTP、marker为大连宝生物公司产品。引物由上海生工公司合成。
2.基因组DNA的提取 取中国地鼠的尾巴,采用酚-三氯甲烷抽提法提取基因组DNA。
3.引物设计 本研究根据GenBank中登录的小鼠线粒体基因组全序列(登录号为EF108339)、大鼠(登录号为AY769440)基因序列,应用Clustalw 1.83软件进行序列比对,在保守区用软件Oligo6.0设计引物,扩增目的片段长约1000bp,引物序列如下:
上游引物:5'-AAA AAT CAT CGT TGT AAT TCA-3'
下游引物:5'-TGG TTG GCC TCC GAT TCA T-3'
4.PCR反应体系优化结果与扩增程序 扩增时,依次对退火温度、镁离子浓度、引物用量进行优化。最终建立的PCR反应体系为:25μl反应体系中含Taq酶(TaKaRa)0.25μl、基因组DNA约10ng、Mg2+ 1.6mmoL/L、dNTPs 0.2 mmol/L、混合引物0.5μl;扩增程序:94℃,5min;94℃,30s;48℃,1min;72℃,1.5min;35次循环;72℃,10min。利用未加模板DNA的反应液作为空白对照,以检查是否有污染存在。PCR产物用1.0%琼脂糖凝胶电泳检测,于-20℃保存。
5.纯化PCR产物并测序 用SAP酶纯化PCR产物,取6μl PCR产物加入2μl SAP酶溶液,于37℃PCR仪5min,85℃ 15min灭活。纯化后用ABI 3730 DNA序列自动分析仪进行双向测序(中国科学院北京基因组研究所)。
6.序列分析及系统重建 用DNAStar软件包中的MegAlign程序排列DNA同源序列(934bp),并经人工仔细核查。在此基础上,序列输入MEGA 4软件包,计算不同序列间的碱基组成百分比、变异位点数、密码子使用、转换颠换比值、颠换百分比,并用双参数法(Kimura 2-parameter)计算分枝间的遗传距离,用邻接法(neighbor-joining)、最小进化法(maximum evolution)和最大简约法(maximum parsimony)进行系统重建,系统树各分枝的置信度由重抽样法(boot strap)1000次重复检测,DNA序列变异中的转换和颠换赋予相同的加权值。
二、结果
1.Cyt b基因扩增结果 经过PCR条件优化,实验成功扩增了一段长度为
936bp的核酸片段,并测序。该序列已递交GenBank,登录号为EU443634。
2.Cyt b基因序列组成及变异分析 将测序结果与GenBank中金黄地鼠mesocricetus auratus (AM904614)、KK小鼠mus musculus strain KK/HlJ(EF108339)、 Wistar大鼠rattus norvegicus strain Wistar(AC000022)、豚鼠cavia porcellus(AJ222767)、台湾田鼠microtus kikuchii(NC003041)、南方田鼠microtus rossiae-meridionalis (NC008064)和犬canis lupus familiaris(NC002008)的同源序列进行排序。在鼠科动物的Cyt b序列中,A、T、C、G碱基的平均含量为30.3%、28.8%、28.0%和12.9%,碱基组成的百分比中显示出了G的相对缺乏(表8-15)。在这8条936bp的Cytb基因部分序列中,我们发现其核苷酸的变异差异也存在很大的差异,所有统计的鼠类936bp的序列中,平均发生碱基转换124个,颠换113个,其转换/颠换比为1.1,而第一位碱基的转换和颠换分别为31个和22个,其比值为1.4;第二位碱基的转换和颠换分别为9个和6个,其比值为1.5;第三位转换和颠换分别为84个和85个,其比值为1.0。这说明核苷酸的转换略多于颠换。各种动物分支间的遗传距离见表8-16。
3.系统进化树的建立 基于我们的序列与从GenBank中下载的序列一起进行系统发育分析。以犬作为外群,我们采用邻接法(NJ)(图8-8A)、最大简约法(MP)(图8-8B)、最小进化法(ME)(图8-8C)来构建分子系统树。从图中可看出这3种不同的分子系统树具有基本相同的拓扑结构,这与传统的形态分类基本相一致。
三、讨论
1.Cyt b基因及蛋白质结构特点 线粒体Cyt b(cytochrome b)基因是一种蛋白质编码基因。Cyt b基因序列5'端侧翼与ND6基因相连,3'端侧翼紧邻tRNA leu基因。其重链(H链)编码的辅酶Q-细胞色素C氧化还原酶(COⅢ)是10个多肽中的一个。它所编码的9~10条多肽构成线粒体脱氧磷酸化系统,完成从二氢辅酶Q到细胞色素C的电子传递。它的起始密码子由基因间的4个核苷酸从ND6基因的终止密码子分离而来。脊椎动物Cyt b基因是mtDNA唯一一个以AGA作为终止密码子的蛋白质编码基因,其他的蛋白质编码基因均以TAA作为终止密码子。Cyt b基因编码的蛋白质是一个跨膜蛋白,由1个负离子的内膜蛋白域、正离子的外膜蛋白域和8个跨膜域组成。根据其3D模型顶面观(图8-9)可以观察到6个跨膜螺旋结构域(A~F),3个N-末端两性分子螺旋结构a、b和cd,两个泛醌分子识别位点即醌还原位点和对二苯酚氧化位点。Cyt bc复合体带有辅酶及3个反应位点,同时还提供了膜内的电子转移途径。
2.Cyt b基因的序列变异分析 Cyt b基因的起源非常古老,在几乎所有真核生物和许多原核生物的细胞中都有发现。Cyt b基因全长为1100~1200bp,在物种间序列长度没有明显差异。Cyt b基因在核苷酸组成上具有偏好,并且具有种间的差异。核苷酸组成的偏好是由于变异或选择压力造成,在密码子的不同位点,颠换/转换的比率发生改变,由于密码子的第三位点比第一、二位点更趋向于沉默以及核苷酸的组成对变异幅度的影响,从而造成了在不同类群间核苷酸组成的偏好。脊椎动物线粒体DNA中Cyt b基因序列的转换与颠换之比随相邻核苷酸A+T含量的增高而增加,无脊椎动物Cyt b基因序列的核苷酸替换没有显著的偏好性(刘运强,2001)。在哺乳动物中,密码子第一和第二位点取代(包括颠换和转换)与第三位点颠换有等同的概率。密码子三个位点的核苷酸组成具有很大的差异。密码子第三位上很少含G,显示出较大的种间变异;第二位上富含T,种间变异较少。 Cyt b基因中同时存在的较快和较慢进化的密码子位点,以及保守区域和突变区域的存在使得Cyt b基因可以应用于系统分类研究。1989年,第一对关于脊椎动物 Cyt b基因部分片段的扩增引物出现后,Cyt b基因被广泛地用于系统学研究,目前认为它是对动物种上和种下分类阶元进行系统进化研究较好的分子标记。
Cyt b基因一般不发生缺失和(或)插入,碱基置换多数沉默。很大程度上倾向于转换或颠换,并且编码蛋白质的密码子位点进化速度不恒定,在沉默位点进化速度较快,如密码子第三位点进化最快。而在非同义替换位点进化缓慢,如密码子第二位点最保守;而且,密码子的使用存在偏倚性,首先,密码子的第三位碱基为A和C的比例明显高于G和T,其中A的比例最高,在35%~45%之间,G最低,在1.3%~7.6%之间。其次,密码子的第二位碱基为嘧啶的比例(T+C=66.6%)明显高于嘌呤;同时,相应的基因组内保守区与可变区共存。由于功能约束,它的一部分基因比其余基因更加保守,因此也承受着较强的功能约束;而大多数可变位点似乎都位于编码跨膜区或氨基和羧基末端的编码区。
一般认为,转换颠换比小于2.0时则此基因序列的突变已达到饱和状态,受进化噪声的影响可能性较大,重建系统发生树时如不进行特别加权就会得出错误信息。而本研究转换颠换比小于2.0,分类阶元多为种间比较,重建系统发生树时受饱和效应的影响较小,是因为整个细胞色素b基因进化速率适中,其变异程度足以阐明种间的系统发育关系,又有一定保守性,可进行种上阶元水平的研究。与其他许多分子系统相比,细胞色素b基因蛋白质产物的生化机制更易与其基因的进化动力学相联系;在一定的进化尺度内不受饱和效应的严重影响,一般线粒体蛋白质编码基因是在1500万年前分化的,其种间序列差异小于2%。当大于2500万年时碱基因置换达到饱和,从而使其基因与单拷贝的核基因在突变率上趋于一致,不包括碱基平行突变(如G-A-G)和回复突变(A-G-A)等诸多引起歧义的可能因素,绝大多数脊椎动物转换与颠换的发生率也一致,因此,细胞色素b基因所提供的系统发育信息和遗传分化水平非常适合于分析种间或属间差异;线粒体Cyt b基因和其他大多数的脊椎动物一样,具有较高的保守性,也说明其在生物体的生命活动过程中的重要作用。Cyt b基因作为蛋白质编码基因比线粒体rDNA和非编码区的基因更易于排序,再加上能用一些通用引物扩增,所以,线粒体DNA细胞色素b序列在解决亲缘关系较近的分类阶元的系统关系方面很有价值,被认为是解决系统发育问题最可信的分子标记之一。
但是,Cyt b基因作为系统进化研究的分子标记也存在问题。当使用系统信息量少的Cyt b基因的核苷酸组成偏向性、不同谱系间的速率变异以及密码子第一、二位点有限的变异等信息来解决深层次的进化问题时,Cyt b基因存在明显的不足。同时,类线粒体核基因(numts)的存在使Cyt b基因作为分子标记的优势削弱, numts的存在,相当于序列异质性的存在,增加了后续分析的难度,需要更多更复杂的数据收集和分析。然而,numts的研究同时具有重大的进化意义,因为它为基因组进化和基因组间相互作用的动态研究打开了一个窗口。
3.关于中国地鼠和其他几种常用实验动物的分子进化关系 将中国地鼠和金黄地鼠、台湾田鼠、南方田鼠、小鼠、大鼠、豚鼠、犬的Cyt b比较,计算了各物种间的遗传距离,如表8-16所示。遗传距离说明中国地鼠与其他物种的差异基本符合目前的分类系统,支持了形态学分类结果。
在系统进化树的研究中,很难用一种系统进化树正确得出系统关系(Felsen stein J, 1988),为此,本文构建了3种进化树:NJ、MP和ME树。在任何分析中,自举置信水平(BCL)值小于50%的进化枝可信度不高,而当BCL值大于等于70%时,形成的进化枝正确的可信度高达95%(Matsui M, 2007)。从构建的系统树图8-8中(图中数字为自举置信水平boot strap值,1000次重复检测。若boot strap值小于50,结点不显示)可以明显地看到中国地鼠首先和金黄地鼠聚类在一起,两者互为单系,然后再和田鼠聚在一起形成单系群,此结果在3种树中都非常一致,而且中国地鼠和金黄地鼠形成的进化枝自举置信水平(BCL)值较高,在NJ、MP和ML树中分别为了100%、98%和100%。表8-16中显示的数据中,中国地鼠和金黄地鼠的遗传距离最小为18.7%。这两者与台湾田鼠、南方田鼠的进化枝自举置信水平(BCL)值也比较高,在NJ、MP和ML树中分别为87%、93%和91%,这4种动物都属于仓鼠科,因此系统树显示亲缘关系比较近。仓鼠科动物与小鼠、大鼠形成的进化枝明显低于它们4种动物之间的(BCL)值,但均大于50%,分别为75%、78%和89%。中国地鼠与豚鼠之间的关系最远,因BCL值小于50%,在系统树上不显示。从3种进化树都可以看出,豚鼠和犬的亲缘关系近,而和其他鼠类亲缘关系较远,关于豚鼠在啮齿类动物中的分类地位还需要进一步的研究。