基于生物质谱数据鉴定单核苷酸变异的生物信息学方法

时间：2020-09-13 16:07:53 生物科学毕业论文我要投稿

　　在肽段鉴定领域，图谱库搜索是一种有望取代序列数据库搜索的鉴定策略，下面是小编搜集整理的一篇探究生物质谱数据鉴定单核苷酸变异的论文范文，欢迎阅读参考。

基于生物质谱数据鉴定单核苷酸变异的生物信息学方法

　　前言

　　单核苷酸变异(singlenucleotidevariations,SNVs)是由DNA序列上单个碱基变异产生的,包括碱基的缺失、插入、转换及颠换等.SNVs是基因组序列变异的主要形式[1],同时也是生物体生理和病理变异的遗传基础[2].从遗传学的角度看,SNVs既可以存在于具有遗传性的生殖细胞中,也可以存在于不具有遗传性的体细胞中.其中,只有位于基因编码区的SNVs能够影响蛋白的编码.位于编码区的SNVs可以分为3类:(ⅰ)同义SNVs,不改变相应的氨基酸种类;(ⅱ)无义SNVs,突变成为终止密码子,提早结束编码;(ⅲ)非同义SNVs(nonsynonymousSNVs,nsSNVs),改变氨基酸的种类.nsSNVs能够改变蛋白的结构、功能、表达以及亚细胞定位等[3],进而对多种遗传性的特征、疾病以及癌症等产生影响[4~9],如人类耳垢的类型[6]、腋窝的气味[7]、癌症与肿瘤的发生[8]、阿尔茨海默病[9]以及镰刀形红细胞贫血症[10]等.

　　因此,对SNVs展开研究可以揭示出基因与表型多样性和基因与疾病间的关系,并且有可能研发出治疗疾病的新方法.目前,全基因组关联研究(genome-wideassociationstudies,GWAS)[11]虽然在基因变异与表型多样性的研究中产出了许多能够用来解释特异性疾病分子途径的结果,但是仍然难以对绝大部分具有复杂特征的分子机制以及SNVs与复杂疾病表型间的关系进行解释[12].在这种情况下,对突变蛋白的研究提供了另一种了解基因型与表型间关联的方法[13].

　　由SNVs引起的单个氨基酸的变异称为单氨基酸变异(singleaminoacidvariations,SAVs),因此SAVs是SNVs在蛋白水平上的表现.对SAVs的研究,有助于了解基因型与表型间的关系,进而从本质上了解基因是怎样在蛋白水平上影响生物体的生命过程的[14].目前,基于串联质谱的鸟枪法蛋白质组学(shotgunproteomics)技术由于其自动化、高通量、高灵敏度和高分辨率等特点,已成为大规模蛋白质研究的主要方法.序列数据库搜索算法由于具有较高的可靠性以及灵敏度而成为当今鸟枪法蛋白质组学中蛋白鉴定的主要生物信息学方法.然而,通常蛋白质数据库在构建时为了减小数据库的冗余程度,往往有意压缩对SAVs信息的收录(如Swiss-Prot数据库[15,16],IPI数据库[17]等),从而使得常用的数据库搜索策略不能有效地鉴定出样本中的氨基酸突变信息.

　　为此,研究人员提出了一系列鉴定突变蛋白的方法,如构建包含有突变信息的蛋白质数据库、构建相似性图谱库等.在基于串联质谱进行SAVs鉴定时,可以采用与蛋白质翻译后修饰(post-translationalmodifications,PTMs)鉴定[18]相同的方法,这是因为肽段的突变和修饰在质谱图中的表现都是质量迁移,如甲硫氨酸(Met)氧化与丙氨酸(Ala)突变为丝氨酸(Ser)在质量上都是增加16Da[19],所以鉴定PTMs的算法和流程通常也能够鉴定SAVs(如Bonanza算法[20]).虽然PTMs和SAVs的质谱鉴定方法非常相似,但由于其来源上的差别,在实际的鉴定策略中有所不同.(ⅰ)PTMs的种类远比SAVs要多,鉴定PTMs所需的搜索空间一般会比鉴定SAVs所需的大,在质量控制方面具有更大的挑战;(ⅱ)蛋白水平的SAVs大部分是从基因组或转录组延续过来的,充分利用SNVs的数据能大大降低搜索空间,从而得到更可靠的结果.因此在计算方法与策略方面,SAVs和PTMs的鉴定具有一定的相似性,也有其独有的特点.

　　本文从序列数据库搜索算法、序列标签搜索算法以及图谱库搜索算法3个大方面,详细地介绍了目前基于生物质谱数据鉴定SAVs的各种生物信息学方法,并分析了各种突变鉴定方法的不足之处,最后介绍了基于生物质谱的SAVs鉴定研究现状及其发展方向.

　　1、氨基酸突变鉴定的算法

　　当前基于生物质谱的SAVs鉴定算法都是由常规鉴定算法改进而来的,因此根据常规串联质谱鉴定算法中对数据库的依赖程度以及使用的数据库种类,可以将基于生物质谱的SAVs鉴定算法分为3大类(表1):(ⅰ)完全依赖序列数据库的搜索算法,即基于序列数据库搜索的氨基酸突变鉴定算法.此算法利用前体离子质量从序列数据库中筛选出候选肽段,然后将候选肽段的理论图谱与目标图谱进行比对,从而鉴定出样品中的突变肽段;(ⅱ)将从头测序算法(denovo)与序列比对结合的算法,即基于序列标签的氨基酸突变鉴定算法.此算法首先通过denovo测序算法推导出目标图谱中的肽序列标签(peptidesequencetags,PSTs),然后利用PSTs过滤数据库筛选出候选肽段,最后结合PSTs对理论谱图与目标图谱进行比较打分,从而鉴定出样品中的突变肽段;(ⅲ)依赖于图谱库的搜索算法,即基于图谱库的氨基酸突变鉴定算法.此算法将实验图谱与图谱库中的一致性图谱进行比对,从而鉴定出样品中的突变肽段.这3类方法和策略在实施过程中各有其优劣(表1),相互之间暂无法替代,因此在不同的目的下各有其适用性.

　　1.1基于序列数据库搜索的氨基酸突变鉴定算法

　　基于序列数据库搜索的氨基酸突变鉴定算法,根据不同的数据库构建方法可以细分为3类:(ⅰ)基于穷举法的氨基酸突变鉴定算法,即通过枚举数据库中氨基酸残基的所有可能突变种类进行突变肽段的鉴定;(ⅱ)结合已知氨基酸突变信息对突变肽段进行鉴定,即结合当前变异数据库(如dbSNP数据库[21]、COSMIC数据库[22]等,表2列举了常用的氨基酸与基因突变数据库)中的变异信息构建数据库进行突变肽段的鉴定;(ⅲ)基于样本特异性的数据库鉴定突变肽段,即结合样本数据中可能存在的突变肽段信息构建数据库进行突变肽段的鉴定.以下将对这3种方式进行逐一详细地说明.

　　(1)基于穷举法的氨基酸突变鉴定算法.在序列数据库搜索中,最早对突变肽段进行鉴定的自动化方法是穷举法,此方法不仅原理简单而且理论上能够鉴定出样品中所有可能的突变肽段.这类算法的大体步骤是:通过穷举法罗列出所有可能的突变肽段序列,然后用常规鉴定方法进行比对打分筛选出最有可能的突变肽段序列.此类算法的代表有SEQUEST-SNP算法[27]和Siprosv2.0算法[18]等.Gatlin等人[27]在2000年,利用改进的SEQUEST算法(SEQUEST-SNP)率先实现了利用自动化的数据库搜索对突变肽段进行鉴定.此方法特点在于动态生成所有可能的核苷酸突变序列,将其翻译成肽段并构建成一个数据库用于对突变肽段的鉴定.此后,通过穷举蛋白序列中所有可能的氨基酸突变进行肽段突变鉴定的方法在Mascot[28]和X!Tandem[29]相继采用.2012年,Hyatt和Pan[18]提出了不受数据库约束的穷举法突变肽段鉴定算法Siprosv2.0,此算法通过肽段产生模块和肽段打分模块实现对CPU和内存效率的优化以应对穷举法产生的大数据库.理论上,穷举法能够鉴定出样品中所有的突变肽段,但肽段中的每一个氨基酸残基都有18种可能的突变,因此利用此方法会大大增加搜索空间[18,24],延长搜索时间,并且会增加假阳性风险从而降低结果的灵敏度.

　　(2)结合已知氨基酸突变信息对突变氨基酸进行鉴定.为了避免穷举法引起搜索空间过大的问题,一些团队提出结合已知的编码SNVs信息或是与疾病等有关的突变信息构建蛋白质数据库,以减小突变肽段的搜索范围.此类数据库的代表有MSIPI[17]和MS-CanProVar[24]等.2007年,Schandorff等人[17]将一些来自dbSNP数据库[21]的编码SNP(singlenucleotidepolymorphism)以及与IPI(theinternationalproteinindex)数据库中数据有冲突的序列等整合到IPI数据库[30]中构建了质谱友好型的变异数据库MSIPI.其质谱友好型体现在,在保留原始IPI条目完整性的基础上,将后加的肽段序列附加到原有序列中,用不代表任何氨基酸的字母"J"将原始条目与附加肽段区分开来,并且将在原始条目的表头信息中加入附加肽段信息.同年,Bunger等人[31]也利用dbSNP数据库中人类基因变异信息构建变异蛋白质数据库K-SNPdb,并构建相应的常规数据库.然后对分开搜库结果进行比对打分,筛选出高可信的变异肽段.Li等人[24]在2011年基于人类癌症蛋白质变异数据库CanProVar[32]构建了一个MS-CanProVar数据库,此数据库中不仅包含了dbSNP数据库中的编码的SNP信息,还包括了COSMIC[22]和OMIM[23]等数据库中与癌症相关的体细胞变异信息.

　　除了自定义构建突变数据库以外,氨基酸突变信息也被一些在线平台收录、整合,如Swiss-Var[33],SysPIMP[34]和RAId_DbS[35]等.Swiss-Var网站搜集的是Swiss-Prot数据库[36]中突变肽段的信息,主要为用户提供Swiss-Prot数据库中的突变肽段信息及其与疾病间的关系.SysPIMP主要用于鉴定与人类疾病有关的突变肽段序列,它的数据主要来源于OMIM数据库中等位基因突变信息、蛋白质突变数据库(proteinmutationdatabase,PMD)[37]以及Swiss-Prot数据库中与人类疾病和多态性有关的序列信息.而在RAId_DbS数据库中不仅整合了SAVs与疾病的信息,同时也收录了PTMs与疾病有关的信息.

　　2012年,Mathivanan等人[25]提出的iMASp策略即是利用现有的突变信息对突变肽段进行鉴定.这种策略利用了分步搜索的方法,即是第一次通过常规搜索鉴定出样本中的常规蛋白,第二次利用突变数据库对第一次没有鉴定出的质谱图进行搜索鉴定样品中的突变肽段.相比穷举法,结合已知氨基酸突变信息对突变氨基酸进行鉴定的方法虽然在一定程度上缩小了搜索空间,但在数据库中添加的上万条突变肽段序列绝大部分不会在样品数据集中出现.因此,这种方法并没有十分有效地规避假阳性升高以及鉴定结果灵敏性降低的缺点[14].

　　(3)基于样本特异性的数据库鉴定突变肽段.除了直接利用公共数据库中的突变数据外,利用DNA/RNA等信息提供的样本特异性突变构建的数据库能更好地贴合实际样本数据,提高鉴定效率.目前利用样本特异性鉴定突变肽段的方法有2种:两次搜索数据库的方法以及利用转录组数据构建数据库的方法.两次搜索数据库的方法与iMASp策略中所使用的分步搜索以及Mascot和X!Tandem中的容错搜索相似,不同的地方在于两次搜索数据库中所使用的突变数据库依赖于样本特异性的DAN/RAN信息,而iMASp策略中的突变数据库是整合所有已知的蛋白突变信息,不具有样本特异性;Mascot和X!Tandem则是对第一次搜索所得的蛋白序列进行穷举从而鉴定出突变或修饰肽段.Chernobrovkin等人[38]提出的二次迭代法以及Su等人[39]构建样本特异性突变数据库的策略都是样本特异性的两次搜索方法的代表.

　　另一种方法是利用转录组数据构建样本特异性数据库用于突变肽段的鉴定.相对于利用公共的突变数据库,利用转录组数据构建蛋白质数据库可以由样品转录组数据直接推导样本中可能存在的蛋白及其突变序列并由其构建数据库[40].用此方法构建的数据库所包含的蛋白质信息更加接近样品中真实信息,因此这种无偏性的数据库能高效地鉴定出样品中存在的突变序列[16,41].由于转录组数据十分庞大,在现有的计算能力下要想利用转录组数据构建数据库就必须要对转录组数据进行压缩.2007年,Edwards[16]提出了一个压缩表达序列标签(expressedsequencetags,ESTs)数据的策略,实现了利用EST数据库进行常规化的肽段序列和变异位点的鉴定.此压缩策略的特点在于选用某种方法来表示肽段,确保绝大多数的重复肽段序列被消除,并且不影响肽段序列的鉴定.随着下一代测序(nextgenerationsequencing,NGS)技术的出现,RNA测序(RNA-sequecing,RNA-Seq)的成本越来越低[14],并且克服了EST测序存在的克隆偏性和高花费等缺点[42],因此利用RNA-Seq数据构建样本特异性数据库逐渐受到人们的重视.Wang等人[41]在2012年提出了一个利用RNA-Seq数据构建样本特异性数据库的策略,此策略通过两步来实现:(ⅰ)利用一个经验性的RPKM(readsperkilobasespermillionreads)值排除不表达或低表达基因以减小数据库中的条目;(ⅱ)将由RNA-Seq数据鉴定得来的高可靠性SNVs的相应肽段添加到数据库中,以寻找变异肽段.此后,Wang和Zhang[43]为生成自定义RNA-Seq数据库编写了R程序包customProDB,能够生成含有突变、插入、缺失等变异肽段的RNA-Seq数据库.2013年,Sheynkman等人[14]实践了Wang和Zhang[43]的方法,利用Jurkat细胞系的RNA-Seq数据构建一个自定义的变异蛋白质数据库,并成功地应用在Jurkat细胞系的质谱数据突变鉴定中.同年,Woo等人[44]在尽量不影响鉴定结果灵敏性的基础上,将秀丽隐杆线虫(Caenorhabditiselegans)的RNA-Seq数据压缩了近1000倍,并利用此数据库成功地鉴定到了新型蛋白.

　　由于并不是所有的样本都同时拥有蛋白质数据和RNA-Seq数据,因此,Wang和Zhang[43]利用64个大肠癌的RNA-Seq数据构建了一致性蛋白质数据库,并成功地将此数据库应用在蛋白鉴定中.样本特异性的数据库,特别是利用RNA-Seq数据构建的样本数据库不仅能够有效地缩减搜索空间,而且能够鉴定出样品中所有已知类型的蛋白种类以及新型的变异肽段序列.随着计算方法的不断改进,通过RNA-Seq数据对样本进行突变肽段的鉴定方法有望成为常规的突变鉴定方法.

　　(4)基于序列数据库搜索的氨基酸突变鉴定算法的缺点.在鉴定突变肽段的方法中,虽然通过构建含有突变信息的序列数据库鉴定突变肽段的方法是目前被最广泛采用的方法,但它的缺点也是不容忽视的.(ⅰ)除了利用穷举法构建的突变数据库以外,利用其他方法构建的突变数据库对突变信息包含得都不够全面,如公共数据库通常会有意忽略对变异数据的收录,而样本特异性数据库为了减小搜索空间通常也会去除低表达的蛋白质;(ⅱ)序列数据搜索中,当图谱中的碎裂信息不够完整、信噪比较低时,搜索引擎就不能将候选肽段正确地区分开[45],因而会增加假阳性的概率.为了避免序列数据库的上述缺点,提出了其他鉴定突变肽段的方法,如序列标签算法、图谱库搜索算法等.

　　1.2基于序列标签的氨基酸突变鉴定算法

　　相比序列数据库搜索算法利用肽段母离子质量从数据库中筛选候选肽段,序列标签算法利用denovo测序算法推导的PSTs能够更有效地过滤数据库,减少候选肽段的数目以缩小搜索空间,使得更复杂和计算更密集的方法能够应用到对候选肽段的突变打分算法中[45],从而提高了突变鉴定结果的灵敏性并且减少了结果中的假阳性率.下面从序列标签搜索算法与denovo测序算法之间的关系以及当前结合PSTs进行氨基酸突变鉴定的主流工具两个方面对序列标签算法鉴定突变氨基酸进行介绍.

　　(1)序列标签搜索算法与denovo测序算法.相比序列数据库搜索算法,denovo算法在对质谱图进行氨基酸序列推导时不依赖蛋白质数据库,因此它在鉴定氨基酸突变方面有独特的优势[45~47].当前使用denovo测序算法的代表性工具有SHERENGA[48],PEAKS[49~51]以及PepNovo[52]等.这些工具所使用的算法都是通过生成前缀残基质量图谱(prefixresiduemassspectra)重构整个图谱进行肽段序列推导的,因此这些算法对质谱图的质量具有较高的要求[45].但通过诱导碰撞解离(collision-induceddissociation,CID)产生的串联图谱中不可避免地含有不完整的碎裂离子系列、噪音离子和精度较差的碎裂离子质量,这使得denovo算法常常产生一些不确定的序列区域,导致denovo算法通常只能准确地推导出肽段序列中的部分序列[46].因此,结合denovo算法鉴定的部分肽段序列进行数据库搜索的序列标签算法应运而生,这种算法不仅可以利用denovo推导出的PSTs作为筛选候选肽段时的过滤指标,有效地减少搜索空间,而且可以通过改变PSTs与候选肽段匹配的打分算法,提高对突变肽段的鉴定效率.

　　(2)结合肽序列标签的氨基酸突变鉴定算法.最早结合PSTs进行数据库搜索的方法是由Mann和Wilm[53]在1994年提出的,此方法不仅能有效地对常规图谱进行鉴定,而且能够鉴定出带有突变或修饰图谱的肽段序列.当前结合肽序列标签对氨基酸突变进行鉴定的算法或程序有GutenTag程序[54],Opensea工具[55],SPIDER程序[56,57],InsPecT搜索引擎[45],DirecTag算法[58]以及MoDa算法[59]等.鉴定突变氨基酸常用的序列标签软件及其网址见表3.

　　GutenTag是由Yates实验室开发出来的能够自动推导+2电荷母离子串联图谱PSTs用于数据库搜索的算法,其特点是利用碎片离子峰强度经验模型并结合相邻氨基酸和碎片离子的相对质量对肽段碎裂的影响推导PSTs,之后用多个PSTs进行搜库,同时放宽对PST两端质量匹配的限制,从而能够有效地进行突变肽段的鉴定.但由于GutenTag算法没有考虑同源突变或修饰,所以此算法只能对数据库中已存在的突变序列进行鉴定,并且由于在打分方面存在漏洞[55],所以鉴定出来的结果中存在较高的假阳性.

　　在GutenTag算法发表后的第2年,Searle等人[55]首次将序列标签算法的思想应用于非限制翻译后修饰,并提出了基于质量的序列比对算法工具Opensea.Opensea的特点是利用基于质量的宽度优先的算法("breadth-firstsearch"algorithm)鉴定出突变位点或修饰位点.但宽度优先的算法是一种贪婪的匹配算法,并且在Opensea中没有考虑在一个位点上同时存在denovo的测序错误和同源突变的情况,所以它不能保证最终结果的可靠性.SPIDER方法与Opensea工具有相似的序列标签算法思想,但与Opensea不同的是,它能够在一个位置上同时考虑denovo的测序错误和同源突变的情况,并且利用动态规划算法进行比对打分.SPIDER算法已被整合进PEAKS软件中,专门用来对突变肽段和跨物种的同源性肽段进行鉴定.

　　在GutenTag算法推出后,Pevzner实验室迅速推出了InsPecT序列标签算法搜索引擎[45],它是最早实现规模化鉴定翻译后修饰肽段的搜索工具,现在仍然被广泛使用.InsPect搜索引擎推导PSTs的算法的特点在于利用改进的denovo算法推导出PSTs作为过滤器缩小候选肽段的范围,并利用树状快速搜索方法(fasttree-basedsearch)找出与PSTs匹配的候选肽段,用基于动态规划算法(dynamicprogramming)的图谱比对方法鉴定修饰肽段,并在打分算法中考虑肽段的碎裂模式.在推导PSTs时,InsPecT需要构建前缀残基质量图,而DirecTag算法则是直接利用串联图谱的质核比值和峰强度信息对可能的标签进行打分.由于DirecTag只能用来推导PSTs,因此其团队后续开发了TagRecon算法[47]并将DirecTag,TagRecon和IDPicker工具[60]整合成鉴定突变和修饰肽段的流程,其大致过程为:(ⅰ)利用DirecTag生成PSTs;(ⅱ)TagRecon利用PSTs对常规数据库进行候选肽段过滤,并且定位数据集中的突变或修饰肽段;(ⅲ)利用IDPicker工具对鉴定结果进行质量控制并且装配成蛋白.此流程算法在2013年由Abraham等人[19]在鉴定胡杨树(Populus)单氨基酸多态性的实验中被成功地使用.

　　目前序列标签算法都依赖于denovo测序构建PSTs,但是由denovo算法测出的肽片段往往存在部分构建错误的序列[56].MoDa算法[59]在搜索候选肽段时,由于采用序列标签链算法(tagchainalgorithm)[61],能有效地避免由denovo测序引起的错误匹配.在MoDa算法中,将序列标签算法和动态规划算法结合,同时利用多条序列标签与候选肽段进行比对,找出存在质量差的位点,然后利用基于动态规划算法的图谱比对算法找出最佳的`肽段序列.此方法能够大规模地鉴定出存在多个修饰位点或突变位点的肽段.

　　(3)基于序列标签的氨基酸突变鉴定算法面临的问题.基于肽段序列标签的氨基酸突变序列鉴定算法虽然能够有效地利用PSTs过滤数据库,弥补denovo测序算法的测序错误并且提高对突变或修饰肽段鉴定的效率和准确性,但目前已有的PSTs算法仍然存在着许多不足,如在GutenTag算法中没有考虑同源突变或修饰,所以不能鉴定出数据库中不存在的突变序列,而在Opensea软件中没有考虑到突变位点的出现可能是由denovo的测序错误引起的等.但是图谱质量是限制序列标签算法的主要因素,因为低能CID碎裂模式通常很难将质量相同或相近的碎裂离子区分开来,如亮氨酸(Leu)和异亮氨酸(Ile)、赖氨酸(Lys)和谷氨酰胺(Gln)以及苯丙氨酸(Phe)和氧化的甲硫氨酸(Met)等[46].近年来,随着电子转移解离(electrontransferdissociation,ETD)和高能碰撞解离(high-energycollisioninduceddissociation,HCD)的出现,越来越多的比CID质谱图质量高的、含有丰富的碎裂离子信息的高精度质谱图被产出,这些高精度的质谱图能更好地适用于序列标签算法,提高其准确性.

　　1.3基于图谱库搜索的氨基酸突变鉴定算法

　　在肽段鉴定领域,图谱库搜索是一种有望取代序列数据库搜索的鉴定策略[62].相比序列数据库搜索策略,图谱库搜索策略有以下优点:(ⅰ)直接利用图谱库中每一张真实图谱的各种不同的特征信息进行比对,如碎片离子峰的峰强度信息、碎裂模式等,使图谱比对算法具有更高的灵敏性;(ⅱ)能够在一个更小、更精确的搜索空间内进行搜索,可以比序列搜索速度快好几个数量级;(ⅲ)能够轻松地鉴定出图谱库中已存在的变异肽段[63].对于依赖于图谱库搜索的蛋白突变鉴定来讲,目前最大的限制来源于图谱库的覆盖范围,尤其是对突变和修饰肽段图谱的包含[63,64].由于在相似的条件下,肽段的图谱具有可再生性[65]并且相似序列的肽段通常能够产生相似的质谱图[20,66],因此一批利用图谱库中已收录的肽段图谱来扩大图谱库对肽段的覆盖范围,以实现对氨基酸突变进行鉴定的算法或工具应运而生.目前常用的图谱搜索软件及其网址见表4.

　　在蛋白质组学中,图谱库搜索概念早在1998年就由Yates等人[70]率先提出,但由于质谱仪通量不高、生物质谱数据缺乏以及质谱数据的自动化分析方法不完善等[71]原因使得图谱库搜索策略发展缓慢.直到最近10年,随着质谱和计算机技术的快速发展,鉴定出的肽段图谱匹配对(peptidespectrummatch,PSM)的数目与日俱增,图谱库搜索策略才逐渐被应用到大规模数据集和数据库中.最近,图谱库搜索策略更是被用于发掘样品中的突变肽段.要用图谱搜索策略来鉴定样品中的突变肽段,就必须要扩大图谱库对突变肽段的覆盖范围.目前用于扩大图谱库覆盖范围的算法有pMatch[63]、半经验算法[72,73]以及Ji等人[66]提出的相似性算法等.pMatch在构建图谱时,利用肽段已知的实验图谱和理论图谱混合构建图谱,用来缓冲由修饰或突变氨基酸残基引起的肽段碎裂模式的变化[64].由Hu等人[72]在2011年提出的半经验方法通过利用图谱库中已收录的PSMs构建突变肽段的质谱图以扩大对突变肽段的覆盖范围.这种算法把图谱库中图谱对应的肽段序列替换为相应的突变肽段序列,并将突变肽段的碎裂离子的质核比值替换到图谱中.2013年,Ji等人[66]提出的相似性算法通过利用相似序列肽段的图谱来推断目标肽段的图谱,以达到扩充图谱库的覆盖范围的目的.这种算法的特点是,通过加权K邻近相似算法[66](weightedK-nearestneighbormethod)和支持向量机(supportvectormachine,SVM)[74],利用与目标肽段序列相似且长度相等的肽段的图谱来精确地预测目标肽段序列的优势碎裂离子(如b,y离子类型以及其中性丢失离子类型等)的峰强度,并且利用SpectraST[64,67]创建的模型构建诱饵数据库进行数据过滤.同时,Ji等人[66]指出,将此算法应用于扩建美国国家标准与技术研究院(NationalInstituteofStandardsandTech-nology,NIST)图谱数据库,能有效地将NIST图谱库的覆盖率提高20%~60%,并且用此数据库能够鉴定到样品中更多的突变肽段.

　　除了通过扩大图谱库覆盖范围以提高图谱库搜索对样品突变肽段的鉴定率以外,通过改善图谱-图谱匹配(spectrum-spectrummatch,SSM)的打分算法也是一条有效提高突变肽段鉴定效率的途径.目前点积法是SSMs打分的主流算法,如SpectraST和X!Hunter[68]等主流的图谱搜索工具都是利用点积算法进行匹配打分的.近年来,一些基于点积法、用于搜索变异肽段的图谱库搜索工具或算法也逐渐被开发出来,如pMatch工具[63],Bonanza算法[20]等.

　　pMatch工具的特点在于,利用电荷依赖型的质量位移进行离子峰匹配,并且将常规的点积法与基于概率的模型相结合对图谱间的匹配进行打分.Bonanza算法特点在于,在筛选候选图谱时,不限制母离子质量,可以将不同母离子质量的图谱聚在一起作为候选图谱;在对离子峰进行匹配时,不仅将质量相近的子离子峰考虑进去,还将母离子间的质量差考虑进去;最后,利用改进的点积法进行打分.最近,考虑到点积法不能提供一个清晰的统计学上的解释并且在打分中忽略了碎裂离子质核比值的差异等缺点,Dasari等人[62]构建了一个利用概率评分标准对SSMs的质量进行评估的搜索引擎Pepitome,并且在错误发现率(falsediscoveryrate,FDR)为2%的情况下,成功地鉴定到比SpectraST多10%~12%的肽段数目.前面所提到的图谱鉴定方法都需要依赖图谱库,Fu等人[69]在2011年提出了一个不需要搜索图谱库就能直接对突变肽段进行鉴定的统计学算法DeltAMT,此算法通过二维高斯混合模型利用高精确度的母离子质量差和保留时间信息对变异肽段进行鉴定.

　　总体而言,基于图谱库的蛋白质突变鉴定算法能够有效地缩小搜索空间,降低搜索时间,提高搜索的灵敏度.目前,由于存在谱图搜索软件对质谱图的整体解析度无法达到传统数据库搜索策略的程度以及谱库的覆盖范围小等原因,谱图搜索更多的是作为传统数据库搜索策略的互补策略被使用.但是随着算法的改进以及PeptideAtlas[75]计划的进行[62],相信在不久的将来,利用图谱库对串联质谱进行鉴定的方法会越来越广泛地被使用.

　　2、氨基酸突变鉴定的应用

　　当调节细胞增殖、分化、死亡的蛋白序列突变累积到一定程度就会引起癌变[76].DNA测序显示,在复杂的癌症基因组中通常包含40~100个可能的氨基酸突变位点[25],然而这些突变中只有小部分会对癌症与肿瘤的发生产生作用.因此如果能够鉴定出与癌症或肿瘤发生有关的突变肽段,进而对能够真正引发癌症的基因进行重注释就有机会从更深的层次上了解癌症或肿瘤病发的机理,找寻到治疗癌症或肿瘤的新方法.所以,提高图谱的解析率,鉴定出更多的高质量的突变图谱是找寻突变肽段的关键.

　　受限于质谱数据的质量、计算能力以及当前已知SAVs的覆盖范围等因素,SAVs鉴定首先应用在小规模的样品数据集中.2000年,Gatlin等人[27]通过动态构建人类血红蛋白变异数据库首次成功地对人类血红蛋白样品进行了突变鉴定.随后,2003年Tabb等人[54]利用序列标签算法对32950张人类晶状体蛋白质样品(humanlenssample)质谱数据中的突变肽段鉴定作出了尝试,成功地鉴定出742条肽段,其中134条与突变有关.随着科技的进步和算法的优化,SAVs鉴定逐渐被应用到大规模数据集的鉴定中.

　　2007年,Bunger等人[31]通过搜索结合dbSNP数据库的自建蛋白质数据库从DU4475乳腺肿瘤细胞样品质谱数据中鉴定出629个nsSNVs.同时他们指出,在大规模数据集中,要想鉴定出高可信的SAVs,不仅要依赖鉴定算法还要对假阳性鉴定结果进行过滤,如通过诱饵数据库去除假阳性鉴定等.Tanner等人[77]利用InsPecT对1850万张人类蛋白质样品HEK293质谱图进行鉴定,并结合PTMfinder[78]算法对鉴定结果进行了假阳性过滤,从中发现了与308个nsSNVs有关的肽段.之后,SAVs的鉴定被广泛地应用于组织、器官等复杂样品数据集中.2012年,Hyatt和Pan[18]将Siprosv2.0算法应用于鉴定酸性矿坑水(acidminedrainage)环境中的微生物群落蛋白质的突变氨基酸,在含有57001个蛋白的数据库中进行搜索,鉴定出1683张图谱对应的755个突变肽段.同时,Hyatt和Pan[18]指出,氨基酸突变中有些可能来自于氨基酸的修饰作用,如在鉴定出的频率最高的突变氨基酸中,谷氨酰胺(Gln)与谷氨酸(Glu)以及天冬酰胺(Asn)与天冬氨酸(Asp)之间都能经过脱氨基作用进行转换.Su等人[39]利用自定义的人类血浆蛋白质突变数据库,从290个亚洲人血浆样品中鉴定出2029个SAVs,并挑选出3对与糖尿病和肥胖有关的SAVs进行了绝对定量分析,指出表型不仅和SAVs的浓度有关,也和SAVs变种的相对率有关系.Mathivanan等人[25]通过构建人类蛋白质突变数据库(HPMD),从直肠癌细胞系中鉴定出2728个蛋白,其中有57个突变蛋白是首次在直肠癌中被鉴定出来的.这些新鉴定出来的突变蛋白在发展新的直肠癌生物标志物和研究治疗直肠癌的靶蛋白方面将会发挥巨大的作用.

　　近年来,利用RNA-seq数据对蛋白质组数据进行鉴定逐渐受到人们的青睐.2012年,Wang等人[41]基于RNA-Seq数据构建了蛋白质数据库并对2个直肠癌细胞系SW480和RKO进行了鉴定,分别鉴定出18760和22623张质谱图.这些图谱中共包含23条不存在于dbSNP54中的变异肽段,其中鉴定到的TP53P309S突变能够增加SW480细胞的增殖能力,并且能够增强对细胞抗癌药物的耐受性;HSP90AA1D393N突变对致癌蛋白的构象和稳定性有着巨大的影响.

　　虽然利用质谱数据结合序列数据库搜索是目前主流的蛋白鉴定的策略,但在传统的数据库搜索中,即使利用最好的质谱平台和最优的分析软件,也有相当一部分质谱图不能被解析出来[79,80].随着越来越多的PSMs被鉴定出来,人们开始利用质谱图数据库来鉴定突变肽段,并且成功地鉴定到了比序列数据库搜索更多的SAVs.在FDR=0.0001%的条件下,Hu等人[72,73]利用SpectraST搜索半经验图谱库并结合PeptideProphet[81]对结果进行检验,成功地从人类血浆样品中鉴定出了与SAVs有关的2045条肽段,而相同条件下,X!Tandem则只从序列数据库中鉴定出来623条与SAVs有关的肽段.

　　3、结语

　　随着DNA测序成本大幅降低,越来越多个体的基因组序列被鉴定出来[82].但即便在知道人类全基因序列信息的情况下,科学家们对基因型与分子表型间关系的了解也只是冰山一角[83].而对分子表型的了解有助于科学家们对人类疾病发生机理的理解,比如由RNA、蛋白质以及翻译后修饰数据能够容易地推断出信号通路是否被激活.虽然目前出现了许多能够预测基因突变对蛋白分子结构及功能影响的软件和在线工具,如IntOGen[84],SIFT[85]和Poly-Phen-2[86]等,但这些预测工具只能辅助性地对突变氨基酸进行筛选和排序,以便减少实验验证的候选者[87].而结合了变异蛋白信息的基因信息能够有效地帮助科学家对特定生物学过程的分子途径以及疾病发生的机制等进行理解,进而增加预防、诊断、治疗疾病的手段[88].

　　本文从数据库搜索、数据库搜索与denovo结合的序列标签搜索以及新兴的图谱比对搜索方法3个方面对大规模鉴定突变蛋白的方法作出了比较全面的介绍.目前,无论哪一种搜索方法都受到离子碎裂模式理解程度的深入、计算能力高低以及数据库覆盖范围大小等因素的限制,而结合不同搜索方法能够实现不同方法间的互补,能有效地提高鉴定结果的灵敏度.Dasari等人[62]发现,将序列数据库搜索和图谱库搜素结合起来对样品进行搜索能有效地提高搜索结果的覆盖范围,并且成功地将此方法应用在了对MMR细胞系的鉴定中.相似地,在PEAKS软件中,将denovo测序、序列数据库搜索以及同源性搜索等方法整合到一起形成一个工作流程,结合多个搜索引擎产出高可信的结果,并且使得鉴定结果对样本数据库的覆盖范围最大化[49~51].随着质谱技术的不断发展和新型计算方法的出现,序列数据库搜索算法和图谱库搜索算法以及denovo测序算法的不断地改善、提高,将来会有越多的突变蛋白被鉴定出来,这些鉴定结果在寻找生物标记物、个性化医疗以及生理病理机制研究等方面将发挥重要的作用.

　　参考文献

　　CollinsFS,BrooksLD,ChakravartiA.ADNApolymorphismdiscoveryresourceforresearchonhumangeneticvariation.GenomeRes,1998,8:1229–1231

　　FrazerKA,BallingerDG,CoxDR,etal.Asecondgenerationhumanhaplotypemapofover3.1millionSNPs.Nature,2007,449:851–861

　　RevaB,AntipinY,SanderC.Predictingthefunctionalimpactofproteinmutations:applicationtocancergenomics.NucleicAcidsRes,2011,39:e118

　　NakamuraY.DNAvariationsinhumanandmedicalgenetics:25yearsofmyexperience.JHumGenet,2009,54:1–8

　　YinH,LiangY,YanZ,etal.Mutationspectruminhumancolorectalcancersandpotentialfunctionalrelevance.BMCMedGenet,2013,14:32

　　MartinA,SaathoffM,KuhnF,etal.AfunctionalABCC11alleleisessentialinthebiochemicalformationofhumanaxillaryodor.JInvestDermatol,2010,130:529–540

　　YoshiuraK,KinoshitaA,IshidaT,etal.ASNPintheABCC11geneisthedeterminantofhumanearwaxtype.NatGenet,2006,38:324–330

　　VogelsteinB,KinzlerKW.Cancergenesandthepathwaystheycontrol.NatMed,2004,10:789–799

　　DiFedeG,CataniaM,MorbinM,etal.ArecessivemutationintheAPPgenewithdominant-negativeeffectonamyloidogenesis.Science,2009,323:1473–1477

【基于生物质谱数据鉴定单核苷酸变异的生物信息学方法】相关文章：

1.实现基于网页的数据库数据导入

2.基于XML的果园环境数据采集和数据表示

3.生物信息学专业MySQL数据库课程教学方法探讨论文

4.基于数据挖掘的成绩分析系统

5.基于能量谱的时域波形再现瞬态振动环境试验方法研究论文

6.网上淘宝刷单兼职靠谱吗？

7.B超单上的数据都代表什么

8.基于AMF的Android数据通信论文

9.单枞冲泡方法