基金项目:国家自然科学基金重点项目(U1705231); 国家海水鱼类产业技术体系项目(CARS-47-G04); 厦门南方海洋研究中心重大项目(14GZY70NF34)
通信作者:zywang@jmu.edu.cn
(集美大学农业部东海海水健康养殖重点实验室,福建 厦门 361021)
(Key Laboratory of Healthy Mariculture for the East China Sea,Ministry of Agriculture,Jimei University,Xiamen 361021,China)
genomic selection; prior distribution; hyper-parameter setting; accuracy; simulation study
DOI: 10.6043/j.issn.0438-0479.201709021
基因组选择是通过全基因组的标记信息估计出个体的基因组育种值并加以选择的育种方法.主要围绕最佳线性无偏预测(BLUP)和贝叶斯方法展开.这些方法均在某种先验假设下进行,因此需要对先验分布的参数进行设定.依据设定先验超参数的原理,探讨了对单核苷酸多态性(SNP)基因型进行与不进行标准化两种策略下先验超参数的设定方法,并利用QTLMAS2012的模拟数据,分别计算了7种预测方法(岭回归BLUP(RRBLUP)、BayesA、BayesB、BayesCπ、快速BayesB(FBayesB),快速混合正态分布(FMixP)和基于马尔科夫链-蒙特卡洛算法的MixP(简称MMixP))在2种策略下的基因组育种值.结果显示:当采用同一种预测方法,对SNP基因型进行标准化处理与否不影响基因组育种值估计结果.但由于对基因型进行标准化处理在方法上更具有通用性,并可以突出效应大的SNP位点,故建议进行SNP效应值估计前,先将SNP基因型标准化,再设定先验分布的参数值.
Genomic selection is a breeding method that uses whole-genome markers to predict genomic estimated breeding values to perform individual selection.Recently,various relevant statistical methods have been proposed,mainly including best linear unbiased prediction(BLUP)and Bayesian methods.These statistical methods are performed according to different prior assumptions,so it is necessary to set the parameters for prior distribution.This study was designed to describe the theory for setting prior hyper-parameters in detail,and discuss the prior hyper-parameters setting methods in the strategies of standardizing or not standardizing single nucleotide polymorphism(SNP)genotypes.Seven prediction methods(ridge-regression BLUP,BayesA,BayesB,BayesCπ,fast BayesB(FBayesB),fast MixP(FMixP)and Mixp based on Markov Chain-Monte Calo algorithm(MMixP)),were used to estimate genomic estimated breeding values in the two strategies using QTLMAS2012 simulated data.The results showed that the prediction accuracies were very similar when standardizing and not standardizing the SNP genotypes in a specific statistical method.As standardizing the SNP genotypes can fit various cases and highlight the SNPs with larger effects,we suggest using this strategy to set prior hyper-parameters before predicting SNP effects.
基因组选择(GS)是一种通过全基因组范围内的标记进行基因组估计育种值(GEBV)并加以选择的方法[1].传统的最佳线性无偏预测(BLUP)方法可以结合系谱和表型信息来预测个体的育种值[2]; 相比简单的表型选择方法,BLUP方法可以提高育种值估计的准确性.然而,系谱记录无法准确捕获等位基因在个体间传递的具体信息.换言之,传统方法无法很好地估计出个体育种值中所包含的孟德尔抽样误差项[3].与传统BLUP方法相比,基因组选择方法捕获了个体的标记基因型信息,可以更加准确地了解到个体之间的亲缘关系,从而提高GEBV的准确性[4-6].基于其较高的GEBV准确性,并且可以进行早期选种[7],目前基因组选择已经成为奶牛育种的标准方法,并在其他动植物育种中被广泛应用[8].但由于基因组的标记数量往往多于参考群个体数量,所以基因组预测在算法上存在挑战,即所谓的“大P小N”的问题[9].
为解决该问题,近年来出现大量的关于基因组预测的方法,其中较为典型的是Meuwissen等[1]在2001年提出的岭回归BLUP(RRBLUP)、BayesA和BayesB方法,在此基础上又有学者提出基因组BLUP(GBLUP)[10]、GBLUP-最小绝对值收缩与选择操作(LASSO)[11]、性状特异的关系矩阵BLUP(TABLUP)[12]、BayesCπ[13]、BayesLASSO[14-15]、Bayes-随机搜索变量选择(SSVS)[16]、快速BayesB(FBayesB)[17]、期望最大化BayesB(emBayesB)[18]和基于帕雷托法则的混合正态分布(MixP)[19-20]等方法.这些方法都是在一些先验假设下进行推导的,RRBLUP和GBLUP假定基因组内所有标记效应值的方差相等,而Bayes方法则假定标记的方差(或效应)服从某一分布,如逆卡方分布[1,13]或拉普拉斯(双指数)分布[15,17]等.但不论何种分布,都需要在计算之前对超参数进行设置.朱波等[21]已经证明当BayesA的先验分布超参数取不同数值时,GEBV的预测准确性会产生变化,说明设定合理的超参数值是非常重要的.同时,由于部分研究者对先验超参数的设定产生一些误解,因此有必要对基因组选择算法中先验分布的超参数设定策略加以探讨.
本研究提出基因组选择算法的2种设定先验超参数的策略,并利用QTLMAS2012的模拟数据,采用7种基因组选择算法来探讨和验证超参数设定策略的可行性.
基因组预测模型分为两个水平,第一个水平是对观测值y的剖分,基因组预测模型的第二个水平是对单核苷酸多态性(SNP)效应或其方差进行解释.对于表型值的剖分可以用如下混合模型表示:
y=Xb+Za+e.
其中:y为参考群所有个体的观测值向量; b为固定效应向量; X为固定效应的关联矩阵; a为所有SNP的效应值向量且每个SNP效应服从正态分布,即ai~N(0,σ2ai),其中σ2ai为该位点的效应值的方差,由此可见,σ2ai仅仅是SNP效应值的方差,并非该位点的加性遗传方差; Z为SNP基因型矩阵(基因型MM、Mm和mm通常用0,1,2表示); e为随机误差向量,通常认为个体之间的随机误差相互独立并服从同一分布,即e~N(0,Iσ2e),其中I为单位矩阵.为简化算法,这里不考虑等位基因间的显性效应和非等位基因间的上位效应,也不考虑基因与环境之间的互作效应.
根据先验假设的不同,可以将基因组预测方法分为RRBLUP或Bayes方法.在RRBLUP的先验假设中,σ2ai在所有SNP位点是相等的,而在BayesB中认为只有一部分SNP位点存在效应,效应值的方差服从逆卡方分布[1]:
{σ2ai=0,p=π,
σ2ai~χ-2(v,s2),p=1-π.
其中,π是SNP效应值方差为0的概率,当π取值为0时即是BayesA方法[1].BayesCπ的先验分布与BayesB相似,区别在于所有非零效应SNP的方差被认为是相等的,并且π值可以通过程序进行更新,而不是一个固定值[13].FBayesB是2009年由Meuwissen等[17]提出的一种基于迭代条件期望(ICE)算法的快速Bayes方法,该方法同样认为只有一部分SNP存在效应,并且这部分SNP效应值的方差相等,但SNP效应服从拉普拉斯分布:
{ai=0,p=π,
ai~Laplace(0,λ),p=1-π.
快速MixP(FMixP)是由Yu和Meuwissen[19]提出的一种基于ICE算法的快速Bayes方法,该方法认为基因组中所有SNP都存在效应,只是效应值的方差有大小之分; 并将帕累托法则[22]引入到该方法中,认为有π比例的SNP位点解释了(1-π)比例的遗传方差,而其余(1-π)比例的SNP解释了剩余的方差.Dong等[20]提出了基于马尔科夫链-蒙特卡洛(MCMC)算法的MixP(简称MMixP)方法.MixP的先验分布可用公式p(ai)=πφ(ai|0,σ21)+(1-π)φ(ai|0,σ22)表示,其中σ21和σ22分别代表大方差和小方差,π表示SNP效应服从大方差的概率,φ表示正态分布函数.MMixP方法在迭代过程中可以更新π值,特性与BayesCπ相似.
这里先对单个SNP位点进行研究,然后将问题扩展到所有SNP位点.假设基因组中的某一SNP位点存在2种等位基因M和m,就有可能出现3种基因型,即MM、Mm和mm.为便于计算,这里将3种基因型转化为0,1,2,其中Mm为1,MM和mm分别为0和2.假定该位点基因型符合哈代-温伯格平衡(HWE); 等位基因M的频率为pi,m的频率为qi=1-pi,则该位点各种基因型期望值E(w)和方差V(w)分别为[23]:
E(w)=2qi,(1)
V(w)=E(w2)-E2(w)=2piqi.(2)
假设该SNP位点效应值为ai,则该位点的加性遗传方差为V(wai)=2piqia2i.又因SNP效应值ai~N(0,σ2ai),则该位点的期望加性遗传方差为[24]
E[V(wai)]=2piqiE(a2i)=
2piqi[σ2ai+E2(ai)]=2piqiσ2ai.(3)
根据式(3)可以看出一个位点的期望加性遗传方差与该位点的等位基因频率和SNP效应值的方差有关.
现将该问题扩展到所有SNP位点,设所有位点总的期望加性遗传方差为VA,且每个位点效应值方差都等于σ2,则[24]
VA=E(∑ki=12piqia2i)=σ2∑ki=12piqi,
故:
σ2=(VA)/(∑ki=12piqi).(4)
其中:k是基因组中SNP的位点数; VA可以通过一些约束性最大似然法(REML)[25]类的方法估算出,比如高效混合模型REML(EMMREML)[26]、基因组复杂性状分析(GCTA)[27]、GVCBLUP[28]和多性状混合模型2(MTG2)[29]等.Meuwissen等[1]在对先验超参数进行推导时,混淆了σ2和加性遗传方差的概念,直接将σ2当作期望的加性遗传方差用于计算RRBLUP和Bayes先验分布的参数值,即认为σ2=VA/k,而不是VA/(∑ki=12piqi),Gianola等[24]和Habier等[30]的研究中也提到该问题.Macciotta等[31]研究筛选标记进行RRBLUP计算时也出现过将σ2和加性遗传方差混淆的情况.
RRBLUP可通过求解下列混合模型方程组来获得SNP的效应值[1]:
[XTX XTZ
ZTX ZTZ+I(σ2e)/(σ2)][(^overb)
(^overa)]=[XTy
ZTy],
其中参数σ2的设定在上面已经提到,即通过式(4)求得.在BayesA中,每个SNP位点的σ2ai各服从一个逆卡方分布[1],即σ2ai~χ-2(v,s2),其中v是分布的自由度,s2是其尺度参数.容易获得逆卡方分布的期望值和方差,即vs2/(v-2)和2v2s4/[(v-2)2(v-4)].Meuwissen等[1]由于建立的是模拟群体,可以估算出σ2ai期望值和方差,进而通过建立方程组求解出v和s2的值,并将求出的解作为先验分布的超参数值.然而在实际群体中,很难得出σ2ai的方差,但是容易通过式(4)估计出σ2ai的期望值,即可代入逆卡方分布的期望计算公式:
E(σ2ai)=(VA)/(∑ki=12piqi)=(vs2)/(v-2),(5)
式(5)中有两个未知数,即v和s2.为获得这两个参数值,通常需对v任意设定一个参数值,例如设定v等于4.2[13]或5.0[32]等,这样s2就可以通过式(5)求出.
在BayesB[1]和BayesCπ[13]中,先验分布假设只有一部分的标记存在效应,而其余标记效应的方差为0.此时s2可以通过如下式获得[13]:
s2=((v-2)VA)/(v(1-π)∑ki=12piqi),
其中π为一个位点效应值为0的概率.
经过上述的推导,可以发现在设定先验分布的超参数时,分母中的一项为∑ki=12piqi,而不是Meuwissen等[1]所使用的k.∑ki=12piqi相当于将每个SNP位点的基因型方差进行累加,但前提是3种基因型编码为0,1,2或者-1,0,1等类型,因为这种编码情况下基因型的方差为2pq.但如果基因型不是如此编码,例如薛佳[33]的研究中将3种基因型编码为-10,0,10,但其分母仍用2pq来进行分析,这显然是不合适的,此时的基因型方差应为200pq.
鉴于不同研究者对SNP基因型的编码习惯不同,为统一超参数设定公式,可以在计算参数前对标记基因型进行优化.优化的方法就是将基因型进行如下转换[17]:
Z'ji=(Zji-Meani)/(SDi),
其中,Zji为第j个体在第i位点的SNP基因型,Meani为第i位点基因型的期望值,SDi为第i位点基因型的标准差.以3种基因型0,1,2为例,根据式(1)和(2),Meani = 2qi,且SDi=(2piqi)1/2.转换后的基因型平均值为0,方差为1,即基因型服从标准正态分布.转换前分母的∑ki=12piqi就变为现在的k,这就可与Meuwissen等[1]给出的先验超参数的计算公式对应.换言之,此时对SNP效应值的方差提出先验分布,就等价于对SNP位点的加性遗传方差提出先验分布.为验证改进的方法是否可靠,本研究通过模拟数据来对2种策略的结果进行对比.
本研究采用QTLMAS2012的模拟数据[34]对比2种先验分布参数设定方案的结果.该群体参考群个体数为3 000,估计群为1 020.共模拟了5条染色体,每条染色体的长度均为100 Mb.基因组共模拟产生10 000个SNP位点,剔除最小等位基因频率(MAF)小于0.05的位点之后,共保留9 042个有效的SNP标记.基因组中共模拟50个数量性状基因座(QTL),每个QTL的效应从gamma(0.42,5.4)抽样而来,其中0.42为分布的形状参数,5.4为尺度参数.本研究选取其模拟的第一个性状(产奶量)进行分析,该模拟性状的遗传力为0.35.
利用上述提到的7个预测方法(RRBLUP、BayesA、BayesB、BayesCπ、FBayesB、FMixP、MMixP)估计SNP的效应值.在BayesB,FBayesB和FMixP模型中,π值设定为0.99(假定一个QTL大概与周围两个SNP发生紧密连锁).
本研究对SNP基因型采用进行标准化和不进行标准化2种策略.在基于MCMC算法的Bayes方法中,逆卡方分布的自由度v取值为5.0,相应的尺度参数s2的计算和其他Bayes方法的超参数计算公式如表1所示.RRBLUP采用高斯-赛德尔(Gauss-Seidel)迭代法求解,FBayesB和FMixP采用ICE算法获得SNP的效应值,判断迭代收敛的标准为:(at-at-1)T(at-at-1)/((at)Tat)<10-8,其中t表示第t次迭代.BayesA、BayesB、BayesCπ和MMixP中,运行Gibbs抽样20 000次循环,并舍弃前5 000次循环,取后面15 000次的平均值作为SNP的效应值.在BayesB的每个Gibbs抽样循环中,对SNP效应值的方差通过Metropolis-Hastings算法抽样100次.估计群体的GEBV通过各个位点的SNP效应值的累加获得,估计准确性定义为GEBV与真实育种值的相关系数,并作为2种先验超参数设定结果的比较依据.所有的计算程序均使用Fortran90代码来运行.
通过各种预测模型获得的2种基因型编码策略下的预测结果如表2所示,从结果中可以看出,不同方法间的GEBV预测准确性相差较大,其中预测准确性较高的为4种基于MCMC算法的Bayes方法(其中MMixP和BayesCπ预测的准确性相对较高,而BayesB相对较低),而2种快速Bayes方法的预测结果与RRBLUP相似.在BayesCπ结果中,π值(无效应的SNP比例)在SNP基因型进行标准化和不进行标准化下的预测值非常接近,分别为98.22%和98.24%.基于该结果,本试验中重新将BayesB中的π值设定为98.2%,再次运行BayesB程序,在SNP基因型标准化
表2 两种SNP基因型编码策略下的GEBV预测准确性
Tab.2 GEBV predictive accuracies in the two strategies of SNP genotypes coding
和非标准化下获得的GEBV准确性结果分别为0.783和0.780,较之前有所提高.Usai等[34]在使用相同的模拟数据下,通过RRBLUP、BayesA、BayesB和BayesC方法获得的GEBV预测准确性分别为0.74,0.79,0.79和0.79,这个结果与本试验的结果比较吻合,出现稍许差异的原因可能是因为本研究剔除了MAF小于0.05的SNP位点,导致参考群中可用于分析的SNP数量减少.但是在任意一种计算方法下,2种参数设定策略获得的GEBV预测准确性差异都非常小,几乎可以忽略,说明这2种参数设定策略都是可行的.
本研究使用了7种基因组预测方法来观察GEBV的预测准确性,总体上,基于MCMC算法的Bayes方法的预测结果要优于基于ICE算法的Bayes方法和RRBLUP方法.在4种基于MCMC算法的Bayes方法中,BayesCπ和MMixP的结果较为相似并且最好,原因可能是因为这两种方法在计算过程中可以更新π值,从而获得一个最优的解.从BayesCπ方法预测的π值也可以看出,无效应的SNP比例接近98.2%,而本研究在BayesB中将该比例设定为99%,这可能是导致BayesB准确性略低于BayesCπ和MMixP的原因.重新设定π值之后,再次运行BayesB就提高了GEBV预测准确性,验证了上述猜测.快速Bayes方法的预测结果低于基于MCMC方法的预测结果,这与Meuwissen等[17]的研究结果吻合,原因可能是因为ICE本身是一种近似算法[17],此外π在计算时取值不够合理,因此更加降低了这些方法的预测效果.虽然BayesA和RRBLUP都认为所有位点存在效应,但BayesA认为不同SNP位点效应值的方差是有差异的,因此能够将无效SNP位点的效应值压缩至接近0,而RRBLUP受限于其先验分布的问题,压缩能力明显不如BayesA.换言之,BayesA的先验假设更接近模拟的QTL的分布情况,因此预测准确性高于RRBLUP.
根据计算结果,可以发现SNP基因型进行标准化与否对最终结果的影响非常小,证明2种设定先验分布超参数的策略都是可行的,只是要注意对基因型标进行准化时,σ2=VA/k,而不进行标准化时,σ2=VA/∑ki=12piqi.但本文中依然建议将SNP基因型进行标准化,除可以将公式统一之外,还因为在现实群体中,效应大的QTL往往基因频率都较低,这样会导致基因型方差2pq的值比较低,如果不对基因型进行标准化,该位点的加性遗传方差会因为基因型方差较小而不易被发现[17].然而在实际育种工作中,对这些效应值高但等位基因频率低的位点进行选择更有助于加快遗传进展.因此,为了突出效应大的SNP位点,建议在计算SNP效应之前,先将SNP基因型进行标准化,相应的σ2的值等于VA/k.
本研究对比了基因组选择算法中先验分布的两种超参数设定策略的结果,阐述了标记效应方差与位点加性遗传方差的区别,并给出了相应的计算公式.从模拟结果来看,在计算SNP效应之前,基因型是否进行标准化对最终的结果影响很小.但需要注意的是,如果SNP基因型不进行标准化,在计算标记效应的期望方差时,分母是所有SNP位点的基因型方差之和; 如果进行标准化,该项变为k,即总的标记位点数.由于基因型标准化可以突出效应较大的SNP位点,故建议先将SNP基因型标准化,然后再设定先验分布的超参数值.