1. 全基因組從頭測(cè)序
在選擇育種歷史中,經(jīng)歷了從經(jīng)驗(yàn)育種到育種理論和方法的探索,有選擇學(xué)說,純系學(xué)說,回交育種、輪回育種、誘變育種、單粒傳、理想株型;再到標(biāo)記輔助選擇育種,探索了各種各樣的標(biāo)記,比如擴(kuò)增片段長(zhǎng)度多態(tài)性標(biāo)記輔助選擇(aflp)、微衛(wèi)星標(biāo)記輔助選擇(ssr)和單核苷酸多態(tài)性標(biāo)記輔助選擇(snp)。隨著測(cè)序技術(shù)的發(fā)展,測(cè)序的通量越來越高,成本越來越低,加之計(jì)算機(jī)運(yùn)算能力不斷提升,這為全新育種技術(shù)的發(fā)展創(chuàng)造了技術(shù)條件,興起了基因組選擇(genomicselection,gs)育種浪潮。
基因組選擇育種能有效的解決難測(cè)量性狀、運(yùn)氣成分大,耗時(shí)長(zhǎng)、技術(shù)難度高等因素的限制,加快育種的步伐。基因組選擇育種是利用覆蓋全基因組的高密度分子遺傳標(biāo)記進(jìn)行的標(biāo)記輔助選擇的一種育種方式。
目前比較出名的基因組選擇(gs)分析功能軟件是ipat軟件,ipat軟件界面比較友好,但是ipat只有三種gs模型,分別為基因組最佳線性無偏估計(jì)(gblup)、嶺回歸最佳線性無偏估計(jì)(rrblup)、貝葉斯嶺回歸(brr)。
然而,對(duì)于有快速育種需求的公司來說,現(xiàn)有的基因組選擇分析的效率低,分析結(jié)果的準(zhǔn)確性也相對(duì)較低,無法滿足需求。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的主要目的在于提供一種全基因組選擇育種的方法和裝置,以解決現(xiàn)有技術(shù)中的分析結(jié)果準(zhǔn)確性低的問題。
為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明的一個(gè)方面,提供了一種全基因組選擇育種的方法,該方法包括:獲取訓(xùn)練群體中與目標(biāo)表型顯著關(guān)聯(lián)的標(biāo)記;根據(jù)訓(xùn)練群體及標(biāo)記,利用多種全基因組選擇預(yù)測(cè)模型計(jì)算育種群體中每個(gè)個(gè)體的基因組估計(jì)育種值;按照基因組估計(jì)育種值從高到低的順序,選擇在多個(gè)全基因組選擇預(yù)測(cè)模型中均排在前預(yù)定數(shù)量的個(gè)體作為育種材料。
進(jìn)一步地,多種全基因組選擇預(yù)測(cè)模型包括:基因組最佳線性無偏預(yù)測(cè)模型、嶺回歸最佳線型無偏估計(jì)模型、貝葉斯套索模型、貝葉斯a模型、貝葉斯b模型、貝葉斯c模型及貝葉斯嶺回歸模型中的至少4種。
進(jìn)一步地,多種全基因組選擇預(yù)測(cè)模型包括嶺回歸最佳線型無偏估計(jì)模型、貝葉斯套索模型、貝葉斯a模型、貝葉斯b模型、貝葉斯c模型及貝葉斯嶺回歸模型中的至少3種時(shí),利用多種全基因組選擇預(yù)測(cè)模型計(jì)算育種群體中每個(gè)個(gè)體的基因組估計(jì)育種值包括:利用訓(xùn)練群體中的目標(biāo)表型與標(biāo)記之間的顯著關(guān)聯(lián)性,對(duì)多種全基因組選擇預(yù)測(cè)模型進(jìn)行精確度評(píng)估,得到滿足精確度要求的一個(gè)或多個(gè)全基因組選擇預(yù)測(cè)模型;利用滿足精確度要求的一個(gè)或多個(gè)全基因組選擇預(yù)測(cè)模型,計(jì)算得到各標(biāo)記的效應(yīng)值;利用各標(biāo)記的效應(yīng)值計(jì)算得到育種群體中每個(gè)個(gè)體的基因組估計(jì)育種值。
進(jìn)一步地,獲取訓(xùn)練群體中與目標(biāo)表型顯著關(guān)聯(lián)的標(biāo)記包括:對(duì)訓(xùn)練群體來源于基因芯片或基因組重測(cè)序的測(cè)序數(shù)據(jù)進(jìn)行全基因組關(guān)聯(lián)分析,從而獲得與目標(biāo)表型顯著關(guān)聯(lián)的標(biāo)記。
進(jìn)一步地,從測(cè)序數(shù)據(jù)進(jìn)行全基因組關(guān)聯(lián)分析從而獲得與目標(biāo)表型顯著關(guān)聯(lián)的標(biāo)記包括:對(duì)測(cè)序數(shù)據(jù)進(jìn)行綜合分析,綜合分析表型分布分析、群體結(jié)構(gòu)分析、連鎖不平衡分析以及親緣關(guān)系分析;根據(jù)綜合分析的結(jié)果進(jìn)行全基因組關(guān)聯(lián)分析,從而獲得與目標(biāo)表型顯著關(guān)聯(lián)的標(biāo)記。
進(jìn)一步地,對(duì)測(cè)序數(shù)據(jù)進(jìn)行綜合分析,并根據(jù)綜合分析的結(jié)果進(jìn)行全基因組關(guān)聯(lián)分析,從而獲得與目標(biāo)表型顯著關(guān)聯(lián)的標(biāo)記包括:檢測(cè)測(cè)序數(shù)據(jù)中數(shù)量性狀的表型是否符合正態(tài)分布或者偏態(tài)分布,并剔除偏離杠桿值的極端表型;通過主成分分析或者群體結(jié)構(gòu)分析計(jì)算訓(xùn)練群體中群體結(jié)構(gòu),并將群體結(jié)構(gòu)作為固定效應(yīng)加入全基因組關(guān)聯(lián)分析模型中;通過衰減距離對(duì)全基因組的標(biāo)記進(jìn)行連鎖不平衡過濾,去除存在多重共線性的效應(yīng)的標(biāo)記;通過計(jì)算訓(xùn)練群體中各個(gè)體間的親緣距離,并將親緣距離作為隨機(jī)效應(yīng)加入全基因組關(guān)聯(lián)分析模型;利用全基因組關(guān)聯(lián)分析模型計(jì)算數(shù)量性狀的表型中與全基因組的標(biāo)記之間的關(guān)聯(lián)性,從而選擇得到與目標(biāo)表型存在顯著關(guān)聯(lián)的標(biāo)記;優(yōu)選地,全基因組關(guān)聯(lián)分析模型為混合線性模型。
為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明的一個(gè)方面,提供了一種全基因組選擇育種的裝置,該裝置包括:獲取模塊、育種值估計(jì)模塊及選擇模塊,獲取模塊用于獲取訓(xùn)練群體中與目標(biāo)表型顯著關(guān)聯(lián)的標(biāo)記;育種值估計(jì)模塊用于根據(jù)訓(xùn)練群體及標(biāo)記,利用多種全基因組選擇預(yù)測(cè)模型計(jì)算育種群體中每個(gè)個(gè)體的基因組估計(jì)育種值;選擇模塊用于按照基因組估計(jì)育種值從高到低的順序,選擇在多個(gè)全基因組選擇預(yù)測(cè)模型中均排在前預(yù)定數(shù)量的個(gè)體作為育種材料。
進(jìn)一步地,多種全基因組選擇預(yù)測(cè)模型包括:基因組最佳線性無偏預(yù)測(cè)模型、嶺回歸最佳線型無偏估計(jì)模型、貝葉斯套索模型、貝葉斯a模型、貝葉斯b模型、貝葉斯c模型及貝葉斯嶺回歸模型中的至少4種。
進(jìn)一步地,多種全基因組選擇預(yù)測(cè)模型包括嶺回歸最佳線型無偏估計(jì)模型、貝葉斯套索模型、貝葉斯a模型、貝葉斯b模型、貝葉斯c模型及貝葉斯嶺回歸模型中的至少3種時(shí),育種值估計(jì)模塊包括:模型精確度評(píng)估模塊,用于利用訓(xùn)練群體中的目標(biāo)表型與標(biāo)記之間的顯著關(guān)聯(lián)性,對(duì)多種全基因組選擇預(yù)測(cè)模型進(jìn)行精確度評(píng)估,得到滿足精確度要求的一個(gè)或多個(gè)全基因組選擇預(yù)測(cè)模型;效應(yīng)值計(jì)算模塊,用于利用滿足精確度要求的一個(gè)或多個(gè)全基因組選擇預(yù)測(cè)模型,計(jì)算得到各標(biāo)記的效應(yīng)值;育種值估計(jì)子模塊,用于利用各標(biāo)記的效應(yīng)值計(jì)算得到育種群體中每個(gè)個(gè)體的基因組估計(jì)育種值。
進(jìn)一步地,獲取模塊包括:全基因組關(guān)聯(lián)分析模塊,用于對(duì)訓(xùn)練群體來源于基因芯片或基因組重測(cè)序的測(cè)序數(shù)據(jù)進(jìn)行全基因組關(guān)聯(lián)分析,從而獲得與目標(biāo)表型顯著關(guān)聯(lián)的標(biāo)記。
進(jìn)一步地,全基因組關(guān)聯(lián)分析模塊包括:綜合分析模塊,用于對(duì)測(cè)序數(shù)據(jù)進(jìn)行綜合分析,綜合分析表型分布分析、群體結(jié)構(gòu)分析、連鎖不平衡分析以及親緣關(guān)系分析;全基因組關(guān)聯(lián)分析子模塊,用于根據(jù)綜合分析的結(jié)果進(jìn)行全基因組關(guān)聯(lián)分析,從而獲得與目標(biāo)表型顯著關(guān)聯(lián)的標(biāo)記。
進(jìn)一步地,全基因組關(guān)聯(lián)分析模塊包括:表型分布分析模塊,用于檢測(cè)測(cè)序數(shù)據(jù)中數(shù)量性狀的表型是否符合正態(tài)分布或者偏態(tài)分布,并剔除偏離杠桿值的極端表型;群體結(jié)構(gòu)分析模塊,用于通過主成分分析或者群體結(jié)構(gòu)分析計(jì)算訓(xùn)練群體中群體結(jié)構(gòu),并將群體結(jié)構(gòu)作為固定效應(yīng)加入全基因組關(guān)聯(lián)分析子模塊中;連鎖不平衡分析模塊,用于通過衰減距離對(duì)全基因組的標(biāo)記進(jìn)行連鎖不平衡過濾,去除存在多重共線性的效應(yīng)的標(biāo)記;親緣關(guān)系分析模塊,用于通過計(jì)算訓(xùn)練群體中各個(gè)體間的親緣距離,并將親緣距離作為隨機(jī)效應(yīng)加入全基因組關(guān)聯(lián)分析子模塊;全基因組關(guān)聯(lián)分析子模塊,用于計(jì)算數(shù)量性狀的表型中與全基因組的標(biāo)記之間的關(guān)聯(lián)性,從而選擇得到與目標(biāo)表型存在顯著關(guān)聯(lián)的標(biāo)記;優(yōu)選地,全基因組關(guān)聯(lián)分析分析子模塊為混合線性模塊。
為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明的一個(gè)方面,提供了一種存儲(chǔ)介質(zhì),存儲(chǔ)介質(zhì)包括存儲(chǔ)的程序,其中,在程序運(yùn)行時(shí)控制存儲(chǔ)介質(zhì)所在設(shè)備執(zhí)行上述任一種全基因組選擇育種的方法。
為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明的一個(gè)方面,提供了一種處理器,處理器用于運(yùn)行程序,其中,程序運(yùn)行時(shí)執(zhí)行任一種全基因組選擇育種的方法。
應(yīng)用本發(fā)明的技術(shù)方案,本發(fā)明綜合多個(gè)模型進(jìn)行基因組估計(jì)育種值計(jì)算,并利用多個(gè)模型結(jié)果共定位,并選擇出在所有的模型中都具有高育種值的個(gè)體作為育種材料,大大提高結(jié)果的精確性。此外,本申請(qǐng)的方法可以從多種模型中尋找出最佳模型預(yù)測(cè)最佳育種材料,從而提高了基因組選擇育種結(jié)果的準(zhǔn)確性。本發(fā)明的方法能適應(yīng)大部分的材料背景,填補(bǔ)了在超級(jí)計(jì)算機(jī)中基因組選擇分析上的空白,提高育種選擇的效應(yīng),促進(jìn)育種的進(jìn)展。
2. 全基因組測(cè)序數(shù)據(jù)分析流程
基因組拷貝數(shù)變異通常是指某個(gè)基因或某個(gè)基因區(qū)域的拷貝數(shù)在個(gè)體間的差異。測(cè)序結(jié)果中的拷貝數(shù)變異可以通過基因組測(cè)序數(shù)據(jù)進(jìn)行分析。以下是一些常見的分析步驟:
1. 使用軟件對(duì)測(cè)序數(shù)據(jù)進(jìn)行比對(duì),如BWA或Bowtie等,將測(cè)序reads與參考基因組比對(duì)。
2. 對(duì)比對(duì)結(jié)果進(jìn)行拷貝數(shù)變異檢測(cè),常用的軟件包括CNVnator、DECoN、FREEC等。這些軟件會(huì)根據(jù)reads的比對(duì)情況和深度信息來檢測(cè)拷貝數(shù)變異。
3. 根據(jù)檢測(cè)結(jié)果,生成基因組拷貝數(shù)變異圖譜(copy number variation profile),可視化拷貝數(shù)變異的基因和區(qū)域。通常使用軟件如GISTIC、CONTRA等。
4. 對(duì)拷貝數(shù)變異進(jìn)行功能注釋和生物信息學(xué)分析,探究其與疾病、表型等的關(guān)聯(lián)。
需要注意的是,基因組拷貝數(shù)變異測(cè)序結(jié)果的分析需要結(jié)合臨床資料和其他生物信息學(xué)分析結(jié)果,才能作出更為準(zhǔn)確的解釋。
3. 全基因組從頭測(cè)序方法
WGS全稱為whole-genome shotgun就是全基因組鳥槍法 它的作法是把基因組直接打碎成3kb(也有地方寫的是2Kb……)左右的小片段,測(cè)序并拼接。并且,WGS在現(xiàn)在的測(cè)序項(xiàng)目中使用得越來越廣泛。例如水稻基因的測(cè)序,就是使用的WGS策略。 百科給的是基因測(cè)序的方法 是在獲得一定的遺傳及物理圖譜信息的基礎(chǔ)上,繞過bac克隆逐個(gè)排序的過程,將基因組dna分解成2kb左右的小片段進(jìn)行隨機(jī)測(cè)序,輔以一定數(shù)量的10kb的克隆和bac克隆的末端測(cè)序,利用超級(jí)計(jì)算機(jī)進(jìn)行整合進(jìn)行序列組裝
4. 全基因組測(cè)序的兩種策略
全基因組測(cè)序,即對(duì)一種生物的基因組中的全部基因進(jìn)行測(cè)序,測(cè)定其dna的堿基序列。
全基因組測(cè)序的意義是使人類從根本上認(rèn)知疾病發(fā)生的原因,做到正確的治療疾病、盡早的預(yù)防疾病。
1986年, Renato Dulbecco是最早提出人類基因組定序的科學(xué)家之一。他認(rèn)為如果能夠知道所有人類基因的序列,對(duì)於癌癥的研究將會(huì)很有幫助。美國(guó)能源部(DOE)與美國(guó)國(guó)家衛(wèi)生研究院(NIH),分別在1986年與1987年加入人類基因組計(jì)劃。
5. 全基因組測(cè)序檢測(cè)的準(zhǔn)確率能達(dá)到多少?
腫瘤基因檢測(cè),是針對(duì)引起腫瘤的致病突變進(jìn)行的檢測(cè)。根據(jù)檢測(cè)目的主要分為兩類:指導(dǎo)腫瘤患者的精準(zhǔn)治療,評(píng)估腫瘤患者的親屬罹患腫瘤的易感性。
腫瘤的本質(zhì)是體細(xì)胞突變累積的結(jié)果。通過二代測(cè)序技術(shù)檢測(cè)患者的腫瘤組織中含有哪些突變,確認(rèn)引起在腫瘤發(fā)生過程中發(fā)揮驅(qū)動(dòng)作用的突變,就可以針對(duì)性使用靶向藥物。靶向藥物相比傳統(tǒng)化療藥物具有針對(duì)性強(qiáng),副作用小的優(yōu)點(diǎn),可有效改善腫瘤患者的預(yù)后。靶向藥物在肺癌治療中的應(yīng)用經(jīng)驗(yàn)最豐富。目前有條件的肺癌患者需要常規(guī)進(jìn)行基因檢測(cè),有助于臨床醫(yī)生選擇個(gè)體化的醫(yī)療方案。
有一些腫瘤的遺傳性很強(qiáng),比如卵巢癌,乳腺癌,結(jié)直腸癌等。這意味著腫瘤患者的親屬也有可能發(fā)生腫瘤。最著名的例子是安吉麗娜朱莉,她的媽媽和姨媽都患有乳腺癌,提示她的家族可能存在乳腺癌致病基因。為了確認(rèn)自己是否攜帶相關(guān)致病基因,她進(jìn)行了BRCA基因檢測(cè),發(fā)現(xiàn)自己果然攜帶這個(gè)BRCA1基因突變。
攜帶這種基因突變并不意味著一定發(fā)生腫瘤,但是腫瘤發(fā)生的風(fēng)險(xiǎn)要遠(yuǎn)高于一般人。因此她先后切除了乳腺和卵巢,預(yù)防乳腺癌和卵巢癌的發(fā)生。需要注意的是,進(jìn)行這種基因檢測(cè),使用的是血液樣本。
以上只是簡(jiǎn)單介紹了腫瘤基因檢測(cè)的兩個(gè)最主要目的。實(shí)際上根據(jù)不同的檢測(cè)技術(shù)和檢測(cè)樣本,腫瘤基因檢測(cè)還可以實(shí)現(xiàn)腫瘤早期篩查和診斷,腫瘤動(dòng)態(tài)檢測(cè),腫瘤患者預(yù)后等多種目的。腫瘤基因檢測(cè)專業(yè)性較強(qiáng),需要配套相應(yīng)的遺傳咨詢,與臨床,實(shí)驗(yàn)室,患者三方面充分溝通,才能全面發(fā)揮腫瘤基因檢測(cè)的重要作用。