癌癥基因組——癌癥研究和云計算的里程碑
圖片來源:https://www.nature.com/articles/d41586-020-00308-w
2001年,人類基因組計劃完成,整個計劃花費約30億美元,1985年提出,1990年正式啟動,歷經(jīng)十余年。腫瘤是最熱門的研究領(lǐng)域之一,該領(lǐng)域的研究者們一直希望可以借助測序手段去表征腫瘤的基因組,從而一窺腫瘤的秘密。在隨后的20年中,各種測序技術(shù)的發(fā)展以及測序成本的降低使得實現(xiàn)上述目標(biāo)變的可能。
2006年,美國國家癌癥研究所和國家人類基因組研究所開啟了癌癥基因組圖譜計劃(
The Cancer Genome Atlas Program),簡稱TCGA。該計劃涵蓋了33種癌癥類型,包括超過2萬個癌癥及正常組織的分子特征。經(jīng)過12年的發(fā)展,TCGA產(chǎn)生了超過2.5PB的海量數(shù)據(jù),包括基因組、表觀組、轉(zhuǎn)錄組和蛋白質(zhì)組。
隨著TCGA的發(fā)展以及各種關(guān)于癌癥研究的深入,大家越來越認(rèn)識到詳細(xì)記錄癌癥的每一個突變是可行的。于是在2008年,全球癌癥基因組協(xié)會(global cancer genomics community)建立了International Cancer Genome Consortium(國際癌癥基因組聯(lián)盟,ICGC),ICGC的目標(biāo)是系統(tǒng)性記錄各種常見癌癥中的突變(ICGC成立初期計劃投資10億美元,用10年時間詳盡、深入研究可導(dǎo)致癌癥的變異基因,集世界各國和地區(qū)的科學(xué)家之力,繪制完整的人類癌癥基因圖譜,是一項與人類基因組計劃具有同等重要意義的研究計劃——引自http://www.cncbd.org.cn/News/Detail/1261)。在人員上,ICGC與TCGA有著一定的重疊。每一個ICGC小項目瞄準(zhǔn)一個癌癥或者相似的一類癌癥。
TCGA與ICGC的早期研究揭示,在不同腫瘤中,突變似乎存在有一定的共性和差異,比如不同腫瘤中都有同一個突變,有些突變只在特定的一個或幾個腫瘤中存在,這些發(fā)現(xiàn)揭示了腫瘤背后是復(fù)雜的,再加上不同的小組在處理各自的項目中存在有各種各樣的技術(shù)障礙甚至有些標(biāo)準(zhǔn)參差不齊,因此為達到泛癌分析以及實現(xiàn)標(biāo)準(zhǔn)化,Pan-Cancer Analysis of Whole Genomes(PCAWG) Consortium應(yīng)運而生。
PCAWG聯(lián)盟由4大洲744個機構(gòu)的科研人員所組成,分為16個小組,每個小組專注于腫瘤基因的不同方面。該聯(lián)盟需要克服整個項目所面臨的技術(shù)、倫理、道德、法律等方面的障礙;在工作內(nèi)容上,主要整合分析38種腫瘤類型,獲得了2658個腫瘤全基因組。這一工作涉及到海量的數(shù)據(jù)處理,需要多種算法相的結(jié)合以及多數(shù)據(jù)中心的聯(lián)合。當(dāng)然,這一項目也證明了國際之間在云計算方面合作的可能性。
2020年2月4日,全基因組泛癌分析(PCAWG)聯(lián)盟在Nature雜志上連發(fā)6篇文章,提出了目前為止最為全面的癌癥基因組分析。與以往關(guān)注于蛋白編碼區(qū)不同,這次是分析癌癥全基因組。
Nature雜志對6篇系列工作給予高度重視,發(fā)表了相關(guān)社論
該項目最后以6篇Nature文章呈現(xiàn)出來,涵蓋腫瘤驅(qū)動突變、非編碼區(qū)域、突變特征、結(jié)構(gòu)變異、腫瘤進化和RNA改變共計六個方面。下面將簡單概括這六篇文章,同時在后續(xù)報道中我們會進一步詳細(xì)介紹這些內(nèi)容。
一、驅(qū)動突變
第一篇文章來自于The ICGC/TCGA Pan-Cancer Analysis of Whole Genomes Consortium,標(biāo)題為Pan-cancer analysis of whole genomes。該文章從整體上描述了38種腫瘤類型2658個腫瘤全基因組,展示了PCAWG項目相關(guān)數(shù)據(jù)的廣度與深度。據(jù)分析,平均每一個癌癥基因組攜帶有4-5個驅(qū)動突變,然而大約5%沒有發(fā)現(xiàn),從另一方面講有可能目前對于驅(qū)動突變的了解或者發(fā)現(xiàn)并不完全;另外許多腫瘤中表現(xiàn)出chromoplexy (17.8%)和 chromothripsis (22.3%),而這會導(dǎo)致基因組結(jié)構(gòu)的改變。
二、非編碼區(qū)域改變
第二篇文章來自于PCAWG Consortium和Joachim Weischenfeldt, Rameen Beroukhim, I?igo Martincorena, Jakob Skou Pedersen, Gad Getz,題目為Analyses of non-coding somatic drivers in 2,658 cancer whole genomes。該文章分析了2658個腫瘤基因組中非編碼區(qū)域的驅(qū)動突變和結(jié)構(gòu)變異。鑒于非編碼區(qū)域的復(fù)雜性,研究人員開發(fā)了不同的算法系統(tǒng)性鑒別上述變異,確定了以往報道的驅(qū)動突變,也懷疑了以往部分突變,并發(fā)現(xiàn)了一些新的驅(qū)動突變。比如TP53基因非編碼區(qū)的一個復(fù)發(fā)突變,TRET非編碼區(qū)的一個突變與該酶過表達有關(guān)等。雖然這些非編碼區(qū)的突變頻率不如編碼區(qū),但是這些突變也至關(guān)重要。
三、突變特征
第三篇文章來自于PCAWG Consortium和Steven G. Rozen, Michael R. Stratton,題目為The repertoire of mutational signatures in human cancer。體細(xì)胞突變可由多種原因造成,包括外源因素和內(nèi)源因素。那么這些突變特征是什么呢?研究者從4645個全基因組測序和19184個外顯子測序獲得的84,729,690個體細(xì)胞突變中分析得到了81個突變特征:49個單堿基替換特征、11個雙堿基替換特征、4個群堿基替換特征和17小插入/缺失特征。這些突變特征既有以往報道的,也有這次新發(fā)現(xiàn)的。通過對這些突變特征的深入分析,挖掘出了不同突變特征與不同分子事件的關(guān)系,盡管許多突變特征沒有明顯誘因,但是這一系統(tǒng)性分析有利于我們了解腫瘤的發(fā)育與進化。
四、結(jié)構(gòu)變異
第四篇文章來自于PCAWG Consortium和Joachim Weischenfeldt, Rameen Beroukhim, Peter J. Campbell,題目為Patterns of somatic structural variation in human cancer genomes。上一篇文章關(guān)注了以somatic mutation為內(nèi)容的突變特征,在這篇文章中,研究者們關(guān)注了結(jié)構(gòu)變異,發(fā)現(xiàn)了16個結(jié)構(gòu)變異特征,比如缺失大小差異,在不同腫瘤中也有不同,在晚期復(fù)制區(qū)域富集;串聯(lián)復(fù)制也有大小差異,在早期復(fù)制區(qū)域富集。
五、腫瘤進化
第五篇文章來自于PCAWG Consortium和Peter Van Loo, Moritz Gerstung, 題目為The evolutionary history of 2,658 cancers。在該項研究中,研究人員利用數(shù)據(jù)庫中的全基因組測序數(shù)據(jù),重建了突變進程和驅(qū)動突變的進化歷史,發(fā)現(xiàn)早期腫瘤發(fā)生與少數(shù)驅(qū)動突變和拷貝數(shù)變異有關(guān),但在隨后腫瘤的發(fā)展過程中,突變圖譜的變化則很大,在晚期階段驅(qū)動基因突變的多樣性可以達到4倍以上,同時基因組的不穩(wěn)定性也增加。這一研究有助于了解腫瘤進化和幫助腫瘤早期診斷。
六、RNA改變
第六篇文章來自于PCAWG Consortium和Alvis Brazma, Angela N. Brooks,Gunnar R?tsch, 題目為Genomic basis for RNA alterations in cancer。RNA改變包括:過表達、異常剪接、RNA融合等。通過結(jié)合全基因組數(shù)據(jù)和轉(zhuǎn)錄組數(shù)據(jù),研究人員發(fā)現(xiàn)了649個影響基因表達的單核苷酸突變,1900個與突變相關(guān)的異常剪接,82%的基因融合與結(jié)構(gòu)變異有關(guān)。這些轉(zhuǎn)錄改變在不同腫瘤類型中有不同的特征,同時這些數(shù)據(jù)與基因組數(shù)據(jù)結(jié)合可以更好地讓我們了解癌癥中基因的功能。
觀點與評論
在同期,密歇根大學(xué)的Marcin Cieslik與Arul M. Chinnaiyan發(fā)表了評論文章Global cancer genomics project comes to fruition對這一項目進行了簡單的描述與總結(jié)。
這六篇文章與相關(guān)的文章是癌癥研究和云計算的一個里程碑。這些研究無疑擴展了我們對癌癥測序數(shù)據(jù)的理解,豐富了我們對癌癥發(fā)生發(fā)展的認(rèn)識,但是需要注意的是,這些研究也有一定的不確定性。另外,這些研究的一個局限是:缺少臨床信息的支撐,比如治療方法、臨床收益等。在另外一個項目——International Cancer Genome Consortium–Accelerate Research in Genomic Oncology (ICGC–ARGO)中,則以超過10萬個腫瘤患者為對象,加入了上述臨床信息。我們也期待著這一項目能夠更加豐富我們對于癌癥的認(rèn)識。
-
企業(yè)風(fēng)采
-
科技前沿
-
科技前沿
-
焦點事件
-
科技前沿
-
焦點事件
-
科技前沿