哈佛開發罕見變異薈萃分析方法,為分析海量基因組提供有效方案

deeptech深科技 發佈 2024-05-05T22:46:19.405639+00:00

厲希豪,目前是哈佛大學陳曾熙公共衛生學院生物統計系研究員,師從美國國家醫學院院士、哈佛大學生物統計系林希虹教授。圖丨厲希豪(來源厲希豪)在該團隊中,他的研究方向主要是全基因組大數據整合分析的統計方法,通過對全基因組測序與功能注釋大數據的整合,探索罕見變異對疾病的影響。

厲希豪,目前是哈佛大學陳曾熙公共衛生學院生物統計系研究員,師從美國國家醫學院院士、哈佛大學生物統計系林希虹教授。



在該團隊中,他的研究方向主要是全基因組大數據整合分析的統計方法,通過對全基因組測序與功能注釋大數據的整合,探索罕見變異對疾病的影響。


2022 年 12 月 23 日,由厲希豪擔任一作的論文以《大型全基因組測序研究中罕見變異關聯的強大、可擴展和資源高效的薈萃分析方法》(Powerful, scalable and resource-efficient meta-analysis of rare variant associations in large whole genome sequencing studies)為題在 Nature Genetics 上發表 [1],美國印第安納大學醫學院助理教授李子林博士和林希虹教授為論文的共同通訊作者。



據介紹,由於全基因組測序成本的逐步降低,包括美國國家心肺血液研究所 20 萬人的精準化醫學研究計劃(Trans-Omics Precision Medicine Program, TOPMed)、50 萬人的英國生物樣本庫(UK Biobank)等在內的大規模全基因組測序研究,正在迅速開展。


將這些經由測序得到的高通量基因組學數據,與其他生物醫學大數據相結合,可以有效地定位致病基因與遺傳位點、預測個體或群體對特定疾病的遺傳風險,進而在揭示各種複雜疾病的分子機制、開發新的藥物標靶,以及制定精準的個性化健康診療策略等方面發揮重要作用。


與此同時,由於遺傳信息具有高度敏感性,個體的全基因組測序數據是受到高度保護並被限制共享的。比如,UK Biobank 就要求所有研究人員,在其指定授權的研究分析雲計算平台上,進行全基因組測序數據的處理與分析。


因此,如何有效地整合併集中分析這些數據,並使各自研究中的個體基因組數據得到保護,就成為了一個亟待解決的問題。


對此,該團隊將薈萃分析這種統計學方法,用於全基因組測序研究中,開發了大規模全基因組測序數據罕見變異薈萃分析方法 MetaSTAAR,實現了全基因組匯總統計數據的高效存儲共享和功能知情的薈萃分析,為整合這些大型測序研究中的基因組數據並保護個體數據隱私,提供了有效的解決方案。


具體而言,該方法的使用流程主要分為兩大步。



第一步,參與薈萃分析的每項研究,通過使用 MetaSTAAR 的子工具 MetaSTAARWorker,對其全基因組測序數據生成匯總統計數據,包括每個遺傳變異的得分統計量信息和遺傳變異之間的協方差矩陣信息,同時存儲並在不同的研究之間共享。


第二步,使用 MetaSTAAR 工具整合參與研究的匯總統計數據,並進行功能知情的薈萃分析。


「需要特別指出的是,在第一步中,參與薈萃分析的每項研究所共享的匯總統計數據是可以保護個體數據隱私的,這也是 MetaSTAAR 作為一種罕見變異薈萃分析方法的意義所在。」厲希豪說。


那麼,與現有用於遺傳關聯研究中罕見變異薈萃分析的方法相比,MetaSTAAR 又具備哪些方面的優勢呢?


他表示:「我們這項研究為全基因組測序數據薈萃分析提供了高效和高性能的分析方法,突破了大規模全基因組測序研究匯總統計數據存儲瓶頸和薈萃分析運算瓶頸,填補了大規模全基因組測序數據中罕見變異薈萃分析方法的空白。」


據介紹,其和團隊在發展 MetaSTAAR 時,面臨了來自方法研究、數據分析等多方面的挑戰。


比如,其在分析 TOPMed 約 30000 人的全基因組測序數據中,發現遺傳變異的數量高達約 2.5 億個。這就要求所發展的統計方法和具體的算法,能夠在現有的計算能力下完成對海量數據的處理,並生成大小合理的匯總統計量,方便不同研究之間共享。


「在林希虹教授的指導和李子林博士的幫助下,我們在 MetaSTAAR 的研發早期,對方法和工具進行了大量的疊代,最終實現了比同類方法節省了數百倍的存儲空間。」厲希豪說。


後面,他和團隊希望基於 MetaSTAAR 做進一步的創新,不僅計劃發展適用於不同表型的薈萃分析方法,比如多表型聯合分析,生存數據表型分析等,還計劃將高通量全基因組測序數據與其他生物醫學大數據做進一步整合,發展出一套高效、開源、易使用、可擴展的方法。


課題組期待在為世界各地的科研人員提供必要且有效的分析方法與工具的同時,也為生物統計學、統計遺傳學和基因組學的發展,做出自己的一份貢獻。


參考資料:

1. Li, X., Quick, C., Zhou, H. et al. Powerful, scalable and resource-efficient meta-analysis of rare variant associations in large whole genome sequencing studies. Nature Genetics 55, 154–164 (2023). https://doi.org/10.1038/s41588-022-01225-6

2. Li, X., Li, Z., Zhou, H. et al. Dynamic incorporation of multiple in silico functional annotations empowers rare variant association analysis of large whole-genome sequencing studies at scale. Nature Genetics 52, 969–983 (2020). https://doi.org/10.1038/s41588-020-0676-4

關鍵字: