生命科學走向「ChatGPT時刻」,百圖生科將發布AI生成蛋白質平台

澎湃新聞 發佈 2024-03-05T05:41:26.270030+00:00

·澎湃科技獨家獲悉,百圖生科即將發布AIGP平台(相當於生命科學大模型的出口)和相應的合作計劃,開放部分能力接口。「現在大家都知道ChatGPT,好像它是突然出現的,但它實際上是AI領域持續研究慢慢進步的結果。」百圖生科CTO、國際機器學習大牛宋樂在接受澎湃科技(www.

·澎湃科技獨家獲悉,百圖生科即將發布AIGP平台(相當於生命科學大模型的出口)和相應的合作計劃,開放部分能力接口。

「現在大家都知道ChatGPT,好像它是突然出現的,但它實際上是AI領域持續研究慢慢進步的結果。」百圖生科CTO、國際機器學習大牛宋樂在接受澎湃科技(www.thepaper.cn)專訪時說,「ChatGPT代表了一種新的範式,這個範式轉換其實在AI其它領域都在發生,比如在自然語言、圖像領域都有大規模預訓練模型,然後再微調到下游應用。我們一開始就把這個範式引入生命科學,很早就在人才、AI模型開發以及對應算力方面布局,所以到今天才能夠擁有一個千億級別的生命科學大模型xTrimo。」

百圖生科CTO宋樂。

在採訪中,宋樂將xTrimo比喻為生命科學領域的「ChatGPT時刻」——正如ChatGPT在與全世界用戶多輪對話、不斷疊代後能生成越來越優質的回答一樣,生命科學大模型也需要通過高通量多輪濕實驗的閉環驗證和數據補充進行持續升級。

xTrimo選擇了與CPT-3.5相類似的技術範式,ChatGPT近期發布後表現驚艷也給宋樂「再一次印證」的感覺,「我們再一次看到大規模預訓練模型加下游模式的成功。從某種意義上說,我們在自己的試驗或者AI模型里也看到這種效果。」

宋樂認為,過去幾年,隨著大模型的出現,生命科學或製藥領域也出現了一些階躍式的提升。「比如去年熱門的Alpha Fold 2,其已經預測了全球幾乎所有蛋白質結構,實際上它也是依賴大規模的Transformer模型去做階躍性的提升。」

「AI For Life Sciences(人工智慧用於生命科學)越來越走向生成的道路,不管是在蛋白質序列生成,還是蛋白質結構生成方面。後面我們可能持續看到AIGP(AI generated protein,AI生成蛋白質)方面有趣的進展出現。」宋樂說。

在採訪中,澎湃科技獨家獲悉,百圖生科將發布AIGP平台(相當於生命科學大模型的出口)和相應的合作計劃,開放部分能力接口。據介紹,這是一個可以解讀蛋白質語言、解決生命科學行業問題的平台,由百圖生科近300位AI+BioTech的跨國技術團隊花費2年多時間開發。這個平台進行了濕實驗系統與AI干實驗系統兩套系統的閉環。為了保證平台的高效和穩定,百圖生科和百度合作,專門設計了大模型xTrimo專用的高性能超算中心。百圖生科將在3月23日的發布會上揭曉這個AIGP平台的具體功能。

為何要做這件事?

宋樂以數據為例解釋道,「因為生命體的高度複雜度。目前數據量很大,但仍然是有限的。隨著生命科學領域觀測手段和技術的發展,吸收更多的數據尤其是垂直類數據,將使我們能夠更加精細精準地理解進化,理解生命。這也就意味著,要實現這一目標,我們需要不斷吸納新的合作夥伴,特別是那些在體外模擬體系、超精度觀測和特殊驗證體系等方面具有豐富知識和技術的生命科學家。」

生命科學與AI的融合已加速

過去十年,生物學領域的數據量出現了爆炸式增長。

這種趨勢可以追溯到人類基因組計劃(Human Genome Project)的啟動,該計劃在2003年完成了人類基因組的測序。從基因組測序到RNA測序、蛋白質組學和代謝組學等多個方面,生物學領域的技術不斷進步,數據的規模和種類也不斷增加。

「過去幾年最大的變化是數據的爆炸。」宋樂回憶道,「2008年我在CMU(卡內基梅隆大學)做研究時,比較大的基因測序數據集是幾百個數據點,而且是bulk sequencing(傳統的高通量混池測序)數據,但就現在的單細胞測序來看,數據量已經可以達到億級。此外,還有很多其他類型的生物數據,也達到了億級或十億級以上的規模。」

這種數據增長的速度,使得研究已經很難再用傳統的小工具進行分析。同時,得益於人工智慧技術的發展,尤其是預訓練範式的出現,使得跨模態生物數據分析成為可能。

2020年9月,百度創始人李彥宏發起成立百圖生科,希望將先進AI技術與前沿生物技術融合創新,打造新型多組學檢測分析、高通量實驗模擬、智能化分子發現引擎,加速新型藥物和診斷產品的研發。當時,百圖生科即著手搭建生命科學大模型xTrimo。

也是在2020年,以全球大流行的新冠疫情為分水嶺,生命科學領域與AI的融合也進一步加速。

2020年11月,谷歌母公司Alphabet旗下DeepMind團隊開發的AlphaFold 2取得驚人突破,預測結構被認為和真實結構基本一致,困擾學界數十年的蛋白質分子摺疊問題見到了曙光。2022年,該系列模型已經預測了全球幾乎所有的蛋白質結構。Meta公司也於2022年推出了蛋白質結構預測模型ESMFold。

「回想起我讀博士生期間,那時我們集世界計算方法大成預測結構,最後預測的結果卻一塌糊塗,當時的計算真的很尷尬。而如今,AI已經開始顛覆我們對於蛋白質結構的預測。」宋樂察覺到,伴隨著大量數據的積累、算力的提升、AI模型的精進,如果能讓AI和濕實驗閉環,前沿AI技術將會有更大的用武之地。

2021年,宋樂離開了美國喬治亞理工學院計算機學院。也是在這一年,他全職加入百圖生科。「我們要打造生命科學的self-driving lab(自動駕駛實驗室是指利用人工智慧和自動化技術進行實驗和發現新材料的實驗室),生命科學大模型會全面支撐這個實驗室。有了這樣的self-driving lab之後,針對某類疾病、某些生命科學問題,我們就能夠很快地發現相關靶點線索和解決方案,以及針對靶點來優化相關藥物。」

得益於人工智慧技術的發展,尤其是預訓練範式的出現,使得跨模態生物數據分析成為可能。圖片來源:百圖生科

對於短期目標,宋樂希望能有一部分疾病或者靶點發現實驗和生命科學大模型閉環,至少在實驗室層面或者動物實驗層面證明AI發現的靶點有效或藥物有效。更加長期的目標,即是至少在免疫治療這一領域能夠實現靶點發現和藥物設計的自動化。

新藥研發的「反摩爾定律」

當前主流藥物研發主要還是依託傳統生物學,根據相對有限的實驗數據或文獻報導結果,篩選可能的靶點或作為推動功能驗證的依據。這種實驗主導的新藥研發模式通常包括藥物發現、藥物設計、體外實驗、動物實驗和臨床試驗等環節。其優勢在於可以通過實驗來發現潛在的藥物分子,並逐步進行優化和驗證。

然而,其缺點也很明顯,例如需要大量時間和資源、研究成果的可重複性和可靠性存在一定問題等。

新藥研發領域甚至流傳著一個「反摩爾定律(Eroom's Law)」,即新藥研發的成本和時間隨著時間的推移而呈現指數級增長的趨勢。一款新藥的面世可能歷經「10億(資金)、10-12年(研發周期)、14%(成功率)」。即便排除萬難進入臨床一期階段的藥物,最終真正能夠成功獲批上市的機率,也就是10%左右。更不用說在早期的靶點發現和驗證階段,淘汰率更是高得驚人。

藥物研發的「反摩爾定律(Eroom's Law)」:製藥公司正花費越來越多的錢開發更少的藥物。(圖片來源:research gate)

當前,新藥研發行業正在逐漸轉向更加智能化和數據化的研究模式。例如,利用人工智慧、機器學習等技術,可以快速分析大量數據,發現藥物分子的潛在作用機制,快速篩選出最有潛力的藥物分子。

「很多情況下,一個有效蛋白質的設計或一組靶點的搜尋都要考慮多個因素的組合,比如設計一段蛋白質,有20個不同的位置,每個位置有20種不同的選擇。這是一個巨大的空間,人的思維很難對這個空間進行整體的篩選或對比,而計算來做這件事就有一個巨大的優勢。」宋樂說,當AI預測的準確性到達一定水平時,毫無疑問會比人類做的好得多。

2021年5月,著名結構生物學家施一公在「首屆中國生物計算大會」中稱,AI已進入收穫期,對於科學家來說,這是一個如何應用AI的問題。現階段,AI完成的蛋白、基因組預測遙遙領先於人類預測的結果,評判預測好壞的標準有兩個,一是將最精準的結構分析方法精確到1埃(埃是一種長度單位,用於表示原子和分子的尺寸,1埃等於0.1納米)以內,二是用世界上最好的分子動力學,模擬出它的最佳動態,這已經到了理論預測和實際情況接近的地步了。

xTrimo能被用來做什麼?

談到xTrimo的名字,宋樂笑言,發音聽起來有點像「極限(extreme)」,在一些指標項上,它可以取得世界第一的位置。

具體而言,圍繞整個xTrimo,百圖生科構建了世界最大的免疫圖譜,包含66億個蛋白,超300億條蛋白互作關係,1億個單細胞,以及超6100萬條免疫互作關係和6000億條泛細胞共現關係。

xTrimo全稱 Cross-modal Transformer Representation of Interactome and Multi-Omics(交互組和多模態的跨模態轉換器表述),是全球首個、也是目前最大的生命科學領域的超大規模多模態模型體系。這一體系由千億參數的預訓練模型、蛋白生成模型和多個下游任務模型組成,旨在探索從蛋白到複雜生物體的進化規律,並基於此針對性生成滿足特殊需求的蛋白,以蛋白生成和與生物體對話的方式,加速人工設計蛋白進化的速度,從而解決生命科學行業的痛點問題。

如果針對新藥研發的場景,這個生命科學大模型核心要做兩件事:一是靶點發現,二是發現靶點之後,更好地基於這個靶點去設計藥物。

具體而言,最底層是預訓練模型的底座,通過預訓練模型去吸收大量非監督和弱相關的複雜數據中的信息,學習其中的表徵,以幫助下游任務,包括靶點推薦的算法、基於靶點對蛋白質設計的算法。

xTrimo的設計邏輯包括4層嵌套結構,第一層是對單個蛋白質的建模,第二層是對細胞中蛋白質相互作用的建模,第三層是對細胞本身的建模,第四層則是對細胞系統的建模。這樣的通用大模型建成以後,再微調到需要的疾病靶點或設計生成的蛋白上,即可減少對數據和試驗的需求。

比如當我們知道有一個疾病靶點,要設計一個蛋白質,這時候有幾個關鍵的參數。首先是結構或者說形狀,其要和靶點有一定的契合程度。可以將疾病相關的靶點想像成一把鎖,設計的蛋白即是鑰匙,要打開鎖,鎖齒和鑰匙就要有比較準確的契合程度。第二是親和力,即結合緊密的強弱程度,這個需要模型來預測。

所以在底座通用模型上,可以想像有兩個下游的模型,一個做結構預測,另一個完成結合的緊密強弱預測。當這兩個都有比較準確的預測之後,就可以在計算機里篩選可能的設計。可以生成很多蛋白,然後通過預測去篩選最適用的,最後再送去試驗側,收集試驗反饋。

如果試驗反饋是需要的蛋白,那麼這個過程就結束了。如果還不是或不夠好,這個試驗就會給模型反饋,然後它會進行下一輪同樣的過程。幾輪疊代之後就會找到一個符合設計要求的蛋白。在這個過程中,模型也在學習,越來越準確和聰明。

「一位醫生一生中可能最多看一萬個病例,但一個AI模型可以把所有的病人都看過。」宋樂說,在藥物設計的情況下,AI模型可以考慮到幾十億的蛋白質,這是任何人類專家都無法企及的數據量。同時,不同於每個專家常常在某個領域專長,難以跨越不同疾病種類去設計藥物,xTrimo模型吸收了大量數據,有更好的泛化性。它還可以從不同的疾病信息里學到可遷移性知識,從而在遇到新的領域疾病時有更少的數據需求。

目前,在蛋白質結構預測上,「好的情況下和真實結構相似度可以達到95%以上,有些比較難的蛋白可能相似度只有50%,但是很多蛋白我們發現做得很好。」宋樂預期未來3至5年內,這些模型的準確度都會達到80%以上。

「我們看到現在一些試驗體系,它自身相互印證的準確率可能有80%到90%,如果計算的模型能夠達到上述階段,那麼三五年內就可以取代很多試驗,基本上在計算機里搜尋最想要的設計之後,再做一兩輪的驗證和優化就可以了。」宋樂說。

要實現這個目標,一個重要的挑戰在於人才結構,生命科學大模型不單單需要AI人才,也有工程人才(比如高性能計算工程師)的參與,本身就是兩個不同團隊的合作。除此之外,其還需要一些很了解生物知識、對生物數據分析很有經驗的人才。這種團隊的內部合作不容易,但如果成功也會收效頗豐。

宋樂提到一次成功經驗。

在靶點發現算法建設過程中,算法任務就是預測擾動後的細胞狀態的變化,但這個任務可以直接利用的數據少,描述狀態變化的信息是上萬維度的基因信息,直接建模將會是一個難以完成的任務。

而通過生物和AI算法研發人員的共同碰撞,一方面從AI算法出發,找到利用大量無監督單細胞數據形成預訓練模型,抓住細胞千變萬化的基因表達的內在聯繫,讓預測擾動後的細胞狀態有了一個好的基礎。另一方面,從生物角度出發,將大量已有的生物通路數據詳細歸類和甄別,輔助AI建立基於細胞調控圖譜的擾動傳播模型。這兩方面結合就建立了xTrimoCell模型,這也成為業界首創的免疫細胞擾動後功能變化預測模型,並用於靶點發現。

這也是xTrimo體系最終能夠表徵單體蛋白質、蛋白質相互作用、免疫細胞、免疫系統等多層次生物問題,理解生物數據之間關聯性,讓大量可能沒有標籤、不是針對特定問題產生的數據轉化成一類標準,並且在訓練之後,成功在多個面向生命科學的重大任務中刷新行業紀錄的重要支撐。

關鍵字: