百圖生科推出AIGP平台:基於首款生命科學AI大模型,「能生成蛋白質的ChatGPT」

經濟觀察報 發佈 2024-03-04T10:49:48.443769+00:00

經濟觀察網 記者 沈怡然 實習記者 葛璇 3月23日,生命科學平台公司百圖生科對外發布了一款AIGP平台,這也是基於其自研的AI大模型「xTrimo」開發的、能幫助解決生命科學問題的工具。

經濟觀察網 記者 沈怡然 實習記者 葛璇 3月23日,生命科學平台公司百圖生科對外發布了一款AIGP平台,這也是基於其自研的AI大模型「xTrimo」開發的、能幫助解決生命科學問題的工具。

百圖生科(BioMap)是中國首家生物計算引擎驅動的創新藥物研發平台,由百度創始人李彥宏於2020年創立。「xTrimo」是一個AI大模型,也是全球首個針對生命科學領域的多模態預訓練模型,相當於「大腦」。該公司基於「xTrimo」研發的AIGP平台,則是一個與用戶交互的窗口,它可以理解基本的生命科學語言並據此推理和自主設計,例如用戶向AIGP輸入蛋白質或酶的一些參數、功能,就能得到一個相應的蛋白質或酶的設計方案。

百圖生科CEO劉維表示,與以ChatGPT為代表的自然語言處理AI大模型相比,基於「xTrimo」的AIGP平台,更像是一個基於生命科學語言大模型開發而得的交互界面,它生成的不是文本和語言,而是一個個蛋白質、酶、細胞等的設計方案,可以提供蛋白質結構預測、DNA序列比對、細胞代謝分析等。

在沒有AI大模型之前,生命科學領域的研究者主要通過實驗和觀察等方法開展研究,這需要花費大量時間和精力,且結果存在不確定性和局限性。劉維表示,如今,基於AI大模型「xTrimo」的AIGP平台,嘗試為科研人員提供一個生命科學技術的基礎版本,讓研究者可以在基礎版本上進行創造,節約了一定的實驗時間和實驗費用。

該公司正試圖將其融入整個醫藥研發鏈條上。劉維表示,公司曾幫助國內研究者推進人工設計蛋白進化的速度,傳統蛋白質研究中常用動物篩選實驗法,例如小鼠篩選實驗,一次實驗時間可能需要很多天,而AI在虛擬空間生成一個方案只需要幾個小時,一些常用動物實驗法的生命科學公司正成為公司的合作夥伴,AI大模型和AIGP平台可以幫助他們解決一些動物實驗中的時間成本和不可控性。

建立一個AI大模型需要大量的數據和參數,這些參數包括但不限於序列比對、蛋白質結構預測、RNA摺疊預測、化學計量學建模等方面。劉維表示,目前大模型參數已經破千億級,還需要使用深度學習算法和優化技巧來處理這些海量數據,以提高模型的性能和效率。

為了預訓練大模型,該公司還構建了一個大型生命科學知識圖譜,其中很多數據來自於公開數據和半公開數據的整理,相當於一個數據集,然後向大模型輸入。大模型研發的過程,也得益於數據、算力、模型本身的充分發展。劉維表示,訓練過程也是很艱難的,需要數百個GPU來支撐分析過程中所需的巨大算力。

目前,全球範圍內的生命科學領域AI大模型還處於發展階段。在疾病預測、基因組學等方面,DeepMind、IBM Research都建立了自己的AI大模型,一些開源平台和社區也在不斷推動該領域的發展,如TensorFlow-Hub、PaddlePaddle、BioDynaStax等。

劉維表示,國內外生物醫藥產業存在差距,但隨著技術的換代,其實有跨越式發展的機會,國外的生命科學在過去幾十年圍繞實驗篩選的方法積累了很多的方法,而百圖生科現在做的,其實利用了跨界能力,包括將AI、前沿生物傳感器、高速蛋白列印、合成生物學新技術等等新技術的結合。此外,研發大模型和推動AIGP疊代所需資金量很大,公司2023年新一輪融資也在推進之中。

關鍵字: