衡宇蕭簫發自凹非寺

量子位 | 公眾號 QbitAI

生物醫藥研發領域，一個名為BioMedGPT-1.6B的輕量級科研版基礎模型剛剛開源。

參數16億，最大特點是跨模態與知識融合。

訓練數據中，包含分子、文獻、專利、知識庫等多尺度跨模態的生物醫藥大數據，並融合分子結構、知識圖譜和文獻文本中的知識，用於增強模型的泛化能力和可解釋性。

應用任務上，BioMedGPT-1.6B則展現出了通用能「打」的效果，可以處理藥物性質預測、自然語言類、跨模態等多種任務。

打造這個BioMedGPT-1.6B生物醫藥基礎模型的團隊，來自清華智能產業研究院（AIR）。

項目負責人聶再清，清華大學國強教授、AIR首席研究員，主要研究領域是大數據與AI的前沿創新，以及在健康醫療領域的產業應用，更早之前則以阿里達摩院大牛、天貓精靈首席科學家為人熟知。

△聶再清

此次開源的BioMedGPT-1.6B，其實是他和團隊正在做的BioMedGPT的單機輕量版，後者是一個適用於生物醫藥領域研發的通用大模型。

1.6B版本先行開源，目的是小試牛刀，同時讓行業相關科研人員有東西可用。

所以，這個BioMedGPT究竟是做什麼的，團隊目前進展如何？在業界已有不少生物醫藥專業大模型的情況下，做通用大模型的考量是什麼，又要如何去做？

聶再清教授向我們解答了背後的思考。

生物醫藥版GPT，也應具備「湧現」潛力

先來看看BioMedGPT究竟是個什麼項目，進展到了哪一階段。

聶再清教授認為，就像ChatGPT成為了NLP領域的基礎大模型一樣，BioMedGPT也會成為生物醫藥領域的基礎大模型。

但在這裡，「像ChatGPT」並不僅僅意味著BioMedGPT=生物醫學大模型+對話能力，而是和ChatGPT一樣，會出現智力湧現的情況。

只不過，這裡的「智力」，指的是生物醫學領域方面知識的理解、規律的發現與靈感的啟迪。

這個基礎模型的底座能夠給藥物發現、分子/蛋白質設計等應用提供底層能力，同時能夠成為生物醫藥研究者的助手（Copilot）輔助研究者更高效的開展研究探索。

所以，能實現這種效果的BioMedGPT，架構上究竟長啥樣？

整體來看，它是一個具備多個輸入Encoder的模型，這些Encoder會先分別處理不同模態的輸入，如分子、蛋白質和文獻等。

然後，將這些不同模態的輸入，進行統一表示處理，這樣就能學習到不同模態之間的關聯知識。

這給了模型「融會貫通」的能力，既可以讀文獻、查專利，又可以讀分子序列、蛋白結構、實驗數據。

不僅如此，BioMedGPT也是首個將多模態知識引入模型構建的項目，通過知識圖譜的方式將生物醫藥領域的知識注入到模型中，以增強模型的泛化能力和可解釋性，同時能夠應對科研領域知識的快速更迭，讓模型持續學習，變得更「聰明」。

基於這種融會貫通與知識增強的能力，BioMedGPT在下游的多項任務中表現出了整體的效果提升。

目前團隊已經完成了實驗驗證階段，用一個比較小的端到端模型證明了這種思路的可行性。

那麼最終能在生物醫藥方面表現出「智力湧現」的模型，預計在什麼規模？

聶再清教授認為，模型參數量級預計在幾百億左右，而訓練這一模型達成「湧現」效果的數據量，幾十億到百億級應該也就夠了。

事實上，在ChatGPT出現之前，也就是一年多以前，聶再清和團隊就已經在籌備這一項目，目前清華AIR生命科學相關團隊規模已經達到50人左右。

對於BioMedGPT的未來，聶再清教授很有信心：

預計兩年內，這個模型應該會在小範圍內具備一定影響力，至於像ChatGPT那樣成為行業通用大模型，做到那樣的影響力可能至少還需要3~5年。

但即便如此，BioMedGPT模型究竟能否成功，目前仍舊是一個未知數。

同時對於大模型訓練必不可少的算力和數據等方面，也仍然是業界關注的話題。

對於這些觀點和想法，聶再清教授又是如何看待的？

「一個理性而大膽的嘗試」

大模型的發展和AI技術的更迭組成了ChatGPT為首的一波AI新浪潮。

但早在聶再清教授動念要將生物醫藥學科知識「塞」進大模型里時，ChatGPT還沒打破沉寂。

所以為什麼要做？為什麼敢做？

時間回到ChatGPT颳大風之前。當時，GPT-2已經可以編故事，下象棋；等到1750億參數GPT-3出現，已經博得眾人矚目：不僅延續了前代編故事的能力，還能寫代碼、答問題……

利用大規模文本數據學習語言知識和規律，加上狂疊參數的暴力美學，GPT-3已經在通用領域任務中出現湧現能力，到GPT-3.5，基本的邏輯推理能力突然出現。

在生物和化學領域，生命的本質可以看做一種精密的編碼語言，尤其是生命科學領域中微觀世界的分子序列數據。

聶再清教授認為，自然語言同樣也是一種非常精密的序列，缺一點或少一絲都會讓意思變得不一樣，因此二者具有類似的特徵。

基於此，大模型的底層思想或許有用於生命科學微觀數據處理的可能。如果能實現，就能利用生物醫藥領域的專業知識，幫助完成科研任務。

工作正式開始之前，團隊將微觀（基因、分子、蛋白質、細胞）與文獻知識壓縮到一個端到端的模型里，用實驗驗證了這條思路的可能性——確實在部分藥物研發關鍵下游任務中取得SOTA效果。

於是，做一個適用於生物醫藥領域研發的基礎大模型這事，正式開始了。

此前，無論是單獨針對分子、蛋白質還是生物醫藥領域文獻，都有團隊單獨打造過大模型，但還沒有人做一個行業通用的多模態版本。而現在的開源版本BioMedGPT-1.6B，並非一個接近AGI甚至與ChatGPT能力媲美的版本。

「畢竟大家的期待比較高，我們還是要把期待降下來，」聶再清教授解釋選擇現在向外界告知進度的原因，大方表示目前還達不到理想狀態的能力，「實際上，我們最主要還是想把現有工作服務到正在進行相關研究的科研人員。」

但這樣的嘗試，被聶再清教授稱為一種理性而大膽的選擇。

理性，是因為通過實驗，確實發現人類知識經過encoder後，能夠產生幫助；大膽，是因為一方面還未完全證明這個工作的商業實用價值，工作還在初步階段，模型的規模和模態的種類都有待擴大。

但在這個樂觀的估計下，工作還是推進了；不僅推進，還快速拿出了輕量級版本。

樂觀倒不是因為沒由來的盲目，聶再清教授表示，數據、算力和成本上，BioMedGPT暫時都不存在什麼擔憂：

數據質量上，生物醫學領域的論文和專利質量「還是很高的」，不必過於擔心訓練語料質量不高的情況，並且目前已公開的PubMedQA等數據集，數據量「已經足夠」。

同時，團隊集合了具有生物醫學專業背景的同學，對數據集的構建做了精細專業的設計和專業的標註。

當然，還有一些任務所需的私有數據，BioMedGPT希望通過未來的雙通道乾濕閉環得到補充。

算力層面，聶再清教授是這樣表示的：

目前國內敢跳出來宣布入局大模型的團隊，背後肯定已經有足夠的算力支撐規劃。

數據豐富但公開，算力稀缺但不是無法解決，日後入局者紛至沓來，是不是會在壁壘很薄的情況下形成不必要的行業競爭？

聶再清教授表示了對這個問題的否定，他認為做的人越多，意味著關注度越高，最終的結果就是利好行業內所有的AI製藥公司。

最後，我們也朝聶再清教授拋出了那個靈魂問題——

生物醫藥研發階段，一切都容不得半點差錯，怎麼約束大模型的幻覺？

聶再清教授說了段繞口令般的話：

我們當然希望，大模型知道「自己知道什麼事」，也知道「它知道自己不知道什麼事」。但，目前確實也會出現大模型「不知道自己不知道」的情況。

而大模型「不知道自己不知道」，就是我們常見的大模型幻覺——它以為自己知道，其實它不知道。

針對生物醫藥領域解決的思路，是通過兩個閉環來實現對模型的「糾偏」。

乾濕實驗驗證通過濕實驗，將模型真實性趨近物理真實世界；專家在環可控的設計，則通過專家instruct，讓模型與人類專家認知趨近。

換言之，通過「做實驗」和「跟專家學」兩個環路，讓AI模型幻覺降低。

聶再清與團隊的下一站，就是通過兩個閉環，儘可能擴大「大模型知道自己能做啥」的範圍，以進一步降低大模型「不知道自己不知道」的比例。

對於此次開源，中國工程院院士、清華大學講席教授、AIR院長張亞勤院士表示：

將大模型範式應用於生命科學是理性又大膽的探索。

AIR的研究團隊以構建生物醫藥領域大模型為目標，相繼研發了多個生物醫藥專業領域的AI模型，在蛋白質結構預測、抗體設計等領域取得了不錯的成果。

此次開源的輕量級科研版基礎模型BioMedGPT-1.6B是在生命科學領域的重要進展。

未來，研究團隊將繼續用BioMedGPT進一步整合領域內多源異構的數據，將知識融入模型構建之中，實現生物世界文本和知識的統一表示學習，帶來生物醫藥領域的「智能湧現」。

開源地址：https://github.com/BioFM/OpenBioMed

— 完 —

量子位 QbitAI · 頭條號簽約

關注我們，第一時間獲知前沿科技動態

清華AIR開源輕量版BioMedGPT！聶再清：要做生物醫藥版ChatGPT

△聶再清

生物醫藥版GPT，也應具備「湧現」潛力

「一個理性而大膽的嘗試」