GAIR Live | 五位學者大論道:AI生命科學的哪些命題,才是ChatGPT的主戰場? |(上篇)

雷峯網 發佈 2024-04-06T20:05:17.296523+00:00

前不久,騰訊研究院發布《AIGC發展趨勢報告2023:迎接人工智慧的下一個時代》指出,AIGC的商業化應用將快速成熟,市場規模會迅速壯大,預測將率先在傳媒、電商、醫療等數位化程度高、內容需求豐富的行業取得重大發展。

以ChatGPT為代表的AIGC技術,徹底點燃了市場熱情。

前不久,騰訊研究院發布《AIGC發展趨勢報告2023:迎接人工智慧的下一個時代》指出,AIGC的商業化應用將快速成熟,市場規模會迅速壯大,預測將率先在傳媒、電商、醫療等數位化程度高、內容需求豐富的行業取得重大發展。

與此同時,諸多國外商業諮詢機構更是直接給出數據:未來五年10%-30%的圖片內容由AI參與生成,2030年AIGC市場規模將達到1100億美元。

星星之火,可以燎原。早在五年前,AIGC還籍籍無名。它有一個相當拗口的名字--AI生成虛擬內容。以2018年的視頻換臉技術Deepfake為代表,「AI偽原創」一詞,便從那時傳開。

隨著深度學習的發展,AIGC逐漸滲透在圖像、視頻、CG、AI訓練數據等各類領域,人們對於這一技術的期望也逐漸豐滿。

時至今日,AIGC技術能否用於計算生物領域的新引擎,醫療健康賽道何時迎來新型基礎驅動力,成為時下產學研各界的共同關切。

近日,由雷峰網GAIR Live&《醫健AI掘金志》舉辦的《ChatGPT的一把火,能否燒到AI生命科學界?》線上圓桌論壇落幕。

本次論壇,由中國人民大學數學學院龔新奇擔任主持,中國科學院深圳理工大學(籌)計算機科學與控制工程學院院長潘毅、百圖生科首席AI科學家宋樂、深圳灣實驗室系統與物理生物學研究所資深研究員周耀旗、分子之心創始人許錦波,天壤創始人薛貴榮參與討論。

在上篇中,幾位嘉賓共同辨析「AIGC」這一概念,探討生命科學界中的哪些成果屬於AIGC,以及ChatGPT在生命科學領域中可能實現的任務。

在下篇中,將分別探討AIGC為生命科學帶來的可能性與其自身局限,以及中國能否在應用場景上快人一步,實現技術落地與產業轉化。

「全球人工智慧與機器人大會」(GAIR)始於2016年雷峰網與中國計算機學會(CCF)合作創立的CCF-GAIR大會,旨在打造人工智慧浪潮下,連接學術界、產業界、投資界的新平台,而雷峰網「連接三界」的全新定位也在此大會上得以確立。

經過幾年發展,GAIR大會已成為行業標杆,是目前為止粵港澳大灣區人工智慧領域規模最大、規格最高、跨界最廣的學術、工業和投資領域盛會。

GAIR Live作為雷峰網旗下視頻直播品牌,旨在輸出新鮮、深度、原創的大咖訪談與對話內容,打造輻射產、學、研、投的特色線上平台。

以下是主題論壇的現場內容,雷峰網《醫健AI掘金志》做了不改變原意的編輯和整理:

「AIGC+生命科學」的熱度,不能隨便蹭

龔新奇:繼UGC、PGC等形態之後,你們如何看待AIGC的概念?在這一概念走紅之後,不少團隊都在宣稱入局AIGC。在各位看來,AI生命科學的哪些成果,可以稱之為AIGC?

潘毅:PGC,是指專業人員隊伍產生的內容;UGC,是使用者生產內容;AIGC是用AI系統來產生的內容,也就是軟體產生的東西。GPT,Generative Pre-trained Transformer,相當於一個專門的、特殊的AI系統,應用性更廣泛的general系統。

比如,我們告訴它幾個關鍵詞,小橋、流水、春天、樹葉,它就能生產一篇美妙的文章;告訴它畫裡面有古堡、城市,有橋有山有水,它就產生相關的畫面。因此,目前由AI生成的內容已經比較廣泛。

實際上,很多公司可能以前就已經介入AIGC。

舉個例子,AlphaFold也屬於AIGC。因為AlphaFold無非是輸入一個序列,據此生成一個預測結構,其原理與ChatGPT根據輸入的詞彙生成一篇文章是相似的。

此外,網絡關聯技術也屬於AIGC,比如基因與疾病的關聯、藥物與疾病的關聯、數字與target(靶標)的關聯等等,很多人就是利用圖神經網絡找出其中的關聯性、規律。目前最典型的就是舊藥新用,找出舊的藥物與新的疾病之間的關聯。

其中的原因是什麼?我們可以通過輸入舊數據產生新的圖像,使節點之間產生新的連接,這就是AIGC。

現在很多研究團隊要進入AIGC的想法是可以理解的,但是如果要利用GPT來闡釋內容,我覺得還很多小公司還做不到,目前來看還早了一步。

因為只有技術和算法是不夠的,還需要有「三部曲」作為支撐:大數據是否能拿到,資金是否足夠,算力是否充足。三者缺少任意一樣都無法做到。

所以我更傾向於,大家不一定馬上實現GPT的應用。當然,我們在生物信息中用現有的GPT來完成一些任務是可行的。

比如在生物信息中,我們原來用的是text mining(文本挖掘),但是無法得知癌症等疾病具體與哪個基因有關係,只能依賴於手工操作完成許多工作。

但使用GPT,在其中輸入一個基因詞和一個疾病的名稱,就可以挖掘出其中的關聯,每一種疾病與每一個基因詞之間的關聯度都能夠在GPT中反映出來。

現有的ChatGPT主要是為對話服務的,暫時還做不到為專業的生物信息領域的問題服務,所以我們今後要研究自己的GPT,技術、算法採用GPT的idea來做,但數據範圍要縮小,專注於Bio,即BioGPT。

我們的數據要集中在疾病、蛋白質、基因、RNA等範圍內,研發基於生物信息的算法,從而減少存儲器與算力的需求,降低企業的開發門檻。

宋樂:首先從模型上來說,我也同意潘老師的見解。很多情況下我們在做深度學習的時候,預測的是一個比較簡單的分類或是一個回歸的任務,也就是一個值或一個概率。

但Generative model預測的是一個更大的東西,可能是整個圖片或整個句子,而且它不僅僅是預測一張圖片、一個句子,而是通過採樣的方式生成一組圖片、一組的句子,不斷地生成新的內容。

生成模式實際上是基於條件生成內容,比如輸入某些元素之後,根據這些元素生成一個對應的圖像。其特殊之處在於可以不斷地採樣,從而每次輸出不同的結果。

AIGC需要依賴大量的數據和算力,目前在生物領域中,成本上也達到了臨界點。

從數據的層面來看,我們現在有億級甚至更多的蛋白質序列,可以基於十億、百億甚至千億級規模的數據進行訓練,同時採樣新的蛋白質,就可以生成各種各樣的蛋白質。

同理,除蛋白質之外,其他生物領域的數據也達到了這一規模,例如,單細胞測序每次能將一個細胞中的兩萬個基因的表達量都測出來,藉助這一技術,人們對幾億個細胞都做了測序,上億規模的數據都可以作為細胞內基因表達的預訓練模型。

基於預訓練模型進行自然語言等下游任務的預測,甚至是基於一部分的基因表達恢復或生成另一部分的基因表達,都達到了數據的臨界點。

剛剛我提到的這些模型,其參數也可能是億級、十億級甚至更大級別,所以需要很多的GPU,以並行訓練的方式進行長達數周甚至數月的訓練,模型擬合大量數據之後,生成的東西特別自然,像是原數據集裡的東西,這對蛋白質設計、細胞表徵、細胞擾動的反應、製藥問題等等都是很大的推進。

從模型的提升到具體落地還有一段距離,但是我們已經看到了曙光,看到一個清晰的前進方向,可以將其與濕實驗結合落地,進行AI藥物研發。

周耀旗:我認為AIGC其實有一個前身叫做CGC,即Computer Generated Content。

在AIGC出現之前,我們已經用計算機在生物學上做了很多工作,也產生了很多內容。現在AIGC突然之間紅火起來,實際上是對CGC的重新包裝。

我們以前做分子動力學,用計算機模擬的方法研究蛋白質的運動、功能等等,這些都屬於CGC的範疇。

現在的AIGC和以前計算機生成內容不一樣的地方在於,AI主要是利用大數據進行訓練,產生一個新的content。這個概念可以跟以往相區分,因為AIGC與以往用戶、專家、計算機產生的content有完全不同的系統錯誤率和偏好。把它們區分開有利於我們進一步的分析和研究。

AIGC的一個特殊之處在於,它產生內容的速度非常快,估計其產生的內容會很快超過人類產生的內容。

AIGC在生物科學中的成果早在ChatGPT之前就已經出現了很多,AlphaFold2可能是其中最亮眼的一個成果,它在不久前就預測了所有的蛋白質結構,並且形成一個資料庫,供大家下載和研究,我覺得這就是一個標準的AIGC,剛才潘老師也提到了。

所以在某種意義上,AlphaFold2已經走在ChatGPT前面了,帶動了生物領域的革命。

其實不僅僅是AlphaFold2,我們以前用AI方法算了很多東西,包括蛋白質結構預測、蛋白質功能預測等等,雖然當時的準確度還不夠高,但本質上也是用計算機產生的content。AIGC剛開始的時候準確度也並不高,比如現在的ChatGPT的準確度還不高,會有很多錯誤的地方。

我認為通過AI產生的生物學相關的科學文章、綜述報告、文章摘要,以及生物學相關的圖片、科普音頻、視頻等等,都屬於生物學領域。AIGC和ChatGPT等工具已經開始進入生命科學這一領域。

由於現在的精確度還不夠,還沒有真正大規模地開始,未來AIGC應該會成為生物學方面很重要的應用。

前幾天我測試了一下ChatGPT對生物學專業的內容了解程度怎麼樣,發現它對基本的知識面了解得很清楚,比如我問它RNA的二級結構,回答是比較精準的。

但是涉及到比較深入的新知識面時,ChatGPT的回答就經常出錯。比如我問它AlphaFold2是靠什麼成功的,它要麼給一個很膚淺的回答,要麼給一個完全不正確的回答。

這和ChatGPT的訓練數據中的內容有很大的關係,因為訓練數據中基礎知識比較多,ChatGPT對這方面的知識回答就會比較準確;如果新的知識尚未收錄或者少量收錄到訓練數據中,ChatGPT回答的準確率就會低一些。所以在相當長一段時間裡,ChatGPT在專業程度非常高的生物學等領域中應用時,需要小心驗證。

薛貴榮:正如剛剛周耀旗老師所講,如果訓練數據足夠豐富,ChatGPT就可以生成一個相對專業的答案,當訓練數據不夠充分時,它生成的答案就不夠好了。

一方面,我認為AIGC,特別是ChatGPT對目前已有信息的組織起到了關鍵作用,它能夠將專業的內容組織起來,生成一個較好的答案,但是要依賴於基礎庫的數據質量與全面性。

另一方面,我認為AIGC的優勢在於其創造性,它在圖像領域取得的效果很令人驚訝,這表示著AI可以更具創造性地產生一些我們沒有見過的知識,相對於更偏重組織的文本內容,對圖像領域來說,創造性則更為重要。

就像我們做蛋白質研究,TRDesign設計出的蛋白質結構中,有很多我們沒有見過,甚至自然界中也不存在,但是藉助TRDesign我們就能夠設計生成這些未知的蛋白質。

這些功能將會使AIGC大放異彩,既能將已有的高質量內容組織起來進行內容生產,又能生產未知的內容。

AIGC應用在AI生命科學中所產出的成果也可以分為兩個方面,一方面是生成新的藥物或材料;另一方面則可以積累大量專家的問診經驗,將其組織起來形成一套尋醫問藥系統,解決醫療資源匱乏的問題,為普通病人答疑解惑。

但前提是要將AI生命科學領域內大量的數據組織起來,才能推動進一步的研究。

許錦波:AIGC在生命科學領域中的應用比較廣泛,比如我們做AI蛋白質設計就是用AI設計自然界中不存在的蛋白質,所使用的底層深度學習模型與ChatGPT的底層技術是一樣的。

在這個過程中,可以將蛋白質序列理解為一個句子,將每個物種的蛋白質序列的集合理解為一種語言,所以我們也可以使用自然語言處理領域的深度學習模型來處理蛋白質胺基酸序列。比如用現在大家都在用的transformer對蛋白質序列進行建模,生成新的蛋白質序列。

當然,用AI生成蛋白質和生成自然語言也有不一樣的地方,比如除胺基酸序列之外,每個蛋白質都有其特定的三維結構,所以在生成蛋白質時,要綜合考慮其序列信息與結構信息進行設計。

此外,ChatGPT中的強化學習部件目前還沒有應用在蛋白質設計之中,因為自然語言獲得反饋的速度比較快,但蛋白質設計的結果通常需要實驗驗證才能得到比較正確的反饋,因此不那麼容易獲得。

除用AI設計蛋白質以外,運用不同的生成算法,AI技術也可以生成DNA、RNA和小分子,在這一領域內也早有人在進行研究。

術業有專攻:生命科學的哪些任務,適合ChatGPT做?

龔新奇:AIGC概念與蛋白質設計或哪些其他任務有天然的契合度?換句話說,什麼樣的任務適合ChatGPT來做?

薛貴榮:從去年年底到今年年初,國外的David Baker實驗室、Generate Biomedicines、Profluent等機構,都發布了蛋白質設計的平台,天壤也在開放平台上發布了蛋白質設計模型TRDiffusion。

蛋白質設計已經經歷過幾代技術變革,從一開始天然蛋白的改造,到蛋白質定向進化,再到利用大量算力擬合蛋白質。

如今我們開始考慮能不能從頭開始設計蛋白質,其難點在於如何做到可控,是完全從頭開始設計一個蛋白,還是根據已有的核心片段,將蛋白質補全為符合一定長度的結構,或是對蛋白質序列中的某個片段進行替換,這些任務將來都會變成與系統的交互。

例如將蛋白質中某一個口袋拉大、替換某個片段、添加對稱性展示、進行溶水性優化等等,這些原本需要具備多年研究經驗的操作,都將在一個系統中表達出來,從而進行可編程、可控的蛋白質設計。

其次,我們也希望從交互上做一次變革。在以往的蛋白質設計工作中,幾個小片段的設計都需要花費大量成本進行濕實驗做驗證。將來我們可以先在計算領域通過干實驗的方式進行交互,快速疊代,改變傳統實驗中複雜的驗證方式,將蛋白質設計需要花費的時間從幾年、幾個月縮短為幾天、幾個小時。當然最終還是要到實驗室中驗證我們設計的結果是否滿足條件。

我們希望通過交互的變革與可控的設計,在未來的蛋白質設計研究中快速、高效地生產更多的蛋白質,加速工業製造,為人們的生命健康做貢獻。

宋樂:在產生新的蛋白質序列、蛋白質結構,以及對蛋白質的可設計空間進行探索的過程中,AI是一個非常好的工具。百圖生科做的大規模蛋白質預訓練模型、加速版的結構預測模型,都是在AIGC的空間之中,這一技術起到了非常重要的作用。

但其實現在訓練的這些生成模型,大多屬於非條件的生成。

例如我們使用一個模型生成一張新圖片時,要求圖片滿足畫面中有三個人、兩條狗,在玩某種特定的遊戲,彼此之間有特定的距離等條件,如果要將這一系列的條件生成模型,還需要額外的模型對其進行引導,控制生成我們想要的東西。這些工作目前還非常具有挑戰性。

將這些條件轉換到蛋白質設計中後,相當於需滿足抗體與病毒的抗原在某一個特定的位置結合、結合的親和力達到某個強度、蛋白質本身比較穩定、蛋白質合成後的可開發性等諸多條件,利用生成模型控制生成滿足需求的蛋白質。

為了符合上述各項指標,需要有一個額外的模型對生成模型進行訓練,即AIGC模型除了要生成一個具備多樣性的先驗分布之外,還需要一個給定先驗分布到想要的屬性之間的預測模型,才能夠通過這兩個模型的疊加,控制生成一組非常好的後驗樣本,使生成模型既具備多樣性和創造性,同時也能滿足對規格的要求。

這個過程中還有很多算法上的工作需要進行,目前已經完成了部分生成模型的模塊,以及從生成的序列和結構連接到我們最感興趣的結構或蛋白質本身屬性的模型,AlphaFold2也屬於這種連接序列和結構的模型。

還需要對每個模塊都進行下一輪的工程與模型效果的提高,才能將其連接起來,達到在AI層面設計很多不同的、滿足屬性要求的蛋白質的效果。這些工作完成後,可以大大減少濕實驗。

通過AI設計的模型,可以先找到最有可能滿足規格的蛋白質進行合成,將實驗的數據反饋給AI模型,在進行下一輪的疊代設計,從而對蛋白質設計進行加速。

這是百圖生科正在前進的方向,我們將構建出一個非常強大的模型,從而減少濕實驗的次數,為蛋白質及其相關的藥物設計提速。

周耀旗:我們課題組是世界上第一個用AI神經網絡來做蛋白質設計的,也是第一個用深度學習來改進蛋白質設計的,這是2014年和2018年做的工作,在當時一直是冷門,最近幾年因為AI紅了才開始變成熱門,突然冒出來很多方法,我們的這兩篇最早的論文最近關注度也特別高。

舉個例子,新AI設計方法Progen是一個比較好的工作,但是媒體誇大了它的價值。它實際上做的事情就是從大批量的同源序列中學習到了因為結構和功能的需求而必須保留的胺基酸,生成了一個保留了這些關鍵胺基酸的新同源序列,從而有類似的功能也毫不驚奇了。

這項工作其實還是有很多問題的,比如不能預測所生成的蛋白質活性的強弱,以及蛋白質的活性在不同的pH、溫度等條件下會產生的變化,因為這些變化才是我們想用定向進化來達成目標。

所以這一方法目前還無法代替定向進化,而且也無法設計具有新功能的蛋白質。蛋白質設計的最終目標就是要獲得新功能。

Progen與ChatGPT是很相似的方法,在蛋白質設計上離我們理想中的能力還有一些差距,還有很多工作需要完成。

AIGC,不能夠局限在序列生成這個領域,在生物學中還有很多其它應用,比如它不僅僅可以生成序列,也可以生成結構、功能,甚至生成整個病毒、器官、物種等等,在未來都有著很大的可能性。

AIGC相當於打開了一個新的窗口,在未來通過大數據可以產生越來越多創新的東西,不僅僅局限於序列和蛋白質,也可以生成DNA、RNA等等,進入到整個生命體系的方方面面,前途非常宏大。

我認為這些工作還是挺艱巨的,並不是馬上就能成功,我們目前所看到的只是第一小步。

潘毅:我認為軟體ChatGPT軟體功能非常強大,擴展以後可以做很多的工作。

比如我們輸入一個序列後,對藥物結構和功能進行預測。例如剛才薛貴榮老師提到的通過幾個小片段的小功能,做一個大的不同的功能。有了資料庫里的知識儲備後,通過a、b、c的組合可以得到功能d。在小分子、蛋白質等的設計方面也可以逐漸地改進。

我們所謂的藥,target(靶標)跟小分之間的關聯有兩個問題,一是關聯的粘合度要高,二是要有活性。

這是一個綜合的問題,要用分子動力學來測試活性,使藥物的能量最小、最穩定,活性更好,惰性也更小。這其中很多參數可能有矛盾,如果將這些知識放到GPT中就可以有一個綜合的表達,幫助藥物研發。

疾病預測也是GPT的拓展方向之一。癲癇症、老年痴呆症等疾病在MRI核磁共振圖像中顯示的是外在特徵,內在則是基因的變化,通過數據的堆積可以將這二者關聯起來。

我有同事正在研究疾病的成因,哪個基因導致的疾病,哪個蛋白質網絡在調控、關聯等等。我們將蛋白質網絡輸入GPT後,就可以找到關聯度,例如在蛋白質研究中的重要問題——關鍵蛋白,利用GPT做疾病成因的研究。

剛剛我提到text mining(文本挖掘)原本的方式很笨,如何利用AI來挖掘就是數據挖掘的問題。

GPT使數據之間的關聯度變得更高,我們輸入某個疾病和某幾個基因,馬上就能得到它們之間的關聯度。這些問題得以解決的前提是有專業的數據做支撐,沒有數據支撐就無法使用這些技術。

我更希望今後的ChatGPT能夠添加專業領域關鍵詞,例如我們提到mining,在數據領域就是數據挖掘,但只提到mining時ChatGPT可能無法理解。

所以在和ChatGPT對話時要補充相關專業領域的參數,以得到更精準的結果。將來進行生物預測時,GPT如果能夠提供具有專業水平的生物數據,就能更精準地找出基因與疾病的關聯。

GPT的缺點在於完全依賴於歷史數據,無法預測將來。顏寧院士曾經也講過這個問題,她認為AI製藥中binding的預測很困難,主要原因就在於數據不充分,沒有蛋白質、小分子等的大量數據,自然無法用AI進行預測。

但是當我們在某個領域聚集了很多binding的數據時,就能夠預測得很準。

可以想像,隨著時間的推移,數據積累越來越多的情況下,預測的精度也會越來越高。而且要基於專業的知識和數據進行預測才會準確,不專業的知識還是做不到。

很多時候,只有一個好的AI算法解決不了所有的問題,要具備算法、算力、數據三大要素才可以。我認為專業知識更重要,只有算法框架而沒有專業知識是達不到好的效果的。

正如剛剛薛貴榮老師所言,假如蛋白質是由100個胺基酸組成的一個序列,每個都有20種可能性,那麼可能性就多達20的100次方,遠遠超出世界上現有的蛋白質、胺基酸的數量,也就是說有很多自然界中不存在的胺基酸需要去設計。

由於這些蛋白質是自然界中不存在的,設計出的功能也許很好,也許會走偏,進行濕實驗驗證的過程也是一筆不菲的開支。這是一把雙刃劍,今後應該繼續開展研究。

許錦波:AIGC這個概念跟蛋白設計是比較吻合的,AI蛋白質設計與ChatGPT主要的區別在於驗證方面。

在生命科學領域實驗驗證非常重要,用AI設計蛋白質也是如此。必須要通過實驗驗證才能知道設計出的蛋白質到底是不是有功能。

目前還沒有一個很好的計算方法可以用來驗證設計出的蛋白質的功能,如果不做實驗驗證,不管展示的圖像有多好,事實上也無法確認設計的蛋白質是不是真的具備某種特定的功能。

不能只做一個AI算法就號稱自己能夠做大分子小分子的生成,一定要驗證生成出來的這個分子是不是真的有功能。

從AI的角度來說,ChatGPT的出現是一個非常重大的技術突破,能夠與AlphaGo相提並論。但是在生命科學領域,尤其是蛋白質設計方面的影響並沒有那麼大,因為早在兩三年前生命科學領域就已經開始做蛋白質結構設計了。

由於算力和數據量的提升,現在的模型也許會比以前更大一些,但是在算法層面,雖然現在的AI算法比傳統方法要好很多,但和幾年前的AI蛋白質設計算法沒有本質的區別,並沒有看到跨越式的進步,仍有很多方面需要繼續創新,進一步提升蛋白質設計的成功率。

關鍵字: