在這方面,AI的效率是生物學家的上萬倍

中科院物理所 發佈 2022-08-07T22:46:18.992513+00:00

2021年年末,《科學》雜誌提名了十項年度科學突破,其中不少進展與生命科學息息相關,而且充分展現了現階段科學突破中,生命科學與其他學科交叉碰撞出來的強大能量。

寫在前

2021年年末,《科學》雜誌提名了十項年度科學突破,其中不少進展與生命科學息息相關,而且充分展現了現階段科學突破中,生命科學與其他學科交叉碰撞出來的強大能量。

今天我們來聊聊這裡面最受矚目,同時也是連續兩年入選的一項——AI預測蛋白質結構

過去的幾十年裡,世界各地的頂尖結構生物學家完成了大約18萬種蛋白質結構的解析;但在過去的兩年裡,AlphaFold 完成了人體內幾乎所有蛋白質的結構預測,AI預測蛋白質結構為何如此神奇?又有哪些價值?

我們先不談蛋白質結構,說到人工智慧,大家會想到什麼?

我猜大多數人都會想到,幾年前在圍棋上戰勝人類的AlphaGo。那場比賽展現了人工智慧在計算上的超凡能力——如何運用算法實現對圍棋的推演,並勝過人類。

這場比賽相信不少人還歷歷在目

那再看回這項science評選出來的突破,你腦袋上一定有很多問號:什麼是蛋白質?它的結構很複雜嗎?為什麼要用人工智慧來預測蛋白質結構?

說起蛋白質,相信不少人其實並不陌生,甚至了解蛋白質是細胞里行使各種功能的「元件」。不僅如此,蛋白質也是組成我們身體的基本物質之一。比如說健身可以鍛鍊肌肉,但想要肌肉增強變大,就必須有足夠的蛋白質供給才行。

餐桌上的雞蛋、牛奶以及各種肉類都是富含蛋白質的食物,對於人類來說,蛋白質唾手可得;但是,想要得到蛋白質的結構卻難於上青天。

富含蛋白質的飲食 | 圖源:iSlide

因為蛋白質的結構非常複雜:簡單講,胺基酸組成蛋白質,一個個胺基酸會有叫肽鍵的結構連結,它的連接可以形成兩種不同的角度。

那現在給大家出一個簡單數學題:假設有100個胺基酸組成蛋白質,那就需要99個肽鍵,99個肽鍵有兩種不同角度的結構,同時不同角度還會有三種可能的穩定結構,那就是3的198次方種可能,你要是慢慢窮舉,從宇宙爆炸到現在都數不完,這就是利文索爾悖論——蛋白質結構非常非常多樣,沒辦法用窮舉來算完

胺基酸組合過程中不同的二面角會產生不同的結構,因此才有利文索爾悖論這樣的無窮種結構可能 | 圖源:Wikipedia

結構這麼複雜該怎麼辦?生物學家最直接的想法就是觀測,用不同的方法來測量:上世紀五六十年代,用的是X光衍射——把蛋白質結晶,然後打上X光,通過反射的角度可以推測蛋白質長什麼樣子,這個難點就是怎麼把蛋白質純化結晶出來。

另一個現在很熱門的研究方法叫冷凍電鏡,就是利用冷凍切片技術,加上電子顯微鏡直接看蛋白質結構,但缺點就是非常非常貴,太燒錢了。

冷凍電鏡的基本原理 | 圖源:Wikipedia

那大家猜猜這麼些方法,測量了幾十年了,我們分析出來多少個蛋白質結構?其實已經不少了,根據資料庫記載,現在實驗已經解析了18萬種蛋白質

但是相對的,我們剛剛說到蛋白質是胺基酸組成的,只要測序技術測得到DNA序列,就能推導出蛋白質序列。查找資料庫可以發現,現在已知的有十幾億種蛋白質序列,這和18萬之間差了將近一萬倍

所以結構生物學家就很苦惱——測序太簡單了,導致結構生物學遠遠跟不上測序的速度。

蛋白質結構解析數量變化 | 圖源:Nucleic acids research, 2019.

蛋白質序列測序的速度 | 圖源:www.ncbi.nlm.nih.gov/genbank/statistics/

所以很多開發算法的計算生物學家就想預測結構,通過算法預測肯定比做實驗快很多。但是剛剛也說了利文索爾悖論,預測結構非常非常難,你要是窮舉那是天文數字。

所以有很多的計算思路,比如我可以類比,實驗解出來的結構我可以類比相似的序列,推測相似的序列會不會有相似的結構,這個叫同源建模;也可以拆開來類比,比完再像縫縫補補拼積木一樣把結構拼出來,這個叫穿線法……但是這麼多方法都有個問題:精度特別差。這就好像我想看1080P的高清視頻,但是怎麼調都只有馬賽克高糊版,看都看不清。

做個類比的話,比如實際的蛋白結構是左圖,但是預測結果往往只能得到右圖的效果,很多信息都無法得知(僅作示意進行處理,實際並不僅僅是模糊,還會有很多完全不同的差別) | 圖源:Wikipedia

為了促進各國科學家不斷向前,從1994年開始,每兩年都會舉辦CASP,叫蛋白質結構預測關鍵測試,來評估大家的算法預測準不準,來提高算法的精度。

簡單來說就是從各種蛋白質序列里挑幾個出來,一邊讓結構生物學家做實驗解出一個「標準答案」,然後計算生物學家就用自己的算法來比,看看誰跟標準答案更接近。

但很遺憾,24年過去了,仍然進展很慢。

CASP官網

直到2018年,一個叫AlphaFold的方法出來,得到了80分的高分,兩年之後2020年AlphaFold二代打分到了90分,基本就和實驗做出來的標準答案一樣了。還是剛剛1080P的比喻的話,別人預測像個馬賽克,但AlphaFold2預測就已經差不多1000P,和1080P基本大差不差。

這個大家也知道了,就是Deepmind公司開發的人工智慧方法。所以去年的science十大突破,其實也有AI預測蛋白質結構。

AlphaFold2方法預測的精度遠遠超過其他算法(圖a),同時預測的結果和實驗結果基本吻合(圖b-d) | 圖源:Nature, 2021.

那怎麼今年又有突破了?這是因為這個算法實際應用到了生物學上了。

一是Deepmind開發的AlphaFold2算法,在短短几個月時間裡,就把幾十年結構生物學家解析的沒解析完的蛋白質都解了:人體98%的蛋白質都試著預測了一遍,其中三分之一能準確預測,還有一些也能大概預測一半多。同時他們聲稱後面幾個月就把資料庫擴展到一億個蛋白質。這就比實驗方法快了上萬倍了。

基於AlphaFold2預測的蛋白質結構資料庫

另一個生物學上的應用,是同樣基於人工智慧算法開發的RoseTTAFold,它挑戰的是更難的領域——怎麼預測蛋白質和蛋白質相互結合,也在短時間預測了幾千種蛋白質的相互結合。

RoseTTAFold的宣傳圖,最突出的就是對於蛋白質互作的結構預測

不少人可能要問了:預測一億多種蛋白質,能有什麼用呢?

我們最開始就提到了蛋白質在我們生活無處不在,而蛋白質要發揮功能,基礎是要有一定的結構。所以預測蛋白質結構,可以幫助我們更好地理解蛋白質的功能,進而去比如構建蛋白質分子藥物,或者研究複雜的生物化學現象

一個最簡單的例子,比如現在我們知道新型冠狀病毒的新變異奧密克戎傳播力特別強,而這傳播關鍵的刺突蛋白結構,就可以利用人工智慧來預測,進而可以推測什麼藥物或者治療方法可以更有效的針對奧密克戎。

使用AlphaFold預測的奧密克戎突變體的S蛋白結構

但同時,雖然說人工智慧已經完成了結構生物學家很多的工作,但是這個預測仍然是不完善的:

比如有些複雜的結構,可能結構生物學家實驗還沒有解析出來,人工智慧也就還沒辦法學習到,因此也預測不出來,所以很多問題仍然需要結構生物學家的深入探究

還有很多蛋白在發揮功能的時候是一個動態變化的過程,這種時候預測的結果就不準確,還是用1080P舉例的話,就是理論上是一個1080P的視頻,但是人工智慧在這幾秒預測出來是1080P高清,那幾秒預測出來卻是馬賽克,所以也不準確。

這些都是人工智慧預測蛋白質的瑕疵,但是瑕不掩瑜,人工智慧在蛋白質結構預測帶給我們的驚喜實在太多了,而這項年度突破,就是計算科學在生命科學上最好的應用。


轉載內容僅代表作者觀點

不代表中科院物理所立場

如需轉載請聯繫原公眾號


來源:biokiwi

編輯:樂子超人

關鍵字: