生物學領域也有DALL-E 2 模型:大衛·貝克用AI為蛋白質生成精確設計

deeptech深科技 發佈 2022-12-07T02:27:03.285655+00:00

最近,我們看到像 OpenAIDALL-E2這樣的文本到圖像的人工智慧模型不斷湧現。它們經過「特殊」訓練,可以生成幾乎任何你想要的圖片,無論是怪異的,還是美麗的。由於表現亮眼,這些模型在時尚、電影製作等創意行業掀起了不小的熱潮。

最近,我們看到像 OpenAIDALL-E2這樣的文本到圖像的人工智慧模型不斷湧現。它們經過「特殊」訓練,可以生成幾乎任何你想要的圖片,無論是怪異的,還是美麗的。由於表現亮眼,這些模型在時尚、電影製作等創意行業掀起了不小的熱潮。


鮮為人知的是,這些項目背後的技術,同樣也能應用在生物技術實驗室中,而且潛力巨大。


這種技術被稱為擴散模型(diffusion model),許多實驗室已經開始使用這種生成式人工智慧技術,嘗試設計自然界中從未出現過的新型蛋白質。




近日,有兩個實驗室先後宣布了各自的新項目,都是使用擴散模型來設計精確程度比以往任何時候都高的新蛋白質。


總部位於波士頓的初創公司 Generate Biomedicines 公布了一個名為 Chroma 的項目,該公司稱其為「生物學領域的 DALL-E 2 模型」。


與此同時,由生物學家大衛·貝克(David Baker)領導的華盛頓大學團隊也成立了一個類似的項目,叫做 RoseTTAFold Diffusion。


在最近發布的一篇預印本論文中,貝克和他的同事們表明,他們的模型可以為新的蛋白質生成精確的設計,然後在實驗室中實現。


RoseTTAFold 的聯合開發者之一布萊恩·特里佩(Brian Trippe)說:「我們生成的蛋白質與現有的蛋白質幾乎沒有相似之處。」


這些蛋白質生成器可以直接用於設計具有特定特性的蛋白質,譬如指定的形狀、大小或功能。


實際上,這使得根據特定的任務來製作新的蛋白質成為可能。研究人員希望,這將最終幫助開發新的、更有效的藥物。


「用數百萬年進化得到的東西,我們可以在幾分鐘內發現,」 Generate Biomedicines 的首席技術官蓋沃格·格里戈里揚(Gevorg Grigoryan)說道。


位於美國麻薩諸塞州的微軟研究院的生物物理學家艾娃·阿米尼(Ava Amini)認為,這項工作最值得注意的一點是,可以根據「想要的限制條件來生成蛋白質」。




蛋白質是生命系統的基石。在動物身上,它們控制著消化食物、收縮肌肉、探測光線、驅動免疫系統等等。當人們生病時,蛋白質也會起到一定的作用。


因此,蛋白質是藥物開發的重點關注對象。今天的許多最新藥物,本身都是基於蛋白質的。


「大自然里的各種東西都在使用蛋白質,」格里戈里揚說,「用它提供治療干預的前景真的很巨大。」


但藥物設計者目前只能使用由天然蛋白質組成的「設計列表」,而用計算機模型生成更多蛋白質的目標是,將這個列表擴展到幾乎無限大。


設計蛋白質的計算技術並不新鮮,但是以前的方法在設計大型蛋白質或蛋白質複合物方面進展緩慢。蛋白質複合物可以被理解成,由多個蛋白質偶聯在一起組成的分子機器,而這些蛋白質通常對治療疾病至關重要。




最近宣布的這兩個項目,並非人們第一次嘗試使用擴散模型來生成蛋白質。


在過去的幾個月里,由 Amini 等人開展的一系列研究表明,擴散模型是一種很有前途的技術,但他們都屬於概念驗證的原型。


Chroma 和 RoseTTAFold Diffusion 則是建立在這些研究成果的基礎上,他們是第一個成熟的、可以產生各種精確設計的蛋白質的程序。


南拉塔·阿南德(Namrata Anand)在 2022 年 5 月共同開發了蛋白質生成的第一個擴散模型,他認為 Chroma 和 RoseTTAFold Diffusion 的重要意義在於他們採用了這項技術並擴大了它,使其能在更多的數據和計算機上進行訓練。


她說:「這開始越來越像 DALL-E,因為他們已經擴大了規模。」擴散模型是經過訓練的神經網絡,可以從輸入中去除數據中的隨機干擾,也就是所謂的「噪聲」。給定隨機的像素點,擴散模型可以將其變成可識別的圖像。


在 Chroma 中,噪聲是通過解開由蛋白質組成的胺基酸鏈而添加的。給定這些鏈的隨機簇,Chroma 會試圖將它們放在一起形成一種蛋白質。


在對結果的特定約束的指導下,Chroma 可以生成具有特定特性的新蛋白質。


貝克的團隊則採用了一種不同的方法,儘管最終的結果是相似的。該團隊的擴散模型從一個更混亂的結構開始。


另一個關鍵的區別是,RoseTTAFold Diffusion 利用了關於蛋白質片段如何結合的信息,該信息由一個單獨的、被訓練來預測蛋白質結構的神經網絡提供(就像是 DeepMind的AlphaFold所做的那樣)、它指導了整個蛋白質生成過程。


Generate Biomedicines 和貝克的團隊都展示了一系列令人印象深刻的成果。他們能夠產生具有多種對稱性的蛋白質,包括圓形、三角形、六邊形的蛋白質。


為了證明其程序的多功能性,Generate Biomedicines 生成了形狀像 26 個拉丁字母和數字 0 到 10 的蛋白質。這兩個團隊還可以生成蛋白質片段,將新的部分與現有的結構相匹配。


這些演示中展示的蛋白質結構在實踐中沒有任何作用。但是,因為蛋白質的功能是由其形狀決定的,所以能夠根據需要產生不同的結構是至關重要的。


在電腦上產生奇怪的設計是一回事,而把這些設計變成真正的蛋白質則是另一回事,後者才是最終目標。


Generate Biomedicines 提取了一些設計的序列,去組成蛋白質的胺基酸串,並通過另一個人工智慧程序執行。


他們發現,其中 55% 的蛋白質被預測會摺疊成由 Chroma 產生的結構,這表明這些蛋白質設計是可行的。


貝克的團隊也進行了類似的測試,他們在評估其模型方面比 Generate Biomedicines 做得更多。


他們在實驗室里製造了一些 RoseTTAFold Diffusion 的設計。對此,Generate Biomedicines 公司表示,它也在進行實驗室測試,但還沒有準備好公開結果。


「這不僅僅是概念的證明,」特里普說,「我們實際上是在用它來製造非常好的蛋白質。」


對貝克來說,最重要的結果之一是產生了一種新的蛋白質,它可以附著在甲狀旁腺激素上,這種激素控制著血液中的鈣水平。


他說:「我們基本上只將甲狀旁腺激素作為了模型的輸入,而沒有其他東西,然後告訴它製造一種可以與該激素結合的蛋白質。」


當在實驗室里測試這種新蛋白質時,他們發現它與激素的結合比使用其他計算方法產生的任何蛋白質都更緊密,而且也比現有的藥物更緊密。貝克說:「我們的模型是憑空想出這種蛋白質設計的。」


格里戈里揚承認,發明新蛋白質只能算是第一步。「我們是一家製藥公司,」他說,「本質上,我們最關心的是能否製造出有效的藥物。」


以蛋白質為基礎的藥物首先需要通過量產這一關,然後在實驗室中進行測試,最後才能在人體上進行測試。這可能需要數年時間。但他認為,他的公司和其他人會找到加快這些步驟的辦法。


貝克說:「雖然科學的進步是斷斷續續的,但現在的我們正處於一場所謂的『技術革命』之中。」


支持:Ren


原文:

https://www.technologyreview.com/2022/12/01/1064023/biotech-labs-are-using-ai-inspired-by-dall-e-to-invent-new-drugs/

關鍵字: