讓生物學家更容易理解的機器學習新方法,架起思維方式之間的橋樑

科學大觀園雜誌 發佈 2019-12-30T14:07:44+00:00

Justin Kinney正在展示一個最新設計的相對容易理解的人工神經網絡結構。在這個「大數據」的時代,人工智慧(AI)已經成為科學家的寶貴盟友。例如,機器學習算法正在幫助生物學家理解控制基因功能的數量驚人的分子信號。


在這個「大數據」的時代,人工智慧(AI)已經成為科學家的寶貴盟友。例如,機器學習算法正在幫助生物學家理解控制基因功能的數量驚人的分子信號。但隨著分析更大量數據的新算法被開發出來,它們也變得更加複雜和難以解釋。

近日,來自美國普林斯頓大學的定量生物學家Justin B. Kinney和Ammar Tareen提出了一種設計高級機器學習算法的策略,由此設計的算法更容易被生物學家理解。他們的研究結果在12月13日舉行的第一屆計算生物學機器學習會議上正式公布。

新開發的算法是人工神經網絡(ANN)的一種。ANN是科學家們受到大腦中神經元連接和分支方式的啟發而開發的高級機器學習的計算基礎。儘管名字如此,人工神經網絡並不是專門用來研究大腦的。

大規模並行報告基因檢測 (MPRA) 是一種研究DNA的方法,生物學家一直使用ANNs來分析通過MRPA產生的數據。利用這些數據,定量生物學家可以製造出能預測哪些分子在基因調控過程中控制特定基因的ANN。

細胞並不總是需要所有的蛋白質,而是依賴著複雜的分子機制根據需要開啟或關閉產生蛋白質的基因。當這些機制失效時,混亂和疾病通常也隨之而來。Kinney說:「理解基因調控是如何運作的,對於我們能否開發出治療疾病的分子療法至關重要。」 不幸的是,標準的ANN從MPRA數據中形成的方式與科學家在生命科學中提出問題的方式非常不同。這種失調意味著生物學家很難解釋基因調控是如何發生的。


基因調控的數學熱力學模型(左上)被表述為一個人工神經網絡(ANN)(左下)。隨後通過新的ANN (右)產生大型的DNA數據集,連接模式以一種生物學家容易理解的方式呈現。

現在,Kinney和Tareen開發的這種新方法,在計算工具和生物學家的思維方式之間架起了橋樑。他們創造了自定義的神經網絡,從數學上反映了生物學中基因及其控制分子的共同概念。從本質上來講,這兩位科學家是在迫使機器學習算法以生物學家能夠理解的方式處理數據。

Kinney說:「我們優化了現代工業人工智慧技術,這將使它能夠更好地應用於生命科學。」在驗證了這個定製ANNs的新策略後,Kinney的實驗室正在將其應用於多種生物系統的研究,包括與人類疾病相關的關鍵基因通路。

論文預印本詳見:https://www.biorxiv.org/content/10.1101/835942v1.full

原創編譯:花花 審稿:三水 責編:張夢

原文連結:https://www.cshl.edu/finally-machine-learning-interprets-gene-regulation-clearly/

中文內容僅供參考,一切內容以英文原版為準。轉載請註明來源。

關鍵字: