Nature評論:機器學習的物理啟示錄——隔壁的另一條機遇之道

fans news 發佈 2021-11-29T15:18:31+00:00

老話說:隔行不取利。但時過境遷,目前不管是娛樂圈還是學術界,跨界方可大紅大紫。在娛樂圈,相聲演員客串脫口秀,歌手跨界演員,賺的缽滿盆滿。而在學術界,如果我們的眼界僅僅局限於自己的專業領域,那麼很可能錯過一些難得的火花。

老話說:隔行不取利。但時過境遷,目前不管是娛樂圈還是學術界,跨界方可大紅大紫。在娛樂圈,相聲演員客串脫口秀,歌手跨界演員,賺的缽滿盆滿。而在學術界,如果我們的眼界僅僅局限於自己的專業領域,那麼很可能錯過一些難得的火花。在本文中,作者詳細介紹了物理學——這個古老、嚴謹、充斥著各種智商怪物爭相鬥法的傳統學術方向,是如何與機器學習和深度學習擦出智慧的火花的。

作者 | Don

編輯 | 青暮

神經網絡,對於這個熟悉的名詞,我們一聽之下便知它深受生物學的影響,尤其是腦神經科學。雖然神經網絡的靈感最初源於生物學,但是隨著人們研究的深入,生物學這個母體學科中可用資源日漸枯竭。但是與生物一牆之隔的物理學還是處於一片藍海,這片科研的處女地中的很多經驗和研究方法論有望幫助神經網絡的研究變得更加優秀,找到更多的真理。因此,近些年不少工作開始琢磨如何在機器學習和物理學之間建立更強的紐帶,設計出更加強大的計算方法。

自誕生之初,機器學習和物理學便有著十分緊密的關聯。早在1982年,John Hopfield就進行了第一步嘗試,他在神經網絡和物理學之間建立了第一座互通有無橋樑。Hopfield發現,在物理學中,一個由相互作用的粒子組成的粒子群物理系統中,粒子間通常會產生一些形似磁性力的作用現象。

Hopfield於是將這種相互作用的現象借鑑到了神經網絡模型的設計當中,尤其是網絡中的那些具有自發計算特性的神經元結構。因此,Hopfield發明出了「Hopfield network」,而它則是遞歸神經網絡(RNN)的前身。

時至今日,RNN的廣泛應用無需贅述,它大量的應用在時序分析、自然語言處理等領域。只要數據之間具有時間依賴性、時序動態特徵,那麼RNN就是一個十分優秀的備選方案。

換個角度來看,理論物理學有望幫助人們從基礎上重新認識機器學習領域。早在1984年,L. G. Valiant就發表了一篇經典論文《A theory of the learnable》,在其中,他便對此定下了基調。

論文地址:https://dl.acm.org/doi/10.1145/1968.1972

這篇論文介紹了一個嚴格的學習統計理論,可以看作是一切可學習的基礎。它突破了現在深度學習、機器學習中以數學為根基的可學習或學習算法的範疇,而以更高、更宏觀的角度來討論模型、人類、或各種事件的「可學習性」。

概括來說,作者將學習行為定義為一種「在沒有顯示程序化的情況下獲取知識的現象」,文章從計算的角度給出了研究學習現象的具體方法,包括選擇正確的信息收集方法、學習方法、以及搜索選擇合理的描述計算方法、計算步驟的數學概念類型。

1 深度學習應該從物理中學點什麼?

但當時間來到2010年代,經歷了漫長蟄伏的深度學習異軍突起,在諸多領域中以迅雷不及掩耳之勢大肆霸榜,刷新各種記錄並吊打其他傳統算法。深度學習憑藉其彪悍強大的泛化能力,以及不可理喻的非線性學習能力贏得了世人的驚嘆和承認。但是隨之而來的,也有質疑和困惑,這個黑箱傢伙的背後,究竟隱藏著什麼未解之謎?

在最近發表在《Nature Physics》雜誌上的一篇評論論文中,Lenka Zdeborová研究員呼籲科研人員嘗試重新使用「物理學啟發的方法(Physics-inspired approaches)」來解決實際生活中那些複雜而毫無頭緒的建模問題。

在這篇名為《Understanding deep learning is also a job for physicists》的文章中,作者首先讚揚了深度學習的廣泛應用,以及在諸多領域中的卓越表現。

文章地址:https://www.nature.com/articles/s41567-020-0929-2

但是也一針見血的指出這種「無腦」訓練的方法在某種意義上不夠「優雅」,它浪費了大量了計算資源和泛化能力,可能費勁千辛萬苦訓練出一個龐大複雜的模型結果只是解決了一個y=kx+b的問題。

換句話說,深度學習的研究很多情況下沒有剖析到問題的本質,他們沒有深入的分析數據,沒有細緻的觀察數據之間的關聯和變化,因而也沒有對其背後的規律和真正的核心模型進行理解和探究。極有可能的是,我們訓練出了一把舉世無雙的屠龍寶刀,目的是給裝修公司刮大白——雖然好使,但是物理學家們還是覺得膩子鏟好使……當然,作者也有呼籲物理學家借鑑深度學習這個工具加速各自理論研究和模型研究的初衷。

具體來說,Lenka指出:物理學家擅長于歸納總結,總能夠透過數據看到其後的本質。物理學家們擁有豐富的經驗,他們可以輕鬆的處理數量龐大、異構、多模態且量級各異的實驗數據,並且從中抽絲剝繭,像福爾摩斯一樣找到問題背後的規律。

因此,物理學家們總能找到問題背後的本質,並且對其中重要的那部分合理建模。而對於數據中那些無關緊要的噪聲和細節,物理學家們也能夠把它們準確的剔除出來並且忽略。可怕的是,物理學家甚至還總能通過分析和調查來測試這些猜想和模型。

一個典型的例子是物理學中十分成功的磁學模型-Ising模型。Ising沒有使用任何關於磁相互作用或材料特性的量子力學先驗細節,但它卻可以準確的模擬出自然界中的若干種類型的實驗現象。

事實上,計算科學家們在之後也嘗試對同樣的問題基於數據建立了機器學習方法。他們曾經設計了一個Hopfield網絡,餵給它超大規模的數據後,訓練出來的模型居然和Ising別無二致,二者結果完全相同。

可以說,這就是一個機器學習版本的Ising網絡。這也從側面說明了Ising模型的成功。所以說,如果我們想對深度學習的理論有進一步的理解、如果我們想揭開深度學習黑盒背後的神秘面紗,那物理學所啟發的歸納思路可能是個不錯的突破口。

我們可以稍微展開來講,為什麼說物理學有望成為深度學習理論的突破口呢?我們知道,深度學習的可解釋性研究或合理性理論研究一直是一個熱門的領域。由於深度學習黑盒不可解釋的特性,它被例如醫療等領域嚴格限制著。如果一個產品想通過CFDA、CE的認證,那麼你需要將算法的理論講的一清二楚,畢竟人命關天。

因此,如果我們可以從物理學的角度對深度學習的可解釋性進行系統的闡述和研究,甚至哪怕是一點點微小的進步,也將會被業界和學界當作救命稻草一樣牢牢抓住並異常珍惜。

那麼針對深度學習可以計算什麼?我們如何訓練它們?信息是如何通過它們傳播的?為什麼它們可以泛化?我們如何教它們想像……等等的靈魂拷問,都將是研究的重點。目前,有些工作比如《Statistical Mechanics of Deep Learning》從統計力學的物理分析角度來為這些問題提供根源概念上的解釋。

論文地址:https://www.annualreviews.org/doi/10.1146/annurev-conmatphys-031119-050745

這些解釋方法將深度學習與各種物理和數學主題聯繫起來,包括隨機景觀、自旋玻璃、干擾、動態相變、混沌、黎曼幾何、隨機矩陣理論、自由概率和非平衡統計力學

事實上,統計力學和機器學習領域,自古以來就有著很強的耦合性,以及豐富的互動歷史,而統計力學和深度學習交叉點的最新進展表明,這些互動有望會進一步繁衍生息,並最終為我們深度學習的理論研究和可解釋性,提供振奮人心突破的可能!

2 大家都是如何結合物理學的

從實際應用的角度來看,深度學習有著「大力出奇蹟」的屬性。只要有足夠多的數據和足夠複雜的神經元結構,很多實際生活中和物理學中的「百年未解之謎」都能迎刃而解。比如流體力學、高能物理學或天氣預報。

例如在Christian等人發表在Nature的工作《Deep recurrent optical flow learning for particle image velocimetry data》中,他們就提出了一種用來學習物理位移場( displacement fields)的端到端深度學習模型。其重點關注了粒子圖像測速(PIV)的物理性質和動態特點。

論文地址:https://www.nature.com/articles/s42256-021-00369-0

PIV是實驗流體動力學中的一種核心的關鍵技術,它在汽車、航空航天和生物醫學工程等多種應用中具有至關重要的意義。目前的PIV數據處理方法都是純手工設計的,其泛化能力和估計的因素受到了開發人員的限制,其中也有不少需要手動設置的參數,其適用範圍和大規模應用受到極大的挑戰。

相比之下,作者所提出的基於深度學習的PIV方法則基於了最近的光流學習體系結構(稱為遞歸全對場變換),這個模型的應用範圍更加廣泛,具有通用的使用屬性。其中的大部分參數設定、計算泛化和結構調整也都是自動化的,還能提供極高的空間解析度。

現在學界一個活躍的方向,便是使用機器學習模型來估計出偏微分方程形式的數學公式解,這些數學公式解的規則是紊流(turbulence)等複雜動態現象的理論基礎。在《Nature Reviews Physics》最近的一篇評論文章中,George Karniadakis及其同事便對其進行了相當細緻的討論。他們認為,物理學可以結合深度學習方法來解決複雜的動態問題,並給出了多個結合的思路,也闡述了一些具體的例子,包括地震預測和分子動力學等。

另一個很有前途的研究方向是用深度學習來解決優化問題,特別是組合優化(combinatorial optimization)問題。在該類問題中,算法必須在一個非常大的有限可能配置空間中找到最優解。這個配置空間的大小會隨著問題的輸入規模呈指數級增長。因此,基於窮舉搜索的解決策略是不可行的,這會導致維度災難。

具體來說,為了解決組合優化問題,Yoshua Bengio的很多工作開始逐漸從研究統籌學解過渡到利用深度學習求解的領域。

論文地址:https://arxiv.org/pdf/1811.06128v2.pdf

這些組合優化的求解問題通常十分困難,其數學難度較大。但是目前主流的算法都是靠手工設計的啟發式算法,它們的可解釋性和靈活性較高,但是其設計代價較大,而且其決策結果在某種程度上具有計算或數學定義不明確的問題。

因此,很多人轉投到機器學習的陣營。相對而言,機器學習方法具有更好的決策原則可追溯性和優化方式的優越性。當然,也有一些工作主張進一步加強機器學習和組合優化的集成。簡要來說,它們主要是將一般優化問題視為數據點,並詢問在給定任務中用於學習的問題的相關分布情況。

其實,為了避免維度災難而使用機器學習求解的例子有很多,舉幾個典型的:Rubik’s Cube魔方問題、旅行商問題和尋找蛋白質的三維結構問題。

Rubik's cube其實就是我們常說的魔方,Magic Cube,是因為1974年Rubik教授發明了它因此得名。在2019年Nature上發表的一篇文章中,作者就提出使用深度學習方法DeepCubeA來解決魔方問題。DeepCubeA可以學習如何在沒有任何特定領域知識的情況下,從目標狀態反向解決越來越困難的魔方問題。

論文地址:https://www.nature.com/articles/s42256-019-0070-z

而在更難的蛋白質序列預測、蛋白質三維結構的工作中,Brain等人綜述了學術界目前已經使用的深度學習方法。

文章地址:https://www.nature.com/articles/s41580-019-0163-x

這些方法都是用來解決蛋白質領域中的一個難題——設計摺疊成特定三維結構的胺基酸序列。在過去的十年中,蛋白質結構的預測和設計方法進步神速。而計算能力的提高以及蛋白質序列和結構資料庫的快速增長也同步推動了新的數據密集型和計算要求高的結構預測方法的發展。

因此很多算法可以經過計算來設計「蛋白質摺疊」和「蛋白質-蛋白質界面」,並也被應用於新的高階蛋白質組裝體的設計,以及從0設計具有新穎或增強性質的螢光蛋白質,以及具有治療潛力的信號蛋白質。

其中,比較具有代表性的是Mohammed Hibat-Allah等人提出的一種融合了經典和量子物理學以及深度學習的設計,這種方法可以用來尋找無序Ising系統的基態(Ground State)。

論文地址:https://www.nature.com/articles/s42256-021-00401-3

在統計物理學中,優化問題可以用一種叫做模擬退火的計算方法來解決。這是一個受到冶金學中的退火過程的啟發而被提出來的啟發式算法過程。

在冶金工業的退火工藝過程中,固體加溫至充分高,再讓其徐徐冷卻,加溫時,固體內部粒子隨溫升變為無序狀,內能增大,而徐徐冷卻時粒子漸趨有序,在每個溫度都達到平衡態,最後在常溫時達到基態,內能減為最小。簡單來說材料被快速加熱,隨後緩慢冷卻。在冷卻的過程中,材料在微觀上重新排列成具有所需特性的最佳配置。

而受到這個現象的啟發,科學家總結出了傳統的模擬退火算法。簡而言之,它是基於Monte-Carlo疊代求解策略的一種隨機尋優算法,其出發點是基於物理中固體物質的退火過程與一般組合優化問題之間的相似性。

模擬退火算法從某一較高初溫出發,伴隨溫度參數的不斷下降,結合概率突跳特性在解空間中隨機尋找目標函數的全局最優解,即在局部最優解能概率性地跳出,並最終趨於全局最優。

模擬退火算法是一種通用的優化算法,理論上算法具有概率的全局優化性能,目前已在工程中得到了廣泛應用,諸如VLSI、生產調度、控制工程、機器學習、神經網絡、信號處理等領域。

模擬退火算法通過逐漸減少 "熱波動 "來探索在能量的角度中的全局損失最小值(見圖中一個具有明顯全局最小值的粗糙能量視角的例子)。

一個簡化的、非常粗糙的能量可視化圖,它展示了蛋白質的摺疊分析。圖源:Kuhlman & Bradley. Nat. Rev. Mol. Cell Biol. 20, 681-697 (2019). Springer Nature Ltd

無論是經典還是量子版本的模擬退火算法,對優化問題都是很有用的。但其通過"冷卻"(減少熱波動)來探索優化的算法部分通常是一個緩慢的過程。Hibat-Allah等人將模擬退火與所謂的變異方法相結合,通過一個循環神經網絡(RNN)來對系統狀態的聯合分布進行參數化。這種方法被稱為「變異神經退火」方法。這種新方法大大加快了模擬退火的算法執行過程。

有必要補充的是,前文所說的經典模擬退火算法便是1974年Kirkpatrick大神提出的傳統模擬退火算法。

論文地址:https://www.science.org/doi/10.1126/science.220.4598.671

而量子版本則是Santoro等人在2002年的後續研究,他們通過比較二維隨機Ising模型(自旋玻璃原型/a prototype spin glass)上的經典和量子Monte Carlo退火算法,證實了量子退火相對於經典退火的優越性。

論文地址:https://www.science.org/doi/10.1126/science.1068774

他們還提出了一種基於Landau-Zener隧道級聯事件的量子退火理論,證明了複雜系統的最低能量組態比經典的熱對應物更有效。

3 物理+機器學習=未來可期

可以預計,物理學和機器學習之間還有許多富有成效的互動。圍繞著將機器學習與量子信息方法合併的美好期許,人們一定會非常興奮和鼓舞。

其中一個值得重點關注的方向則是用量子計算機加速機器學習——這種方法將關注的重心投注於可靠的量子硬體,具體來說,他們假設並且討論了量子計算機相對於經典計算在機器學習任務上的好處。

相關論文:https://www.nature.com/articles/nature23474

促進其實是相互的,機器學習的概念也在推動量子計算的進步。例如Juan等人便提出了一種基於神經網絡生成模型的密度矩陣重構方法,來對可擴展多體量子技術中狀態準備的基準測試進行描述。

論文地址:https://www.nature.com/articles/s42256-019-0028-1

感興趣的讀者可以在Giuseppe Carleo等人的綜述文章中找到進一步的論述。

論文地址:https://www.nature.com/articles/s42256-019-0028-1

或者參加即將到來的NeurIPS機器學習和物理科學研討會。

參考連結:

https://www.nature.com/articles/s42256-021-00416-w

關鍵字: