機器學習引發對科學見解的反思

中科院物理所 發佈 2024-04-27T20:43:23.018083+00:00

長期以來,它們見證了技術發展的起落,包括計算尺、計算器和Wolfram Alpha等輔助工具。如今,隨著機器學習的最新進展應用於解決數學和物理問題,這些進展提出了一個根本性的問題:讓算法學會我們思考方式有何意義?

數學和物理是一對老朋友。長期以來,它們見證了技術發展的起落,包括計算尺、計算器和Wolfram Alpha等輔助工具。如今,隨著機器學習的最新進展應用於解決數學和物理問題,這些進展提出了一個根本性的問題:讓算法學會我們思考方式有何意義?


為什麼要這麼做?

「計算機非常擅長數學,指的是它們很擅長解決非常具體的問題。」谷歌研究院的機器學習專家蓋伊•古爾阿里(Guy Gur-Ari)說。計算機擅長運算,填入數字並計算是相對簡單的。但在形式結構之外,計算機則舉步維艱。


解決數學文字問題或「定量推理」看起來比較棘手,因為它需要更為穩健和嚴密,而解決許多其他問題也許並不需要。雖然機器學習模型接受訓練的數據越多,產生的錯誤越少,但對於定量推理,改進的程度卻很有限。研究人員開始意識到,對於機器學習生成模型在解決語言文字問題時產生的錯誤,需要更有針對性的方法。


2021年,來自加州大學伯克利分校和OpenAI的兩個不同團隊分別發布了MATH和GSM8K兩個數據集,這兩個數據集包含了涉及幾何、代數和微積分基礎等的數千個數學問題。「我們就是想要看看,數據集是否有問題。」在人工智慧安全中心研究MATH的研究員史蒂文•巴薩特(Steven Basart)說。用格式更好的、更大的數據集進行訓練,是否能夠修復機器學習定量推理的錯誤?MATH團隊發現,定量推理對最高級的機器學習語言模型也頗具挑戰,其得分不到7%。(人類研究生的得分為40%,而國際數學奧林匹克競賽冠軍的得分為90%。)


GSM8K數據集則是更簡單的小學階段問題,受訓模型的準確率達到了約20%。為了實現這種準確率,OpenAI的研究人員使用了兩種技術:精調和驗證。在精調中,研究人員採用一個包含不相關信息的預訓練語言模型,在訓練中僅展示相關信息(數學問題);驗證則允許模型重新審視其錯誤。


當時,OpenAI預測,需要使用100倍的數據對模型進行訓練,才能在GSM8K上達到80%的準確率。但2022年6月,谷歌的Minerva宣布,小規模擴大訓練即可實現78%的準確率。OpenAI的機器學習專家卡爾·科布(Karl Cobbe)說:「這超出我們所有的預期。」巴薩特表示同意,他說:「這太令人震驚了,我還以為要花很長的時間。」


Minerva使用了谷歌自己的通路語言模型(PaLM),根據來自arXiv的科學論文和其他來源進行格式化數學精調。此外,幫助Minerva的還有另外兩個策略。在「思維鏈提示」中,要求Minerva將較大的問題分解為更容易接受的小問題。該模型還使用多數投票,而不是僅要它提供一個答案或將一個問題解算100次。在這些結果中,Minerva選出最常見的答案。


這些新策略帶來了巨大的好處。Minerva在MATH上實現了高達50%的準確率,在GSM8K上的準確率接近80%。在MMLU上也是這樣,MMLU是一個包含化學和生物的STEM普通問題集。對問題略微調整後隨機取樣,讓Minerva重新進行計算,其表現也很好,這表明,這個能力不僅源自記憶。


關於數學,Minerva了解哪些、不了解哪些,是很模糊的。這與數學家使用的帶有內置結構的「證明助手」不同,Minerva和其他語言模型沒有形式結構。它們可能會產生奇怪、混亂的推理,但仍然可得出正確的答案。隨著數字的增大,語言模型的準確度會下降,這對於可靠的老式TI-84 Plus計算器,是絕不會發生的。


「它到底是聰明?還是不聰明?」科布問。雖然像Minerva一樣的模型也許能夠得出與人類一樣的答案,但其遵循的實際過程可能完全不相同。另一方面,曾被要求「展示自己的作業」的學生都很熟悉「思維鏈提示」。


谷歌研究院的機器學習專家伊桑•戴爾(Ethan Dyer)說:「我認為人們有這樣一個概念,做數學的人有某種嚴格的推理系統,在已知和未知之間有明顯的區別。」但人也可能得出不一致的答案、會犯錯誤和未能應用核心概念。在機器學習的這一前沿,邊界是模糊的。


像物理學家一樣思考

粒子物理的數據與眾不同。雖然已經證實卷積神經網絡(CNN)對樹木、貓和食物等日常物體圖片的分類非常高效,但它並不適合粒子碰撞。加州大學聖地亞哥分校的粒子物理學家哈維爾•杜爾特(Javier Duarte)表示,問題在於來自大型強子對撞機(LHC)的碰撞數據無法作為圖像。


華而不實地描述LHC碰撞可誤導甚至堵塞整個探測器。實際上,在數百萬個輸入中只有少量幾個輸入在記錄信號,就像白屏中有幾個黑色像素。這導致卷積神經網絡中的圖像質量很差,但在一個被稱為圖形神經網絡(GNN)的不同新框架中,效果則很好。


除了格式奇怪以外,還有大量的數據,大約為每秒約1拍字節,其中只有少量高質量數據被保存下來。為了更好地篩選數據,研究人員想要訓練更敏銳的算法。杜爾特說,要想提高效率,這種算法要具備驚人的速度,在微秒內執行。剪裁和量化等機器學習技術能使算法達到目標。


藉助機器學習,粒子物理學家可以從不同的角度觀察數據。他們不僅關注單個事件,還學習和思考碰撞期間發生的幾十個其他事件,例如希格斯玻色子衰變為兩個光子。雖然任意兩個事件之間沒有因果關係,但研究人員現在接受一個更全面的數據視圖,而不僅是單個事件分析得出的零碎視圖。


更引人注目的是,機器學習還迫使物理學家重新審視基本概念。麻省理工學院的理論粒子物理學家傑西•泰勒(Jesse Thaler)說:「過去,我自己對對稱性的看法不嚴密,強迫自己教授計算機什麼是對稱,也是幫助自己理解對稱到底是什麼。」對稱需要參考系,換言之,鏡子中變形的球體圖像到底是否對稱?如果不知道鏡子本身是否變形,就無法知道答案。


粒子物理學中的機器學習仍然處於早期階段,實際上,研究人員現在對待相關技術就像對待廚房的洗碗池。杜爾特承認:「它也許不適合粒子物理學中的每一個問題。」


在一些粒子物理學家深入研究機器學習的同時,腦中浮現出一個令人不安的問題:他們是在研究物理學還是在研究計算機科學?往往不被視為「真正的物理學」的編程已經存在;類似的擔憂也在困擾機器學習。有的研究人員擔心機器學習會遮掩非常複雜的情況,他們正在構建算法,使用人類能夠理解的語言來提供反饋。而算法也許不是唯一負責溝通的主體。


泰勒說:「另一方面,我們希望機器能夠學習如何像物理學家那樣思考。我們也要多學習如何像機器那樣思考。我們需要學會講對方的語言。」


作者:Dan Garisto


轉載內容僅代表作者觀點

不代表中科院物理所立場

如需轉載請聯繫原公眾號


來源:悅智網

編輯:掃地僧


關鍵字: