雞兔同籠都能算錯的ChatGPT,陶哲軒發現了它的價值

機器之心pro 發佈 2024-04-09T07:31:45.127115+00:00

機器之心報導機器之心編輯部連三位數的混合運算都算不明白,ChatGPT 對數學家來說有用嗎?ChatGPT 不擅長數學,這是大家剛開始測試時就發現的問題。比如你問它一個「雞兔同籠」問題,它可能寫出一個看上去非常有條理的解題過程,但仔細一看,答案卻是錯的。

機器之心報導

機器之心編輯部

連三位數的混合運算都算不明白,ChatGPT 對數學家來說有用嗎?

ChatGPT 不擅長數學,這是大家剛開始測試時就發現的問題。比如你問它一個「雞兔同籠」問題,它可能寫出一個看上去非常有條理的解題過程,但仔細一看,答案卻是錯的。

為了解決這個問題,OpenAI 也做了一些優化,並在今年 1 月末宣布 ChatGPT 數學能力升級。但從測試的結果來看,這次升級效果並不明顯。

但這麼一個連三位數混合運算都算不明白的工具卻吸引了著名數學家陶哲軒的注意。最近一段時間,他似乎一直在探索 ChatGPT 能幫數學研究者做些什麼。

通常來講,如果你經常閱讀數學文本,你會很容易找到一些線索,這些線索可以幫你評估某個特定論證部分的有效性、深度和重要性。這會加快你的閱讀速度,讓你可以迅速分離出論文的「肉」。陶哲軒總結說。

但 AI 生成的數學文本給了他截然不同的閱讀體驗:文本乍一看很有說服力,但只有慢慢地逐行閱讀才能發現其中的缺陷。

在一次測試中,它向 ChatGPT 提了一個數學問題。乍一看,答案驚人地準確,因為它提到了一個高度相關的術語,還討論了一個例子,這在一個有意義的答案中是非常典型的。但其實,ChatGPT 給出的答案並不完全正確:公式是對的,但不是有用的定義,例子也是錯的。

在另一個關於「素數是否無窮多」的證明問題中,ChatGPT 給出的答案也並不完全正確。

雖然測試結果不太令人滿意,但陶哲軒並沒有對 ChatGPT 持完全否定的態度。他認為,像 ChatGPT 這類大型語言模型在數學中可以用來做一些半成品的語義搜索工作,也就是用它來生成一些提示。

比如在下面這個例子中,陶哲軒提出的問題是:「我在尋找一個關於 xx 的公式。我想這是一個經典的定理,但我不記得名字了。你有什麼印象嗎?」在這輪問答中,雖然 ChatGPT 沒能給出正確答案(庫默爾定理),但根據它給出的近似答案(Legendre 公式),我們可以結合傳統搜尋引擎輕鬆找到正確答案。

從這些測試中,我們可以看到 ChatGPT 這類 AI 工具與傳統計算機軟體的區別。

傳統的計算機軟體類似於函數:→:給定域中的輸入,它可靠地返回範圍中的單個輸出(),該輸出以確定的方式依賴於。但如果給定域外的輸入(比如大括號用錯,或者出現其他格式問題),則軟體會出現無法定義的情況,或給出無意義的內容。

相比之下,AI 工具類似於概率 kernel μ:→Pr (),而不是經典函數。輸入,它們會給出一個從概率分布 μ_ₓ採樣的隨機輸出。這個概率分布在() 的完美結果附近,但帶有一些隨機偏差和不準確性。但優勢在於,這些工具可以比傳統的軟體工具更優雅地處理嘈雜或格式不那麼規範的輸入。

因此,想用 ChatGPT 輔助自己做研究的數學研究者務必要習慣這種差異。

當然,在數學方向上,ChatGPT 當前的狀態可能不會持續太久。

前段時間,計算機科學家、Wolfram 語言之父 Stephen Wolfram 提出了一個想法:將 ChatGPT 與自己的 Wolfram | Alpha 知識引擎結合起來用,因為後者本就具有強大的結構化計算能力,而且也能理解自然語言。

Meta 在 2 月份發布的一篇論文也支持這種做法。他們提出了一種名為 Toolformer 的新方法,使得語言模型學會「使用」各種外部工具,如搜尋引擎、計算器或日曆(參見《語言模型自己學會用搜尋引擎了?Meta AI 提出 API 調用自監督學習方法 Toolformer》)。

在未來幾年,如何補齊 ChatGPT 的各項短板將成為非常熱門的方向。

參考連結:https://mathstodon.xyz/@tao

關鍵字: