GPT-4的研究路徑沒有前途?Yann LeCun給自回歸判了死刑

機器之心pro 發佈 2024-03-01T19:31:18.013499+00:00

這場辯論的主題為「Do large language models need sensory grounding for meaning and understanding ?

機器之心報導

機器之心編輯部

Yann LeCun 這個觀點的確有些大膽。

「從現在起 5 年內,沒有哪個頭腦正常的人會使用自回歸模型。」最近,圖靈獎得主 Yann LeCun 給一場辯論做了個特別的開場。而他口中的自回歸,正是當前爆紅的 GPT 家族模型所依賴的學習範式。

當然,被 Yann LeCun 指出問題的不只是自回歸模型。在他看來,當前整個的機器學習領域都面臨巨大挑戰。

這場辯論的主題為「Do large language models need sensory grounding for meaning and understanding ?」,是近期舉辦的「The Philosophy of Deep Learning」會議的一部分。會議從哲學角度探討了人工智慧研究的當前問題,尤其是深度人工神經網絡領域的近期工作。其目的是將正在思考這些系統的哲學家和科學家聚集在一起,以便更好地了解這些模型的能力、局限性以及它們與人類認知的關係。

根據辯論 PPT 來看,Yann LeCun 延續了他一貫的犀利風格,直言不諱地指出「Machine Learning sucks!」「Auto-Regressive Generative Models Suck!」最後話題自然是回到「世界模型」。在這篇文章中,我們根據 PPT 梳理了 Yann LeCun 的核心觀點。

Yann LeCun 核心觀點

Machine Learning sucks!

「Machine Learning sucks!(機器學習糟透了)」Yann LeCun 把這個小標題放在了 PPT 的開頭。不過,他還補充了一句:與人類和動物相比。

機器學習有什麼問題?LeCun 分情況列舉了幾項:

  • 監督學習(SL)需要大量的標註樣本;
  • 強化學習(RL)需要大量的試驗;
  • 自監督學習(SSL)需要大量的未標記樣本。

而且,當前大部分基於機器學習的 AI 系統都會犯非常愚蠢的錯誤,不會推理(reason),也不會規劃(plan)。

相比之下,人和動物能做的事情就多了很多,包括:

  • 理解世界是如何運作的;
  • 能預測自己行為的後果;
  • 可以進行無限多步驟的推理鏈;
  • 能將複雜的任務分解成一系列的子任務來規劃;

更重要的是,人和動物是有常識的,而當前的機器所具備的常識相對膚淺。

自回歸大型語言模型沒有前途

在以上列舉的三種學習範式中,Yann LeCun 重點將自監督學習拎了出來。

首先可以看到的是,自監督學習已經成為當前主流的學習範式,用 LeCun 的話說就是「Self-Supervised Learning has taken over the world」。近幾年大火的文本、圖像的理解和生成大模型大都採用了這種學習範式。

在自監督學習中,以 GPT 家族為代表的自回歸大型語言模型(簡稱 AR-LLM)更是呈現越來越熱門的趨勢。這些模型的原理是根據上文或者下文來預測後一個 token(此處的 token 可以是單詞,也可以是圖像塊或語音片段)。我們熟悉的 LLaMA (FAIR)、ChatGPT (OpenAI) 等模型都屬於自回歸模型。

但在 LeCun 看來,這類模型是沒有前途的(Auto-Regressive LLMs are doomed)。因為它們雖然表現驚人,但很多問題難以解決,包括事實錯誤、邏輯錯誤、前後矛盾、推理有限、容易生成有害內容等。重要的是,這類模型並不了解這個世界底層的事實(underlying reality)。

從技術角度分析,假設 e 是任意生成的 token 可能將我們帶離正確答案集的概率,那麼長度為 n 的答案最終為正確答案的概率就是 P (correct) = (1-e)^n。按照這個算法,錯誤會不斷積累,而正確性則呈指數級下降。當然,我們可以通過將 e 變小來緩解這個問題(通過訓練),但無法完全消除,Yann LeCun 解釋說。他認為,要解決這個問題,我們需要在保持模型流暢性的同時,讓 LLM 不再進行自回歸。

LeCun 認為有前途的方向:世界模型

當前風頭正勁的 GPT 類模型沒有前途,那什麼有前途呢?在 LeCun 看來,這個答案是:世界模型。

這些年來,LeCun 一直在強調,與人和動物相比,當前的這些大型語言模型在學習方面是非常低效的:一個從沒有開過車的青少年可以在 20 小時之內學會駕駛,但最好的自動駕駛系統卻需要數百萬或數十億的標記數據,或在虛擬環境中進行數百萬次強化學習試驗。即使費這麼大力,它們也無法獲得像人類一樣可靠的駕駛能力。

所以,擺在當前機器學習研究者面前的有三大挑戰:一是學習世界的表徵和預測模型;二是學習推理(LeCun 提到的 System 2 相關討論參見

UCL 汪軍教授報告

);三是學習計劃複雜的動作序列。

基於這些問題,LeCun 提出了構建「世界」模型的想法,並在一篇題為《A path towards autonomous machine intelligence》的論文中進行了詳細闡述。

具體來說,他想要構建一個能夠進行推理和規劃的認知架構。這個架構由 6 個獨立的模塊組成:

  • 配置器(Configurator)模塊;
  • 感知模塊(Perception module);
  • 世界模型(World model);
  • 成本模塊(Cost module);
  • actor 模塊;
  • 短期記憶模塊(Short-term memory module)。

這些模塊的具體信息可以參見機器之心之前的文章《圖靈獎獲得者 Yann LeCun:未來幾十年 AI 研究的最大挑戰是「預測世界模型」》。

Yann LeCun 還在 PPT 中闡述了之前論文裡提到的一些細節。

如何構建、訓練世界模型?

在 LeCun 看來,未來幾十年阻礙人工智慧發展的真正障礙是為世界模型設計架構以及訓練範式。

訓練世界模型是自監督學習(SSL)中的一個典型例子,其基本思想是模式補全。對未來輸入(或暫時未觀察到的輸入)的預測是模式補全的一個特例。

如何構建、訓練世界模型?需要看到的是,世界只能部分地預測。首先,問題是如何表徵預測中的不確定性。

那麼,一個預測模型如何能代表多種預測?

概率模型在連續域中是難以實現的,而生成式模型必須預測世界的每一個細節。

基於此,LeCun 給出了一種解決方案:聯合嵌入預測架構(Joint-Embedding Predictive Architecture,JEPA)。

JEPA 不是生成式的,因為它不能輕易地用於從 x 預測 y。它僅捕獲 x 和 y 之間的依賴關係,而不顯式生成 y 的預測。

通用 JEPA。

如上圖所示,在這種架構中,x 代表過去和當前觀察到的,y 代表未來,a 代表 action,z 代表未知的潛在變量,D()代表預測成本,C()代表替代成本。JEPA 從代表過去和現在的 S_x 的表徵中預測一個代表未來的 S_y 的表徵。

生成式架構會預測 y 的所有的細節,包括不相關的;而 JEPA 會預測 y 的抽象表徵。

在這種情況下,LeCun 認為有五種思路是需要「徹底拋棄」的:

  • 放棄生成式模型,支持聯合嵌入架構;
  • 放棄自回歸式生成;
  • 放棄概率模型,支持能量模型;
  • 放棄對比式方法,支持正則化方法;
  • 放棄強化學習,支持模型預測控制。

他的建議是,只有在計劃不能產生預測結果時才使用 RL,以調整世界模型或 critic。

與能量模型一樣,可以使用對比方法訓練 JEPA。但是,對比方法在高維空間中效率很低,所以更適合用非對比方法來訓練它們。在 JEPA 的情況下,可以通過四個標準來完成,如下圖所示:1. 最大化 s_x 關於 x 的信息量;2. 最大化 s_y 關於 y 的信息量;3. 使 s_y 容易從 s_x 中預測;4. 最小化用於預測潛在變量 z 的信息含量。

下圖是多級、多尺度下世界狀態預測的可能架構。變量 x_0, x_1, x_2 表示一系列觀察值。第一級網絡表示為 JEPA-1,使用低級表徵執行短期預測。第二級網絡 JEPA-2 使用高級表徵進行長期預測。研究者可以設想這種類型的架構有許多層,可能會使用卷積和其他模塊,並使用級之間的時間池來粗粒度的表示和執行長期的預測。使用 JEPA 的任何非對比方法,可以進行 level-wise 或全局的訓練。

分層規劃比較困難,幾乎沒有解決方案,大多數都需要預先定義動作的中間詞彙。下圖是不確定情況下的分層規劃階段:

不確定情況下的分層規劃階段。

邁向自主式 AI 系統的步驟都有哪些?LeCun 也給出了自己的想法:

1、自監督學習

  • 學習世界的表徵
  • 學習世界的預測模型

2、處理預測中的不確定性

  • 聯合嵌入的預測架構
  • 能量模型框架

3、從觀察中學習世界模型

  • 像動物和人類嬰兒一樣?

4、推理和規劃

  • 與基於梯度的學習兼容
  • 沒有符號,沒有邏輯→向量和連續函數

其他的一些猜想包括:

  • 預測是智能的本質:學習世界的預測模型是常識的基礎
  • 幾乎所有的東西都是通過自監督學習得來的:低層次的特徵、空間、物體、物理學、抽象表徵...;幾乎沒有什麼是通過強化、監督或模仿學習的
  • 推理 = 模擬 / 預測 + 目標的優化:在計算上比自回歸生成更強大。
  • H-JEPA 與非對比性訓練就是這樣的:概率生成模型和對比方法是註定要失敗的。
  • 內在成本和架構驅動行為並決定學習的內容
  • 情感是自主智能的必要條件:批評者或世界模型對結果的預期 + 內在的成本。
關鍵字: