LLM+模仿學習，解決真實世界中的複雜任務：AI2提出SwiftSage

機器之心專欄

機器之心編輯部

GPT-4 等大型語言模型（LLM）在許多推理任務上表現出色，然而，大部分現有研究僅關注靜態環境下的任務，如回答問題或解數學題。那麼，LLM 能否在真實世界中完成複雜的交互式任務呢？例如，如果我們想製作一個智能體（agent），讓它在物理世界裡完成一些實驗，比如測試一個物體是否導電，我們可以使用 LLM 嗎？這類複雜交互式任務（complex interactive tasks）具有很大的挑戰性，因為它要求 LLM 不僅能理解動態變化的真實場景，還需要具備諸如長期規劃（long-horion planning）、任務分解（task 的 composition）、記憶儲存（memorization）、常識推理（commonsense reasoning）、異常處理（exception handling）等高階認知和推理能力。

面對這種情況，如何充分發揮 LLM 的規劃和推理能力，同時降低計算成本呢？認知心理學名著《思考，快與慢》（Thinking, Fast and Slow）中介紹的雙過程理論（dual propcess theory）帶來了很多啟示。該理論認為，人類認知過程需要兩個密不可分的系統，其中 System 1 負責快速直覺式思考，而 System 2 則負責慢速分析式思考。

論文連結：https://arxiv.org/abs/2305.17390
項目網站：https://yuchenlin.xyz/swiftsage/

基於此，AI2 (Allen Institute for AI) 的研究人員提出了 SwiftSage 智能體框架。他們通過模仿學習得到一個小型模型，然後將其與 LLM 進行融合。這樣，便可以利用大量數據對小型模型進行微調，使其具備環境和任務相關的知識，並僅在需要時調用大型模型進行高階推理。在 30 個任務上的評估中，SwiftSage 的表現超過了之前的 SayCan、ReAct 和 Relfexion 等方法近 2 倍，並且大幅降低了 LLM 部分的計算成本。

研究背景

以往的研究主要探索了三種方法來解決複雜的交互推理任務，傳統的一些智能體訓練方法包括

1）強化學習（Reinforcement Learning）

將交互式推理任務建模為部分可觀察的馬爾可夫決策過程（Partial Observable Markov Decision Process, POMDP），智能體通過反覆嘗試和學習最佳行動策略。常見的方法有 DRRN， KG-A2C，CALM 等。

2）模仿學習（Imitation Learning）

將交互式推理任務建模為序列到序列（Seq2Seq）任務，將過去的行動和當前的環境觀察作為輸入，當前的行動作為輸出，智能體被訓練以模仿人類或專家的行為。Text Decision Transformer 是這個方向的基準方法。

3）利用大型語言模型（Large Language Model，簡稱 LLM）提示

隨著 LLM 的快速發展，尤其是 GPT-4 的出現，將 LLM 應用於複雜的交互式推理任務取得了顯著的成果。除了通過傳統方法直接讓 LLM 根據過往行動和當前環境觀察生成行動外，有研究通過直接調用 LLM 生成 action 候選池再結合環境重排序（SayCan），也有研究引入虛擬的 "think" 行動來生成子目標以實現更高效的行動（ReAct），以及在任務失敗後利用 LLM 總結原因並生成反思以提高下一次嘗試的成功概率（Reflection）等多種方式。

雖然傳統方法在相對簡單的任務中表現優異，但它們在更複雜和具有挑戰性的任務中的泛化能力受限。無論是基於強化學習的方法還是行為克隆（Behavior Cloning），在將大目標分解為多個子任務、實現長期記憶和處理環境中的未知異常（比如在導電性測試中找不到可以使用的燈泡）方面都面臨諸多挑戰。

相較之下，利用 LLM 進行提示的方法展示出了在複雜任務中生成合理計劃和根據人類反饋進行調整的能力，但同樣存在一些問題和局限性。其中一個主要挑戰是每次預測行動都需要調用 LLM，導致整體推理效率低下且成本較高。此外，ReAct 和 Reflection 兩種方法還需要針對每種未知任務類型進行適當的子目標人工標註，否則在現實世界情境中的推廣可能會比較困難。而如何將 LLM 生成的計劃轉化為真實

SwiftSage：融合模仿學習與大模型規劃的全新框架

研究者受到人腦思維雙系統模型理論（Dual Process Theory）的啟發，提出一種全新的結合模仿學習和語言模型（LLM）方法的框架 ——SwiftSage。這一框架為真實世界中的複雜任務帶來了的突破性解決方案。

在認知心理學領域，人腦思維雙系統模型被用於解釋人類思維和決策過程中的兩種獨特方式。根據該理論，人類的認知過程可分為兩個相互關聯但獨立運作的系統：直覺型思維系統（系統 1）和反思型思維系統（系統 2）。

直覺型思維（系統 1）是一種快速、直觀且自動的思考方式，主要依賴於個體的經驗、情感和直覺。這種方式對於解決簡單問題和日常決策具有較高的效率，但在面臨複雜問題和重大決策時可能導致偏差和錯誤。

反思型思維（系統 2），與此相反，則是一種深思熟慮、有意識且理性的思考方式。該方式通過運用邏輯推理、規則和分析，為決策和問題解決提供了更加準確和合理的結果。然而，這種思維方式需要較多的認知資源和時間。

雙系統模型理論的核心觀點在於，人類思維和決策過程並非單一系統所驅動，而是兩個系統之間相互作用、互補和競爭的結果。在許多情況下，直覺型思維系統在決策中發揮主導作用；而在需要深入思考和理性判斷的場合，反思型思維系統的作用則變得更為重要。

AI2 團隊提出的 SwiftSage 框架正是基於人腦思維雙系統模型理論，將模仿學習和 LLM 方法的優勢相互結合，以解決現實世界中的複雜數字任務，展現出了巨大的潛力和前景。

雙模塊推理系統：迅速決策的 Swift + 深思熟慮的 Sage

SwiftSage 是一個由兩個主要模塊組成的框架：迅速決策（Swift）模塊和深思熟慮（Sage）模塊。

Swift 模塊是一個基於 encoder-decoder 的小型語言模型，它能編碼短期記憶內容，例如先前的動作、當前觀察結果、已訪問的位置以及當前環境狀態，並解碼出下一步的行動。該模塊模擬了系統 1 中快速、直觀的思維特點。它的優勢來自於大量的離線數據，通過在模仿學習中採用 behavior cloning 方法，Swift 模塊可以充分了解目標環境中的設定以及更好地掌握任務的定義。

Sage 模塊代表了系統 2 中深思熟慮的思維過程，它利用 LLM（例如 GPT-4）來更好地進行規劃。Sage 模塊包含兩個 LLM Prompting 階段，分別稱為規劃（planning）和融合（grounding）。

在規劃階段，主要目標是引導 LLM 定位所需物品、規劃和追蹤子目標以及檢測和修正潛在的異常和錯誤。通過五個主要問題來實現這一目標，使得智能體能夠更敏銳地捕捉遊戲過程中的異常，進而更有可能糾正自身行為。

在融合階段，主要目標是利用規劃階段五個問題的答案和詳細的動作模板，將規劃階段輸出的計劃轉化為一系列實際可執行的動作，這可以稱為動作緩存（action buffer）。與之前的方法不同，Sage 不僅生成下一個即時動作，還包括長期的行動規劃。LLM 收到包含子目標（在規劃階段生成）和支持的行動類型的提示（prompt），使它們能夠生成一系列旨在實現當前子目標的動作（而不是像之前的方法那樣一次生成一個動作）。這樣一來，SwiftSage 進一步降低了動作預測的成本。

為了協調 Swift 和 Sage 模塊，研究者們提出了一種啟發式算法，用於確定何時激活或停用 Sage 模塊以及如何有效地將輸出與動作緩存機制相結合。默認情況下，智能體通常會採用 Swift 模塊。當 Swift 模塊遇到困難時（例如，出現如下圖的四種情況），智能體會改為執行 Sage 模塊產生的動作緩存。

實驗結果：效率、性能和開銷的全方位優秀表現

經過對 ScienceWorld 中的 30 種任務類型進行全面評估之後，SwiftSage 在性能上顯著優於其他方法，取得了領先水平的平均分數 84.7。相較而言，SayCan 的得分僅為 33.8，ReAct 獲得了 36.4 分，而 Reflexion 則達到了 45.3 分。

得益於其獨特的雙系統設計，SwiftSage 在 LLM 推理中所需的每個行動的令牌數量大幅減少，因此在成本效益和效率方面，它比單純依靠 Prompting LLM 方法表現得更為出色。平均來看，為了產生一個行動，Saycan 和 ReAct 需要近 2000 個 token，Reflexion 需要接近 3000 個 token，而 SwiftSage 僅需約 750 個 token。

此外，SwiftSage 在交互式任務中的效率同樣更高。如下圖所示，SwiftSage 能夠在較少的行動數內達到相同的分數。

在展示出卓越表現後，研究者們認為受益於人類認知雙過程理論靈感的 SwiftSage 研究成果具有創新性及領先優勢，無論是在性能、效率還是成本方面。這一獨特框架採用了將較小的語言模型與模仿學習相結合，再輔以 LLM（大型語言模型）的規劃能力，成為解決複雜交互推理任務以及構建通用人工智慧的關鍵步驟。SwiftSage 所取得的突破使我們距離充分發揮 LLM 潛力更近一步，從而更有效地解決現實世界中的複雜問題。

結語

AI2 提出的 SwiftSage 成果再次展示了較小的 LM（語言模型）與 LLM（大型語言模型）協作框架的巨大潛力。通過利用較小的 LM 進行任務與環境特定模式的識別，實現了分布內泛化的高效性。同時，儘管 LLM 的零樣本泛化能力和深度思考展現出顯著優勢，但將其輸出應用於現實世界場景仍具有一定挑戰性。研究者認為，採用雙過程智能體，發揮這兩種方法的優點，對解決複雜的交互式推理任務以及構建跨領域的通用智能體具有重要意義。進一步地，我們還可以將 SwiftSage 等模型視為一種利用 LLM 作為控制器或規劃器，用於分解複雜任務並調用 API 工具。

主要作者介紹

Bill Yuchen Lin 林禹臣（AI2）現任 Allen Institute for AI（AI2）研究員。他本科畢業於上海交通大學 IEEE 試點班（2018），博士畢業於 USC 南加州大學（2022）。曾獲得 WWW 2020 Best Paper Runner-Up，TrustNLP Best Paper Award。他多次擔任 NLP 和 ML 領域頂級會議審稿人，Area Chair （ACL2023），多次參與組織 workshop 和 tutorials。他目前的研究興趣在將大語言模型的分析和增強，以及如何利用常識知識構建通用的智能體。

Yejin Choi （UW & AI2）華盛頓大學教授，同時領導 AI2 的 Mosaic 組。她曾獲得 ACL Fellow，MacArthur Fellow，她曾獲得 NAACL Best Paper Award in 2022, the ICML Outstanding Paper Award in 2022, the ACL Test of Time award in 2021, the CVPR Longuet-Higgins Prize (test of time award) in 2021, the NeurIPS Outstanding Paper Award in 2021, the AAAI Outstanding Paper Award in 2020 等榮譽。

Xiang Ren 任翔（USC）南加州大學副教授，領導 INK Research Lab。曾獲得 Forbes' Asia 30 Under 30，NAACL Outstanding Paper Award 2022，Google Research Scholar, 2022，Facebook Sponsored Research Award, 2021，NSF CAREER Award, 2021 等榮譽。