EMNLP 2023 | DeepMind提出大模型In-Context Learning的可解釋理論框架

將門創投 發佈 2023-11-13T15:23:12.221001+00:00

在大型語言模型(LLM)中的上下文學習(In-Context Learning,ICL)目前已經成為一種新興的學習範式,具有強大的性能。

在大型語言模型(LLM)中的

上下文學習(In-Context Learning,ICL)目前已經成為一種新興的學習範式

,具有強大的性能。然而,其內在的運行機制仍然不夠明確,

一個具有挑戰性的問題在於,如何將ICL的學習過程映射到傳統的機器學習框架中呢

,這對於社區進一步發展ICL研究具有非常重要的意義。

本文介紹一篇來自

谷歌DeepMind發表在NLP領域國際頂級會議EMNLP 2023上的論文,該文提出了一種全新的框架來重新審視ICL過程

,通常情況下,我們可以使用訓練集 在特定的假設類別中尋找到一個最佳擬合函數 。本文作者發現,

ICL可以學習到具有同樣簡單結構的函數,並且這些函數可以直接表現為具有Transformer架構的LLMs

,其輸入僅包含查詢

和從訓練集中計算出的單個「任務向量」(task vector)。因此,

ICL的過程可以看作是將訓練集壓縮為一個特殊的任務向量,然後利用該任務向量激活transformer層以生成輸出

,這一發現為我們進一步理解 ICL 的學習機制提供了全新的視角。為了驗證這一觀點,作者進行了一系列綜合實驗,涵蓋了不同模型和任務。

實驗結果充分證明了ICL學習函數具有簡單的結構,這為深入理解LLMs的內部機理提供了重要的理論依據。

論文題目:

In-Context Learning Creates Task Vectors

論文連結:

https://arxiv.org/abs/2310.15916

一、引言

大模型的ICL過程,也被稱為情景學習和上下文學習,該過程的一個顯著特性是其可以從少量的示例集合中學習新規則,並且泛化到新的查詢樣本中。例如,我們給定一些輸入示例:「Apple->Red、Lime->Green」,提示模型對新的查詢「Corn->」產生輸出為「Yellow」,如下圖所示,模型可以僅基於兩個示例就學習到了用戶的目標映射關係。

最近的一些工作已經開始探索這一能力背後的機制到底是什麼,由於ICL預測可以直接表示為 ,其中 通常是自回歸transformer網絡,因此,在一般情況下,它可以近似為是對 進行運算以產生輸出的任意函數,這可以包括一些「非參數」方法,例如最近鄰法,也可以包含一些複雜的非線性函數。本文作者認為,ICL可以在一個簡單的假設空間上運行,給定訓練集 ,transformer網絡可以將其映射到「任務向量」 中,該向量本質上表示了ICL上下文中的映射規則,因此基於 和向量 ,我們就可以構造實現該任務的新函數 ,如下圖所示。

此外,作者也提到本文的方法與軟提示(soft-prompt)[1]方法類似,soft-prompt也是通過調整大模型內部transformer的激活值來實現特定的新任務,但是本文的方法僅在ICL的前向傳播過程中進行調整,而不是微調整個模型來實現

二、解釋ICL的理論框架

2.1 理論框架

為了對ICL的過程進行理論解釋,作者團隊首先設計了一個ICL運行的假設空間結構,其目標是了解ICL計算是否是將訓練集 映射到查詢 上的一個函數以及這種映射函數的執行過程,具體來說,就是驗證ICL是否將 轉換為 ——某個假設空間內函數的「參數」。這裡使用 表示Transformer LLM, 表示用作 ICL 輸入的訓練示例, 表示要求 ICL 提供輸出的查詢, 表示ICL對 和 串聯後的輸出。為了證明ICL在假設空間內運行,其基本機制可以分為兩部分:

(1)一種「學習算法」(用表示),主要功能是將 映射到「任務向量」 ,同時保持映射結果與查詢 無關,由於 和 都會通過注意力層進行計算,因此這種獨立性非常關鍵。

(2)一種「規則機制」(用 表示),基於 將查詢 映射到輸出,而不直接依賴於 。

隨後我們考慮一組訓練示例和查詢到預測輸出的映射: 。如果可以將LLM的前向傳遞分解為上述兩個部分,就可以將ICL視為在以下假設空間上運行: 。

2.2 ICL的假設空間

上述框架有多種可能的實現方式,可以根據 和 的不同選擇進行調整,本文作者基於Transformer本身的架構特性設計了一種全新的框架,整體框架如下圖所示。其中輸入以查詢 (即 Corn)結尾,後跟「→」符號。隨後將ICL過程視為以下步驟:首先根據訓練樣本 計算參數向量,並將該參數向量定義的規則應用於查詢。Transformer執行此操作的一個簡單方法可能是讓「」表示的前 層來計算 ,然後讓其餘層將 作為聯合輸入並產生輸出,但實際情況是,Transformer中的任何層都可以同時訪問 和 ,這對整體理論框架提出了挑戰。

2.3 分離

為了應對上述挑戰,作者嘗試證明本文的理論框架可以在LLM的前向傳播中將提出的分離開來,同時還需證明 向量是可解釋的並且對應於具體的學習任務。在進行分解時,首先需要明確一些限制條件,由於向量 的更新來自於 層Transformer計算得到的 和 「→」符號,因此它們的值可能依賴於輸入查詢 ,從而導致向量 與輸入 產生聯繫。為了解決該問題,作者引入了一個虛擬查詢 來計算「→」符號的表示,這樣再計算產生的向量 就可以完全與輸入查詢 獨立。

三、實驗驗證

為了驗證本文的理論框架,作者設計了4個類別中(包含算法、翻譯、語言和事實知識方面)的18項不同任務來進行實驗驗證,下表中展示了不同任務的任務描述和具體示例。對於測試時使用的LLMs,作者選擇了多個開源LLMs,包含LLaMA 7B、13B和30B版本[2]、GPT-J 6B版本[3]以及Pythia 2.8B、6.9B和12B版本[4]。

3.1 最優Transformer層數

在本文提出的ICL理論框架中,一個非常重要的參數就是在Transformer模型內部代表訓練示例 結束,特徵向量 開始的層數 ,者對的不同選擇使用 實現,並且在驗證集上根據ICL推理的準確度來尋找最優層數,使用不同參數規模的LLaMA模型進行實驗,結果如下圖所示。

從上圖的結果可以看出, 的最優值幾乎都在相似的中間層中出現,而與模型的參數規模和層數差異無關。

3.2 ICL理論框架的性能對比

為了驗證本文提出的理論框架對於ICL的實際性能不會產生負面影響,作者對機制的準確度與常規ICL前向傳遞的準確度進行比較,並且對三種不同的baseline LLM都進行了實驗,實驗主要評估了以下三種過程:

(1)常規ICL前向傳遞(Regular):LLM根據輸入示例 和查詢 串聯得到輸出,即 。

(2)本文的ICL假設理論框架(Hypothesis):其中 使用虛擬 生成任務向量 ,並且通過在 上運行Transformer模型將 應用於 。

(3)基線(Baseline):LLM僅在 上前向傳遞,沒有輸入示例 。即 。這與本文框架中分離過程中的 相同。

實驗結果如上圖所示,展示了每個模型在上述三個過程中所有任務的平均準確度。在所有模型中,本文的框架保持了常規 ICL 約 80-90% 的準確度,而基線僅達到 10-20%。這表明本文提出的 分離提供了 ICL 基礎過程的良好經驗近似。

3.3 任務向量的魯棒性

在本文的理論ICL框架中, 是從 和虛擬查詢 計算得到的。作者認為,如果 可以良好的表示任務,那它應該在不同的 值上保持穩定。為了測試這一點,在這一節,作者使用LLaMA-7B模型為每個任務生成了 50 個具有不同 和 的任務向量,並分別進行了幾何結構和數值差異兩方面的魯棒性分析

上圖展示了使用t-SNE算法對任務向量降維後的簇分布情況,每個簇都包含單個任務的任務向量,下圖進一步顯示了同一類別任務之間的接近程度,這表明任務向量在一定程度上可以掌握不同任務的語義

下圖顯示了任務內和任務間 值的距離直方圖,可以看出,同一任務內的向量比不同任務之間的向量更接近,這表明在任務內是穩定的,並且受 或 的影響不大。

3.4 對任務向量 解釋

本文提出的ICL理論框架中的核心概念就是任務向量 ,其可以直觀地捕獲有關 示例中的任務信息,作者對這種解釋說法進行了證明,由於可以看作是Transformer的某個中間隱藏狀態,因此可以採用詞彙投影方法來映射到詞彙表中對應的激活token

上表顯示了LLaMA-13B模型在三個任務上的激活token,在多種情況下,可以直接觀察到描述任務的token,需要注意的是,這些單詞從未明確出現在上下文中。例如,在從法語翻譯成英語的任務中,可以觀察到諸如「English」和「translate」之類的token。這進一步支持了本文的觀點,即 攜帶了有關任務的重要的語義信息。

四、總結

本文提出了一種針對LLMs中In-Context Learning的理論探索框架,揭示了一種ICL學習機制的新視角。本文提出的框架具備了簡單而優雅的特性,其假設ICL過程通過將輸入的訓練示例壓縮為單個任務向量來發揮作用,並且引導Transformer層根據給定的查詢生成目標輸出。將原本LLMs複雜的前向傳遞過程分解為一種學習算法和規則機制的組合,並且通過了大量的實驗支持了本文的觀點。目前社區的研究方向主要集中在如何提高LLMs的推理性能,但更需要探索LLM內部機理的基礎工作作為指導。

參考

[1] Brian Lester, Rami Al-Rfou, and Noah Constant. 2021. The power of scale for parameter-efficient prompt tuning. arXiv preprint arXiv:2104.08691.

[2] Hugo Touvron, Thibaut Lavril et al. 2023. Llama: Open and efficient foundation language models. arXiv preprint arXiv:2302.13971.

[3] Ben Wang and Aran Komatsuzaki. 2021. GPT-J-6B: A 6 Billion Parameter Autoregressive Language Model.

[4] Stella Biderman, Hailey Schoelkopf et al. 2023. Pythia: A suite for analyzing large language models across training and scaling. arXiv preprint arXiv:2304.01373.

Illustration From IconScout By Pablo Stanley

-The End-

掃碼觀看!

本周上新!

「AI技術流」原創投稿計劃

TechBeat是由將門創投建立的AI學習社區(www.techbeat.net)。

社區上線500+期talk視頻,3000+篇技術乾貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會及其他線上交流活動,不定期舉辦技術人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質量、知識型交流平台,希望為AI人才打造更專業的服務和體驗,加速並陪伴其成長。

投稿內容

// 最新技術解讀/系統性知識分享 //

// 前沿資訊解說/心得經歷講述 //

投稿須知

稿件需要為原創文章,並標明作者信息。

我們會選擇部分在深度技術解析及科研心得方向,對用戶啟發更大的文章,做原創性內容獎勵

投稿方式

發送郵件到

chenhongyuan@thejiangmen.com

或添加工作人員微信(chemn493)投稿,溝通投稿詳情;還可以關注「將門創投」公眾號,後台回復「投稿」二字,獲得投稿說明。

>>> 添加小編微信!

關於我「門」

將門是一家以專注於數智核心科技領域的新型創投機構,也是北京市標杆型孵化器。

公司致力於通過連接技術與商業,發掘和培育具有全球影響力的科技創新企業,推動企業創新發展與產業升級。

將門成立於2015年底,創始團隊由微軟創投在中國的創始團隊原班人馬構建而成,曾為微軟優選和深度孵化了126家創新的技術型創業公司。

如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投後服務,

歡迎發送或者推薦項目給我「門」:

⤵一鍵送你進入TechBeat快樂星球

關鍵字: