EMNLP 2023 | DeepMind提出大模型In-Context Learning的可解釋理論框架

在大型語言模型（LLM）中的

上下文學習（In-Context Learning，ICL）目前已經成為一種新興的學習範式

，具有強大的性能。然而，其內在的運行機制仍然不夠明確，

一個具有挑戰性的問題在於，如何將ICL的學習過程映射到傳統的機器學習框架中呢

，這對於社區進一步發展ICL研究具有非常重要的意義。

本文介紹一篇來自

谷歌DeepMind發表在NLP領域國際頂級會議EMNLP 2023上的論文，該文提出了一種全新的框架來重新審視ICL過程

，通常情況下，我們可以使用訓練集 在特定的假設類別中尋找到一個最佳擬合函數 。本文作者發現，

ICL可以學習到具有同樣簡單結構的函數，並且這些函數可以直接表現為具有Transformer架構的LLMs

，其輸入僅包含查詢

和從訓練集中計算出的單個「任務向量」（task vector）。因此，

ICL的過程可以看作是將訓練集壓縮為一個特殊的任務向量，然後利用該任務向量激活transformer層以生成輸出

，這一發現為我們進一步理解 ICL 的學習機制提供了全新的視角。為了驗證這一觀點，作者進行了一系列綜合實驗，涵蓋了不同模型和任務。

實驗結果充分證明了ICL學習函數具有簡單的結構，這為深入理解LLMs的內部機理提供了重要的理論依據。

論文題目：

In-Context Learning Creates Task Vectors

論文連結：

https://arxiv.org/abs/2310.15916

一、引言

大模型的ICL過程，也被稱為情景學習和上下文學習，該過程的一個顯著特性是其可以從少量的示例集合中學習新規則，並且泛化到新的查詢樣本中。例如，我們給定一些輸入示例：「Apple->Red、Lime->Green」，提示模型對新的查詢「Corn->」產生輸出為「Yellow」，如下圖所示，模型可以僅基於兩個示例就學習到了用戶的目標映射關係。

最近的一些工作已經開始探索這一能力背後的機制到底是什麼，由於ICL預測可以直接表示為，其中通常是自回歸transformer網絡，因此，在一般情況下，它可以近似為是對 和 進行運算以產生輸出的任意函數，這可以包括一些「非參數」方法，例如最近鄰法，也可以包含一些複雜的非線性函數。本文作者認為，ICL可以在一個簡單的假設空間上運行，給定訓練集，transformer網絡可以將其映射到「任務向量」中，該向量本質上表示了ICL上下文中的映射規則，因此基於和向量，我們就可以構造實現該任務的新函數，如下圖所示。

此外，作者也提到本文的方法與軟提示（soft-prompt）[1]方法類似，soft-prompt也是通過調整大模型內部transformer的激活值來實現特定的新任務，但是本文的方法僅在ICL的前向傳播過程中進行調整，而不是微調整個模型來實現。

二、解釋ICL的理論框架

2.1 理論框架

為了對ICL的過程進行理論解釋，作者團隊首先設計了一個ICL運行的假設空間結構，其目標是了解ICL計算是否是將訓練集映射到查詢上的一個函數以及這種映射函數的執行過程，具體來說，就是驗證ICL是否將 轉換為 ——某個假設空間內函數的「參數」。這裡使用表示Transformer LLM，表示用作 ICL 輸入的訓練示例，表示要求 ICL 提供輸出的查詢，表示ICL對和串聯後的輸出。為了證明ICL在假設空間內運行，其基本機制可以分為兩部分：

（1）一種「學習算法」（用表示），主要功能是將 映射到「任務向量」 ，同時保持映射結果與查詢 無關，由於和都會通過注意力層進行計算，因此這種獨立性非常關鍵。

（2）一種「規則機制」（用表示），基於將查詢映射到輸出，而不直接依賴於。

隨後我們考慮一組訓練示例和查詢到預測輸出的映射：。如果可以將LLM的前向傳遞分解為上述兩個部分，就可以將ICL視為在以下假設空間上運行：。

2.2 ICL的假設空間

上述框架有多種可能的實現方式，可以根據和的不同選擇進行調整，本文作者基於Transformer本身的架構特性設計了一種全新的框架，整體框架如下圖所示。其中輸入以查詢（即 Corn）結尾，後跟「→」符號。隨後將ICL過程視為以下步驟：首先根據訓練樣本 計算參數向量，並將該參數向量定義的規則應用於查詢。Transformer執行此操作的一個簡單方法可能是讓「→」表示的前 層來計算 ，然後讓其餘層將 和 作為聯合輸入並產生輸出，但實際情況是，Transformer中的任何層都可以同時訪問和，這對整體理論框架提出了挑戰。

2.3 分離 和

為了應對上述挑戰，作者嘗試證明本文的理論框架可以在LLM的前向傳播中將提出的和分離開來，同時還需證明 向量是可解釋的並且對應於具體的學習任務。在進行分解時，首先需要明確一些限制條件，由於向量的更新來自於層Transformer計算得到的和「→」符號，因此它們的值可能依賴於輸入查詢，從而導致向量與輸入產生聯繫。為了解決該問題，作者引入了一個虛擬查詢來計算「→」符號的表示，這樣再計算產生的向量就可以完全與輸入查詢獨立。

三、實驗驗證

為了驗證本文的理論框架，作者設計了4個類別中（包含算法、翻譯、語言和事實知識方面）的18項不同任務來進行實驗驗證，下表中展示了不同任務的任務描述和具體示例。對於測試時使用的LLMs，作者選擇了多個開源LLMs，包含LLaMA 7B、13B和30B版本[2]、GPT-J 6B版本[3]以及Pythia 2.8B、6.9B和12B版本[4]。

3.1 最優Transformer層數

在本文提出的ICL理論框架中，一個非常重要的參數就是在Transformer模型內部代表訓練示例結束，特徵向量開始的層數，作者對的不同選擇使用 實現，並且在驗證集上根據ICL推理的準確度來尋找最優層數，使用不同參數規模的LLaMA模型進行實驗，結果如下圖所示。

從上圖的結果可以看出， 的最優值幾乎都在相似的中間層中出現，而與模型的參數規模和層數差異無關。

3.2 ICL理論框架的性能對比

為了驗證本文提出的理論框架對於ICL的實際性能不會產生負面影響，作者對機制的準確度與常規ICL前向傳遞的準確度進行比較，並且對三種不同的baseline LLM都進行了實驗，實驗主要評估了以下三種過程：

（1）常規ICL前向傳遞（Regular）：LLM根據輸入示例和查詢串聯得到輸出，即。

（2）本文的ICL假設理論框架（Hypothesis）：其中使用虛擬生成任務向量，並且通過在上運行Transformer模型將應用於。

（3）基線（Baseline）：LLM僅在上前向傳遞，沒有輸入示例。即。這與本文框架中分離過程中的相同。

實驗結果如上圖所示，展示了每個模型在上述三個過程中所有任務的平均準確度。在所有模型中，本文的框架保持了常規 ICL 約 80-90% 的準確度，而基線僅達到 10-20%。這表明本文提出的 和 分離提供了 ICL 基礎過程的良好經驗近似。

3.3 任務向量的魯棒性

在本文的理論ICL框架中，是從和虛擬查詢計算得到的。作者認為，如果 可以良好的表示任務，那它應該在不同的 和 值上保持穩定。為了測試這一點，在這一節，作者使用LLaMA-7B模型為每個任務生成了 50 個具有不同和的任務向量，並分別進行了幾何結構和數值差異兩方面的魯棒性分析。

上圖展示了使用t-SNE算法對任務向量降維後的簇分布情況，每個簇都包含單個任務的任務向量，下圖進一步顯示了同一類別任務之間的接近程度，這表明任務向量在一定程度上可以掌握不同任務的語義。

下圖顯示了任務內和任務間值的距離直方圖，可以看出，同一任務內的向量比不同任務之間的向量更接近，這表明在任務內是穩定的，並且受或的影響不大。

3.4 對任務向量 解釋

本文提出的ICL理論框架中的核心概念就是任務向量，其可以直觀地捕獲有關示例中的任務信息，作者對這種解釋說法進行了證明，由於可以看作是Transformer的某個中間隱藏狀態，因此可以採用詞彙投影方法來映射到詞彙表中對應的激活token。

上表顯示了LLaMA-13B模型在三個任務上的激活token，在多種情況下，可以直接觀察到描述任務的token，需要注意的是，這些單詞從未明確出現在上下文中。例如，在從法語翻譯成英語的任務中，可以觀察到諸如「English」和「translate」之類的token。這進一步支持了本文的觀點，即攜帶了有關任務的重要的語義信息。

四、總結

本文提出了一種針對LLMs中In-Context Learning的理論探索框架，揭示了一種ICL學習機制的新視角。本文提出的框架具備了簡單而優雅的特性，其假設ICL過程通過將輸入的訓練示例壓縮為單個任務向量來發揮作用，並且引導Transformer層根據給定的查詢生成目標輸出。將原本LLMs複雜的前向傳遞過程分解為一種學習算法和規則機制的組合，並且通過了大量的實驗支持了本文的觀點。目前社區的研究方向主要集中在如何提高LLMs的推理性能，但更需要探索LLM內部機理的基礎工作作為指導。

參考

[1] Brian Lester, Rami Al-Rfou, and Noah Constant. 2021. The power of scale for parameter-efficient prompt tuning. arXiv preprint arXiv:2104.08691.

[2] Hugo Touvron, Thibaut Lavril et al. 2023. Llama: Open and efficient foundation language models. arXiv preprint arXiv:2302.13971.

[3] Ben Wang and Aran Komatsuzaki. 2021. GPT-J-6B: A 6 Billion Parameter Autoregressive Language Model.

[4] Stella Biderman, Hailey Schoelkopf et al. 2023. Pythia: A suite for analyzing large language models across training and scaling. arXiv preprint arXiv:2304.01373.

Illustration From IconScout By Pablo Stanley

-The End-

掃碼觀看！

本周上新！

「AI技術流」原創投稿計劃

TechBeat是由將門創投建立的AI學習社區（www.techbeat.net）。

社區上線500+期talk視頻，3000+篇技術乾貨文章，方向覆蓋CV/NLP/ML/Robotis等；每月定期舉辦頂會及其他線上交流活動，不定期舉辦技術人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質量、知識型交流平台，希望為AI人才打造更專業的服務和體驗，加速並陪伴其成長。

投稿內容

// 最新技術解讀/系統性知識分享 //

// 前沿資訊解說/心得經歷講述 //

投稿須知

稿件需要為原創文章，並標明作者信息。

我們會選擇部分在深度技術解析及科研心得方向，對用戶啟發更大的文章，做原創性內容獎勵

投稿方式

發送郵件到

chenhongyuan@thejiangmen.com

或添加工作人員微信（chemn493）投稿，溝通投稿詳情；還可以關注「將門創投」公眾號，後台回復「投稿」二字，獲得投稿說明。

>>> 添加小編微信！

關於我「門」

▼

將門是一家以專注於數智核心科技領域的新型創投機構，也是北京市標杆型孵化器。

公司致力於通過連接技術與商業，發掘和培育具有全球影響力的科技創新企業，推動企業創新發展與產業升級。

將門成立於2015年底，創始團隊由微軟創投在中國的創始團隊原班人馬構建而成，曾為微軟優選和深度孵化了126家創新的技術型創業公司。

如果您是技術領域的初創企業，不僅想獲得投資，還希望獲得一系列持續性、有價值的投後服務，

歡迎發送或者推薦項目給我「門」:

⤵一鍵送你進入TechBeat快樂星球