GPT-4發布僅僅三周後，就已經隨處可見了。本月的論文推薦除了GPT-4以外還包括、語言模型的應用、擴散模型、計算機視覺、視頻生成、推薦系統和神經輻射場。

1、GPT-4 Technical Report

Sébastien Bubeck, Varun Chandrasekaran, Ronen Eldan, Johannes Gehrke, Eric Horvitz, Ece Kamar, Peter Lee, Yin Tat Lee, Yuanzhi Li, Scott Lundberg, Harsha Nori, Hamid Palangi, Marco Tulio Ribeiro, Yi Zhang.

GPT-4 在上個月一直是無可爭議的明星。這篇評估報告包含了 GPT-4 實驗的樣本和操作。論文中一個有意思的事情是在 TikZ (LaTeX) 中繪製獨角獸的能力如何隨著時間的推移而改進，而模型仍在積極開發中。

這份長達 155 頁的評估報告涵蓋了廣泛的主題，例如多模式能力、數學推理、編碼、人際互動和社會影響。作者認為 GPT-4 表現出的一些行為可以被標記為一般智能，同時承認其局限性和警告。

2、Larger language models do in-context learning differently

Jerry Wei, Jason Wei, Yi Tay, Dustin Tran, Albert Webson, Yifeng Lu, Xinyun Chen, Hanxiao Liu, Da Huang, Denny Zhou, Tengyu Ma.

大型語言模型中複雜語境學習的出現引起了大家的興趣。本文深入研究了大型語言模型中一些小眾但很有意思的功能，這些功能在小型語言模型中是不存在的。

大型模型擁有獨特的能力，小型模型根本無法複製，無論投入多少數據和精力。例如，大型模型可以在提示內學習翻轉標籤和學習新的映射，例如反轉句子的情感標籤(例如，積極的句子被標記為消極的)。

大型模型學習翻轉標籤，而小型模型則堅持預先訓練好的知識，繼續將正標記為正，將負標記為負。
語義無關標籤(SUL)隨著規模的擴大而出現，其中模型用非單詞的標記標記事物。
指令調優模型加強了語義先驗的使用和學習輸入標籤映射的能力，但是更強調前者。

3、Reflexion: an autonomous agent with dynamic memory and self-reflection

Noah Shinn, Beck Labash, Ashwin Gopinath.

將 LM 嵌入自我改進循環的技術非常流行！我們人類並不總是在第一次嘗試時就把事情做好。為了解決問題，我們通常依賴於嘗試一條推理路徑，然後在它完全展開後驗證它的有效性。如果沒有，我們會嘗試糾正它，直到整件事情都變得有意義。而傳統自回歸 LM 沒有這樣的能力。

研究人員發現，為 LM 配備類似的機制可以提高它們的性能。簡單地說，提示一個 LM，然後要求它反思它的輸出並在必要時進行更正。這可以嵌入到一個環境中，LM可以知道一個答案或操作是否正確，然後嘗試改進它，直到正確為止。

結果還是不錯的

其他類似的論文還有《Self-Refine: Iterative refine with Self-Feedback》(更專注於指令遵循而不是問題解決)，和《Language Models can Solve Computer Tasks》(專注於做面向目標的規劃)，它們遵循類似的「生成-批評-修復」反饋循環，主要基於啟發式和模板化的自然語言，這也可以證明，現有的lm可以被視為一個新的平台，在其上構建東西，我們只是觸及了可能的表面。

4、Foundation Models for Decision Making: Problems, Methods, and Opportunities

Sherry Yang, Ofir Nachum, Yilun Du, Jason Wei, Pieter Abbeel, Dale Schuurmans.

LM 似乎是一種非常有用的灰盒計算引擎。它們可以應用於語言以外的各種事物，例如決策。作者考慮了在可以採取行動並觀察獎勵的環境中嵌入基礎模型的一般情況。他們確定了 FM 可用於決策環境的幾個角度：作為生成模型、表示學習者、代理或環境。

與強化學習 (RL) 中使用的特定於任務的交互式數據集相比，用於訓練 FM 的視覺和語言領域的廣泛數據集通常在模式和結構上有所不同。例如，視頻數據集通常缺乏明確的動作和獎勵標籤，而這些是強化學習的重要組成部分。因為大多數用於決策模型的 FM 被概念化為通過行為克隆（如離線 RL）訓練馬爾可夫決策過程（MDP），這可能導致整個動作狀態空間的覆蓋率很低，理論上可以與 RL 微調，但最終在實踐中很難。本文強調了彌合這一差距以增強 LM 在決策任務中的適用性的必要性。

5、GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Models

Tyna Eloundou, Sam Manning, Pamela Mishkin, Daniel Rock.

我們經常聽到關於人工智慧將對就業市場產生影響的熱門話題。這篇論文試圖為各種職業量化這一點。

通過觀察歷史上主流未來主義者在預測哪些事情難以自動化以及 AI 將首先學習做什麼方面表現得多麼糟糕來作為序言。然後量化了使用 LM 的不同任務的生產力收益。

我們的分析表明，通過獲得 LLM，美國大約 15% 的工人任務可以在相同質量水平下更快地完成。當合併構建在 LLM 之上的軟體和工具時，這一份額增加到所有任務的 47% 到 56%。

論文裡定義完成繁重工作的關鍵概念是「Exposure」，它被定義為訪問 LLM 系統可以將人類執行特定任務所花費的時間減少至少 50% 的程度。不過，Exposure的影響仍不清楚：提高生產率和增加工資？減少可用職位？都算作Exposure但是具體哪一個還沒有結論，論文裡有一些數據表明在不同任務中使用 LM 輔助性能有多大的相關性。

6、Erasing Concepts from Diffusion Models

Rohit Gandikota, Joanna Materzynska, Jaden Fiotto-Kaufman, David Bau.

高級的AICG最令人興奮的地方在於它將如何實現全新的人機互動範式。本文提出了一種在使用擴散模型編輯圖像時進行這種交互的方法。

作者介紹了一種稱為擦除穩定擴散 (ESD) 的技術，該技術僅使用「不需要的」概念描述來微調模型的參數，而無需額外的訓練數據。這種特別的方法可以很容易地集成到任何預訓練的擴散模型中。例如，給定一張有樹的田野圖像，您可以簡單地提示「擦除樹」，輸出將是沒有樹的「相同」圖像。

ESD的主要目標是利用模型自身的知識，而不需要額外的數據就可以從文本到圖像擴散模型中刪除相應的內容。該方法採用潛在擴散模型(LDM)，關注潛在空間而不是像素空間，並使用[穩定擴散]進行所有的實驗。該技術針對3種類型的刪除進行了優化:藝術效果(例如，取消梵谷風格的過濾器)，明確的內容和對象。下圖為這些方法的例子：

7、Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators

Levon Khachatryan, Andranik Movsisyan, Vahram Tadevosyan, Roberto Henschel, Zhangyang Wang, Shant Navasardyan, Humphrey Shi.

我們已經看到一些文本到「視頻」的作品，例如 meta 的Make-a-video（它更像是 GIF）。

僅使用現成的文本到圖像模型並且不需要進一步訓練的文本到視頻呢？Text2Video-Zero 提出了一種將現有的文本到圖像合成擴散模型轉換為文本到視頻模型的方法。這種方法可以使用文本提示或提示結合姿勢或邊緣的指導，甚至是指令指導的視頻編輯來生成零樣本的視頻生成。它完全無需訓練，不需要強大的計算能力或多個 GPU，讓每個人都可以生成視頻。

還是使用擴散模型將圖像與文本對齊的潛在表示空間中進行「運動」。雖然微動嵌入會在生成的視頻中產生不連貫的運動，但這項工作提出了兩種新穎的後處理技術，通過在潛在代碼中編碼運動動態並使用跨幀注意力重新編輯每個幀的自注意力來強制執行時間生成的一致性（參見下圖）。結果是在沒有任何視頻特定訓練的情況下創建的連貫短視頻。

8、LERF: Language Embedded Radiance Fields

Justin Kerr, Chung Min Kim, Ken Goldberg, Angjoo Kanazawa, Matthew Tancik.

將nerf與現成的CLIP嵌入相結合，以獲得優秀的語義分割和語言基礎。LERF通過沿訓練射線利用CLIP嵌入，並在多個訓練圖像上使用多尺度CLIP特徵來監督它們，從而優化密集的多尺度3D語言場。這種優化可以為語言查詢實時、交互式地提取3D相關性圖。LERF支持長尾、開放詞彙表的跨卷分層查詢，而不依賴於區域提議、掩碼或微調。

與2D CLIP嵌入相比，3D提供了對遮擋和視點變化的魯棒性，以及更清晰的外觀，更好地符合3D場景結構。多尺度監督和DINO正則化提高了對象邊界和整體質量。

作者還展示了LERF如何與ChatGPT無縫集成，允許用戶使用自然語言與3D世界進行交互。一個示例演示了ChatGPT如何為清理咖啡溢出提供語言查詢(見下圖)。這將很快被集成到流行的Nerfstudio研究代碼庫中。

9、Resurrecting Recurrent Neural Networks for Long Sequences

Antonio Orvieto, Samuel L Smith, Albert Gu, Anushan Fernando, cagar Gulcehre, Razvan Pascanu, Soham De。

RNN 隱藏的潛力？ Transformer 的注意力機制的計算複雜度意味著可能需要一定程度的重複性才能實現真正的遠程依賴建模。遞歸神經網絡 (RNN) 在深度學習中對序列數據建模至關重要，但眾所周知，它存在梯度消失和爆炸問題，而 LSTM（某種程度上）在過去解決了這些問題。儘管如此，它們仍無法與Transformer 的顯式自注意力相提並論。最近推出的 S4 是一種深度狀態空間模型 (SSM)，它克服了其中的一些問題，並在超長距離推理任務上取得了卓越的性能。本文證明，通過對深度傳統 RNN 進行微小更改，線性循環單元 (LRU) 模型可以在LRA ( Long Range Arena) 基準測試中與深度 SSM 的性能和效率相媲美。

線性循環單元 (LRU) 是本文的核心架構貢獻。傳統 RNN 的修改包括線性化（去除循環連接中的非線性）、對角化（允許並行化和更快的訓練）、穩定的指數參數化和歸一化。

這篇論文再次展示了神經網絡中的許多進步依賴於巧妙的優化，包括使訓練更快、穩定和可擴展;而不是聰明的架構選擇。雖然這不會很快取代Transformer ，但當需要線性推理的複雜性時，長距離的遞歸仍然是有用的。

10、 Recommender Systems with Generative Retrieval

Shashank Rajput et al.

還記得可微搜索索引(DSI)嗎?現在他又開始折騰推薦系統了。

可微分搜索索引使用transformer 來記憶文檔id，並根據查詢自回歸地生成它們，消除了對傳統索引的需要。基於這一想法，研究人員提出了TIGER，一種基於生成檢索的推薦模型。TIGER為每件商品分配唯一的語義ID，然後訓練檢索模型來預測用戶將使用之前商品ID的下一件商品的語義ID。其實就是對這些id進行自回歸建模。

與DSI基礎實驗不同的是，在這種情況下，id在語義上是相關的:它們使用條目的標題和文本描述來使用Sentence-T5對它們進行編碼，然後應用殘差量化以獲得每個項目的量化表示。

TIGER在亞馬遜產品評論數據集的召回和NDCG方面擊敗了以前的最先進技術。儘管與DSI相關的缺點(向預訓練的模型中添加新項目並不容易)，但這種新的生成式檢索範式確實提供了一些優勢，例如推薦不常見的項目(改善冷啟動問題)，並通過調整生成的溫度來生成多樣化的推薦。

11、Segment Anything

Alexander Kirillov, Eric Mintun, Nikhila Ravi, Hanzi Mao, Chloe Rolland, Laura Gustafson, Tete Xiao, Spencer Whitehead, Alexander C. Berg, Wan-Yen Lo, Piotr Dollár, Ross Girshick

meta發布的號稱分割屆的GPT，SAM已經了解了物體的一般概念，這種理解可以在不需要額外訓練的情況下對不熟悉的物體和圖像進行零樣本泛化。

目測效果很不錯，這個論文我在研究他的原始碼，所以後續還有更詳細的應用和解釋。有興趣的可以先看看他的demo網站segment-anything.com

12、Generative Agents: Interactive Simulacra of Human Behavior

Joon Sung Park, Joseph C. O'Brien, Carrie J. Cai, Meredith Ringel Morris, Percy Liang, Michael S. Bernstein

這篇論文展示了讓生成式AI具備記憶、規劃、溝通和反思的能力，讓其像人類一樣自然活動、社交、成長。論文使用的是GPT-3.5-turbo版本的ChatGPT，也就是說理論上可以為ChatGPT加上記憶、反思和規劃等更高階的人類能力，可有效提升大語言模型輸出能力、穩定性和降低風險，同時在遊戲領域有著巨大的應用空間。

1）AI自己建立了記憶體系並定期進行深層次反思，從而獲得對新鮮事物的見解；

2）AI之間建立了關係並記住了彼此；

3）AI之間學會了相互協調；

4）AI之間學會了共享信息；

5）AI具備了定製和修改計劃的能力。

有興趣的可以看看演示，常有意思

作者：Sergi Castella i Sapé

2023年4月的12篇AI論文推薦