三月有很多的重大產品發布，包括剛剛發布的GPT4，還有Meta剛發布就被泄露的LLaMA，midjourney V5，還有ChatGPT的API（非常便宜）等等。

但是本文整理的是本月應該閱讀的10篇論文，將包括多模態語言模型、擴散模型、機器翻譯等主題。

1、LLaMA: Open and Efficient Foundation Language Models

Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, Aurelien Rodriguez, Armand Joulin, Edouard Grave, Guillaume Lample

開源的LLaMA，並且開放了模型權重，但是需要申請才可以下載，不過有網友已經將它全部公開下載了，這對我們來說是個好事。這個模型在超過一萬億令牌上進行訓練，主要包括以下幾個模型：

這些模型是在完全公開的數據上進行訓練的，它們在各種QA和常識推理任務中都能在零樣本和少樣本中取得出色的表現。

這些開源的模型既沒有經過微調，也沒有RLHF化，所以還需要我們自行調教，這也正好適合我們的彎道超車，下載地址我們以前已經發布過了，有興趣的可以去看看。

2、Consistency Models

Yang Song, Prafulla Dhariwal, Mark Chen, Ilya Sutskever.

擴散模型的計算是非常耗時的，因為他們需要解碼輸出疊代多次，使其比一次向前傳遞所允許的更具表現力。但這使得它們很慢，不像GANs、vae那樣。

這個論文提出學習一個模型，該模型預測在任意深度水平上擴散過程的輸出(見下圖)。

構建這些模型的關鍵是認識到任何跳躍 f(x, t) 都需要與其步驟的組合保持一致；當從噪聲到數據時，不同的跳躍需要以相同的圖像結束；這就是他們需要保持一致，所以才叫Consistency Models 。

在之前的Progressive Distillation 研究中已經展示了一種將擴散模型提煉成需要更少解碼步驟（例如，只有 4 個）的方法，但在本文中，提出了一種訓練獨立一致性模型的方法。

3、PaLM-E: An Embodied Multimodal Language Model

Danny Driess, Fei Xia, Mehdi S. M. Sajjadi, Corey Lynch, Aakanksha Chowdhery, Brian Ichter, Ayzaan Wahid, Jonathan Tompson, Quan Vuong, Tianhe Yu, Wenlong Huang, Yevgen Chebotar, Pierre Sermanet, Daniel Duckworth, Sergey Levine, Vincent Vanhoucke, Karol Hausman, Marc Toussaint, Klaus Greff, Andy Zeng, Igor Mordatch, Pete Florence.

這時google的多模態模型，為了編碼圖像，他們使用視覺轉換器(ViT)和編碼文本PaLM，模型菜蔬高達5620億個(分別為22B + 540B)。

雖然這項工作標榜自己是端到端的解決方案，但事實是仍然嚴重依賴於傳統技術，而且語言模型只提供高級動作指令。

4、In-context Instruction Learning

Seonghyeon Ye, Hyeonbin Hwang, Sohee Yang, Hyeongu Yun, Yireun Kim, Minjoon Seo.

指令調優是一種以自然語言指令格式在訓練語料庫中包含標記數據集的技術，該技術已被證明可以推廣到訓練任務之外的新任務，並在人類給出指令時使lm更可用。

本文研究了當在提示中這樣做時會發生什麼;給模型提供各種其他語言任務的例子，然後提示執行一個新的任務，而不是添加手頭任務的例子(即少量學習)。這再次證明了非常複雜的信息可以通過上下文學習引入

5、How Good Are GPT Models at Machine Translation? A Comprehensive Evaluation

Amr Hendy, Mohamed Abdelrehim, Amr Sharaf, Vikas Raunak, Mohamed Gabr, Hitokazu Matsushita, Young Jin Kim, Mohamed Afify, and Hany Hassan Awadalla.

ChatGPT最不受重視的技能之一是翻譯。論文將測試GPT模型的性能是否接近SOTA和傳統機器翻譯模型，並發現現有的神經機器翻譯和基於GPT的翻譯顯示出互補的優勢。

考慮到GPT 沒有在並行語料庫上進行訓練，它避免了常見的缺陷，如噪聲或低質量樣本的數據記憶問題，或長尾錯誤，如物理單位或貨幣的翻譯等。

翻譯性能在很大程度上來自於無監督的修飾、指令調優和RLHF，而RLHF並不是特別針對翻譯的，但是取得的結果令人印象深刻和興奮。

6、Composer: Creative and Controllable Image Synthesis with Composable Conditions

Lianghua Huang, Di Chen, Yu Liu, Yujun Shen, Deli Zhao, Jingren Zhou.

擴散模型的基本優勢之一是在使用條件數據進行訓練時的便利性，這就是為什麼它們在文本引導中如此成功。這項工作將可控性提升到了一個新的高度。作者開發了一種方法，允許在圖像生成過程中控制更廣泛的圖像屬性:空間布局、調色板、風格、強度等。

組合性是該模型背後的核心思想，它將圖像分解為具有代表性的因子，然後在這些因子的條件下使用擴散模型重新組合輸入。圖像分解的元素包括標題(文本)、語義和風格(通過CLIP嵌入)、顏色(通過直方圖統計)、草圖(通過邊緣檢測模型)、實例(對象分割)、深度圖(通過預訓練的單目模型)、強度(通過灰度圖像)和掩蔽。圖像生成可以根據所有這些屬性進行調整，並且可以使用之前的輸出作為新的條件輸入進行疊代優化。

這項工作展示了如何設計圖像生成技術來更多地控制人類的創造力，並提升創造過程。

7、Prismer: A Vision-Language Model with Multi-Modal Experts

Shikun Liu, Linxi Fan, Edward Johns, Zhiding Yu, Chaowei Xiao, Anima Anandkumar

專家系統的回歸?這篇論文採用了一種相當結構化的多模態語言建模方法，並帶來了一些令人信服的好處:

該論文採用結構化方法進行多模態語言建模，與其他模型相比，在減少一到兩個數量級的數據的情況下實現了可比的性能。
「專家」是指在處理圖像時輸出深度圖或對象分割等信息的凍結計算機視覺模型。只有適配器經過訓練，允許設計與其他黑盒視覺模型即插即用。
最大的 Prismer 模型有 1.6B 個參數，只有 360M 個可訓練參數，性能低於大型模型但效率更高。
Prismer 對帶有噪聲的「專家」表現出很強的魯棒性，並隨著更多/更高質量的專家而改進，表明它在大規模多模態學習中的實用性。

總的來說，本文提出了一種有效的技術，可以在不降低性能的情況下安全地包括許多模態專家，從而實現一種實用的方法來縮小多模態學習。

8、Augmented Language Models: a Survey

Grégoire Mialon, Roberto Dessì, Maria Lomeli, Christoforos Nalmpantis, Ram Pasunuru, Roberta Raileanu, Baptiste Rozière, Timo Schick, Jane Dwivedi-Yu, Asli Celikyilmaz, Edouard Grave, Yann LeCun, Thomas Scialom.

LM 在穩健推理和準確性方面的局限性是眾所周知的，這就是為什麼有一個活躍的研究領域通過計算設備來增強它們的能力，例如，LM 使用編譯和運行生成的代碼，或調用任意 API 來收集數據。

檢索增強生成 (RAG) 是最常見的案例之一（我們在我們的平台上使用它，Bing 和 Google 都在積極致力於此）。例如，這裡有 4 個研究檢索增強 LM（RAG）以及對比：

該調查提出的一個有趣的觀點是，使用工具和顯式結構增強lm使其更具可解釋性，因為它們的輸出可以顯式地歸因於其模塊，這使它們更適合人類使用。

9、Symbolic discovery of optimization algorithms

Xiangning Chen, Chen Liang, Da Huang, Esteban Real, Kaiyuan Wang, Yao Liu, Hieu Pham, Xuanyi Dong, Thang Luong, Cho-Jui Hsieh, Yifeng Lu, Quoc V. Le.

Adam 一直是我們默認的優化器，Lion可以應用符號搜索來學習一個訓練器函數，該函數輸出給定權重、梯度和網絡的學習率的更新權重值。這裡的學習優化器不是通過梯度下降學習的，而是通過符號發現學習的。這種方法在論文中展示的實驗中效果非常好，與Adam等優化器相比，可以實現大約2倍的訓練速度。

Lion我們已經在前幾天優化器的文章中介紹了，個人測試效果並不好，反正我現在是使用 LookaHead + RAdam，各位需要的話請自行測試。

10、 MarioGPT: Open-Ended Text2Level Generation through Large Language Models

Shyam Sudhakaran, Miguel González-Duque, Claire Glanois, Matthias Freiberger, Elias Najarro, Sebastian Risi.

使用GPT-2生成馬里奧兄弟世界。作者通過將《馬里奧兄弟》中的元素標記成角色並訓練基於文本提示的語言模型來實現程序內容生成(PCG，即基於算法生成遊戲內容的想法)。

他們通過進化計算進一步增加了生成關卡的多樣性，將MarioGPT嵌入到新奇搜索循環中，對現有關卡進行採樣，更改，並應用選擇標準來保留或丟棄它們。

結果關卡88%的時間是可玩的，並通過文本提示還可以提高可控性。這只是一個令人興奮的開始，潛在的更具表現力和個性化的遊戲體驗!

作者：Sergi Castella i Sapé

2023年3月的10篇論文推薦