視覺版ChatGPT來了！吸收AI畫畫全技能，MSRA全華人團隊打造

由量子位發佈 2024-04-01T09:00:32.552303+00:00

明敏發自凹非寺量子位 | 公眾號 QbitAIChatGPT會畫畫了！問它：能生成一張貓片給我嗎？立刻連文帶圖全有了。還能根據新的文字指令調整圖片：把貓換成狗。同時也看得懂圖、有理解能力。比如發一張圖給它，然後問摩托是什麼顏色？它能回答出是黑色。

明敏發自凹非寺

量子位 | 公眾號 QbitAI

ChatGPT會畫畫了！

問它：能生成一張貓片給我嗎？

立刻連文帶圖全有了。

還能根據新的文字指令調整圖片：把貓換成狗。

同時也看得懂圖、有理解能力。

比如發一張圖給它，然後問摩托是什麼顏色？它能回答出是黑色。

如上，就是由MSRA資深研究人員們提出的視覺版ChatGPT（Visual ChatGPT）。

通過給ChatGPT結合多種視覺模型，並利用一個提示管理器（Prompt Manager），他們成功讓ChatGPT可以處理各種視覺任務。

這項工作一發出來就火了，GitHub攬星已超過1.5k。

簡單總結一下，就是把GPT和Dall-E合併的感覺~

又懂文字又會畫圖……有人就說：

這不是終極meme圖製造機？

訣竅在於提示工程？

Visual ChatGPT，其實就是讓ChatGPT可以處理多模態信息。

但是從頭訓練一個多模態模型，工作量非常大。

研究人員想到可以在ChatGPT的基礎上，結合一些視覺模型。

而想要達到這一目的，關鍵需要一個中間站。

由此他們提出了提示管理器（Prompt Manager）的概念。

它的作用主要有3方面：

第一、明確告訴ChatGPT，每個視覺模型的作用，並指定好輸入輸出格式。

第二、轉換不同的視覺信息，如將PNG圖像、深度圖像、掩碼矩陣等轉換為語言格式，方便ChatGPT理解。

第三、處理視覺模型的歷史生成結果，以及不同模型的調用優先級、規避衝突等，讓ChatGPT能夠以疊代的方式接收視覺模型的生成內容，直到輸出用戶滿意的結果。

這樣一來，Visual ChatGPT的工作流大概長這樣：

假如用戶輸入了一張圖，模型會先將內容發送給提示管理器，然後轉換成語言給ChatGPT判斷，當它發現這個問題不需要調用視覺模型，就會直接給出輸出（第一個回答）。

第二個問題時，ChatGPT分析問題內容需要使用視覺模型，就會讓視覺模型開始執行，然後一直疊代，直到ChatGPT判斷不再需要調用視覺模型時，才會輸出結果。

論文介紹，Visual ChatGPT中包含了22個不同的視覺模型。包括Stable Diffusion、BLIP、pix2pix等。

為了驗證Visual ChatGPT的能力，他們還進行了大量零次試驗（zero-shot experiments）。

結果如開頭所示，Visual ChatGPT具備很強的圖像理解能力。

可以一直按照人的需求不斷生成、修改圖片。

當然，研究人員也提到了這項工作目前還存在一些局限性。

比如生成結果的質量，主要取決於視覺模型的性能。

以及使用大量的提示工程，會一定程度上影響生成結果的速度。而且還可能同時調用多個模型，也會影響實時性。

最後，在輸入圖片的隱私安全上，還需要做進一步升級保護。

MSRA老將出馬

本項研究成果來自微軟亞洲研究院的團隊。

通訊作者是段楠。

他是MSRA首席研究員，自然語言計算組研究經理，中國科學技術大學兼職博導，天津大學兼職教授，CCF傑出會員。

主要從事自然語言處理、代碼智能、多模態智能、機器推理等研究。

20012年加入MSRA，任職已超10年。

第一作者為吳晨飛。

他於2020年加入微軟，目前擔任高級研究員。

論文地址：
https://arxiv.org/abs/2303.04671

參考連結：
https://twitter.com/_akhaliq/status/1633642479869198337

— 完 —

量子位 QbitAI · 頭條號簽約

關注我們，第一時間獲知前沿科技動態