明敏 發自 凹非寺
量子位 | 公眾號 QbitAI
ChatGPT會畫畫了!
問它:能生成一張貓片給我嗎?
立刻連文帶圖全有了。
還能根據新的文字指令調整圖片:把貓換成狗。
同時也看得懂圖、有理解能力。
比如發一張圖給它,然後問摩托是什麼顏色?它能回答出是黑色。
如上,就是由MSRA資深研究人員們提出的視覺版ChatGPT(Visual ChatGPT)。
通過給ChatGPT結合多種視覺模型,並利用一個提示管理器(Prompt Manager),他們成功讓ChatGPT可以處理各種視覺任務。
這項工作一發出來就火了,GitHub攬星已超過1.5k。
簡單總結一下,就是把GPT和Dall-E合併的感覺~
又懂文字又會畫圖……有人就說:
這不是終極meme圖製造機?
訣竅在於提示工程?
Visual ChatGPT,其實就是讓ChatGPT可以處理多模態信息。
但是從頭訓練一個多模態模型,工作量非常大。
研究人員想到可以在ChatGPT的基礎上,結合一些視覺模型。
而想要達到這一目的,關鍵需要一個中間站。
由此他們提出了提示管理器(Prompt Manager)的概念。
它的作用主要有3方面:
第一、明確告訴ChatGPT,每個視覺模型的作用,並指定好輸入輸出格式。
第二、轉換不同的視覺信息,如將PNG圖像、深度圖像、掩碼矩陣等轉換為語言格式,方便ChatGPT理解。
第三、處理視覺模型的歷史生成結果,以及不同模型的調用優先級、規避衝突等,讓ChatGPT能夠以疊代的方式接收視覺模型的生成內容,直到輸出用戶滿意的結果。
這樣一來,Visual ChatGPT的工作流大概長這樣:
假如用戶輸入了一張圖,模型會先將內容發送給提示管理器,然後轉換成語言給ChatGPT判斷,當它發現這個問題不需要調用視覺模型,就會直接給出輸出(第一個回答)。
第二個問題時,ChatGPT分析問題內容需要使用視覺模型,就會讓視覺模型開始執行,然後一直疊代,直到ChatGPT判斷不再需要調用視覺模型時,才會輸出結果。
論文介紹,Visual ChatGPT中包含了22個不同的視覺模型。包括Stable Diffusion、BLIP、pix2pix等。
為了驗證Visual ChatGPT的能力,他們還進行了大量零次試驗(zero-shot experiments)。
結果如開頭所示,Visual ChatGPT具備很強的圖像理解能力。
可以一直按照人的需求不斷生成、修改圖片。
當然,研究人員也提到了這項工作目前還存在一些局限性。
比如生成結果的質量,主要取決於視覺模型的性能。
以及使用大量的提示工程,會一定程度上影響生成結果的速度。而且還可能同時調用多個模型,也會影響實時性。
最後,在輸入圖片的隱私安全上,還需要做進一步升級保護。
MSRA老將出馬
本項研究成果來自微軟亞洲研究院的團隊。
通訊作者是段楠。
他是MSRA首席研究員,自然語言計算組研究經理,中國科學技術大學兼職博導,天津大學兼職教授,CCF傑出會員。
主要從事自然語言處理、代碼智能、多模態智能、機器推理等研究。
20012年加入MSRA,任職已超10年。
第一作者為吳晨飛。
他於2020年加入微軟,目前擔任高級研究員。
論文地址:
https://arxiv.org/abs/2303.04671
參考連結:
https://twitter.com/_akhaliq/status/1633642479869198337
— 完 —
量子位 QbitAI · 頭條號簽約
關注我們,第一時間獲知前沿科技動態