ControlNet star量破萬!2023年,AI繪畫殺瘋了?

機器之心pro 發佈 2024-04-29T13:46:15.416954+00:00

從騎馬的太空人到三次元小姐姐,在不到一年的時間裡,AI 繪畫似乎已經取得了革命性的進展。這個「騎馬的太空人」由 OpenAI 2022 年 4 月推出的文生圖模型 DALL・E 2 繪製。

機器之心報導

編輯:張倩

進入 2023 年,一個名為 ControlNet 的模型將 AI 繪畫水平推向了新的高峰。

從騎馬的太空人到三次元小姐姐,在不到一年的時間裡,AI 繪畫似乎已經取得了革命性的進展。

這個「騎馬的太空人」由 OpenAI 2022 年 4 月推出的文生圖模型 DALL・E 2 繪製。它的前輩 ——DALL・E 在 2021 年向人們展示了直接用文本生成圖像的能力,打破了自然語言與視覺的次元壁。在此基礎上,DALL・2 更進一步,允許人們對原始圖像進行編輯,比如在畫面中添加一隻柯基。這一個看似簡單的操作其實體現了 AI 繪畫模型可控性的提升。

不過,就影響力而言,2022 年最火的文生圖模型並不是 DALL・E 2,而是另一個和它功能相似的模型 ——Stable Diffusion。和 DALL・E 2 一樣,Stable Diffusion 也允許創作者對生成的圖像進行編輯,但優勢在於,這個模型是開源的,而且可以在消費級 GPU 上運行。因此,在 2022 年 8 月發布之後,Stable Diffusion 迅速走紅,短短几個月就成了最火的文生圖模型。

在此期間,人們也在進一步探索各種控制這類模型的方法,比如 Stable Diffusion 背後團隊之一的 Runway 公司發布了一個圖像擦除和替換(Erase and Replace)工具,該工具可以修改圖像任何部分。用戶需要做的就是擦除該區域並編寫自然語言描述,剩下的交給程序就可以了。

谷歌和波士頓大學的研究者則提出了一種「個性化」的文本到圖像擴散模型DreamBooth,用戶只需提供 3~5 個樣本 + 一句話,AI 就能定製照片級圖像。

此外,來自 UC 伯克利的研究團隊還提出了一種根據人類指令編輯圖像的新方法InstructPix2Pix,這個模型結合了 GPT-3 和 Stable Diffusion。給定輸入圖像和告訴模型要做什麼的文本描述,模型就能遵循描述指令來編輯圖像。例如,要把畫中的向日葵換成玫瑰,你只需要直接對模型說「把向日葵換成玫瑰」。

進入 2023 年,一個名為ControlNet的模型將這類控制的靈活度推向了高峰。ControlNet 的核心思想是在文本描述之外添加一些額外條件來控制擴散模型(如 Stable Diffusion),從而更好地控制生成圖像的人物姿態、深度、畫面結構等信息。

這裡的額外條件以圖像的形式來輸入,模型可以基於這張輸入圖像進行 Canny 邊緣檢測、深度檢測、語義分割、霍夫變換直線檢測、整體嵌套邊緣檢測(HED)、人體姿態識別等,然後在生成的圖像中保留這些信息。利用這一模型,我們可以直接把線稿或塗鴉轉換成全彩圖,生成具有同樣深度結構的圖等等,通過手部關鍵點還能優化人物手部的生成。

這一模型在 AI 繪畫領域掀起了巨浪,相關項目 GitHub star 量已破萬。

項目連結:https://github.com/lllyasviel/ControlNet

雖然當前很多人只是用它來生成二次元、三次元小姐姐,但其更廣泛的用途也被逐漸挖掘出來,比如房屋設計、攝影攝像、影視製作、廣告設計等。在這些場景中,ControlNet 被拿來和之前的一些工具一起使用,比如處理大模型微調問題的 LoRA、視頻 - 動畫轉換工具 EbSynth 等。這些工具的組合應用加速了 AI 繪畫模型與生產過程的融合。

利用 ControlNet 和 EbSynth 等工具重新進行室內裝潢設計。圖源:https://creativetechnologydigest.substack.com/p/controlling-artistic-chaos-with-controlnet (內附完整教程)

利用 ControlNet 和 Houdini 工具生成 3D 模型。圖源:https://www.reddit.com/r/StableDiffusion/comments/115eax6/im_working_on_api_for_the_a1111_controlnet/

用 Dreambooth 和 ControlNet 改變 2D 圖像光照,可用於照片、視頻的後期製作。圖源:https://www.reddit.com/r/StableDiffusion/comments/1175id9/when_i_say_mindblowing_i_mean_it_new_experiments/

用 ControlNet 和 EbSynth 實現動畫轉真人。雖然效果還不太好,但已經顯示出了把動漫改編成真人版但無需演員出鏡的潛力。圖源 https://www.reddit.com/r/StableDiffusion/comments/117ewr9/anime_to_live_action_with_controlnet_ebsynth_not/

某設計師利用 ControlNet 生成的著名品牌「新 logo」。圖源:https://twitter.com/fofrAI/status/1628882166900744194

驚喜之餘,這些技術的進展也讓繪畫等領域的從業者陷入焦慮和憤怒。焦慮的是,AI 可能會奪走自己的飯碗。憤怒的是,AI 生成的圖像很多是對當前畫師的抄襲和模仿,畫師的智慧財產權受到了侵犯。

圖源:https://www.zhihu.com/question/583294094

在這些問題尚未解決的情況下,AI 繪畫在畫師圈成了一個尖銳的問題。很多人認為大家應該一起抵制 AI 繪畫,共同捍衛自己的權益。因此,當某知名畫師疑似採用 AI 繪畫為某遊戲工作室供稿的消息傳開後,其他畫師們被徹底激怒。

同時被激怒的還有遊戲玩家。由於目前 AI 繪畫還存在一些局限,比如處理不好手部細節(仔細觀察本文第一張圖的小姐姐可以看出來),達不到玩家所要求的美術視覺效果精湛、人物富有個性和創意等要求,很多玩家產生了「被糊弄」的感覺。因此,上述遊戲工作室只能緊急發布聲明,稱「不會在產品中使用 AI 作畫」。

但這種情況會持續多久呢?當 AI 繪畫的水平達到肉眼難以分辨的程度,你怎麼知道你玩的遊戲究竟出自畫師還是 AI,亦或二者組成的「團隊」?

圖源:https://m.weibo.cn/2268335814/4870844515358190

或許再過幾個月,AI 繪畫工具就會像程式設計師使用的 Copilot 一樣,成為繪畫師日常工作必不可少的工具。當然,這也在無形中提高了這一行業的門檻,正如已經被 AI「入侵」的其他行業一樣。如何在這樣的浪潮中保持自己的競爭力可能是每個人都應該思考的問題。

關鍵字: