導語

一把牛油果形狀的椅子，熊貓在湖面上溜冰，袋鼠玩西洋棋，太空人在火星上騎自行車...... DALL·E 2, Stable Diffusion 等圖像生成模型可以根據輸入文本，產生各種超乎想像的圖片。這背後的原理，來自非平衡物理中的擴散模型。如果為高維圖像空間中的像素添加噪聲，像墨水在水中擴散，然後逆轉這一過程，就可以從噪聲中生成圖像，得到出乎意料的圖像組合。

為了探索複雜科學與人文藝術交叉領域，集智俱樂部正在主辦「複雜科學與藝術」研討會，匯聚各領域內的行動者與思想者——包括科學家、藝術家、學者及相關從業者，展開跨學科研討，併合作產出。研討會每月一期，持續至2023年6月。AI生成式藝術也是研討會主題之一。歡迎感興趣的朋友報名加入。報名入口及詳情見文末。

關鍵詞：AI 生成藝術，大型語言模型，擴散模型，非平衡熱力學，人工智慧

DALL·E2 是 OpenAI 創造的圖像生成系統。讓它描繪「金魚在海灘上喝可口可樂」的圖片，生成結果將完全是超現實主義的圖像。程序在訓練中會遇見海灘、金魚和可口可樂的圖像，但不大可能看到三種圖像的直接結合體。然而 DALL·E2 可以組合這些概念，生成結果可能讓超現實主義畫家達利也感到驕傲。

DALL·E2是一種生成模型，它嘗試使用訓練集數據，生成在質量和多樣性方面堪比原數據的新東西。這是機器學習中最困難的問題之一，要走到這一步十分艱辛。

第一種重要的圖像生成模型使用的是被稱為神經網絡的人工智慧方法，神經網絡是由多層計算單元（即人工神經元）組成的程序。儘管這些模型能讓圖像質量變得更好，但並不可靠且難以訓練。與此同時，一位對物理學充滿熱情的博士後研究員創造了一個強大的生成模型，這個模型沉睡良久，直到兩名研究生取得技術突破，才使這個野獸復活。

DALL·E2 就是這樣一隻野獸。使 DALL·E2 及其競爭對手 Stable Diffusion 和 Imagen 能夠成像的關鍵內因源於物理世界。支撐它們的系統是著名的擴散模型（diffusion model），它深受支配著流體和氣體擴散等現象的非平衡熱力學啟發。OpenAI 的機器學習研究員宋颺表示，「有很多技術最初是物理學家發明的，現在在機器學習中非常重要。」

這些模型的強大功能震撼了工業界和用戶。加州理工學院計算機科學家、英偉達機器學習研究高級總監 Anima Anandkumar 說：「對於生成模型來說，這是一個令人興奮的時刻。雖然擴散模型創造的逼真圖像有時會延續社會和文化偏見，但我們已經證明，生成模型對下游任務很有用，可以提高預測性人工智慧模型的公平性。」

OpenAI 創建的這個程序可能從未遇到過類似的圖像，但仍然可以生成它們。

1. 圖像生成模型與概率

要理解如何將圖像轉化為數據，可以先從一個僅由兩個相鄰灰度像素點組成的簡單圖像開始。我們可以根據每個像素的陰影（從0表示全黑到255表示全白），用兩個值來完全描述這個圖像。我們可以用這兩個值將圖像映射為二維空間中的一個點。

如果我們將多個圖像標繪為點，可能會出現簇——某些圖像及其對應的像素值比其他圖像出現得更頻繁。現在想像一個在平面上方的曲面，其中曲面的高度對應於簇的密度。曲面繪製出圖像像素的概率分布圖。我們最有可能在曲面的最高部分下方找到單個數據點，而在曲面的最低部分找到的數據點很少。

現在，我們可以使用這個概率分布生成新圖像。需要做的就是隨機生成新的數據點，同時遵守一個限制，更多地生成高概率數據——這個過程被稱為對分布「採樣」。每一個新的點都是一個新的圖像。

同樣的分析也適用於更逼真的灰度照片，比如說每張照片有100萬像素。不過現在，繪製圖像需要100萬個坐標軸，而不是兩個。這些圖像的概率分布將是複雜的100萬+1維曲面。如果對該分布進行採樣，將生成100萬個像素值。將這些像素列印在一張紙上，圖像看起來就很可能像原始圖像。

生成模型面臨的挑戰在於：學習構成訓練數據的某組圖像的這種複雜概率分布。這種分布之所以有用，既因為它捕捉到了數據的全局信息，又因為研究人員可以結合不同類型數據（比如文本和圖像）的概率分布，組成超現實的輸出，如金魚在海灘上喝可口可樂。Anandkumar 說：「你可以混合和匹配不同的概念...創造全新的、訓練數據里也沒有的場景。」

2014年，生成對抗網絡（GAN）模型成為第一個能產生真實圖像的模型。但是 GAN 很難訓練：它們可能不能學習完整的概率分布，並且可能鎖定在分布的子集來產生圖像。例如，在各種動物的圖像上訓練 GAN，卻可能僅生成狗的圖片。

提出生成對抗網絡（GAN）模型的論文（2014）

論文題目：Generative Adversarial Networks

論文連結：https://arxiv.org/abs/1406.2661

機器學習需要一個更穩健的模型。在物理學啟發下，Jascha Sohl-Dickstein 將提供一個實例。

2. 擴散模型

在 GAN 誕生之際，Sohl-Dickstein 還是史丹福大學大學的博士後，致力於生成模型的研究，同時對非平衡熱力學很感興趣。物理學的這一分支研究不處於熱平衡的系統——在系統內部和系統-環境之間有物質與能量交換。

一個解釋性的例子是，一滴藍色墨水擴散到整個盛水的容器中。起初，墨水在空間一點形成一個黑色斑點。此時，如果要計算在容器的某個小體積內找到墨水分子的概率，需要一個概率分布能清晰地模擬墨水開始擴散前的初始狀態。但這種分布很複雜，因此很難取樣。

然而，墨水最終會擴散到水中，使水變成淺藍色。這導致更簡單、更均勻的分子概率分布，可以直接用數學表達式來描述。非平衡熱力學描述了擴散過程中每一時刻的概率分布。最重要的是，每一步都是可逆的——只要步間距足夠小，就可以從簡單分布重新回到複雜分布。

Sohl-Dickstein 利用擴散原理開發了一種生成模型算法。想法很簡單：算法首先將訓練數據集中的複雜圖像轉化為簡單噪聲——類似於從一滴墨水擴散成淡藍色的水——然後教系統如何逆轉這一過程，將噪聲轉化為圖像。

下面是它的工作原理。首先，算法從訓練集中獲取圖像。和前面一樣，假設這100萬個像素都映射到數域，我們可以將圖像繪製成百萬維空間中的一個點。該算法在每個時間步向每個像素加一些噪聲，相當於墨水在一個小時間步的擴散。隨著這個過程繼續，像素值與它們在原始圖像中的值的關係越來越弱，並且像素看起來更像是簡單的噪聲分布。(這個算法還在每個時間步向原點微移每個像素值。這種微調可防止像素值變得太大以致計算機無法輕鬆處理。）

如果對數據集中的所有圖像都這樣做，那麼在百萬維空間中，點的初始複雜分布（不易描述和採樣）就會變成圍繞原點的簡單正態分布。Sohl-Dickstein 說：「一系列的轉換非常緩慢地將數據分布變成一個大的噪聲球。這個『前向過程』創造的分布可以讓你輕鬆採樣。」

接下來是機器學習部分：將從前向過程獲得的噪聲圖像輸入神經網絡，並訓練它預測上一步獲得的噪聲較小的圖像。一開始它會出錯，所以需要調整網絡的參數，這樣它就做得更好。最終，神經網絡可以可靠地將來自簡單分布樣本的噪聲圖像完全轉變為來自複雜分布樣本的圖像。

訓練後的網絡是一個成熟的生成模型。現在，甚至不需要原始圖像來執行前向過程：有簡單分布的完整數學描述，可以直接從中採樣。神經網絡可以將這個樣本（基本上只是靜態的）變成與訓練數據集中圖像相似的最終圖像。

Sohl-Dickstein 回憶起擴散模型的最初結果時說道：「當你眯起眼睛說『那個彩色的斑點看上去像一輛卡車。』我就像這樣，花了很久的時間盯著不同的像素形態，試圖從中看出結構。當結果比之前更結構化時，我很興奮。」

3. 結合擴散模型與大型語言模型

Sohl-Dickstein 在2015年發表了他的擴散模型算法，但比起 GAN 還相差甚遠。雖然擴散模型可以在整個分布上進行採樣，而且永遠不會陷入只輸出圖像子集的困境，但圖像結果看起來更糟，而且過程太慢了。Sohl-Dickstein說：「當時，這個模型並不令人驚喜。」

擴散模型論文（2015）

論文題目：Deep Unsupervised Learning using Nonequilibrium Thermodynamics論文連結：http://proceedings.mlr.press/v37/sohl-dickstein15.html

有兩個學生，當時與 Sohl-Dickstein 都互不相識，他們把最初工作中的點點滴滴與像 DALL·E2 這樣的現代擴散模型聯繫起來。第一個是宋颺，當時在史丹福大學讀博士。2019年，他和導師提出了一種新方法來構建生成模型，而不需要估計數據的概率分布（高維曲面）。相反，它估計的是分布的梯度（可以看成是高維曲面的斜率）。

宋颺發現，如果他首先用不斷增加的噪聲水平擾動訓練數據集中的每一幅圖像，然後用神經網絡基於分布梯度預測原始圖像，有效地去除噪聲，可以讓它的技術效果更好。一旦經過訓練，他的神經網絡就可以從簡單分布中採樣得到一個有噪聲的圖像樣本，並逐步將其轉換回代表訓練數據集的圖像。圖像質量很好，但機器學習模型的採樣速度極慢。而且他做這件事時，對 Sohl-Dickstein 的工作一無所知。宋颺說：「我當時根本不知道擴散模型，2019年我們的論文發表後，我收到了一封來自 Jascha 的郵件。他指出，（我們的模型）有非常強的聯繫。」

估計數據分布梯度的生成模型（2019）

論文題目：Generative Modeling by Estimating Gradients of the Data Distribution

論文連結：https://proceedings.neurips.cc/paper/2019/hash/3001ef257407d5a371a96dcd947c7d93-Abstract.html

2020年，第二個學生看到了這些聯繫，意識到宋颺的工作可以改進 Sohl-Dickstein 的擴散模型。Jonathan Ho 最近剛剛在加州大學伯克利分校完成了他的關於生成模型的博士工作，但他仍致力於此。他說：「我認為這是機器學習中最有數學美的分支學科。」

Ho 結合宋颺的一些想法和神經網絡領域的其他進展，重新設計並更新了 Sohl-Dickstein 的擴散模型。他說：「我知道，若要引起大家的關注，我需要讓模型生成好看的樣本。我確信，這是我當時能做的最重要的事情。」

他的直覺是正確的。2020年，Ho 和同事發表了一篇名為 Denoising Diffusion Probabilistic Models（去噪擴散概率模型）的論文，宣布了這個新改進的擴散模型。它很快成為一個里程碑，現在被研究員們簡稱為 DDPM。根據一個基準的圖像質量——比較生成圖像分布與訓練集中圖像分布——這些模型與包括 GAN 在內的所有競爭生成模型相比，不相上下，甚至更優。沒過多久，大佬們就注意到了。目前，DALL·E 2, Stable Diffusion, Imagen 等商業模型都使用了 DDPM 的一些變體。

去噪擴散概率模型（2020）

論文題目：Denoising Diffusion Probabilistic Models

論文連結：https://proceedings.neurips.cc/paper/2020/hash/4c5bcfec8584af0d967f1ab10179ca4b-Abstract.html

現代擴散模型還有一個關鍵成分：大型語言模型（large language models, LLM），如 GPT-3。這些生成模型在網際網路文本上進行訓練，用來學習文字而不是圖像的概率分布。2021年，Ho（現在是一家隱形公司的研究科學家）和他在谷歌研究中心的同事 Tim Salimans，與其他地方的團隊合作，展示了如何結合大型語言模型的信息與圖像生成擴散模型，用文本（比如「金魚在海灘上喝可口可樂」）指導擴散過程，從而生成圖像。如 DALL·E2 這樣的從文本到圖像模型成功的背後原因，就是這種「引導擴散」（guided diffusion）過程。「他們遠遠超出了我最瘋狂的期望。我不能假裝我預見到了這一切。」Ho說。

結合大型語言模型與圖像生成擴散模型（2021）

論文題目：Variational Diffusion Models

論文連結：https://proceedings.neurips.cc/paper/2021/hash/b578f2a52a0229873fefc2a4b06377fa-Abstract.html

4. 生成模型也會生成問題

儘管這些模型已經取得了成功，但 DALL·E2 及其同類產品的圖像仍然遠非完美。大型語言模型可能在生成文本中反映文化和社會偏見，如種族主義和性別歧視。這是因為它們訓練的文本是從網際網路中截取出的，這些文本往往包含種族主義和性別歧視的語言。基於這種文本的概率分布訓練出的大型語言模型會被同樣的偏見所感染。擴散模型的訓練圖像也來自網際網路上未經整理的圖像，這些圖像可能包含類似的有偏見的數據。難怪將大型語言模型與當今的擴散模型結合起來，有時會產生反映社會弊病的圖像。

Anandkumar 對此有親身體驗。當她試圖用一個基於擴散模型的應用程式生成自身風格的頭像時，她被震驚到了：「很多圖片都是高度性感的，但呈現給男人的東西卻不是。」這並不是個例。

通過整理和過濾數據（鑑於數據集的規模巨大，這項任務極其困難），或者檢查模型的輸入提示和輸出，可以減少這些偏差。Ho 說：「當然，沒有什麼能代替細緻和廣泛的安全測試，這是該領域面臨的重要挑戰。」

儘管如此，Anandkumar 還是相信生成模型的能力。她說：「我很喜歡費曼（Richard Feynman）的名言：『我無法創造的東西，我並不理解。』」隨著理解的加深，她的團隊能夠開發生成模型，生產例如用於預測任務的欠表示類的合成訓練數據，如面部識別時的較深膚色，以幫助提高公平性。生成模型還可以讓我們深入了解大腦如何處理噪音，或者大腦如何喚起心理意象並思考未來的行動。建立更複雜的模型可以賦予人工智慧類似的能力。

Anandkumar 說：「我們才剛剛開始探索生成 AI 的各種可能性。」

Anil Ananthaswamy | 作者

朱欣怡 | 譯者

梁金 | 審校

鄧一雪 | 編輯

商務合作及投稿轉載｜swarma@swarma.org
◆ ◆ ◆

搜索公眾號：集智俱樂部

加入「沒有圍牆的研究所」

讓蘋果砸得更猛烈些吧!

AI生成藝術的底層原理：非平衡物理的擴散模型

導語

1. 圖像生成模型與概率

2. 擴散模型

3. 結合擴散模型與大型語言模型

4. 生成模型也會生成問題