警惕AI繪畫！猜猜這張圖里有幾個是真的，你被騙了嗎？

今年下半年，生成式 AI 作畫突然爆火，許多人都對這種「以文生圖」的 AI 作畫感到好奇，並且進行了自己的嘗試。在 AI 的幫助下，不乏一些讓人驚嘆的美術作品出現，比如今年 8 月，美國遊戲設計師 Jason Allen 就憑藉一幅 AI 繪畫作品《太空歌劇院（Théâtre D'opéra Spatial）》，獲得了美國科羅拉多州博覽會美術競賽一等獎。

《太空歌劇院（Théâtre D』opéra Spatial）》，作者：Jason M. Allen

在欣賞 AI 作品的同時，我們也不能忽略人工智慧在作畫時產生的問題。

01 作品質量參差不齊

首先就是作品質量問題。像剛才提到的獲得一等獎的《太空歌劇院》，其實也是被設計師進行了多次修改，花費了近 80 個小時後才得到的作品。在一些情況下，如果沒有人為的後續修改，那麼 AI 繪畫的作品可能會「慘不忍睹」。

這是因為儘管人工智慧作品充滿了衝擊力和視覺張力，但和幾乎所有其他的深度學習模型一樣，在理解知識、推理、邏輯方面做得都不夠好。例如「畫一張世界上最大的貓科動物的圖片」，甚至是「一隻狗坐在一隻貓的左邊」，都不會產生符合邏輯或常識的圖片。在生成偏寫實風格的人類圖片的時候，有時候會因為微小的偏差產生「恐怖谷效應」，讓人感到不適。

另一個已經被廣泛注意到的問題，是人工智慧經常會生成奇形怪狀的手。

圖片來源：用戶在社交網絡上分享的圖片

這種現象的原因很可能是手部是人類身體上形狀最豐富的結構之一——人的一隻手有超過 20 個關節（相較而言，臉上只有 1 個關節）。

而且在大部分用來訓練的圖片中，手部經常不是最核心的部位，所以角度不同、距離不同、手勢不同、還會被陰影和其他物體遮擋。

甚至還有些更加奇特的「手」，它們的手的形狀和手指數都不相同，但也都會被標註成「手」，讓模型覺得它們的形狀——以及它們形狀的平均形態，可能都是合理的，也就因此產生了各種崎嶇的手。

甚至這些也可以被標註為「手」，圖片來源：《精靈寶可夢》《黑貓警長》《機器貓》和《忍者神龜》的動畫介紹截圖。

另一個有趣的例子是，一家公司的團隊照片幾乎都是通過人工智慧技術生成的。如果仔細看的話，還是能發現一些線索。例如，第一排左起第二個人只帶了一個耳環，第二排左起第二個人的耳朵輪廓不太正常。

圖片來源：Business Insider 截取了這家公司的網頁截圖。

可以看到，和開頭的獲獎作品不同，AI 作畫在寫實風格上還是存在不少問題的，但這並不妨礙人們對 AI 作畫的嘗試和使用，同時還在幫助設計者們對 AI 不斷優化。畢竟讓機器有創造力一直是人工智慧的最高理想之一，所以生成任務就成了衡量機器創造力的標準。

02 AI 也會產生偏見和刻板印象

除了質量問題外，人工智慧生成的內容還有可能產生各種倫理問題。比如在語言模型上時常會出現的偏見和刻板印象，在圖片生成中也有體現，例如生成「大公司 CEO」大概率會出現一個白人成熟男性的形象。更大的擔憂在於大量虛假內容很可能會操縱公眾注意力和觀點。

每一次修改或生成內容的新技術出現，都會引發這樣的擔憂。技術的進步讓生成虛假內容的門檻變得越來越低，人們認為，AI 技術有可能會讓虛假信息空前繁榮，因此傷害社會。除了推動立法外，開發便捷的生成檢測技術也是必要的。

03 AI 生成的歷史

除了最近非常受歡迎的圖片生成，AI 創作還包括文字（問答、對話、詩歌、小說）和視頻生成，只不過，AI 在創造上還需要更多的訓練和學習。

第一個能保證質量水準的 AI 創造模型是對抗生成網絡（Generative Adversarial Network，下簡稱：GAN），它包括了一個生成器（G）和一個對抗（分類）器（A）。生成器需要不斷訓練自己，得到逼真的圖片，騙過分類器；而分類器則要儘量將生成的圖片和真實的圖片區分開來。

GAN 的作者伊恩·古德費洛（Ian Goodfellow）在原始論文裡用一個假想的警察和假鈔犯來舉例子：警察不停地使用越來越強的驗鈔機，逼迫假鈔犯露出馬腳，但隨著驗鈔機的能力越來越強，假鈔機的模仿能力也變得更強。

最早的 GAN 放在今天看，效果其實並不好。圖片來源：伊恩·古德費洛等人於 2014 年發表的論文《對抗生成網絡（Generative Adversarial Nets）》

最早的 GAN 其實效果一般，但隨後各種 GAN 的變體開始像雨後春筍一樣湧現出來。其中，相當有名的是 StyleGAN，它能生成極為逼真的人臉。這些人臉和任何已有的人臉都不相同，是由計算機全新創作出的面孔。

StyleGAN 生成的高清人臉。值得注意的是，這些人臉並非從真人照片中修改而來，而是模型從零開始生成的全新人臉。圖片來源：Tero Karras 等人於 2019 年發表的論文《一種基於風格的生成對抗網絡生成器架構（A Style-Based Generator Architecture for Generative Adversarial Networks）》。

作為圖片生成模型，GAN 仍然有很多缺點。例如，不同的場景需要訓練不同的 GAN 模型，但需求的種類是無限的，有些場景也會非常複雜。所以，GAN 只能理解專門用於某個場景的訓練圖片數據，而無法理解人類的語言，因此不能通過文字控制圖片的生成。

04 風格逐漸豐富的 AI 創作

新的模型很大程度上解決了這一問題。2021 年 1 月，美國研究機構OPEN AI 發布了 DALL·E，OPEN AI 隨後又在 2022 年 4 月公布了 DALL·E 2。和 GAN 相比，DALL·E 是預先訓練好的大模型，也有理解人類語言的能力，所以只需要用戶輸入一段文字，就能直接生成對應的圖片，不再需要每次都根據對應數據集重新訓練。

因為不再需要訓練模型的專業知識，直接輸入文字就能生成效果驚人的圖片，DALL·E 2 在國外的社交網絡上引起了巨大轟動。大家紛紛嘗試用各種各樣奇怪的文字輸入模型，再把生成的圖片公布出來，一度形成了網絡迷因。

很快，大家發現，DALL·E 2 不僅能準確地生成各種實體，比如動物、植物、建築、人，還能按照要求改變繪畫風格，從寫實照片到數字藝術，從油畫到簡筆畫，從梵谷到安迪霍爾，從中國國畫到日本浮世繪，從毛線織物到橡皮泥風格。只需要在輸入文字中加入一兩個描繪風格的詞，DALL·E 2 就能自動生成符合這種風格的圖片。

圖片來源：DALL·E 2官網

圖片來源：用戶在社交網絡上分享的圖片

更令人驚訝的是，DALL·E 對語言的內涵經常有非常準確的理解，因此在面對一些完全虛構的場景時，也能生成帶有複雜邏輯的驚人圖片。例如：

圖片來源：用戶在社交網絡上分享的圖片

除了 OpenAI，谷歌也隨後推出了自己的模型 Disco Diffusion。在技術原理上它和 DALL·E 很類似，但允許藝術家在輸入主題文字外，還能控制一些圖片參數。

圖片來源：用戶在社交網絡上分享的圖片

雖然這些模型都很強大，但卻不能理解中文，也難以生成有中國特色的圖片，例如國畫。因此，很多中國的機構也在訓練有創作能力的模型。百度於 2022 年 8 月發布了文心一格，不僅可以接受中文輸入，還能生成中國國畫或帶有古詩詞意境的圖片。

在百度文心一格上生成的「江南水鄉」

05 AI 創作的版權問題

最後，人工智慧模型生成的作品也面臨版權爭議。美國版權局多次判決，擁有版權的只有可能是自然人，不能是程序或者機器。另外，有很多人工智慧團隊在沒有徵求原作者同意的情況下就用他們的作品用預訓練模型，這也引起了廣泛的爭議。目前，已經有程式設計師群體在起訴微軟的 Github 和 Open AI，因為他們認為這兩個機構使用他們的代碼訓練自動寫程序的模型。不過，因為人工智慧的創作模型仍是一個非常新的產品，所以各方的邊界都沒有被法律明確界定，可能還需要更多的案例才能逐漸明晰。

作者｜管心宇

審核｜馬珂阿里雲人工智慧計算機視覺高級工程師

本文來自科普中國，未經授權不得二次轉載，如有轉載需求請聯繫原公眾號

轉載內容僅代表作者觀點

不代表中科院物理所立場

如需轉載請聯繫原公眾號

來源：科普中國

編輯：Tammy