GAN加持！英偉達發布「山寨」遊戲創造器，已完美復現《吃豆人》

GAN作為一種深度學習訓練的「左右互博術」在造假界曾「聲名鵲起」。

前有「換臉術」，後有「假新聞」，技術作惡論也以GAN為源頭甚囂塵上。但事情總有兩面性，例如DeepMind曾經改造了「史上最強」的BigGAN，讓新的算法去做圖像分類，刷新了ImageNet無監督表征學習的紀錄。

而近日，英偉達研究院創建的強大新AI模型GameGAN也讓四十年前的《吃豆人》遊戲再度重生。

用神經網絡支撐的GAN技術創造出逼真的遊戲，英偉達此項工作屬全球首個。

進一步，GameGAN經過5萬個回合的遊戲訓練，能夠在無需基礎遊戲引擎的情況下生成完整版的《吃豆人》遊戲。

據悉，當玩家試玩GAN生成得遊戲時，GameGAN會對遊戲玩家的行為做出響應，從而實時生成新的遊戲環境框架。在使用遊戲不同等級或版本的遊戲劇本進行訓練後，GameGAN甚至可以生成從未有過的遊戲關卡。

GameGAN是首個利用生成式對抗網絡（GAN）模仿計算機遊戲引擎的神經網絡模型。其背後主要的模型思想是GAN：即由兩個相互對抗的神經網絡組成，一個生成器（generator）和一個鑑別器（discriminator），生成器和鑑別器相互對抗，直至生成能夠以假亂真的內容。

與現有工作不同的是，英偉達設計得GameGAN，裡面包含一個內存模塊，該模塊可以構建環境的內部地圖，允許智能體以高度的視覺一致性返回到以前訪問過的位置。GameGAN還能夠將圖像中的靜態和動態組件分開，使模型的行為更易於解釋，並和需要對動態元素進行顯式推理的下游任務建立相關性。

論文地址：https://cdn.arstechnica.net/wp-content/uploads/2020/05/Nvidia_GameGAN_Research.pdf

GameGAN由Fidler、Kim、NVIDIA研究員Jonah Philion、多倫多大學（University of Toronto）學生Yuyu Zhou和麻省理工學院（MIT）教授Antonio Torralba共同創作，相關研究論文被CVPR 2020收錄，並將於6月份在會議上介紹。

整個模型由三個主要模塊組成，包含動態引擎、渲染引擎和內存。其中，動態引擎將行為、記憶、圖像作為輸入，並及時更新時間T的隱藏狀態；內存模塊負責整體地寫入和讀取；渲染引擎負責解碼圖像，可以學習解開圖像中的靜態和動態分量。

在問題的整體考慮上，英偉達的研究員將其定義為2D圖像生成問題，給定觀察到得圖像幀序列和智能體採取的相應操作，然後進行圖像模擬創造，效果類似於在真實動態環境中渲染。

在具體的訓練過程中，GameGan會觀察場景和玩家的鍵盤動作從而進行預測，也就是直接從圖像和動作場景中學習，不需要訪問底層遊戲邏輯或引擎。

對於訓練的細節，包括：吃豆人的速度、移動能力；四個鬼魂的運動方式；吃豆人吃下大力丸會怎樣；當鬼魂碰到吃豆人時，會發生什麼。

對於數據，英偉達團隊在四天內為GameGAN提供了50,000集（共幾百萬幀）的《吃豆人》劇本。如此規模的數據集除了英偉達團隊，吃豆人的遊戲開發商萬代南夢宮也出了一份力。

對於硬體，英偉達的AI研究團隊在50,000小時的「吃豆人」遊戲中訓練了四台計算機場，每台計算機均配備了Quadro GV100工作站級GPU。

對於測試實驗，英偉達研究人員分別在《吃豆人》和VizDoom環境中對GameGAN等四種模型進行定量和定性的綜合評估。

實驗結果如上圖所示：Action-LSTM生成得幀缺少豆豆等細節，World Model在保持時間一致性方面存在困難，有時會出現嚴重的不連續，而GameGAN可以生成一致性模擬。

總的來說，經過訓練後的GameGAN模型能夠生成靜態環境元素，例如統一的迷宮形狀、豆子和強化道具，以及作為敵人的幽靈和吃豆人本身等移動元素。

該模型也能夠學習簡單和複雜的關鍵性遊戲規則。例如，和原版遊戲一樣，吃豆人無法穿過迷宮牆。他需要一邊四處移動，一邊吃豆。當他吃到強化道具後，鬼魂會變成藍色並四處逃竄。當吃豆人從一側離開迷宮時，他會被傳送到迷宮的另一側。一旦吃豆人碰到鬼魂，螢幕就會閃爍並結束遊戲。

自主機器人通常也需要在模擬器中接受訓練，模擬器中的AI可以在與現實世界中的目標進行交互之前，學習環境規則。對於開發人員而言，創建模擬器是一個相當耗時的過程。開發人員必須編寫有關如何與目標互動，以及及光在環境中如何表現等規則。

模擬器被廣泛用於開發各種自主機器，例如學習如何抓握和移動物體的倉庫機器人、或是需要在人行道上運輸食物或藥品的物流機器人等。

而GameGAN地出現，為其帶來了一種可能性 —— 在未來的某一天，神經網絡訓練將能取代此類任務中編寫模擬器的工作。

比如你在汽車上安裝一個攝像頭。該攝像頭可以記錄道路環境或駕駛員的行為，例如轉動方向盤或踩下油門等。這些數據可被用於訓練一個深度學習模型，其能夠預測在現實世界中，人類駕駛員（或自動駕駛汽車）在做出猛踩剎車等動作時會發生什麼後果。雷鋒網雷鋒網雷鋒網

NVIDIA多倫多研究實驗室主任Sanja Fidler表示：「我們最終將訓練出一個AI，其只需通過觀看視頻和觀察目標在環境中所採取的行動，就能模仿駕駛規則或物理定律。GameGAN是朝這一目標所邁出的第一步。」