GAN加持!英偉達發布「山寨」遊戲創造器,已完美復現《吃豆人》

雷鋒網 發佈 2020-05-23T03:58:34+00:00

GameGAN由Fidler、Kim、NVIDIA研究員Jonah Philion、多倫多大學學生Yuyu Zhou和麻省理工學院教授Antonio Torralba共同創作,相關研究論文被CVPR 2020收錄,並將於6月份在會議上介紹。

GAN作為一種深度學習訓練的「左右互博術」在造假界曾「聲名鵲起」。

前有「換臉術」,後有「假新聞」,技術作惡論也以GAN為源頭甚囂塵上。但事情總有兩面性,例如DeepMind曾經改造了「史上最強」的BigGAN,讓新的算法去做圖像分類,刷新了ImageNet無監督表征學習的紀錄。

而近日,英偉達研究院創建的強大新AI模型GameGAN也讓四十年前的《吃豆人》遊戲再度重生。

用神經網絡支撐的GAN技術創造出逼真的遊戲,英偉達此項工作屬全球首個。

進一步,GameGAN經過5萬個回合的遊戲訓練,能夠在無需基礎遊戲引擎的情況下生成完整版的《吃豆人》遊戲。

據悉,當玩家試玩GAN生成得遊戲時,GameGAN會對遊戲玩家的行為做出響應,從而實時生成新的遊戲環境框架。在使用遊戲不同等級或版本的遊戲劇本進行訓練後,GameGAN甚至可以生成從未有過的遊戲關卡。

一、首個模仿計算機遊戲引擎的神經網絡模型

GameGAN是首個利用生成式對抗網絡(GAN)模仿計算機遊戲引擎的神經網絡模型。其背後主要的模型思想是GAN:即由兩個相互對抗的神經網絡組成,一個生成器(generator)和一個鑑別器(discriminator),生成器和鑑別器相互對抗,直至生成能夠以假亂真的內容。

與現有工作不同的是,英偉達設計得GameGAN,裡面包含一個內存模塊,該模塊可以構建環境的內部地圖,允許智能體以高度的視覺一致性返回到以前訪問過的位置。GameGAN還能夠將圖像中的靜態和動態組件分開,使模型的行為更易於解釋,並和需要對動態元素進行顯式推理的下游任務建立相關性。

論文地址:https://cdn.arstechnica.net/wp-content/uploads/2020/05/Nvidia_GameGAN_Research.pdf

GameGAN由Fidler、Kim、NVIDIA研究員Jonah Philion、多倫多大學(University of Toronto)學生Yuyu Zhou和麻省理工學院(MIT)教授Antonio Torralba共同創作,相關研究論文被CVPR 2020收錄,並將於6月份在會議上介紹。

整個模型由三個主要模塊組成,包含動態引擎、渲染引擎和內存。其中,動態引擎將行為、記憶、圖像作為輸入,並及時更新時間T的隱藏狀態;內存模塊負責整體地寫入和讀取;渲染引擎負責解碼圖像,可以學習解開圖像中的靜態和動態分量。

在問題的整體考慮上,英偉達的研究員將其定義為2D圖像生成問題,給定觀察到得圖像幀序列和智能體採取的相應操作,然後進行圖像模擬創造,效果類似於在真實動態環境中渲染。

在具體的訓練過程中,GameGan會觀察場景和玩家的鍵盤動作從而進行預測,也就是直接從圖像和動作場景中學習,不需要訪問底層遊戲邏輯或引擎。

對於訓練的細節,包括:吃豆人的速度、移動能力;四個鬼魂的運動方式;吃豆人吃下大力丸會怎樣;當鬼魂碰到吃豆人時,會發生什麼。

對於數據,英偉達團隊在四天內為GameGAN提供了50,000集(共幾百萬幀)的《吃豆人》劇本。如此規模的數據集除了英偉達團隊,吃豆人的遊戲開發商萬代南夢宮也出了一份力。

對於硬體,英偉達的AI研究團隊在50,000小時的「 吃豆人」遊戲中訓練了四台計算機場,每台計算機均配備了Quadro GV100工作站級GPU。

對於測試實驗,英偉達研究人員分別在《吃豆人》和VizDoom環境中對GameGAN等四種模型進行定量和定性的綜合評估。

實驗結果如上圖所示:Action-LSTM生成得幀缺少豆豆等細節,World Model在保持時間一致性方面存在困難,有時會出現嚴重的不連續,而GameGAN可以生成一致性模擬。

總的來說,經過訓練後的GameGAN模型能夠生成靜態環境元素,例如統一的迷宮形狀、豆子和強化道具,以及作為敵人的幽靈和吃豆人本身等移動元素。

該模型也能夠學習簡單和複雜的關鍵性遊戲規則。例如,和原版遊戲一樣,吃豆人無法穿過迷宮牆。他需要一邊四處移動,一邊吃豆。當他吃到強化道具後,鬼魂會變成藍色並四處逃竄。當吃豆人從一側離開迷宮時,他會被傳送到迷宮的另一側。一旦吃豆人碰到鬼魂,螢幕就會閃爍並結束遊戲。

二、不僅僅適用於遊戲

自主機器人通常也需要在模擬器中接受訓練,模擬器中的AI可以在與現實世界中的目標進行交互之前,學習環境規則。對於開發人員而言,創建模擬器是一個相當耗時的過程。開發人員必須編寫有關如何與目標互動,以及及光在環境中如何表現等規則。

模擬器被廣泛用於開發各種自主機器,例如學習如何抓握和移動物體的倉庫機器人、或是需要在人行道上運輸食物或藥品的物流機器人等。

而GameGAN地出現,為其帶來了一種可能性 —— 在未來的某一天,神經網絡訓練將能取代此類任務中編寫模擬器的工作。

比如你在汽車上安裝一個攝像頭。該攝像頭可以記錄道路環境或駕駛員的行為,例如轉動方向盤或踩下油門等。這些數據可被用於訓練一個深度學習模型,其能夠預測在現實世界中,人類駕駛員(或自動駕駛汽車)在做出猛踩剎車等動作時會發生什麼後果。 雷鋒網雷鋒網雷鋒網

NVIDIA多倫多研究實驗室主任Sanja Fidler表示:「我們最終將訓練出一個AI,其只需通過觀看視頻和觀察目標在環境中所採取的行動,就能模仿駕駛規則或物理定律。GameGAN是朝這一目標所邁出的第一步。」

關鍵字: