國外公司全程用AI製作電影,時長12分鐘,人物可以眨眼和張嘴

deeptech深科技 發佈 2023-06-03T16:46:55.299920+00:00

迄今為止,這是這項新奇技術最令人印象深刻、也是最奇怪的用例之一。2023 年 2 月至 3 月,紐約舉辦了一場人工智慧電影節。

《霜》在最初的幾套鏡頭畫面中就表現出了詭異、令人不安的氛圍。巨大的冰山,一個由軍用帳篷組成的臨時營地,一群人擠在火旁,犬吠不止...... 這些都是人們熟悉的東西,但是它們奇怪到足以放大觀眾心裡的恐懼:肯定有哪裡不對勁。


「把尾巴遞給我,」有人說。畫面切到一個男人在火邊啃一塊粉紅色肉乾的特寫鏡頭。這太怪誕了,他的嘴唇以一種詭異的方式活動,就好像在嚼自己凍僵的舌頭。


《霜》背後的創作公司名為 Waymark,是一家來自美國底特律的公司。該公司的史蒂芬·帕克(Stephen Parker)說:「似乎到了一個地步,我們不再追求和渴望攝影的準確性,而是開始傾向於探索 DALL-E 的怪異。」。


《霜》是一部 12 分鐘的電影,每個鏡頭都是由 AI 圖像製作模型完成的。迄今為止,這是這項新奇技術最令人印象深刻、也是最奇怪的用例之一。



為了製作《霜》,Waymark 採用了該公司執行製片人喬什·魯賓(Josh Rubin)撰寫的劇本,並將其提供給圖像製作模型 DALL-E 2。經過一番嘗試和糾錯,模型就開始以他們滿意的風格製作圖像,該電影的製作人使用 DALL-E 2 來生成每一個鏡頭。


然後,他們使用 D-ID——一種可以讓靜止圖像動起來的人工智慧工具,來製作這些鏡頭的動畫,比如使眼睛眨眼、讓嘴唇移動等。


魯賓說:「我們用 DALL-E 製作的東西建立了一個世界。這是一種奇怪的美學,但我們欣然接受它的到來。它成為了我們今天看到的電影。」


創意技術諮詢公司 Bell&Whistle 的聯合創始人蘇基·梅達烏伊(Souki Mehdaou)表示:「這無疑是我看過的第一部風格一致的生成式人工智慧電影。生成靜態圖像之後並對其進行動態加工,就像在看木偶表演,給人一種有趣的拼貼感。」


過去幾個月里,市面上出現了一系列使用各種生成式人工智慧工具製作的短片,《霜》只是其中之一。最好的生成式視頻模型仍然只能生成幾秒鐘的視頻。因此,當前這批電影展現了廣泛的風格和技術,比如《霜》中的靜止圖像堆疊,以及幾秒長的視頻混剪等。


2023 年 2 月至 3 月,紐約舉辦了一場人工智慧電影節。亮點包括:


拉恩·桑切斯(Laen Sanches)的超凡脫俗的 PLSTC——這是一個由圖像製作模型 Midjourney 生成的一系列奇怪的被塑料包裹的海洋生物;


還有傑克·奧爾森(Jake Oleson)的夢幻般的 Given Again,它使用一種名為神經輻射場(NeRF,neural radiance fields)的技術來將 2D 照片變成 3D 虛擬物體;


以及山姆·勞頓(Sam Lawton)的 Expanded Childhood,這是一個童年主題的超現實懷舊作品,他用了自己的舊家庭照片,讓 DALL-E 2 擴展到了照片之外的情景,這讓他可以肆意擺弄那些模糊不清的舊照片細節。


藝術家往往是第一批嘗試新技術的人,但生成式視頻的短期前景正受到廣告業的影響。Waymark 製作《霜》是為了探索如何在其產品中構建生成式人工智慧。對於尋求快速廉價的商業廣告製作方式的企業,該公司可以為它們開發視頻創作工具。


Waymark目前使用的技術於 2023 年初推出,其將幾種不同的人工智慧技術結合在一起,包括大型語言模型、圖像識別和語音合成,以實時地生成視頻廣告。其還利用了一款大數據集,它基於該公司此前為客戶創建的非生成式人工智慧廣告。「我們有成千上萬的視頻,」其 CEO 亞歷克斯·佩爾斯基-斯特恩(Alex Persky Stern)說,「我們已經把其中最好的拿出來,在訓練時我們會告訴人工智慧什麼是一個好的視頻。」該公司的工具是訂閱服務的一部分,每月 25 美元起。要使用該工具,用戶只需提供企業名字和地址。


據了解,這款工具首先從該公司的網站和社交媒體帳戶中抓取文本和圖像。然後,它使用這些數據生成一個商業廣告,並使用 GPT-3 編寫一個腳本,由合成語音在特定圖像上大聲朗讀。


在幾秒之內,就可以生成一分鐘長的流暢廣告。用戶可以根據自己的想法編輯結果,調整腳本、編輯圖像、選擇不同聲音等等。Waymark 表示,到目前為止,已有超過 10 萬人使用過這款工具。但是,問題在於並不是每個企業都有網站或圖片可供學習。而該公司的下一個想法是使用生成式人工智慧,為那些還沒有或不想使用現有圖像和視頻的企業來創建圖像和視頻。帕克說:「這就是製作《霜》背後的目的。創造一個世界,一種氛圍。」


《霜》當然自帶一種氛圍,但它也很怪誕。魯賓說:「無論如何,這還不是一個完美的東西。從 DALL-E 模型那裡拿到某些東西有點困難,比如臉上的情緒反應。但在其他任務上,它會給我們驚喜。我們會說:『天哪,這是發生在我們眼前的魔法。』」隨著技術的進步,這種「偶然得到好結果」的過程將會得到改進。用來製作《霜》的 DALL-E 2 面世僅僅一年左右,而生成短片的視頻生成工具才出現幾個月而已。他繼續說道,這項技術最具革命性的方面是能夠隨時生成新的鏡頭:「經過 15 分鐘的試錯,你就可以得到你想要的、完全符合故事序列的鏡頭。」沒有這些工具之前,他需要把電影片段剪輯以及合併在一起,有時只因需要一個特定的鏡頭,就要跑到山坡上給一隻靴子拍特寫。有了 DALL-E,他就直接讓它幫忙了。「這太令人震驚了,」他說,「從那時起,它讓我這個電影製作人大開眼界。」


總部位於倫敦的短視頻初創公司 Private Island 的聯合創始人克里斯·博伊爾(Chris Boyle)也回憶了他對於圖像製作模型的第一印象:「當時我就在想,這將改變一切。這讓我感到一陣頭暈目眩。」他和團隊為一系列的全球品牌製作了廣告,包括百威、耐克、優步和特里巧克力,以及《使命召喚》等知名遊戲的遊戲內短視頻。該公司近年來一直在後期製作中使用 AI 工具,疫情期間更是增加了使用頻率。該公司採用了一系列技術,來讓後期製作和視覺效果變得更加容易,例如使用 NeRF 從 2D 圖像中創建 3D 場景,以及使用機器學習從現有鏡頭中提取運動捕捉數據,相比之前從頭開始收集的方式,藉助 AI 為他們節約了大量時間。


幾個月前,Private Island 在其 Instagram 帳戶上發布了一則惡搞啤酒廣告,該廣告使用視頻製作模型 Gen-2 和圖像製作模型 Stable Diffusion 製作而來,它在網絡上非常爆火。這段名為《合成之夏(Synthetic Summer)》的視頻展示了一個典型的後院派對場景,無憂無慮的年輕人在陽光下悠閒地喝著飲料。但是,裡面的許多人長著大洞而不是嘴巴,當他們喝酒時啤酒罐會沉到腦袋裡,接著後院也著火了。這其實是一個恐怖短視頻。


博伊爾說:「你一開始看它,它只是一個非常普通的、傳統的美式情景。但看到後面你就開始坐不住了。」


他說:「我們喜歡利用媒體本身來講述故事。我認為<合成夏天>是一個很好的例子,因為這個媒介本身太令人毛骨悚然了。它在某種程度上可視化了我們對人工智慧的一些恐懼。」


那麼,這是電影製作新時代的開始嗎?整體而言,《霜》非常適合 DALL-E 2 那種令人毛骨悚然的美學。《合成之夏》有很多快速剪輯,因為像 Gen-2 這樣的視頻生成工具一次只能生成幾秒鐘的視頻,然後需要拼接在一起,而這恰恰適用於一個一切都很混亂的派對場景。


另據悉,Private Island 還考慮製作一部武俠電影,那麼快速剪輯工具將非常適合用在這裡。這可能意味著我們將開始在音樂視頻和商業廣告中看到生成式視頻。


但除此之外,還不清楚在哪會看到它們。據了解,除了實驗藝術家和一些品牌之外,還沒有太多其他人使用這項技術。


不斷變化的狀態也讓潛在客戶感到不快。博伊爾說:「我與許多公司進行了交談,他們似乎很感興趣,但由於技術變化太快,他們不願將太多資源投入項目。」他說,考慮到 AI 生成工具導致的版權訴訟,一些公司對於這類工具依舊保持謹慎。其表示:「沒有人確切地知道這將走向何方:現在有很多假設像飛鏢一樣被拋出,背後並沒有很多細緻入微的思考。」與此同時,電影製作人正在繼續試驗這些新工具。受朋友傑克·奧爾森(Jake Olseon)的作品啟發,他正在使用生成式人工智慧工具製作一部短片,以幫助消除阿片類藥物使用障礙的污名化。


而 Waymark 正在計劃《霜》的續集,但它可能不會用到 DALL-E 2。佩爾斯基-斯特恩(Persky-Stern)說:「我認為這更像是一種『觀察看看』的東西。當我們做下一個視頻時,我們可能會使用一些新技術。」


Private Island 也在嘗試其他電影。現在,它正在製作一部混合電影,裡面的真人演員穿著 Stable Diffusion 設計的服裝。


或許正如博伊爾所言:「我們非常喜歡美學。看到新美學將從何而來,真是令人興奮。生成式人工智慧就像我們的一面破碎的鏡子。」


支持:Ren

關鍵字: