全球首個!谷歌旗下DeepMind展示用於通用機器人的AI智能體RoboCat:僅需100次訓練便能完成任務,還能自我改進提升

每日經濟新聞 發佈 2023-12-05T07:36:18.673348+00:00

每經記者:蔡鼎 每經編輯:蘭素英機器人正迅速成為我們日常生活的一部分,但它們通常只用於特定任務。雖然人工智慧領域的最新進展可以使機器人在許多方面發揮作用,但全球在通用機器人製造方面的進展仍然較慢,部分原因是收集真實世界的訓練數據需要大量的時間。

每經記者:蔡鼎 每經編輯:蘭素英

機器人正迅速成為我們日常生活的一部分,但它們通常只用於特定任務。雖然人工智慧領域的最新進展可以使機器人在許多方面發揮作用,但全球在通用機器人製造方面的進展仍然較慢,部分原因是收集真實世界的訓練數據需要大量的時間。近日,谷歌旗下AI團隊DeepMind的最新研究或可解決該領域面臨的這一「痛點」。

美東時間6月20日,DeepMind展示了用於機器人的AI智能體RoboCat。DeepMind稱其為全球首個能解決和適應多重任務的智能體。更重要的是,RoboCat是一個可以自我改進的AI代理,其可以操作不同的機械臂,而且只需最少100次演示即可解決任務,並從其自生成的數據中進行改進。

谷歌展示全球首個多任務AI智能體

谷歌旗下AI團隊DeepMind的最新論文介紹了一種能夠進行自我改進的AI代理,本質上是由AI賦能的軟體程序,相當於機器人的「大腦」,由其加持的機器人與傳統機器人不同之處在於,RoboCat更具「通用性」,並可實現自我改進、自我提升。

圖片來源:DeepMind截圖

DeepMind在之前的研究中探索了如何開發支持大規模學習多任務的機器人,並將語言模型理解與輔助機器人的現實世界能力相結合。這個名為RoboCat的機器人智能體是全球首個能解決和適應多重任務的AI智能體,能夠學習在不同的機械臂上執行各種任務,然後自我生成新的訓練數據來對其進行改進。

RoboCat的學習速度比其他先進模型快得多——只需要通過100次左右的演示,RoboCat就可以學會操控機械臂來完成各式各樣的任務,然後通過自生成的數據來進行疊代改進。這種能力將有助於加速機器人研究,因為這減少了對人類監督訓練的需求,也是創造通用機器人的重要一步。

DeepMind的研究科學家、RoboCat團隊的共同作者Alex Lee表示,「我們證明,一個大模型可以解決多個真實機器人承載的各種任務,並能迅速適應新的任務。

據DeepMind,RoboCat基於其多模態模型Gato(西班牙語「貓」的意思),它可以在模擬和物理環境中處理語言、圖像和動作。DeepMind將Gato的架構與一個大型訓練數據集結合併起來,該數據集由各種機器人手臂的圖像序列和動作組成,可以解決數百種任務。

在DeepMind演示視頻中,RoboCat已經可以通過自主學習操控機械臂,完成「套圈」「搭積木」「抓水果」等任務。這些任務看似簡單,但考驗了機械臂操作的精準度、理解力以及對於形狀匹配難題的解決能力。目前RoboCat完成一項新任務的成功率已經在初期36%的基礎上提升了一倍。

圖片來源:DeepMind截圖

基於原始數據集和新訓練產生的數據,RoboCat的數據集將包含數百萬次的訓練軌跡數據。它學習的新任務越多,它就能更好地學習和解決額外的新任務。DeepMind的論文認為,執行任務成功率的大幅提升,是由於RoboCat的經驗越來越豐富,就像人們在特定領域加深學習時發展出更多樣化的技能一樣。RoboCat獨立學習技能和快速自我完善的能力,特別是當應用於不同機器人設備時,將有助於為未來的研究鋪平道路。

圖片來源:DeepMind截圖

具身智能將引領AI下一個浪潮

《每日經濟新聞》記者注意到,目前在機器人領域,包括特斯拉、谷歌、亞馬遜、英偉達、騰訊等巨頭已經有所布局。然而,正如DeepMind上述論文指出,由於訓練機器人需要大量的時間,因此智能化水平仍不足,難以實現大規模的商業化。而RoboCat的問世或許能解決這一「痛點」。

其實,DeepMind的RoboCat只是AI賦能機器人的主要案例之一。今年以來,已經有數家公司將語言模型運用到了機器人上:2023年年初,谷歌推出視覺語言模型PaLM-E,並運用到工業機器人上;4月,阿里巴巴將千問大模型接入工業機器人;5月,特斯拉人形機器人Optimus展示了精準的控制、感知能力,同月,英偉達發布全新自主移動機器人平台。

得益於此,人工智慧加持的機器人化身具身智能(Embodied Intelligence)吸引了全球的廣泛關注。

馬斯克在特斯拉2023年股東大會上便表示,人形機器人將是今後特斯拉主要的長期價值來源,「如果人形機器人和人的比例是2比1左右,那麼人們對機器人的需求量可能是100億乃至200億個,遠超電動車的數量」。英偉達創始人黃仁勛在ITF World 2023半導體大會上也表示,AI下一個浪潮將是「具身智能」。

圖片來源:東吳證券研報截圖

東吳證券研報指出,具身智能首先需要聽懂人類語言,分解任務、規划子任務,移動中識別物體,與環境交互,最終完成任務。東吳證券認為人形機器人很好地契合了具身智能的要求,有望成為標杆應用。「機器人研究的關鍵在於讓機器人適應人類環境,最終走進千家萬戶的生活(工業、餐飲、醫療等多領域)。人形機器人有望率先在B端上量,最終打開C端市場。遠期市場空間可觀。」

東吳證券預計,2035年,假設人形機器人價格為20萬元,且照顧、陪伴功能分別為美國/歐洲/亞洲市場累計新增了5%/7%/4%的滲透率,即單年滲透率分別為1%/1.4%/0.8%。在較悲觀/中性/較樂觀的場景中,家庭場景的市場規模將分別達到3.00萬億/3.66萬億/4.26萬億元。

每日經濟新聞

關鍵字: