騰訊智能體最新進展：引入AI模型後機器狗靈活性、自主決策能力大增

由科創板日報發佈 2023-06-16T07:00:32.897967+00:00

在基於預訓練好的模型下，機器狗通過深度強化學習，不僅能夠在運動過程中保持靈活、穩定，克服路障，還具備了一定的推理和決策能力:在雙狗障礙追逐遊戲中，當追擊者意識到自己在躲避者碰到旗子之前已經無法追上它的時候，追擊者就會放棄追擊，而是在遠離躲避者的位置徘徊，目的是為了等待下一個重置的旗子出現。

《科創板日報》6月14日訊今日，騰訊RoboticsX機器人實驗室公布了智能體研究的最新進展，通過將前沿的預訓練AI模型和強化學習技術應用到機器人控制領域，讓騰訊機器狗Max的靈活性和自主決策能力得到大幅提升。

Max是騰訊開發的多模態四足機器人，其學習真狗的過程都在虛擬世界裡面訓練而成，不需要進行實機訓練和調整。

具體來看，在第一個預訓練學習中，RoboticsX實驗室與騰訊遊戲展開合作，使用遊戲研發過程中的動捕數據集，讓Max學會走、跑、跳、站立等動作。

第二個預訓練學習通過額外的網絡參數來將第一階段掌握的機器狗靈動姿態與外界感知聯繫在一起，使得機器狗能夠通過已經學會的靈動姿態來應對外界環境，完成匍匐前進、跨欄跑、障礙物跑酷穿梭等高難度動作。

在第三階段的學習中，附加的網絡會獲取與複雜任務有關的信息，例如在遊戲中，獲取對手的信息、旗子的信息，最終使得機器狗在策略側面能自主形成認知。

在基於預訓練好的模型下，機器狗通過深度強化學習，不僅能夠在運動過程中保持靈活、穩定，克服路障，還具備了一定的推理和決策能力：

在雙狗障礙追逐遊戲中，當追擊者意識到自己在躲避者碰到旗子之前已經無法追上它的時候，追擊者就會放棄追擊，而是在遠離躲避者的位置徘徊，目的是為了等待下一個重置的旗子出現。

另外，當追擊者即將抓到躲避者的最後時刻，或者躲避者在快要接觸旗子的時候，機器狗喜歡跳起來做出一個「撲」的動作。這些都是機器狗為了確保自己的勝利採取的主動加速措施。

騰訊方面表示，預訓練AI模型和深度強化學習技術為未來機器人解決其他複雜任務提供了一套通用的解決方案。為機器人走入現實生活，服務人類打下了堅實的基礎。

▌GPT等AI大模型有望讓機器人智能化更上一層

騰訊機器狗的案例是AI賦能機器人的生動詮釋。AI所造就的機器人，與傳統機器人最大的區別在於，AI機器人表現出一些與人類相似的智能特徵，從原先的「自動化」（工程師藉由程序設計編寫規則，讓機器人遵守）邁向了真正的「自主學習」。

從產業端來看，已有特斯拉的Optimus、波士頓動力Atlas/Spot等AI機器人出圈。

進入AIGC時代，GPT等AI大模型的出現則有望讓機器人智能化更上一個台階。過往的機器人更多依賴人們手寫代碼從而在特定場景下完成特定任務，難以與人類進行多維度交互，而通用大模型的突破為人機互動提供新的思路，通過引入多模態讓人們能夠更採用更直接、輕便、靈活的方式對奇蹟人實現操控。

開源證券分析師孟鵬飛表示，2023年，以GPT-4為代表的AI大模型迎來突破性進展，將進一步提升特斯拉機器人交互、決策、感知能力，加速疊代落地。OpenAI領投人形機器人公司1X證明了AI在人形機器人領域大有可為。

國泰君安分析師肖群稀認為，AI大模型的出現，會從語音、視覺、決策、控制等多方面實現同人形機器人的結合，形成感知、決策、控制閉環。

國信證券分析師吳雙表示，GPT大模型技術在人形機器人上的應用有助於其商業化進程推進。一方面，大模型可解決「大腦」自主思考問題，使其具備理解與推理能力；另一方面，更強算力可提升機器人「小腦」運動控制能力。

騰訊智能體最新進展：引入AI模型後 機器狗靈活性、自主決策能力大增