伯克利團隊提出一種更「聰明」的機器人導航系統

移動機器人導航通常被認為是一個幾何問題，機器人的目標是感知環境中障礙物的幾何形狀，以規劃出走向指定位置的無碰撞路徑。

目前，從室內導航到自動駕駛，自主導航的主要方法是讓機器人構建地圖，將自己定位在地圖中，並使用地圖來計劃和執行使機器人到達目標的動作，這種同時定位、地圖繪製(SLAM)和規劃路徑方法已取得了令人印象深刻的結果，並且是當前最先進的自主導航技術的基礎。

但是，這種方法仍然存在局限性，例如在無紋理場景中的性能下降。要保證機器人在環境中的導航行為變得越來越好，需要依靠更多、更昂貴的傳感器，且在開放環境中，移動機器人自主導航還會面臨更多挑戰，有時候很難用純粹的幾何分析來解決。

比如，要步行到達一個目的地需要穿過一片茂盛的草叢，對人類來講直接走過去就好，而當人們推著一輛小車時，則更青睞選擇在相對平坦的路面上走。這些看似無需思考就能做出的判斷，對當今的自主導航移動機器人來說卻十分困難，很可能決策失敗：它們會認為高高的草叢是與混凝土牆相同的障礙，而且不了解選擇平滑的路面和顛簸路面之間的區別。

因為大多數移動機器人純粹是根據幾何學來思考的，從語義理解的角度出發，使用人類提供的可穿越性或路面標籤上訓練出來的計算機視覺方法來實現，但是，可遍歷性、顛簸性等和移動性相關的屬性是自然環境的物理特徵，機器人是否能直接從圖像中推斷出自主導航能力？並像人一樣選擇最合適的路徑規劃到達目標？

來自加州大學伯克利分校的 AI 研究人員開發了一種方案，這是一種完全自主，可自我改進的基於端到端學習的移動機器人導航系統，移動機器人可通過自身在現實世界中的經驗來自主學習環境的物理屬性，而無需任何模擬或人工監督，團隊將這個機器人學習系統稱為 BADGR：伯克利自動駕駛地面機器人。

先來看下硬體配置。研究人員使用了一台 Clearpath Jackal 移動機器人做測試平台，這個機器人的尺寸為 508 毫米×430 毫米 × 250 毫米，重 17 千克，非常適合在城市和越野環境中行駛，默認的傳感器套件包括一個六自由度的 IMU(用於測量線性加速度和角速度)，一個用於近似全局位置估計的 GPS 單元以及用於測量車輪速度的編碼器。研究人員還在機器人的頂部添加了新的傳感器：兩個向前的 170 度視場 640 × 480 像素攝像機、一個 2D 雷射雷達和一個指南針。

機器人內部配備了 NVIDIA Jetson TX2 計算機，這是一個運行深度學習應用程式的理想選擇。數據被保存到一個外部 SSD，該 SSD 足夠大也足夠快，能存儲每分鐘 1.3GB 的傳感器數據流。團隊通過安裝在機器人頂部的 4G 智慧型手機遠程監控實驗、視頻流以及必要時的遠程操作。

接下來的工作重點分為四個步驟：1、自主收集數據；2、通過自我監督自動標記數據；3、訓練基於圖像的神經網絡預測模型；4、使用預測模型來進行規劃，並執行能讓機器人完成導航任務的動作。

研究人員設計了數據收集方法，能夠以最少的人工干預收集大量多樣的數據進行訓練。由於使用現實世界的機器人系統收集數據的成本很高，團隊選擇使用非策略學習算法，以便能夠使用任何控制策略收集數據，並對所有數據進行訓練。

此外，設計數據收集策略時的第二個考慮因素是確保充分探索環境，同時還要確保機器人執行在測試時實際希望執行的動作序列。單純的統一隨機控制策略是不夠的，因為由於機器人的線性和角速度作用介面，機器人將主要驅動直線行駛，這將導致探索不足和不切實際的測試時間動作序列。因此，團隊使用時間相關的隨機遊走控制策略來收集數據。

然後，BADGR會處理原始的採樣數據，並為特定的導航事件計算標籤，在這項實驗中，研究人員考慮了三個不同的影響事件：碰撞、顛簸和位置。

發生碰撞事件的原因是當在城市環境中，雷射雷達測量到接近障礙物時，或者在越野環境中，當IMU檢測到線性加速度和角速度幅值突然下降時，就會發生這種情況；當由IMU測量的角速度幅度高於某個閾值時，將發生顛簸事件；位置由車載狀態估計器確定，該估計器將車輪里程表和IMU融合在一起以形成局部位置估計。

BADGR 會遍歷數據，在每個時間步長計算事件標籤並將這些事件標籤添加回數據集之中，BADGR 隨後可以訓練模型以預測哪些動作導致了哪些導航事件。

BADGR 深度神經網絡預測模型將當前的攝像機圖像和未來計劃的動作序列作為輸入，並輸出對未來相關事件的預測（例如機器人是否會在顛簸地形上碰撞或行駛）。

此外，在部署 BADGR 時，研究人員定義了一個獎勵函數，該函數對他們希望機器人完成的特定任務進行編碼。例如，獎勵函數可以鼓勵在阻止碰撞或在顛簸不平的地形上行駛的同時朝目標前進。然後，BADGR 使用訓練有素的預測模型、當前圖像觀察和獎勵功能來計劃使獎勵最大化的一系列動作。

BADGR 在計劃和執行之間交替，直到任務完成到達目標。

新的導航策略效果怎麼樣？拉出來比試一下。研究人員將 BADGR 與使用光學雷達的無衝突路徑的 SLAM + P 導航策略進行了比較，而 BADGR 僅使用攝像頭圖像識別，對比結果體現出了兩大優勢。

測試一，在城市環境中避免碰撞和顛簸地形到達目標 GPS 位置的任務。儘管基於幾何的策略最終也成功地完成了任務，但是它未能避免減少顛簸的情況。BADGR 成功地達到了目標，並通過在鋪有路面的道路上行駛成功避免了顛簸的地形。值得注意的是，研究人員從未告訴機器人要在平面道路上行駛，BADGR 從車載攝像頭圖像中自動獲悉，在混凝土路徑上行駛比在草地上行駛更平穩。

測試二，在越野環境中達到指定GPS位置的任務。SLAM + P策略錯誤地將草叢標記為不可穿越的障礙，因此就地旋轉以嘗試找到可穿越的路徑，但在旋轉並未能檢測到任何可穿越的路徑後，機器人被困難以前行。相比之下，BADGR方法從經驗中學到了，有些高草確實是可以穿越的，因此能夠成功地將機器人繼續導向目標，沒有錯誤地認定草叢是障礙，這是因為BADGR從經驗中學到，大多數草叢實際上都是可遍歷的。

除了能夠了解環境的物理屬性之外，BADGR 的一個關鍵方面是它能夠不斷自我監督並在收集越來越多的數據實時改進模型。為了證明這種能力，研究人員進行了一項對照研究，其中BADGR收集並訓練來自一個區域的數據，然後移動到新的目標區域，在該區域初次導航失敗，但隨後在收集並訓練了新區域的其他數據之後，最終成功完成任務。

該實驗不僅證明BADGR在收集更多數據後可以改善，而且當BADGR遇到新環境時，以前收集的經驗實際上可以加速學習。隨著BADGR在越來越多的環境中自動收集數據，成功學習每種新環境中的導航所需的時間將越來越少。

BADGR給出的關鍵見解是，通過直接從現實世界中的經驗中自主學習，BADGR可以了解導航能力，隨著收集更多數據而不斷完善，並推廣到其他新的環境。研究人員認為 BADGR 是朝著完全自動化、自我完善的導航系統邁出的有希望的一步，儘管仍然存在許多未解決的問題，比如：機器人如何在新環境中安全地收集數據？在線適應新的數據流？應對非靜態環境，例如有人走動?

最後，研究人員表示，該實驗只評估了靜態環境中的BADGR，環境中並沒有加入行人和汽車之類的移動媒介。由於來自數據收集策略與真實環境中的動態數據會存在偏差，因此使用來自非靜態環境的數據進行收集和訓練可能會帶來更多挑戰，解決這些挑戰對於機器人學習平台能夠在現實世界中學習和行動至關重要，BADGR正在向這個目標一步步邁進。