MediaPipe Iris:實時虹膜跟蹤和深度估計

雨夜的書棧 發佈 2021-09-19T17:27:07+00:00

包括計算攝影(例如,肖像模式和閃光反射)和增強現實效果(例如,虛擬化身)在內的廣泛的現實世界應用依賴於通過跟蹤虹膜來估計眼睛位置。一旦準確的虹膜跟蹤可用,我們表明可以確定從相機到用戶的公制距離 - 無需使用專用深度傳感器。

包括計算攝影(例如,肖像模式和閃光反射)和增強現實效果(例如,虛擬化身)在內的廣泛的現實世界應用依賴於通過跟蹤虹膜來估計眼睛位置。一旦準確的虹膜跟蹤可用,我們表明可以確定從相機到用戶的公制距離 - 無需使用專用深度傳感器。反過來,這可以改進各種用例,從計算攝影、虛擬試戴大小合適的眼鏡和帽子到根據觀看者的距離採用字體大小的可用性增強。

由於有限的計算資源、可變的光照條件以及遮擋物(例如頭髮或人眯眼)的存在,虹膜跟蹤是在行動裝置上解決的一項具有挑戰性的任務。通常,使用複雜的專用硬體,限制了可以應用該解決方案的設備範圍。

今天,我們宣布發布MediaPipe Iris,這是一種用於準確估計虹膜的新機器學習模型。基於我們在MediaPipe Face Mesh上的工作,該模型能夠使用單個 RGB 攝像頭實時跟蹤涉及虹膜、瞳孔和眼睛輪廓的地標,而無需專門的硬體。通過使用虹膜地標,該模型還能夠在不使用深度傳感器的情況下以小於 10% 的相對誤差確定主體與相機之間的公制距離。請注意,虹膜跟蹤不會推斷人們正在查看的位置,也不會提供任何形式的身份識別。由於該系統是在MediaPipe 中實現的— 一個開源跨平台框架,供研究人員和開發人員構建世界一流的 ML 解決方案和應用程式 — 它可以在大多數現代手機、台式機、筆記本電腦甚至網絡上運行。

用於虹膜跟蹤的 ML 管道管道的

第一步利用了我們之前在3D 面部網格上的工作,它使用高保真面部標誌生成近似面部幾何形狀的網格。從這個網格中,我們隔離了原始圖像中的眼睛區域以用於虹膜跟蹤模型。然後將問題分為兩部分:眼睛輪廓估計和虹膜定位。我們設計了一個多任務模型,它由一個統一的編碼器組成,每個任務都有一個單獨的組件,這使我們能夠使用特定於任務的訓練數據。

為了從裁剪後的眼睛區域訓練模型,我們手動注釋了大約 50k 圖像,代表來自不同地理區域的各種照明條件和頭部姿勢,如下所示。

虹膜深度:單幅圖像的深度估計

我們的虹膜跟蹤模型能夠以小於 10% 的誤差確定拍攝對象到相機的公制距離,而無需任何專門的硬體。這是通過依靠一個事實,即對人眼的水平直徑虹膜保持在跨寬人口[11.7±0.5毫米大致恆定完成1,2,3,4 ],用一些簡單的幾何參數一起。為了說明,考慮投射到方形像素傳感器上的針孔相機模型。可以通過使用相機的焦距從面部標誌估計到對象的距離,焦距可以使用相機捕獲 API 或直接從捕獲圖像的EXIF 元數據以及其他相機內在參數。給定焦距,從主體到相機的距離與主體眼睛的物理尺寸成正比,如下圖所示。

為了量化該方法的準確性,我們通過收集 200 多名參與者的前置同步視頻和深度圖像,將其與 iPhone 11 上的深度傳感器進行了比較。我們使用雷射測距設備通過實驗驗證了 iPhone 11 深度傳感器在 2 米以內的誤差小於 2%。我們的評估表明,我們使用虹膜尺寸進行深度估計的方法的平均相對誤差為 4.3%,標準偏差為 2.4%。我們在戴眼鏡和不戴眼鏡的參與者身上測試了我們的方法(不考慮參與者的隱形眼鏡),發現戴眼鏡的平均相對誤差略微增加到 4.8%(標準偏差 3.1%)。我們沒有在患有任何眼部疾病(如老年弓或血管翳)的參與者身上測試這種方法)。考慮到 MediaPipe Iris 不需要專門的硬體,這些結果表明有可能從具有廣泛成本點的設備上的單個圖像中獲得度量深度。

MediaPipe Iris

的發布 我們將虹膜和深度估計模型作為跨平台的 MediaPipe 管道發布,可以在桌面、行動裝置和 Web 上運行。正如我們最近在網絡上的 MediaPipe 上的 Google 開發者博客文章中所述,我們利用WebAssembly和XNNPACK在瀏覽器中本地運行我們的 Iris ML 管道,而不會將任何數據發送到雲端。

未來方向

我們計劃通過更穩定的跟蹤來擴展我們的 MediaPipe Iris 模型以降低錯誤並將其部署用於可訪問性用例。我們堅信共享代碼可以在不同領域實現可重複的研究、快速實驗和新想法的開發。在我們的文檔和隨附的模型卡中,我們詳細說明了預期用途、限制和模型公平性,以確保這些模型的使用符合Google 的 AI 原則。請注意,任何形式的監視或識別都明確超出範圍,並且無法通過該技術實現。我們希望提供這種虹膜感知功能 更廣泛的研究和開發社區將導致創造性用例的出現,刺激負責任的新應用和新研究途徑。


關鍵字: