CVPR 2022丨特斯聯AI提出:基於圖採樣深度度量學習的可泛化行人重識別

ai科技評論 發佈 2022-07-02T09:43:49.654296+00:00

最近的研究表明,顯式深度特徵匹配以及大規模多樣化的訓練數據均可顯著提升行人重識別的泛化能力。但是,在大規模數據上,學習深度匹配器的效率還未得到充分研究。

最近的研究表明,顯式深度特徵匹配以及大規模多樣化的訓練數據均可顯著提升行人重識別的泛化能力。但是,在大規模數據上,學習深度匹配器的效率還未得到充分研究。

近日,特斯聯科技集團首席科學家邵嶺博士及團隊提出了一種高效的小批量採樣(mini-batch sampling)方法——圖採樣(Graph Sampling, GS),用於大規模深度度量學習,極大改善了可泛化行人重識別。目前,該研究成果(題為: Graph Sampling Based Deep Metric Learning for Generalizable Person Re-Identification)已被今年的 CVPR 接受並發表。

可泛化行人重識別引關注,大規模深度度量學習效率尚存提升空間

行人重識別是一項熱門的計算機視覺任務,其目標是通過對大量圖庫圖像進行檢索,以便找出給定的查詢圖像中的行人。在過去的兩年中,可泛化行人重識別因其研究和實用價值而受到越來越多的關注。這類研究探索學習行人重識別模型對於未見過的場景的可泛化性,並採用了直接的跨數據集評估來進行性能基準測試。

目前較熱門的深度學習行人重識別模型的方法包括分類(使用ID loss)、度量學習(使用pairwise loss或 triplet loss),以及它們的組合(例如ID + triplet loss)。ID損失函數對於分類學習來說十分便捷。然而,在大規模的深度學習中,涉及分類器參數會在前向和反向傳播過程中產生大量的內存和計算成本。相似地,在全局視圖中涉及用於度量學習的類別相關參數也效率不高。

圖1:兩種不同的採樣方法:(左側)PK採樣器;(右側)邵嶺博士團隊提出的GS採樣器。不同的形狀表示不同的類別,而不同的顏色則表示不同的批次(batches)。GS為所有的類別構建一個圖,並且總是對最近的相鄰類別進行採樣

因此,對於大規模的行人重識別訓練來說,在分類或是度量學習中涉及類別參數或是特徵並不高效。相比之下,團隊認為小批量中的樣本兩兩之間的深度度量學習更加合適。因此,批量採樣器對高效學習起著重要作用。著名的PK採樣器是行人重識別中最熱門的隨機採樣方法。它首先隨機選擇P個類別,然後對每個類別隨機抽取K張圖像,以構建一個大小為B = P × K的小批量。由於這是隨機進行的,小批量內的採樣實例均勻分布於整個數據集中(見圖1(左)),因此,對於深度度量學習來說,其可能並非信息豐富且有效的。為了解決這個問題,一種在線困難樣本挖掘(online hard example mining)方法,在一定程度上提高了學習效率。然而,挖掘是在已經採樣的小批量上在線進行的。因此,這種方法仍然受到完全隨機PK取樣器的限制——這種採樣器得到的小批量不考慮樣本關係信息。

為解決上述問題,團隊建議將困難樣本挖掘工作前移到數據採樣階段之前。因此,團隊提出了一種高效的小批量採樣方法,稱為圖採樣(GS),用於大規模深度度量學習。其基本思想是在每個epoch開始時為所有的類別構建一個最近鄰關係圖。然後,通過隨機選擇一個類別作為錨點(anchor),同時選擇其前k個最近鄰類別來執行小批量採樣,每個類別擁有相同K個實例,具體如圖1(右)所示。通過這種方式,小批量採樣中的實例大多彼此相似,從而為判別式學習提供了信息量大且具有挑戰性的實例。

團隊公布了其圖採樣細節。在每個傳播(epoch)開始時,利用最新學習的模型來評估類別之間的距離或相似度,然後為所有的類別構建一個圖。這樣一來,類別之間的關係就可以用來進行信息充足的採樣。具體來說,圖採樣為每個類別隨機選擇一張圖片來構建一個小的子數據集(sub-dataset)。然後,提取當前網絡的特徵嵌入,表示為X ∈ RC×d,其中C是訓練的總類別數,d是特徵維度。接下來,通過查詢自適應卷積(QAConv)之類的方法計算所有選定的樣本兩兩之間的距離。結果,得到一個所有類別的距離矩陣dist∈ RC×C

隨即,對於每個類別c,可以檢索出前P - 1個最近的相鄰類別,用N(c) = {xi|i= 1,2,...,P− 1}表示,其中P是每個小批量中應採樣的類別數量。因此,可以構建一個圖G = (V,E),其中V = {c|c= 1,2,...,C} 代表頂點,每個類別作為一個節點,E= {(c1,c2)|c2 ∈ N(c1)} 代表邊。

最後,對於小批量採樣,對於每個作為錨點的類別c,我們檢索其在G中的所有連接的類別。然後連同錨點類別c, 可得到一個集合A= {c}∪{x|(c,x) ∈ E}, 其中 |A| = P. 接下來,對於A中的每個類別,我們對每個類別隨機採樣K個實例,產生一個B= P× K的小批量樣本用於訓練。

需要注意的是,與其他小批量採樣方法不同的是,對於GS採樣器來說,每一次傳播中,小批量數量或疊代次數總是C,這與參數BPK無關。儘管如此,參數B仍然影響每個小批量的計算量。此外,人們可能會擔心GS採樣器的計算量大,但需要注意的是,第一,每類別只有一個圖像被隨機抽樣用於圖的構建;第二,上述計算每個epoch只執行一次。在實踐中,我們發現GS採樣器配上查詢自適應卷積(QAConv),儘管與主流的歐氏距離相比,算得上是計算量大的匹配器,但處理數千個的身份時,僅需幾十秒。

實驗結果優於傳統方法,圖採樣提升大規模深度度量學習的學習效率

團隊亦分享了其實驗結果,並對最近發表的幾種可泛化行人重識別方法進行了比較,其中包括OSNet-IBN、OSNet-AIN、MuDeep、SNR、QAConv、CBN、ADIN和M3L,結論由表1可得,QAConv-GS明顯優化了之前的最佳成績。例如,在Market-1501→CUHK03的情況下,Rank-1和平均精度均值(mAP)分別提高了8.8%和9.0%。在Market-1501→MSMT17的情況下, 數據分別提高了20.6%和7.7%。在MSMT17(全部)→Market-1501的情況下,數據分別提高了9.8%和13.8%。使用RandPerson作為訓練數據,在Market-1501測試得出的Rank-1提高了12%,而mAP提高了7.4%,而在MSMT17測試,數據分別提升了25.1%和8.7%。雖然RandPerson是合成的,但結果表明,用其學習的模型可以良好地泛化到真實世界的數據集。

M3L使用了不同的測試協議,因此結果不具有直接可比性。具體來說,M3L在選自CUHK03、Market-1501、DukeMTMC-reID1和MSMT17的三個數據集上進行訓練,而剩餘的一個數據集則被用於測試。M3L在CUHK03-NP上取得了令人印象深刻的結果,雖然沒有直接的可比性,但超過了團隊-0006所有的結果,包括用所有MSMT17圖像訓練的結果。然而,團隊提出的方法在MSMT17上訓練後,在Market-1501中測試出的Rank-1比M3L的結果高出3.2%,二者mAPs數值則是相當的。此外,團隊提出的方法在Market-1501上訓練後,在MSMT17中測試出的結果明顯優於M3L,Rank-1高出9%,mAP高出2.5%。

表1.直接跨庫測試結果最優成績的比較(%)。MSMT17(all)意味著所有圖像都被用於訓練,不考慮子集的劃分。M3L在選自CUHK03、Market-1501、DukeMTMC-reID和MSMT17的三個數據集上進行訓練,而剩餘的一個數據集則被用於測試。灰色單元格中的結果是用數據集內(within-dataset)的測試作為參考。「-」 表示未報告或不適用。

表2. QAConv變體的比較。Ori:原始QAConv[17]。Base:團隊改編的競爭性基線。GS:圖採樣(我們所提出)。MS-all:MSMT17(全部)。RP:RandPerson。

通過前述研究,團隊證明了熱門的PK採樣器在深度度量學習中並不高效,因而提出了一種新的批量採樣器,稱為圖採樣器(GS),以幫助更有效地學習判別模型,通過構建所有類別的近鄰圖來進行信息採樣,團隊成功驗證了所提出的方案。同時,藉助有競爭性的基線,團隊在可泛化行人重識別領域獲得了最優成績,顯著改善了其性能。同時,通過去除分類參數,並且僅使用小批量中樣本的兩兩之間的距離來計算損失,訓練時間得到大大縮減。在特斯聯看來,團隊提出的技術尤其具備通用性,其同樣可應用於包含圖像檢索等在內的其他領域。

關鍵字: