西電學子獲CVPR 2023等全球性頂級賽事15項冠亞季軍獎項

西安電子科技大學 發佈 2023-12-05T16:05:16.926617+00:00

6月18日-23日,2023國際計算機視覺頂級會議IEEE Conference on Computer Vision and Pattern Recognition(CVPR)在加拿大溫哥華會議中心舉行。

6月18日-23日,2023國際計算機視覺頂級會議IEEE Conference on Computer Vision and Pattern Recognition(CVPR)在加拿大溫哥華會議中心舉行。在焦李成院士、劉芳教授、李玲玲副教授、劉旭副教授與團隊博士生楊育婷等的共同指導下,西安電子科技大學參賽隊伍在CVPR 2023競賽中再次斬獲4冠軍、6亞軍、4季軍獎項。此外,學生隊伍在歐盟地平線2020研究和創新計劃-農業食品賽事2nd ACRE Cascade Competition中獲得冠軍獎項,本次競賽由國家自然科學基金重點項目、聯合基金項目,教育部創新引智基地項目和國家「雙一流」學科建設項目等支持。

由2022級碩士研究生「王夢佳、張競文、高敏」組成的學生隊伍獲得CVPR 2023 FMDC Challenge: Zero-shot/Few-shot Image Classification賽題冠軍。

由於少樣本的學習困難性,目前大多使用單模態模型作為訓練基準,隊伍認為如何合理利用類別標籤是解決這類問題的關鍵。因此,隊伍採用微調CLIP的方法同時利用圖片所在類別的標籤文本信息和圖片特徵一起進行訓練。在提取圖片特徵時,隊伍使用隨機旋轉翻轉、對比度、亮度變換等數據增強方法,豐富數據特徵。最後,隊伍通過結果融合獲取最終結果,成績位居榜首。隊伍方案突破了零樣本/小樣本汽車狀態數據分類困難、模型訓練方案單一的關鍵技術,有效地提升了特定任務下的零樣本/小樣本跨模態分類的識別效果。

由2022級碩士研究生彭瑞、張柯欣、張君沛組成的學生隊伍獲得CVPR 2023 SoccerNet Challenge-Player Jersey Number Recognition賽題冠軍。

隊伍首先使用DBNet++模型進行文本檢測,過濾掉一部分沒有號碼的數據。然後使用圖像旋轉、縮放、色彩擾動、噪聲添加和多幀圖像疊加等數據增強的方法。同時,隊伍使用多幀融合的數據增強方法來解決由於單幀噪聲、模糊或遮擋等因素引起的識別困難問題,提高了號碼的邊界清晰度和對比度。在訓練階段,隊伍將圖片通過文本校正網絡,在對多幀圖像特徵進行融合後使用SVTR、SATRN、NRTR、ASTER等多個模型進行訓練,最後使用少數服從多數的投票策略進行結果融合。該方案突破了運動圖像解析度低,模糊度高的技術難點,顯著提升了號碼文本識別方法在低質量文本上的識別效果。隊伍在該賽題測試集上取得了92.84%的精度,位居榜首。

由2022級碩士研究生陳寶亮、趙禹軒、徐逸卿組成的學生隊伍獲得CVPR 2023 LOVEU Challenge—Cross-Modal Video Retrieval with Reading Comprehension賽題冠軍, 高敏、張競文、王夢佳 組成的學生隊伍也獲得了該賽題亞軍。

隊伍採用StarVR模型作為基線模型,分別對視頻和文本的多模態信息進行編碼,並在特徵空間進行對齊,同時使用對比學習的方法進行訓練。在數據處理上,隊伍對輸入的視頻使用隨機抖動、隨機灰度化和多尺度裁剪等多種數據增強方法。在此基礎上,隊伍提出了基於CLIP的圖像文本匹配以輔助基線模型StarVR進行視頻文本檢索,將視頻級別與圖像級別的結果進行多級加權融合。該方案突破了多模態融合中語義差異大、視頻文本理解不充分等技術難點,實現了更豐富的多模態融合策略。

由2022級碩士研究生陳寶亮、趙禹軒、徐逸卿組成的學生團隊獲得CVPR 2023 AVA Accessibility Vision and Autonomy Challenge - Segmentation Track賽題季軍。隊伍提出以CBNetV2-Swin Based和InternImage聯合作為Backbone,使用HTC和Casced Mask-RCNN分別作為檢測基準網絡。針對數據集中顯著的長尾分布問題,隊伍在對多個損失函數進行測試後,決定採用加權交叉熵損失函數進行訓練。在數據增強上,隊伍使用了CopyPaste、Autoargument等方法,有效地解決了小目標檢測問題。在模型融合過程中,隊伍首先使用NMS在bbox級對模型進行初步融合,然後使用BPR對bbox邊界分割進行精細化微調。突破了小目標檢測精度低、長尾數據缺陷等技術難點,實現了在合成數據中的高精度檢測。最後,該方案在測試集上的AP@0.50:0.95達到了57.06%的優異性能。

由博士研究生路小強、楊育婷、黃鐘健組成的學生隊伍獲得CVPR 2023 VizWiz Visual Question Answering Challenge賽題冠軍。

隊伍提出一種基於視覺語言預訓練的答案區域引導VQA算法。不同於傳統VQA算法將VQA當作多標籤分類問題,隊伍採用一個自回歸解碼器來生成最終的答案。此外,全局的圖像特徵中包含過多與文本不相關的區域,而基於預先使用檢測器來提取目標特徵的方法除了增加額外的計算負擔外,也引入了部分與文本無關的特徵。為此,隊伍提出答案區域引導算法。首先將問題-圖像-答案對輸入至參考語義分割模型來獲取圖像中精準的答案區域,之後通過注意力模塊引導模型更加注重答案區域特徵,最後通過交叉注意力將多模態編碼輸入至答案解碼器中獲取結果。該方案突破了傳統VQA算法中圖像目標特徵不突出引起的回答不確定度高的問題,提升了不同場景下的預測精度。

由2022級碩士研究生「張瀟文、左誼、王子韜」組成的學生隊伍獲得CVPR 2023 6th UG2+ challenge Track 2.1 - Text Recognition through Atmospheric Turbulence賽題亞軍和CVPR 2023 OmniLabel Challenge 2023 TrackA & TrackB賽題季軍獎項。除此以外,該學生隊伍獲得CVPR 2023 EPIC-KITCHENS VISOR Semi-Supervised Video Object Segmentation、Audio-Based Interaction Recognition Challenge、Hand Object Segmentation Challenge賽題三項亞軍獎項。「王昕怡、李丹旭、崔璇」組成的學生隊伍也獲得了Hand Object Segmentation Challenge賽題季軍。

隊伍使用PointRend作為基線模型。通過PointRend網絡,將輸入圖像劃分為一組密集的網格,對每個位置進行預測,用來解決分割任務中邊緣細化不足的問題。隊伍使用雙線性插值將低解析度預測上採樣到與輸入圖像相同的解析度,並將它們與來自全局分割頭的預測相結合。通過對局部和全局預測進行加權和融合。隊伍突破了圖像邊緣恢復與精確分割領域的技術難點問題,在難以分割的物體邊緣也能達到更準確的分割結果。最終在測試集上取得了第二名的成績。

由2022級碩士研究佘文軒、劉雨組成的學生隊伍獲得CVPR 2023 VizWiz Grand Challenge Workshop Salient Object Detection賽題亞軍。

隊伍提出了一種基於Maskformer的多尺度融合策略。方案突破了顯著性目標檢測中目標確認困難的關鍵技術,實現了更準確的顯著性目標檢測效果。為豐富比賽數據,隊伍使用額外數據集進行訓練。隊伍採用基線模型Maskformer預測一組二進位掩碼,每個掩碼都與單個全局類標籤預測相關聯,同時可以將任何現有的逐像素分類模型直接轉換為掩碼分類。在訓練階段,隊伍採用512、720、1024的尺度進行訓練,為了不丟失顯著性目標,將縮放尺度最大限制為裁剪尺寸的1.25倍。在測試階段,隊伍使用指數移動平均(EMA)方法對參數做平滑處理,同時加入多尺度預測,使得單個模型可以達到92.5%的成績。最終,由於不同模型對於顯著性目標的認同存在差異,隊伍採用硬投票的方法進行模型集成與結果融合,取得了92.9%的成績。

由2022級碩士研究生高敏、王夢佳、張競文組成的學生隊伍獲得由歐盟地平線2020研究和創新計劃資助開展的農業食品賽事-2nd ACRE Cascade Competition 賽題冠軍。

隊伍採用Yolov7作為比賽的基線模型,在對數據集進行分析後,隊伍首先提取出部分識別較為困難的數據,針對這些數據進行Mosaic、HSV色調處理、Mixup、圖像旋轉與翻轉、圖像縮放、圖像裁剪等數據增強方法,提高數據之間的區分度。由於數據集中小目標數量較多,對小目標有識別錯誤或者不可識別的困難,隊伍使用多尺度訓練,在結果方面有顯著提升。最後,對 Yolov7、Yolox-L、Yolov6-L6等多個模型進行融合作為比賽最終結果,成績位居榜首。該方案突破了相似類別農作物和雜草在小目標檢測中難度大的關鍵技術,有效地提高了最終的檢測準確率。

據悉,CVPR是IEEE Conference on Computer Vision and Pattern Recognition的縮寫,即IEEE國際計算機視覺與模式識別會議,是一年一次的學術性會議。CVPR的主要內容是計算機視覺與模式識別技術,是世界頂級的計算機視覺三大會議之一。據統計,團隊在CVPR 2023中已累計獲得冠亞季軍獎項達16項。所有獲獎隊伍均收到競賽主辦方邀請,獲獎方法將在CVPR 2023會議的Workshop上進行報告或者展示。

西安電子科技大學人工智慧學院焦李成院士團隊在遙感領域有30多年的經驗積累,智能學子們也屢次在IGARSS、CVPR、ICCV、ECCV等多個國際頂會中斬獲冠亞季軍獎項達百餘項。學院人才培養效果顯著。「賽中學」不僅能夠讓學生快速了解該領域的相關知識,激發學生科研的動力,同時對團隊學生的組織協調能力、寫作能力與心理抗壓能力具有顯著提升。

(來源:西電新聞網

關鍵字: