AAAI 2023：清華SIGS信息學部19篇論文入選，含多模態、目標檢測、語義分割等方向

2022

關注並星標

從此不迷路

計算機視覺研究院

計算機視覺研究院專欄

作者：Edison_G

AAAI是人工智慧領域最重要的頂級國際學術會議之一，旨在推動人工智慧領域的研究和應用，增進大眾對人工智慧的了解。據悉，AAAI本年度共接收8777篇論文投稿，錄取率僅為19.6%。

公眾號ID｜ComputerVisionGzq

學習群｜掃碼在主頁獲取加入方式

概述

11月20日，國際人工智慧頂級會議國際先進人工智慧協會2023年會（AAAI 2023， Association for the Advance of Artificial Intelligence，2023）論文錄用結果發布。

1.《基於對比掩碼自編碼器的自監督視頻哈希檢索》（Contrastive Masked Autoencoders for Self-Supervised Video Hashing），作者：計算機技術項目2022級碩士生王煜庭（導師：夏樹濤教授）

作者認為已有兩階段自監督視頻哈希檢索框架的訓練方式過於繁瑣，在實際應用中不夠實用。基於此，作者提出對比掩碼自編碼器的單一框架。作者首先利用高度時序掩碼來減少輸入視頻的信息量和鄰接幀關聯，使模型能從重建中更好地理解視頻語義信息。作者進一步將重建框架與實例判別性的對比學習結合，使模型能在單一階段內完成對視頻語義信息和視頻間相似性關係的同步學習。在三個基準視頻數據集上的大量消融實驗和對比實驗證明了對比掩碼自編碼器框架的優越檢索性能。

圖1：對比掩碼自編碼器框架圖

2.《基於特徵域塊匹配的可學習分布式圖像壓縮算法》（Learned Distributed Image Compression with Multi-Scale Patch Matching in Feature Domain），作者：計算機科學與技術專業2022級博士生黃鈺鈞（導師：夏樹濤教授）

為了更好地利用分布式壓縮場景下的邊信息，作者提出了多尺度特徵塊匹配(MSFDPM)，以此在解碼端充分地利用邊信息。具體而言，MSFDPM由一個邊信息特徵提取器、一個多尺度特徵域塊匹配模塊和一個多尺度特徵融合網絡組成。此外，作者提出重用淺層塊間的相關性以加速深層的塊匹配。最後，在多尺度特徵域中的塊匹配與圖像域塊匹配方法相比，壓縮率提高了約20%。

圖2：不同方法的率失真曲線

3.《利用偏好衝突評分和梯度對齊對抗未知偏好》（Combating Unknown Bias with Effective Bias-Conflicting Scoring and Gradient Alignment），作者：計算機科學與技術專業2021級博士生趙博文（導師：夏樹濤教授）

依賴數據集中的捷徑實現既定目標的模型在魯棒性和泛化性上表現較差。鑑定-強調範式在處理未知偏好上顯示出不錯的潛力。然而，作者發現這一範式仍受到兩個挑戰的困擾：鑑定偏好衝突樣本的能力和後續的強調策略都尚不完備。作者提出了一種有效的偏好衝突評分方法（ECS）和一種基於梯度對齊（GA）的無偏模型訓練方式來解決以上兩個問題。不同設定下的多組數據集的實驗結果表明所提出的解決方案可以有效地減輕未知偏好對模型的影響。

圖3：整體糾偏方案示意圖

4.《用於加速圖像超分網絡的通用頻域框架》（FSR: A General Frequency-oriented Framework to Accelerate Image Super-resolution Networks），作者：計算機技術項目2022級碩士生李金敏（導師：夏樹濤教授）

作者認為當前的超分工作雖然取得了卓越的性能，但依然存在計算量過大、推理時間慢等問題，導致無法應用到行動裝置端。本文提出一種通用的基於頻域的加速網絡，可以加速現有的大多數方法。在四種經典網絡和三個公開數據集上分別驗證了有效性，在保持原有方法性能的同時，平均減少了40%的計算量和50%的推理時間。本文共提出了三個創新點：轉換注意力塊用於提取全局特徵、空間上下文塊用於提取局部特徵、自適應的損失權重用於權衡空域損失和頻域損失。

圖4：所提出的FSR的整體框架

5.《基於多模態知識遷移的開放詞典多標籤學習》（Open-Vocabulary Multi-Label Classification via Multi-modal Knowledge Transfer），作者：人工智慧項目2020級碩士生何肅南（導師：夏樹濤教授）

基於圖文預訓練模型的開放詞典（Open-Vocabulary）分類模型在單標籤零樣本學習上取得了顯著效果，但如何將這種能力遷移到多標籤場景仍是亟待探索的問題。作者提出了一種基於多模態知識遷移（Multi-modal Knowledge Transfer, MKT）框架實現了多標籤的開放詞典分類。作者基於圖文預訓練模型強大的圖文匹配能力實現標籤預測。為了優化標籤映射和提升圖像-標籤映射的一致性，作者引入了提示學習（Prompt-Tuning）和知識蒸餾（Knowledge Distillation）。同時，作者提出了一個簡單但是有效的雙流模塊來同時捕捉局部和全局特徵，提高了模型的多標籤識別能力。在NUS-WIDE和OpenImage兩個公開數據集上的實驗結果表明，該方法有效實現了多標籤的開放集合學習。

圖5：MKT模型框架圖

6.《基於視覺的常識獲取》（Visually Grounded Commonsense Knowledge Acquisition），作者：計算機技術項目2021級碩士生余天予（導師：鄭海濤副教授）

目前的常識獲取方法往往只關注於文本領域的常識獲取，但是這些方法受限於文本的稀疏性和報導的偏差。另一方面，視覺感知提供了真實世界中大量的常識信息，比如（人，可以抓住，瓶子）。作者提出了將視覺常識獲取定義為一個遠程監督的多樣本學習任務，並設計了相應的框架來解決此任務。實驗結果充分證明了有效性，並驗證了多個模態信息的融合可以進一步提高常識獲取的質量。

圖6：常識歸納框架

7.《全局混合：用聚類消除歧義性》（Global Mixup: Eliminating Ambiguity with Clustering），作者：計算機技術項目2020級碩士生謝湘晉（導師：鄭海濤副教授）

數據增強的標籤確定和樣本生成一直以來都是一次性完成的，這將數據增強陷入兩難的困境：無法同時兼得具有較高置信度的標籤以及與原始樣本同質性低的樣本。為了解決這一問題，本文對全局混合（Mixup）相關的數據增強方法做出改進，挖掘特徵的相似性並通過聚類關係為與原始樣本同質性低的增強樣本重標籤，消除因為線性插值所帶來的歧義性。本文在文本分類任務上驗證了方法的有效性，同時理論上支持任意數據增強方法的重標籤。

圖7：全局混合流程

8.《通過全局模態重構學習語義對齊的面向檢索的視頻-語言預訓練》（Learning Semantic Alignment with Global Modality Reconstruction for Video-Language Pre-training towards Retrieval），作者：計算機技術項目2019級碩士生李明超（導師：鄭海濤副教授）

視頻-語言預訓練對於基於文本的視頻檢索任務是十分重要的。之前的預訓練方法受限於語義不對齊的影響。其原因是這些方法忽略了序列對齊而關注於關鍵詞彙的對齊。為了減輕這個問題，論文提出了學習語義對齊的視頻-語言預訓練方法。具體地，使用了全局模態重構和跨模態自對比方法來更好地學習序列級別的對齊關係。論文使用了詳實的實驗在基於文本的視頻檢索任務和視頻時刻檢索任務上證明了此方法的有效性。

圖8：FEEL結構

9.《源域缺失目標檢測下的對抗域適應學習》（Adversarial Alignment for Source Free Object Detection），作者：人工智慧項目2020級碩士生褚嶠松（導師：李秀教授）

作者認為在源域數據缺失場景下，基於預訓練模型自訓練的傳統域適應方法過於依賴每輪疊代的偽標籤質量，因此作者將對抗學習的域適應對齊方法引入無源域數據目標檢測。作者提出了一種計算目標域數據方差的度量，實驗表明這種方法能夠在沒有標籤的情況下有效估計檢測結果的召回率，並將問題還原為有源的域適應目標檢測。在四種遷移場景下的實驗表明，該方法能有效地劃分目標域數據集。

圖9：多階段模型框架圖

10.《基於注意力評審團的數據高效圖像質量評價算法》（Data-Efficient Image Quality Assessment with Attention-Panel Decoder）作者：人工智慧項目2021級碩士生秦冠羿（導師：李秀教授）

由於質量評價數據集樣本數量少，且視覺注意力模型預訓練數據域和微調數據域的注意分布不同，因此，基於視覺注意力模型的圖像質量評價算法無法學習出較好的泛化能力。作者在視覺注意力模型中引入解碼器，並基於解碼器實現了注意力評審團機制。該機制為模型提供了更多的可能特徵表達，能夠重新建立起適合下游任務的注意分布。通過在多個圖像質量評價數據集上訓練測試，該算法展示出了強大的泛化能力與數據效率。

圖10：模型結構圖

11.《面向稀疏標註目標檢測的校正教師模型》（Calibrated Teacher for Sparsely Annotated Object Detection），作者：人工智慧項目2020級碩士生王顥涵（導師：王好謙教授）

稀疏標註目標檢測旨在解決目標檢測的訓練圖片中，部分實例未被標註的問題。近年來的研究採用基於偽標籤的方法挖掘未被標註的實例用於訓練，但選擇用於篩選偽標籤的置信度閾值需要大量的實驗調參。作者設計了一個基於置信度校正的教師-學生網絡框架，引入一個可學習的校正器，將偽標籤候選框的置信度校正為無偏置信度，從而統一了不同檢測器在不同訓練時期下的閾值選擇規律。該方法極大簡化了調參工作量，並在COCO數據集下的多組稀疏標註的實驗設置下取得了行業內的最佳性能。

圖11：不同檢測器/不同訓練時期置信度校正示意圖

12.《從數字病理圖像進行患者級生存預測的分層視覺轉換器》（HVTSurv: Hierarchical Vision Transformer for Patient-level Survival Prediction from Whole Slide Image），作者：人工智慧項目2021級碩士生邵朱晨（導師：王好謙教授）

在患者級多實例學習中，基於數字病理圖像的生存預測是一項具有挑戰性的任務。由於患者的大量數據（一個或多個切片）和切片的不規則形狀特性，模型很難在患者級包中充分探索空間、上下文和層次交互。作者提出了一個分層視覺轉換器框架，使用來自癌症基因組圖譜的 6 種癌症類型的 3104 名患者和 3752 個數字病理圖像驗證有效性。在6個數據集上，平均指標比此前的弱監督方法高2.50-11.30%。消融研究和注意力可視化進一步驗證了其優越性。

圖12：特徵的預處理以及分層聚合框架

13.《截斷-分離-對比：一種學習噪聲視頻的框架》（Truncate-Split-Contrast: A Framework for Learning from Mislabeled Videos）作者：計算機技術項目2021級碩士生王子嘯（導師：袁春教授）

帶噪學習是一個經典問題，已有的研究大多集中於圖像任務，而視頻任務卻少有探索，將已有的方法直接從圖像遷移到視頻上並不可取。本文提出了適用於視頻帶噪學習的兩個新策略：一個名為通道截斷的通道挑選方法用於基於特徵的標籤噪聲檢測；一個名為噪聲對比學習的新的對比策略。實驗表明，作者提出的方法顯著超越已有的基線方法。通過將維度減少到原來的百分之十，所提方法在含有大量噪聲（80%對稱噪聲）的Mini-Kinetics數據集上取得了超過0.4的噪聲檢測F1分數的提升以及5%的分類準確率提升。噪聲對比學習還為Mini-Kinetics和Sth-Sth-V1數據集帶來了平均超過1.6%的分類準確率提升。

圖13：提出的方法在帶噪數據集上的訓練流程

14.《達爾文範式模型升級：基於選擇性兼容的模型進化》（Darwinian Model Upgrades: Model Evolving with Selective Compatibility），作者：數據科學和信息技術項目2019級碩士生張斌傑（導師：袁春教授）

為了解決現有兼容方法存在的新模型鑑別力與新-舊模型兼容性之間此消彼長的困境，本文提出了達爾文模型升級新範式。該範式將模型升級過程中的繼承與進化階段解耦，通過選擇性後向兼容訓練實現對舊特徵的繼承，通過一個輕量化的前向進化分支實現對舊特徵的進化。

圖14：達爾文範式模型升級的訓練框架

15.《動態集成低保真度專家——緩解神經架構搜索「冷啟動」》（Dynamic Ensemble of Low-fidelity Experts: Mitigating NAS 「Cold-Start」），作者：電子與通信工程項目2021級碩士生趙俊博（導師：廖慶敏教授）

基於預測器的神經架構搜索存在嚴重的「冷啟動」問題，因為需要大量的架構-真實性能數據才能獲得一個有效的預測器。本文專注於利用低保真度信息以緩解預測器訓練對大量數據的需求。為更好地融合不同類型的低保真信息提供的有益信息，本文提出了一種動態集成預測框架，在有限的數據量下大幅提升了預測器的預測能力。例如，在NDS-ResNet搜索空間中僅使用25個架構-真實性能數據，所提方法將實際性能與預測得分之間的肯德爾相關係數從0.2549提高到0.7064。此方法可以輕易地與現有的基於預測器的神經架構搜索框架結合，以發現更好的架構。

圖15：方法動機與框架示意圖

16.《針對安全關鍵任務的無模型強化學習算法評估》(Evaluating Model-free Reinforcement Learning toward Safety-critical Tasks) 作者：人工智慧項目2020級碩士生張麟睿（導師：王學謙教授）

在自主智能體的應用中，安全性至關重要，但目前尚缺乏對複雜動力學環境下滿足逐狀態安全約束的強化學習算法評估。在本文中，作者重新思考了先前工作並將它們分別歸類為基於投影、基於恢復和基於優化的方法。此外，作者還提出了展開安全層算法。該算法結合了安全優化和安全投影的優勢，通過深度展開架構強制滿足硬約束，在約束策略優化和執行過程中具有顯式結構優勢。為了促進進一步研究，作者開源了SafeRL-Kit算法庫。該算法庫包含相關算法在統一的框架中的實現，為安全關鍵任務提供了即插即用的接口和評估基準。

圖16：本文開源的SafeRL-Kit代碼庫實現

17.《音由相生：從三維臉型到個性化語音》（What Does Your Face Sound Like? 3D Face Shape Towards Voice），作者：計算機技術項目2021級碩士生楊智涵（導師：吳志勇副研究員）

基於人臉生成個性化語音在影視配音、短視頻創作等領域具有廣泛的應用前景。作者在該領域首次引入三維臉型信息，提出了一種從三維臉型到個性化語音音色的語音生成方法。三維臉型信息與決定人類音色的骨傳導特性直接相關，與語音特徵有明確的解剖學關係，具有更好的可解釋性；還具有獨立於光照、姿態等的天然優勢，可以解耦無關因素更準確控制音色。主客觀實驗均表明，所提方法可以生成與人臉更匹配的語音；還可以通過控制人臉臉型生成多樣化、個性化的定製語音，具有更好的可解釋性和可控性。感謝賈珈教授、吳昊哲師兄對論文工作的支持。

圖17：基於三維臉型信息生成個性化音色語音的方法總體框架

18.《基於數據合成和特徵一致性約束的組織病理圖像弱監督語義分割》（Weakly-Supervised Semantic Segmentation for Histopathology Images Based on Dataset Synthesis and Feature Consistency Constraint），作者：計算機技術項目2022級碩士生方子介（導師：王智副教授）。

作者認為傳統的弱監督語義分割大多基於類激活映射方法，其面臨著分割邊界不精準的問題。病理組織結構的同質性更強化了這一缺陷。作者提出了一種新的弱監督組織病理圖像分割框架PistoSeg。首先，基於馬賽克變換，提出了一種能夠生成像素級掩模的數據合成方法；其次，考慮合成圖像與真實圖像之間的差異，設計了一種基於注意力機制的特徵一致性約束，對合成的偽掩模進行進一步優化。最後，利用優化後的偽掩模訓練精確分割模型進行測試。基於WSSS4LUAD和BCSS-WSSS的實驗驗證了所提出方法在弱監督組織病理圖像分割任務上的優越性。

圖18：PistoSeg框架的總體架構

19.《一種基於內存結構化剪枝的圖像復原模型優化方法》（Memory-Oriented Structural Pruning for Efficient Image Restoration），作者：電子與通信工程2020級碩士生史祥生（導師：董宇涵副教授）

基於深度學習的圖像復原（Image Restoration）模型的硬體資源開銷非常龐大，限制了它們在移動端等實際場景中的應用。為了改善深度圖像復原模型的峰值內存開銷，作者提出了一種專注於內存優化的結構化剪枝（MOSP）方法。為了壓縮長距離跳躍連接（圖像復原模型內存開銷的一大來源），作者在跳躍連接上引入壓縮器（Compactor）模塊，以解耦跳躍連接和主分支的剪枝過程。MOSP方法採用一種疊代剪枝的範式，逐步優化模型各層的內存開銷。與基線剪枝方法相比，MOSP方法可在不顯著影響剪枝模型任務性能的同時優化其內存開銷。

圖19：方法框架圖

轉載：SIGS信息科學與技術學部

END

轉載請聯繫本公眾號獲得授權

計算機視覺研究院學習群等你加入！

ABOUT

計算機視覺研究院

計算機視覺研究院主要涉及深度學習領域，主要致力於目標檢測、圖像分割、模型量化、模型部署等研究方向。研究院接下來會不斷分享最新的論文算法新框架，我們這次改革不同點就是，我們要著重」研究「。之後我們會針對相應領域分享實踐過程，讓大家真正體會擺脫理論的真實場景，培養愛動手編程愛動腦思考的習慣！

VX：2311123606