CVPR 2023:上海AI實驗室/武大/商湯破紀錄,西工大獲最佳學生論文

新智元 發佈 2023-12-04T21:51:51.589770+00:00

編輯:編輯部【新智元導讀】CVPR 2023大獎終於來了!上海AI實驗室、武大、商湯科技聯合提出的自動駕駛通用大模型斬獲本屆最佳論文,西北工業大學團隊奪得最佳學生論文。中國原創AI實力閃耀國際頂會,華人科研團隊大放異彩!CVPR開獎了!

編輯:編輯部

【新智元導讀】CVPR 2023大獎終於來了!上海AI實驗室、武大、商湯科技聯合提出的自動駕駛通用大模型斬獲本屆最佳論文,西北工業大學團隊奪得最佳學生論文。中國原創AI實力閃耀國際頂會,華人科研團隊大放異彩!


CVPR開獎了!


作為AI領域最有學術影響力的頂級會議之一,國際計算機視覺與模式識別會議(CVPR)今年的頒獎依然是萬眾矚目。


今年共有5篇論文獲獎。2篇最佳論文,1篇最佳學生論文,另外最佳學生論文提名和最佳論文提名也各1篇。


其中,上海AI實驗室、武漢大學、商湯聯手提出的Planning-oriented Autonomous Driving(以路徑規劃為導向的自動駕駛)一舉奪得CVPR 2023最佳論文頭冠。



論文首次提出感知決策一體化的自動駕駛通用大模型「UniAD」,開創了以全局任務為目標的自動駕駛大模型架構先河,為自動駕駛技術與產業的發展提出了新的方向。


據悉,這也是近10年來計算機視覺三大頂級會議中(CVPR、ICCV、ECCV),第一篇以中國學術機構作為第一單位的最佳論文。


與此同時,來自西北工業大學的團隊也摘取了CVPR 2023的最佳學生論文。


而去年由谷歌推出,並風靡AI圈的擴散模型Dreambooth,則獲得了本屆最佳學生論文提名。


最佳論文


CVPR 2023共計評選出2篇最佳論文。


第一篇最佳論文頒給上海AI實驗室、武漢大學、商湯科技團隊的Planning-oriented Autonomous Driving。


獲獎理由:


該文章提出一個端到端的感知決策一體框架,融合了多任務聯合學習的新範式,使得進行更有效的信息交換,協調感知預測決策,以進一步提升路徑規劃能力。


論文地址:https://arxiv.org/pdf/2212.10156.pdf


這是CVPR歷史上第一篇以自動駕駛為主題的最佳論文。



論文中,研究人員首次將感知、預測和規劃等3大類主任務、6小類子任務(目標檢測、目標跟蹤、場景建圖、軌跡預測、柵格預測和路徑規劃)整合到統一的基於Transformer的端到端網絡框架下,實現了全棧關鍵任務駕駛通用模型。


在nuScenes真實場景數據集下,UniAD的所有任務均刷新SOTA,尤其是預測和規劃效果遠超之前的最佳方案。


其中,多目標跟蹤準確率超越SOTA 20%,車道線預測準確率提升30%,預測運動位移和規劃的誤差則分別降低了38%和28%。


UniAD的價值就在於,能更好地協助進行行車規劃,實現「多任務」和「高性能」,確保車輛行駛的可靠和安全。



另一篇最佳論文頒給AI2的CV研究團隊Prior的「Visual Programming: Compositional visual reasoning without training」。


獲獎理由:


解決了自然語言教學中的組成視覺推理任務,為視覺推理和神經符號研究提供了新的方向。



論文,研究人員中提出了VISPROG,一種根據自然語言指令解決複雜和組合視覺任務的方法。


只需要給出幾個自然語言指令的示例和所需的高級程序,VISPROG使用GPT-3中的上下文學習為任何新指令生成一個程序,然後在輸入圖像上執行該程序以獲得預測結果。


論文地址:https://arxiv.org/pdf/2211.11559.pdf


VISPROG還將中間的輸出總結為可解釋的視覺原理。


研究人員在一些任務上演示了VISPROG,這些任務需要組成一組不同的模塊,用於圖像理解和操作、知識檢索以及算術和邏輯運算。



最佳學生論文


今年的「最佳學生論文」頒給了西北工業大學的「3D Registration with Maximal Cliques」。


獲獎理由:


提出了一種解決點雲配准基本問題的方法,該方法利用來自噪聲點對應的兼容性圖中的最大團約束。



3D點雲配准(3D point cloud registration)是計算機視覺領域的一個基本問題,目的是尋找最優的點雲對齊姿態。


這篇論文提出了一種基於最大團(maximal clique,MAC)的3D配准方法。



論文的核心思想就是放鬆先前的最大團約束,挖掘圖中更多的局部共識信息,以準確地生成姿態假設:


1)構建相容圖來呈現初始對應關係之間的親和關係;

2)在圖中搜索最大團,每個團代表一個一致性集合。然後執行節點引導的團選擇,其中每個節點對應於具有最大圖權重的最大團。

3)通過奇異值分解算法計算所選團的變換假設,並選擇最佳假設進行配准。


論文地址:https://arxiv.org/pdf/2305.10854.pdf


在U3M、3DMatch、3DLoMatch和KITTI數據集上進行的大量實驗表明,MAC能夠有效提高配准準確性,優於現有的各種主流方法,並且提升了深度學習方法的性能性能。


MAC與深度學習相結合,在3D Match/3DLoMatch上實現了95.7%/78.9%d SOTA配准召回率。



最佳論文提名


「最佳論文提名」頒給來自谷歌和康奈爾大學的「DynIBaR: Neural Dynamic Image-Based Rendering」。


獲獎理由:


對於具有複雜物體運動和不受控制的攝像機軌跡的長視頻,在時空新穎視圖合成方面向前邁出了重要一步。



現場,只有2位獲獎者上台領獎。引台下觀眾大笑的是,沒到現場3位童鞋,他們便拉了一條橫幅代替。



以往,對於具有複雜物體運動和不受控制的攝像機軌跡的長視頻,基於動態神經輻射場(即動態NeRF)的方法會產生模糊或不準確的渲染結果。


進而,限制了其在現實中的使用。


谷歌和康奈爾大學提出新的方法DynIBaR,通過採用基於volumetric的圖像渲染框架,在場景運動感知的方式下,通過聚合附近視角的特徵來合成新視角。


論文地址:https://arxiv.org/pdf/2211.11082.pdf


該系統保留了之前方法的優點,能夠模擬複雜場景和視角相關效果,同時能夠從具有複雜場景動態和自由攝像機軌跡的長視頻中合成逼真的新視角。


在動態場景數據集上,DynIBaR在比現有方法上取得了顯著的改進。



最佳學生論文提名


今年的「最佳學生論文提名」頒給了谷歌和波士頓大學的Dreambooth。


獲獎理由:


顯示了如何在文本條件下的圖像生成擴散模型進行微調,以在新的背景、視角和藝術風格下僅使用少數圖像樣本生成目標對象,具有令人印象深刻的生成能力。



Dreambooth強大之處在於,只需要你上傳3-5張指定的物體照片,再描述下想要生成的背景、動作或者表情,便能讓指定物體「閃現」你想要的場景。



具體來講,該研究將給定主題的圖像植入模型的輸出域,以便可以使用唯一標識符對其進行合成。


為此,研究人員提出了一種用稀有token標識符表示給定主題的方法,並微調了一個預訓練、基於擴散的T2I框架,該框架分兩步運行:


從文本生成低解析度圖像,然後應用超解析度(SR)擴散模型。


論文地址:https://arxiv.org/pdf/2208.12242.pdf


雖然Dreambooth是在Imagen基礎上做的調整,但這一全新方法也適用其他的擴散模型。



Longuet-Higgins獎


Longuet-Higgins獎會頒發給經受了時間考驗的一篇10年前的CVPR論文。

該獎以理論化學家和認知科學家H. Christopher Longuet-Higgins命名。


這屆Longuet-Higgins獎頒發給了「Online Object Tracking: A Benchmark」。




青年研究員獎


青年研究員獎獎會頒發給在獲得博士學位後7年內,對計算機視覺做出傑出研究貢獻的一位或兩位研究人員。


本屆的青年研究員獎頒發給了Christoph Feichtenhofer和Judy Hoffman。




黃煦濤(Thomas S. Huang )紀念獎


黃煦濤(Thomas S. Huang )紀念獎會頒發給在研究、教學領域被公認為楷模的研究者。


最後的黃煦濤(Thomas S. Huang )紀念獎,頒給了Alyosha Efros。



這個獎項從2020年開始設立,是為了紀念已故的黃煦濤教授,一位在CV和圖像處理領域做出大量貢獻的先驅學者。


該獎項每年頒發給博士畢業後至少7年、最好是處於職業生涯中期的研究人員(博士畢業不能超過25年)。



谷歌90+論文霸榜,CVPR 2023接收率新高


2月份,CVPR 2023曾公布了放榜率。



今年,CVPR論文接受和錄用通通創下歷史新高。


CVPR收到了創紀錄的9155份論文(比CVPR2022增加了12%),並錄用了2360篇論文,接收率為25.78%。



另外,今年參會人數也創自疫情以來歷史最高。大約8300多人參會,其中線下人數近7000。



前段時間,CVPR曾公布12篇入圍本屆最佳論文候選名單(Award Candidate),包括谷歌、上海AI實驗室、史丹福大學、康奈爾大學等在內的世界頂尖企業及機構的研究。


最佳論文等獎項如何脫穎而出,大會介紹了其中的流程:


區域主席提名31篇最佳論文

高級區域主席選出12篇候選論文

程序主席組成委員會,並進行最終討論



CVPR至尊地位,已經成為業界萬眾矚目的一顆星。


根據Google Scholar,過去5年被引用最多的出版物中,CVPR位列第4。



值得一提的是,今年穀歌在眾多機構被接收的論文拔得頭籌,大約有90篇論文。


就國內來看,中國機構獲獎論文許久未見如此盛況。


在本屆CVPR上,上海AI實驗室以一篇最佳論文、一篇最佳論文候選、12篇入選「Highlight」名單的成績,頗受矚目。


另外,商湯、武漢大學、西北工業大學同樣在本屆CV頂會大放異彩。


CVPR 2050長什麼樣?


在獲獎論文頒獎結束後,來自華盛頓大學的Yejin Choi教授暢想了一下,CVPR 2050可能是什麼盛況?


(當然,前提是AGI還未實現,智械危機還未成真)



在那時,或許CVPR 2050的頒獎大會是在元宇宙中舉行的。



又或者,我們那時已經成功移民火星,所以舉辦了第一屆CVPR火星大會。



那時,或許整個CVPR都會在AI的掌握之中,由ChatGPT寫論文,ChatGPT審論文,最後再由ChatGPT rebuttal。


擴散模型會生成演講幻燈片,NeRF來負責演講,最後由ChatGPT完成總結。



那時,最流行的學術話題還是few-shot prompting、指令微調、NeRF、Diffusion、Transformers嗎?亦或是自動駕駛/清潔/通水管/帶娃?


那時,大語言模型還會是時代的先鋒嗎?Scaling laws或許已經失效了。


而到2050年,我們很可能還沒有實現LeCun所言的「狗級」人工智慧,AGI依然遠在5到10年之外,組合性原則依然未被解決。



GPT 5/6/7或許已經達到了全知全能。



AGI可能在沒有具身的情況下實現嗎?RLHF真的能讓LLM和真實對齊嗎?Transformers真的能掌握組合性原則嗎?



這些問題,都得留給未來解答了。


參考資料:

https://twitter.com/CVPR/status/1671545306838626306

關鍵字: