華人團隊顛覆CV！SEEM完美分割一切爆火，一鍵分割「瞬息全宇宙」

編輯：桃子拉燕

【新智元導讀】繼SAM之後，威斯康辛麥迪遜、微軟、港科大等機構的研究人員提出SEEM模型，通過不同的視覺提示和語言提示，一鍵分割圖像、視頻。

Meta的「分割一切」的橫空出世，讓許多人驚呼CV不存在了。

基於這一模型，眾網友紛紛做了進一步工作，比如Grounded SAM。

將Stable Diffusion、Whisper、ChatGPT結合使用，就能做到通過語音讓一隻狗變成一隻猴子。

而現在，不僅僅是語音，你可以通過多模態提示實現一次性分割所有地方的一切。

具體怎麼做？

滑鼠點一下，直接選中分割內容。

張口一句話。

隨手一塗，完整的表情包就來了。

甚至，還能分割視頻。

最新研究SEEM是由威斯康星大學麥迪遜分校、微軟研究院等機構的學者共同完成。

通過SEEM使用不同種類的提示，視覺提示（點、標記、框、塗鴉和圖像片段）、以及語言提示（文本和音頻）輕鬆分割圖像。

論文地址：https://arxiv.org/pdf/2304.06718.pdf

這個論文標題有意思的地方在於，與2022年上映的一部美國科幻電影「瞬息全宇宙」（Everything Everywhere All at Once）的名字非常相似。

英偉達科學家Jim Fan表示，奧斯卡最佳論文標題獎頒給「Segment Everything Everywhere All at Once」

擁有一個統一的、多功能的任務規範界面是擴大大型基礎模型規模的關鍵。多模態提示是未來的方向。

看過論文後，網友表示，CV現在也要開始擁抱大模型了，研究生未來出路在哪？

奧斯卡最佳標題論文

正是受到基於提示的LLMs通用接口發展的啟發，研究人員提出了SEEM。

如圖所示，SEEM模型可以在沒有提示的開放集中執行任何分割任務，比如語義分割、實例分割和全景分割。

此外，它還支持任意組合的視覺，文本和引用區域提示，允許多功能和交互式的引用分割。

在模型架構上，SEEM採用了常見的編碼器-解碼器架構。其獨特的地方在於具有查詢和提示之間複雜的交互。

特徵和提示被相應的編碼器，或採樣器編碼到一個聯合的視覺語義空間。

可學習查詢是隨機初始化，SEEM解碼器接受可學習查詢、圖像特徵和文本提示作為輸入和輸出，包括類和掩碼嵌入，用於掩碼和語義預測。

值得一提的是，SEEM模型有多輪交互。每一輪都包含一個人工循環和一個模型循環。

在人工循環中，人工接收上一次疊代的掩碼輸出，並通過視覺提示給出下一輪解碼的正反饋。在模型循環中，模型接收並更新未來預測的記憶提示。

通過SEEM，給一個擎天柱卡車的圖，就能分割任何目標圖像上的擎天柱。

通過用戶輸入的文本生成掩模，進行一鍵分割。

另外，SEEM通過對引用圖像的簡單點擊，或塗鴉，就能夠對目標圖像上有相似語義的對象進行分割。

此外，SEEM非常了解解空間關係。左上行斑馬被塗鴉後，也會分割出最左邊的斑馬。

SEEM還可以將圖像引用到視頻掩碼，不需要任何視頻數據訓練，都能完美分割視頻。

數據集和設置上，SEEM在三種數據集接受了訓練：全景分割，引用分割和交互式分割。

交互式分割

在交互式分割上，研究者將SEEM與最先進的交互式分割模型進行了比較。

作為一個通用模型，SEEM獲得了RITM，SimpleClick等相當的性能。而且與SAM取得非常相似的性能，SAM還多用了50個分割數據進行訓練。

值得注意的是，與現有的交互式模型不同，SEEM是第一個不僅支持經典的分割任務，而且還支持廣泛的多模態輸入，包括文本、點、塗鴉、邊界框和圖像，提供了強大的組合能力。

通用分割

通過對所有分割任務預先訓練的一組參數，研究者可以直接評估它在通用分割數據集上的性能。

SEEM實現了比較好的全景視圖，實例和語義分割性能。

研究人員對SEEM有四個期望目標：

1. 多功能性：通過引入多功能提示引擎處理不同類型的提示，包括點、框、塗鴉、遮罩、文本和另一圖像的引用區域；

2. 複合性：通過學習一個聯合視覺-語義空間，為視覺和文本提示組合即時查詢進行推理；

3. 交互性：通過整合可學習的記憶提示，通過掩碼引導的交叉注意力保留對話歷史信息；

4. 語義感知：通過使用文本編碼器對文本查詢和遮罩標籤進行編碼，實現開放詞彙表的分割。

和SAM區別

Meta提出的SAM模型，可以在一個統一框架prompt encoder內，指定一個點、一個邊界框、一句話，一鍵分割出物體。

SAM具有廣泛的通用性，即具有了零樣本遷移的能力，足以涵蓋各種用例，不需要額外訓練，就可以開箱即用地用於新的圖像領域，無論是水下照片，還是細胞顯微鏡。

研究者就三個分割任務（邊緣檢測、開放集和交互式分割）的交互和語義能力對SEEM和SAM進行了比較。

在開放集分割上，同樣需要高水平的語義，並且不需要交互。

與SAM相比，SEEM涵蓋了更廣泛的交互和語義層次。

SAM只支持有限的交互類型，比如點和邊界框，而忽視了高語義任務，因為它本身不輸出語義標籤。

對於SEEM，研究者點出了兩個亮點：

首先，SEEM有一個統一的提示編碼器，將所有的視覺和語言提示編碼到一個聯合表示空間中。因此，SEEM可以支持更通用的用法，它有可能擴展到自定義提示。

其次，SEEM在文本掩碼和輸出語義感知預測方面做得很好。

作者介紹

論文一作Xueyan Zou

她目前是威斯康星大學麥迪遜分校的計算機科學系博士生，導師是Yong Jae Lee教授。

在此之前，Zou在加州大學戴維斯分校度過了三年時光，由同一位導師指導，並與Fanyi Xiao博士密切合作。

她在香港浸會大學獲得了學士學位，由PC Yuen教授和褚曉文教授指導。

Jianwei Yang

Yang是Redmond微軟研究院深度學習組的高級研究員，由高劍峰博士指導。

Yang的研究主要集中在計算機視覺、視覺與語言和機器學習。他主要研究不同層次的結構化視覺理解，以及如何進一步利用它們通過語言和環境的體現與人類進行智能交互。

在2020年3月加入微軟之前，Yang在喬治亞理工學互動計算學院獲得了計算機科學博士學位，他的導師是Devi Parikh教授，他還與Dhruv Batra教授密切合作。

高劍峰

高劍峰是微軟研究院的傑出科學家和副總裁，IEEE會員，以及ACM傑出會員。

目前，高劍峰領導著深度學習小組。該小組的任務是推動深度學習的最先進技術及其在自然語言和圖像理解方面的應用，並在對話模型和方法方面取得進展。

研究主要包括，用於自然語言理解和生成的神經語言模型、神經符號計算、視覺語言的基礎和理解、對話式人工智慧等等。

2014年到2018年，高劍峰在微軟人工智慧與研究部和Redmond微軟研究院的深度學習技術中心（DLTC）擔任商業人工智慧的合作夥伴研究經理。

2006年到2014年，高劍峰在自然語言處理組擔任首席研究員。

Yong Jae Lee

Lee是華盛頓大學麥迪遜分校計算機科學系的副教授。

他在2021年秋季加入華盛頓大學麥迪遜分校之前，曾在Cruise擔任過一年的人工智慧客座教師，在此之前，他在加州大學戴維斯分校擔任了6年的助理和副教授。

他還曾在卡內基梅隆大學的機器人研究所做了一年的博士後研究員。

他於2012年5月在德克薩斯大學奧斯汀分校獲得博士學位，師從Kristen Grauman，並於2006年5月在伊利諾伊大學厄巴納-香檳分校獲得學士學位。

他還曾作為微軟研究院的暑期實習生與Larry Zitnick和Michael Cohen一起工作。

目前，Lee的研究集中在計算機視覺和機器學習。Lee對創建強大的視覺識別系統格外感興趣，該系統可以在最少的人類監督下理解視覺數據。

目前，SEEM已經開放了演示demo：

https://huggingface.co/spaces/xdecoder/SEEM

快上手試試吧。

參考資料：

https://twitter.com/DrJimFan/status/1649835393163091969

https://www.reddit.com/r/MachineLearning/comments/12lf2l3/r_seem_segment_everything_everywhere_all_at_once/

https://t.co/U6so7iuxpv