"十億像素"引領視覺智能技術變革,2022GigaVision挑戰賽圓滿落幕

機器之心pro 發佈 2024-04-30T23:56:40.133157+00:00

以此為開端,十多年間,從人臉識別、跟蹤到動作識別,圍繞各類視覺智能任務的技術都取得了顯著的進展,人工智慧理論與技術的大變革時代終於到來。

機器之心原創

作者:蛋醬

在十億像素級數據平台的支撐下,GigaVision 系列賽事秉承「以賽促研、以賽促用」的理念,將持續推動更多前沿性、原創性視覺智能技術的突破。

2012 年,深度學習在 ImageNet 圖像挑戰賽中取得了巨大的突破,被廣泛認為是第三次人工智慧革命的標誌性事件。以此為開端,十多年間,從人臉識別、跟蹤到動作識別,圍繞各類視覺智能任務的技術都取得了顯著的進展,人工智慧理論與技術的大變革時代終於到來。

2017 年,國務院發布《新一代人工智慧發展規劃》,描繪了中國人工智慧未來發展的宏偉藍圖,確立了「三步走」目標:到 2020 年人工智慧總體技術和應用與世界先進水平同步;到 2025 年人工智慧基礎理論實現重大突破、技術與應用部分達到世界領先水平;到 2030 年人工智慧理論、技術與應用總體達到世界領先水平,成為世界主要人工智慧創新中心。

在「三步走」目標的指導下,中國在全球人工智慧領域取得的成就有目共睹。無論是在論文、學者還是專利數量等維度上,中國人工智慧發展水平均已躋身世界第一梯隊。但下一步,在向著「世界領先水平」目標前進的過程中,我們仍然面臨著若干關鍵挑戰,其中就包括前沿技術的創新能力和領軍人才的培養問題。

在這樣的背景下,由清華大學、中國人工智慧學會聯合舉辦的 2022 GigaVision 挑戰賽受到了廣泛關注。GigaVision 挑戰賽聚焦十億像素級視覺智能研究,旨在牽引新一代人工智慧技術發展的若干關鍵問題,促進更準確、更高效、更魯棒的新理論與新技術的發展,引領人工智慧、視覺智能領域的變革。

大賽已於近日正式落下帷幕,在精彩紛呈的比賽過程中,我們也見證了一系列前沿技術成果的誕生。

上千支隊伍參賽,聚焦十億像素級挑戰

大賽基於GigaVision數據平台開源的兩個十億像素圖像視頻數據平台「PANDA」和「GigaMVS」,開展了GigaDetection、GigaMOT、GigaTrajectory、GigaReconstruction、GigaRendering、GigaCrowd六大賽道,旨在推動視覺智能原創算法創新。

自開幕以來,大賽共吸引了全球超過 1000 支隊伍參加。這些隊伍分別來自牛津大學、慕尼黑工大、香港科大、清華大學、中國科學院大學、復旦大學、北京大學等海內外頂級高校,以及字節跳動、華為技術有限公司、阿里、百度、浪潮集團有限公司、TPlink、三星美國研究院、新加坡科技研究局等國際一流人工智慧企業。

本次大賽分享交流活動中,多個 TOP 團隊的作品讓組委會技術專家留下了深刻印象:

例如,目標檢測賽道提供了十億像素圖像的行人數據集,核心任務是評估模型在十億像素圖像中多目標檢測任務的準確性。參賽團隊全面分析了寬視場、高分辨視覺數據中大場景、多對象、複雜關係等新特點所帶來的新問題,圍繞著場景全局稀疏、局部稠密,對象尺度多變、姿態複雜,數據通量大等挑戰,提出了一系列目標檢測新算法與新模型,相較現有前沿算法,實現了精度與效率的顯著提升。

而 3D 賽道的參賽作品融合了基於人工智慧的神經輻射場表徵、可微渲染優化方法和基於多視圖幾何的立體匹配等經典方法,在算法設計和工程化實現上都頗具亮點,對大場景高精度三維重建與渲染任務具有較大的啟發性,展示出了巨大的落地應用潛力。

歷經五個月的激烈角逐,最終,來自北京大學、上海交通大學、東南大學、南方醫科大學、華為等高校和單位的參賽隊伍獲得了大賽各賽道的冠軍,收穫了豐厚的獎勵。

視覺智能,還能這樣「卷」?

決定一場賽事高度的關鍵因素,在於賽題任務和賽題數據。而這場挑戰賽背後的 GigaVision 數據平台,正是一系列視覺智能前沿問題的「發源地」。

GigaVision 數據平台目前包括 PANDA 和 GigaMVS 兩個子項目,其中 PANDA 是世界上首個十億像素級、以人類為中心的視頻數據集,GigaMVS 是世界上首個十億像素級超大規模場景三維重建基準。

相比於當前各種百萬像素級的視覺任務,GigaVision 挑戰賽填補了十億像素圖像 / 視頻層面的空白,為視覺智能領域內的研究者和從業者帶來了新鮮感十足的挑戰。

在 GigaVision 挑戰賽中,每一張圖片、視頻的每一幀都是十億像素級別。比如 GigaMOT 賽道,參賽者需要評估 MOT 模型在十億像素視頻中對多個目標跟蹤任務的準確性,既要解決單目標跟蹤任務的互相遮擋、運動模糊、擁擠場景、尺度變化等難點,又要處理目標軌跡的起始與終止、相似目標間的相互干擾等問題。特別是該賽道所使用的 PANDA-Video 大場景數據集,其可視範圍大、擁擠行人的複雜場景等特點也為傳統數據集上的 MOT 算法帶來了新的挑戰。

又比如在 GigaRendering 賽道中,參賽者需要在給定的不同場景經過校準的十億像素圖像中,面對稀疏視角下的高解析度、寬視場、細節豐富的難點,渲染生成新的 RGB 視圖並儘可能提升其準確性。十億像素級別的圖像渲染任務,對神經輻射場的表達、規模和效率提出了更高的挑戰。

此外,偏好原始創新的測評方式亦是 GigaVision 挑戰賽的一大亮點。傳統的人工智慧挑戰賽任務普適性強、辦賽周期短,大部分參賽隊伍傾向利用成熟的理論框架和工程套路,實現系統集成和參數調優,反覆刷榜。完全以分數導向的測評方式,阻礙了技術的原始創新。相比之下,GigaVision 挑戰賽形成了固定的舉辦周期,注重前沿性、原創性,更能鼓勵參賽隊伍進行原始創新。

可以看到,GigaVision 挑戰賽看似仍在比拼視覺智能領域的幾大經典研究問題,但面向「十億像素」級圖像視頻數據,賽題的前沿性、挑戰性、創新性和開拓性大幅提升,與經典問題截然不同。以往將整個圖像或視頻放進網絡中直接處理的傳統方法不再奏效,僅僅使用單個模型或幾個模型也很難完成這種級別的任務。因此,參賽團隊會更加專注於「卷」模型架構的設計,致力於探索模型能力的上限,開展更多理論層面的創新嘗試。

經過多輪比拼、線上評測、結果復現和視頻答辯,本屆大賽獲得了多目標檢測、多目標跟蹤、多目標軌跡預測、3D 重建、3D 渲染、密集人群三維重建等方面的多個創新性解決方案,這些作品均具有很高的準確性和領先性,為十億像素計算機視覺的發展帶來了啟發。

幾年來,GigaVision 數據平台以賽為媒,已經與 CVPR、ICCV、ECCV、ACM MM 等國際頂會聯合舉辦了多屆 Workshops 和 Challenges。系列賽事的舉辦水平不斷提升,參賽規模不斷增長,關注度和影響力越來越高。

對於 GigaVision 數據平台來說,這一系列賽事構建了前沿開放的學術交流社區,面向國內乃至全球發現和儲備了一批優秀的視覺智能算法研究人才,並從中挖掘出了極具價值的科研合作切入點。

對於視覺智能領域和整個社會來說,其更重要的價值在於「以賽引才、以賽育人」,不僅能夠促進我國智能成像技術和人工智慧產業的快速發展,同時將推動人工智慧在科研領域解決真實世界問題等方面提供基礎性支撐。以「十億像素」數據集為支撐,GigaVision 挑戰賽或將開啟視覺智能領域的下一次重大突破。

立足「原創」,追求極限

在十億像素級別的視覺智能前沿探索中,GigaVision 無疑提供了一個很好的平台載體。

當然,技術高峰的攀登是沒有止境的。GigaVision 挑戰賽主辦方將不忘初心,瞄準科技前言、面向產業需求,前瞻性布局設置更多高水準、高價值的賽題,持續提升十億像素級數據平台的數據規模和場景維度,為視覺智能領域科研人員提供一個全新的學習、展示、交流和競技平台,助力視覺智能前沿科技發展和產業變革。

2023年新賽季活動即將拉開序幕,其中部分賽道與第三屆國際人工智慧會議(CICAI 2023)聯合舉辦,以豐厚獎金徵集創新算法方案,歡迎訪問官網查看最新信息。挑戰升級、獎勵升級,歡迎各位 AI 科技愛好者關注大賽官網參與挑戰!

大賽官網:GigaVision

關鍵字: