浪潮信息和英偉達制霸全球AI競速榜，AI「跑分」蘊藏哪些新看點？

美東時間12月1日，國際權威AI基準測試MLPerf™公布了最新一期的訓練(Training)榜單V1.1。結果顯示，在全部16個固定任務(Closed)測試中，英偉達和浪潮信息包攬了15個冠軍，形成了罕見的霸榜現象。

MLPerf™ AI訓練測試分為集群測試與單機測試兩個場景，各自涵蓋圖像識別(ResNet)、醫學影像分割(U-Net 3D)、目標物體檢測(SSD)、目標物體檢測(Mask R-CNN)、語音識別(RNN-T)、自然語言理解(BERT)、智能推薦(DLRM)和強化學習(MiniGo) 8類極具代表性的機器學習任務，旨在考察各家產品完成AI任務訓練的時間，時間越快代表性能越強。

作為AI「跑分」領域的「奧林匹克」，MLPerf™打榜一向最為牽動AI產業各界的神經。特別是其中的固定任務(Closed)測試，因要求參賽各方使用相同模型（或與參考模型等價的模型）和限定的優化器，對實際用戶評判AI計算系統性能具備很強的參考意義，一直以來便是廠商角逐最激烈、用戶選型最關注的領域。

本輪MLPerf™ AI訓練測試結果有何看點？「跑分」競速背後蘊藏著AI產業怎樣的發展趨勢？這些結果和趨勢對數智化浪潮下的千行百業企業意味著什麼？讓我們一探究竟。

01從V1.0到V1.1，MLPerf™霸榜現象愈發顯著

和雲計算類似，AI基本上被認為最終會是少數幾家「大廠」的競技場。背後的支撐邏輯在於：AI作為新一代通用目的技術，其能力進化十分仰賴計算系統的獨到設計、全棧技術的疊代創新、應用（數據）的規模反哺等，具備綜合能力的大廠更容易「越滾越大」。

谷歌、微軟雲、英偉達、浪潮信息、百度、戴爾等14家公司及科研機構參與了此次MLPerf™ AI訓練測試，共提交了180項固定任務(Closed)成績和6項開放任務（Open）成績。在單機測試的8項固定任務中，浪潮信息獲得7項冠軍，英偉達獲得1項冠軍；在集群測試的8項固定任務中，英偉達獲得7項冠軍，微軟雲獲得1項冠軍。

在半年前的V1.0中，英偉達和浪潮信息還分別「只」拿下16項固定任務(Closed)中的6項和4項冠軍，半年後兩家即以8項和7項冠軍霸榜V1.1，足見AI領域的馬太效應正在加速發生。

同樣的現象也發生在MLPerf™ AI推理測試中（MLPerf™每年組織AI推理及AI訓練性能測試各2次）。數據顯示，在2021年MLPerf™數據中心推理和邊緣推理兩大場景的固定任務(Closed)測試中，浪潮信息與英偉達分別拿下全部63個任務中的33項和14項冠軍，同樣排在榜單前兩位。

總體來看，隨著MLPerf™ 2021年度4次測試全部收官，全球高手同場競技，頭部效應愈發明顯。其中，浪潮信息共斬獲44項冠軍，名列MLPerfTM2021年度冠軍榜首；英偉達共拿下28項冠軍，位居第二；戴爾（11）、高通（5）、谷歌（4）分列第三、第四、第五位。

02AI行業不「內卷」，AI計算系統性能仍在躍升

值得注意的是，MLPerf™打榜中頭部玩家越來越強，並非業界AI計算系統性能提升停滯，或者「友商不給力」。相反，從V1.0到V1.1，既不乏「新鮮血液」加入競爭，也能明顯看到AI性能仍在持續提升。這表明，AI行業不「內卷」，全球頂級玩家之間的競爭還很激烈。

資料顯示，雖然訓練評測V1.1相比V1.0在參與廠商數量上只增加了1家（微軟雲、百度、HPE、三星加入，英特爾、Nettrix、PCL & PKU缺席），但MLPerf™打榜熱度絲毫不減，直觀體現在最主要的固定任務(Closed)賽道勁增了55個任務成績，使得各家提交的任務成績總量達到創新高的180個。

與此同時，各項冠軍的表現也越來越優異。在單機系統測試的8項任務中，相較半年前的V1.0競賽最佳成績，浪潮信息將醫學影像分割、語音識別、智能推薦和自然語言理解任務的AI訓練速度分別提升18%、14%、11%和8%。英偉達在單機系統測試中獲得強化學習1項冠軍，訓練速度相較V1.0提升2%。

單機性能冠軍V1.0 vs. V1.1

在集群系統測試的8項任務中，相較於V1.0競賽最佳成績，英偉達將自然語言理解、目標物體檢測（MASK R-CNN）、語音識別任務的AI訓練速度分別提升22%、18%、14%。微軟雲在集群系統測試中奪得1項冠軍，以1.26分鐘完成醫學影像分割任務訓練，訓練速度相較V1.0提升58%。

集群性能冠軍V1.0 vs. V1.1

這其中令人印象深刻的是，在MLPerf V1.0至V1.1推理比賽中，浪潮信息是唯一率先實現支持8顆A100-SXM-80GB(500W) GPU伺服器的廠商，其他廠商能夠支持的同款GPU數量只有4顆；而在V1.1訓練測試中，Supermicro也第二家推出了單機搭載8塊A100-SXM-80GB(500W) GPU的機型SYS-420GP-TNAR，在主要配置上與浪潮信息的NF5688M6實現了看齊，標誌著單機AI伺服器正加速邁進「八卡A100 500W時代」。

從實際表現看，儘管距離榜首浪潮信息仍有一定的差距，但Supermicro這款產品在圖像識別（ResNet）、醫學影像分割（U-Net 3D）、目標物體檢測（SSD）任務上都取得了TOP3的優異成績，足見AI業界在推動主流機器學習任務性能提升方面還在你追我趕、不懈努力。

談及AI伺服器在MLPerf™基準評測中的出色表現，浪潮信息方面表示主要是得益於公司在AI計算系統創新上卓越的系統設計能力和全棧優化能力，涵蓋硬體的精細校準和全面優化、軟體的調優，以及散熱技術創新等。而這些能力是建立在浪潮信息對客戶應用場景理解之上的，包括在產品研發、客戶需求、實際應用中所獲得的洞察和理解。

英偉達方面也表示，其在MLPerf™基準評測中的突破性性能得益於硬體、軟體和系統層面技術的緊密結合，公司在全棧性能上的持續投資使得其吞吐量相較之前的MLPerf™ 測試提交成績有所提高。

03固定任務與開放任務「冷熱」不同，AI加速落地

本次MLPerf™訓練榜單結果還有一個顯而易見的趨勢，那便是與固定任務(Cloesed)與開放任務(Open)賽道的參與度「冰火兩重天」——從V1.0到V1.1，前者大增了55個任務成績，後者僅僅增加了1個，這表明更多玩家將主要精力放在了基於主流成熟模型的軟硬體系統優化能力的提升。

熟悉MLPerf™基準測試的可能都知道，固定任務(Cloesed)測試要求使用相同模型和優化器，並限制Batch大小或學習率等超參數的值，衡量的是同一深度學習模型在不同軟硬體上的性能表現；開放任務(Open)測試則放開了對深度學習模型及精度的約束，只會限制使用相同的數據解決相同的問題，其它模型或平台等條件都不受限制。

簡言之，前者旨在對硬體和軟體系統進行公平的比較，考察的是廠商對軟硬體系統優化的能力；後者側重於深度學習模型及算法優化的能力，旨在推進ML模型和算法精度的創新。很明顯，前者更貼近實際AI應用環境，能夠為用戶從計算向智算轉型升級時提供評判AI計算系統性能的更強的參考意義；後者更類似於實驗室的自由發揮、充分「炫技」。

這也反映出，經過近幾年的高速發展，頭部廠商的AI全棧能力已經趨於成熟，它們的創新重點轉向了AI的應用落地，以推動AI產業化和產業AI化，釋放這一划時代通用目的技術巨大的經濟價值和社會價值。

IDC的報告也印證了這種趨勢。該機構預測，AI計算在整體計算市場的占比正逐年提高。作為AI基礎設施的主體，全球AI伺服器2020年上半年市場規模已達55.9億美元，預計到2024年將達到251億美元。上述冠軍霸榜的浪潮信息，目前全球AI伺服器市場份額第一，中國市場份額已連續五年穩居第一。