計算機行業專題研究:ChatGPT伺服器,深度拆解

未來智庫 發佈 2024-05-01T10:17:11.397120+00:00

據各公司官網,2023 年 2 月 7 日,百度宣布將推出 ChatGPT 類似產品「文心一言」,預計今年 3 月展開內測;

(報告出品方/作者:華泰證券,謝春生,林海亮)

AI伺服器:ChatGPT訓練熱潮有望帶動AI伺服器需求

ChatGPT:大模型+Transformer架構,帶動並行計算需求

大廠布局 ChatGPT 類似產品,或將帶來底層算力需求。ChatGPT 發布之後,引發了全球 範圍的關注和討論,國內各大廠商相繼宣布 GPT 模型開發計劃。據各公司官網,2023 年 2 月 7 日,百度宣布將推出 ChatGPT 類似產品「文心一言」,預計今年 3 月展開內測;2 月 8 日阿里宣布阿里版 ChatGPT 正在研發中,目前處於內測階段;2 月 9 日,字節跳動旗下 AI Lab 宣布正在開展 ChatGPT 和 AIGC 相關研發,未來將為 PICO 提供技術支持;2 月 10 日,京東旗下言犀人工智慧平台推出產業版 ChatGPT—「 ChatJD」。我們認為,隨著國內 網際網路廠商陸續開展 ChatGPT 類似產品研發,GPT 大模型訓練熱潮或將帶來底層算力需 求快速釋放。

AI 模型對算力的需求主要體現在訓練和推理兩個層面。當前主流的人工智慧算法通常可分 為「訓練」和「推理」兩個階段。據 IDC 數據,2021 年中國人工智慧伺服器工作負載中, 57.6%的負載用於推理,42.4%用於模型訓練。據 IDC 預計,到 2026 年 AI 推理的負載比 例將進一步提升至 62.2%。

具體來看: 1)訓練階段:基於充裕的數據來調整和優化人工智慧模型的參數,使模型的準確度達到預 期。對於圖像識別、語音識別與自然語言處理等領域的複雜問題,為了獲得更準確的人工 智能模型,訓練階段常常需要處理大量數據集、做反覆的疊代計算,耗費巨大的運算量。 2)推理階段:訓練階段結束以後,人工智慧模型已經建立完畢,已可用於推理或預測待處 理輸入數據對應的輸出(例如給定一張圖片,識別該圖片中的物體),此過程被稱為推理階 段。推理階段對單個任務的計算能力要求不如訓練那麼大,但是由於訓練出來的模型會多 次用於推理,因此推理運算的總計算量也相當可觀。

ChatGPT 算力需求場景包括預訓練、Finetune 及日常運營。從 ChatGPT 實際應用情況來 看,從訓練+推理的框架出發,我們可以將 ChatGPT 的算力需求按場景進一步拆分為預訓 練、Finetune 及日常運營三個部分:1)預訓練:主要通過大量無標註的純文本數據,訓練 模型基礎語言能力,得到類似 GPT-1/2/3 這樣的基礎大模型;2)Finetune:在完成預訓練 的大模型基礎上,進行監督學習、強化學習、遷移學習等二次或多次訓練,實現對模型參 數量的優化調整;3)日常運營:基於用戶輸入信息,加載模型參數進行推理計算,並實現 最終結果的反饋輸出。

預訓練階段:單次算力需求取決於模型參數量,最高可達3640 PFlop/s-day

ChatGPT 基於 Transformer 架構,進行語言模型預訓練。GPT 模型之所以能夠高效地完 成大規模參數計算,我們認為離不開Transformer架構的加持。拆解Transformer架構來看, 核心是由編碼模塊和解碼模塊構成,而 GPT 模型只用到了解碼模塊。拆解模塊來看,大致 分為三層:前饋神經網絡層、編碼/解碼自注意力機制層(Self-Attention)、自注意力機制掩 碼層,其中:1)注意力機制層主要作用在於計算某個單詞對於全部單詞的權重(即 Attention), 從而能夠更好地去學習所有輸入之間的關係,實現對文本內在關係的理解和更大規模的並 行計算;2)前饋神經網絡提供了對數據信息的高效存儲及檢索;3)掩碼層在這一過程中 幫助模型屏蔽位於計算位置右側尚未出現的單詞。因此,相較於前代深度學習架構 RNN, Transformer 架構可以實現更大規模的並行計算,大大提升了計算效率。

單一大模型路線下,需要完成大規模參數計算。以 GPT-3 模型為例,隨著模型朝更大體量 的方向演進,參數量從 GPT-3 Small 的 1.25 億個增長到 GPT-3 175B 的 1746 億個,一次 訓練所需的計算量從 2.6PFlop/s-day 增至 3640PFlop/s-day。與此同時,在不同學習樣本 (包括小樣本、單一樣本、零樣本)條件下的模型,隨著參數量的提升均實現不同幅度的 上下文學習能力改善,外在表現為語言準確率的提升。我們認為,隨著大模型訓練表現出 越來越強大的實戰能力,未來或將成為 NLP 訓練的主流選擇。

推理階段:預計單月運營算力需求約7034.7 PFlop/s-day

ChatGPT 近一月訪問量為 8.89 億次。據 SimilarWeb 數據,2023 年 1 月以來 ChatGPT 官 網日訪問量持續攀升,從 1 月初的日均千萬次級別,到 1 月底日均兩千萬次,再到 2 月中 旬的三千萬次級別,隨著軟體效果的廣泛傳播,用戶訪問次數愈發頻繁。加總近一月 (2023/1/17-2023/2/17)ChatGPT 官網訪問量數據來看,可得 ChatGPT 月訪問量為 8.89 億次。

預計日常運營單月所需算力約 7034.7 PFlop/s-day。日常運營過程中,用戶交互帶來的數 據處理需求同樣也是一筆不小的算力開支。據前文,近一個月(2023/1/17-2023/2/17) ChatGPT 官網總訪問量為 8.89 億次。據 Fortune 雜誌,每次用戶與 ChatGPT 互動,產生 的算力雲服務成本約 0.01 美元。基於此,我們測算得 2023 年 1 月 OpenAI 為 ChatGPT 支 付的運營算力成本約 889 萬美元。此外,據 Lambda,使用訓練一次 1746 億參數的 GPT-3 模型所需花費的算力成本超過 460 萬美元;據 OpenAI,訓練一次 1746 億參數的 GPT-3 模型需要的算力約為 3640 PFlop/s-day。我們假設單位算力成本固定,測算得 ChatGPT 單 月運營所需算力約 7034.7PFlop/s-day。

Finetune階段:預計ChatGPT單月Finetune的算力需求至少為1350.4PFlop/s-day

模型疊代帶來 Finetune 算力需求。從模型疊代的角度來看,ChatGPT 模型並不是靜態的, 而是需要不斷進行 Finetune 模型調優,以確保模型處於最佳應用狀態。這一過程中,一方 面是需要開發者對模型參數進行調整,確保輸出內容不是有害和失真的;另一方面,需要 基於用戶反饋和 PPO 策略,對模型進行大規模或小規模的疊代訓練。因此,模型調優同樣 會為 OpenAI 帶來算力成本,具體算力需求和成本金額取決於模型的疊代速度。

預計 ChatGPT 單月 Finetune 算力需求至少為 1350.4PFlop/s-day。據 IDC 預計,2022 年中國人工智慧伺服器負載中,推理和訓練的比例分別為 58.5%、41.5%。我們假設, ChatGPT 對推理和訓練的算力需求分布與之保持一致,且已知單月運營需要算力 7034.7 PFlop/s-day、一次預訓練需要算力 3640 PFlop/s-day。基於此,我們進一步假設:1)考 慮到 AI 大模型預訓練主要通過巨量數據餵養完成,模型底層架構變化頻率不高,故我們假 設每月最多進行一次預訓練;2)人類反饋機制下,模型需要不斷獲得人類指導以實現參數 調優,以月為單位可能多次進行。由此我們計算得 ChatGPT 單月 Finetune 算力成本至少 為 1350.4PFlop/s-day。

ChatGPT需要的伺服器:AI訓練型伺服器+AI推理型伺服器

隨著計算場景擴展,算力硬體也在發生變化。在傳統軟體架構下,主要的模式都是 CS 模 式,服務端大多是單機處理幾千個輕量請求。而在邊緣計算場景下,需要數萬台伺服器處 理上億個重負載請求。邊緣計算機本質上是用 CES 模式取代 CS 模式,當前的網際網路 IT 架 構已經從 CS 模式,逐步向 CDN 服務為核心的 CES 模式轉變。但當前的 CDN 模式比較大 的局限性在於缺乏靈活性,不能解決邊緣上非結構化數據存儲和處理的需求,引入 Edge 端(邊緣端)就是為了解決 CS 模式下無法處理的業務。而在 AI 訓練場景下,計算量及數 據類型的變化導致 C-E-S 又無法滿足集中大算力需求,計算架構回歸 C-S,並向高效率並 行計算演變。

伺服器作為算力硬體核心,面向不同計算場景分化演進。我們認為,計算架構的變化是推 動伺服器技術演進的關鍵變量。從計算場景來看,隨著計算架構從 PC 到雲計算,到邊緣計 算,再到 AI 訓練,伺服器需求也在發生相應變化。從單一伺服器更加強調服務個體性能, 如穩定性、吞吐量、響應時間等。雲數據中心伺服器對單個伺服器性能要求下降,但更強 調數據中心整體性能,如成本、快速部署和交付。邊緣計算場景下,開始出現異構計算等 複雜環境計算,對數據交互實時性要求有所提升,需要在邊緣端設立單獨的伺服器設施。 而 AI 伺服器主要專為人工智慧訓練設計,數據類型以向量/張量為主,多採用大規模並行計 算以提升運算效率。

同一技術路線下,伺服器面向數據處理需求持續疊代。復盤主流伺服器發展歷程來看,隨 著數據量激增、數據場景複雜化,不同類型伺服器發展驅動力也有所差異。具體來看: 1)通用伺服器:傳統通用伺服器的發展與計算機架構發展同步,通過處理器的時鐘頻率、 指令集並行度、核數等硬體指標的提升優化自身性能,發展較為緩慢。

2)雲計算伺服器:雲計算的概念於 20 世紀 80 年代提出,僅 20 年後就有較為成熟的產品 推出,如 VMware 的 VMware Workstation 和亞馬遜 AWS 等。2010 年隨著 OpenStack 開 源,阿里雲、華為雲等項目相繼布局,雲計算行業快速走向成熟。 3)邊緣計算伺服器:邊緣計算概念孵化於 2015 年,僅 2 年後就有諸如亞馬遜 AWS Greengrass、谷歌 GMEC 等邊緣計算平台產生,並在微軟的帶領下提前進入技術併購期。 4)AI 伺服器:AI 伺服器最早由思科在 2018 推出,專為人工智慧、機器學習的工作服務而 設計,硬體架構更加適合 AI 訓練場景下的算力需求。

雲計算伺服器:大規模數據處理需求下的商業模式變革

數據量激增帶來大算力需求,雲計算伺服器應運而生。通用伺服器通過提高硬體指標提升 性能,而隨著 CPU 的工藝和單個 CPU 的核心數量接近極限,通用伺服器性能難以支持數 據量激增帶來的性能需求。雲計算伺服器則通過虛擬化技術,將計算和存儲資源進行池化, 把原來物理隔離的單台計算資源進行虛擬化和集中化。最終以集群化處理來達到單台服務 器所難以實現的高性能計算。同時,雲計算伺服器集群的計算能力可以通過不斷增加虛擬 化伺服器的數量來進行擴展,突破單個伺服器硬體限制,應對數據量激增帶來的性能需求。

雲計算伺服器節約部分硬體成本,降低算力採購門檻。早期大規模數據處理成本極高,原 因在於通用伺服器的購置和運維成本居高不下。傳統伺服器中均包含處理器摸塊、存儲模 塊、網絡模塊、電源、風扇等全套設備,而雲計算伺服器體系架構精簡,省去重複的模塊, 提高了利用率。同時雲計算伺服器針對節能需求,將存儲模塊進行虛擬化,並去除了主板 上的非必要硬體,降低了整體計算成本,並通過流量計費模式,使得更多廠商可以負擔算 力開支,降低了算力採購門檻。

邊緣伺服器:高數據密度和帶寬限制下保證低時延

邊緣計算在雲計算的基礎上引入邊緣層。邊緣計算是在靠近物或數據源頭的網絡邊緣側, 為應用提供融合計算、存儲和網絡等資源。在體系架構上,邊緣計算在終端層和雲層之間 引入邊緣層,從而將雲服務擴展到網絡邊緣。其中終端層由物聯網設備構成,最靠近用戶, 負責收集原始數據並上傳至上層進行計算;邊緣層由路由器、網關、邊緣伺服器等組成, 由於距離用戶較近,可以運行延遲敏感應用,滿足用戶對低時延的要求;雲層由高性能服 務器等組成,可以執行複雜計算任務。

邊緣計算較雲計算在實時性、低成本和安全性等方面有優勢: 1)實時性:邊緣計算將原有雲計算中心的計算任務部分或全部遷移到與用戶距離更近的網 絡邊緣進行處理,而不是在外部數據中心或雲端進行,因此提高了數據傳輸性能,保證了 處理的實時性。 2)低帶寬成本:終端產生的數據無需遠距離傳輸至雲端,避免帶寬成本。同時,邊緣計算 機制中,邊緣層可對終端產生數據進行預處理,從而降低雲計算中心的計算負載。 3)安全性:邊緣計算在本地設備和邊緣層設備中處理大部分數據而不是將其上傳至雲端, 減少實際存在風險的數據量,避免數據泄露危險。

AI伺服器:更適合深度學習等AI訓練場景

AI 伺服器採取 GPU 架構,相較 CPU 更適合進行大規模並行計算。通用伺服器採用 CPU 作為計算能力來源,而 AI 伺服器為異構伺服器,可以根據應用範圍採用不同的組合方式, 如 CPUGPU、CPUTPU、CPU 其他加速卡等,主要以 GPU 提供計算能力。從 ChatGPT 模型計算方式來看,主要特徵是採用了並行計算。對比上一代深度學習模型 RNN 來看, Transformer 架構下,AI 模型可以為輸入序列中的任何字符提供上下文,因此可以一次處理 所有輸入,而不是一次只處理一個詞,從而使得更大規模的參數計算成為可能。而從 GPU 的計算方式來看,由於 GPU 採用了數量眾多的計算單元和超長的流水線,因此其架構設計 較 CPU 而言,更適合進行大吞吐量的 AI 並行計算。

深度學習主要進行矩陣向量計算,AI 伺服器處理效率更高。從 ChatGPT 模型結構來看, 基於 Transformer 架構,ChatGPT 模型採用注意力機制進行文本單詞權重賦值,並向前饋 神經網絡輸出數值結果,這一過程需要進行大量向量及張量運算。而 AI 伺服器中往往集成 多個 AI GPU,AI GPU 通常支持多重矩陣運算,例如卷積、池化和激活函數,以加速深度 學習算法的運算。因此在人工智慧場景下,AI 伺服器往往較 GPU 伺服器計算效率更高,具 備一定應用優勢。

AI 伺服器分類方式有兩種: 1)按應用場景:AI 伺服器按照應用場景可以分為深度學習訓練型和智能應用推理型。訓練 任務對伺服器算力要求較高,需要訓練型伺服器提供高密度算力支持,典型產品有中科曙 光 X785-G30 和華為昇騰 Atlas 800(型號 9000、型號 9010)。推理任務則是利用訓練後 的模型提供服務,對算力無較高要求,典型產品有中科曙光 X785-G40 和華為昇騰 Atlas 800 (型號 3000、型號 3010)。 2)按晶片類型:AI 伺服器為異構伺服器,可以根據應用範圍調整計算模塊結構,可採用 CPU+GPU、CPU+FPGA、CPU+TPU、CPU+ASIC 或 CPU+多種加速卡等組合形式。目 前,產品中最常見的是 CPU+多塊 GPU 的方式。

常見的 AI 伺服器分為四路、八路、十六路。一般來說,通用伺服器主要採用以 CPU 為主 導的串行架構,更擅長邏輯運算;而 AI 伺服器主要採用加速卡為主導的異構形式,更擅長 做大吞吐量的並行計算。按 CPU 數量,通用伺服器可分為雙路、四路和八路等。雖然 AI 伺服器一般僅搭載 1-2 塊 CPU,但 GPU 數量顯著占優。按 GPU 數量,AI 伺服器可以分為 四路、八路和十六路伺服器,其中搭載 8 塊 GPU 的八路 AI 伺服器最常見。

AI 伺服器採用多晶片組合,算力硬體成本更高。我們以典型伺服器產品為例拆解硬體構成, 可以更清晰地理解兩類伺服器硬體架構區別:以浪潮通用伺服器 NF5280M6 為例,該服務 器採用 1~2 顆第三代 Intel Xeon 可擴展處理器,據英特爾官網,每顆 CPU 售價約 64000 萬元,故該伺服器晶片成本約 64000~128000;以浪潮 AI 伺服器 NF5688M6 為例,該服務 器採用2顆第三代Intel Xeon可擴展處理器+8顆英偉達A800 GPU的組合,據英偉達官網, 每顆 A800 售價 104000 元,故該伺服器晶片成本約 96 萬元。

ChatGPT需要的晶片:CPU+GPU、FPGA、ASIC

ChatGPT帶動大模型訓練熱潮,AI伺服器需求有望放量

GPT 模型訓練需要大算力支持,或將帶來 AI 伺服器建設需求。我們認為,隨著國內廠商陸 續布局 ChatGPT 類似產品,GPT 大模型預訓練、調優及日常運營或將帶來大量算力需求, 進而帶動國內 AI 伺服器市場放量。以 GPT-3 175B 模型預訓練過程為例,據 OpenAI,進 行一次 GPT-3 175B 模型的預訓練需要的算力約 3640 PFlop/s-day。我們假設以浪潮信息 目前算力最強的 AI 伺服器 NF5688M6(PFlop/s)進行計算,在預訓練期限分別為 3、5、 10 天的假設下,單一廠商需採購的 AI 伺服器數量分別為 243、146、73 台。

AI 大模型訓練需求火熱,智能算力規模增長有望帶動 AI 伺服器放量。據 IDC 數據,以半 精度(FP16)運算能力換算,2021 年中國智能算力規模約 155.2EFLOPS。隨著 AI 模型 日益複雜、計算數據量快速增長、人工智慧應用場景不斷深化,未來國內智能算力規模有 望實現快速增長。IDC 預計 2022 年國內智能算力規模將同比增長 72.7%至 268.0 EFLOPS, 預計2026年智能算力規模將達1271.4 EFLOPS,2022-2026年算力規模CAGR將達69.2%。 我們認為,AI 伺服器作為承載智能算力運算的主要基礎設施,有望受益於下游需求放量。

國產廠商布局豐富產品矩陣,占據全球AI伺服器市場領先地位

浪潮信息、聯想、華為等國產廠商在全球 AI 伺服器市場占據領先地位。全球市場來看,AI 伺服器市場份額 TOP10 廠商中,國產廠商占據 4 席,累計市場份額超 35%,其中浪潮信 息以 20.2%的份額排名第一。國內市場來看,AI 伺服器市場集中度較高,排名前三的供應 商為浪潮信息、寧暢和華為,CR3 達 70.40%。我們認為,國產廠商憑藉強大產品競爭力, 已經在國際市場占據一定領先地位,未來隨著 AI 算力需求釋放,有望充分受益於產業成長 機遇。

浪潮信息:AI 伺服器產品矩陣豐富,產品力獲國際認可。目前公司 AI 伺服器主要產品型號 包括 NF5688M6、NF5488A5 等,據公司官網,2021 年上述兩款 AI 伺服器在國際權威 AI 基準測試 MLPerf 榜單中,獲得醫學影像分割、目標物體檢測、自然語言理解、智能推薦等 7 項訓練冠軍,可滿足包括自然語言理解等在內的多項 AI 訓練需求。此外,公司在 AI 領域 的積累還包括 AI 資源平台、AI 算法平台等,具備大量算力解決方案實施經驗。

華為:AI 伺服器融合自研加速卡與英特爾 CPU。公司 AI 伺服器為 Atlas 800 推理伺服器系 列,旗下有型號 3000、型號 3010、型號 9000 和型號 9010。其中,型號 3000 基於昇騰 310 晶片,型號 3010 基於 Intel 處理器,型號 9000 基於華為鯤鵬 920+昇騰 910 處理器, 型號 9010 基於 Intel 處理器+華為昇騰 910 晶片。旗艦級晶片加持下,產品最高擁有 2.24 PFLOPS FP16 的高密度算力,並在設計結構優化下,晶片間跨伺服器互聯時延可縮短 10~70%。

新華三 AI 伺服器覆蓋各訓練負載要求,結合軟體平台構建 AI 完整生態。公司主要產品型 號包括 R4900 G5、R5300 G5、R5500 G5 等,可分別針對不同訓練負載要求,滿足大小 規模的推理/訓練任務。軟體層面,公司通過新華三傲飛 AI/HPC 融合管理平台,全面提升 AI 作業效率約 32%。2022 年,新華三被國際權威分析機構 Forrester 認定為大型人工智慧 系統成熟廠商,可以提供可靠的伺服器解決方案。同時,新華三 AI 伺服器在 MLPerf 測評 中共斬獲 86 項世界第一。

龍頭廠商有望充分受益於算力需求釋放。我們認為,隨著 ChatGPT 待動大模型訓練熱潮, 以人工智慧訓練為代表的智能算力需求逐步釋放,有望帶動 AI 伺服器放量。拆解 AI 伺服器 成本來看,GPU 等算力晶片為核心組件,先進算力產品受美國出口管制影響,但可通過采 購 A800 實現基本替代。我們認為,浪潮信息等國產頭部廠商憑藉豐富產品矩陣和強大產品 競爭力,占據全球 AI 伺服器市場主要份額,未來有望充分受益於伺服器需求釋放。

GPU算力晶片為核心組件,國產替代未來可期

拆解來看,AI 伺服器主要成本包括算力晶片、內存、存儲等。據 IDC 的 2018 年伺服器成 本結構拆分數據,晶片成本在基礎型伺服器中約占總成本的 32%,在高性能或具有更強運 算能力的伺服器中,晶片相關成本占比可以高達 50%-83%。以機器學習型 AI 伺服器為例, 其主要成本由 GPU、CPU、內存及其他部件組成,其中 GPU 成本占比最高,達到 72.8%。

AI 伺服器算力晶片以 GPU 為主。據 IDC,2022 年國內人工智慧晶片市場中,GPU 晶片占 據主要市場份額,達 89.0%,主因 GPU 晶片並行計算架構更加適合於複雜數學計算場景, 可以較好支持高度並行的工作負載,因此常用於數據中心的模型訓練,以及邊緣側及端側 的推理工作負載。此外,其他主要的人工智慧晶片還包括 NPU、ASIC、FPGA 等。一般而 言,AI 伺服器中算力晶片需求數量取決於伺服器設計性能要求,需求種類取決於成本、功 耗、算法等指標。常見的算力晶片組合,如 8x GPU+2x CPU、4x GPU+ 2x CPU、8x FPGA+1x CPU、4x FPGA+1x CPU 等。

GPU 結構:計算單元+顯存。計算單元(Streaming Multiprocessor):計算單元的功能是執 行計算。其中每一個 SM 都有獨立的控制單元、寄存器、緩存、指令流水線。顯存(Global Memory):顯存是在 GPU 板卡上的 DRAM,容量大但速度慢。 1.計算單元底層架構: 顯卡核心構成多樣,不同核心專注不同任務。以英偉達為例,GPU 顯卡構成包括 TENSOR CORE、CUDA 和 RT 等部分。TENSOR CORE,即張量核心,是英偉達 GPU 上一塊特殊 區域,針對 AI 矩陣計算設計,可顯著提高 AI 訓練吞吐量和推理性能。CUDA 則是英偉達 生態中的通用結構,一般包括多個數據類型,適用於視頻製作,圖像處理,三維渲染等常 見圖像處理和計算工作。

2、TOPS 和 TFLOPS 是常見算力衡量單位: 1)OPS:OPS(Operations Per Second)指每秒執行的操作次數,是整數運算的單位, 常在 INT8、INT4 等計算精度下度量算力性能。其中 TOPS(Tera Operations Per Second) 代表處理器每秒鐘可進行一萬億次(10^12)操作,類似的單位還有諸如 GOPS、MOPS, 均代表每秒的操作次數。 2)FLOPS:FLOPS(Floating-point Operations Per Second)指每秒所執行的浮點運算次 數,常在單精度(FP32)、半精度(FP16)等計算精度下度量算力性能。TFLOPS(Tera Floating-point Operations Per Second)代表處理器每秒鐘可進行一萬億次(10^12)浮點 運算。雖然 TOPS 和 TFLOPS 數量級一樣,但前者是衡量操作次數,後者是衡量浮點運算, TOPS 要結合數據類型精度(如 INT8,FP16 等)才能與 FLOPS 轉換。

3.顯存位寬、帶寬與容量: 顯存的主要指標包括位寬、帶寬和容量。顯存本身與 CPU 的內存類似,將數據在 GPU 核 心與磁碟間傳輸。顯存位寬是顯存在一個時鐘周期內所能傳送數據的位數,決定了顯存瞬 時傳輸的數據量。顯存帶寬是指顯示晶片與顯存之間的數據傳輸速率,由顯存頻率和顯存 位寬共同決定,體現了顯卡的速度和性能。顯存容量決定了顯存臨時存儲數據的多少。 目前主流 AI GPU 晶片包括英偉達 H100、A100 以及 V100 等。全球來看,目前用於人工 智能訓練的 AI GPU 市場以英偉達為主導,公司旗下先進算力產品主要包括 H100、A100 以及 V100。對比雙精度浮點計算性能(FP64 Tensor Core)來看,H100、A100、V100 計算速度分別為 67 TFLOPS、19.5 TFLOPS、8.2 TFLOPS。從顯存帶寬來看,H100、A100、 V100 傳輸速度分別為 3TB/s、2TB/s、900GB/s。

先進算力晶片進口受限或為國產 AI 伺服器的瓶頸之一。2022 年 10 月 7 日,美國商務部工 業與安全局(BIS)宣布了針對中國出口先進晶片的管制新規聲明。聲明規定,滿足輸入輸 出(I/O)雙向傳輸速度高於 600GB/s,同時每次操作的比特長度乘以 TOPS 計算出的處 理性能合計為 4800 或更多算力的產品,將無法出口至中國。以英偉達 A100 為例,以 TF32 性能測算,即 156*32=4992>4800,且傳輸速度為 600GB/s。基於此,我們可以推斷,性 能大於等於 A100 GPU 的先進算力晶片屬於美國出口限制範圍。

採用英偉達 A800 伺服器或為當前可行替代方案。以浪潮 NF5688M6 為例,NF5688M6 是 為超大規模數據中心研發的 NVLink AI 伺服器,支持 2 顆 Intel 最新的 Ice Lake CPU 和 8 顆 NVIDIA 最新的 NVSwitch 全互聯 A800GPU,單機可提供 5PFlops 的 AI 計算性能。對 比核心硬體來看,NF5688M6 採用英偉達中國特供版晶片—A800,在浮點計算能力、顯存 帶寬、顯存容量等性能指標上,與先進算力晶片—A100 基本一致,主要差異在於晶片的數 據傳輸速度,約為 A100 的三分之二。

英偉達其他 AI GPU 晶片均不受出口限制影響。考慮到目前美國 GPU 晶片限制主要集中在 先進算力領域,倘若未來進一步加大限制力度,A800 等大算力晶片可能出現進一步被限制 的風險。而從英偉達產品線布局來看,除了前面討論的 A100、A800、V100、H100 等先進 算力晶片外,還有 A2、A10、A30、A40、T4 等。這些晶片中,浮點計算能力最強的型號 為 A30,輸出性能為 82*32=2624<4800,因此不受出口限制影響。

國產 AI GPU 性能持續升級,國產替代未來可期。目前國產 AI GPU 廠商主要包括阿里、華 為、寒武紀、天數智芯等。隨著國內廠商持續加強 GPU 研發,產品力不斷升級。以華為昇 騰 910 為例,該款晶片採用 7nm 製程,集成了超 496 億個電晶體,可以提供 320TFLOPS 的 FP16 計算速度或 640TOPS 的 INT8 算力,略高於英偉達 A100 的 FP16 計算速度 (312TFLOPS,不採用英偉達稀疏技術)。我們認為,單純從晶片算力性能來看,部分國 產晶片已經能夠追趕海外主流晶片。隨著國產生態逐步打磨,GPU 性能提升有望推動國產 化替代。

總結:從ChatGPT到AI伺服器

1、GPT 模型需要什麼樣的算力? ChatGPT 採用單一大模型路線,對底層算力的需求主要體現在訓練和推理兩個層面,訓練 即使用大量數據集,對模型做反覆疊代計算,推理即利用模型對輸入信息進行處理並給出 結果。據 IDC 數據,2021 年中國人工智慧伺服器工作負載中,57.6%的負載用於推理,42.4% 用於模型訓練。具體來看,算力需求場景包括預訓練、Finetune 以及日常運營。根據我們 的測算,GPT-3 175B 模型需要的預訓練算力約 3640 PFlop/s-day、ChatGPT 單月運營需 要的算力約 7034.7 PFlop/s-day、單月 Finetune 需要的算力至少為 1350.4 PFlop/s-day。

2、GPT 模型需要什麼樣的伺服器? 我們認為,伺服器類型不斷演化的動力來自:計算架構的變化。從伺服器產業發展歷程來 看,隨著計算架構從單機到 C-S、C-E-S,陸續演化出 PC、雲計算、邊緣計算等伺服器類 型。而在 AI 訓練時代,C-S 架構的回歸以及大規模並行計算需求,又帶來 AI 伺服器的擴張。 對比傳統伺服器來看,AI 伺服器由於採用 GPU 等加速卡,更加擅長向量、張量計算,對於 AI 訓練及推理場景的處理能力更強,且採用多晶片組合架構,單台伺服器晶片成本也較高。

3、GPT 模型需要什麼樣的算力晶片? GPT 模型的訓練和推理計算主要由 AI 伺服器完成,底層算力晶片主要包括 CPU、GPU、 FPGA、ASIC 等。常見的算力晶片組合,如 8x GPU+2x CPU、4x GPU+ 2x CPU、8x FPGA+1x CPU、4x FPGA+1x CPU 等。據 IDC,2022 年國內人工智慧晶片市場中,GPU 晶片占據主要市場份額,達 89.0%。目前海外主流 AI GPU 晶片包括英偉達 H100、A100 以及 V100 等。 4、美國先進算力晶片出口限制對 GPT 產業的影響? 受美國先進算力晶片出口限制政策影響,目前國內只能採購性能低於 A100 的 AI GPU,如 英偉達 A800 系列等。此外,英偉達 A 系列、T 系列性能更低的前代版本尚且不受影響。考 慮到部分國產 AI GPU 如華為昇騰在 FP16 浮點計算性能上已經實現對英偉達 A100 的加速 追趕,未來隨著國產生態打磨,AI GPU 國產替代有望加速。

(本文僅供參考,不代表我們的任何投資建議。如需使用相關信息,請參閱報告原文。)

精選報告來源:【未來智庫】「連結」

關鍵字: