「大算力時代」+「存算一體化」,GPU 封裝正當時

遠瞻智庫 發佈 2024-01-23T01:49:17.269381+00:00

支持Chiplet的底層封裝技術目前主要由台積電、日月光、英特爾等公司主導,包含從 2D MCM 到 2.5D CoWoS、EMIB 和 3D Hybrid Bonding。

(報告作者:方正證券研究所分析師 吳文吉)

AIGC 算力大時代下,GPU 支撐強大的算力需求。ChatGPT 這樣的生成式 AI 不僅需要千億級的大模型,同時還需要有龐大的算力基礎。

1 GPU 封裝:大算力時代下,被寄予厚望的 Chiplet

AIGC 算力大時代下,GPU 支撐強大的算力需求。GPU 即圖形處理器(英語:graphics processing unit),又稱顯示核心、視覺處理器、顯示晶片,可以兼容訓練和推理,被廣泛運用於人工智慧等領域。作為AI 硬體的心臟,GPU 的市場被英偉達和 AMD 等海外巨頭壟斷。

ChatGPT 這樣的生成式 AI 不僅需要千億級的大模型,同時還需要有龐大的算力基礎。訓練 AI 現在主要依賴 NVIDIA 的 AI 加速卡,達到 ChatGPT 這種級別的至少需要 1 萬張 A100 加速卡,而一顆英偉達頂級 GPU 單價高達 8 萬元。

存算一體化突破算力瓶頸,GPU 封裝進入正當時。在 AI 運算中,神經網絡參數(權重、偏差、超參數和其他)需要存儲在內存中,常規存儲器與處理器之間的數據搬運速度慢,成為運算速度提升的瓶頸,且將數據搬運的功耗高。2016 年英偉達率先推出首款採用 CoWoS 封裝的繪圖晶片,為全球 AI 熱潮拉開序幕。英偉達 H100 擁有 800 億個電晶體,相比上一代的 A100,有著六倍的性能提升以及兩倍的 MMA改進,採用的 CoWoS 2.5D 晶圓級封裝。在算力晶片性能暴增的時代下,相關的封裝產業鏈也逐漸的進入高速發展時期。

Chiplet 是後摩爾時代的半導體工藝發展方向之一。Chiplet 將大型單片晶片劃分為一組具有單獨功能的小晶片單元 die(裸片),小晶片根據需要使用不同的工藝節點製造,再通過跨晶片互聯和封裝技術進行封裝級別集成,降低成本的同時獲得更高的集成度。

Chiplet 技術要把原本單個大矽片「切」成多個再通過封裝重新組裝起來,而單個矽片上的布線密度和信號傳輸質量遠高於 Chiplet 之間,這就要求必須發展出高密度、大帶寬布線的先進封裝技術,儘可能的提升在多個 Chiplet之間布線的數量並提升信號傳輸質量。支持Chiplet的底層封裝技術目前主要由台積電、日月光、英特爾等公司主導,包含從 2D MCM 到 2.5D CoWoS、EMIB 和 3D Hybrid Bonding。

2. CoWoS:適用於 HPC 與 AI 計算領域的 2.5D 封裝技術

CoWoS ( Chip-on-Wafer-on-Substrate ) 是台積電主導的 , 基於interposer(中間介質層)實現的 2.5D 封裝技術。CoWoS 先將晶片通過 CoW 封裝至 Wafer(矽晶圓),並使用矽載片上的高密度走線進行互聯,再把 CoW 晶片與 Substrate(基板)連接,整合成 CoWoS,達到封裝體積小、功耗低、引腳少的效果。

TSV(Through Silicon Via,矽通孔)是 CoMoS 封裝的關鍵技術。

TSV 在晶片和晶片之間、晶圓和晶圓之間製作垂直導通,通過銅、鎢、多晶矽等導電物質的填充,實現矽通孔的垂直電氣互連,是目前唯一的垂直電互聯技術。台積電根據中介層的不同,將其 CoWoS 封裝技術分為三種類型:CoWoS-S、CoWoS-R、CoWoS-L。

CoWoS-S 從 2011 年的第一代升級到 2021 年的第五代,第六代技術有望於 2023 年推出,將會在基板上封裝 2 顆運算核心,同時可以板載多達 12 顆 HBM 緩存晶片。第五代 CoWoS-S 技術使用了全新的 TSV解決方案,更厚的銅連接線,電晶體數量是第 3 代的 20 倍。它的矽中介層擴大到 2500mm2,相當於 3 倍光罩面積,擁有 8 個 HBM2E 堆棧的空間,容量高達 128 GB。並且,台積電以 Metal Tim 形式提供最新高性能處理器散熱解決方案,與第一代 Gel TIM 相比,封裝熱阻降低至 0.15 倍。

AI 時代下算力需求日益增長,GPU 先進封裝的重要性凸顯。CoWoS協助台積電拿下英偉達、AMD、Google 等高性能計算晶片訂單。根據 DIGITIMES 報導,ChatGPT 日益普及所刺激的高端 AI 晶片需求激增,預計將推動對台積電 CoWoS 封裝的需求,微軟已與台積電及其生態系統合作夥伴接洽,商討將 CoWoS 封裝用於其自己的 AI 晶片。

英偉達高端 GPU 都採用 CoWoS 封裝技術,將 GPU 晶片和 HBM2集合在一起。2016 年英偉達推出 Tesla P100,通過加入採用 HBM2 的CoWoS 第三代技術,將計算性能和數據緊密集成在同一個程序包內,提供的內存性能是 NVIDIA Maxwell 架構的三倍以上。並且,面向 HPC和 AI 訓練,英偉達以 Volta、Ampere 架構為基礎推出了 V100、A100高端 GPU,均採用台積電 CoWoS 封裝,製程分別為 12nm、7nm,分別配備 32 GB HBM2、40GB HBM2E 內存。基於台積電最先進的CoWoS封裝,全新Hopper架構的H100 GPU製程達到 4nm,具有 80GB的 HBM3 內存和超高的 3.2TB/s 內存帶寬。

AMD 的數據中心加速器晶片將重新採用 CoWoS 封裝。AMD 在 2017年考慮將 Vega 20 的供應商從 GlobalFoundries 更換為台積電,主要看重其 7nm 工藝和 CoWoS 先進封裝,Vega 20 配備 32GB HBM2 內存,直接對標英偉達 V100 加速器。根據 DIGITIMES 報導,AMD MI 200原本由日月光集團與旗下矽品提供,應用 FO-EB 先進封裝(扇出嵌入式橋接),新 MI 系列數據中心加速器晶片將重新採用台積電先進封裝CoWoS。基於 Aldebaran GPU 的 MI250 或採用第五代 CoWoS 封裝技術,製程 6nm,實現 128GB HBM2E 內存等超高性能配置。

3. HBM:存算一體化下的主流,突破了內存容量與帶寬瓶頸

HBM 是「GPU+存儲器」的模式,將解決高算力 AI 背景下晶片的「存算一體」問題。HBM(High Bandwidth Memory,高帶寬內存)是一款新型的 CPU/GPU 內存晶片,將多個 DDR 晶片堆疊在一起後和 GPU封裝在一起,實現大容量,高位寬的 DDR 組合陣列。HBM 主要是通過 TSV 技術進行晶片堆疊,即 DRAM 晶片上搭上數千個細微孔並通過垂直貫通的電極連接上下晶片;DRAM 下面是 DRAM 邏輯控制單元,對 DRAM 進行控制;GPU 和 DRAM 通過 uBump 和 Interposer(起互聯功能的矽片)連通;Interposer 再通過 Bump 和 Substrate(封裝基板)連通到 BALL;最後 BGA BALL 連接到 PCB 上。

雖然多核(例如 CPU)/眾核(例如 GPU)並行加速技術也能提升算力,但在後摩爾時代,存儲帶寬制約了計算系統的有效帶寬,晶片算力增長步履維艱,因此存算一體的晶片應運而生。存算一體是在存儲器中嵌入計算能力,以新的運算架構進行二維和三維矩陣乘法/加法運算。存算一體的優勢是打破存儲牆,消除不必要的數據搬移延遲和功耗,並使用存儲單元提升算力,成百上千倍的提高計算效率,降低成本。

HBM 突破了內存容量與帶寬瓶頸。憑藉 TSV 方式,HBM 使 DRAM從傳統 2D 轉變為立體 3D,比 GDDR5 節省了 94%的表面積,隨著半導體行業向小型化發展,HBM 能更充分地利用空間,實現集成化。

同時,HBM 大幅提高了容量和數據傳輸速率,具有更高帶寬、更多I/O 數量、更低功耗,革命性地提升了 DRAM 的性能。與 GDDR5 相比,GDDR5 內存每通道位寬 32bit,帶寬為 32GB/s;HBM2 的每個堆棧支持最多 1024 個數據 pin,每 pin 的傳輸速率可以達到 2000Mbit/s,那麼總帶寬為 256GB/s;在 2400Mbit/s 的每 pin 傳輸速率之下,一個HBM2 堆棧封裝的帶寬就是 307GB/s。HBM 通過提升帶寬、擴展內存容量,提高了存儲與 CPU/GPU 之間的數據傳輸速度,從而減少了內存量小帶來的延遲問題。

HBM3 即將問世,最高的數據傳輸速率提升到 8.4Gbps。從 HBM 性能的歷史演進來看,2013 年,SK 海力士在業界首次成功研發出 HBM,HBM1 的數據傳輸速率大概可以達到 1Gbps 左右;2016 年推出的HBM2 為每個堆棧包含最多 8 個內存晶片,同時管腳傳輸速率翻倍達2Gbps;2018 年推出的 HBM2E,最高數據傳輸速率可以達到 3.6Gbps,可實現每堆棧 461GB/s 的內存帶寬。2021 年,SK 海力士和 Rambus先後發布最高數據傳輸速率 6.4Gbps 和 8.4Gbps 的 HBM3 產品,每個堆棧將提供超過 819GB/s 和 1075GB/s 的傳輸速率。SK 海力士 HBM3顯存的樣品已通過 NVIDIA 的性能評估工作,在 2022 年 6 月向NVIDIA 正式供貨;Rambus HBM3 或將在 2023 年流片,實際應用於數據中心、AI、HPC 等領域。隨著 HBM3 的性能提升,未來市場空間廣闊。

相關標的:長電科技、通富微電、華天科技、甬矽電子、晶方科技。


以上內容僅供學習交流,不構成投資建議。詳情參閱原報告。

精選報告來源:文庫-遠瞻智庫

關鍵字: