阿里加入的UCIe聯盟 能降低處理器製造複雜度嗎?

企業it觀察室 發佈 2022-09-26T23:26:03.199959+00:00

NVIDIA在GTC2022上展示Grace Hopper處理器內部示意圖,核心與核心之間使用NVIDIA Scalable Coherency Fabric連接技術,而晶片與晶片之間則使用NVLink C2C技術。

阿里在今年8月宣布正式加入UCIe聯盟,並作為UCIe聯盟董事會成員之一。與阿里一起加入的還有NVIDIA,兩者均為直接成為董事會成員。

UCIe官網發布的新聞中,阿里和NVIDIA的加入,讓UCIe聯盟董事會成員增加到了12名。但有意思的是,在UCIe官網最新的董事會成員中,AMD、ASE和台積電(上圖紅框)三家企業logo已經不見了蹤影

八卦完畢,進入正題!

UCIe,即Universal Chiplet Interconnect Express的簡稱,可譯為「通用小晶片(芯粒)互連規範」,是一個開放的定義處理器(SoC,片上系統)內一種或多種晶片的互連規範。

這是一個Intel發起的規範聯盟,聯盟內分為三種不同成員:董事會成員、貢獻者成員和使用者成員。其中董事會成員包括Intel、三星、ARM、阿里巴巴(阿里雲)、Google、Meta、微軟、英偉達和高通等九大企業,囊括了設計、製造與用戶等上下游重要企業。能參與到董事會的企業並不簡單,光靠購買力還不行,還得有晶片設計的能力,為阿里點個讚。

為什麼要有UCIe?

現在半導體廠商基本都採用「Chiplet」來設計處理器,連Intel也不例外。也就是說處理器內部有多個小晶片(芯粒),必然就要有連接來協同工作,以AMD的那不勒斯和羅馬處理器為例,其內部連接示意圖如下:

不僅Die與Die之間需要連接,還需要考慮外部的DDR內存通道與PCIe通道,連線極其複雜,通常要使用多層(上圖展示了兩層)。

AMD Rome處理器連接方式,包括外部的PCIe、DDR內存通道以及內部Die與Die之間的連接都利用統一的IOD來實現,圖中的Infinity fabric標註用於Die to Die連接。此後的EPYC處理器都使用統一的IOD,但技術有改進。

NVIDIA在GTC2022上展示Grace Hopper處理器內部示意圖,核心與核心之間使用NVIDIA Scalable Coherency Fabric連接技術(協議),而晶片與晶片之間則使用NVLink C2C技術(協議)。

Intel IceLake使用的單一Die設計,即所有的核心都在一個Die上,所以無需也沒有類似的Die to Die連接。IceLake核心與核心之間使用「Ringbus Interconnect(環形總線)」連接技術,這與NVIDIA Scalable Coherency Fabric連接技術類似。

市場已經用事實證明了單die設計不可持續:良率不高,成本上升……所以Intel也要轉向了「Chiplet」,並在Hot chips 34上透露了包括代號為Meteor Lake、Arrow Lake及Lunar Lake等後續處理器設計方面的一些信息。

在Hot Chips 34大會上,Intel公布的Die to Die連接技術名稱FDI,即Fovers Die Interconnect,將用於14/15代的Meteor/Arrow Lake處理器之上。

Chiplet技術Die與Die之間的連接,意味著又要新增一套需維護的協議,一家公司維護需要花費大量的成本,開發、維護、優化,既然大家都是Chiplet技術,那是不是可以每家分攤一部分成本來維護一套共通的協議呢?

同時,如果大家都用同一套Die to Die協議的話,那麼將CPU、GPU甚至其他類型晶片封裝到一顆處理器內成為可能,並且晶片與晶片之間還不受工藝製程的影響。比如在AMD的Rome處理器中,CCD與IOD的分離設計,其中CCD使用7nm工藝,而IOD依舊沿用14nm,在提高性能的同時,還有利於降低製造難度。

儘管大家都想挑戰Intel的「大佬」寶座,但UCIe本身對大家都是有好處的,所以Intel發起UCIe聯盟,可謂是一呼百應,連IBM都加入其中(作為貢獻者,未成為董事會成員),除了Apple與AWS。

可以藉助UCIe來實現異構計算,將CPU核心、GPU核心乃至用戶的自定義IP核心都能封裝到一顆處理器裡面。

Intel在Hotchips 34大會上展示的Meteor Lake處理器內部示意圖,將CPU tile和GPU tile封裝在一顆處理器內。原來更像是「正方形」的處理器現在要變成「長方形」了。

UCIe都包含哪些要素?

UCIe規範定義了如何實現Die to Die連接,制定了從設計到連接、封裝和接口等多方面的規範。比如在連接方面,定義三個數據傳輸層規範:物理層(Physical Layer)、適配層(Die to Die Adapter)和協議層(Protocol Layer)

UCIe物理層主要包括邏輯物理層、電氣物理層和AFE(analog front-end)。實現數據在UCIe Data Lane上傳輸,支持並行、串行兩種傳輸模式,並能進行轉換。同時還包括Link Training、Lane Repair、Lane Reversal、Scrambling/De‐scrambling、Sideband Training等。

適配層位於物理層和協議層兩者之間,主要作用是,當協議層有多個協議同時工作時,ARB/MUX用來在多個協議之間進行選擇和仲裁。協議層提供CRC和Retry機制來以獲得更好的BER(Bit Error Rate)指標。同時負責Link狀態的管理,與對端UCIe Link進行協議相關參數的交換。

協議層目前支持PCIe6.0、CXL2.0、CXL3.0(根據CXL 3.0規範,CXL也基於PCIe 6.0,之前基於PCIe 5.0),同時也支持用戶自定義Streaming協議以映射其他傳輸協議。UCIe可使用適配層和PHY來替換PCIe/CXL的PHY和Link重傳功能,就可以實現更低功耗和性能更優的Die-to-Die互連接口。

同時,UCIe還定義了2D(Standard Package)和2.5D(Advanced Package)兩種封裝類型:

Standard Package(2D封裝)主要用於較低成本、較長距離(10mm到25mm)互連,Bump間距要求為100um到130um,互連線在有機襯底上進行布局布線即可實現Die間數據傳輸。

Advanced Package(2.5D封裝)主要用於高性能、短距離(小於2mm)互連,以獲得更大傳輸帶寬和更低延遲。但其Bump間距要求為25um到55um,一般要通過Interposer或者Silicon Bridge進行互連,封裝成本比較高,上圖中的Advanced Package舉例了三種不同的封裝形式。

同時,UCIe還定義了物理層與適配器層的接口(Raw D2D Interface),以及適配層和協議層之間的傳輸接口FDI (Flit-aware D2D Interface)。

UCIe有什麼用?

回答這個問題之前,先看看UCIe聯盟的董事會成員都有誰?有四位特殊的成員:阿里巴巴、Google、Meta和微軟。這四位成員有很多相同屬性:都擁有自研晶片的能力,都有超大規模數據中心,伺服器數量都超過了一百萬台以上(Meta存疑),Google、Meta和微軟都是OCP(Open Computing Project,開放計算項目)董事會成員(阿里則是等級最高的白金成員),Google、微軟和阿里還是全球前五的公有雲服務商(老大AWS沒加入?不過AWS也沒加入OCP)……除了這四位以外,其他都是半導體廠商,並沒有Dell、HPE等OEM廠商以及ODM廠商(當然跟他們關係也不大)。

換句話說,市場上有能力、有實力決定處理器應該怎麼做,要具備什麼樣性能的用戶,除了AWS之外,可能也就這四位了(騰訊、百度在等什麼呢?),字節應該是有意願,但暫時沒實力……

UCIe定義了Die to Die之間的連接規範,從處理器設計上來說,是能夠簡化複雜度的,並且還能根據業務需求來靈活選擇具備不同性能的小晶片(芯粒)。但處理器只設計就足夠了嗎?內部小晶片(芯粒)需不需要自己設計?要不要再自行建造封裝製造廠?雖然Intel在工藝製程上遭遇到一些問題,但如果Die尺寸減小的話,應該是有助於解決問題。那麼Intel唯一要解決的問題就是,基於Chiplet技術重新設計一款處理器,重複大約十五年前Core微架構的經驗。

引用「軟硬體融合技術群」大佬James的評論:「Intel定義好Chiplet框架和接口,在CPU MCM模塊中集成來自用戶或者第三方的Die,支持通過UCIe實現與Intel的Xeon Die之間一致性互連,然後由intel提供封裝製造服務。

這一角度來看,或許能夠理解AMD、ASE以及TSMC等Logo的消失。不過在UCIe白皮書中還有一張圖,很有意思:

也就是說,UCIe不僅能夠支持處理器內部的Die to Die連接,同時也可利用UCIe Retimers支持處理器通過網絡介質進行封裝外的擴展。上圖顯示的一個整機櫃,計算機箱與內存機箱可以通過UCIe/CXL連接。如果對Intel數據中心產品有印象的話,在2015年前後,Intel曾大力推銷過一款名為「RSA(Rack Scale Architecture,機架規模架構)」的整機櫃伺服器。

RSA的技術願景就是將CPU、內存與存儲分別池化,三者之間通過高速網絡互連。難點就在於高速網絡,為此,Intel還聯合康寧(對,就是那個給初代蘋果造大猩猩玻璃屏幕的康寧)推出了矽光技術,希望從傳輸介質層面打下基礎,但市場接受度不高,所以後來又改為RSD(Racks scale Design,機架規模設計)……但這不就是Intel版的整機櫃伺服器麼?目標用戶要不在ODCC(開放數據中心委員會),要不在OCP,RSD結局可想而知。

現在Intel利用UCIe/CXL規範,藉助PCIe 6.0的高帶寬復活RSA?不知道思路靠不靠譜,但為此還把傲騰給廢了,決心應該還是蠻大的吧?

CXL為啥能把傲騰給廢了,那又是另一個故事的開端……

特別鳴謝「軟硬體融合技術群」的各位大佬解惑指正!

搜索「企業IT觀察」,歡迎關注,接收最熱辣評論。

關鍵字: