專訪英特爾數據中心與人工智慧集團副總裁兼中國區總經理陳葆立

代號Sapphire Rapids的第四代英特爾至強可擴展（Intel Xeon Scalable）處理器終於在1月11日發布。簡單來說，本次第四代英特爾至強可擴展處理器最主要的亮點就是加速器的升級及功能增加，當然也有優秀加速器的延續。

延續的例子比如QAT技術（英特爾數據保護與壓縮加速技術），這是針對網絡上常用的壓縮/解壓縮功能的保護與加速。這在上一代至強可擴展處理器里也有使用，多用於一些比較常見的雲計算應用，包括虛擬機遷移。以一個常見的工作負載為例：虛擬機開在一台伺服器上面，用戶出於備份或者其他需求，要將其搬到另一台機器上，在早期，將數據從A機器轉移B機器需要花費大量的時間，而通過QAT技術的快速解壓縮功能，效率將大幅提升，從而節省大量的時間。

升級的例子比如：針對AI的Intel AMX（英特爾高級矩陣擴展）的升級。英特爾一直強調人工智慧可以在至強上運行，也有專門針對AI深度學習的加速器，而Intel AMX就是最新升級版的AI加速器。以前用CPU處理AI工作時，其負載沒有那麼高效。這是因為，CPU的每一個數據處理單位可能是32bit，而AI訓練的很多工作可能是把數據分解到以單個bit為單位來運行的。此時任務導入CPU後，CPU的每一個數據處理單位可能都沒有填滿，資源會閒置。在第三代至強可擴展處理器上，同樣一個32bit的數據處理單位，可以分成4個部分去運行，相當於快了四倍。而最新一代AMX的厲害之處在於，不再是簡單地將32bit拆分成4個或者8個部分，而是將其視為一個矩陣，根據需要填充AI任務。這樣在同樣一個時序里，可以放入的AI訓練任務就更多更具彈性，從而實現更高效的AI加速。對於用戶來說，直接體會就是新一代至強可擴展處理器在同樣的時間裡，處理AI工作的效率成倍提升。

CPU上的矩陣加速單元，從實現的原理來說和GPU的矩陣計算單元對計算加速的底層原理都是一樣的。因為很多AI計算就是矩陣計算，如果沒有專用的矩陣計算單元，它會把二維的矩陣計算轉化成所謂的向量計算，就是單條乘單條的這種，效率自然會低很多。但是不管是在CPU還是GPU當中，若是使用了矩陣計算單元，從硬體來說，需要處理的數據進入這些矩陣時，硬體單元就可以直接把它計算出來。

英特爾數據中心與人工智慧集團副總裁兼中國區總經理陳葆立表示：「正因為是從最底層的矩陣計算做了加速支持，所以理論上來說，所有的AI應用我們都會有很好地支持加速。這些功能並不是我們自己憑空想出來的。」在過去的五年、十年中，英特爾至強系列處理器得到很多用戶的使用，英特爾通過客戶多年的反饋，探索除了軟體解決方案之外，是否可以直接研製出硬體加速器，在這些最常見的工作負載中，提供給用戶更好的體驗、更強的性能，並節省更多的時間。「對客戶來講，這些加速功能已經內置到第四代至強可擴展處理器中，大家無需更多的操作，即可使用到這些功能，這是一個靈活性，也是我們產品的一個重點。」陳葆立說。

數據中心的伺服器處理器越來越傾向於朝多核心發展，這是一個行業的大趨勢，無論英特爾、AMD或者ARM陣營，都在追求更多的核心。以至強可擴展處理器8000系列為例，從第一代到第四代的最高核數也在快速增加，從原來28核，到後來的40核，第四代目前最高規格為56核，後續可能達到60核。以此推算，下一代可能要到100核了。「因為ARM架構的特性，它的核心本身就比較小，所以可以更快地堆疊成一個更多核的產品，但這並不代表英特爾x86不能做，我們也能做到。我們在路線圖上也著重地在未來、在多核方向上推出我們的能效核產品」陳葆立表示。

其實就行業應用現狀來看，並不是越多核就一定越好。在某些用戶需求領域可能是多核更重要，但還是有很多用戶在使用數據中心處理器的時候，並非一味執著於多核，而是具體工作具體分析。這具體取決於應用方向是人工智慧、搜尋引擎、資料庫還是一些電信網絡的服務。陳葆立表示：「英特爾得益於多年的積累，對於眾多應用有著不同的加速器，這帶給用戶的性能將會比純粹以核數堆疊起來的性能更高。」

確實，在第四代至強可擴展處理器上，加速器是一個非常大的重點，涵蓋了包括人工智慧、網絡、數據處理等一系列經過用戶反饋、比較重要的工作負載類型。英特爾升級了全新的指令和加速器，不僅是在硬體層面，更重要的是軟體方面也同樣用了起來。「雖然在大家普遍的印象中，英特爾是一家晶片公司，但是我們也有成百上千的軟體工程師，因為在已有的眾多功能之上，如何優化讓客戶更好地使用這些指令，看到它們的性能並且得到收益，這是我們關注的。接下來一整年，我們會投入很多的軟體服務以及客戶合作，讓更多合作夥伴更好地運用第四代至強處理器的功能。」陳葆立說。

這一次英特爾還推出了至強Max系列CPU，加上此前的Max系列GPU，都開始應用HBM（內置高帶寬內存），這反映了英特爾在數據中心策略上的哪些變化呢？一個基本的數據中心架構，是有一個CPU，很靠近它的是內存，再遠一點是SSD，更遠的是硬碟，越近的部分，與CPU之間的傳輸速度越快。那麼怎麼比內存更快呢？就是直接把高速的內存嵌入到CPU的裡面。HBM的方式就是將一個高速內存內置到晶片中，就在CPU隔壁，以封裝的形式實現。過去幾年中，AI是一個非常火的領域，湧現了許多不同的晶片，在AI加速上也有不同的設計，比如AI ASIC專屬的加速晶片等等。這些晶片很重要的一個提升性能的方式就是增加HBM內存。這樣在運行一些科學計算，包括AI工作負載時會有很大的性能提升。「之前是在AI加速晶片上這麼做，現在，英特爾第一個在x86架構上做的一個嘗試，專門為此推出優化的CPU Max系列，可以滿足客戶對AI、科學計算方面的需求。」陳葆立表示。

人工智慧在好幾年前就很火，除了大家一開始就知道的：人工智慧可以下贏象棋圍棋，也可以進行人臉識別，其實更多人工智慧的應用還在演變當中。所以英特爾在所有產品上，包括在CPU中，內置人工智慧加速，以及推出帶HBM的企業級CPU和GPU產品（現在GPU很大的一塊主要應用就是做人工智慧，當然GPU還有其他的圖像計算以及元宇宙方向的應用，但其實都與人工智慧息息相關），都是因為人工智慧是一個非常重要的工作負載。陳葆立表示：「我們會在不同的產品線上做投入，讓英特爾的產品可以成為理想的人工智慧工作負載產品線。」