顯卡雖然不好買,但亞馬遜雲科技有你要的各種算力

雲體驗師 發佈 2023-11-15T15:15:08.865352+00:00

2023年,隨著大模型技術潮流來襲,很多學術和工業機構都爭相發布大模型或者基於大模型的AIGC服務,還有很多想入局的機構,他們很快發現,高性能顯卡資源非常緊俏。我想說的是,對於望卡興嘆的人來說,公有雲上的計算資源則是非常不錯的替代方案。

2023年,隨著大模型技術潮流來襲,很多學術和工業機構都爭相發布大模型或者基於大模型的AIGC服務,還有很多想入局的機構,他們很快發現,高性能顯卡資源非常緊俏。

我想說的是,對於望卡興嘆的人來說,公有雲上的計算資源則是非常不錯的替代方案。之所以這麼說,是因為,很多人都想搭上大模型的順風車,進而會誤以為自己也需要顯卡。

從我在幾個大模型微信群里的體驗來看,一開始群里很熱鬧。然而,熱度很難維持在高點。不久後,一部分人可能會進入更深層次的研究,另外一部分人則看完熱鬧就撤了。

熱度最高時,會有少數人會探討模型技術細節,更多人則關心拿什麼顯卡來做訓練/推理,言語間,很多人都會因為手裡缺少顯卡資源而心有不甘,生怕錯過大模型的機遇。

冷靜過後,很多人也會想自己是否真的需要高性能顯卡。思前想後,一些人充值了ChatGPT的Plus會員,以最簡便的方式,在第一時間了解世界上已知的最強的大語言模型。

ChatGPT的優良表現讓很多人高估了整體大語言模型的表現水平。按照Gartner技術成熟度曲線的經驗來看,現在還處於技術吹捧期,現在一擁而上的企業當中,註定有很多會離場,會離場的企業其實不需要這麼多顯卡。

不得不說,大模型還處於發展的早期階段,我也相信,在經歷過百模大戰、百花齊放的階段之後,能留在大眾視野里的肯定會是少數。

這是因為,大模型要的不僅是技術和工程實踐經驗,還要有高質量的訓練數據,還要能負責任地運行,還需要長時間的大量投入,如果投入沒有落地為生產力,那麼自然不可持續。

總之,阻礙大模型的發展和落地為生產力的原因有很多,不只是算力。

對於更多普通企業用戶來說,要做的事就是選出更好的底模型,要麼直接調用API,要麼基於底模型做微調即可。

對於想要更多研究大模型,甚至把大模型當業務的企業,如果實在找不到充足的資源,那麼可以試試把目光轉向公有雲。

亞馬遜雲科技提供多種算力資源,理論上,它能在最短的時間裡,幫助企業從零開始訓練出一個大模型。如果企業覺得模型效果不好,可以對模型進行優化或微調。如果找到了新的技術路徑,大可以將這些資源釋放掉。

亞馬遜雲科技大中華區產品部總經理 陳曉建在亞馬遜雲科技中國峰會上表示,「現如今,創新至關重要,而雲技術能更快、更高效地幫助企業創新亞馬遜雲科技廣泛和深入的服務可以讓客戶擺脫基礎架構的束縛,專注於創新。」

事實上,亞馬遜雲科技上的算力資源非常豐富多樣,在Amazon Nitro系統的幫助下,亞馬遜雲科技開發了非常多的EC2實例類型,而且,在實例性能和整體安全性上都有了質的提升。

為了降低算力資源的成本,亞馬遜雲科技有包括Graviton系列ARM處理器晶片,還有用於機器學習訓練的Trainium和用於機器學習推理的Inferentia,其中,自研的機器學習晶片都可以作為GPU的替代品。

在HuggingFace BERT模型訓練時,基於Trainium的Trn1實例和通用的GPU實例對比,在訓練的吞吐率上面,單節點的吞吐率可以提升1.2倍,而多節點集群的吞吐率可以提升1.5倍,從成本考慮,單節點成本可以降低1.8倍,集群的成本更是降低了2.3倍。

增強型Trn1n實例的網絡帶寬躍升至1.6Tbps,可將萬餘個Trainium晶片構建在一個超大規模集群上,支持對超大模型進行並行訓練。增強型Trn1n實例可以用來訓練參數規模越來越大的大模型。

基於第一代Inferentia的Inf1實例,與基於通用GPU的EC2實例相比,帶來了70%成本的降低。基於Inferentia2的實例在吞吐和延遲方面均有大幅優化,甚至可以用來大規模部署複雜的模型,例如大型語言模型和Diffusion類模型。

Inferentia在設計的時候就考慮到了吞吐率和延遲的優化,在推理BERT模型時,In2實例的吞吐高出三倍,延遲降低了8.1倍,而成本只是通用GPU實例的1/4。在推理Stable Diffusion 2.1時,Inf2實例可實現50%的成本節約。

除了自研晶片,亞馬遜雲科技上還提供了第三方的訓練和推理晶片。

比如,EC2 DL1實例是基於英特爾Habana Labs的Gaudi加速器,Gaudi既能用於訓練,也能用於推理,採用Gaudi加速器的EC2 DL1,其性價比相較於用GPU的EC2實例可提高最高40%。

如果用戶還是想用GPU來做訓練,那麼也可以選擇亞馬遜雲科技的EC2 P4系列實例,它採用的是英偉達的A100 GPU,如果想要做更大規模的訓練,還可以將EC2 P4部署在 EC2 UltraCluster 的超大規模集群中。

至於最新的H100顯卡,也可以關注亞馬遜雲科技的EC2 P5實例,目前,或許是H100的數量有限,亞馬遜雲科技的EC2 P5實例也需要額外填表申請才能使用,開放使用也是時間問題。

正如陳曉建所言,「面對算力的需求井噴所帶來挑戰,我們通過自研晶片提供更好的性價比,通過各種豐富的計算、網絡、存儲等各種產品的組合應對突發的算力需求,通過Serverless有效降低運維的複雜性,從而簡化算力的使用,全面滿足用戶的多樣化的算力需求。」

亞馬遜雲科技非常務實地提供多種算力服務。

我們還注意到,Amazon EC2 G4ad 實例也用了AMD的顯卡,不過G4 實例主要是做推理和圖形加速的。前不久亞馬遜雲科技負責EC2的Dave Brown出現了AMD發布會上,未來是否會推出基於MI300的EC2實例,也未可知。

關鍵字: