存算一體晶片:AI時代的最佳答案?

中國電子報 發佈 2022-08-16T00:01:45.826971+00:00

近日,存算一體(存內計算)晶片設計公司苹芯科技宣布於數月前完成千萬級美元A輪融資。中國工程院院士鄔賀銓在2022中國算力大會上表示,對自動駕駛等場景產生的熱數據(實時性數據),存算分離會使數據在存儲和計算之間來回輸入,此時存內計算更適合熱數據的處理。

近日,存算一體(存內計算)晶片設計公司苹芯科技宣布於數月前完成千萬級美元A輪融資。中國工程院院士鄔賀銓在2022中國算力大會上表示,對自動駕駛等場景產生的熱數據(實時性數據),存算分離會使數據在存儲和計算之間來回輸入,此時存內計算更適合熱數據的處理。

在馮諾依曼架構中,計算和存儲功能分別由中央處理器和存儲器完成。而處理器在跟隨摩爾定律逐年提升性能的過程中,將對製程工藝不敏感的存儲器甩在了後面,兩者的性能差距形成了「存儲牆」。相比之下,存算一體能夠避免數據來回搬運所造成的功耗損失和時間延遲。在AI技術不斷釋放數據洪流和算力場景需求的大趨勢下,存算一體晶片越來越受到產業界和資本市場的關注。

馮諾伊曼架構

來源:《中國科學:信息科學》

繞過存儲牆是AI時代剛需

早在1969年,斯坦福研究所的William Kautz就提出了存算一體的概念。Kautz提出在晶片的存儲單元中加入邏輯電路,並將多個單元連接起來組成陣列,這樣能夠打造更加靈活、速度更快、耗能更低的數字電路,以更好地適應當時大規模集成電路的需求。然而,早期的存算一體研究並沒有取得明顯的突破,以馮諾依曼架構為藍本、按照摩爾定律的步伐提升晶片性能,逐漸成為產業界的共識。

但近幾年來,存算一體又回到了業界的視野,並被視為重要的技術方向。

知存科技創始人兼CEO王紹迪向《中國電子報》指出,過去幾十年是摩爾定律快速發展的時期,加上開發新的架構需要高昂的投入,因此在摩爾定律還能往下走的時候,產業界對存算一體這類架構創新的需求還不高。但近十年以來,算力需求的增長使存儲牆的問題越來越凸顯。

「到2010年以後進入後摩爾時代,行業內日益增長的算力需求和幾乎走到極限的摩爾定律之間越來越突出的矛盾已經成為人工智慧發展的巨大瓶頸。因此,能解決存儲牆問題的存算一體技術受到了越來越多的關注,近幾年在產業界得到了非常快速的發展。」王紹迪說。

尤其在2016年人工智慧Alpha Go在圍棋對弈中戰勝世界冠軍李世石之後,以深度學習為代表的統計學習理論與方法促動了整個人工智慧行業的發展。OpenAI的分析顯示,自 2012 年以來,人工智慧訓練任務中使用的算力每 3.5 個月翻一倍。計算需求的突飛猛進,對算力晶片的效能提出了更高的要求和新的挑戰。

從2013到2019年AI算力實現了30萬倍的提升

來源:OpenAI

九天睿芯董事長兼CEO劉洪傑向《中國電子報》表示,在馮諾依曼架構中,處理器從處理單元外的存儲器提取數據,搬運時間往往是運算時間的成百上千倍。

「深度學習加速的最大挑戰就是數據在計算單元和存儲單元之間頻繁的移動,市場急需可實現超高能效並且可以快速疊代的智能計算晶片來滿足日新月異的市場變化。我們推出的新型類腦計算的存內計算體系架構就是面向AI發展的算力瓶頸,核心技術是解決AI算力能效比偏低的核心剛性需求。算力堆疊帶來能耗問題,存算一體就是很好的解決方案。」劉洪傑說。

多種技術架構待產學研共同探索

面向智能化時代的算力需求和計算服務業態變革,英特爾、三星等IDM廠商和新銳的算力晶片廠商都在探索存算一體晶片,並衍生出不同的架構和技術路線。

劉洪傑表示,目前全球存算一體仍處於蓬勃發展階段,沒有一種技術架構占據絕對主導地位。2017年,第一批存內計算公司興起,目前存內計算中有一些技術已經可以落地,需要產業界加大投入,研發質量過關的產品。

「存內計算本身也有一個類似摩爾定律的發展過程,包括代工廠針對存內計算專用的工藝提升。其次是先進的材料,目前能夠量產的存內計算存儲器中,Flash和SRAM新型存儲器更適合做存內計算,需要更多在新型存儲器件上的研究。另外,存內計算從算法到供應鏈生態上也需要產學研結合,相互融合促進發展。」 劉洪傑說。

作為多年來DRAM市場份額的冠軍,三星於2021年推出了結合DRAM的高帶寬內存-內存內處理 (HBM-PIM),將AI計算能力引入內存。通過將經過DRAM優化的 AI 引擎置於每個存儲子單元內,將處理能力直接引入到數據的存儲位置,從而實現並行處理並儘可能減少數據移動。相較三星此前的高帶寬內存方案,新架構能夠提供超過兩倍的系統性能,並降低 70% 以上的能耗。

英特爾的神經擬態計算晶片Loihi也採用了存算一體的架構,使之更加容易擴展。Loihi晶片的裸片包含128個小核,每個核裡面模擬1024個神經元的計算結構,每個神經元又有1000個突觸連接,這意味著768個晶片連接起來可以構建接近1億神經元的系統。

國內聚焦存算一體晶片的企業則大多採用SRAM(靜態隨機存取存儲器)和Flash路線。

九天睿芯基於「模擬特徵提取+模數混合電荷域SRAM」架構實現存內計算,第一顆感存算一體晶片ADA100於2021年回片。後摩智能第一代晶片基於SRAM、第二代晶片基於PRAM。苹芯科技的兩款產品也基於28nm SRAM。

知存科技主要採用嵌入式Flash工藝,於2020年發布第一代存算一體晶片產品WTM1001,2022年實現存算一體SoC晶片WTM2101量產並落地應用。

「近年來,隨著新興非易失存儲器的發展,國內開始出現做存算一體大算力的公司,同時不斷有新玩家湧入。但距離大規模應用,還有約10年的時間,從工藝、材料、算法、工具鏈到生態,都需要產業界和學術界的不斷投入與共同推進。」王紹迪說。

產品性能和行業生態有待升級

雖然存算一體晶片的技術前景和應用場景逐漸明晰,但現階段存算一體晶片還沒有實現規模化的量產和部署,產品性能和產業生態有待進一步的提升和完善。

在性能方面,存算一體晶片還有較大的提升空間。劉洪傑表示,存算一體晶片還需要從三個方向提升性能。一是工藝疊代。隨著自動駕駛等應用場景算力需求的提高,後摩爾時代存算一體晶片需要緊跟工藝疊代的紅利,進一步提高能效比、面效比。二是提升精度,更多諸如飛行器航姿估計等對運算精度有較高要求的應用對存算一體架構的精度提出了一定的挑戰。三是算法適配,在更廣闊的消費領域,AI應用呈現碎片化的趨勢,帶來了算法模型的多樣化,為適應應用落地需求,存算一體仍需進一步擴充計算架構的適配能力。

以九天睿芯為例,接下來將從工藝、架構等維度繼續深化模數混合存算一體晶片的開發部署。據悉,九天睿芯規劃了從55nm到6nm的產品路線,55nm產品主要面向TinyML(採用資源受限低功耗微控制器實施機器學習)等低功耗喚醒場景;22nm產品面向AR/VR SLAM(即時定位與地圖創建)協處理、移動機器人、ADAS等場景;6nm主打面向聯邦學習(帶有安全加密技術的機器學習框架)、元宇宙、空間AI等應用。

此外,存算一體晶片需要強化上下游協同以加速產業化進程。王紹迪指出,存算一體晶片要實現大規模的量產、應用,涉及到上下游產業鏈的共同配合。包括行業標準化,以更好地實現產品落地;生態的建立,以拓展更多的應用場景。

據王紹迪介紹,接下來知存科技會從產品和生態層面進行升級,在初步構建存算一體開發小生態的基礎上,隨著晶片算力、計算容量、計算速度的不斷增加,打造更豐富更便捷的開發工具鏈,穩定架構、打磨標準化產品、拓寬應用場景逐漸從端側發展到邊緣測或雲端。

「存內計算」照進現實

算力網絡的「網」「存」「算」,這裡都有了!

算力網絡大家庭,存與算如何組CP?

作者丨張心怡

編輯丨連曉東

美編丨馬利亞

監製丨連曉東

關鍵字: