乾貨!天翼雲DPU技術解碼

中國電信天翼雲 發佈 2022-09-03T01:17:48.340130+00:00

9月2日,第二屆SmartNIC&DPU技術創新峰會在京舉行,天翼雲在2022 SmartNIC&DPU Awards年度評選中榮獲匠芯技術獎。

9月2日,第二屆SmartNIC&DPU技術創新峰會在京舉行,天翼雲在2022 SmartNIC&DPU Awards年度評選中榮獲匠芯技術獎。天翼雲資深研發專家劉祿仁出席SmartNIC&DPU技術分會場並發表「天翼雲DPU技術研究和實踐」主題演講,向行業分享天翼雲以DPU為核心的新一代計算架構的研究及場景落地。



隨著數據量爆發式增長,數據中心規模持續擴大,驅動網絡帶寬不斷升級,以滿足當前和未來雲端海量數據流需求。在摩爾定律明顯放緩的背景下,隨著更高帶寬的到來,CPU算力增長速度和數據中心網絡傳輸速率增長速度的差距被逐漸拉大,效率更高的計算晶片成為剛需,DPU應運而生。


DPU作為計算負載的引擎,直接效果是給CPU「減負」,能夠提高數據中心的運算效率,減少能耗浪費,進而降低成本,在數字時代具有巨大的商業價值與發展潛力。


天翼雲作為國內領先的雲服務商,搶跑DPU賽道,基於當前DPU技術演進路線,結合需求的零散化、動態變化以及對DPU產品線上運維問題的考量,以FPGA+CPU的架構作為切入點,成功研發出天翼雲DPU1.0產品,並以DPU雲核為基礎打造了為雲而生的全新雲計算體系結構。



天翼雲DPU1.0實現了虛擬化的零損耗,具備高性能、低延遲、低抖動的特性,網絡轉發性能高達4000萬PPS,存儲雲盤IOPS可以達到60W。此外,天翼雲DPU1.0還可以將傳統運行在主機側的應用轉到DPU雲核上,減少大量的適配工作,在主機不同算力核和不同架構上做到即插即用。


在天翼雲DPU1.0產品從研發到落地的過程中,天翼雲DPU團隊在網絡、存儲及RDMA方面進行了豐富的實踐。


在網絡卸載方面

針對流表數量大、轉發性能要求高、對SoC和FPGA的內存容量需求大、穩定性要求高等挑戰,天翼雲對rte_flow等主要數據結構進行壓縮,並對流表空中計算,優化裁剪offload卸載路徑的多層級緩存,從而支持4M流表,實現了內存優化;對所有流表進行合併計算,避免在硬體層執行包重注,使轉發效率達到4000萬PPS;


基於硬體精確流表特點設計專用老化統計線程,減輕OVS Revalidator壓力;初步拆分OVS的統計和老化事務邏輯,優化硬體流表的老化統計上報實現邏輯,提升軟體OVS Revalidator執行效率;支持熱升級、熱遷移及熱恢復,做到B/V/C全場景的並池,大幅提升穩定性。


在存儲卸載方面

針對經常出現的SoC異常重啟、SPDK異常重啟、熱遷移丟IO等現象,天翼雲從中抽象出共同特性,利用軟體協同的思想,將SoC側軟體的正常行為和異常行為進行統一,組件啟動時統一發送msg信息給硬體,硬體收到該msg會解析其內容,進而從硬體保存的queue指針信息進行分析,在用戶無感狀態下實現全部異常的統一化處理。


在高性能網絡方面

擁塞算法是RDMA的核心和關鍵,為提高RDMA網絡的性能,天翼雲聚焦下一代高效CC算法設計,以更好地避免擁塞、保證公平性,實現更快速收斂、更低時延、更簡單部署。針對不同應用場景,天翼雲設計了2套算法eSurfing-CC:


針對智能網卡+商用交換機的組合,提出基於RTT+CNP的2段式端到端CC算法,具有主動擁塞控制、無需依賴交換機的配置、支持快速啟動快速收斂等優勢;


針對智能網卡+可編程交換機的組網場景,在交換機上部署CC算法,使交換機同樣具備主動擁塞通知能力和主動發包能力,可以有效降低端到端響應時延,同時簡化建模和配置複雜度,提高系統的可擴展性。


目前,基於天翼雲DPU核心技術打造的多款產品已落地應用,以天翼雲彈性裸金屬伺服器為例,該伺服器兼具雲伺服器彈性和物理機性能,通過將網絡、存儲等功能卸載至DPU卡,可極大降低物理機側CPU和內存等資源消耗,最終算力遠超普通雲主機,現已服務於金融、汽車等多行業企業。


會上,還發布了2022 SmartNIC&DPU Awards年度評選結果,天翼雲憑藉以DPU雲核為基礎打造的全新一代雲計算體系結構,榮獲匠芯技術獎。該體系結構將計算、存儲、網絡和安全算力遷移到自研的軟硬結合體系中,構建了面向不同算力、全國產化自主可控的第二平面,可實現網絡、計算、存儲資源雲化加速,在DPU領域極具創新性。


DPU、CPU、GPU將成為未來計算市場的三大支柱,DPU作為計算市場的「芯」生事物,在技術標準和生態方面仍處於早期階段,具有廣闊的發展前景。未來天翼雲將持續探索DPU技術,不斷完善DPU產品,助力海量算力高效釋放,助推數字經濟發展。

關鍵字: