火山引擎發布全新高速訓練引擎,用抖音同款技術解決智能推薦痛點

電科技 發佈 2024-01-01T12:56:17.513994+00:00

隨著科技的發展和數字經濟的普及,企業數位化轉型已經成為了必然趨勢。在這個過程中,基於雲計算技術的應用和創新已經成為了推動企業數位化增長的核心動力。越來越多的企業認識到了上雲的重要性,「堅定上雲、非必要不自建」已成為行業共識。

隨著科技的發展和數字經濟的普及,企業數位化轉型已經成為了必然趨勢。在這個過程中,基於雲計算技術的應用和創新已經成為了推動企業數位化增長的核心動力。越來越多的企業認識到了上雲的重要性,「堅定上雲、非必要不自建」已成為行業共識。

火山引擎是字節跳動旗下的雲服務平台,將字節跳動快速發展過程中積累的增長方法、技術能力和工具開放給外部,幫助企業圍繞用戶體驗創新、數據驅動決策和業務敏捷疊代構建數位化能力,實現業務可持續增長。

在2023年4月18日舉行的春季火山引擎FORCE原動力大會上,火山引擎發布自研DPU等系列雲產品,並推出智能推薦-高速訓練引擎,支持100GB-10TB+超大模型的高效訓練,採取軟硬一體優化設計等,讓面向推薦場景的高速訓練更快,成本更低。

大規模推薦模型,企業面臨的新挑戰

在信息爆炸的時代,人們面臨的信息過載問題越來越嚴重。在這種情況下,如何通過智能推薦系統在短時間內抓住用戶的注意力,讓他們能夠快速找到自己感興趣的內容,已經成為了各行各業企業普遍面臨、亟待解決的問題。

通過洞察用戶產品使用的歷史軌跡、興趣偏好等授權數據,智能推薦系統可以為用戶推薦最相關的內容、產品或服務,從而提高用戶的點擊率和轉化率。智能推薦的存在,不僅對於用戶的滿意度、忠誠度、留存率和轉化率的提升有重大影響,也可以幫助企業降低營銷成本,提高營銷效率。

作為近年來最成功的的AI應用落地場景之一,很多企業自主搭建了智能推薦模型。但隨著深度學習模型越做越大、越做越深,不少企業遇到了自己無法獨立解決的難題。

這些難題主要體現在以下幾個方面。

首先是訓練成本。推薦效果的一個核心訴求是能快速捕捉和反映用戶不斷變化的興趣和當前熱點,模型如何在短時間內,以可控的成本完成海量數據的訓練,是企業面臨的比較大的挑戰。

其次,個性化推薦系統的場景特徵和模型複雜,導致模型愈發龐大,加之推薦引擎同時需要滿足時效性,實時掌握用戶興趣,傳統的CPU訓練算力由於無法實現大規模並行向量計算等原因,無法滿足企業推薦大模型高速訓練的需求。

最後, 在企業優化推薦算法和模型、提高推薦的準確性和效果的過程中造成系統的抖動和不穩定,也極易因為體驗不佳,造成用戶的流失。

總而言之,對於各行各業的企業而言,智能推薦大模型訓練普遍存在貴、慢、不穩定的痛點。

高速訓練引擎,抖音同款模型能力

此前,火山引擎通過抖音等業務大規模個性化模型的探索與沉澱,為眾多企業客戶提供了智能推薦引擎,助力他們實現個性化用戶體驗,並在用戶留存、停留時間、GMV等維度獲得了極大提升。

本次大會上火山引擎發布的產品——「智能推薦-高速訓練引擎」則是為了進一步實現大模型落地而誕生的,集成了抖音、頭條等業務的最佳技術實踐,嘗試解決各行各業的企業訓練大規模個性化模型存在的痛點和問題。

火山引擎的智能推薦-高速訓練引擎使用了以下方式解決這些問題:軟硬一體優化、細粒度算子優化,以及分布式訓練和推理。

軟硬體一體化的GPU訓練,能夠將最新體系架構的硬體性能發揮到極致,大幅縮短訓練時間,幫助企業提高大規模個性化模型的訓練效率,降低訓練成本,快速驗證模型對業務效果的影響。

針對關鍵場景的超大模型,火山引擎智能推薦-高速訓練引擎提供了全GPU方案,可以支持100GB-10TB的超大模型的高速訓練,綜合ROI是CPU的5倍;覆蓋更多場景的模型,提供了GPU+CPU混訓方案,綜合ROI是CPU的2倍。

針對搜廣推場景, 細粒度算子優化, 性能更好。在訓練時,通過算子融合併精細調優,性能提升20%。在推理時,通過算子優化,性能提升40%。

智能推薦-高速訓練引擎為了保障系統的穩定性,支持訓練和推理的全方位容錯,當某一個節點故障時,可以快速恢復;支持分布式推理, 包括多分片, 多副本,從而保證線上服務的高可用。

做完上述以及其他一系列優化後,抖音、今日頭條等基於火山引擎高速訓練引擎的業務,模型訓練時間加速比10x-25x,綜合成本降低25%-67%。

而在外部,火山引擎高速訓練引擎的價值也得到了多家企業的驗證。

例如,與中國某社交平台的合作,火山引擎成功幫助客戶解決了訓練速度慢,無法快速驗證模型效果的問題,將訓練速度提升了12倍——原本客戶側耗時1800分鐘的模型訓練,在火山引擎側僅耗時150分鐘。在模型優化上,火山引擎百G模型與客戶2T級別模型相比,效率無明顯下降,且離線效果指標全部正向,幫助客戶實現了大幅的降本增效。

更普惠的AI基礎設施,助力企業智能化發展

這次發布會,火山引擎除了發布智能推薦-高速訓練引擎外,還推出了新版機器學習平台:支持萬卡級大模型訓練、微秒級延遲網絡,讓大模型訓練更穩更快。據介紹,火山的機器學習平台支持GPU彈性計算實例靈活調度資源,隨用隨取,最高可以為客戶節省70%的算力成本。

此外,火山引擎也宣布與字節跳動國內業務並池,基於內外統一的雲原生基礎架構,抖音等業務的空閒計算資源可極速調度給火山引擎客戶使用,彈性計算搶占式實例的價格最高可優惠80%以上。

不論是智能推薦-高速訓練引擎、機器學習平台,還是其與字節跳動國內業務並池,火山引擎動作背後都有一個共同的特徵——提供普惠的AI基礎設施。

ChatGPT在世界範圍內的爆火,讓大家看到了智能化的未來,這波浪潮將會重塑各行各業的生產、運營、管理、營銷等各個環節。

要想實現行業智能化升級,國內各行各業都需要普惠的AI基礎設施。顯然,火山引擎是想通過更普惠的AI基礎設施,助力企業智能化發展。

編輯:高明

關鍵字: