做中國版ChatGPT,還有一個「隱身」大玩家

機器之心pro 發佈 2024-04-01T01:49:15.725751+00:00

但在 ChatGPT 引發的全球技術競賽中,我們剩下的時間可能不多了:上周三,OpenAI 開放了 ChatGPT API,開發者現在可以通過程序接口將 ChatGPT 和 Whisper 模型的能力集成到自身應用中。

機器之心報導

作者:澤南

「通用人工智慧是未來十到二十年國際科技競爭的戰略制高點,其影響力相當於信息技術領域的『原子彈』。」3 月 4 日,在全國政協會議上,北京通用人工智慧研究院院長朱松純在一份提案中建議,要將發展通用人工智慧提升到當代「兩彈一星」的高度,搶占全球科技與產業發展制高點。

過去很長一段時間裡,通用人工智慧對於大多數 AI 學者來說是個遙不可及的目標,最近 ChatGPT 的出現卻讓人感覺:通用人工智慧似乎已近在眼前。

ChatGPT 可以勝任各種任務,如搜索問答、文本生成甚至代碼生成等,完全超越了人們印象中的 AI 智能助手。在使用者看來,它不僅能分辨出提問者的真實訴求,還擁有出乎預料的博識程度。

但在 ChatGPT 引發的全球技術競賽中,我們剩下的時間可能不多了:上周三,OpenAI 開放了 ChatGPT API,開發者現在可以通過程序接口將 ChatGPT 和 Whisper 模型的能力集成到自身應用中。過不了多久,我們就能在各種常用 App 上見到「史上最強 AI」的強大能力了。

ChatGPT 的突破改變了人們對於 AI 的觀感,而且技術還在不斷進步。OpenAI 執行長 Sam Altman 提出了新的「摩爾定律」:宇宙中的智能每 18 個月翻一倍。

眼見 OpenAI 和微軟的一路領先,國內外科技公司陸續宣布了構建 ChatGPT 類模型的計劃,人工智慧生成內容(AIGC)領域也進入了一輪爆發式的增長。

目前,國內科技公司正在加速追趕,一批具有商用潛質的類 ChatGPT 技術正逐漸浮出水面。

處於前排的追趕者

ChatGPT 是一個量變引起質變的過程:自 2017 年穀歌提出 transformer 架構以來,人們找到了通過充分利用算力實現 AI 性能提升的方法。2018 年起,OpenAI 先後疊代推出了 GPT-1、GPT-2、GPT-3 和 InstructGPT,而 ChatGPT 是基於最新版本 InstructGPT(GPT-3.5)的改進。

在 GPT 系列的發展過程中,「煉大模型」逐漸成為了人們提升 AI 性能的重要方式。短短几年,AI 模型的參數量已經從最初的數億擴張到千億,甚至萬億規模。

由於 AI 大模型的複雜程度,要想複製 ChatGPT 的成功,意味著技術團隊必須要有足夠的技術積澱,能動用大量數據和基礎設施。在追趕的競賽中,國內可能很難出現像 OpenAI 這樣背靠巨頭,「擁有無限資金」的創業公司。重任落到了大廠肩上。

從參數規模來看,國內科技公司的實驗室里已經誕生過能夠比肩最新版 GPT 體量的語言大模型。根據目前的消息,百度、阿里、騰訊等科技大廠,也已經紛紛官宣進入 ChatGPT 風口。

百度是最早針對 ChatGPT 做出明確表態的公司之一,在人工智慧技術四層架構中的全棧布局是其應戰的底氣。2021 年底,百度曾共同發布了全球首個知識增強千億大模型「鵬城 - 百度・文心」,模型參數達 2600 億,是當時全球最大中文單體模型,在 60 多項任務上取得了最好效果。

在微軟與谷歌爭奪 ChatGPT 搜索首發的同時,百度也官宣了將在 3 月 16 日推出類 ChatGPT 產品「文心一言」。

阿里巴巴則通過技術優勢實現了參數規模的量級提升。2021 年 6 月,阿里的多模態大模型 M6 參數規模已經突破 10 萬億,規模遠超谷歌、微軟,成為全球最大的 AI 預訓練模型。

阿里旗下的達摩院在大模型等 ChatGPT 所需底層技術上擁有強大技術能力。此前有消息透露,阿里版 ChatGPT 正在研發中,將和釘釘深度結合。

在提升參數量,並通過架構創新提高計算效率之外,人們也在探索 NLP 大模型的多任務統一能力。2021 年以來,國內 AI 科技公司紛紛轉向大模型 + 行業 knowhow,致力於在已有大模型基礎上搭建配套工具和平台,降低大模型產業化門檻。

騰訊在大模型領域上一直較為低調,在去年 4 月才首次對外披露了混元 AI 大模型的研發進展。混元完整覆蓋 NLP(自然語言處理)、CV(計算機視覺)、多模態等基礎模型和眾多行業 / 領域模型。在去年 12 月,騰訊混元推出了國內首個低成本、可落地的 NLP 萬億大模型,並再次登頂自然語言理解任務榜單 CLUE。

今年 2 月底,騰訊針對類 ChatGPT 對話式產品已成立「混元助手(HunyuanAide)」項目組,將聯合騰訊內部多方團隊構建大參數語言模型,目標是「通過性能穩定的強化學習算法訓練,完善騰訊智能助手工具,打造騰訊智能大助手,並能成為國內的業界標杆」。

在這些大廠之外,還有一個科技領域的重量級玩家總是受人期待,卻仍未見出手。對於「華為在類似 ChatGPT 方向上的計劃」,有計算產品線相關負責人僅表示,華為 2020 年開始在大模型開始有布局,2021 年基於昇騰 AI 與鵬城實驗室聯合發布了鵬程・盤古大模型,是業界首個千億級生成和理解中文 NLP 大模型。

盤古模型在預訓練階段學習了 40TB 中文文本數據,並通過行業數據的樣本調優提升了模型在場景中的應用性能,在 16 個下游任務中性能指標優於業界 SOTA 模型。在應用方向上,盤古支持豐富的應用場景,在知識問答、知識檢索、知識推理、閱讀理解等文本生成領域表現突出。

從技術實踐、人才合作到落地應用,從國內一眾大廠的表態中我們不難看出,ChatGPT 的競爭中,國內在很多領域上擁有相應的實力。

但這並不是全部,造大模型還有算力這個繞不過去的檻。

跨過算力門檻

人工智慧先驅 Richard Sutton 在 2019 年曾發表過一篇著名的文章《苦澀的教訓》(The Bitter Lesson),其中一句話說道:「70 年的人工智慧研究史告訴我們,利用計算能力的一般方法最終是最有效的方法。」

這是一個頗具爭議的觀點,但他的預見在 2020 年的 GPT-3 上獲得了驗證,並隨著去年 11 月出世的 ChatGPT 再次引發了廣泛討論。在過去幾年中,大量研究者和機構在大模型這個方向上進行探索,並收穫了成效,但隨著模型體量的急劇膨脹,人們已開始面臨大模型「算不起」的問題。

根據 OpenAI 自己的測算,自 2012 年起,全球頭部 AI 模型訓練算力需求每 3 到 4 個月翻一番,每年先進的模型訓練所需算力增長幅度高達 10 倍。

圖片來源:https://huggingface.co/blog/large-language-models

到了 ChatGPT 這裡,外界普遍估計其參數規模約在 1750 億左右,它經由微軟專門建設的 AI 計算系統訓練,總算力消耗約為 3640 PF-days。而在推理階段,以今年 1 月份獨立訪客平均數 1300 萬計算,ChatGPT 對應的晶片需求為 3 萬多塊英偉達 A100 GPU,初始投入成本約為 8 億美元,每天光是花掉的電費就要 5 萬美元。

此前在 2022 年 11 月,英偉達在官網的公告中表示,數萬顆 A100/H100 高性能晶片已被部署在微軟 Azure 上,其成為了第一個使用英偉達高端 GPU 構建的大規模 AI 計算集群。

大模型增加了科技公司對專用 GPU 的需求。財報顯示,英偉達 2023 財年 AI(數據中心)業務全年收入達 150.1 億美元,創下歷史新高,同比增長了 41%,其中第四季度 AI 業務收入 36.2 億美元,同比增速為 11%。英偉達 CEO 黃仁勛表示,ChatGPT 是人工智慧領域的 iPhone 時刻,也是計算領域有史以來最偉大的技術之一。

這種投入遠超以往 AI 領域的研究:強如微軟,在幫 OpenAI 打造 ChatGPT 時都因為算力不足而面臨內部壓力,還被迫暫停了一些其他項目。

對於想構建 ChatGPT 級別產品的國內公司來說,目前高性能 GPU 晶片面臨短缺問題,硬體、運營成本,快速商業化是肉眼可見的挑戰,參與者需要具備強大的硬體基礎,豐富的工程經驗,以及敢於投入的意志。

在用於大模型的 AI 算力上,國內幾家科技公司也有相應的準備。

去年 5 月,百度智能雲宣布落地了新一代高性能 AI 計算集群,提供 EFLOPS 級算力支持。據報導,該集群基於 NVIDIA A100 GPU 和 InfiniBand 網絡構建,研究人員可基於全新發布的實例組建上千節點規模的超高性能計算集群,成倍縮短超大 AI 模型的訓練時間。經過百度 NLP 研究團隊的驗證,在該集群上提交千億模型訓練作業時,同等規模下整體訓練效率是普通 GPU 集群的 3.87 倍。

在國內科技公司行列中,說到算力,華為有著自己的先天優勢。從盤古大模型的新聞中,我們經常會看到鵬城雲腦、昇騰 AI 晶片的字樣。

鵬城雲腦 II 自 2021 年起正式運行,是一套專為 AI 任務設計的超算系統,曾在國際超算大會上多次刷新世界紀錄。它以華為 Atlas AI 集群為底座,通過多樣化的異構計算平台、多源算法平台和多態智能應用,支撐了多項 AI 重大應用的模型訓練及推理。

更重要的是,鵬城雲腦 II 可以提供 1E OPS 智能算力,即不低於每秒 100 億億次操作的 AI 計算能力。在盤古大模型的訓練上,華為就動用了超過 2000 塊昇騰 910,以 640P FLOPS 的 FP16 算力訓練了兩個月。

而鵬城雲腦只是體現華為 AI 整體能力的案例之一。宏觀的看,在 2022 年的國內雲計算市場份額調研中,華為雲已位居第二,增速達 67%,是當前國內市場中雲增速最快的主流雲服務商之一。

為了讓 AI 技術更高效地落地,華為還實現了從底層硬體到應用軟體的整體打通,通過底層軟體、訓練框架、ModelArts 平台的協同優化,充分釋放了晶片算力,實現了端到端的性能優化。

據介紹,藉助 ModelArts 平台的高效處理海量數據能力,在訓練盤古大模型時,華為僅用 7 天就完成了 40TB 文本數據的處理工作。而當前的盤古系列超大規模預訓練模型,已經包括 NLP 大模型、CV 大模型、多模態大模型和科學計算大模型等多個種類。

新興的 AI 技術也面臨著技術落地的挑戰。在很多行業應用中,人們需要針對業務場景開發一系列定製化模型,各自完成數據清洗、數據增強、模型適配等工作,這些模型面臨著難以復用的挑戰。預訓練大模型的邏輯是提前將知識、數據、訓練成果沉澱到同一個模型中,再由不同應用的開發者在此基礎上進行二次開發和微調,就像一個基礎通用的技術底座,可以大幅提升效率。

這讓 AI 具備更多的普惠屬性,華為基於盤古提出了以大模型為核心的普適 AI 建模工作流,能讓一個模型覆蓋多個場景,減少專家的干預和人為調優的消耗,大幅提升技術落地效率,也降低了技術門檻。這或許是搜尋引擎之外,能讓大模型更廣泛應用的正確方向。

不難看出,AI 領域發展到了 ChatGPT 時代,早已不再是比某項領先的技術,而是在比整套技術體系,真正具備全棧實力的公司會很快脫穎而出。

那麼,ChatGPT 軍備競賽,華為會出手嗎?根據最近的消息,在華為內部,有項目已在研發過程中了。

關鍵字: