大咖思辨-42 | 大模型狂飆背後的推動力是什麼？讓我們一探究竟！

隨著ChatGPT、GPT-4、Copilot的火熱出圈，大模型已經成為AI領域的研究熱點與必爭之地。2023年3月28日，由AI TIME、清華校友總會AI大數據專委會聯合主辦，有孚網絡、智譜AI、金地集團智匯港灣孵化器贊助支持的「大模型為什麼是AI領域的『兵家必爭之地』？」大咖思辨活動，邀請了中國人民大學高瓴人工智慧學院教授、博士生導師盧志武，新加坡國立大學校長青年教授、潞晨科技創始人、董事長尤洋，北京智譜華章科技有限公司CEO張鵬，金沙江創投主管合伙人張予彤，上海有孚網絡股份有限公司聯合創始人兼CTO臧雲峰。五位嘉賓圍繞大模型的技術革新、道德倫理、商業價值等方面進行了深度探討。本次活動共吸引了來自線上線下的專業領域觀眾約4.2萬人次參與。

大模型為什麼能夠風起雲湧？

AIGC的快速疊代演變，讓大模型技術席捲全球，而3月也是語言大模型集中爆發的一個月，這讓我們看到AI技術的飛速前進，而大模型受到前所未有的關注，原因究竟在哪？對此，不同領域的專家分享了他們獨到的見解。

尤洋：這是一件順其自然的事情，AI從2011年發展到現在已經十多年了，深度神經網絡這方面的技術積累也經歷了很長的時間，最近幾年Transformer架構的出現，是一種爆發式的體現。過去一年AI之所以引起這麼大的關注，是因為它以產品的性能說話，確實讓人們看到了好的效果。

張予彤：在16年投資AI的公司非常多，但是17年的市場熱度又有所減退，科技的發展是與人們的預期是有差距的。在2022年3月份之前，國內外關於AI的投資量是很少的，而今年則上升到了50%。對於技術的發展來講，是有一定的發展周期的，很期待能夠穿越周期去做很多新的事情。

盧志武：無論是ChatGPT還是其他模型，都應該關注出圈的本質原因，即它們能夠深入理解NLP的各種任務，達到前所未有的水平，使普通人也能夠享受技術發展的紅利。OpenAI已經將AGI的發展推向了一個新的水平，但未來還有很多的工作需要完成，例如讓數字人在具體應用場景中能夠與人類正常交流。從學術的角度來看，在GPT-4發布後，比如在多模態方面國人還是有可能去做出一些特色成果的。

張鵬：ChatGPT通過其卓越的自然語言水平讓人們更容易認同它。雖然預訓練模型等工作在學術圈已經得到了很多研究，但很少走入產品和日常生活中，所以人們對技術的體感比較弱。ChatGPT的出現讓人們切身感受到之前的很多研究成果，需要長期的堅持、耐心和投入才能實現技術的進步。

臧雲峰：人工智慧的快速發展需要足夠的算力支持，現在的神經網絡層數已達數百層，這也是「大力出奇蹟」的體現。隨著ChatGPT的深度使用，相信人工智慧的時代已經到來，它能夠深刻地改變我們的生活，這是超過以往大語言模型讓我們感到震撼的地方。

未來大模型面對哪些技術難點和壁壘？

● 大模型在短時間內會有哪些突破？

臧雲峰：神經網絡可能已經接近人類語言的邊界，但這不一定是最終的邊界。當前的ChatGPT比單一的語言辭藻堆砌更好，但還遠未實現深度思維，因此邏輯訓練很重要。在這方面，可以通過算力的幫助做得更好，發揮更大的創造性。關於小模型是否可以有卓越的性能，模型蒸餾和語料訓練已證明是可行的，未來也期待更多的創新。

張鵬：就技術探索和應用實際兩個方面來看，大模型在能力上明顯高於小模型，但要在實際應用中取得平衡，不能只追求大模型的能力提升而忽略經濟實惠，也不能停留於享受當前紅利。應該從技術探索的角度看待大模型的潛力，從實際應用的角度講究性價比，探索更適合的模型。

盧志武：從學術角度來看，探索上限是值得的。語言模型需要至少達到60B參數規模才能湧現，但是進一步增加模型大小可能會遇到數據不足的問題。單純追求萬億參數可能沒有意義，因為數據無法支撐。另一方面，大模型需要落地，需要用戶檢驗其真實性能。從這個角度，小模型也有研究價值，未來可以更多地在落地應用中探索模型蒸餾和多模態學習。

張予彤：隨著模型參數的增大，性能會提升，但在足夠大的情況下，要想進一步提升性能，需要探索不同的優化方向。DeepMind證明了一個更小的模型使用更多的訓練數據，能夠取得更好的性能。目前模型參數規模和數據獲取能力還是瓶頸，模型基於所有人類歷史上沉澱的文字數據，未來需要更多地關注高質量的數據源。多模態可能會帶來新的數據來源，未來的突破可能在於標註數據、訓練過程和預訓練的數據源。

● 大模型在到達一定的瓶頸之後還會有發展空間嗎？

尤洋：評價一個模型大小和好壞往往是憑經驗，大模型訓練本質上是優化問題，但現在訓練的模型都沒有收斂，理論證明上還有很多事情無法解釋，無法確定大模型是否已經到達上限。理論上，參數越多的大模型效果肯定越好。隨著像ChatGPT這樣的更好的數據處理工具的出現，能夠探索的邊界會更多。未來想要更好地解決這個問題，主要的優化點在於軟體如何更好地規劃數據和移動通信，只有將效率大幅提升，才能達到更好的模擬效果。

張予彤：現在還處於早期階段，大模型展示了通用泛化能力，超出了以往任何一個垂直的子任務。很多人認為中國的AI目前與美國相比是有差距的，這個觀點是從算力角度出發的。AI的基礎設施需要大量算力，因此需要更好的分布式並行計算架構來提高運行效率，彌補硬體上的差距。雖然現在在很多領域是有局限性的，但是未來有希望實現突破。

盧志武：OpenAI和谷歌等公司已經深入探索了人工智慧語言方面的路徑圖，因此短期內，大家的思路基本會沿著這個方向走。但在視覺領域，尚未發現真正有效的大模型底層架構。如果能夠在這方面進一步突破，就可以將文本、多模態等領域真正聯繫起來。總之，未來在多模態大模型合理架構上還有探索很多空間。

張鵬：在解決這件事情時，可以從幾個方面入手。首先是硬體條件，晶片是訓練模型的關鍵，同樣模型的訓練也可以反哺晶片性能。其次是軟體方面，包括訓練框架等方面的創新，不一定按照打造ChatGPT的思路走，創新可能會帶來意想不到的收穫。最後，需要更多關注大型模型的最終應用結果，而不僅僅是理論和學術上的證明。因此，需要學術、產業、開源社區的共同努力，集體做出貢獻，努力解決這些限制的問題。

臧雲峰：首先國產硬體有潛力，例如可以將transformer標準化固化到硬體，這會有很大的發展潛力；其次要將學術成果應用到產業化中，用新數據反哺模型，產生更好的效果，以形成良性互動；最後開源也是必不可少的，比如可以把開源的一些小模型嫁接在大模型之上，實現增值服務應用。

大模型如何賦能產業應用？

隨著大模型在技術上產生更多的突破，會對應用系統落地產生更好的促進作用，而它又將如何在不同的業界內綻放光彩？

臧雲峰：大模型的智能化與AI應用是相輔相成的。大模型需要深入了解人類表達和創作背景，其中會涉及到隱私數據問題，因此保障數據安全尤為重要。通用的人工智慧模型國家之間共享的可能性非常小，我們需要擁有自己的人工智慧大模型平台。基於大模型平台，可以發展出很多領域的小模型，來對接不同領域的AI應用開發。

張鵬：底層模型平台的發展會賦能AI應用，但也可能擠壓到上層應用的空間，機遇和危機並存的。大模型技術的發展會淘汰一些行業，但也會催生新業態的發展。AI能力的提升會帶來應用新形態的變化，我們需要往前看，加快前進的步伐，不被過去的成本束縛。大模型的發展是在加速的，預計還會更快。新的技術能夠給大家的工作和生活帶來更多的新體驗。

盧志武：現在的大模型應用於企業中，能夠帶來生產力的提升，但是卻又受到應用場景的限制。客戶的需求是不斷增長的，大模型在具體場景中的應用也是需要做出很多的調整。新技術的發展固然會淘汰掉一些職業，但也會帶來新的職業發展機會。

張予彤：歷史的角度來看，新技術的出現會帶來機遇與挑戰，但最終人和工具還是會有一個更好的融合。大模型實現了超級UI和端到端的交互，可被看作一個新的作業系統，提供了之前基礎設施所不具備的智能能力。基於小模型的公司如果大模型的加持，有助於實現性能大幅提升並進行業務模式升級。無論是基礎設施層還是模型層的企業，不斷關注和探索，會帶來巨大的應用機會。

尤洋：大模型可能會引領AI進入一個新的範式。回顧網際網路帶來的變革，可以分為3個階段：搜尋引擎階段、智能推薦階段、高度定製化階段。大模型有很大機會將所有東西串聯匯總起來，進入高度命令式的時代。未來可能會出現一個私人定製化的「諸葛亮」，這將會在應用層面帶來很大的空間。高度智能雖然是很難量化的，但隨著產品體驗以及其他行業的發展，會是一個逐漸變好的過程。

大模型未來「路在何方」

盧志武：在AGI這一點，中國人還是有很多機會的。

張予彤：希望未來能夠實現邊際成本為0的智能生產力。

尤洋：用AI去解放生產力，釋放創造力。

臧雲峰：很多的崗位不是最終被取代，而是被升華。

劉道全：整個AI產業都在重構，一個新的格局正在誕生。

何芸：希望ChatGPT推動我們思考未來要走什麼樣的路，應該成為什麼樣的人，怎樣去擁抱AI。