大咖思辨-42 | 大模型狂飆背後的推動力是什麼?讓我們一探究竟!

aitime論道 發佈 2023-04-14T19:27:54.806670+00:00

隨著ChatGPT、GPT-4、Copilot的火熱出圈,大模型已經成為AI領域的研究熱點與必爭之地。2023年3月28日,由AI TIME、清華校友總會AI大數據專委會聯合主辦,有孚網絡、智譜AI、金地集團智匯港灣孵化器贊助支持的「大模型為什麼是AI領域的『兵家必爭之地』?

隨著ChatGPT、GPT-4、Copilot的火熱出圈,大模型已經成為AI領域的研究熱點與必爭之地。2023年3月28日,由AI TIME、清華校友總會AI大數據專委會聯合主辦,有孚網絡、智譜AI、金地集團智匯港灣孵化器贊助支持的「大模型為什麼是AI領域的『兵家必爭之地』?」大咖思辨活動,邀請了中國人民大學高瓴人工智慧學院教授、博士生導師盧志武,新加坡國立大學校長青年教授、潞晨科技創始人、董事長尤洋,北京智譜華章科技有限公司CEO張鵬,金沙江創投主管合伙人張予彤,上海有孚網絡股份有限公司聯合創始人兼CTO臧雲峰。五位嘉賓圍繞大模型的技術革新、道德倫理、商業價值等方面進行了深度探討。本次活動共吸引了來自線上線下的專業領域觀眾約4.2萬人次參與。




01

大模型為什麼能夠風起雲湧?


AIGC的快速疊代演變,讓大模型技術席捲全球,而3月也是語言大模型集中爆發的一個月,這讓我們看到AI技術的飛速前進,而大模型受到前所未有的關注,原因究竟在哪?對此,不同領域的專家分享了他們獨到的見解。


尤洋:這是一件順其自然的事情,AI從2011年發展到現在已經十多年了,深度神經網絡這方面的技術積累也經歷了很長的時間,最近幾年Transformer架構的出現,是一種爆發式的體現。過去一年AI之所以引起這麼大的關注,是因為它以產品的性能說話,確實讓人們看到了好的效果。


張予彤:在16年投資AI的公司非常多,但是17年的市場熱度又有所減退,科技的發展是與人們的預期是有差距的。在2022年3月份之前,國內外關於AI的投資量是很少的,而今年則上升到了50%。對於技術的發展來講,是有一定的發展周期的,很期待能夠穿越周期去做很多新的事情。


盧志武:無論是ChatGPT還是其他模型,都應該關注出圈的本質原因,即它們能夠深入理解NLP的各種任務,達到前所未有的水平,使普通人也能夠享受技術發展的紅利。OpenAI已經將AGI的發展推向了一個新的水平,但未來還有很多的工作需要完成,例如讓數字人在具體應用場景中能夠與人類正常交流。從學術的角度來看,在GPT-4發布後,比如在多模態方面國人還是有可能去做出一些特色成果的。


張鵬:ChatGPT通過其卓越的自然語言水平讓人們更容易認同它。雖然預訓練模型等工作在學術圈已經得到了很多研究,但很少走入產品和日常生活中,所以人們對技術的體感比較弱。ChatGPT的出現讓人們切身感受到之前的很多研究成果,需要長期的堅持、耐心和投入才能實現技術的進步。


臧雲峰:人工智慧的快速發展需要足夠的算力支持,現在的神經網絡層數已達數百層,這也是「大力出奇蹟」的體現。隨著ChatGPT的深度使用,相信人工智慧的時代已經到來,它能夠深刻地改變我們的生活,這是超過以往大語言模型讓我們感到震撼的地方。



02

未來大模型面對哪些技術難點和壁壘?


● 大模型在短時間內會有哪些突破?

臧雲峰:神經網絡可能已經接近人類語言的邊界,但這不一定是最終的邊界。當前的ChatGPT比單一的語言辭藻堆砌更好,但還遠未實現深度思維,因此邏輯訓練很重要。在這方面,可以通過算力的幫助做得更好,發揮更大的創造性。關於小模型是否可以有卓越的性能,模型蒸餾和語料訓練已證明是可行的,未來也期待更多的創新。


張鵬:就技術探索和應用實際兩個方面來看,大模型在能力上明顯高於小模型,但要在實際應用中取得平衡,不能只追求大模型的能力提升而忽略經濟實惠,也不能停留於享受當前紅利。應該從技術探索的角度看待大模型的潛力,從實際應用的角度講究性價比,探索更適合的模型。


盧志武:從學術角度來看,探索上限是值得的。語言模型需要至少達到60B參數規模才能湧現,但是進一步增加模型大小可能會遇到數據不足的問題。單純追求萬億參數可能沒有意義,因為數據無法支撐。另一方面,大模型需要落地,需要用戶檢驗其真實性能。從這個角度,小模型也有研究價值,未來可以更多地在落地應用中探索模型蒸餾和多模態學習。


張予彤:隨著模型參數的增大,性能會提升,但在足夠大的情況下,要想進一步提升性能,需要探索不同的優化方向。DeepMind證明了一個更小的模型使用更多的訓練數據,能夠取得更好的性能。目前模型參數規模和數據獲取能力還是瓶頸,模型基於所有人類歷史上沉澱的文字數據,未來需要更多地關注高質量的數據源。多模態可能會帶來新的數據來源,未來的突破可能在於標註數據、訓練過程和預訓練的數據源。

● 大模型在到達一定的瓶頸之後還會有發展空間嗎?

尤洋:評價一個模型大小和好壞往往是憑經驗,大模型訓練本質上是優化問題,但現在訓練的模型都沒有收斂,理論證明上還有很多事情無法解釋,無法確定大模型是否已經到達上限。理論上,參數越多的大模型效果肯定越好。隨著像ChatGPT這樣的更好的數據處理工具的出現,能夠探索的邊界會更多。未來想要更好地解決這個問題,主要的優化點在於軟體如何更好地規劃數據和移動通信,只有將效率大幅提升,才能達到更好的模擬效果。


張予彤:現在還處於早期階段,大模型展示了通用泛化能力,超出了以往任何一個垂直的子任務。很多人認為中國的AI目前與美國相比是有差距的,這個觀點是從算力角度出發的。AI的基礎設施需要大量算力,因此需要更好的分布式並行計算架構來提高運行效率,彌補硬體上的差距。雖然現在在很多領域是有局限性的,但是未來有希望實現突破。


盧志武:OpenAI和谷歌等公司已經深入探索了人工智慧語言方面的路徑圖,因此短期內,大家的思路基本會沿著這個方向走。但在視覺領域,尚未發現真正有效的大模型底層架構。如果能夠在這方面進一步突破,就可以將文本、多模態等領域真正聯繫起來。總之,未來在多模態大模型合理架構上還有探索很多空間。


張鵬:在解決這件事情時,可以從幾個方面入手。首先是硬體條件,晶片是訓練模型的關鍵,同樣模型的訓練也可以反哺晶片性能。其次是軟體方面,包括訓練框架等方面的創新,不一定按照打造ChatGPT的思路走,創新可能會帶來意想不到的收穫。最後,需要更多關注大型模型的最終應用結果,而不僅僅是理論和學術上的證明。因此,需要學術、產業、開源社區的共同努力,集體做出貢獻,努力解決這些限制的問題。


臧雲峰:首先國產硬體有潛力,例如可以將transformer標準化固化到硬體,這會有很大的發展潛力;其次要將學術成果應用到產業化中,用新數據反哺模型,產生更好的效果,以形成良性互動;最後開源也是必不可少的,比如可以把開源的一些小模型嫁接在大模型之上,實現增值服務應用。


03

大模型如何賦能產業應用?


隨著大模型在技術上產生更多的突破,會對應用系統落地產生更好的促進作用,而它又將如何在不同的業界內綻放光彩?


臧雲峰:大模型的智能化與AI應用是相輔相成的。大模型需要深入了解人類表達和創作背景,其中會涉及到隱私數據問題,因此保障數據安全尤為重要。通用的人工智慧模型國家之間共享的可能性非常小,我們需要擁有自己的人工智慧大模型平台。基於大模型平台,可以發展出很多領域的小模型,來對接不同領域的AI應用開發。


張鵬:底層模型平台的發展會賦能AI應用,但也可能擠壓到上層應用的空間,機遇和危機並存的。大模型技術的發展會淘汰一些行業,但也會催生新業態的發展。AI能力的提升會帶來應用新形態的變化,我們需要往前看,加快前進的步伐,不被過去的成本束縛。大模型的發展是在加速的,預計還會更快。新的技術能夠給大家的工作和生活帶來更多的新體驗。


盧志武:現在的大模型應用於企業中,能夠帶來生產力的提升,但是卻又受到應用場景的限制。客戶的需求是不斷增長的,大模型在具體場景中的應用也是需要做出很多的調整。新技術的發展固然會淘汰掉一些職業,但也會帶來新的職業發展機會。


張予彤:歷史的角度來看,新技術的出現會帶來機遇與挑戰,但最終人和工具還是會有一個更好的融合。大模型實現了超級UI和端到端的交互,可被看作一個新的作業系統,提供了之前基礎設施所不具備的智能能力。基於小模型的公司如果大模型的加持,有助於實現性能大幅提升並進行業務模式升級。無論是基礎設施層還是模型層的企業,不斷關注和探索,會帶來巨大的應用機會。


尤洋:大模型可能會引領AI進入一個新的範式。回顧網際網路帶來的變革,可以分為3個階段:搜尋引擎階段、智能推薦階段、高度定製化階段。大模型有很大機會將所有東西串聯匯總起來,進入高度命令式的時代。未來可能會出現一個私人定製化的「諸葛亮」,這將會在應用層面帶來很大的空間。高度智能雖然是很難量化的,但隨著產品體驗以及其他行業的發展,會是一個逐漸變好的過程。


04

大模型未來「路在何方」


盧志武:在AGI這一點,中國人還是有很多機會的。


張予彤:希望未來能夠實現邊際成本為0的智能生產力。


尤洋:用AI去解放生產力,釋放創造力。


臧雲峰:很多的崗位不是最終被取代,而是被升華。


劉道全:整個AI產業都在重構,一個新的格局正在誕生。


何芸:希望ChatGPT推動我們思考未來要走什麼樣的路,應該成為什麼樣的人,怎樣去擁抱AI。

關鍵字: