GPT-4要來了！一文看盡大型語言模型的過去、現在、未來

智東西

作者 | ZeR0

編輯 | 漠影

智東西3月13日報導，昨日，由中國人民大學高瓴人工智慧學院主辦的AIGC論壇在北京舉行，本次會議以「AIGC：從不存在到存在」為議題，探討對話生成模型、多媒體內容生成等人工智慧（AI）前沿技術的發展趨勢。

在對話與語言生成模型專場，哈爾濱工業大學計算機學院教授車萬翔、中國科學院自動化研究所研究員張家俊、中國人民大學高瓴人工智慧學院長聘副教授嚴睿、新浪微博資深算法專家張俊林分別作報告。

這場學術盛會幹貨滿滿，不僅系統性地回顧了自然語言處理（NLP）的五個發展階段，對大型語言模型研究的三個主要技術路徑進行解讀，並拆解了ChatGPT的四項關鍵技術，還就大型語言模型研究重心的變遷與未來趨勢進行探討。

一、NLP五級進階路：從基於規則到遵循人的價值觀

新浪微博資深算法專家張俊林認為，要想探尋大型語言模型未來怎麼走，需要先回顧此前是怎麼一路變遷的。他將自然語言處理發展到大型語言模型的歷程分為五個階段：規則、統計機器學習、深度學習、預訓練、大型語言模型。

機器翻譯是NLP中難度最高、綜合性最強的任務。因此張俊林以機器翻譯任務為例來對比不同階段的特點以及技術棧、數據的變化，以此展示NLP如何一步步演進。

規則階段大致從1956年到1992年，基於規則的機器翻譯系統是在內部把各種功能的模塊串到一起，由人先從數據中獲取知識，歸納出規則，寫出來教給機器，然後機器來執行這套規則，從而完成特定任務。

統計機器學習階段大致從1993年到2012年，機器翻譯系統可拆成語言模型和翻譯模型，這裡的語言模型與現在的GPT-3/3.5的技術手段一模一樣。該階段相比上一階段突變性較高，由人轉述知識變成機器自動從數據中學習知識，主流技術包括SVM、HMM、MaxEnt、CRF、LM等，當時人工標註數據量在百萬級左右。

深度學習階段大致從2013-2018年，相對上一階段突變性較低，從離散匹配發展到embedding連續匹配，模型變得更大。該階段典型技術棧包括Encoder-Decoder、LSTM、Attention、Embedding等，標註數據量提升到千萬級。

預訓練階段是從2018年到2022年，相比之前的最大變化是加入自監督學習，張俊林認為這是NLP領域最傑出的貢獻，將可利用數據從標註數據拓展到了非標註數據。該階段系統可分為預訓練和微調兩個階段，將預訓練數據量擴大3到5倍，典型技術棧包括Encoder-Decoder、Transformer、Attention等。

大型語言模型階段從2023年起，目的是讓機器能聽懂人的命令、遵循人的價值觀。其特性是在第一個階段把過去的兩個階段縮成一個預訓練階段，第二階段轉換成與人的價值觀對齊，而不是向領域遷移。這個階段的突變性是很高的，已經從專用任務轉向通用任務，或是以自然語言人機接口的方式呈現。

隨後他介紹了一個研究工作的結論：在高資源語言上，ChatGPT機器翻譯效果與商用MT系統效果接近；在低資源語言上，目前ChatGPT機器翻譯效果與商用MT系統相比差得比較遠。

從這些階段中數據、算法、人機關係的變化，可以觀察到NLP的發展趨勢。

數據方面，從少量標註數據、大量標註數據、海量非標註數據+少量標註數據到海量非標註數據，越來越多數據被利用起來，人的介入越來越少，未來會有更多文本數據、更多其它形態的數據被用起來，更遠的未來是任何我們能見到的電子數據，都應該讓機器自己從中學到知識或能力。

算法方面，表達能力越來越強，規模越來越大，自主學習能力越來越強，從專用向通用，沿著這個趨勢往後，未來Transformer預計夠用，同時也需要替代Transformer的新型模型，逐步邁向通用人工智慧。

人機關係方面，人的角色逐漸從教導者轉向監督者，未來可能會從人機協作、機器向人學習，發展成人向機器學習，最後由機器拓展人類。

二、大型語言模型的三大技術路線：Bert、GPT、混合模式

張俊林分享道，近5年來，大型語言模型研究的發展有三條技術路線：Bert模式、GPT模式、混合模式。其中國內大多採用混合模式，多數主流大型語言模型走的是GPT技術路線，直到2022年底在GPT-3.5的基礎上產生了ChatGPT。

可以看到，到2019年後，Bert路線基本上就沒有什麼標誌性的新模型出現了，而GPT技術路線趨於繁榮。從Bert往GPT走，模型越來越大，做的事越來越通用。

大型語言模型按照從數據到知識來劃分，數據可分為通用數據和領域數據，知識分為語言知識和世界知識；從任務類型來劃分，可以分為單一任務和多任務、理解類和生成類。

Bert模式有兩階段（雙向語言模型預訓練+任務Fine-tuning），適用於理解類、做理解類、某個場景的具體任務，專而輕。

GPT模式是由兩階段到一階段（單向語言模型預訓練+zero shot prompt/Instruct），比較適合生成類任務、多任務，重而通。

T5模式將兩者的方法結合，有兩階段（單向語言模型預訓練+Fine-tuning）。張俊林稱這種模式「形似GPT，神似Bert」，生成和理解都行，從效果上看較適合理解類任務，國內很多大型語言模型採用這種模式。

目前的研究結論是，如果模型規模不是特別大，面向單一領域的理解類任務，適合用T5模式。做生成類任務時，用GPT模式效果最好。

如果單獨考慮zero-shot，GPT模式效果最好；如果在預訓練後引入多任務fine-tuning，則T5模式效果好。不過張俊林認為這個結論存疑，因為目前的實驗Encoder-Decoder都是Decoder-only參數量的兩倍。

綜合來看，當前幾乎所有參數規模超過千億的大型語言模型都採取GPT模式。張俊林分析可能的原因有三點：1、Encoder-Decoder里的雙向attention，損害zero shot能力；2、Encoder-Decoder結構在生成Token時，只能對Encoder高層做attention，Decoder-only結構在生成Token時可以逐層Attention，信息更細粒度；3、Encoder-Decoder訓練「中間填空」，生成最後單詞Next Token，存在不一致性，Decoder-only結構訓練和生成方式一致。

三、用提示學習方法，觸發大模型通用能力

從GPT的成長路徑來看，哈爾濱工業大學計算機學院教授車萬翔談道，2018年第一代GPT真正開啟NLP預訓練模型時代，但沒有引起特別大的關注，其風頭被Bert蓋住。2019年GPT-2模型的參數變得更多，但仍未引起很大轟動。

2020年GPT-3模型發布，2022年3月InstructGPT模型問世，當時重點是用1%參數達到1750億參數的GPT-3的效果，也沒有特別令人興奮，直到ChatGPT誕生，直接推向市場和面向終端用戶，並憑藉驚艷的效果在社會上引起廣泛關注。

為什麼GPT-3問世兩年了，還沒有受到足夠廣泛的關注？車萬翔認為，這是因為它只解決了知識存儲問題，尚未很好解決「知識怎麼調用」的問題，而ChatGPT相當於解決了這一部分。兩塊打通後，就產生了非常好的應用效果。

中國科學院自動化研究所研究員張家俊介紹了ChatGPT的通用能力基座。OpenAI在2020年用45T文本數據，通過自監督訓練獲得基礎大模型GPT-3，實現了流暢性、知識性；2021年在GPT-3基礎上利用179G代碼數據，通過自監督訓練獲得邏輯編程模型Codex；2022年利用更多更新文本數據和代碼數據的混合學習，得到了更強的基礎大模型GPT-3.5，這成為ChatGPT的基礎模型，實現了流暢性、知識性和邏輯性。

據他分享，大模型的通用能力由基礎模型決定，GPT-3用提示學習方法觸發通用能力。

參數微調通過任務相關的監督數據修改模型參數，能夠最大限度激發預訓練大模型完成特定任務的能力，但面臨數據稀、災難遺忘、資源浪費、通用性差等難題。

提示學習通過設計提示信息修改輸入模式，能夠觸發預訓練大模型完成特定任務，但是單一的外部提示信號難以最大限度地激發預訓練大模型的能力，從而高質量完成具體任務。

將兩者結合，通過若干任務相關的經過提示增強的監督數據修改模型參數，有助於激發模型的通用能力。

OpenAI聘請數據標註團隊，根據各垂直領域問題指令撰寫人工答案，並從開放的GPT-3、InstructGPT等API接口收集全球用戶的問題指令，對其按照問答、摘要等領域進行分類；同時藉助指令學習，在GPT-3.5的基礎上利用各領域人工撰寫的指令與答案對模型進行微調。

當模型參數規模達到百億以上時，幾十個任務聯合指令學習可以解決沒有見過的任務。

張家俊強調說，任何大模型都有其能力邊界，幾乎不可能實現面向無限任務的通用能力，但可以通過讓大模型學會與其他模型、工具和環境進行交互，實現大模型通用能力的拓展。

紫東太初多模態大模型便嘗試模型交互實現通用多模態對話。這是一個擁有千億參數規模的圖文音三模態大模型，通過學會API的使用，讓較小的語言大模型擁有通用的多模態對話能力。3月24日，張家俊將在「GTIC 2023中國AIGC創新峰會」上發表演講，分享紫東太初大模型的更多進展。

四、解讀ChatGPT四大關鍵技術

下圖是車萬翔分享的從GPT-3到ChatGPT的技術演化路徑。

總體而言，ChatGPT有四個關鍵技術：

1、大規模預訓練模型：只有模型規模足夠大，才可能具備推理能力。中國人民大學高瓴人工智慧學院長聘副教授嚴睿談道，智能湧現不是故意設計出來的，而是大模型規模大到一定程度後，天然具備這樣的特性。

2、在代碼上進行預訓練：可能代碼把解決一個大的問題分解成若干個小的問題，這種分布解決問題的方式有助於自然語言推理。和自然語言模型相比，代碼語言模型需要更長的上下文的依賴。

3、Prompt/Instruction Tuning：GPT-3模型太大，已經沒辦法去精調了，只能用prompt，但是如果不精調，模型相當於還是一個語言模型，沒辦法適應人，只能由人去適應模型。讓人適應模型只能用指令的方式，再進行精調，這相比預訓練代價要小的多。所以指令上精調就可以把一些不太多的數據，把語言模型的任務掰到適應人類的回答問題。

4、基於人類反饋的強化學習（RLHF）：這對於結果好壞的影響不是特別大，甚至會限制語言模型生成的能力，但這種方式可能更好地和人類在安全性、無毒無害等等方面的價值觀對齊。當模型上線後，它可以收集到更多用戶的反饋。

嚴睿認為Human-in-the-Loop可能是大型語言模型成功的一個重要因素，通過RLHF不斷獲得人類反饋，將人的指令與機器的理解逐漸對齊，實現智能的不斷演化。

展望未來，ChatGPT能發展多久？車萬翔發現了一個有意思的規律。如圖所示，每個箭頭長短代表技術發展的時間長度，可以看到，新技術的發展時間大約是舊技術的一半，以此推演，預訓練模型可能發展五年到2023年，再往後可能到2025年左右會有新技術產生。

五、大模型的未來：多模態、具身智能、社會交際

車萬翔認為，ChatGPT可以說是繼資料庫和搜尋引擎後的全新一代知識表示和檢索的方法。

從知識表示和運用角度來看，知識在計算機內如何表示是人工智慧最核心的問題之一。早期是通過關係型資料庫的方式，精度較高，因為資料庫中每行每列的語義都非常明確，問題是調用的自然度極低，必須由人去學習機器的語言，早期這些存儲方式產生了Oracle、微軟等科技巨頭。

後來網際網路上存儲了人類全部的知識，這種知識表達方式不如資料庫精確，但存儲量大、信息多，調取這些知識需要藉助搜尋引擎、通過關鍵詞的方式，關鍵詞和SQL語句比起來就更為廣大用戶所接受，表達自然度更好，但仍然不及自然語言，產生谷歌、百度等科技巨頭。

到大模型時代，可以認為大模型也是一種知識存儲的方式，不是以人能看懂的方式來存儲，而是以參數的方式來存儲，可讀性、精度相對較低，但調用方式非常自然，通過自然語言就能調出大模型中的知識。車萬翔相信和前兩次革命一樣，大模型時代會出現新的科技巨頭，現在看來OpenAI非常具有這樣的潛力，領先優勢明顯。

談到大型語言模型研究的重心，車萬翔和張俊林都認為除了語言外，還需要更多知識。

關於NLP的過去、現在、未來，科學家們在2020年提出了一個world scope概念，將NLP的發展進程分為語料庫、網際網路、多模態、具身智能、社會交際這五個world scope。

早期NLP基於文本，再往後發展要走向多模態、具身認知、社會交際。ChatGPT已經似乎有與人類社會互動的意思，相當於是跳過了中間兩步，但車萬翔認為，要真正實現通用人工智慧，中間這兩步是不能跳的，不然就像盲人在學語言。據傳GPT-4會是一個多模態大模型，如果解決了多模態這一步，那就只剩下具身了。

多模態大型語言模型的目標是增強更多的現實環境感知能力，包括視覺輸入（圖片、視頻）、聽覺輸入（音頻）、觸覺輸入（壓力）等等。張俊林認為，目前阻礙多模態大模型發展的一個障礙是其很大程度上依賴於人工整理的大數據集，圖像處理的自監督技術路線尚未走通，如果走通可能會是又一大技術突破，一些圖像理解類任務大概率會被融入大型語言模型，不再單獨存在。

多模態大模型是具身智能的基礎，相當於大腦，它還需要身體，才能與物理世界的交互。因此下一步就是將大腦與身體（如機器人等）結合的具身智能，利用強化學習，從真實世界獲得真實反饋、學習新的知識。

另一個值得探討的話題是大型語言模型的規模，做大還是做小？

張俊林談道，一方面，Scaling Law說明了模型規模越大，數據越多，訓練越充分，大型語言模型的效果越好；另一方面，訓練成本太高了，Chinchilla證明了如果在數據充足的前提下，目前大型語言模型的規模比應有的合理大小更大些，似乎存在參數空間浪費。因此應該是：先把模型做小，充分利用模型參數後，再將模型做大。

除此之外，張俊林認為大型語言模型的複雜推理能力未來將進一步提升。大型語言模型如何與專用工具結合也是非常有前景的方向，但技術尚不成熟，他判斷OpenAI應該不會走這條路。

大型語言模型還有很多問題有待克服，包括構建中文評測數據集、優化新知識的獲取、優化舊知識的修正、探索私域領域知識的融入、優化更好理解命令的能力、降低訓練推理成本等等。

結語：大模型與生成式AI駛入快車道

自然語言處理被譽為人工智慧皇冠上的明珠，而其最新代表之作ChatGPT憑藉卓越的多輪對話和內容生成能力，正掀起新一輪人工智慧研究、商用及創業熱潮。

ChatGPT仍有很多問題，比如事實檢索性和複雜計算性效果差，無法實現一些實時性、動態變化性的任務等。但優化這些問題以及提升大模型能力的研究正在飛速推進。

如果上周微軟德國公司CTO兼AI部門主管Andreas Braun透露的信息為真，那麼本周OpenAI將發布更強大的GPT-4多模態大模型，打通認知與感知的連接。百度基於文心大模型研發的生成式對話產品「文心一言」也將於本周四3月16日正式發布。微軟將在周五舉行主題為「與AI一起工作的未來」的在線活動。大模型與生成式AI領域正變得愈發熱鬧。