誰能做出中國版ChatGPT？怎麼做？

機器之心轉載

作者：符堯

單位：University of Edinburgh & Allen Institute for AI

聯繫方式：yao.fu@ed.ac.uk

在 2022 年一整年，本文作者符堯追蹤了從 GPT-3 到 GPT-3.5 的全部版本疊代（參見《ChatGPT 的各項超能力從哪兒來？萬字拆解追溯技術路線圖來了！》），親眼看到它一步步地從弱到強不斷演化。在過去的一個月，他又走訪了國內各大高校、研究院、大廠、創業公司、風投，將一些新的想法濃縮在這篇文章里。

2022 年 12 月，ChatGPT 橫空出世。OpenAI 用一個核彈級的成果改變了科學研究和工程應用的範式。在中國，ChatGPT 受到了廣泛的關注與深刻的討論。在過去的一個月里，我走訪各大高校，研究院，大廠，創業公司，風投；從北京到上海到杭州到深圳，跟所有頭部的玩家們全部聊了一遍。The Game of Scale 在中國已然拉開，風暴中心的玩家們，在已知國內技術和生態與世界前沿的巨大鴻溝下，如何做成這件事？誰能做成這件事？

秦失其鹿，天下共逐之。 ——— 《史記・淮陰侯列傳》

一、三種不同的答案

我每接觸到一個創業公司，都會問同一個問題：「ChatGPT 在那裡，你們想做什麼？」我大概能收到三種不同的答案。第一個答案很明確，要做中國的 ChatGPT。

1.1 做中國的 ChatGPT

因為它就在那裡，所以想要復現，想要國產化。這是很經典的產品導向中文網際網路思維。這種思路也是過去二十年，中文網際網路常見的商業模式：首先矽谷做出來一個東西，然後我們把它抄過來。

但這裡的問題是，首先，ChatGPT 可不像打車軟體，復現難度完全不可同日而語。光從人的角度看，GPT 的產生，是這個世界上最頂尖的科學家和工程師們從 2015 年開始就不斷研究的結果。OpenAI 的首席科學家， Ilya Sutskever[1]，深刻地相信 AGI 一定能實現。作為圖靈獎得主 Geoffery Hinton 的大弟子，從 2007 年就開始研究深度學習。他的 citation 有 37 萬，發過的文章精準踩中了過去十年 Deep Learning 的所有關鍵節點。即使是如此強大的團隊，從 GPT 2 到 GPT 3.5 也花了四年的時間，它的科學與工程的難度可想而知。

同時，初代 ChatGPT，是 OpenAI 在 GPT 3.5 的基礎模型上，花了兩星期時間對著 dialog 做 finetuning 之後隨手扔出來的 demo。這裡真正強的並不是 ChatGPT 這一個產品，而是底下的 GPT 3.5 基礎模型。這個模型還在不斷地演化，GPT 3.5 系列在 2022 年更新了三個大版本[2]，每個大版本都顯著強於前一個版本；同樣地，ChatGPT 發布兩個月一共更新了四個小版本[3]，每個小版本都在單個的維度上比前一個版本有著明顯的改進。OpenAI 的所有模型都在持續不斷的演化，隨時間推移越來越強。

這也就意味著，如果只盯著當前 ChatGPT 這一個產品看，無異於刻舟求劍。當 ChatGPT 出現的時候，它對已有的語音助手們形成了降維打擊；如果看不到基礎模型的演化，即使花個一兩年辛辛苦苦做出一個類似的東西，那時候 OpenAI 的基礎模型也在繼續變強，如果他們接著產品化，以新的更強的基礎模型 finetune 到一個更強的產品，難道要再被降維打擊一次嗎？

刻舟求劍的做法是行不通的。

1.2 做中國的 OpenAI

第二種答案是，要做中國的 OpenAI。給出這個答案的玩家，跳出了經典中文網際網路產品思維。他們不止看到單個產品，而且還看到了這個產品背後，基礎模型不斷演化的強大驅動力，來源於尖端人才的密度和先進的組織架構。

尖端人才的密度：不是一個人集資源帶隊然後把任務按層級打包分配給底下的人，而是一群頂級的集 science 和 engineering 於一身的人們共同協作。
先進的組織架構：Language 團隊與 Alignment 的團隊相互合作疊代，然後底下 scaling 團隊和 data 團隊幫忙提供基礎設施，每個 team 都非常小，但目標明確路徑清晰，高度集中資源，朝著 AGI 進發

所以，如果要做這件事情，不只要看到產品，還要看到它背後的人才團隊和組織架構；按稀缺程度排名的話，人 >> 卡 >> 錢。

但這裡的問題是，不同的土壤對創新的鼓勵程度是不一樣的。在 OpenAI 剛創立的 2015 年，它的投資者們都相信 AGI ，即使當時看不到什麼盈利的點。現在 GPT 做出來了，國內的投資者們也都信了 AGI，但相信的點或許也不一樣：到底是信 AGI 能掙錢，還是信 AGI 能推動人類發展？

更進一步地，即使 OpenAI 就產生在這裡，明天就出現，但他們跟微軟達成的 deal，能否跟國內的雲計算廠商達成呢？大模型的訓練和推理都需要極大的成本，需要一個雲計算引擎作為支撐。微軟可以傾盡所有，讓整個 Azure 給 OpenAI 打下手[4]，這個換到國內，阿里雲有可能給一個創業公司打下手嗎？

組織架構很重要，只有尖端的人才和先進的組織架構才能推動智能的不斷疊代與進化；但它同樣需要跟所在的土壤做適配，尋找可以 flourish 的方法。

1.3 探索智能的極限

第三種答案是，要探索智能的極限。這是我聽到的最好的答案。它遠超刻舟求劍式的經典網際網路產品思維，也看到了組織架構和尖端人才密度的重要性，並且更重要地是它看到了未來，看到了模型演化與產品疊代，思考著如何把最深刻，最困難的問題用最創新的方法來解決。

這就涉及到了思考大模型的極限思維。

二、極限思維

觀察現在的 ChatGPT / GPT-3.5 ，它明顯是一個中間狀態，它還有很多顯著可以加強，並且馬上就能加強的點，包括：

更長的輸入框：開始的時候，GPT 3.5 的上下文最長到八千個 token；現在的 ChatGPT 上下文建模的長度似乎已經過萬。並且這個長度明顯可以接著增長，在融入 efficient attention[5] 和 recursive encoding[6] 的方法之後，context length 應該可以接著 scale 到十萬，甚至百萬的長度
更大的模型，更大的數據：模型的大小還沒有到極限，MoE 可以接著把模型 scale 到 T 的量級[7]；數據的大小還沒有到極限，人類反饋的數據每天都在增長
多模態：在增加了多模態數據（音頻，圖片），特別是視頻數據之後，總體與訓練數據的大小可以再增大兩個量級，這個可以讓已知的能力接著按 scaling law 線性增加，同時還有可能繼續出現新的湧現能力。比如可能模型在看過各種幾何形狀的圖片，以及看過代數題之後，或許會自動學會做解析幾何。
專業化：現有的模型在文科上大概相當於研究生水平，但在理科上相當於高中或大一大二的學生水平；已有的工作已經證明我們可以把模型的技能點從一個方向挪到另一個方向，這就意味著即使不做任何 scaling，我們依然可以在通過犧牲其他方面能力的情況下，把模型朝著目標方向推進。比如犧牲掉模型的理科能力，把它的文科能力從研究生推到專家教授的水準。

以上四點只是現階段可以看到的，馬上就可以加強但暫時還沒有加強的點，隨著時間的推移和模型的演化，會有更多可以被 scale 的維度進一步體現出來。這意味著我們需要有極限的思維，思考當我們把能夠拉滿的維度全部拉滿的時候，模型會是什麼樣子。

2.1 能夠拉滿全部拉滿

模型的輸入框可以接著加長，模型的大小可以繼續增大，模型的數據可以繼續增多，多模態的數據可以融合，模型的專業化程度可以繼續增高，所有這些維度可以繼續往上拉，模型還沒有到極限。極限是一個過程，在這個過程中模型的能力會怎樣發展呢？

Log-linear 曲線：一部分能力的增長會遵循 log-linear 的曲線[8]，比如說某項任務的 finetuning。隨著 finetune 數據的指數增長，模型所對應的 finetune 的任務的能力會線性增長。這部分能力會可預測地變得更強
Phase change 曲線：一部分能力會隨著 scaling 繼續湧現[9]，比如說上文中的模型做解析幾何的例子。隨著可以被拉滿的維度被不斷拉滿，新的，難以預測的湧現能力會接著出現。
多項式曲線？當模型強到一定程度，與人類 align 到一定程度之後，或許一些能力的線性增長，所需要的數據，會突破指數增長的封鎖，而降低到多項式的量級。也就是說，當模型強到一定程度之後，它或許不需要指數級的數據，而是只需要多項式級的數據，就可以完成泛化。這可以從人類的專業學習中觀察到：當一個人還不是領域專家的時候，ta 需要指數級的數據來學習領域的知識；當一個人已經是領域專家的時候了，ta 只需要很少量級的數據就自己迸發出新的靈感和知識。

所以，在極限思維下，把所有能拉滿的維度全部拉滿，模型註定會越來越強，出現越來越多的湧現能力。

2.2 反推中間過程

在思考清楚極限的過程之後，就可以從極限狀態往後反推中間過程。比如說，如果我們希望增長輸入框的大小：

如果希望把模型的輸入框從千的量級增長到萬的量級，可能只需要增加顯卡數量，進行顯存優化就能實現。
如果希望接著把輸入框從萬的量級增長到十萬的量級，可能需要linear attention[10]
的方法，因為此時加顯存應該也架不住 attention 運算量隨輸入框長度的二次增長。
如果希望接著把輸入框從十萬的量級增長到百萬的量級，可能需要recursive encoding [11]的方法和增加long-term memory [12]的方法，因為此時 linear attention 可能也架不住顯存的增長。

以這種方式，我們可以反推不同階段的 scaling 需要怎樣的技術。以上分析不止適用於輸入框的長度，也適用於其他因素的 scaling 的過程。

這樣的話，我們可以得到清晰的從現階段的技術到 scaling 的極限的每個中間階段的技術路線圖。

2.3 按模型演化進程產品化

模型在不斷演化，但產品化不需要等到最終那個模型完成 — 每當模型疊代出來一個大的版本，都可以產品化。以 OpenAI 的產品化過程為例：

2020 年，初代 GPT 3 訓練完成，開放 OpenAI API[13]
2021 年，初代 Codex 訓練完成，開放 Github Copilot[14]
2022 年，GPT-3.5 訓練完成，以 dialog 數據 finetune 成 ChatGPT 然後發布

可以看到，在中間階段的每一個重要版本，模型的能力都會增強，都存在產品化的機會。

更加重要的是，按照模型演化進程產品化，可以在產品化的階段適配市場。學習 OpenAI 的組織架構來推進模型演化本身，但產品化可以按照本土市場的特徵來。這種方式或許可以既學到 OpenAI 的先進經驗，又避免水土不服的問題。

三、人工智慧顯著超過人類的點

到目前為止，我們討論了要用模型演化的視角來分析模型，要用極限的思維討論模型的演化歷程。現階段馬上可以加強的點包括了輸入框的長度，更大的模型和數據，多模態數據，和模型的專業化程度。現在讓我們再把視野放得更長期些，思考在更大的時間和空間中，模型如何進一步地往極限推。我們討論：

並行感知：一個人類研究員一次順序地讀四五篇論文已經是極限，但模型輸入框變長之後，可以在極短的時間內並行閱讀一百篇論文。這意味著，模型對外部信息的感知能力遠超人類一個數量級。
記憶遺傳：人類的演化過程中，子代只繼承父代的基因，但不繼承父代的記憶，這意味著每一次生殖都需要重啟一次；在模型的演化過程中，子代可以繼承父代的記憶，並且這個繼承的程度可控：我們可以設置子代繼承 100%，50%，20% 的記憶，或清空記憶，這意味著父代的經驗和技能可以不斷累積
加速時間：人類相互交流的速率是受到人類說話的物理速度限制的，而模型相互交流的速率可以遠快於人類，這意味著模型可以通過相互交流來解決人類數據隨時間線性增長的問題；人類演化的過程受到物理時間的限制，模型的演化可以比人類的物理時間快上幾個數量級，這意味著模型的進步速度可以遠快於人類
無限生命：一個人的生命有限，百年之後終歸塵土，但模型的權重只要不丟失，就可以不斷地演化

從這些角度來說，人工智慧超過人類並不是一件難以想像的事情。這就引發了下一個問題：如何駕馭遠超人類的強人工智慧？

這個問題，是 Alignment 這項技術真正想要解決的問題。

四、Alignment 對齊

當前階段，模型的能力，除了 AlphaGo 在圍棋上超過了最強人類之外，其他方面的 AI 並沒有超過最強的人類（但 ChatGPT 在文科上或許已經超過了 95% 的人類，且它還在繼續增長）。在模型還沒超過人類的時候，Alignment 的任務是讓模型符合人類的價值觀和期望；但當模型繼續演化到超過人類之後，Alignment 的任務就變成了尋找駕馭遠超人類的智能體的方法。

4.1 Alignment 作為駕馭遠超人類的智能體的方法

一個顯然的問題是，當 AI 超過人類之後，還可以通過人類反饋讓 ta 更強 / 更受約束嗎？是不是這個時候就已經管不了了？

不一定，即使模型遠超人類，我們依然又可能駕馭 ta，這裡的一個例子是運動員和教練之間的關係：金牌運動員在 ta 的方向上已經是最強的人類了，但這並不意味著教練就不能訓練 ta。相反，即使教練不如運動員，ta 依然可以通過各種反饋機制讓運動員變得更強且更有紀律。

類似地，人類和強人工智慧的關係，在 AI 發展的中後期，可能會變成運動員和教練之間的關係。這個時候，人類需要的能力並不是完成一個目標，而是設定一個好的目標，然後衡量機器是否足夠好地完成了這個目標，並給出改進意見。

這個方向的研究還非常初步，這個新學科的名字，叫 Scalable Oversight[15].

4.2 Alignment 與組織架構

在通往強人工智慧的路上，不只是需要人類與 AI 對齊，人類與人類，也需要高度的對齊。從組織架構的角度，alignment 涉及到：

Pretraining 團隊與 instruction tuning - alignment 團隊之間的對齊：這兩者應該是一個相互疊代的過程，pretraining 團隊不斷地 scale 基礎模型，alignment 團隊為基礎模型做 instruction tuning，同時用得到的結果反向指導 pretraning 團隊的方向。
Pretraining / Alignment 團隊與 Scaling / Data 團隊的對齊：scaling 負責為 pretraining /alignment 做好基礎設施，data 做好高質量數據與人類反饋數據。
創業公司與 VC 的對齊：AGI 是一個困難的事情，需要長期的投入，這需要各個方面的人都有足夠的耐心和足夠高的視野。燒一趟熱錢後催產品化然後占滿市場的邏輯在大模型時代應該已經不復存在了。大模型的遊戲要求 ta 的玩家們有足夠高的視野與格局，模型的演化會讓有足夠耐心的，踏實做事人們在長期得到豐厚的回報，也會讓只看短期刻舟求劍的人們一次又一次被降維打擊。

五、結語

在 2017 年，我剛剛入行 NLP 的時候，花了很大的力氣做可控生成這件事情。那個時候所謂的 text style transfer 最多就是把句子情感分類改一改，把 good 改成 bad 就算是完成了 transfer。2018 年我花了大量的時間研究如何讓模型從句子結構的角度修改句子的風格，一度誤認為風格轉換是幾乎不可能完成的事情。而今 ChatGPT 做風格轉換簡直信手拈來。那些曾經看似不可能完成的任務，曾經極其困難的事情，今天大語言模型非常輕鬆地就能完成。在 2022 年一整年，我追蹤了從 GPT-3 到 GPT-3.5 的全部版本疊代[11]，親眼看到它一步步地從弱到強不斷演化。這個演化速度並沒有變慢，反而正在加快。那些原先看來科幻的事情，現在已經成為現實。誰會知道未來會怎樣呢？

彼黍離離，彼稷之苗。行邁靡靡，中心搖搖。

彼黍離離，彼稷之穗。行邁靡靡，中心如醉。

——— 《詩經・黍離》