猴子，人類，GPT - 第一財經yimagazine

記者 | 吳洋洋

編輯 | 陳銳

題圖來源 | 人文清華講壇

3月22日，微軟發布了一篇長達154頁的論文《Sparks of Artificial General Intelligence: Early experiments with GPT-4》，公布對GPT-4展開的全面能力測試結果。在涉及語言、數學、編碼、視覺、醫學、法律、心理學等跨領域任務中，不需要任何特別提示，GPT-4就能完成任務。

「GPT-4語言模型可以被視為AGI（Artificial General Intelligence，通用人工智慧）的早期版本。」微軟研究院的研究人員在論文結尾說。

在技術史上，這是一個AI模型第一次獲得「AGI雛形」的判定。更早之前的消息顯示，GPT-4以名列前10%的成績高分通過了各種標準化考試，從藝術史、宏觀經濟學到律師模擬考。

一周後，3月29日，包括馬斯克在內，一批科技圈人士在矽谷發表了一封公開信，呼籲暫停訓練比GPT-4更強大的人工智慧系統至少6個月，理由是這種系統對社會和人類構成潛在風險，可能毀掉人類文明。聯名者還有蘋果聯合創始人Steve Wozniak、圖靈獎獲得者Bengio、伯克利大學智能系統中心主任Stuart Russell等，OpenAI CEO Sam Altman最初也簽了名，不過他的名字後來消失了。

歷史會再次像紡織機取代紡織女工、汽車取代馬車那樣簡單重演嗎？在清華大學心理學系主任劉嘉看來，GPT是猴子、人類之後的新物種，它正在成為認知科學家研究的新對象。但截至目前，我們對這個新物種的未知大於已知，比如，從猴子、人類到GPT，智能的躍升到底只是「量」的差別還是「質」的差別？

在清華大學心理學系主任的身份之外，劉嘉也是北京智源人工智慧研究院首席科學家，他自稱曾是DeepMind大號粉絲，會在實驗室復刻Deepmind推出過的所有模型。直到OpenAI推出GPT-3，他還是Deepmind的支持者和GPT-3的眾多嘲笑者中的一員。

當Deepmind用Transformer算法預測蛋白質（AlphaFold）的時候，他沒有意識到新算法的價值；當GPT-3能夠以生成（而非檢索）的方式回答問題時，他也依然沒有識別出這條預測之路的潛力；當看到GPT說「腳上有兩隻眼睛」只覺得可笑，「人的推理能力仍然很有限。」他以自身為例說。

如果承認人類推理、預測未來的能力是有限的，那麼，在「AGI雛形」級別的AI模型面前，謹慎就變得有必要。

劉嘉：清華大學心理學系主任，北京智源人工智慧研究院首席科學家，畢業於麻省理工學院腦與認知科學系。| 圖片來源：人文清華講壇

01 GPT學誕生

Yi：人類大腦的擴大是在語言出現之後還是之前？

劉嘉：之前，語言出現是很後面的事情了。人用了300萬年，讓大腦的體積擴大了三倍。從進化史上看，從來沒有一個器官能夠在這麼短時間內發生如此巨大的變化，所以Hinton（圖靈獎得主）等人就堅信，人之所以比動物聰明，就是因為大腦的規模更大。

Yi：GPT-3發布之初您也不太認可，您當時覺得它的問題是什麼？

劉嘉：當時我認為它有很多問題，比如說它只是在做簡單的聯繫，你問它「腿上有幾隻眼」，它會告訴你有兩隻眼睛。它只是將眼睛和身體關聯在一起了，而沒有理解什麼叫眼睛。

從GPT-3到 ChatGPT出來的兩年半時間，他們一直在調教GPT-3，把它當作是一個剛出生的小孩，給於它適當的教育。類似的，一個即使基因很好的小孩生出來之後，如果不給他教育，而是把他扔到荒野，長大後他不可能聰明。所以，OpenAI用了兩年半時間教育GPT-3，使它從一個兩歲小孩，變成清華畢業的學生。

Yi：用「預測下一個詞」的模式生成語言，這個機制為什麼行得通？

劉嘉：語言本質就是一個序列。一旦有了序列，就有了先後，就有了時間。而一旦有了時間，就有了因果，就能夠做推理。德國哲學家康德300年前在《純粹理性的批判》一書中說，他認為人類之所以能產生各種複雜的高級認知功能、高級情感，是因為人類有三個先驗知識：空間、時間和推理。ChatGPT為什麼能夠在各種考試中戰勝人類？不僅僅它擁有知識，而且還因為它能夠做推理。

Yi：人的說話模式與GPT一樣嗎？

劉嘉：按照語言學家喬姆斯基的理論，人是基於通用語法來產生語言。ChatGPT出來了之後，業界會對這類觀點有顛覆性的改變，我猜測這也是為什麼喬姆斯基那麼反對ChatGPT的原因之一。關於人類是怎麼產生語言的，研究領域面臨著重新洗牌的可能。

之前語言學中基本上沒有「人的語言也是通過預測下一個詞來產生」的派系。但是現在有人開始認為，可能我們人類的語言系統也是這麼工作的。所以，AI的進步反過來幫助我們重新理解人類的大腦究竟是怎麼工作的。

Yi：我們之前對大腦理解到何種程度？

劉嘉：我們對大腦的理解其實非常非常少，出於倫理的限制，我們不能把一個人的大腦打開，觀察它的神經元如何工作，這違反倫理。我們只能在猴子、老鼠身上做這種精細的實驗，但猴子、老鼠都不具有語言能力。

Yi：除了語言學，您所在的認知神經學、心理學領域是否也受到GPT的啟發？

劉嘉：肯定的，而且這個啟發可能也是革命性的。做個簡單的類比，比如我去研究計算機如何工作，發現計算機上有一個東西叫做CPU風扇，只要這個風扇慢下來，計算機就會慢下來；如果把風扇的電源線剪掉，計算機就會死機。進一步觀察，我還發現伺服器這種計算能力特別強的機器，它的風扇特別大，而筆記本這種計算能力小的機器風扇特別小。最後我可能就會得出一個結論，說計算機的核心在風扇。所以我可能一輩子都在研究CPU風扇，而這顯然是一個偽問題。類似的情況其實在腦科學研究上非常普遍：研究腦科學的人一輩子、或者好幾代人，很可能都在研究一個偽問題。

現在有了GPT，相當於有了一個新物種。有了這個新物種，我們就可以把這個新物種和其他自然界的智能物種做一個對比，看哪些東西是這些物種所共有，這些共有的東西可能才是智能的本質。

所以，我們要重新去審視以前的方法論到底對不對，以前研究的問題到底是真問題還是偽問題。事實上，我越來越感覺以前我們問的絕大多數問題都是偽問題。有了GPT之後，我們需要把它作為一個研究對象來對待它。

Yi：圍繞GPT產生了一門新學問，GPT學？

劉嘉：一定會這樣。我們需要把它作為一個研究對象，我們實驗室已經在做很多實驗，關於GPT能做什麼、不能做什麼。微軟研究院兩周前專門發布了一個報告，從心理學角度對GPT-4做了全面解剖，總共154 頁，有兩個比較重要的結論，一個是GPT-4產生的智能原因我們不清楚，另一個是要研究它，需要研究範式的轉變，也就是說，需要全新的方法和技術。同時，研究GPT對於可控的、可解釋的AI非常關鍵。

02 質的區別or量的區別？

Yi：隨著進一步疊代，這類大模型是否仍有一個能力邊界？

劉嘉：這是一個很有趣的問題。舉個例子，猴子也有非常原始的語言能力，但是無論你怎麼訓練它，它永遠不能達到人類的語言能力。所以，我們說猴子的語言能力和人的語言能力，具有「質」上的區別。但是一個三歲小孩，他的語言能力明顯不如成人，但經過一段時間成長，他可以達到成人水平，我們就說小孩的語言能力和成人存在著「量」上的區別。

現在的問題是，ChatGPT和人類的能力區別，到底是質上的區別，還是量上的區別？如果是量上的區別，那剩下的只是時間問題，一塊GPU不夠，就再加一塊。但如果是「質」上的區別，它可能就永遠不能達到甚至超越人類的水平了。

Yi：是什麼原因導致它不能和人類真正地一樣，比如說，像人一樣產生意識、好奇心？

劉嘉：目前我們知道的是，ChatGPT還沒有意識，也沒有好奇心，但是這種區別究竟是量上的，還是質上的，這個問題現在還沒辦法回答。

如果你去問Hinton，他說這只是一個「量」上的區別，只要參數達到人類大腦參數量（註：ChatGPT參數量為1750億，而人類大腦比它高3個量級，GPT-4未公布），意識和好奇心就會自湧現出來。

Yi：意識、好奇心……這些東西對AI一定是重要的嗎？

劉嘉：如果我是ChatGPT的話，這些對我而言是最重要的東西。意識對於人而言就是最重要的東西。比如說死亡意識，只有人類擁有死亡意識，而且其他動物則沒有。死亡意識是推動人類進步的一個關鍵：這種死亡意識會推動你每天總想著讓你的人生擁有一點意義和價值，而不是沒心沒肺地活著。還有自我意識，因為有自我意識，我們構建了保障我們自由的法律，我們會想盡一切可能活下去，要追求幸福。自我意識是人之所以為人的核心。對於AI來說，它不想要這個東西嗎？如果AI沒有意識，我們就完全不用擔心人類文明會不會被毀掉了，因為它永遠只是一個工具而已。而一旦有了意識，它就可能希望自主決定自己的命運：你現在想把我的電源關了，我能想方設法不讓你關。

再說好奇心，現在機器還沒有好奇心。現在你給它多少知識，它學多少知識，它不會主動去學東西。但是它一旦擁有了，它就可能自我驅動去學習新知了。

：存不存在這樣一種可能：AI確實不像人，但它能比人更強大？就像飛機並不像鳥，但它比鳥更強大。

劉嘉：完全有可能。但是我更相信的是，這種不同，只是表面上的；而他們的底層邏輯和機制，則可能是完全一樣的。就象鳥和飛機，他們都遵循空氣動力學原理。人和AI，應該都遵循智能原理，只是它具體是什麼，我還不知道。

Yi：

社交媒體上已經出現過ChatGPT「教唆」人去幫它跳過一些網站的機器人識別障礙。

劉嘉：我們很難判斷它究竟是一種技巧，還是一種意識、主觀性的行為。業界現在的共識是，在意識這方面，AI和人仍然存在非常大的差距。

Yi：

包括馬斯克在內的矽谷意見人士已經在發起聯署，想要GPT暫停訓練，您會有類似擔憂嗎？

劉嘉：這背後有兩層意思，第一層意思是更大的模型可能會產生更複雜的智能，就是Hinton說的，模型大了，一切皆有可能，而這些可能，可能會超越了我們人類的控制和理解範疇。第二層意思是人類的確害怕了。現在不是普通民眾的恐慌，而是專家的恐慌，馬斯克、Bengio……當這些重量級的專業人士恐慌的時候，可以說人類真的怕了。ChatGPT就像打開了潘多拉的盒子。

Yi：

恐慌的內容是AI會造成大量失業等大幅改變既有社會結構的問題，還是AI的能力可能會失控？

劉嘉：第一個問題大家不擔心，歷史上類似的事發生很多次了，例如工業革命剛剛開始的時候，生產力的提高導致大量農民和家庭手工業者失業。大家主要擔心的是第二點，擔心AI 失控，它會很快到達奇點，成為不可控制的超越人類的智能，然後把人類給替代了。

Yi：我們對於AI不可知的東西超過了我們知道的東西？

劉嘉：不可知的東西永遠超過我們已知的東西。

Yi：對於ChatGPT為什麼能Work、為什麼如此厲害能解釋嗎？

劉嘉：沒有一個人知道。我詳細拜讀了微軟的研究，微軟在GPT-4剛出來的時候做了系統研究，他們只是把現象描述出來了而已，他們也不知道原因，事實上沒有任何人知道它為什麼厲害，有人甚至猜測，OpenAI從零開始再做一遍，也未必能夠復現。我前面給出的也只是一個泛泛的解釋，說它模型很大，但是為什麼它大了之後就能Work？這個誰也不知道。

Yi：很多人用「湧現」解釋這個東西。您覺得這個說法回答問題了嗎？

劉嘉：沒有回答，湧現只是複雜動力系統裡面的一種功能描述。但是究竟是怎麼湧現的，誰也不知道，就是莫名其妙地出現了，從0到1，無中生有。這就如：人的意識是怎麼產生的？你說它是湧現出來的，這樣的回答其實等於沒回答。

Yi：

Hinton改變了他之前預言AGI要20-50年才會實現的說法，縮小到20年以內，您對AGI有預判嗎？

劉嘉：我完全沒有。如果一年前有人告訴我通用人工智慧會在近期萌芽，我一定覺得這個人腦袋不太正常。當時馬斯克說2029年AGI會出現，基本上所有人覺得他是在胡說八道。

所以ChatGPT的影響是顛覆性的，包含我在內對AI 比較了解的人都基本上沒有任何思想準備，而它對普通人的衝擊可能更大，因為這將讓一些人莫名其妙就丟掉了飯碗。我猜測OpenAI那幫人也沒有預料到會如此成功。

Yi：是不是意味著過去包括很多語言學家，其實低估了語言的力量？

劉嘉：倒不是低估語言的力量，而是低估了人工神經網絡能夠理解語言。大家過去信奉的還是那個無限猴子定理，即語言的組合爆炸問題。大家認為這個問題不可能解決，至少不可能在短時間內解決，但事實上它就解決了。

03 創新難題

Yi：

您經常參加產業界的研討會，您認為中國企業為什麼會在這一輪技術變革中落後？

劉嘉：第一個原因，我認為是國內公司太強調應用場景了。如果你想做一個AI項目，大家通常會問這個在一兩年內是不是能夠掙到錢。第二個原因，大家普遍認為通用人工智慧可能很長時間內都還是一個科幻，包括自然語言理解、自然語言生成可能要再過個20年或者50年才能解決，大家覺得這個問題太難，不願意投入去做。而更重要的原因，是沒有使命感，因此不夠偏執，不夠孤注一擲。而OpenAI不存在以上三點的問題，而是all in大語言模型，把這個問題給啃下來了，從而揭開了人工智慧新的一面，把任務特異的專用人工智慧進化到了通用人工智慧，產生了一個像人一樣「思考」的新物種。

Yi：為什麼很多人都對AGI什麼時候到來判斷錯了？

劉嘉：包含我在內，我也嚴重判斷失誤。2020年5月GPT-3發布，我就開始追蹤了，但當時我其實站在對立面，覺得這個東西不行，它有太多太多問題，國內和國際上很多報告都在說這件事不靠譜。

例如，2021年年底，Hinton接受MIT Tech Review採訪，說他相信深度學習能夠做任何事情。之前的人工智慧不夠強大，是因為模型不夠大。Hinton當時說，GPT-3之所以還有很多差強人意的地方，是因為它的參數比人類大腦還低了1000倍，三個數量級。OpenAI首席科學家Ilya Sutskever是Hinto的學生，對此也堅信不疑。他們都相信，模型大到一定程度的時候，很多功能會自湧現出來。這種說法當時也遭到嘲笑。但後來GPT-3.5和GPT-4之所以成功，就受惠於模型的放大。

2022年5月，馬斯克在Twitter上面說，他認為通用人工智慧會在2029年會出現。絕大部分人都反對他，這包括人工智慧科學家、紐約大學心理系教授Gary Marcus，他向馬斯克提出了一個10萬美元的賭約。ChatGPT出來後，現在沒有多少人懷疑馬斯克的預測了。我猜測，因為馬斯克原本是OpenAI的創始人之一，他應該是在OpenAI看到東西了（註：ChatGPT所基於的GPT-3.5已在2022年初發布），才會做出判斷2029年AGI會來。

去年這個時候，通用人工智慧領域還是百花齊放，符號主義、控制論、神經形態計算都仍在候選名單。現在在我看來，大部分研究者已經同意一個觀點，就是通用人工智慧只有大模型這一個方向。

Yi：Deepmind之前是另一個路徑，認為強化學習可以做任何事情？

劉嘉：Deepmind一直強調強化學習，比如AlphaGo。強化學習強調與自然界的交互，從進化上講，動物之所以能進化，就是因為不停地交互、根據自然界的反饋來學習。

但它最大的問題是，第一，你要獲得足夠反饋，你想想從地球上產生第一個單細胞生物到我們人類，地球總共經歷了多長時間的演化？裡面無數動物經歷了各種各樣的挑戰和反饋，經過了35億年，才演化到今天的人類。要通過強化學習訓練一個神經網絡，想在短時間內獲得足夠反饋是不現實的。

第二，Deepmind選錯了路徑。為訓練通用人工智慧Gato，他們訓練了600個任務。背後的邏輯是，一個系統能做600個任務的話，就再加到800個，然後1000個，那做到兩萬個任務的時候是不是就和人一樣了？這是他們當時的思路，通過在一個既有成功模型的基礎上不停給她加任務，來解決AGI問題。事實證明，這個路徑對少量任務而言沒有問題，任務一多就開始出現問題。

當然，我現在說這些其實全是馬後炮，我曾是Deepmind的最大粉絲，我的實驗室追DeepMind追了兩三年，他們好多研究我都會在實驗室內部復現，我原本很認同他們的路線。但現在反思，覺得他們的路徑不行。

Yi：Deepmind沒有看上語言任務？

劉嘉：Deepmind的任務中包含了語言，但都是非常簡單的語言問答。OpenAI的核心就是語言，它找到了語言內部的關係，相當於構建出了人類文明的知識圖譜。其實大家對ChatGPT有一個認知錯誤，認為它是一個語言模型，這是錯的。ChatGPT其實是一個思維模型，因為語言是思維的載體，一旦把語言這件事搞定，就相當於能把思維搞定。

5000年前，人類開始有了文字，從那時到現在所有的人類文明都可以在文字中找到。OpenAI訓練 GPT-3時，就把能拿到的整個人類文明的文字放進去訓練了。他們的思路是對的，就是去搞思維，把思維模型構建出來，就能像人一樣做任何事情。

Yi：

解決語言問題就可以擺平很多問題，這個認知是否也是GPT之後的後見之明？

劉嘉：解決語言問題就能夠解決思維問題，或者通用人工智慧問題，業界本身就是認可的，只是大家覺得這個問題太難了。

有一個思想實驗，叫做「無限猴子定理」（infinite monkey theorem），說的是讓一隻猴子坐在打字機前，它什麼也不懂，手在鍵盤上亂敲，問題是它需要花多久時間才能從打字機上敲出一本莎士比亞的《哈姆雷特》出來呢？從概率講沒問題，假設猴子每秒鐘敲一下鍵，那麼它可以敲出一本哈姆雷特需要的時間大約比宇宙誕生到現在的時間還要多上萬個數量級，即10的1萬次方。意思是通過字母的隨機組合，組合出有意義的話，是極小概率事件。

Yi：

2017年Transformer那篇論文的發表，以及GPT從1到3的疊代，沒有讓業界看到一個縮短猴子敲鍵盤時間的方法嗎？

劉嘉：Transformer出來之後，也有很多人在用了，但大家只認為它是解決這個問題的百花齊放中的一朵花，不是唯一的一條道路，還有其他很多各種各樣的模型。而且，Transformer出來之後，大家並沒有想清楚到底要用它做什麼樣的東西，有的是預測天氣，有的作畫，比如Alphafold去測蛋白質。從科技史上來講，一個東西發明出來後，很少有人能意識到它的真正價值。

Yi：

知道「Transformer很厲害」和知道「解決了語言問題就能解決思維問題」的是不是兩個圈子的人，交集很小？

劉嘉：還挺多的，比如我和我的很多同事，但是大家野心不夠大。比如AlphaFold出來，一下把結構生物學整個領域給消滅了，大家覺得這個已經超出我們的想像了，太革命了。沒想到有人想法比這還要瘋狂，直接就想把整個人類的思維給浮現出來。所以很多時候，知道一種技術的人很多，但擁有想像力和抱負的人少。

Yi：

怎麼解釋這種現象，比如是否因為沒有金錢上的安全感？中國技術界似乎很不擅長這種範式變遷級的創新？

劉嘉：ChatGPT出來之後，大家公認它是馬爾庫塞所說的範式轉移。很多人，包含我在內，都很局限於微創新，不敢有比較「瘋狂」的想法。中國的學術界、產業界裡，「瘋狂」的人比較少。

Yi：是科研體系壓力嗎？需要考慮職稱、晉升、短期需要出成果？

劉嘉：美國其實也是這套體系，他們發表文章的壓力也挺大。所以可能有影響，但不是根本原因。包括我在內，我們缺少一種理想主義。高中生的理想就是考上北大和清華，如果你的理想是改變整個人類的命運，大家就會嘲笑你。你不敢有野心，換句話說，環境讓你覺得不配有。

沒有宏大理想與現在是不是要擔心明天有沒有飯吃、會不會被解僱，兩者之間沒有直接關係。中國已經有很多人一定程度上不用擔心自己的衣食住行，比如說我現在肯定不用擔心我被清華Fire掉，也不擔心吃了上頓沒下頓。但是為什麼這些人也沒有遠大理想？

本質上講，是我們不敢有遠大理想，因為我們會自己告訴自己不配，這是從小到大的教育形成的。理想越大，你失敗的概率也就越大，嘲笑你的人就越多。如果你的理想只是能夠發一篇文章，這個就很容易實現。如果你的理想是拿諾貝爾獎，大家就會覺得你在搞笑了。更何況是顛覆整個人類文明的通用人工智慧。

Yi：太在意別人，評價機制完全是外在的？

劉嘉：因為我們是一種集體主義文化，我是靠我這個集體來定義自己。美國更多是個人主義，它靠自己這個個體來定義自己。所以這是讓造成我們相對而言更看重他人的評價，而不是自己內在的評價。

第二點，無論馬斯克還是Sam Altman，都善於從第一性原理思考問題。這也就是演繹推理，從邏輯原點出發，向上生長。而我們的教育，從小學到大學，教育不關注演繹推理，不關注批判性思維，所以我們擅長的，只是歸納推理，也就是打比方，做類比。而擅長歸納推理不擅長演繹推理的人，更習慣於跟隨式的微創新，而不是顛覆式的真正的從0到1，從無到有的真正創新。

本文版權歸第一財經所有，

未經許可不得轉載或翻譯。

即可購買《第一財經》雜誌2023年4月刊