GPT4最值得關心的6個問題 | 見智研究

人工智慧開啟狂飆進化路，見智研究（公眾號：見智研究Pro）特邀中信證券研究部高級副總裁【丁奇】一起來聊聊人工智慧GPT4的最新進展，並將核心內容整理如下：

摘要：

1、多模態帶來成本的提升是非常正常的。

2、科技越往後成本會越低。從長遠來看，OpenAI 的邊際成本將無限趨近於 0 。

3、人機互動界面的改變是GPT3.5開始被產業界重視的原因

4、多模態4.0的本質：所有的文字，語音，圖像，視頻都可以抽象成一組向量。GPT本質上就是一個向量的輸入，通過它的相關性輸出另一組向量，從而轉換成圖像、語音或者視頻，本質上是一樣的，不同的是所消耗的算力資源。

5、現在其實有兩個革命，一個是能源革命，基於鋰電池，從過去的化石能源到我們的現在的鋰電能源。另一個革命就是以ChatGPT為代表的 AGI通用人工智慧，未來在有了更靈敏的機械反饋後，機器人就是最大的一個應用場景，但數字人一定會比機器人更先應用。

6、 AI演繹路徑：肯定是先軟體後硬體，先雲端，後端，最後是邊端。

正文

丁奇：微軟將GPT4嵌入Bing、Office全家桶這是一次天作之合。GPT4的核心就是多模態，能夠生成文字、圖像和視頻，這對搜尋引擎和辦公有非常大的促進作用，像搜尋引擎的核心需要的不僅是連結，而是答案， GPT4就可以直接生成我們想要的具體關於某個問題的答案。

我們平時一般通過辦公軟體、PPT、Word、Excel來生成內容，現在GPT成了非常強大的助手，比如一鍵生成PPT，極大促進了辦公效率。所以我們認為微軟和OpenAI合作必將對生產內容帶來革命性的變化，也希望國內相關辦公軟體儘快推出相關的功能，讓人享受到辦公的便利。

見智研究：如何看待GPT4 的運行成本？

丁奇：首先GPT4現在並沒有公開論文說參數到底是多少，不過360董事長周鴻禕先生根據GPT4的效果做了一個預估，可能是萬億量級的參數。不過這點對於成本來講還沒有那麼重要。

另外，過去的計價和現在的計價，都是基於token，現在的單位計價貴了30倍左右（過去是1000個token0.002美元，現在是0.06美元）。為什麼會更貴了？因為token的計價方式不同。通用計價方式是你看輸入的參數，現在輸入同樣詞更貴了，因為不能光看輸入端的成本，還要看輸出端的成本。過去的輸入和輸出都是文字，所以成本是比較低的。而GPT 4.0輸出完全可能是圖片，甚至以後是視頻，輸出量是大幅增加的，所以多模態帶來成本的提升是非常正常的。

見智研究：GPT 3.5 Turbo為什麼能做到參數量更多，但是價格反而更低？

丁奇：3.5相比3.0，核心參數在調優後是有所下降的。成本可以分為兩塊，一塊是訓練成本，一塊是推理成本。從3.0之後，模型是做好了一個大概的訓練，很多成本是有所攤銷的，到了3.5之後，大家攤的更多的是推理成本。

科技就是這樣的，在一開始的時候肯定是貴的，因為它有大量的研發投入、大量的基礎設施投入。當然越往後它會越便宜，因為用的人越多，成本也會分攤的越多。

所以OpenAI 說，從長遠來看，它的邊際成本是無限趨近於 0 的。其實就像我們現在的搜尋引擎一樣，現在點一次搜索成本是極其低的。只不過 4. 0相比過去的 3. 5生成的內容不一樣，圖像、視頻對網絡帶寬、計算量消耗很大，所以短期成本也會提升。

見智研究：GPT4發布後，如何看待之前版本的價值量？GPT1、2、3、3.5到4代大模型的演進變化是怎樣的？

丁奇：1. 0 是 2018 年出的， 2. 0 是 2019 年出的，但是其實在產業界沒有激起太大的水花，都是 transformer往 NLP（自然語言理解）上的嘗試。過去在NLP上大家體驗效果其實不太好的，比如語音的轉寫，翻譯效果其實是不太盡如人意的。

過去的人工智慧，它的主要算法是基於CNN， RNN， LSTM這三種。它在模仿人的神經元，認為信號是從一個神經元傳遞到另一個神經元的，也就是從一個單詞找到相鄰單詞之間的相關性。這種方法在圖像上特別有效，因為從圖像上來講，相鄰的顏色，紋理都會很相似，也誕生出了人工智慧的CV領域。

但是像語音、文字就不一定是相鄰相關的，需要結合上下文的語境，甚至在前幾章就可能埋了伏筆，需要對上下文要有一個完整的記憶和解讀。關鍵就是如何讓機器能夠實現語境理解。

Transformer 架構提供了一個非常好的思路。既然我們生活中的理解、智慧、經驗跟很多東西都相關。那就把參數組擴大，一直擴大到十億或者是幾十億的範圍。這樣就能從各種各樣的訓練數據里找到更多的相關性。

之前Transformer 架構沒表現出厲害的特質，本質上只是做一個統計相關。當它只有 1. 17 億參數的時候，也就是GPT1.0，大家也沒有覺得多了不起。到 GPT2. 0 的時候，大概 15 億的參數，大家也覺得好像也沒有什麼特別大的突破。GPT3.0 到 3. 5，大家就發現發生了本質的變化。當它的容量擴到上千億參數的時候，可以想像關聯了多少知識在裡面，這個時候它的準確率就有一個飛躍。所以直到GPT3.0 和 3. 5 問世才被產業界真正開始重視起來。

3.5 跟 3. 0 的根本區別在於改變了人機互動的界面，這是非常大的一個突破。InstructGPT能夠更好的將語言模型和人類的意圖、偏好進行匹配，並且在反饋的機制上進行微調。而 4. 0的本質就是多模態了。

見智研究：多模態是如何實現的？

丁奇：無論中文還是英文，常用詞也就上萬個詞，完全可以用矩陣做一個編碼。圖像其實是由像素點形成，每一個像素點是由三種顏色塗在一塊，是三個數字的小矩陣，把若干個矩陣連在一起，就會形成一個大矩陣。圖像本質上就是這樣的。

每一個語音就是一個正弦波，對它抽樣，它也變成一組數字視頻，其實就是一張圖像把它疊起來，所以本質上所有的文字，語音，圖像，視頻都可以抽象成一組向量。GPT本質上就是一個向量的輸入，通過它的相關性輸出另一組向量，向量轉換成圖像、語音或者視頻，本質上是一樣的，不同的是所消耗的算力資源。所以為什麼能實現多模態？因為本質上都變成了一組矩陣，所有的東西都可以抽象成一組矩陣，這是能變成多模態的底層原因。

其實我們做Transformer 也好，做這GPT也好，根本目的是想使用一個通用人工智慧( AGI)做到在不同的情境下都能用。過去都是專用人工智慧，比如專門做人臉識別的，專門做車牌識別的，或者專門做工業檢測的，都是在某些專業領域的。人機互動一定是多模態的，這也是為什麼 4. 0能夠讓業界感到歡心鼓舞，這是意味著我們離 AGI 更近了一步。

見智研究：GPT4應用具有怎樣的想像力？

丁奇：搜索一定是落地的第一個場景，比如New Bing最先接入;其次就是辦公軟體，比如office365；電子郵件、視頻會議也是生成內容類的場景。此外，像服務機器人、智能客服也是非常好的應用領域。

現在其實有兩個革命，一個是能源革命，基於鋰電池，從過去的化石能源到我們的現在的鋰電能源。另一個革命就是以ChatGPT為代表的 AGI通用人工智慧，未來在有了更靈敏的機械反饋後，機器人就是最大的一個應用場景。

數字人一定會比機器人更先應用。因為機器人受掣肘的地方比較多，包括續航、關節自由度等等，落地的困難要大很多。如果是數字世界裡面的一個數字人，它的到來可能就會快很多，比如主持人、直播帶貨、數字明星等等。

此外，對遊戲行業的影響也很大，特別是能夠直接大幅降低遊戲的開發成本。用AI畫圖能夠極大提高遊戲創意師的工作效率。

未來AI機器能夠替代很多簡單的工作，所以人的創意，人的思想就變得特別重要。所以我們覺得對於內容創意者會帶來特別大的需求提升。

見智研究：AI 產業是硬體疊代的速度更快，還是應用側發展會更快？

丁奇：我覺得要分兩個階段，初期一定是應用會更快，現在海外有很多的企業都接入了API 接口。國內也有百度的文心一言，後面也會開放API 接入很多的應用。

現在看起來國內和海外的發展路徑非常類似，有一兩個企業做出一些通用的大模型，接入API後向上層的應用軟體進行拓展，就可以極大提升效率。Office365 就是一個很典型的代表。

硬體的疊代要取決於幾個條件。雲端的硬體就是以GPU 伺服器為代表，國內相比英偉達還是有一定差距的，不是短期之內能夠迅速追上的。而雲端，我們相信以後在端側也會有一些智能硬體，這些端側硬體現在的計算能力、內存能力，肯定是難以支持千億參數的大模型。

而一些應用變得智能，也需要對大模型去做剪枝。可能對參數範圍進行圈定，在特定領域有特定應用，從一個大模型變成一個專用領域的特定模型，使得一些邊緣側的智能硬體也可以用。

我們認為首先起來的是雲端的軟體，以一種 SaaS 化的方式給大家提供。其次就是雲端的硬體，因為雲端的硬體要怎麼去做，其實已經有標杆在那裡了，只是大家要踏踏實實地基於路徑去做。

後面才是端側怎麼做，現在 open AI 也沒有答案，大家現在的精力也不在這上面，但我們相信未來的這些硬體一定會被智能化的，所以路徑肯定是先軟體後硬體，尤其是先雲端，到後端，最後是邊端。

本文來自華爾街見聞，歡迎下載APP查看更多