GPT是什麼？ - 止於至善的何理

我們在上篇文章探討了BERT與GPT的基礎，下面來看看究竟GPT是什麼。

GPT發展史

GPT是由OpenAI 團隊研發創造， OpenAI是由創業家埃隆·馬斯克、美國創業孵化器Y Combinator總裁阿爾特曼、全球在線支付平台PayPal聯合創始人彼得·蒂爾等人於2015年在舊金山創立的一家非盈利的AI研究公司，擁有多位矽谷重量級人物的資金支持，啟動資金高達10億美金；OpenAI的創立目標是與其它機構合作進行AI的相關研究，並開放研究成果以促進AI技術的發展。不過2023年的情況是，馬斯克已經非其股東，且公司轉化為了盈利組織。

OpenAI已經創建了全世界最強大的大語言模型之一。該模型名為GPT-3，由1,750億個統計性聯繫組成，可以理解為這個模型有1750億個參數，或者說類似於有1750億個「神經元」。

該模型在約三分之二網際網路、整個維基百科和兩個大型圖書數據集中進行訓練。在訓練過程中，OpenAI發現，早期GPT-3很難準確提供用戶想要的結果，一個團隊提議使用「強化學習」系統完善該模型，「強化學習」是從試錯中學習以取得最大化回報的人工智慧系統（後面會做介紹）。

該團隊認為，一款聊天機器人或許是不錯的候選方法之一，因為以人類對話的形式持續提供反饋，使人工智慧軟體很容易知道其做得好的地方和需要改進的情況。因此，2022年初，該團隊開始開發這款聊天機器人，也就是後來的ChatGPT（PS：這個項目其實普遍不被內部看好，差點被取消掉）。

GPT的訓練

GPT1-3，皆使用的是Transformer架構，可以說模型結構沒有創新型的設計，但是在微軟的巨額資金支持下，GPT3模型由

（1）1750億個參數（相當於大腦的神經元）；

（2）31個分工明確的作者（皆是大神級別的人物）；

（3）強大的超算平台（28.5萬個CPU+1萬個GPU（英偉達A100））；

（4）45TB的訓練數據（維基百科全部數據量相當於其0.6%）

等等要素進行支撐訓練。

事實上，ChatGPT並沒有直接發表論文，但是其前作InstructGPT有，所以大家只能根據這個推測GPT的訓練。人工智慧領域常說有多少智能，就有多少人工，其實非常適合描述其訓練，這個公司聘用了40個外包公司（多少人不知道），在進行標註數據，讓模型學習到的知識，使得模型輸出的結果，可以更加符合人類的知識與常識，而初始訓練只能靠人們標註。

ChatGPT的訓練流程分成三個模塊，首先來看一下第一個模塊。

第一步，即第一個模塊，人會標註一些數據，用人標註的數據，來訓練一個模型，進而在GPT3上再一次強化。人會寫一些知識給它，比如中國的首都是北京等等，通過人來調整最初版的GPT3，這個模型就初步具備了人類的知識，但是因為需要標註的東西其實非常多，因此也只是初步具備。

有了初步的模型後，我們可以問它一些問題，比如誰是最漂亮的女明星，然後GPT可能會回答，比如高圓圓＞李宇春＞范冰冰等等，此時進行第二步。

第二步中，外包公司（人）就會給所有排序人工打分，比如對李宇春、高圓圓、范冰冰哪個漂亮打分100分，然後看排序，用排序做對比，注意這裡只關注排序，不再關注分數，得到的結果可能就是高圓圓＞范冰冰＞李宇春，這裡用分數算排序，而不是直接用分數，就是因為分數更加主觀。

在這個基礎上，還會增加一個獎勵排名，進行強化學習（非常重要），這個部分的目的是為了GPT3輸出的結果進行排序，讓排序符合人們的認知。這個時候可能結果就是高圓圓≈范冰冰＞李宇春了。

其40個外包公司，主要就是對於GPT3輸出的結果，進行排序，讓模型學會人打的排序結果。

第三步，即第三個模塊，通過不斷的循環訓練，我們會得到最終的ChatGPT模型，這個模型是一個循環訓練的過程，需要讓ChatGPT輸出符合人類的認知，而人類的認知由RM決定，也就是第二步的步驟，同時還有一個模型來避免人類對ChatGPT結果產生過於嚴重的影響。

GPT(Generrative Pre-Trained Transformer)究竟是什麼

在GPT論文的引言中，作者說：

"We explore a semi-supervised approach for language understanding tasks using a combination of unsupervised pre-training and supervised fine-tuning. Our goal is to learn a universal representation that transfers with little adaptation to a wide range of tasks."

上面的兩句話把GPT的手段和目的說的再清晰不過了：手段是半監督訓練（無監督的預訓練+有監督的微調=半監督），目的是構建一個能夠快速適配諸多NLP任務的通用語言表示。可以說前者討論了GPT是怎麼來的，而後者涉及拿到GPT後怎麼用在其他NLP任務。

因此官方一點來講：GPT模型是一種自然語言處理（NLP）模型，使用多層變換器（Transformer）來預測下一個單詞的概率分布，通過訓練在大型文本語料庫上學習到的語言模式來生成自然語言文本。

簡單來講：GPT是一個超大語料基礎上預訓練出的大語言模型（LLM），採用類似寫作文的方式，從左到右進行填字概率預測的自回歸語言模型，並基於prompting（提示）來適應不同領域的任務。

從 GPT-1 到GPT-3 智能化程度不斷提升， ChatGPT 的到來也是 GPT-4 正式推出之前的序章，目前GPT-3擁有1750億個參數。雖然這種能力的表現還不算完美，但是他開啟了一條一種通向「通用型人工智慧」的道路，曾經科幻故事裡的Jarvis，moss好像真的有了那麼一點可能。

當前，ChatGPT所利用的數據集只截止到2021年。在對話中，ChatGPT會主動記憶先前的對話內容信息(上下文理解)，用來輔助假設性的問題的回覆，因而ChatGPT也可實現連續對話，提升了交互模式下的用戶體驗。同時， ChatGPT也會屏蔽敏感信息，對於不能回答的內容也能給予相關建議。

下一篇文章中，我們將探索為什麼GPT具有如此大的突破，以及目前其局限性，歡迎關注我們。

止於至善投資總經理、基金經理：何理

2023年2月23日

END

只以合理價格，投資卓越公司。

——止於至善投資理念

歡迎關注公眾號：止於至善投資，獲取公司最新動態與觀點。

本文全部內容，僅出於傳播信息的需要，市場有風險，投資需謹慎。所述內容和意見僅供參考，並不構成對交易做出保證。投資者不應將以上觀點作為投資決策的唯一參考因素，亦不應以本意見取代自己的判斷。在任何情況下，不對任何人因閱讀以上內容所引致的任何損失負任何責任。

本文內容是作者對公開信息數據的整理與分析，不保證文中觀點或陳述不會發生任何變更，本文對這些信息的準確性及完整性不作任何保證。如需轉載，請註明來源與作者，保證文章內容完整性，並自負相關責任。