科技有狠活︱GPT-4會看圖說話能人格cosplay，背後有啥黑科技？

由封面新聞發佈 2024-03-15T14:44:12.327301+00:00

封面新聞記者張崢人類問GPT-4：把氣球的線剪斷，會發生什麼？GPT-4：會飛走。如果說GPT-3還停留在「對人類語言的理解分析，並作出回答」這樣單一酷炫的技能上，那麼它的下一代GPT-4，不僅會「說話」，還能識圖。在人類不停地「調戲」GPT-3時，我們都成為了它的訓練師。

封面新聞記者張崢

人類問GPT-4：把氣球的線剪斷，會發生什麼？

GPT-4：會飛走。

如果說GPT-3還停留在「對人類語言的理解分析，並作出回答」這樣單一酷炫的技能上，那麼它的下一代GPT-4，不僅會「說話」，還能識圖。在人類不停地「調戲」GPT-3時，我們都成為了它的訓練師。

GPT升級的背後，是它從語言大模型到多模態大模型的跨越。GPT-4牛在什麼地方？什麼是多模態大模型？未來，進行蘇格拉底式提問教學的還是不是人類……3月16日，封面新聞記者邀請了四川省計算機學會自然語言處理專委會秘書長、博士生導師陳曉亮為你解讀人類之友GPT-4的高能之處。

體驗：GPT-4能識圖了

把氣球的線剪斷，會發生什麼？人類問升級版GPT-4。GPT-4：會飛走。

面對人類提出的帶有圖片的問題，GPT-4作出了從識別到理解分析，再到回答的連貫動作。

陳曉亮第一時間試用了GPT-4，感受到了質的飛躍。

「作為多模態聊天機器人，GPT-4最大的使用亮點就是能接受圖像和文本的共同輸入，輸出文本回復，具有明顯的圖片理解能力。」

此外，從一些與ChatGPT3.5版本的邏輯問題輸出結果來看，例如，多人會議時間協調問題等，GPT-4在收集信息、解決問題、輸出結果等方面有了質的飛躍。它更加聰明、有邏輯和創造性。

識圖

ChatGPT-4可以生成和編輯創新型和技術性的文字內容，例如製作抽認卡、通過模擬律師考試等。它能夠根據網頁界面草稿生成網頁代碼，能夠更好地適應用戶的需求和風格，提供適合使用者個性化喜好的互動體驗，即GPT-4能夠進行人格cosplay。

人格cosplay

「GPT-4具有更強的泛化能力和適應能力，可以根據不同的任務和領域調整模型的行為和風格。而GPT3需要更多的前置知識和指導，即新開一個聊天，不需要慢熱，直接能夠給出專業回答。」

扮演銷售經理的對話

「假設你是一個採用引導性教學手段的高校老師，請給我講解下列方程的解法。」人類「學生」提出要求。結果GPT-4不會明確地告訴答案，而是給出了各種引導方法讓提問者回答。

蘇格拉底式提問

多模態大模型

在陳曉亮看來，GPT-4與GPT-3最大的不同和改進有幾點：第一，GPT-4是一個多模態大模型，可以處理文本、圖像、音頻等多種類型的輸入和輸出，而GPT-3僅是語言大模型，只能處理文本輸入和文本輸出。

第二，GPT-4的參數數量是GPT-3的16倍，達到了1.6萬億個，而GPT-3隻有1000億個參數。GPT-4使用了新的訓練方法和優化技術（未披露和開源），提高了模型的效率和穩定性，而GPT-3使用了傳統的Transformer架構和自回歸方法。

他解釋，所謂參數數量，指的是模型的所有帶參數的層的權重參數總量。權重參數是神經網絡中用來調整輸入和輸出之間關係的數值，它們可以通過訓練數據來學習和優化。參數數量反映了模型的複雜度和表達能力，一般來說，參數數量越多，模型越強大，但也越容易過擬合和消耗更多的計算資源。

超強的學習能力

瘋狂地學習，出其不意地疊代。在人類不停地「調戲」GPT-3時，我們都成為了它的訓練師。「GPT和new bing快速增長的多國、多語言用戶，以及海量真實問題都促進了Chat GPT升級為Chat GPT Plus。」

「GPT能夠升級更新如此之快，最重要的核心能力是它的生成能力和學習能力。」陳曉亮解釋，生成能力指的是它可以根據不同的輸入和目標，生成各種類型和風格的內容，從而滿足用戶的需求和期望；學習能力指的是它可以不斷地從大量的數據中提取知識和規律，並且可以根據反饋和評價進行自我調整和優化。

不過，他也表示，從使用來看，Chat GPT-4目前還有一些限制，例如每次輸出最多7.5萬個單詞，每4小時限制發送100條消息；目前對於中文支持也不夠完善，中文回答和英文相比明顯偏短。「另外還是少量存在生成虛假信息等問題，可能受到對抗性提示詞的影響，導致輸出錯誤或不合理的內容。」

【如果您有新聞線索，歡迎向我們報料，一經採納有費用酬謝。報料微信關注：ihxdsb，報料QQ：3386405712】