科技有狠活︱GPT-4會看圖說話能人格cosplay,背後有啥黑科技?

封面新聞 發佈 2024-03-15T14:44:12.327301+00:00

封面新聞記者 張崢人類問GPT-4:把氣球的線剪斷,會發生什麼?GPT-4:會飛走。如果說GPT-3還停留在「對人類語言的理解分析,並作出回答」這樣單一酷炫的技能上,那麼它的下一代GPT-4,不僅會「說話」,還能識圖。在人類不停地「調戲」GPT-3時,我們都成為了它的訓練師。

封面新聞記者 張崢

人類問GPT-4:把氣球的線剪斷,會發生什麼?

GPT-4:會飛走。

如果說GPT-3還停留在「對人類語言的理解分析,並作出回答」這樣單一酷炫的技能上,那麼它的下一代GPT-4,不僅會「說話」,還能識圖。在人類不停地「調戲」GPT-3時,我們都成為了它的訓練師。

GPT升級的背後,是它從語言大模型到多模態大模型的跨越。GPT-4牛在什麼地方?什麼是多模態大模型?未來,進行蘇格拉底式提問教學的還是不是人類……3月16日,封面新聞記者邀請了四川省計算機學會自然語言處理專委會秘書長、博士生導師陳曉亮為你解讀人類之友GPT-4的高能之處。

體驗:GPT-4能識圖了

把氣球的線剪斷,會發生什麼?人類問升級版GPT-4。GPT-4:會飛走。

面對人類提出的帶有圖片的問題,GPT-4作出了從識別到理解分析,再到回答的連貫動作。

陳曉亮第一時間試用了GPT-4,感受到了質的飛躍。

「作為多模態聊天機器人,GPT-4最大的使用亮點就是能接受圖像和文本的共同輸入,輸出文本回復,具有明顯的圖片理解能力。」

此外,從一些與ChatGPT3.5版本的邏輯問題輸出結果來看,例如,多人會議時間協調問題等,GPT-4在收集信息、解決問題、輸出結果等方面有了質的飛躍。它更加聰明、有邏輯和創造性。

識圖

ChatGPT-4可以生成和編輯創新型和技術性的文字內容,例如製作抽認卡、通過模擬律師考試等。它能夠根據網頁界面草稿生成網頁代碼,能夠更好地適應用戶的需求和風格,提供適合使用者個性化喜好的互動體驗,即GPT-4能夠進行人格cosplay。

人格cosplay

「GPT-4具有更強的泛化能力和適應能力,可以根據不同的任務和領域調整模型的行為和風格。而GPT3需要更多的前置知識和指導,即新開一個聊天,不需要慢熱,直接能夠給出專業回答。」

扮演銷售經理的對話

「假設你是一個採用引導性教學手段的高校老師,請給我講解下列方程的解法。」人類「學生」提出要求。結果GPT-4不會明確地告訴答案,而是給出了各種引導方法讓提問者回答。

蘇格拉底式提問

多模態大模型

在陳曉亮看來,GPT-4與GPT-3最大的不同和改進有幾點:第一,GPT-4是一個多模態大模型,可以處理文本、圖像、音頻等多種類型的輸入和輸出,而GPT-3僅是語言大模型,只能處理文本輸入和文本輸出。

第二,GPT-4的參數數量是GPT-3的16倍,達到了1.6萬億個,而GPT-3隻有1000億個參數。GPT-4使用了新的訓練方法和優化技術(未披露和開源),提高了模型的效率和穩定性,而GPT-3使用了傳統的Transformer架構和自回歸方法。

他解釋,所謂參數數量,指的是模型的所有帶參數的層的權重參數總量。權重參數是神經網絡中用來調整輸入和輸出之間關係的數值,它們可以通過訓練數據來學習和優化。參數數量反映了模型的複雜度和表達能力,一般來說,參數數量越多,模型越強大,但也越容易過擬合和消耗更多的計算資源。

超強的學習能力

瘋狂地學習,出其不意地疊代。在人類不停地「調戲」GPT-3時,我們都成為了它的訓練師。「GPT和new bing快速增長的多國、多語言用戶,以及海量真實問題都促進了Chat GPT升級為Chat GPT Plus。」

「GPT能夠升級更新如此之快,最重要的核心能力是它的生成能力和學習能力。」陳曉亮解釋,生成能力指的是它可以根據不同的輸入和目標,生成各種類型和風格的內容,從而滿足用戶的需求和期望;學習能力指的是它可以不斷地從大量的數據中提取知識和規律,並且可以根據反饋和評價進行自我調整和優化。

不過,他也表示,從使用來看,Chat GPT-4目前還有一些限制,例如每次輸出最多7.5萬個單詞,每4小時限制發送100條消息;目前對於中文支持也不夠完善,中文回答和英文相比明顯偏短。「另外還是少量存在生成虛假信息等問題,可能受到對抗性提示詞的影響,導致輸出錯誤或不合理的內容。」

【如果您有新聞線索,歡迎向我們報料,一經採納有費用酬謝。報料微信關注:ihxdsb,報料QQ:3386405712】

關鍵字: