歷史最強 GPT-4 上線：憑一個手繪草圖可做網站、60 秒做遊戲開發

平地一聲雷，GPT-4 重磅來襲。

3 月 14 日，OpenAI 正式上線新一代人工智慧大模型 GPT-4，它是一個大型多模態模型，可以接受圖像和文本輸入，同時返回文本輸出。就像這樣：

用戶：這幅畫有什麼好笑的地方？逐一描述它的板塊。

圖片來源：https://www.reddit.com/r/hmmm/comments/ubab5v/hmmm/

GPT-4：圖片顯示的是一個 "Lightning Cable "適配器的包裝，有三個板塊：

板塊1：一部智慧型手機，VGA 連接器（通常用於電腦顯示器的大型藍色 15 針連接器）插在其充電埠。

板塊2："Lightning Cable "適配器的包裝上有一張 VGA 接口的圖片。

板塊3：VGA 連接器的特寫，末端是一個小的 Lightning 連接器（用於為 iPhone 和其他蘋果設備充電）。

這張圖片的幽默感來自於將一個大的、過時的 VGA 連接器插入一個小的、現代的智慧型手機充電埠的荒謬性。

不得不說，一個示例足以證明了 GPT-4 與過往大模型的不同之處，是不是很強大？

與此同時，微軟宣布 Bing Chat 一直在 GPT-4 上運行。

當前，OpenAI 計劃通過 ChatGPT 及其商業 API 發布 GPT-4 的文本功能，但是想要直接用上，還需要先加入一波等待名單（https://openai.com/waitlist/gpt-4-api）耐心等候。不過，ChatGPT Plus 用戶倒是可以直接上手 GPT-4 的體驗：https://chat.openai.com/chat

GPT-4 驚喜上線

雖然此前 OpenAI 首席技術官 Mira Murati 不斷給大家打預防針，希望外界能夠對下一代 GPT（即 GPT-4）的技術水平更加冷靜務實一些，少一些炒作會更好些，但是當 GPT-4 真正到來時，大家還是坐不住了。

「我們花了 6 個月的時間，利用對抗性測試項目以及 ChatGPT 的經驗，反覆調整 GPT-4，結果在真實性、可操作性以及拒絕超出道德等邊界方面取得了有史以來最好的結果（儘管遠非完美）」，OpenAI 分享道。

GPT-4：可以達到應試者的前 10% 水平、一張草圖生成網站

為讓眾人更加清楚地了解 GPT-4，OpenAI 官方不僅上線了介紹性的網頁（https://openai.com/research/gpt-4），還發布了一篇技術論文（https://cdn.openai.com/papers/gpt-4.pdf），詳細分享了 GPT-4 強大的功能，以及其存在的局限性。

從技術維度上來看，GPT-4 是一個基於 Transformer 的模型，經過預訓練，可以預測文檔中的下一個 token。這個項目的一個核心部分是開發了基礎設施和優化方法。這使 OpenAI 能夠根據不超過 GPT-4 的 1/1000 的計算量訓練的模型，準確地預測 GPT-4 的某些方面的性能。

也正如前日CSDN 報導的，微軟的 Azure 與 OpenAI 共同設計了一台超級計算機，搭載了英偉達上萬顆 A100 晶片。基於這台超算，OpenAI 在一年前將 GPT-3.5 作為系統的第一次「測試運行」進行了訓練，在修復一些 Bug 並提高理論基礎之上，OpenAI 基於此又訓練出了首個能夠提前準確預測其訓練性能的大模型 GPT-4。

更長的上下文，上限為 2.5 萬個字

在性能上，GPT-4 超越了過往的模型，它可以遵循自然語言的複雜指令、生成技術或創意作品，支持生成和處理多達 32,768 個 token（約 25,000 字的文本），這使得 GPT-4 能有更長的上下文，允許長篇內容創建、擴展對話以及文檔搜索和分析等用例。

GPT-4 可以直接上一個好大學

在分析 GPT-4 的能力時，OpenAI 還讓該模型參加了統一律師考試、法學院入學考試（LSAT）、研究生入學考試（GRE）的定量、口頭推理、分析寫作考試以及和各種 AP 科目考試等測試。

考試問題包括選擇題和自由解答題，OpenAI 為每種形式設計了單獨的提示，並在需要輸入的問題中加入了圖片。總分是通過結合選擇題和自由回答題的分數來確定的，使用的是每個考試的公開方法。

最終結果如下：

GPT-4 在大多數這些專業和學術考試中表現與人類水平相當。這意味著，如果 GPT-4 是一個僅憑應試能力來判斷的人，它可以進入法學院，而且很可能也能進入許多大學。

多模態能力，通過視覺輸入看世界

正如文章開頭示例展現的一樣，GPT-4 可以接受圖像作為輸入並生成標題、分類和分析。

這意味著 GPT-4 實際上將看到現實世界，為此，OpenAI 也宣布正在和它的合作夥伴 Be My Eyes 一起測試 GPT-4 的圖像輸入能力，這是一款即將推出的智慧型手機應用程式，可以直觀地解釋手機相機所看到的內容。

不過，該功能目前仍限於研究預覽，沒有公開提供。

超越傳統的大模型

在一套傳統的 NLP 基準測試中，GPT-4 超過了以前的大型語言模型和大多數最先進的系統（這些系統通常有特定的基準訓練或手工工程）。

在 MMLU（多任務語言理解）基準測試中，GPT-4 不僅在英語中以相當大的優勢勝過現有的模型，而且在其他語言中也表現出強大的性能。在 MMLU 的翻譯變體上，GPT-4 的性能優於 GPT-3.5 和其他 LLM（Chinchilla，PaLM）的英語性能，包括低資源語言，如拉脫維亞語、威爾斯語和斯瓦希里語。

生成代碼、改 Bug 的最佳小能手

除此之外，OpenAI 通過開源評估框架（Eval，https://github.com/openai/evals），用於自動評估 AI 模型性能的框架，允許任何人報告模型中的缺點，以幫助指導進一步改進。

與此同時，GPT-4 對代碼有超強的理解能力，可以幫助程式設計師生成代碼，遇上 Bug 時，甚至只要你把錯誤信息或者代碼異常的截圖發給 GPT-4，它就能幫你給出相應的提示。

只需幾秒，一張手畫草圖，GPT-4 直接幫你生成網頁

更讓人驚奇的是，在官方演示的視頻中，手繪一張網站草圖：

把它拍照發給 GPT-4，GPT-4 甚至可以自動生成網站的原型圖。它從圖片中提取文字信息並輸出到 HTML，一個網站就有了，整個過程只有幾秒鐘的時間：

，時長00:09

另外，GPT-4 也能處理複雜的稅務問題。

一系列操作下來，驚呆眾人。在上手體驗之後，不少網友現身說法：

我不在乎它不是 AGI，GPT-4 是一項令人難以置信的變革性技術。我在 60 秒內重新創建了 Pong 遊戲。這是我的第一次嘗試。

據悉，所有的代碼都是 HTML 實現的。

甚至有人看到了 GPT-4 的強大，開始暗戳戳地暗示起 GPT-5 的模樣：

不足之處

OpenAI 表示，他們的目標是開發能夠在任何智力任務方面取代人類的 AGI，儘管 GPT-4 還沒有達到這個目標。

儘管有這樣的能力，GPT-4 與早期的 GPT 模型有類似的局限性：它不是完全可靠的，比如，它也會對事實產生「幻覺」，推理出錯誤的結果。

對此，OpenAI 執行長 Sam Altman 在推特上說："它（GPT-4）仍然有缺陷，仍然有局限性，但它在首次使用時仍然能給你留下深刻印象。"

在使用 GPT-4 的輸出時，應該小心謹慎，特別是在專業性要求非常高的重要場景中。

微軟：新 Bing 早用上了 GPT-4

這也是事實，GPT-4 遠非完美。不過根據 OpenAI 的說法，研究人員納入了更多的人類反饋，包括 ChatGPT 用戶提交的反饋，用來改善 GPT-4 的行為。此外，OpenAI 公司還聘請了 50 名人類專家，在人工智慧安全方面提供反饋。

如今微軟同時宣布自家產品早已第一時間用上了 GPT-4。"我們很高興地確認，新的 Bing 正在 GPT-4 上運行，為搜索而定製，"微軟在一篇博客文章中寫道。"如果你在過去六周的任何時候使用過預覽版的新 Bing，你已經提前看到了 OpenAI 的最新模型的力量。隨著 OpenAI 對 GPT-4 及以後的更新，Bing 從這些改進中受益，以確保我們的用戶擁有最全面的副駕駛功能。"

壓力給到國外的 Google，國內的百度

雖然上周 OpenAI 早已預告過 GPT-4 會在本周到來，但是真正到來時，還是讓很多人猝不及防。而之所以選擇此時發布，似乎也是為微軟將在 3 月 16 號的 AI 最新進展做一定的鋪墊，這樣微軟可以在明天輕鬆開上一場發布會了。不過，處於同賽道的其他玩家可能得連夜加班了。

這不，就在這一天，Google CEO 皮查伊親自下場官宣開放預訓練大模型（PaLM，https://www.datalearner.com/ai-models/pretrained-models/PaLM）的 API 商業接口，這是 Google 在 2022 年 4 月發布的自然語言預訓練大模型，最高參數為 5400 億。

與此同時，百度早在此前便宣布也會在 3 月 16 日帶來文心一言，最終成果不可避免地會與最新的 GPT-4 一較高下，究竟會如何呢？

參考資料：

https://openai.com/research/gpt-4

https://www.youtube.com/watch?v=outcGtbnMuQ