黃仁勛對話 ChatGPT 之父：改變世界的 AI 是如何誕生的

OpenAI 如何找到 ChatGPT 的路徑？

GTC 主題演講日後，黃仁勛接受了包括極客公園在內的媒體採訪，並回顧了這十年來 AI 繁榮的幾個篇章——深度學習、計算機視覺、生成式 AI。這也是英偉達與 OpenAI 相遇在這場浪潮之巔的故事。

他說：「2016 年，我把世界上第一台英偉達 DGX 超級計算機送到 OpenAI，是因為我對團隊有太多的信心。這是一個非凡的團隊。Ilya 在那裡，GREg 在那裡，Sam 在那裡，這是一支世界級的團隊。」

GTC 上，老黃也通過一場和老朋友 OpenAI 聯合創始人 Ilya Sutskever 的爐邊談話，讓這十年 AI 領域大事件最重要的親歷者，回顧了深度學習、ChatGPT、GPT4、多模態的整個演化路徑。

最關鍵地是，兩位老朋友的交談回顧了一個更重要的問題——那時那景，這群人是怎麼找到一個又一個「事後看是正確的」路徑的？

對談的尾聲，Ilya Sutskever 也分享了關於大語言模型的下一步，他看到的路徑是什麼樣的？

以下為黃仁勛和 Ilya Sutskever 對話全文，由極客公園編譯整理。

起點：AlexNet

神經網絡的出現

黃仁勛：Ilya，難以置信，今天居然是 GPT-4 發布後的第二天。很高興在這裡見到你，一起聊聊。

我們認識很久了，真是人生的一段旅程。從我認識你以來，你做了很多開創性的工作，從多倫多大學就開始了。你與 Alex (Krizhevsky）和 Jeff Hinton 一起共同發明了 AlexNet，這帶來了現代 AI 的大爆炸。

你的職業生涯也把你帶到了美國灣區，OpenAI 的創立，GPT-1、2、3。當然了，還有讓 AI 風靡全世界的 ChatGPT，真是卓越的履歷，讓整個行業都對你的成就由衷的敬佩。

我先來問問關於深度學習的一些問題，你對深度學習的第一直覺是什麼？為什麼你知道它會發揮作用？你心中就一定認為深度學習會取得如此成就嗎？

Ilya Sutskever：首先，非常感謝你的盛讚。確實，深度學習的強大能力改變了世界。我對 AI 感興趣的原因有很多，我的出發點在於對 AI 會產生巨大影響力的直覺理解。同時，我也對「究竟什麼是意識」、「究竟什麼是人類體驗」這樣的問題充滿了好奇，我覺得 AI 的發展能幫我去理解這些。

接下來，在 2002 年到 2003 年的那個時候，學習是一件只有人類能做的事情，但是計算機還不會學習任何東西，甚至在理論上是否可行都不太清楚。所以我想如果能在智能學習或者機器學習方面做出一些成果，將很有可能成為 AI 領域的最大進步。

所以從那時開始，我開始在這個領域做一些探索。一開始還沒有那麼樂觀，但幸運的是，Jeff Hinton 是我所在大學的一名教授，我找到了他。他的工作方向就是神經網絡，這就是我想要的。因為神經網絡的特性就在於能夠學習，可以自動編程並行計算機。

那個時候，並行計算機還很小，但是希望在於如果你弄明白學習和神經網絡學習的工作原理，那你就可以從數據中去編程小的並行計算機，而它與大腦的工作原理是相似的。所以，就好像有了幾個理由可以支撐我繼續向前探索，儘管還不太清楚這些是如何起作用的，然而基於已有的東西，似乎表明它的前景是最光明的。

黃仁勛：你首次開始使用深度學習和神經網絡的那個時候，網絡的規模是多少？計算規模是多少？

Ilya Sutskever：有意思的是，在當時沒有人意識到規模的重要性，所以人們訓練的神經網絡只有 50 個或 100 個，幾百個神經元已經是大的神經網絡了，一百萬的參數會被認為很龐大。我們一般在沒有優化過的 CPU 代碼上跑我們的模型，我們有一群人研發，但我們不懂 BLAS，我們用 Matlab，優化過的 Matlab。

我們做了一些實驗，提出各種不同的問題，來獲得有趣的觀察。Jeff Hinton 當時對訓練神經網絡用於生成小的數字感到很興奮。一方面是對分類任務，同時他對於如何生成那些數字也很感興趣，所以生成模型的源頭就從那裡開始。但是問題在於你做的那些很酷的東西都很零散，什麼才是能真正推動技術進步的牽引力？當時並不明確這就是對的問題。但事後看來，恰恰對了。

黃仁勛：AlexNet 是在 2012 年誕生的，在那之前你和 Alex 研究 AlexNet 有一段時間了。你具體是在哪個節點上想明白要構建面向計算機視覺的神經網絡？想明白 Imagenet 才是那個合適的數據集，來參加計算機視覺的競賽？

Ilya Sutskever：那我先介紹一些背景。大概是在我發現「監督學習」才是我們前進的方向的兩年前。這不僅是直覺，我來詳細解釋一下。如果你的神經網絡非常深並且很大，那就可以用它去解決一項有難度的任務。所以關鍵詞就是，「深」和「大」。

那個時候人們還沒有去關注大的神經網絡，人們可能正在研究神經網絡的深度，但是大部分機器學習的領域根本沒有去研究神經網絡，他們正在研究各種貝葉斯的模型和內核方法。這些方法雖然有優雅的理論基礎，但並不表示就是一個好的解決方案，無論你怎麼配置它們。相比之下，大型的深度神經網絡卻能在面對問題求解時，給出一個好的答案。

為了找到一個好的解決方案，你需要一個合適的大數據集以及大量的計算來完成這項工作。我們也做了一些優化工作，但很明顯，優化依舊是一個瓶頸。這時，在 Jeff Hinton 實驗室的另一位研究生 James Martens 取得了突破，他提出了一種與我們做的不同的優化方法，他使用了一些二階方法。但是關鍵在於，事實證明我們可以訓練這些神經元，因為之前我們都不知道能否訓練它們，所以如果證明了你能訓練神經網絡，只需要把它變大一些，然後去找一些數據，這樣就能可以成功。

所以接下來的問題是去找什麼樣的數據？答案就是 ImageNet。在當時看來，ImageNet 是一個難度很高的數據集，但很明顯，如果你要在此數據集上訓練一個大的卷積神經網絡，它一定會成功，只要你有足夠的算力。

黃仁勛：恰在當時，你和我的路徑相遇。你洞察到：GPU 對於訓練神經網絡模型是非常有幫助的，而我們當時開發了幾個版本的 CUDA GPU，應該是 GTX 580。你怎麼能發現 GPU 能起作用？那一天到底怎麼開始的？

Ilya Sutskever：GPU 出現在我們多倫多的實驗室這件事，應該感謝 Jeff，他說我們應該試試 GPU。我們開始嘗試和試驗它們。這個過程很有意思，但是我們也沒有完全搞懂，它們真正的用途在哪裡？你怎麼樣才能把它們發揮作用？

但是接下來我們就發現，隨著 ImageNet 數據集的出現，卷積神經網絡是非常適配 GPU 的模型，所以有可能把它變得非常快，因此就能做規模遠超以前的訓練。非常幸運的是，Alex Krizhevsky 真的很喜歡 GPU 編程。他能夠去編程開發非常快的卷積核函數，然後用 ImageNet 數據集，去訓練神經網絡，並且最終得到了結果。

「AI 的大爆炸」時刻——從左至右依次為 Ilya Sutskever, Alex Krizhevsky, Geoffrey Hinton，三位創建的 AlexNet 卷積神經網絡在 2012 年 ImageNet 大賽上一舉奪魁。

黃仁勛：這個結果震驚了世界，大幅打破了計算機視覺的紀錄，很明顯這裡存在非連續性的突破。

Ilya Sutskever：對，它並不是之前方法的延續，並不是像常規那樣的打破紀錄。關鍵點在於這個數據集其實很難的，而且它是超出一般的範圍的。其他人是會用經典的方法取得一點進展，做出點東西。但這是不夠的，當時這個比賽不是一個普通的比賽，明顯很困難，很遙不可及，很明顯，如果你做得很好，那將是驚人的 AI 大爆炸。

兩個好點子，

讓 OpenAI 走到了現在

黃仁勛：快進到現在，你來到了矽谷，你和一些朋友一起創辦了 OpenAI，你是首席科學家。關於 OpenAI 的工作，你最初的想法是什麼？你們做過一些發明和既往工作，帶來了 ChatGPT 時刻。所以，你們最初的靈感來源於什麼？你們是如何走到現在的？

Ilya Sutskever：顯然當我們開始的時候，並不是 100％清楚如何推動。而且這個領域與現在非常不同。

當然我們現在習慣了這些驚人的神器、驚人的神經網絡來做很棒的事情，每個人都很興奮。但是回到 2016 年初，當我們開始創業時，整個事情看起來都很瘋狂。研究人員要少得多，可能比現在少 100-1000 倍。

在那時我們只有 100 個人，他們中的大多數人在 Google 或者 DeepMind 工作。然後有人開始學習這些技能，但仍然非常稀缺。在 OpenAI 開始的時候，我們有兩個偉大的初步想法。這些想法一直伴隨著我們到今天。

第一個偉大想法，也是我很早的想法，是通過壓縮進行「無監督學習」。今天，我們想當然地認為無監督學習易如反掌，你只需對所有事情進行預先訓練，而且一切都完全按照你的預期進行。但在 2016 年，無監督學習是機器學習中一個尚未解決的問題，沒有人有任何線索知道該怎麼去做。Yann LeCun 到處演講說無監督學習是個巨大的挑戰，而我真的相信，好的數據壓縮將產生無監督學習。

當然，壓縮並不是通常所談的事情，直到最近。突然之間，很多人了解這些 GPT 實際上壓縮了訓練數據，你可能還記得 Ted Chiang 在《紐約時報》上的文章也提到這一點。但是從數學意義上講，訓練這些自回歸生成模型可以壓縮數據，並且直觀上，你可以看到它們為什麼起作用。

如果你將數據壓縮得非常好，你一定能夠提取其中存在的所有隱藏信息，所以這就是關鍵。這就是讓我們興奮的第一個想法，這導致了 OpenAI 把相當比例的工作量投入到了情緒神經元。這項工作在機器學習領域不太被很多人關注。但實際上，它很有影響力，特別是在我們的思路里。

這項工作的結果是，當你訓練一個神經網絡時（但它並不是 Transformer，而是在 Transformer 之前的模型，很多人記得，是一個小型循環神經網絡叫 LSTM——長短期記憶網絡），我們用相同的 LSTM 稍微調整一下來預測 Amazon 評論的下一個字符，我們發現：如果可以足夠好地預測下一個字符，就會有一個神經元在 LSTM 內回應它的情緒。所以這真的很酷，因為它展示了無監督學習的一些效果，並驗證了一個想法：足夠好的字符預測或其他任何預測，具有發現數據中的秘密的特性，這就是我們在這些 GPT 模型中看到的。

黃仁勛：這個觀察對我來說，直接打開了下面這個問題的新世界：我要從哪裡獲得無監督學習的數據？因為我確實有很多數據，如果我能預測下一個字符，我知道真實結果，我知道答案是什麼，我可以用它們訓練神經網絡模型，所以這個觀察和屏蔽（masking）以及其他技術、其他方法，廣開思路，以幫助我看到哪裡可以獲取所有無監督學習的數據。

Ilya Sutskever：我換一種說法陳述。我會說在無監督學習中，困難的部分不在於從哪裡獲取數據，儘管現在也有這個問題，但更多的是關於為什麼要這樣做？為什麼要費心做？困難的部分是：意識到訓練這些神經網絡以預測下一個 token 是一個值得追求的目標。

黃仁勛：這樣它會學習到一個可以理解的表徵。

Ilya Sutskever：這是正確的，但實際上它並不那麼明顯，所以人們沒有這樣做，但情感神經元是起作用的。在這裡，Alec Radford 是真正推動了許多進步的人，這裡的情感，是 GPT-1 的前身，它對我們的思維有很大的影響。

然後，Transformer 來了。我們立即想到：哦，天啊，就是它了。我們訓練了 GPT-1。

黃仁勛：在這個過程中，你一直相信，擴大規模會改善這些模型的性能嗎？更大的網絡、更深的網絡、更多的訓練數據將使其擴展。OpenAI 寫了一篇非常重要的論文，討論了 Scaling Law（模型能力隨著模型體量的上升而增強），模型大小與數據集數量之間的關係。

當 Transformer 出現時，它給了我們合理的時間內訓練非常大的模型的機會，但對於模型大小和數據之間的規律的直覺，相對於 GPT-1、2、3 的誕生，哪個先出現？你先看到 GPT-1 到 3 的發展路徑嗎？還是先有 Scaling Law 的直覺？

所有類型的任務上，更深更大的模型，性能更好。2020 OpenAI 提出了 Scaling Law，該定律已被用於指導大型模型的訓練。

Ilya Sutskever：直覺。我有一個很強烈的信念，更大意味著更好。在 OpenAI，我們的一個目標是弄清楚使用 Scaling Law 的正確途徑。OpenAI 一開始就對擴展規模抱有很多信念，問題是如何準確地使用它，因為我現在提到的是 GPT，但是還有另外一條非常重要的工作路線，我還沒有提到。

第二個偉大的好主意，那就是強化學習。這顯然也很重要。你用它做什麼？

在 OpenAI 中完成的第一個真正的大型項目是我們解決了一個實時策略遊戲。實時策略遊戲就像是一項競技運動。你需要聰明，你需要更快，你需要快速反應，有團隊合作。你正在與另一個團隊競爭，這是非常、非常複雜的。並且這個遊戲有一個完整的競爭聯賽，這個遊戲叫做 Dota 2。所以我們訓練了一個強化學習 agent 來與自己對抗，目標是達到一定水平，以便可以與世界上最好的玩家競爭，這也是一個重大的項目。它是一個非常不同的工作方向——強化學習。

黃仁勛：是的，我記得你們宣布這項工作。OpenAI 做了大量的工作有些看起來像是走了彎路，但事實上，正如你現在解釋的那樣，它們可能是彎路，看起來像是彎路，但它們真正導致了我們現在討論的一些重要工作——ChatGPT。

Ilya Sutskever：是的，我的意思是已經有了真正意義上的交匯：一方面，GPT 產出了技術基礎設施；另一方面，從 Dota 的強化學習轉變為基於人類反饋的強化學習（RLHF）。這種組合給了我們 ChatGPT。

ChatGPT 的引擎系統

黃仁勛：有一個誤解是：認為 ChatGPT 本身只是一個巨大的大型語言模型。但，事實上圍繞著它有一個相當複雜的系統。你能簡單解釋一下嗎？關於它的微調、強化學習以及各種周圍的系統，才能讓 ChatGPT 運作起來，讓它提供知識等等。

Ilya Sutskever：當我們訓練一個大型神經網絡來準確預測網際網路上許多不同文本中的下一個詞時，我們正在做的其實是——正在學習一個關於世界的模型。表面上看起來，我們只是在學習文本中的統計相關性，但實際上，是通過學習文本中的統計相關性，從而把這些知識很好地壓縮。

神經網絡所學習的是生成文本的過程中的一些表述，這個文本實際上是這個世界的一個映射，世界在這些文字上映射出來。因此，神經網絡正在學習從越來越多的角度去看待這個世界，看待人類和社會，看人們的希望、夢想、動機、交互和所處情境。基於此，神經網絡學習一個壓縮的、抽象的、可用的表述。這就是從準確預測下一個詞的任務中，正在學習的東西。更進一步，你對下一個詞的預測越準確、還原度越高，在這個過程中你得到的世界的解析度就越高，所以這就是預訓練階段的作用。

但是這並不能讓神經網絡表現出我們希望它能夠表現出的行為。你看一個語言模型，它真正要做的是回答以下問題：如果我在網際網路上有一些隨機的文本，它以一些前綴、一些提示開始，它將補全什麼內容呢？可能只是隨機地用網際網路上的一些文本來補全它。

這和我想擁有一個助手是不同的。一個真實的、有幫助的，遵循某些規則的助手是需要額外的訓練的。這就是微調和來自於人類老師的強化學習以及其他形式的人工智慧協助可以發揮作用的地方。不僅僅是來自人類老師的強化學習，也是來自人類和 AI 合作的強化學習。人類老師與 AI 一起合作去教導我們的 AI 模型，但不是教它新的知識，而是與它交流和它傳達：我們希望它成為什麼樣，而這個過程，第二階段，也是極其重要的。

第二階段做得越好，這個神經網絡就越有用，越可靠，所以第二階段也是極其重要的。第一階段學習一切，儘可能多地從世界的映射——文本中了解這個世界。

黃仁勛：你可以對它進行微調，你可以指示它執行特定任務。但你能不能指示它不要做一些事兒，方便你給它設置一些安全護欄、給它一些邊界，去避免這一類型的行為？

Ilya Sutskever：可以的。第二階段的訓練是我們向神經網絡傳達我們想要的任何東西，其中包括邊界。我們的訓練做得越好，我們傳達的這個邊界的保真度就越高。因此，通過不斷的研究和創新，我們能夠提高這種保真度，從而使它在遵循預期指令的方式上變得越來越可靠和精確。

GPT-4 的進步——

預測下一個詞的準確性

黃仁勛：ChatGPT 在幾個月前就出來了，它是人類歷史上增長最快的應用。關於它的原理已經有了很多解釋。這是為每個人創建的最易用的應用。它所執行的任務、做的事情超出人們的期望。任何人都可以使用它。沒有使用說明，也無所謂使用錯誤的方法。你用就行了，你只需使用它。如果你的指令提示不明確，對話就繼續、消除歧義，直到你的意圖被AI應用所理解。

這帶來的影響非常顯著。昨天是 GPT-4 發布後的第一天。GPT-4 在許多領域的表現令人震驚，在 SAT，GRE，律師資格（Bar）考試，分數很高。一次，再一次，表現都很優異。很多項測試它都到達了人類的領先水平。太震撼了。所以，什麼是ChatGPT 和 GPT-4 之間的主要區別？什麼導致 GPT-4 在這些領域的改進？

GPT4 在多項專業考試中的表現最佳

Ilya Sutskever：GPT-4 相比 ChatGPT，在許多維度上做了相當大的改進。我們訓練了 GPT-4，我記得是在六個多月以前，也許八個月前。我不記得確切時間了。

GPT 是第一個 ChatGPT 和 GPT- 4 之間的區別，這也許是最重要的區別。

在 GPT-4 的基礎上構建，預測下一個單詞具有更高的準確度，這是非常重要的。因為神經網絡越能預測文本中的下一個詞，它就越能理解文本。這種說法現在也許已經被很多人接受了。但它可能仍然不直觀，或者說（人們）不知道為什麼會這樣。我想繞個小彎，舉個例子類比一下，來說明為什麼對下一個詞的更準確預測會導致更多的理解，真正的理解。

讓我們舉個例子，假設你讀了一本偵探小說，裡面有複雜的故事情節、不同的人物、許多事件、神秘的線索，但是現在還不清楚。然後在書的最後一頁，偵探收集了所有的線索，召集了所有的人，並說好吧，我將揭示誰犯了罪，那個人的名字是？——請預測那個詞。

這裡會有許多不同的詞，但是通過越來越好地預測這些詞，模型對文本的理解不斷增加，GPT-4 預測下一個詞的能力也變得更好。

黃仁勛：人們說，深度學習不會帶來邏輯推理。但是為了預測下一個詞，從所有可選的角色裡面或從他們的意圖和背景中，找出優勢或弱點，並能夠預測這個詞，誰是兇手？這需要一定量的推理，相當多的推理。因此，它是如何學會推理的呢？

如果它學會了推理，我將要問的就是做了哪些測試？在所有的在 ChatGPT 和 GPT-4 之間的測試中，有一些測試是 ChatGPT 已經非常擅長的，有一些測試是 GPT-3 或 ChatGPT 不擅長的，而 GPT-4 則要好得多。還有一些測試是兩者都不擅長的，而且其中一些似乎與推理有關。在微積分中，它無法將問題分解成合理的步驟並解決它。但是在某些領域，它似乎展示了推理技能。在預測下一個詞的時候，它是否在學習推理？GPT-4 將進一步提高其推理能力，現在的限制在哪裡？

Ilya Sutskever：推理並不是一個很好定義的概念，但無論如何，我們可以嘗試去定義它。這就是，當你能夠進一步以某種方式思考一下，因為你的推理而得到一個更好的答案。

我想說，我們的神經網絡也許有一些限制可以被解決，通過比方說，要求神經網絡把它的想法脫口而出（think out loud）這樣的任務。這已被證明對推理極為有效。

但我認為，基本的神經網絡能走多遠，也還有待觀察，我認為我們還沒有充分挖掘它的潛力。在某種意義上，推理肯定還沒有達到那個水平，像神經網絡具備的其它一些能力一樣的水平。我們希望神經網絡的推理能力要很高，甚至更高。我認為商業使用很有可能將提高神經網絡的推理能力。

黃仁勛：對，當你要問 ChatGPT 問題、在它回答問題前，你跟它說：首先，告訴我，你知道些什麼，然後再讓它回答這個問題。通常人們回答一個問題前，如果告知他具備哪些基礎知識，或者是回答問題前做的一些基本假設，這會讓我更相信他的回答，這也在展示某種程度上的推理水平。所以在我看來，ChatGPT 內嵌了這種能力。

Ilya Sutskever：某種程度上，理解現狀的一種方式是，這些神經網絡具備很多這類能力，只是它們還不太可靠。事實上，你可以說目前可靠性是讓這些模型有用、或者說是真正有用的最大阻礙。有時會存在一些情況，這些神經網絡會產生幻想，或者可能會犯意想不到的錯誤，而人不會犯這些錯誤。正是這種不可靠性，使得它們的用處大大降低。

但我想，或許通過更多的研究和當前的一些想法，或者一些遠大的研究計劃，我們一定能實現更高的可靠性，這樣模型才會真的有用。並且能讓我們能設定非常精確的護欄界限。這也會使得模型學會解釋清楚，哪裡是它不確定的地方或者它壓根不知道的知識。當模型學會後，它不知道的問題不會回答，回答的答案也會非常可信。

所以我要說，這是當前模型的一些瓶頸。這不僅僅是模型是否具備特定的能力，準確地說，這是具備多少、在多大程度上具備的能力。

黃仁勛：提到事實性和真實性，還有幻想，我之前看過一個視頻，它展示了 GPT-4 中從維基百科頁面做檢索的能力。GPT-4 真的包含檢索能力嗎？它是否能夠從事實中檢索信息以加強對你的響應？

Ilya Sutskever：當前 GPT-4 發布時，並沒有內置的檢索功能，它只是個非常好地預測下一個詞的工具。它還可以處理圖像，一些高質量的圖片通過數據和強化學習的變量進行微調，以特定方式表現出來。的確有人會要求 GPT-4 做一些查詢，然後把查詢結果代入到上下文中，而因為 GPT-4 的上下文持續時間相當長，所以結果不會讓我感到驚訝。

總結來說，雖然 GPT-4 沒有支持信息檢索，但它完全具備這個能力。它也將通過檢索變得更好。

多模態的意義

黃仁勛：多模態的 GPT-4 具備從文本和圖像中學習、並能對以文本和圖像作為輸入的請求做響應的能力。首先，多模態學習的基礎，Transformer 使得我們可以從多個模態中學習，例如把文本和圖像 token 化。在這個基礎上，（你可以）幫助我們理解多模態是如何增強對世界的理解的嗎？

我的理解是，當你在用多模態學習時，甚至僅僅使用文本提示詞本身，就可以提升文本理解。從基礎層來看，多模態為什麼如此重要，重大突破是什麼，以及由此產生的特徵差異是什麼？

Ilya Sutskever：多模態有兩個維度，或是說兩個原因讓它如此有趣。第一個原因有點謙虛。多模態是有用的，它對神經網絡很有用，尤其是視覺，因為這個世界是非常視覺化的。人類是視覺動物，人類大腦皮層的三分之一都用於視覺，我相信由於沒有視覺，神經網絡的用處雖然相當大，但並沒有達到它應有的那麼大，所以這是一個非常簡單的有用的論點。很顯然，GPT-4 可以「看」得很好。

第二個原因是，除了從文本學習外，我們還可以從圖像中學習這個世界，這也是很強的論點，儘管它像看上去沒有那麼明確。舉個例子，人類一輩子會聽到十億個詞。

黃仁勛：這非常誇張。

Ilya Sutskever：這不是很多。真的，不是很多。因為十億秒是 30 年，所以像我們一秒只能看到幾個字，並且我們有一半的時間都在睡覺。所以幾十億個詞是我們一生中得到的總數。那麼有儘可能多的信息來源非常重要，並且我們絕對可以通過視覺學到很多。

同樣的論點也適用於我們的神經網絡。神經網絡除了可以從相當多的詞中學習，（如果有了「視覺」），從文本中的幾十億文字認識世界或許會變得更容易，甚至可以從數萬億的詞語中學習。

舉個例子，比如顏色，人需要看到顏色才能理解顏色，但是神經網絡在「一生中」從沒有「看」過一張照片，如果你問它們什麼顏色更接近，它知道紅色比藍色更接近橙色，它也知道藍色比黃色更接近紫色，這是怎麼實現的？一個答案是這個世界的信息，甚至是視覺的信息會慢慢通過文本傳播出去，但是它非常緩慢。但當你有很多文本時，你仍然可以學習到很多東西。

當然，當你加入視覺信息並從視覺中學習知識，你就會學到額外的知識。這些知識是無法通過文本獲得的。但我不會說，它是一個二進位文件，有些東西無法從文本中學習到。我認為這更像是一種交換頻率的問題。特別是當你想學習，你想像人一樣從十億個單詞或一億個單詞中學習，那麼，有其他形態的信息來源變得重要得多。

黃仁勛：是的，你可以從圖像中學習。是否有一種感覺表明，如果我們也想了解世界的構造，比方說我的手臂連接著我的肩膀，再通過連接我的手肘就能移動這個世界，像這樣的物理法則，如果我也想學習，我可以只看視頻就能學習嗎？

Ilya Sutskever：是的。

黃仁勛：如果我想增強（效果）。比方說，「偉大（great）」的意思，有些場合下「偉大」是諷刺意味的，另一些場合下「偉大」可能是熱忱意味的，還有很多很多這樣的詞，（它的意思）取決於人們如何表述。

所以音頻對於模型學習也會有幫助嗎？我們會很快讓它派上用場嗎？

Ilya Sutskever：是的，我認為肯定是這樣的。那麼，關於音頻，它很有用，它是另一個額外（形式）的信息來源，可能不如視頻圖像那麼多。但是，音頻無論是在識別方面和生成方面，都是有必要的。

黃仁勛：當你談到前面所說的分數時，真正有趣的是你們發布出來的數據。哪些個測試 GPT -3 表現良好？哪些個測試 GPT-4 表現得更好？你認為多模態在這些測試中起了多少作用？

Ilya Sutskever：坦白說，每當有測試，你可以看看圖表。比如，一些數學競賽，比如高中生的數學比賽 AMC12 中，有很多圖表的題。GPT-3.5 在測試中表現得相當差。只有文字模態的 GPT-4，我想我不太記得了，但它可能有 2% 到 20% 的準確率。但當你添加視覺模態時，它會提升至 40% 的成功率，所以視覺真的做了很多事情。

視覺模態的加入是非常棒的。能夠在視覺層面進行推理和在視覺上進行溝通，我們也將變得非常強大、非常棒。視覺從僅僅對幾個事物的了解，發展到你可以了解整個世界，然後你可以把這個世界做視覺化推理、視覺化的溝通。未來，如果你問神經網絡，嘿，回答我一下。神經網絡不僅會用四個段落來回答，還會生成一個小圖表，清楚告訴你。

AI 的未來

黃仁勛：這真是不可思議。你之前還說過的一件事是，關於用 AI 生成測試來訓練另一個 AI 的事。有一篇論文是寫的這個主題，我不完全確定它是不是屬實。但是它是說全世界大概有 4 萬億到 20 萬億這麼多數量的語言 tokens 可以被用於訓練模型，所以說可以用來訓練的 token 會慢慢消耗殆盡。

首先，我不知道你是否有同樣的感覺；第二，AI 是否會用自己生成的數據來訓練自己？你也可以反駁這個循環，但我們（人類）無時無刻不在用生成的數據，比如通過自我反省的方式訓練我們的大腦，並在腦海里思考某一個問題。我猜，神經科學家會說，保持充足睡眠可以幫助建設我們的神經元。

你如何看待合成數據生成領域？這是否會成為未來AI 訓練重要的一部分？AI 能否自己訓練自己？

Ilya Sutskever：我認為我不會低估現有的數據。我認為可能有比人們意識到的更多的數據。至於你的第二個問題，這種可能性仍有待觀察。

黃仁勛：未來的某些時候，當我們不使用 AI 時，它也許會生成對抗性的內容來學習或想像著它需要解決的問題來不斷提升自己。告訴我們，現在處於哪裡，以及未來我們將會在哪裡？不預測非常遙遠的未來，而是可見的一兩年。你認為語言模型領域會去向何處？哪些是令你最興奮的地方？

Ilya Sutskever：預測是困難的，尤其是對於太具體的事情。

我們有理由認為這個領域會持續進步，我們將繼續看到 AI 系統在它的能力邊界繼續震驚人類。

目前的邊界是由 AI 的可靠性決定的。如果它不能完全理解，它也會通過提問來弄清楚，它會告訴你不知道，但同時會說它需要更多的信息。如果這些取得進展，我認為會對 AI 的可用性帶來最大的影響。因為現在，我們就面臨著一個挑戰。你想讓一個神經網絡去總結長的文檔、獲取摘要。挑戰就是，能確定重要的細節沒被忽略嗎？

（現在，）它依舊是一個有用的總結。但是當你知道，所有的要點都被涵蓋了，那就是另一回事了。一些要點總結得模稜兩可還好，但如果一些重要到所有人都覺得重要的要點，也被神經網絡總結了，那麼我們就會承認神經網絡總結內容是很可靠的。

對於內容護欄也一樣，它是否清楚地遵循用戶的意圖（也會成為衡量可靠性的標準）。未來兩年，我們會看到很多這樣的技術。

黃仁勛：是的，這太棒了。這兩個領域的進步將使這項技術變得值得信賴，並使人們能夠應用在這麼多的事情上。這本應該是最後一個問題，但我真的還想再問一個問題。從 ChatGPT 到 GPT-4，你是什麼時候第一次開始使用它的？它表現出來什麼樣的技能連你都為之驚訝？

Ilya Sutskever：它展示了許多很酷的東西，很酷也很令人驚訝，非常棒。我要提到兩點。簡短的回答是，它的可靠性水平令人驚訝。

在此之前的神經網絡，如果你問它一個問題，它可能會以一種近乎愚蠢的方式誤解。然而 GPT-4 不會讓這種事發生。它解決數學問題的能力變得更強大，你真的可以認為它進行了推導（derivation），長篇且複雜的推導，並且還轉換了單位等等。這真的很酷。就像許多人一樣，它是通過一步步的證明來工作的，這真的很神奇。儘管不是所有的證明都那麼自然，但起碼有很大一部分是的。另一個例子在於，許多人注意到的寫詩能力。它可以用同一個字母開頭的單詞寫詩，每個單詞都很清晰地遵循著指令。雖然仍不完美，但是已經非常好了。

在視覺方面，我真的很喜歡它如何解釋笑話的，它可以解釋網絡梗。你給他看一個梗並詢問它這個為什麼好笑，它會告訴你原因並且它說的還是對的。我認為，在視覺部分，它就像真的可以看到那些圖。當你用一些複雜的圖像或圖表來追問它問題，並得到一個解釋時，這真的太棒了。

退一步講，我已經從事這項工作很長時間了，實際上幾乎整整 20 年了。最讓我感到驚訝的是——它是真的有效。它似乎一直以來（對人們來說）都是個小事兒，但它現在不再渺小，變得更重要、更強烈。它還是那個神經網絡，只是變得更大，在更大的數據集上，以不同的方式訓練，但訓練的基礎算法都是一樣的，這是最令我驚訝的！每當我後退一步，我就會想，這些想法、這些概念性想法怎麼可能呢？

大腦有神經元，所以也許人工神經元也一樣好，所以也許我們只需要用一些學習算法以某種方式來訓練這些神經元，來將它們的參數調節到如此難以置信地正確，這本身將是最大的驚喜。

黃仁勛：在我們相識的十年裡，關於訓練過的模型和數據量，從你從事的 AlexNet 訓練到現在已經擴大到 100 萬倍。在計算機科學界，沒有人會相信在這十年間，計算量會擴大到 100 萬倍，並且你的整個職業生涯都致力於此。你也是這兩個開創性的成就——早年間 AlexNet 和現在從 OpenAI誕生 GPT，這些成就真的了不起，很高興能再次與你進行思想上的碰撞，我的朋友 Ilya。這是一個相當美妙的時刻，今天的對話。您將問題抽絲剝繭，逐一解釋，這是最好的 PHD 之一。除了 PHD，還有領域最前沿的大語言模型的描述，我真的很感激。很高興見到你。祝賀你！

Ilya Sutskever：謝謝。