一文讀懂 OpenAI

浮之靜 發佈 2024-04-29T15:17:11.572280+00:00

微軟在 2019 年向 OpenAI LP 提供了 10 億美元的投資,並於 2023 年 1 月向其提供了第二筆多年期投資,據報導為 100 億美元。

OpenAI 是什麼

來自 Wiki

OpenAI 是一家美國人工智慧(AI)研究實驗室,由非營利性 OpenAI Incorporated(OpenAI Inc.)及其營利性子公司 OpenAI Limited Partnership(OpenAI LP)組成。OpenAI 進行 AI 研究的目的是促進和開發友好的 AI。OpenAI 系統運行在世界上第五強大的超級計算機上。該組織於 2015 年由 Sam Altman、Reid Hoffman 在舊金山成立,傑西卡·利文斯頓(Jessica Livingston)、埃隆·馬斯克(Elon Musk)、伊利亞·薩茨克維爾(Ilya Sutskever)、彼得·泰爾(Peter Thiel)等人共同認捐了 10 億美元。馬斯克於 2018 年辭去董事會職務,但仍是捐助者。微軟在 2019 年向 OpenAI LP 提供了 10 億美元的投資,並於 2023 年 1 月向其提供了第二筆多年期投資,據報導為 100 億美元。

OpenAI 發展歷程

  • 2015.12 - Sam Altman、Greg Brockman、Reid Hoffman、Jessica Livingston、Peter Thiel、Elon Musk、Amazon Web Services (AWS)、Infosys 和 YC Research 宣布成立 OpenAI,並承諾向該合資企業投資超過 10 億美元. 該組織表示,將通過向公眾開放其專利和研究,與其他機構和研究人員「自由合作」。
  • 2016.04 - OpenAI 發布了強化學習研究平台 「OpenAI Gym」 的公測版。
  • 2016.12 - OpenAI 發布了 「Universe」,這是一個軟體平台,用於測量和訓練 AI 在全球範圍內提供的遊戲、網站和其他應用程式的通用智能。
  • 2018 - 由於特斯拉為自動駕駛汽車開發 AI,馬斯克辭去了董事會席位,理由是與他擔任特斯拉執行長的角色「未來可能存在利益衝突」 ,但他仍然是捐贈者。
  • 2019 - OpenAI 從非營利性轉變為「封頂」的營利性,利潤封頂為任何投資的 100 倍(OpenAI shifts from nonprofit to 『capped-profit』 to attract capital)。上限利潤模式允許 OpenAI LP 合法地吸引風險基金的投資,此外,還可以授予員工公司的股份。
  • 2020 - OpenAI 發布了 GPT-3,這是一種在大型網際網路數據集上訓練的語言模型。GPT-3 旨在自然語言回答問題,但它也可以在語言之間進行翻譯並連貫地生成即興文本。它還宣布了一個關聯的 API,簡稱為 「API」,將構成其第一個商業產品的核心。
  • 2021 - OpenAI 推出了 DALL-E,這是一種深度學習模型,可以從自然語言描述中生成數字圖像。
  • 2022.12 - OpenAI 在推出基於 GPT-3.5 的新型 AI 聊天機器人 ChatGPT 免費預覽版後受到了媒體的廣泛報導。據 OpenAI 稱,預覽版在前五天內收到了超過一百萬的註冊。在發布僅兩個月後就擁有 1 億用戶(成為史上用戶增長最快的應用)。
  • 2023.01 - OpenAI 正在就融資進行談判,這將使公司估值達到 290 億美元,是公司 2021 年市值的兩倍。2023.01.23,微軟宣布對 OpenAI 的一項新的多年期、數十億美元的投資計劃(據報導為 100 億美元)。該投資被認為是微軟將 OpenAI 的 ChatGPT 集成到 Bing 搜尋引擎中的一部分。在 ChatGPT 推出後, Google 宣布了類似的 AI 應用程式(Bard),擔心 ChatGPT 會威脅到 Google 作為信息首選來源的地位。
  • 2023.02.07 - 微軟宣布正在將基於與 ChatGPT 相同基礎的 AI 技術構建到 Microsoft Bing、Edge、Microsoft 365 等產品中。
  • 2023.02.15 - 域名 AI.com 重定向到 ChatGPT 網站,據說域名在 2021.09 被 1100 萬美元收購(AI.com Now Forwarding to ChatGPT Website)。
  • 2023.02.28 - 微軟宣布對 Windows 11 進行重大更新,其中包含一系列利用 AI 的功能並改善人們在 PC 上完成工作的方式的功能。Bing 團隊很高興地與大家分享到:作為此次更新的一部分,我們將 New Bing 直接引入 Windows 任務欄,解鎖更多與 PC 交互的方式,包括搜索、答案、聊天和創作(Introducing the new Bing in Windows 11)。

名詞解釋

API

2020.06,OpenAI 宣布了一個多功能 API,據稱「用於訪問 OpenAI 開發的新 AI 模型」,讓開發人員調用它來執行「任何英語 AI 任務」。

GPT

參數數量:1.2 億,訓練數據:BookCorpus 是一個包含 7000 本未出版書籍的語料庫,總大小為 4.5 GB。這些書籍涵蓋了各種不同的文學流派和主題。

基於轉換器的生成式預訓練模型(英語:Generative pre-trained transformers, 簡稱:GPT)是一種延伸自轉換器架構(Transformer)的自然語言生成模型。它可以進行微調以完成各種自然語言處理任務,例如文本生成、代碼生成、視頻生成、文本問答、圖像生成、論文寫作、影視創作、科學實驗設計等。基於大量語料數據上訓練,以生成類似於人類自然語言的文本。其名稱中的「預訓練」指的是在大型文本語料庫上進行的初始訓練過程,其中模型學習預測文章中下一個單詞,這為模型在具有限量的任務特定數據的下游任務中表現良好提供了堅實的基礎。

關於 GPT 的原始論文(Improving Language Understanding by Generative Pre-Training)由 Alec Radford 及其同事撰寫,並於 2018.06.11 以預印本形式發表在 OpenAI 的網站上。它展示了語言的生成模型如何能夠通過對具有長段連續文本的多樣化語料庫進行預訓練來獲取世界知識並處理遠程依賴關係。

GPT-2

參數數量:15 億,訓練數據 WebText:一個包含八百萬個文檔的語料庫,總大小為 40 GB。這些文本是從 Reddit 上投票最高的 4,500 萬個網頁中收集的,包括各種主題和來源,例如新聞、論壇、博客、維基百科和社交媒體等。

生成式預訓練變換模型 2(英語:Generative Pre-trained Transformer 2,簡稱:GPT-2)是 OpenAI 於 2019.02 創建的開源人工智慧。GPT-2 能夠翻譯文本、回答問題、總結段落,並生成文本輸出。雖然其輸出內容有時與人類相似,但在生成長段落時輸出內容可能會變得重複或無意義。GPT-2 是一個通用學習器,沒有經過專門訓練來執行任何特定的任務,並且是作為 OpenAI 2018 GPT 模型的「直接擴展」而創建的,其參數數量和訓練數據集的大小均增加了十倍。

一些專家對 GPT-2 構成重大威脅表示懷疑。艾倫人工智慧研究所(Allen Institute for Artificial Intelligence)用一種檢測「假新聞」的工具回應了 GPT-2(Could 『fake text』 be the next global political threat?)。其他研究人員,如傑里米霍華德,警告說「用聽起來合理、上下文適當的散文完全填滿推特、電子郵件和網絡的技術,這將淹沒所有其他言論並且無法過濾」。2019.11,OpenAI 發布了完整版的 GPT-2 語言模型。

GPT-3

參數數量:1750 億,訓練數據:一個總大小為 570 GB 的大規模文本語料庫,其中包含約四千億個標記。這些數據主要來自於CommonCrawl、WebText、英文維基百科和兩個書籍語料 Books1 和 Books2。

生成型預訓練變換模型 3 (英語:Generative Pre-trained Transformer 3,簡稱:GPT-3)是一個自回歸語言模型,目的是為了使用深度學習生成人類可以理解的自然語言。GPT-3 由 OpenAI 訓練與開發,模型設計基於谷歌開發的 Transformer 模型。GPT-3 的神經網絡包含 1750 億個參數,需要 800GB 來存儲, 為有史以來參數最多的神經網絡模型。該模型在許多任務上展示了強大的零樣本和少樣本的能力。

OpenAI 於 2020.05 發表 GPT-3 的論文(Language models are few-shot learners),在次月為少量公司與開發人團釋出應用程式界面的測試版。微軟在 2020.09.22 宣布取得了 GPT-3 的獨家授權。

GPT-3.5

2022.03.15,OpenAI 在其 API 中提供了具有編輯和插入功能的新版本 GPT-3 和 Codex,名稱為 「text-davinci-003」 和「code-davinci-002」。這些模型被描述為比以前的版本更強大,並且接受了截至 2021.06 的數據訓練。2022.11.30,OpenAI 開始將這些模型稱為 「GPT-3.5」 系列,並發布了 ChatGPT,它是從 GPT-3.5 系列中的一個模型進行微調的。

GPT-4

Generative Pre-trained Transformer 4 (GPT-4) 是由 OpenAI 創建的未發布的神經網絡。 據《紐約時報》報導,它「傳言將於 2023 年面世」;Vox 聲稱其他網站曾表示:據傳它優於 OpenAI 此前發布的 GPT-3 和 GPT-3.5。The Verge 還援引謠言稱,它將大幅增加 GPT-3 的參數數量(從 1750 億增加到 100 萬億),OpenAI 執行長 Sam Altman 將其描述為「徹頭徹尾的胡說八道」。

ChatGPT

聊天生成型預訓練變換模型(英文:Chat Generative Pre-trained Transformer,簡稱:ChatGPT),是由 OpenAI 開發的一個人工智慧聊天機器人程序,於 2022.11 推出。該程序使用基於 GPT-3.5 架構的大型語言模型並通過強化學習進行訓練。 ChatGPT 目前仍以文字方式交互,而除了可以通過人類自然對話方式進行交互,還可以用於相對複雜的語言工作,包括自動文本生成、自動問答、自動摘要等在內的多種任務。如:在自動文本生成方面,ChatGPT 可以根據輸入的文本自動生成類似的文本(劇本、歌曲、企劃等),在自動問答方面,ChatGPT 可以根據輸入的問題自動生成答案。還具有編寫和調試電腦程式的能力。在推廣期間,所有人可以免費註冊,並在登錄後免費使用 ChatGPT 實現與 AI 機器人對話。

ChatGPT 可以寫出相似於真人程度的文章,並因其在許多知識領域給出詳細的回答和清晰的答案而迅速獲得關注,證明了從前認為不會被 AI 取代的知識型工作它也足以勝任,對於金融與白領人力市場的衝擊相當大,但其事實準確性參差不齊被認為是一重大缺陷,其基於意識形態的模型訓練結果並被認為需要小心地校正。ChatGPT 於 2022.11 發布後,OpenAI 估值已漲至 290 億美元。上線兩個月後,用戶數量達到 1 億。

ChatGPT Plus

ChatGPT Plus 是一項每月 20 美元的訂閱服務,允許用戶在尖峰時段訪問 ChatGPT,提供更快的響應時間,並讓用戶提前訪問新功能。

Transformer 模型

Transformer 模型(直譯為「變換器」)是一種採用自注意力機制的深度學習模型,這一機制可以按輸入數據各部分重要性的不同而分配不同的權重。該模型主要用於自然語言處理(NLP)與計算機視覺(CV)領域。

與循環神經網絡(RNN)一樣,Transformer 模型旨在處理自然語言等順序輸入數據,可應用於翻譯、文本摘要等任務。而與 RNN 不同的是,Transformer 模型能夠一次性處理所有輸入數據。注意力機制可以為輸入序列中的任意位置提供上下文。如果輸入數據是自然語言,則 Transformer 不必像 RNN 一樣一次只處理一個單詞,這種架構允許更多的並行計算,並以此減少訓練時間。

Transformer 模型於 2017 年由谷歌大腦的一個團隊推出,現已逐步取代長短期記憶(LSTM)等 RNN 模型成為了 NLP 問題的首選模型。並行化優勢允許其在更大的數據集上進行訓練。這也促成了 BERT、GPT 等預訓練模型的發展。這些系統使用了維基百科、Common Crawl 等大型語料庫進行訓練,並可以針對特定任務進行微調。

Codex

Codex 於 2021 年年中宣布,是 GPT-3 的後代,它還接受了來自 5400 萬個 GitHub 存儲庫代碼的訓練,並且是為代碼自動完成工具 GitHub Copilot 提供支持的人工智慧。2021.08,一個 API 以私人測試版的形式發布。根據 OpenAI 的說法,該模型能夠使用十幾種程式語言創建工作代碼,最有效的是 Python。

Whisper

OpenAI open-sources Whisper, a multilingual speech recognition system

Whisper 於 2022 年發布,是一種通用語音識別模型。它是在不同音頻的大型數據集上訓練的,也是一個多任務模型,可以執行多語言語音識別以及語音翻譯和語言識別。

MuseNet

  • 關於 OpenAI MuseNet

MuseNet 是一個深度神經網絡,可以用 10 種不同的樂器生成 4 分鐘的音樂作品,並且可以結合從鄉村音樂到莫扎特再到甲殼蟲樂隊的風格。MuseNet 並未根據我們對音樂的理解進行明確編程,而是通過學習預測數十萬個 MIDI 文件中的下一個標記來發現和聲、節奏和風格的模式。MuseNet 使用與 GPT-2 相同的通用無監督技術,GPT-2 是一種經過訓練以預測序列中的下一個標記(無論是音頻還是文本)的大規模變換器模型。

Microscope

  • 關於 OpenAI Microscope
  • Microscope 網站

OpenAI 顯微鏡,它是八種視覺「模型生物」的每個重要層和神經元的可視化集合,通常在可解釋性方面進行研究。顯微鏡使分析這些神經網絡內部形成的特徵變得更加容易,我們希望它能在我們理解這些複雜系統的過程中對研究社區有所幫助。

DALL-E & CLIP

  • DALL-E 網站

DALL-E 於 2021 年發布,是一種 Transformer 模型,可根據文本描述創建圖像。

同樣在 2021 年發布的 CLIP 反其道而行之:它為給定圖像創建描述。DALL-E 使用 GPT-3 的 120 億參數版本來解釋自然語言輸入(形狀像五邊形的綠色皮革錢包)並生成相應的圖片。它可以創建真實物體的圖像(帶有藍色草莓圖像的彩色玻璃窗)以及現實中不存在的物體(具有豪豬紋理的立方體)。


查看原文:https://mp.weixin.qq.com/s/_ovmBsJ7EQr_k4JnSKtuLw

關鍵字: