Meta 版 ChatGPT 慘遭「開源」?

infoq 發佈 2024-04-06T05:33:15.870889+00:00

Meta 版 ChatGPT 慘遭「開源」?最新大模型 LLaMA 被泄露,已在 GitHub 收穫 7k+ 星作者 | 凌敏、核子可樂Meta 的 LLaMA 代碼已經和越來越多的開發者見面了,ChatGPT 正式開源還會遠嗎?

Meta 版 ChatGPT 慘遭「開源」?最新大模型 LLaMA 被泄露,已在 GitHub 收穫 7k+ 星

作者 | 凌敏、核子可樂

Meta 的 LLaMA 代碼已經和越來越多的開發者見面了,ChatGPT 正式開源還會遠嗎?

Meta 全新大語言模型 LLaMA 正通過種子公開發放


2 月 24 日,Meta 公司發布了新的大模型系列 —— LLaMA(Large Language Model Meta AI)。Meta 宣稱,LLaMA 規模僅為競爭對手 ChatGPT 的「十分之一」,但性能卻優於 OpenAI 的 GPT-3 模型。


近日,國外匿名論壇 4chan 泄露了 LLaMA 成品庫,並且種子文件被合併到了 Meta Research 的 GitHub 上,同時一些項目維護者給予了批准,目前該項目在 GitHub 已收穫 7k+ 個星。



GitHub 連結:


https://github.com/Facebookresearch/llama/pull/73/files


對此,網友分成了兩個派系:一方認為這次泄露事件是 Meta 方有意為之,另一方則認為只是單純地被泄露。


網友 yunwal 表示:「Facebook 幾乎肯定知道會發生泄密事件。我的猜測是保持模型「受控」是比其他任何事情都更重要的法律保護,以在有人濫用模型的情況下保護自己免受責任。」



網友 ok123456 則猜測:「也許這是 Meta 故意泄露的,以對抗 OpenAI。一些客戶認為這是一個更好的模型,它恰好擊中了他們以每年 25 萬美元的價格出售訪問權的商業計劃的核心。訪問他們的服務一個月可以購買一台能夠運行這種泄露模型的機器。Facebook 削弱了一個潛在的新貴競爭對手,以保持當前的大型科技卡特爾穩定。也許這有點陰謀論,但我們生活在大科技和大陰謀的時代。」



也有網友反駁上述觀點:「為什麼要泄露它,而不是將它與關於開放和民主化 AI 等新聞稿一起發布?」,有網友稱:「這根本不是陰謀。另請參閱 IE、Android、Kubernetes……」


目前,Meta 方面暫未對此事做出回應。有 Meta 員工表示:「Meta 員工可能沒有注意到或仍在思考如何做出反應,因此 PR 仍在進行中。」


事實上,無論此事是否是 Meta 有意為之,在部分網友看來,LLaMA 原本的設定就是申請之後即可下載,「被公開是遲早的事情」。


與 OpenAI 的 GPT-3 相比,Meta 在一開始就將 LLaMA 定位成一個「開源的研究工具」,該模型所使用的是各類公開可用的數據集(例如 Common Crawl、維基百科以及 C4)。項目組成員 Guillaume Lample 在推文中指出,「與 Chinchilla、PaLM 或者 GPT-3 不同,我們只使用公開可用的數據集,這就讓我們的工作與開源兼容且可以重現。而大多數現有模型,仍依賴於非公開可用或未明確記錄的數據內容。」


早在上周發布時,Meta 就曾表示,LLaMA 可以在非商業許可下提供給政府、社區和學術界的研究人員和實體工作者,正在接受研究人員的申請。此外,LLaMA 將提供底層代碼供用戶使用,因此用戶可以自行調整模型,並將其用於與研究相關的用例。也就是說,各方貢獻者也能參與進來,讓這套模型變得越來越好。LLaMA 的官方博文也提到,「後續還需要更多研究,以解決大語言模型中的偏見、有害評論和捏造事實等風險。」


此次非正式開源,或將標誌著這些科技巨頭們最優秀的大語言模型,正以前所未有的速度進入全球千行百業中,未來將以更豐富的產品形式讓用戶享受到先進的 AI 技術。

超越 ChatGPT,LLaMA 強在哪裡?


根據 Meta 官方發布的消息,LLaMA 是一種先進的基礎語言模型,旨在協助研究人員在 AI 相關領域迅速開展工作。


據悉,LLaMA 跟 OpenAI 的 GPT-3 模型差不多,LLaMA 模型是根據世界上二十種最流行的拉丁語和西里爾字母語言文本訓練而成的。論文《LLaMA:開放且高效的基礎語言模型》(LLaMA:Open and Efficient Foundation Language Models)就將該模型與 GPT、Gopher、Chinchilla 及 PaLM 等同類成果做出了比較。後面這幾種模型都用到了廣泛的公共數據,但也引入了某些非公開可用或未記錄在案的文本數據。LlaMA 則僅使用公開可用的數據集進行訓練,所以雖然自身尚未開源,但該模型與開源原則完全兼容。


從某種意義上講,LLaMA 是對 2022 年 3 月發表的 Chinchilla 模型及其論文《訓練計算優化型大模型》(Training Compute-Optimal Large Models)的直接反應。通過加州大學伯克利分校、哥倫比亞大學、芝加哥大學和伊利諾伊大學在 2021 年 1 月合作進行的大規模多任務語言理解(MMLU)基準測試,這篇論文探討了模型大小、算力預算、令牌數量、訓練時間、推理延遲和性能等問題。


論文中的核心觀點是,AI 訓練與推理的最佳性能未必由大模型的參數量直接決定。相反,增加訓練數據並縮小模型體量才是達成最佳性能的前提。這樣的訓練可能需要更多時間,但也會帶來有趣的意外收穫 —— 在推理新數據時,小模型的速度更快。為了證明這一點,Chinchilla 的創建者一年前曾建議在 2000 億個令牌(一個令牌代表一個單詞片段)上訓練一套具有 100 億參數的模型。與之對應,LLaMA 的創建者稱自己的模型只有 70 億個參數,且仍在「繼續優化中」,但令牌量已經高達 1 萬億。


LLaMA 模型還分別使用 67 億、130 億、320 億和 652 億幾種參數組合進行訓練,其中體量較小的兩種使用 1 萬億個令牌,後兩種較大的使用 1.4 萬億個令牌。Meta Platforms 採取了 2048 個英偉達 Ampere A100 GPU 加速器配合 80 GB HBM2e 內存,使用 1.4 萬億個令牌對規模最大的 LLaMA-65.2B 模型進行了測試,且訓練周期為 21 天(每 GPU 每秒 380 個令牌)。


這樣的速度並不算快,但 Meta AI 的研究人員表示,LLaMA-13B 模型「在大多數基準測試中都優於 GPT-3,且體積僅相當於後者的 1/139。」而且重點在於,「我們相信該模型有助於推動大語言模型的大眾化普及,因為它完全能夠在單 GPU 上運行。而且在規模化模型層面,我們的 65B 參數模型也完全能夠與 Chinchilla 或者 PaLM-540B 等頂尖大語言模型相媲美。」

與其他同類大模型的性能對比


論文中列出大量性能比較,這裡我們挑出幾條來感受一下。下圖展示了各模型在「常識推理」任務中的零樣本性能表現:



零樣本意味著利用一種數據訓練而成的模型,對另外一種數據類型進行處理,且無需專門針對新類別做重新訓練。(這也是大語言模型的強大之處,其具備自動擴展能力。)從表中的粗體部分可以看到,650 億參數的 LLaMA 達成或超越了除 PaLM-540B 兩個實例以外的其他所有模型,而且跟冠軍的表現也相當接近。GPT-3 也在其中,其 1750 億參數的版本雖然表現不錯,但準確率也沒有特別明顯的優勢。而且需要注意,GPT-3 的 1750 億參數相當於 LLaMA-65B 的 2.7 倍。


在另一輪有趣的比較中,Meta Platforms 展示了 LLaMA 在人文、科學、技術與數學、社會科學及其他各領域的多選測試結果。我們來看以下圖表:



這裡測試的是所謂 5-shot 準確率,也就是對於任何特定問題,源材料都至少對其提及 5 次,(隨著每次提及,答案的確定性水平都會提高,這與人類推理的過程非常相似。這反映的是除了確切知曉之外,我們也往往能從多選題中推斷出正確答案。)


下圖也很重要,展示的是 LLaMA 在不同參數規模下,與 Chinchilla 模型之間的常識推理與問答基準測試差異:



如圖所示,LLaMA-33B 和 LLaMA-65B 已經可以與 Chinchilla-70B 模型正面對抗,當令牌數量達到 1 萬億時甚至能夠反超。


值得一提的是,在 NaturalQuestions 和 SIQA 問答測試中,這些基礎模型都及不了格——準確率過低,甚至距離及格線還有一段距離。各模型在 TriviaQA 測試中的得分在 D+ 到 C- 之間,在 WinoGrande 測試中得到 C- 至 C,在 HellaSwag 測試中得到 C 至 B,在 PIQA 測試中得到 C+ 至 B-。單從成績來看,現有大語言模型還算不上班裡的「尖子生」。


本文轉載來源:

https://www.infoq.cn/news/dkPASNisVmd1WIQTs41H

關鍵字: