「深度」ChatGPT的前世今生:風靡全網的「最強AI」是如何做到這一切的?

界面新聞 發佈 2022-12-09T20:16:09.900185+00:00

記者 | 李京亞 姜菁玲編輯 | 宋佳楠在美劇《矽谷》中,曾有這樣一幕有趣的劇情:程式設計師Gilfoyle用AI聊天軟體「安東之子」捉弄他的好友Dinesh。該軟體能模擬獨屬於Gilfoyle的悶騷幽默,讓Dinesh誤以為是在與Gilfoyle本人聊天。

記者 | 李京亞 姜菁玲

編輯 | 宋佳楠

在美劇《矽谷》中,曾有這樣一幕有趣的劇情:程式設計師Gilfoyle用AI聊天軟體「安東之子」捉弄他的好友Dinesh。該軟體能模擬獨屬於Gilfoyle的悶騷幽默,讓Dinesh誤以為是在與Gilfoyle本人聊天。發現真相後,同為程式設計師的Dinesh也做了一個AI機器人用來報復Gilfoyle。結果,兩個AI機器人熱聊了起來,還把網絡給聊崩了……

這樣的場景已經走入現實。美國人工智慧實驗室OpenAI推出的語言模型系統GPT-3就曾構建出兩個人工智慧之間的對話,談論如何成為人類,令看客大呼脊背發涼。

但OpenAI並未止步於此,而是將GPT-3進化為最近風靡全網的ChatGPT,後者不僅在大量網友的「瘋狂」測試中表現出各種驚人的能力,如流暢對答、寫代碼、寫劇本、辯證分析問題、糾錯等等,甚至讓記者編輯、程式設計師等從業者都感受到了威脅,更不乏其將取代谷歌搜尋引擎之說。

作為OpenAI的幕後老闆,尚在主導推特變革的馬斯克也公開表達了對ChatGPT的力挺,認為「我們離強大到危險的AI不遠了。」

全球用戶爭相曬出自己極具創意的與ChatGPT交流的成果。一位網友要求ChatGPT用《坎特伯雷故事集》風格改寫90年代熱門歌曲《Baby Got Back》;有網友曬出ChatGPT參加美國高考SAT考試之後的得分:1020(總分1600分);亦有網友收穫了ChatGPT用《老友記》幾大主角口吻創作的劇本對白。

據OpenAI的CEO,矽谷著名投資人山姆·奧特曼(Sam Altman)透露,自11月30日至12月5日,ChatGPT的用戶數量已突破100萬。由於太過火爆,OpenAI不得不暫時關閉了用戶的測試入駐窗口。

可以說,繼AlphaGo擊敗李世石、AI繪畫大火之後,ChatGPT開啟了人工智慧對人類社會產生深遠影響的又一扇窗。不禁讓人好奇,它究竟是怎麼做到的?

為何是ChatGPT?

如果用一句話來說明ChatGPT是什麼,可以將它理解為由AI驅動的聊天機器人。

外界往往認為語言學領域是人工智慧派上用場的絕佳地帶,而事實並非如此。截至目前,人工智慧還沒有找到征服語言領域的暗門,即使是谷歌、蘋果這樣的頂級科技公司,都面臨著相關AI研究成果派不上用場的苦惱。

尚處在免費試用階段的ChatGPT,關注度短短几天擴大到燎原之勢,正是因為人們從中看到了人工智慧和語言本體之間的真正接口。

那麼,ChatGPT採取了什麼方式達到了如此驚艷的效果呢?為何蘋果的Siri至今無法生成一篇學術論文,亞馬遜的Alexa無法吟出一首莎士比亞十四行詩呢?

過去十年間,谷歌、 Facebook、亞馬遜、蘋果和微軟等矽谷科技巨頭紛紛開啟AI軍備競賽,先後成立專門的AI實驗室,而最終業界公認的做純AI研究的頂級實驗室只有三家:背靠谷歌的DeepMind、背靠微軟的OpenAI和背靠Facebook的FAIR。其中,被谷歌收購的DeepMind因擁有AlphaGo最為家喻戶曉。

OpenAI在2015年底創立於舊金山,其聯合創始人是馬斯克以及矽谷知名孵化器Y Combinator的前掌門人奧特曼。不過,近年馬斯克多以OpenAI的出資人角色出現,奧特曼才是這家公司的主導者和現任CEO。

不到五年時間,OpenAI就依靠GPT3躍升為全球AI領域頂級公司,與DeepMind並稱AI圈的「雙子星」。事實上,Meta的Fair實驗室也一直在自然語言處理和對話型AI領域深耕,但其成果以發表論文為主,顯得較為低調。今年6月,大舉向元宇宙轉型的Meta決定AI部門不再「集中化研究」,而是分布式下放,以便與實際業務結合,導致Fair的前途並不明朗。

OpenAI足以與AlphaGo一戰的「武器」正是GPT3,這個2020年推出的巨型語言處理模型怪獸,可以完成諸如答題、寫論文、文本摘要、語言翻譯和生成代碼等壯舉,其誕生被視作人工智慧競賽的里程碑事件。

ChatGPT的前世今生

如果梳理OpenAI的GPT(Generative Pre-trained Transformer)系列技術路線,可以探尋出OpenAI的布局思路。

OpenAI最初提出的GPT1,採取的是生成式預訓練Transform模型(一種採用自注意力機制的深度學習模型),此後整個GPT系列都貫徹了這一谷歌2017年提出,經由OpenAI改造的偉大創新範式。

簡要來說,GPT1的方法包含預訓練和微調兩個階段,預訓練遵循的是語言模型的目標,微調過程遵循的是文本生成任務的目的。

2019年,OpenAI繼續提出GPT-2,所適用的任務開始鎖定在語言模型。GPT2擁有和GPT1一樣的模型結構,但得益於更高的數據質量和更大的數據規模,GPT-2有了驚人的生成能力。不過,其在接受音樂和講故事等專業領域任務時表現很不好。

2020年的GPT3將GPT模型提升到全新的高度,其訓練參數是GPT-2的10倍以上,技術路線上則去掉了初代GPT的微調步驟,直接輸入自然語言當作指示,給GPT訓練讀過文字和句子後可接續問題的能力,同時包含了更為廣泛的主題。

現在的ChatGPT則是由效果比GPT3更強大的GPT-3.5系列模型提供支持,這些模型使用微軟Azure AI超級計算基礎設施上的文本和代碼數據進行訓練。

具體來說,ChatGPT在一個開源數據集上進行訓練,訓練參數也是前代GPT3的10倍以上,還多引入了兩項功能:人工標註數據和強化學習,相當於拿回了被GPT3去掉的微調步驟,實現了在與人類互動時從反饋中強化學習。

也因此,我們得以看到一個強大的ChatGPT:能理解人類不同指令的含義,會甄別高水準答案,能處理多元化的主題任務,既可以回答用戶後續問題,也可以質疑錯誤問題和拒絕不適當的請求。

當初,GPT-3隻能預測給定單詞串後面的文字,而ChatGPT可以用更接近人類的思考方式參與用戶的查詢過程,可以根據上下文和語境,提供恰當的回答,並模擬多種人類情緒和語氣,還改掉了GPT-3的回答中看似通順,但脫離實際的毛病。

不僅如此,ChatGPT能參與到更海量的話題中來,更好的進行連續對話,有上佳的模仿能力,具備一定程度的邏輯和常識,在學術圈和科技圈人士看來時常顯得博學而專業,而這些都是GPT-3所無法達到的。

儘管目前ChatGPT還存在很多語言模型中常見的局限性和不準確問題,但毋庸置疑的是,其在語言識別、判斷和交互層面存在巨大優勢。同屬於生成式AI範疇,ChatGPT在速度上已經比DeepMind研究人員提出的聊天機器人Sparrow(麻雀)模型領先一步。

有分析指出,OpenAI一直堅定不移的只用自然文本的上文來訓練模型推動了GPT3到ChatGPT的成果,其順應了人類思考的邏輯,最終由量變推動了質變。

商業模式的通路與障礙

不少人已經注意到,ChatGPT的能力已經涉及到AI模型之間的合作:一位網友要求ChatGPT寫一個描述女孩的文案,然後用ChatGPT生成的文案畫出了女孩的圖像。

除了GPT系列之外,Open AI其實另有一條多模態領域研究支線聞名於世,即今年發布的明星產品——人工智慧圖像生成器DALL-E2。以DaLL E2為代表的Diffusion Model(擴散模型)幾乎完成了此前爆火的AIGC(人工智慧生成內容)領域的「大一統」,為AI繪畫樹立了全新標杆。

頂級技術能力之外,OpenAI能搶在谷歌和Meta之前重新書寫AIGC版圖,與其精細化的布局相關。

OpenAI月內的兩筆收購都切中AIGC的增長點交叉地帶,一樁投給了音頻轉錄編輯器Descript ,一樁落子在AI筆記應用Mem。前者的處理場景剛好是文本、圖片、音頻以及視頻,後者的技術底座是Transfomer模型,與ChatGPT同源。也就是說,OpenAI在打造自身處理下游任務的能力的同時,也在尋覓能承載下游任務的容器。

OpenAI的研究領域包括機器學習、自然語言處理和強化學習,其能在短短几年間迅速崛起,與創始人奧特曼對AI的創意性理解力密切相關:「十年前的傳統觀點認為,人工智慧首先會影響體力勞動,然後是認知勞動,再然後,也許有一天可以做創造性的工作。現在看起來,它會以相反的順序進行。」

在YC,奧特曼以激進大膽的投資風格著稱,因其秉承直擊腹地的簡潔思維,備受創業者青睞。YC曾有創始人稱奧特曼為「創業公司的尤達大師」(《星球大戰》中的絕地武士導師)。

這位CEO還有著實事求是的性情,當外界對GPT-3的能力發出鋪天蓋地的讚美時,他反而說「GPT-3被吹捧得太過了」。此後GPT-3在一系列問答中鬧出笑話、表現不佳,也印證了他的說法。

但奧特曼的冷靜擋不住幕後金主馬斯克對ChatGPT抱持的極大熱情,他十分關注ChatGPT的商業化前景,並在推特上向奧特曼提問,「ChatGPT每回答一個問題的成本是多少?」奧特曼則如實地答道:「每次對話的平均費用可能只有幾美分,我們正試圖找出更精確的測量方法並壓縮費用。」

實際上,谷歌和Meta等巨頭目前都尚未將生成式AI領域的研究能力轉化為商業化部署,作為創業公司的OpenAI卻做了不少嘗試。

這家公司曾希望通過API(應用編程接口)方式來推動GPT-3的技術商業化,在2020年6月就開放了GPT-3的API接口,並曾與十餘家公司展開過初步的商用測試,但由於GPT-3的功能並不完善未見成效。曾有傳言稱OpenAI為GPT3投入了至少1000萬美元,為了擺脫入不敷出的窘境,才將GPT3作為一項付費服務來推廣。

據虎嗅報導,Facebook改名為Meta之後,Meta AI實驗室在5月宣布開放自己的語言大模型OPT(預訓練變換模型),而OPT一直對標OpenAI的GPT3。與之類似,矽谷大廠內部都有對標GPT3的產品,只是因為大廠都是關起門來做私密研究,因而不為外界所知。

某種程度上,ChatGPT採取免費試用是OpenAI準備繼續打磨這款產品的信號,用戶給予的反饋會幫助該模型吸取足夠的信息量,從而作出更恰當的反應。

從GPT-3開始,ChatGPT及尚未出爐的GPT-4都面臨訓練成本過大的問題。有分析指出,是否收費是個兩難決策:如果繼續免費,OpenAI會無法承受,但收費又會極大減少用戶基數。倘若訓練成本能大幅下降,則兩難自解。

此外,GPT-3歷經兩年商業化嘗試,並未「如願」取代記者編輯或碼農的職業生涯,OpenAI也從中發現,將GPT系列作為輔助生產力工具對商業化更為合適。此前業內傳言微軟對這家公司的新一輪注資即將落地,屆時其估值預計超過200億美元,商業化也必將提上日程。到那時,OpenAI可以倚仗的大概率是ChatGPT,或者是通過了圖靈測試的GPT4。

一片叫好聲中,也不乏有人潑來冷水——程式設計師首選問答社區Stack Overflow日前便宣布,禁止用戶複製ChatGPT的答案來回答其它用戶的問題,理由是ChatGPT的答案正確比率太低,日後待社區討論後再作出解禁決定。

此舉立刻引發了業界普遍關注,仿佛是對ChatGPT編程價值的徹底否定。與此同時,人工智慧界的專家們也在激辯這些大型語言模型可能帶來的負面效應,比如Meta的首席人工智慧科學家Yann LeCun認為,雖然它們會有錯誤信息和不良輸出,但並不會使文本的實際分享變得容易,而後者才是造成危害的真正原因。但也有人反駁稱,這些語言系統的廉價文本生成能力必然會增加其後被分享的風險。

而在OpenAI內部,一年半前曾遭遇核心員工集體出走,創辦了一家名為Anthropic的新公司,致力於提高AI安全和可解釋性,目前籌資已超過7億美元,業內亦有聲音認為,這支「AI叛逆者聯盟」說不定會是另一個OpenAI。

關鍵字: