ChatGPT與自動駕駛底層根技術的融合趨勢洞察

芯東西 發佈 2024-04-28T18:35:32.158579+00:00

近幾年來,行業的數位化和行業的AI化,推動ADS向陽而生:從單車智能維度,L2部分功能已經成為行業標配:2022年前五個月的搭載率25.5%,幾個主流車廠的新車款的搭載率甚至到70%以上。

作者:Dr. Luo,東南大學工學博士,英國布里斯托大學博士後,是復睿微電子英國研發中心GRUK首席AI科學家,常駐英國劍橋。Dr. Luo長期從事科學研究和機器視覺先進產品開發,曾在某500強ICT企業擔任機器視覺首席科學家。

一、自動駕駛行業簡介

2022年可謂是ADS的L3自動駕駛元年。近幾年來,行業的數位化和行業的AI化,推動ADS向陽而生:從單車智能維度,L2部分功能已經成為行業標配:2022年前五個月的搭載率25.5%,幾個主流車廠的新車款的搭載率甚至到70%以上。在硬體預埋(大算力晶片 + Multi-View Camera + LiDAR + Radar)的趨勢驅動和最新的ADS行業准入法規政策驅動下,L2+快速向L3演進已經是大勢所驅,今明兩年,可以預測到城市級L3+將會在國內迅速普及。軟體定義汽車,甚至是AI定義汽車,必然是當前的一個時代主流趨勢。

自動駕駛ADS主要是由高速場景向城市道路場景演進來落地領航輔助NOA功能,AI與場景的深度融合,推動ADS逐步實現從低速到高速,從載物到載人,從商用到民用,從階段一提供L2高級輔助駕駛和L3擁堵高速公路副駕駛,發展到階段二可以提供L3擁堵公路自動駕駛和L4高速公路自動駕駛,最終實現階段三的L4城郊與市區自動駕駛和L5商用無人駕駛等等。

二、ChatGPT行業簡介

生成式AI大模型,包括近兩年推出的ChatGPT和Stable Diffusion,能夠比較滿意地完成類似通用的問題答問Q&A系統任務,以及特定內容的高清圖像生成。ChatGPT(Generative Pre-trained Transformer)是OpenAI開發的一款生成式AI模型,它結合了監督學習和強化學習方法,通過對話的方式來進行交互:依據用戶的文本輸入來做多種語言的智能回復,簡文或者長文模式,其中可以包括不同類型的問題答覆,翻譯,評論,行業分析,代碼生成與修改,以及撰寫各類計劃書與命題書籍等等。各類生成式AI模型也可以聯合調用來提供豐富的人機對話的能力。生成式AI模型多需要海量的參數,來完成複雜的特徵學習和記憶推理生成,例如ChatGPT模型參數為1750億。如圖 1所示,ChatGPT有兩個主要類別的應用:

  • 改善我們的日常生活,做人類力所能及的語言文本圖像視頻類的分析而且可能會做得更好;
  • 在行業AI化過程中通過模型的新訓練方法,數據/場景的生成以及可理解可解釋的輸出等功能來加速AI的開發進程。

圖 1 ChatGPT的典型行業應用場景和行業拓展能力 (Kocon 2023)

三、ChatGPT的底層技術分析

Transformer系列模型能夠成功應用到NLP和CV的一個主要原因是其編解碼器架構。其優勢體現在:訓練與推理的並行能力強;關注機制模型帶來的全局感受域有利於捕獲文本圖像中的距離與語義關係表徵;相同網絡層的簡單數量上堆疊使用可以快速構建大模型。當模型複雜到一定程度(例如600億以上參數),可以做為一個通用模型來針對下游的不同視覺任務,獲得與人類相當的性能。而網際網路上輕鬆獲得的海量公開多模態數據,結合大模型LLM的無監督或自監督學習,通過人工的數據清洗、預訓練和人類反饋強化學習,對提升性能也變得非常容易。

圖 2 ChatGPT模型的訓練流程(G-Brizuela, 2023)

如圖 2所示,ChatGPT模型結合了監督學習和強化學習方法,採用了基於人類反饋的強化學習RLHF訓練方法,與此同時採用了遷移學習(或者叫自監督學習)的訓練方法,即通過預訓練方式加上人工監督進行調優(近端策略優化PPO算法)。RLHF訓練方法確實可以通過輸出的調節,對結果進行更有理解性的排序,這種激勵反饋的機制,可以有效提升訓練速度和性能。在實際對話過程中,如果給出答案不對(這是目前最讓人質疑的地方,可能會錯誤地引導使用者),可以通過反饋和連續談話中對上下文的理解,主動承認錯誤,通過優化來調整輸出結果。給出錯誤問答的其中一個主要原因是缺乏對應的訓練數據,有意思的是,雖然缺乏該領域的常識知識和推廣能力,但模型仍然能夠胡編亂造出錯誤或者是是而非的解答。ChatGPT的另外一個主要缺陷是只能基於已有知識進行訓練學習,通過海量的參數(近100層的Transformer層)和已有的主題數據來進行多任務學習,目前來看仍缺乏持續學習或者叫做終身學習的機制,也許下一代算法能夠解決這個難題。

圖 3 GPT不同版本模型的演進趨勢 (Kocon 2023)

如圖 3所示,GPT不同版本模型的演進趨勢總結如下:

●GPT-1: 對比Transformer基礎架構,GPT第一代模型只採用了Transformer Decoder Stack和單方向的自關注模型,可以很好的應用於文本翻譯、做摘要和回答問題。

●GPT-2:GPT-2模型延申了這些設計理念,通過引入多任務學習來對模型的下游任務進行調優訓練,與此同時,將輸入上下文的長度設置GPT-2:GPT-2模型延申了這些設計理念,通過引入多任務學習來對模型的下游任務進行調優訓練,與此同時,將輸入上下文的長度設置從512增加到1024,模型參數從117M(GPT)增加到1.5B(GPT-2),預訓練用的數據也增加到40GB。GPT-2成功顯示了,即使不用大量數據做監督學習,模型也能夠處理應對很多新應用任務。

●GPT-3:模型參數從1.5B(GPT-2)增加到175B(GPT-3), 預訓練用的文本數據也增加到45TB。數據驅動的大語言LLM模型成功演示了zero-shot和few-show場景的優越性能。

●InstructGPT:由於訓練GPT-3用的海量網際網路公開數據存在的數據偏見和不可靠性問題,GPT-3有時會生成一些具有冒犯性的文本,輸出結果也經常低於用戶的期望。對於如何能夠匹配用戶需求,InstructGPT採用了人類反饋做為獎勵信號,通過強化學習RLHF來更新模型參數。對於所謂的人類反饋, OpenAI第一步採用了特別的人工標註方式(即標註工作者的思路必須是高度一致),對不同的提示所對應的期望答案類型進行描述,第二步即模型隨後的調優跟隨這個輸入,按照系統響應的排序來訓練獎勵模型。最後一步是採用近端策略優化PPO算法來進一步提升模型質量。

●ChatGPT:ChatGPT是InstructGPT的一個最近的疊代版本,它顯然採用了更多的用戶反饋來處理更多的多樣化任務,目來看公開細節不多,估計採用了非公開數據集。ChatGPT的基礎模型參數為3.5B,從對話任務的質量要好於有17.5B參數的GPT-3,這顯然與收集人類數據來做模型的監督學習調優有很大的關聯性。

對於如何評估ChatGPT,一種思路(Kocon 2023)是採用不同類別的公開數據集來評估模型的多樣性,包括多數人口的期待和少數民族/個人的敏感問題。但ChatGPT在專家領域(教育,醫學,法律等) 應用的一個主要限制,依舊是結果的可靠性和可解釋性,所以全面和系統的評估至關重要。如圖 4所示,一種簡單案例(Kocon 2023)是評估ChatGPT對不同任務中提問的辨別,即檢測問題是可以回答的還是不能回答的,可以看到,模型不能有效檢測到這類不能回答的問題導致給出錯誤回答的比例還是非常非常高的,需要通過用戶不停提示來糾偏。

圖 4 ChatGPT對於用戶問題的理解實驗分析(Kocon2023)

LLM大語言模型,包括GPT-3,ChatGPT,其性能很大一部分依賴與任務相關的提示Prompt的質量。基於提示的學習範式,對於工程化實現落地和行業拓展,有非常大的挑戰,這要求非常細緻的提示的工程工作和提示微調。提示微調的方法或者通過對下游任務質量來驗證其相關性,或者直接約束範圍是可以用來評估模型的語言理解能力的。ChatGPT的優勢是可以為其答案給出自解釋的理由的,即所謂的自解釋的AI(XAI),具體可以總結其中幾個要點如下(Kocon 2023):

●ChatGPT可以為其決策提供合理的符合事實的澄清

●ChatGPT看上去不太關注個人,反而比較注意態勢Situation

四、ChatGPT和自動駕駛的融合趨勢分析

圖 5 ChatGPT與SOTA專項NLP/CV 類任務的差別總結(Kocon2023)

如圖 5所示,ChatGPT與其它SOTA專項任務(包括NLP/CV)的差別對比,這裡所說的專項任務,可以包括NLP,CV,以及自動駕駛的感知決策類模型任務,具體差別可以體現在:通用/專用,生成式/可重複生產,高低精度,是否可解釋/可交互,等等。

從ChatGPT的行業拓展趨勢來說,需要解決超大模型部署的推理加速優化問題。避開這個問題不談,提升ChatGPT性能的學習方法和訓練已經開始在自動駕駛ADS等領域得到部分應用,包括模仿學習,在線和離線決策策略Policy學習,知識蒸餾用於模型壓縮和跨模態的知識遷移學習等等,ADS場景數據集自動生成等等。

ChatGPT當前的一個核心問題是模型的魯棒性問題,即對於不確定性輸入其性能的穩定性,這對於安全至關重要的應用來說非常關鍵,這要求行業能夠交付有責任的AI (Responsible AI)。如圖 6所示,對於對抗性和Out-of-Distribution (OOD)分類任務評估來說,可以看出所有模型的絕對性能都遠低於期望,有很大的提升空間,包括ChatGPT。例如對偽造新聞的檢測來說,攻擊者可以通過添加噪聲和一定的內容擾動可以輕鬆繞過AI檢測系統,所有沒有魯棒性,系統的可靠性會很容易坍塌。而OOD的場景,也包括遮擋或者屏蔽場景,有時會很容易引入輸出結果的過度自信輸出。訓練一個基礎大模型的成本非常高(千萬美元級別/次),所以針對下游任務的零樣本zero-shot性能非常重要。

圖 6 LLM大語言模型的魯棒性評估(對抗與OOD分類任務):性能 vs 參數尺寸(wang 2023)

如圖 6所示,ChatGPT和其它基礎模型的對比如下(wang 2023):

優勢:

●對於對抗和OOD樣本有比較一致性的性能提升

●翻譯任務能力強,在對抗性輸入下有合理的可讀的一致性響應

●對於對話相關的文本有更強的意圖理解能力,這與學習方法和數據集處理有

劣勢:

●對於對抗和OOD樣本,整體性能低於預期

●對於醫學相關的問題,難以提供確定性的答案,更多只是非正式的建議和分析,比較適合健康小助手的角色

做為一個大規模語言LLM模型,ChatGPT主要關注於多任務、多模態和多語言的性能,而當前ADS主要關注在4D時空場景下甚至是5D場景(+關注目標的自運動狀態等)下多任務、多模態的安全決策性能,未來引入語音文本輸入也是一種大趨勢。

業界針對ADS所採用的Vision Transformer(ViT)模型,通過類似方法來構建例如ViT-22B的大規模視覺LVM模型,在40億JET數據集上進行訓練,對圖片分類任務有很好的提升,但LVM模型未能呈現LLM大語言模型所呈現的浪涌效應「emergent abilities」。這裡的浪涌效應是指語言模型突破到規模的臨界點:例如GPT-3 (130億參數),LaMDA (680億參數),模型的表現出現快速提升的態勢,能夠很好地從學會的知識的緊湊表達中去記憶和嘗試知識,理解應對本文中所提到的Zero-Shot或Few-Shot Prompting任意任務和多步推理Multi-Step Reasoning的應答能力。目前來說,浪涌效應的理論尚不清晰,LVM模型的臨界點在何方有待探索。模型的規模、結構,模型的訓練方法和學習方法,數據集的規模,以及人類反饋和任務提示的質量,對浪涌效應來說都是值得深度研究的。對於ADS系統來說,目標的交互關係、多模態環境元素的融合空間表達,目標利益的博弈關係,安全決策驅動下的感知融合,這些高維度的有效表徵,對探索LVM的浪涌效應都是至關重要的。

參考文獻:

1. J. Kocon and etc., 「ChatGPT: Jack of all trades, master of none」, https://arxiv.org/pdf/2302.10724.pdf

2. J. Wang, and etc., 「On the Robustness of ChatGPT: An Adversarial and Out-of-distribution Perspective」, https://arxiv.org/pdf/2302.12095.pdf

復睿微電子: 復睿微電子是世界500強企業復星集團出資設立的先進科技型企業。復睿微電子植根於創新驅動的文化,通過技術創新改變人們的生活、工作、學習和娛樂方式。公司成立於2022年1月,目標成為世界領先的智能出行時代的大算力方案提供商,致力於為汽車電子、人工智慧、通用計算等領域提供以高性能晶片為基礎的解決方案。目前主要從事汽車智能座艙、ADS/ADAS晶片研發,以領先的晶片設計能力和人工智慧算法,通過底層技術賦能,推動汽車產業的創新發展,提升人們的出行體驗。在智能出行的時代,晶片是汽車的大腦。復星智能出行集團已經構建了完善的智能出行生態,復睿微是整個生態的通用大算力和人工智慧大算力的基礎平台。復睿微以提升客戶體驗為使命,在後摩爾定律時代持續通過先進封裝、先進位程和解決方案提升算力,與合作夥伴共同面對汽車智能化的新時代。

關鍵字: