計算機行業專題報告:多模態大模型技術演進及研究框架

未來智庫 發佈 2024-03-06T18:57:52.154261+00:00

使用多模態數據能夠使得事物呈現更加立體、全面,多模態研究成為當前研究重要方面,在情感分析、機器翻譯、自然語言處理 和生物醫藥前沿方向取得重大突破。

(報告出品方/作者:中信建投證券,閻貴成、金戈、於芳博)

一、多模態預訓練概述

多模態表示包含兩個或兩個以上事物表現形式

模態是事物的一種表現形式,多模態通常包含兩個或者兩個以上的模態形式,是從多個視角出發對事物進行描述。生活中常見多 模態表示,例如傳感器的數據不僅僅包含文字、圖像,還可以包括與之匹配的溫度、深度信息等。使用多模態數據能夠使得事物呈現更加立體、全面,多模態研究成為當前研究重要方面,在情感分析、機器翻譯、自然語言處理 和生物醫藥前沿方向取得重大突破。

Transformer顛覆傳統模型,但限於單模態領域

2017年Transformer被提出,顛覆了傳統的深度學習模型,在機器翻譯任務上實現了最好性能。Transformer在大規模語料庫上進 行自監督預訓練,然後在下游任務進行微調受到人們的關注,許多預訓練大模型都是遵守這一範式提出,例如BERT、GPT等。 雖然基於Transformer的大模型都取得了很好的效果,但還是限於單一模態(文本)上,無法將其self-attention中良好的泛化 能力遷移到其他模態(圖像、視頻等)中。Transformer不能遷移圖像領域的主要原因在於輸入長度限制,以BERT為例,其輸入 數據的長度只能支持512,而對於像素為224*224的圖片來講,其輸入遠大於512。

ViT的出現打通了CV和NLP之間壁壘,推動多模態演進

ransformer (Self-attention)在文本領域優秀的表現吸引著計算機視覺研究者,許多人開始將Transformer機制引入到計算 機視覺。 Transformer限制在於其輸入數據大小,需要考慮輸入策略。谷歌借鑑前人的思想,在強大的算力資源加持下,提出ViT模型。ViT模型通過將圖片進行切割成一個個patch(原文將一張圖片切割成16個patch),對patch進行處理,通過線性映射,變成 Transformer可接受的輸入,打通了CV和NLP之間的壁壘。

ViT中的Patch embedding在提取視覺特徵方面效率優勢明顯

ViT不僅能夠讓Transformer能夠對圖像進行處理,而且ViT圖像特徵提取策略相較於之前的方式效率更高。

基於Vision Transformer,Video Transformer模型出現

1、視頻領域基於ViT模型推出各類Video Transformer。視頻是一個典型的多模態形式,裡面包含圖像、聲音、文字等。 2、在ViT之前,視頻方面的任務,如視頻理解等,基本是通過3D卷積網絡展開的。借鑑ViT思想,許多Video Transformer被提出 來,其中包括TimeSformer, TimeSformer將每一幀視頻抽象成圖像,並與其前一幀和後一幀相結合進行運算。與3D卷積神經網 絡(CNN)相比,TimeSformer 的訓練速度大約是其4倍,而推斷所需的計算量不足其十分之一。TimeSformer 的高效讓在高空間 解析度(例如高達 560x560 像素的幀)和長視頻(包括高達 96 幀)上訓練模型成為可能。

Transformer權重共享決定其適合多模態

Transformer存在權重共享,模型內部的某些模塊可以共享權重參數。Transformer的權重共享主要是由於其自注意力模塊和前向 傳播網絡都和輸入序列長度無關。 這種權重共享理念同樣適合用於多模態模型中。例如,圖文多模態中,圖像訓練得到的權重參數可以用於訓練文本,結果依然有 效,甚至不用fine-tune。 許多多模態模型都借鑑了Transformer裡面的權重共享理念,典型的案例包括VLMo模型,該模型首先在BEiT中使用大規模純圖像 數據預訓練視覺網絡和自注意力模塊,然後凍結視覺網絡和自注意力模塊,通過對大量純文本數據進行建模訓練語言網絡,最後 使用視覺-語言預訓練整個模型。

BEiT模型的出現將生成式預訓練從NLP遷移到CV上

生成式預訓練是自監督學習重要方法和訓練目標,生成式預訓練核心是在沒有標籤或者人工標註的情況下,學習如何產生數據。 生成式預訓練在自然語言處理中取得較大成功。BEiT模型的出現,將生成式預訓練從NLP遷移到CV上,就是將BERT中的掩碼語言 學習(MLM)方法應用到圖像領域。之後的MAE模型也是基於BEiT的工作展開的。如果說ViT將Transformer遷移到CV中,那麼BEiT 就是將BERT遷移到CV中。

多模態模型大一統成趨勢

2022年8月,微軟推出BEiT-3模型,引領圖像、文本、多模態邁向大一統。 BEiT-3提出了掩碼圖像建模,將masked data modeling引入到圖像預訓練任務,將圖像和文本同等看待,以統一的方式對圖像、 文本、圖像-文本對進行建模和學習。實際上,微軟在2021年11月就推出了統一模型VLMO,使用混合模態專家(MOME)的方式來 進行不同模態中進行預訓練,訓練出不同的編碼器,用於不同的下游任務。BEiT-3在其基礎上簡化模型並增大預訓練數據量,最 終在多項下游任務上表現亮眼。2023年3月15日,微軟旗下OpenAI推出多模態大模型GPT-4。

多模態廣泛存在於機器人、數字人、智能家居等領域

多模態在交互、感知、內容分發等眾多領域都有較為重要的地位。 多模態交互在家庭與辦公場景下應用廣泛,多模態交互可以進一步提升用戶與智能家居設備的交互體驗,提升了用戶完成相同意 圖的效率與成功率。 多模態感知包括車場景和語音助手下的用戶意圖感知,例如,在駕車場景中,隨著多屏主控等智能座艙技術進步,各種智能終端 可以通過多模態交互實現意圖識別準確率更高的用戶體驗。多模態內容分發場景下,虛擬人結合動作、表情、情感、文本等信息,輸出給用戶。

二、多模態預訓練關鍵要素

圖文需要Tokenization和Embedding

Token是模型輸入的基本單元,Embedding是Token映射後的向量,用於計算。 文字方面早期一般使用Word2Vec進行Tokenization,包括CBOW和skip-gram,雖然Word2Vec計算效率高,但是存在著詞彙量不足 的問題,因此子詞分詞法(subword tokenization)被提出,使用字節對編碼 (BPE) 將詞分割成更小的單元,該方法已被應 用於BERT等眾多Transformer模型中。圖像的Tokenization要比文本更加複雜,可以分為基於region,基於grid和基於patch三類方式。基於grid的方式直接使用CNN進 行圖像網格信息提取,基於region的方式由預訓練的目標檢測器進行特徵提取,基於patch的方式將圖像切割成小塊,提取小塊 上的線性投影。

多模態模型中要重視視覺特徵

相較於文本特徵而言,多模態模型中視覺特徵更為重要。 當前多模態預訓練大模型中,不論CLIP、UNITER還是ViLT,在模型構造方面,視覺特徵的embedding層數或者複雜度要超過文本 特徵,體現出視覺特徵更重要,多模態需要從視覺特徵中學習到更多知識。 根據METER模型中的數據顯示,在視覺特徵端進行優化對結果產生的影響要遠大於對文本端進行的優化。

如何設計學習目標是多模態訓練的重要一步

學習目標是多模態預訓練非常重要的一步,目前的多模態的預訓練學習任務主要包括圖文對比(ITC)、掩碼語言學習(MLM)、 掩碼視覺學習(MVM)、圖文匹配(ITM)等。 ITC是通常構造正負樣本對,通過對比學習方式,對齊圖像和文本; ITM可以看作是一個二分類任務,目標是預測一對圖像和文本是否匹配; MLM是讓模型學習語言和視覺內容之間的隱式關係,目標是從已知的語言和視覺內容中重建掩碼語言標記; 此外還包括掩碼物體分類(MOC)、掩碼物體回歸(MOR)、行為預測(AP)、圖文生成(ITG)等。

不同的多模態預訓練學習目標可能帶來不一樣的結果

同時使用不同的預訓練學習目標可能會增強多模態模型的效果,例如UNITER模型中,使用更多的學習目標效果一般要更好, UNITER使用MLM+ITM+MRC-kl+MRFR+WRA等多個學習目標在在多個細分場景下表現要更好。 使用過多的學習目標可能效果並不好。例如,METER模型中,在MLM和ITM上再加入MIM學習模型,效果比使用單個學習目標要好, 但不如僅僅使用兩個學習目標,這一方面可能是學習目標之間的衝突導致的,另外一方面可能是圖像中存在噪聲,MIM重建圖像 噪聲的監督學習沒有任何意義導致的。

三、主要模型與下游場景

CLIP:使用對比學習實現圖文對齊

CLIP:2021年由OpenAI提出,利用文本信息監督視覺任務自訓練,訓練數據集為40億個「文本-圖像」對,採用Transformer模型對 圖像的patch序列進行建模,將不同模態的原始數據映射到統一或相似的語義空間,實現不同模態信號間的相互理解,擁有尋找不 同模態數據間關係的能力。

CLIP在zero-shot上表現較好。與CV中常用的先預訓練然後微調不同,CLIP可以直接使用prompt進行零樣本學習圖像分類,即不需 要任何訓練數據,就能在某個具體下游任務上實現分類。

DALL·E2:基於CLIP實現更強大的圖文跨模態生成

DALL·E2:基於CLIP實現文本與圖像的聯繫,基於Diffusion從視覺語義生成圖像。 2022年4月由OpenAI提出,在DALL·E1的基礎上進行了改進和升級,解析度從從256x256提升到了1024 x 1024,準確性也得到了較 大提升。除此之外,其還可以實現以下功能:1)根據文本生成圖片;2)將圖像擴展到畫布之外;3)根據文本對圖像進行編輯, 實現添加或刪除元素;4)給定一張圖片生成保持原風格的變體。 DALL·E2模型可以分為兩部分。首先是利用CLIP文本編碼器將圖像描述映射到表示空間 ,其次利用前向擴散從CLIP文本編碼映射 到相應的CLIP圖像編碼,最後通過反向擴散從表示空間映射到圖像空間,生成眾多可能圖像中的一個。 總體來說, DALL·E2實現了功能更齊全的圖文跨模態生成,圖片的真實性和準確度也較以往的產品有了不錯的提升。但是在生成 一些複雜圖片的細節方面, DALL·E2仍面臨著一些挑戰。

KOSMOS-1:全能型大語言模型

KOSMOS-1:將多模態特徵嵌入到Transformer模型中,基於統一的模型架構實現不同模態的對齊。 2023年3月由微軟提出,其可以實現文本學習、文本生成等任務,還能夠將文本以外的模態(如視覺圖像、語音)嵌入到模型中。 研究證明,在多個下游任務中,該模型具有非常優異的性能,例如在語言理解、視覺問答、多模態對話等。KOSMOS-1模型的參數總 量為16億。 我們認為,隨著技術的不斷發展和疊代,跨模態模型處理更多模態問題的能力將不斷增強,多模態感知的大融合是邁向通用人工智 能的關鍵一步。

GPT-4:支持圖像輸入的ChatGPT升級版

2023年3月14日,OpenAI發布GPT-4。GPT-4沿襲了過去GPT路線,在GPT中引入RLHF機制,並且輸入窗口更大,更適合處理長文本, GPT-4的上下文長度為8192個token,遠高於GPT-3的2048個token。GPT-4文字輸入限制提升到了2.5萬字,回答準確率姚顯著高於前 模型。GPT-4在各類職業/學術考試上表現優秀,與人類相當,比如模擬律師考試,GPT-4取得了前10%的好成績,而GPT-3.5是倒數 10%。GPT-4訓練過程更加穩定,且響應不被允許請求的概率也大幅度降低。

四、未來方向及演進趨勢

多模態模型要更大,模態要更多

多模態大模型需要更深層次的網絡和更大的數據集進行預訓練。多模態大模型多基於Transformer架構進行預訓練,而 Transformer因其架構特點,未看到過擬合趨勢,模型大小、數據集都未有飽和趨勢,CLIP等模型也驗證了數據量的大小將使得 模型性能提升。以語言模型GPT為例,其從GPT1-3模型大小和預訓練數據量均是逐步提升,和語言模型中類似,多模態大模型模 型大小和數據量要逐步提升,例如,谷歌前不久發布的多模態模型PaLM-E,具有5620 億參數。 現有的多模態預訓練大模型通常在視覺和語言兩種模態上進行預訓練,未來可以獲取更多模態進行大規模預訓練,包括圖像、文 本、音頻、時間、熱圖像等,基於多種模態數據的預訓練大模型具有更廣闊的應用潛力。

多模態模型訓練要加速

雖然多模態大模型在多個領域取得了巨大成功,但是多模態模型對算力的要求還是對模型的訓練造成了很大的難題,因此對模型 訓練加速提出了進一步要求。 DeCLIP在CLIP基礎上,通過改進數據處理方式加速模型訓練;ViLT通過對使用更加有效率的方式對圖像特徵進行編碼提升後續效 率;此外,訓練過程中的並行策略、顯存優化、模型稀疏性等均可以提升模型計算效率。

多模態大模型將走向「真正統一」

以微軟KOSMOS-1為代表,將圖像、音頻進一步編碼成文本格式,統一成文本進行融合,KOSMOS-1 的模型主幹是一個基於 Transformer 的因果語言模型,Transformer 解碼器用作多模態輸入的通用接口,除了文本之外,其他模態也能被嵌入並輸入到 該模型中。谷歌發布PaLM-E,使用Uni-Perceiver,打造「通才」,將不同模態的數據編碼到統一的表示空間中,並將不同任務 統一為相同的形式。

多模態預訓練將引入更多外部知識

多模態模型的知識是從預訓練數據集得到的,但一些任務,例如視覺問答非常依賴常識信息,這些信息是從特定任務數據集中沒 法學習到,因此可以將外部知識引入到模型中,補充模型知識,從而在一些問答任務場景下取得更好的成績。

MAVEx模型使用當前先進的 VQA 模型生成一組候選答案,再將問題和候選答案解析,以檢索外部知識,最後預測每個知識來源對 每個候選答案的可信度,預測最匹配的答案。MAVEx 展示了答案引導知識檢索的明顯優勢,在 OK-VQA 數據集上實現了最先進的 性能。隨著多模態模型變大,最終訓練出來的模型會越來越好,伴隨更多模態的加入,最終多模態大模型會應用在越來越多方面, AI正加速奔向通用AI。

報告節選:

(本文僅供參考,不代表我們的任何投資建議。如需使用相關信息,請參閱報告原文。)

精選報告來源:【未來智庫】。「連結」

關鍵字: