Meta發布全新檢索增強語言模型Atlas,110億參數反超5400億的PaLM

新智元 發佈 2022-08-15T10:06:42.077617+00:00

編輯:好睏【新智元導讀】這個模型只用了64個例子,就在自然問題上達到了42%的準確率,並且超過了5400億參數的PaLM。最近,Meta推出了一個全新的檢索增強的語言模型——Atlas。和那些動輒上千億參數的前輩們不同,Atlas只有110億的參數。

編輯:好睏

【新智元導讀】這個模型只用了64個例子,就在自然問題上達到了42%的準確率,並且超過了5400億參數的PaLM。


最近,Meta推出了一個全新的檢索增強的語言模型——Atlas。


和那些動輒上千億參數的前輩們不同,Atlas只有110億的參數。


不過值得注意的是,Atlas雖然只有PaLM的1/50,但它只用了64個例子就在NaturalQuestions達到了42%以上的準確率,比PaLM這個5400億參數的模型還高出了3%。


論文連結:https://arxiv.org/abs/2208.03299


檢索增強模型


眾所周知,世界知識對於自然語言處理來說是一個特別棘手的挑戰,模型不僅需要理解任務的要求和如何產生輸出,還必須存儲和精確回憶大量的信息。


雖然在不需要世界知識的時候,小模型可以通過few-shot學習完成任務,但到目前為止,只有超大體量的模型在知識密集型的任務(如問題回答和事實核查)中顯示出良好的效果。


而Atlas作為一個檢索增強型的模型,往往可以超越上述限制。



結果表明,Atlas在few-shot問題回答(NaturalQuestions和TriviaQA)和事實核查(FEVER)上的表現優於更大的非增強模型,分別是超出了2.8%,3.3%和5.1%。


並且,Atlas在各種真實世界的測試(MMLU)上能與具有15倍以上參數的模型相當或更強。


此外,Atlas在全數據集設置中也刷新了SOTA。在NaturalQuestions上把準確率提高了8.1%,在TriviaQA上提高了9.3%,在5個KILT任務上也是如此。



更重要的是,Atlas檢索到的段落可以被直接查驗,從而獲得更好的可解釋性。此外還可以通過編輯甚至完全替換Atlas用於檢索的語料庫的方式,來保持模型一直都是最新的,無需重新訓練。


LeCun表示,Atlas能夠在問題回答和事實核查方面擊敗更大的模型,正是因為它可以從語料庫中檢索事實。



架構


Atlas遵循文本到文本的框架,也就是說,系統會得到一個文本查詢作為輸入,並生成一個文本輸出。


例如,在回答問題的情況下,查詢與問題相對應,模型需要生成答案。在分類任務中,查詢對應於文本輸入,模型生成詞彙化的類別標籤,即標籤所對應的詞。



Atlas基於兩個子模型:檢索器和語言模型。


當執行一項任務時,模型首先用檢索器從大型文本語料庫中檢索出前k個相關文檔。然後,這些文檔和查詢一起被送入語言模型,再由語言模型生成輸出。檢索器和語言模型都是基於預訓練的Transformer網絡。


檢索器模塊基於Contriever,一種基於連續密集嵌入的信息檢索技術。Contriever使用一個雙編碼器結構,其中查詢和文檔由一個變換器編碼器獨立嵌入。在最後一層的輸出上應用平均池化,以獲得每個查詢或文檔的一個向量表示。然後,通過計算查詢和每個文檔的相應嵌入之間的點積,得到查詢和每個文檔之間的相似度分數。Contriever模型使用MoCo對比損失進行預訓練,並且只使用無監督的數據。


密集檢索器的一個優點是,查詢和文檔編碼器都可以在沒有文檔注釋的情況下,利用如梯度下降和蒸餾等技術進行訓練。


語言模型依靠序列到序列模型的Fusion-in-Decoder modification,並在編碼器中獨立處理每個文檔。然後,將對應於不同文檔的編碼器的輸出連接起來,並在解碼器中對這一單一序列進行交叉注意。在語言模型中處理檢索到的文檔的另一種方法是將查詢和所有的文檔連接起來,並將這個長序列作為模型的輸入。


訓練和評估


具體來說,作者使用Perplexity Distillation目標函數,以及掩碼語言建模作為前置任務。並使用維基百科和Common Crawl的混合數據對這些模型進行預訓練,用於訓練數據和索引的內容。


作者檢索了20個文檔,每2500步更新一次索引,並對前100個文檔進行重新排名。並使用AdamW對模型進行10,000次疊代的預訓練,批大小為128。


MMLU的結果


作者將110億參數的Atlas與諸如GPT-3和Chinchilla這些SOTA進行了比較。


結果顯示,Atlas在zero-shot中的表現明顯優於隨機。結合去偏推理,Atlas的zero-shot得分甚至超過了5-shot的GPT-3(47.1% vs 43.9%)。


對於5-shot的設置,Atlas比GPT-3高出4%,同時使用的參數少了15倍,預訓練計算量少了10倍。集合多任務訓練之後,Atlas提高到56.6%,接近Gopher的5-shot性能(60.0%)。


最後,在全數據設置中,Atlas達到了65.6%的整體準確率,接近SOTA的水平。有趣的是,在這種設置下,Atlas的表現明顯優於GPT-3,而在5-shot的設置下,它們的表現相似。



FEVER的結果


在15-shot的設置中,Atlas的得分是56.2%,比Gopher高出5.1分。


在64-shot的設置中,作者從整個訓練集中均勻地選出用於訓練的實例。而由此產生的訓練集中,正樣本是要多於負樣本的。不過,Atlas依然達到了64.3%的準確率。


最後,作者在完整的訓練集上對模型進行了微調,並取得了78%的準確率,只比ProoFVer低了不到1.5%。


其中,ProoFVer的架構採用的是一個用句子級注釋訓練的檢索器,並提供與FEVER一起發布的維基百科語料庫,而Atlas則是從CCNet和陳舊(2021年12月)的維基百科中檢索。


於是,作者嘗試著也採用由FEVER維基百科語料庫組成的索引,果然Atlas刷新了SOTA,達到80.1%的水平。


結論


在本文中,作者介紹了Atlas,一個檢索增強的大型語言模型。


結果表明,通過聯合預訓練檢索器模塊和語言模型,Atlas在廣泛的知識密集型任務上具有強大的few-shot學習能力,包括NaturalQuestions、TriviaQA、FEVER、8個KILT任務和57個MMLU任務。


例如,Atlas在對64個例子進行訓練時,在NaturalQuestions上達到了42%以上的準確率,在TriviaQA上達到了84.7%的準確率,與PaLM這個5400億參數的模型相比,提高了近3個百分點,後者需要50倍的預訓練計算。


作者還就訓練這種檢索增強模型時,哪些因素是重要的提供了詳細的分析,並證明了Atlas的可更新性、可解釋性和可控制性能力。


最後,作者證明了Atlas在全數據集設置中也很出色,在NaturalQuestions、TriviaQA、FEVER和5個KILT任務中都刷新了SOTA。


參考資料:

https://arxiv.org/abs/2208.03299

關鍵字:

我雖然快50了,但想那個不減反增⋯

2021-10-04T06:10:47.785320+00:00

相反先生卻不知為何越常拒絕!! 先生自白:「其實這幾年,發現太太的內上有白白髒髒的⋯ 看了實在有點怕,尤其氣味有時還大到走過去就聞到⋯ 真的會影響變沒感覺」

『妳說先洗澡?但洗完就降溫了,真的很難從頭再來』

唉⋯身為老婆我也不是沒發現這些⋯ 只是真的很難解決,總不能三天兩頭往婦科跑吧?看診又尷尬我也不想再去!醫師只說清潔要做好… 但我都用遍市面上各種洗劑啦、擦的凝膠,能用的都用了,卻還是隔幾天又發

等拿藥時問了護理師,說如果外在清潔做全了還是反覆發,有可能是需要從內根治!就推薦我調理的【蜜嫩香膠囊】→https://www.cashin.tw/product/000000000035022

回去我馬上很認真的早晚各1顆,前兩天嚇到!想說怎可能「白白」瞬間變少那麼多?是仙丹嗎??停吃之後,果然隔天又還是有了…努力的繼續吃1週

結果~還真的完全沒有白白了!味道中間就淡到快沒有,且光看就知道,真的改變很多!果然調理保健還是要時間做,真的會有效~~

然後先生都~興致大發了哈哈!說不先洗也ok我變香香的 > <

覺得好險有這膠囊,不然想到此生都無法再感受愛… 差點鬧分開耶

原本覺得彼此少了那個交流,看他怎樣都不順眼,其實實蠻影響生活⋯分享給有需要的人,不論幾歲都要好好保養!還好有護理師介紹→

商品資訊

 

蜜嫩香_私密液態膠囊

 

私密問題好煩~擦的抹的都用過了啊⋯

私密凝膠、清潔噴霧那些根本治標不治本!

 

【口服式保養 液態膠囊吸收更加倍】

蜜嫩香 ▶ 吃的私密肌精華🌹

專為 搔癢 X 臭臭味 X 暗沈鬆弛 研發

             (營養師 王維君 認真推薦)

 

\ 3天吃出香香女人味 魅力自信加倍提升 /

緊緻私密嫩彈保水 緊實幸福更有感

減少感染 淨化分泌發炎 妹妹清爽不癢癢

香氛催慾 異味退散 從內散發淡淡女人香

嫩彈美白 淡化黑色素 好美的粉嫩色!

https://www.cashin.tw/product/000000000035022