ACL2020 | 對話數據集Mutual:論對話邏輯,BERT還差的很遠

ai科技評論 發佈 2020-06-04T18:42:32+00:00

檢索式多輪對話任務中,最有名的對話數據集就是Ubuntu Dialogue Corpus了,ACL2018提出的DAM是76.7%的,然而基於BERT來做卻直接刷到了85.8%的,93.1%的和高達98.5%的,已經基本逼近了人類的表現,這讓很多研究檢索式聊天機器人的小夥伴直呼這

本文介紹的是 ACL 2020 論文《MuTual: A Dataset for Multi-Turn Dialogue Reasoning》,論文作者來自西湖大學、微軟研究院。

作者 | rumor醬

編輯 | 叢 末

論文地址:http://arxiv.org/abs/2004.04494

github地址:https://github.com/Nealcly/MuTual

1

前言

自然語言處理是人工智慧領域的掌上明珠,而人機對話則是自然語言處理領域的最終極一環。

以BERT為代表的預訓練模型為自然語言處理領域帶來了新的春天,在人機對話問題上也不例外。檢索式多輪對話任務中,最有名的對話數據集就是Ubuntu Dialogue Corpus了,ACL2018提出的DAM是76.7%的,然而基於BERT來做卻直接刷到了85.8%的,93.1%的和高達98.5%的,已經基本逼近了人類的表現(英語差的可能已被BERT超越),這讓很多研究檢索式聊天機器人的小夥伴直呼這個領域沒法繼續往下做了。。

那麼問題來了,既然聊天機器人在BERT的帶領下超越人類了,為什麼跟我打交道的聊天機器人依然宛如人工智障???

一言以蔽之,上個時代的對話數據集太弱了!!!

相信很多和聊天機器人對(liao)話(sao)過的小夥伴們都有感覺,就是每句話都回復的沒什麼毛病,但它像是只有三秒的記憶時間,回復的內容和前文的連貫性很差,甚至會出現自相矛盾的語句。比如

我:吃飯了嗎機器人:吃了個蘋果,最近在減肥。。。我:你不胖呀機器人:我不要減肥我:

當前的對話模型往往選擇出的回覆相關性較好,但是經常出現常識和邏輯錯誤。由於現有的大部分檢索式對話數據集都沒有正面剛這種對話邏輯問題,導致評價指標也無法直接反映一個模型對對話邏輯的掌握程度。針對此問題,西湖大學聯合微軟研究院提出了多輪對話推理數據集MuTual。

相比現有的其他檢索式聊天數據集,MuTual 要求對話模型具備常識推理能力;相比閱讀理解式的推理數據集,MuTual的輸入輸出則完全符合標準檢索式聊天機器人的流程。因此,MuTual也是目前最具挑戰性的對話式數據集。測試過多個模型後,目前最佳的RoBERTa表現僅為70分左右,和人類的表現存在20多分的巨大差距。

2

數據集特點

現有的檢索式聊天機器人數據集,諸如Ubuntu,Douban,對於給定的多輪對話,需要模型在若干候選回覆中,選出最合適的句子作為對話的回覆。然而這些數據集主要關注模型能否選出相關性較好的回覆,並不直接考察模型的推理能力。隨著BERT等預訓練模型的湧現,此類數據集的測試集合已經達到了很好的效果。

已有的針對推理的數據集(DROP, CommonsenseQA, ARC, Cosmos等)大多被設計為閱讀理解格式。它們需要模型在閱讀文章後回答額外問題。由於任務不同,這些現有的推理數據集並不能直接幫助指導訓練聊天機器人。下圖為對話和推理式閱讀理解的常用數據集:

基於目前對話數據集的缺陷,Mutual被提出,一個直接針對Response Selection的推理數據集。

3

數據集構建

MuTual基於中國高考英語聽力題改編。聽力測試要求學生根據一段雙人多輪對話,回答額外提出的問題。並通過學生能否正確答對問題衡量學生是否理解了對話內容。為了更自然的模擬開放領域對話,我們進一步將聽力題中額外的問題轉化為對話中的回覆。

標註者截選原對話中具備回答問題信息的片段,根據正確選項構造正確的回覆(上圖回復A),根據兩個錯誤選項構造兩個錯誤的回覆(回復C和回復D)。

為了進一步提升難度,引入額外的推理信息,標註者還需根據正確選項構建一個負面的回覆(回復B)。另外,標註者需要保證在無上文信息情況下,所有候選回復在邏輯上皆合理。這樣可以讓數據集聚焦於檢測模型在多輪對話中的推理能力,而非判斷單個句子是否具有邏輯性。

作者還在標註過程中控制正確和錯誤的回覆與上文的詞彙重疊率相似,防止模型可以通過簡單的根據文本匹配選出候選回復。構造出的數據集主要包含聊天機器人需要的六種推理能力:態度推理(13%), 數值推理(7%), 意圖預測(31%),多事實推理(24%)和常識等其他推理類型(9%)。

在真實應用場景中,檢索式對話模型無法檢索所有可能的回覆,如果沒有檢索到合適的回覆,系統應具有給予安全回復(safe response)的能力。為了模擬這一場景,MuTualplus被提出。對於每個實例,MuTualplus隨機替換掉MuTual中一個候選回復。如果正確回復被替換,安全回復即為新的正確回復。如果錯誤回復被替換,原正確回復仍為四個回覆中最合適的。

4

實驗

論文測試了主流的檢索式對話模型(LSTM, SMN, DAM)和預訓練語言模型(GPT, BERT, RoBERTa)在MuTual和MuTualplus上的表現,以Recall@1(正確檢索結果出現在檢索結果第一位), Recall@2(正確檢索結果出現在檢索結果前兩位), MRR(Mean Reciprocal Rank,正確檢索結果在檢索結果中的排名的倒數)作為評價指標。

從結果可以看到,之前的檢索式對話模型在此種任務上,表現只比Random的情況好一點。不過預訓練模型也不能取得很好的效果,甚至RoBERTa也只能達到71%的Recall@1。然而未經培訓的非母語者可以輕鬆達到94%。

進一步研究發現,模型表現不會隨著對話輪數增加而變差(推理能力並不依賴複雜的對話歷史)。在推理類型方面,模型在數值推理和意圖推測中表現的較差。下圖第一個例子中,時差運算只需簡單的減法(5:00pm - 6h = 11:00am),第二個例子需要推理出對話出現在租房場景中,然而對現有的深度學習模型依然十分困難。

5

總結

儘管BERT為代表的預訓練模型很大程度上解決了檢索式對話的回覆相關性問題,但是依然難以解決真實對話場景中的常識和邏輯問題,導致聊天機器人的真實用戶體驗依然不盡人意。現有的檢索式對話數據集大都沒有直接對該問題進行建模,因此我們提出了MuTual數據集,針對性的評測模型在多輪對話中的推理能力。

招 聘

AI 科技評論希望能夠招聘 科技編輯/記者 一名

辦公地點:北京/深圳

職務:以參與學術頂會報導、人物專訪為主

工作內容:

1、參加各種人工智慧學術會議,並做會議內容報導;

2、採訪人工智慧領域學者或研發人員;

3、關注學術領域熱點事件,並及時跟蹤報導。

要求:

1、熱愛人工智慧學術研究內容,擅長與學者或企業工程人員打交道;

2、有一定的理工科背景,對人工智慧技術有所了解者更佳;

3、英語能力強(工作內容涉及大量英文資料);

4、學習能力強,對人工智慧前沿技術有一定的了解,並能夠逐漸形成自己的觀點。

感興趣者,可將簡歷發送到郵箱:cenfeng@leiphone.com

關鍵字: