跨媒體共情智能人機對話系統,有望觸發新一輪交互變革

光明網 發佈 2022-09-29T16:53:30.665617+00:00

上世紀八十年代,蘋果公司推出了世界上第一台將用戶界面與滑鼠結合起來的個人電腦,隨後微軟發布Windows 1.0作業系統,由於非專業用戶不再需要使用代碼和指令與機器交互,從而極大降低了使用門檻,促使個人電腦業務在全球迅速得到普及。

上世紀八十年代,蘋果公司推出了世界上第一台將用戶界面與滑鼠結合起來的個人電腦,隨後微軟發布Windows 1.0作業系統,由於非專業用戶不再需要使用代碼和指令與機器交互,從而極大降低了使用門檻,促使個人電腦業務在全球迅速得到普及。上世紀九十年代,以雅虎、谷歌等為代表的網際網路企業走向舞台中央,其開發的搜尋引擎技術打破信息孤島,成為用戶使用電腦的全新接口,使得個體非常便捷地觸達全球各類資源,極大拓展了交互的邊界。本世紀初,智慧型手機的普及開啟移動互聯時代的到來,讓人機互動進一步突破了物理空間的限制,交互質量和體驗得到極大改善。以上三次交互方式的變革,每次都觸發了萬億的市場規模和全新用戶需求,成為智能科技推動經濟進步的重要浪潮。

面向更加擬人化、自然化、數位化的人機互動需求,跨媒體共情智能人機對話系統正在引發新一輪的交互方式變革。提起人機對話這個詞,可能稍顯陌生,但說起人機對話技術的應用,其實已經走進我們的生活。比如手機語音助手、車載對話機器人、對話導覽機器人、智能語音音響、智慧客服等,在使得用戶交互更加便捷的同時,也為企業節約了大量的人工成本。國務院發布的《新一代人工智慧發展規劃》中指出,面向國家重大戰略需求,多媒體信息理解的人機對話系統是需要突破的關鍵共性技術。中國人工智慧學會發布的《中國自然語言處理白皮書》中指出,人機對話是自然語言處理技術最為典型的應用之一。中國工程院院士李德毅認為,機器人具備語音交互的能力是行業高質量發展的關鍵。作為業界的代表,科大訊飛董事長劉慶峰認為,語音將成為最重要的人機互動方式。

訓練一個能與個體進行自然交互的對話系統絕非易事,因為對話場景的類別無法窮盡,對話生成的可能性也是無限的,對話系統面對的用戶口音、背景都不盡相同,這種巨大的不確定性以及如何讓機器擁有常識,都為技術的泛化能力帶來了巨大的挑戰,之江實驗室的科研人員和工程師正在嘗試攻克這些難題。

大規模數據集是深度學習模型訓練的基礎,中國科學院院士張鈸指出,大數據對人機對話模型水平提升有重要意義。目前之江實驗室探索構建了世界上規模最大的多模態對話數據集,以及1800分鐘面向中文安撫對話的語音合成數據集,2000分鐘針對「語音-文本-圖像」三個模態的情感識別數據集,數據的絕對量增長有力地促進了深度學習工具和技術的發展。在多輪對話生成方面,之江實驗室攻克了多輪情感對話難題,基於預訓練語言模型、主題自適應增強模型、檢索與生成雙驅動策略,使長時間對話情況下主題識別率達到85%以上、回復滿意度達到75%以上,使用測試集數據平均對話輪次達到10輪,使用實際場景的廣泛主題測試數據的平均對話輪次達到5輪以上。

與此同時,為了實現更有溫度的人機互動,之江實驗室針對擬人化對話生成中的共情交互瓶頸,自主研發了深度語境理解的擬人化對話生成技術。該技術基於個性化的多維對話情境表徵輸入,結合對話主題內容、用戶情感狀態等多維信息進行深度對話語境理解,同時突破基於情感交互策略的多模型回復生成、回復文本排序及情感語音合成等技術,使得機器與人的交互不再冰冷,更加友好而智慧。

在疫情期間,對話交互這種無接觸的交互方式得到了較大的推廣,除了在市長熱線與防疫諮詢平台的應用以外,其在電梯操控、無人超市等公共場所的應用,在一定程度上減少了傳染病接觸帶來的交叉感染,有助於提升公共衛生防護水平。同時,智能人機互動系統還可以廣泛應用於城市大腦統一服務平台、AI心理醫生、老年陪護、智能家居、智能車載、智慧高鐵、隨身設備等領域,有助於顯著提升智慧城市、智慧交通、智慧公共服務等領域的運行效率和管理水平,對降低對外依存度、提升自主可控能力,以及對培育未來產業和孕育新經濟增長點具有重要意義。(文/李太豪 裴冠雄)

來源: 光明網

關鍵字: