沃豐科技AI技術科普｜語音交互的三駕馬車：ASR、NLP、TTS

由沃豐科技那些事兒發佈 2022-10-08T04:29:49.580117+00:00

在日常生活中，AI機器人離我們很近。你是否接到過這樣的電話：「您好，檢測到您已經購買某產品一周的時間了，請問您的使用感受如何？」「請問您對產品滿意嗎？有什麼建議給到這邊嗎？」全程對話親切無障礙，您可能覺得這是一個大型企業對於用戶的懇切關注。

在日常生活中，AI機器人離我們很近。你是否接到過這樣的電話：「您好，檢測到您已經購買某產品一周的時間了，請問您的使用感受如何？」「請問您對產品滿意嗎？有什麼建議給到這邊嗎？」全程對話親切無障礙，您可能覺得這是一個大型企業對於用戶的懇切關注。如果我告訴您，這都是由外呼機器人撥打並且能夠自行記錄下您的意見和建議，以供企業改進，您會驚訝嗎？

基於深度神經學算法和卷積神經網絡算法的AI外呼機器人，它是融合自動語音識別（ASR）、自然語言處理（NLP）、語音合成（TTS）等多個門類的前沿技術集成的產品，這些技術保障了外呼機器人的精準、高效、穩定運行，是人工智慧在語音識別方面的典型應用。

ASR、NLP、TTS作為語音交互的三架馬車，並駕齊驅，缺一不可。接下來我來介紹一下什麼是ASR、NLP以及TTS。

什麼是ASR?

語音識別技術是一種將人的語音轉換為文本的技術。其目標是將人類的語音中的詞彙內容轉換為計算機可讀的輸入，例如按鍵、二進位編碼或者字符序列。與說話人識別及說話人確認不同，後者嘗試識別或確認發出語音的說話人而非其中所包含的詞彙內容。簡單來說，ASR技術就是將人的語言轉化為計算機能夠識別的文字的過程。

語音識別過程一般包括三個部分：

① 聲學模型：描述在給定詞的情況下，對應聲學信號的概率。

② 語言模型：描述語言序列關係的模型，關注序列產生的概率。

③ 解碼器：根據聲學模型和語言模型，搜索出最有可能的詞序列，其本質是一個動態

規划算法。

語音識別的一般流程為根據輸入的語音，提取語音特徵，通過解碼器融合訓練好的語言模型和聲學模型，得到最終的詞序列結果。字典的作用根據聲學模型識別出來的音素（漢語中一般為聲韻母），來找到對應的漢字（詞）或者單詞，用來在聲學模型和語言模型建立橋樑，將兩者聯繫起來。

什麼是NLP

自然語言處理是是計算機科學領域與人工智慧領域中的一個重要方向，被譽為「人工智慧領域皇冠上的明珠」，它是研究實現人與計算機之間用自然語言進行有效通信的各種理論和方法。任何機器識別對它說的話、理解其含義、確定適當的操作並以用戶將理解的語言做出響應的能力的總稱。NLP在各個地區和行業都至關重要，並且漢語在技術的發展中發揮著重要作用。使用不同的語言和方言是抵消偏見和全面改進技術的好方法。

什麼是TTS

TTS是Text To Speech的縮寫，即「從文本到語音」。它是同時運用語言學和心理學的傑出之作，在內置晶片的支持之下，通過神經網絡的設計，把文字智能地轉化為自然語音流。TTS技術對文本文件進行實時轉換，轉換時間之短可以秒計算。在其特有智能語音控制器作用下，文本輸出的語音音律流暢，使得聽者在聽取信息時感覺自然，毫無機器語音輸出的冷漠與生澀感。

自主交互主要通過三個步驟來實現。

以沃豐科技的AI外呼機器人為例，在實際應用中，當用戶與機器人產生對話和問詢後，機器人首先需要依託ASR技術，將用戶傳過來的語音信息轉換成文本信息，完成「接收用戶信息」；其次通過NLP技術，將文本轉化為系統能夠識別的信號，實現「理解用戶表達的意思」。最後機器人將會從資料庫中尋找並提取出匹配的答案，但此時該答案仍然是文本形式，機器人便會通過TTS技術，將文本信息轉化為語音信息播出，與用戶完成最終的「交談」。

藉助於自動外呼技術，語音機器人可以主動觸發外呼觸達用戶，用戶接通後，機器人即可與用戶互動，達成企業的業務目標。企業可以自主選擇工作時間，來設置機器人的工作節奏，以求業務效果最大化。