亞馬遜用AI語音技術，為企業提供品牌服務

由雷鋒網發佈 2020-02-05T00:44:21+00:00

今日，亞馬遜的雲服務AmazonPolly推出了「品牌之聲」業務，這是一項完全自動化的服務。文本轉化為語音的技術初創公司iSpeech也擁有類似的語音工具，Modulate，Respeecher，Resemble AI，Descript和印度班加羅爾的DeepSync也是如此。

品牌就是一個虛構的人，和人一樣它也擁有許多獨特的特徵，其中就包括聲音。

品牌的聲音可幫助用戶通過聽覺立馬識別出品牌的個性。今日，亞馬遜的雲服務Amazon Polly推出了「品牌之聲」業務，這是一項完全自動化的服務。該服務可以將文字內容轉換為逼真的語音，為客戶提供特別定製的聲音服務。

正如亞馬遜的AI語音負責人Rafal Kuklinski和高級產品經理Ankit Dhawan在一篇博客文章中解釋的那樣，「品牌之聲」允許公司通過將獨特的聲音特徵融入到他們的產品和服務中來區分其他品牌。「每一家公司都可以擁用自己獨特的聲音品牌。」他們寫道。

亞馬遜與KFC合作，為後者的品牌標誌「肯德基老爺爺」植入美國南部的英語口音，並在亞馬遜Alexa App中上線。另外，它還為澳大利亞國民銀行（National Australia Bank）設計了澳大利亞英語語音，該銀行將聯繫中心遷移到亞馬遜全渠道雲聯繫中心產品Amazon Connect中。

【圖片來源：KFC 】

去年年底，亞馬遜在一份研究論文中詳細介紹了其運用AI生成語音方面的工作（「數據簡化效應對文本轉化成語音的影響」），研究人員在其中描述了一種系統，該系統僅需要幾個小時的訓練即可學會一種新的語言風格。而同樣的目標，配音演員可能需要數十小時。

亞馬遜的人工智慧模型由兩個部分組成。第一種是神經網絡，它可以將音素序列轉換為聲譜圖序列，聲音隨時間的變化使得頻譜可以用肉眼清晰的觀察到它的變化。第二種是聲碼器，它將聲譜圖轉換成連續的音頻信號。

這種人工智慧模型的訓練方法，將大量中性化風格的語音數據與所需風格的數據以及一種能夠區分語音的AI系統結合在一起。亞馬遜已經在內部使用它來為Alexa生成新的聲音。

這種技術具有很好的商業價值。品牌聲音（例如，由女演員史蒂芬妮·考特尼扮演的角色Fio）的任務通常是為互動語音應答系統錄製電話樹，或為企業培訓視頻錄製電子學習腳本。合成器可以通過減少輔助錄音和接聽來提高演員的工作效率，同時使他們騰出時間從事創造性工作。

憑藉「品牌之聲」和其他文本轉化為語音的服務，亞馬遜與谷歌在這個領域脫穎而出。谷歌最近推出了31個人工智慧合成的WaveNet語音和24個新的雲文本到語音服務標準語音。除此之外，亞馬遜還有另一個值得注意的競爭對手微軟，微軟通過Azure語音服務API提供了三種人工智慧生成的預覽語音和75種標準語音。

亞馬遜的「品牌之聲」還與Voicery等多家初創公司的產品展開競爭，後者提供定製的數字聲音，聽起來令人印象深刻，很像人類的聲音。文本轉化為語音的技術初創公司iSpeech也擁有類似的語音工具，Modulate，Respeecher，Resemble AI，Descript和印度班加羅爾的DeepSync也是如此。

本文譯自Venturebeat，作者KYLE WIGGERS。

雷鋒網文章（公眾號雷鋒網）