顛覆性創新的探境科技,在AI晶片領域走出了一步好棋

探界行者 發佈 2019-12-28T12:34:55+00:00

在AI晶片領域,有這麼一家國內企業,成立不到3年時間,就研發出了顛覆性創新的SFA(Storage First Architecture)存儲優先晶片架構,設計出了專門用來做語音識別的高計算強度神經網絡(HONN),發布了包括音旋風611在內的多款AI晶片,並與30家企業建立了合

在AI晶片領域,有這麼一家國內企業,成立不到3年時間,就研發出了顛覆性創新的SFA(Storage First Architecture)存儲優先晶片架構,設計出了專門用來做語音識別的高計算強度神經網絡(HONN),發布了包括音旋風611在內的多款AI晶片,並與30家企業建立了合作夥伴關係,語音識別方案實現了百萬級的產品出貨,成長速度超乎所有人的想像。

這家低調而又務實的AI晶片公司,就是成立於2017年的探境科技。

顛覆性創新的SFA存儲優先架構

SFA存儲優先架構是探境科技面向AI晶片中存儲牆問題設計的創新架構。之所以設計這種獨具創新的AI晶片架構,在探境科技創始人/CEO魯勇看來,是因為所有運行深度學習算法的AI晶片都面臨著存儲帶寬大、功耗高、數據重複使用的問題。

魯勇告訴記者,數據在存儲器里的位置、相對關係、讀取性能都會影響到算法的運行性能,探境科技用一種比較獨特的方法推翻了馮諾依曼體系架構,得到了非常好的結果,這就是SFA存儲優先架構。SFA存儲優先架構能夠帶來超高的能效比,數據訪問可降低10-100倍,存儲子系統功耗下降了10倍以上。利用SFA存儲優化架構設計的AI晶片採用了28nm工藝,系統能效超過2T Ops/W。實驗數據表明,SFA架構所採用的各種微觀和宏觀調度算法,比較「類CPU架構」採用的基於總線和指令集的映射方法,在近似存儲量、近似算力、近似外部存儲帶寬、近似功耗約束的前提下,可以獲得8~12倍的利用率收益。

除了高能耗比之外,SFA存儲優先架構還具備出色的易用性和通用性。在通用性方面,SFA存儲優先架構支持所有已知神經網絡,沒有任何參數上的限制,並且支持定點數和位點數,沒有限制數據類型。另外,還能夠自適應支持常見的稀疏數據,不用人工干預。

在易用性方面,由於SFA存儲優先架構採用了成熟設計方案,無需對底層器件進行修改設計,算法合作夥伴只需要進行一些很小的優化,即可以快速應用,大大加速了商業化路徑。除此之外,探境科技還提供了供零基礎用戶使用的工具鏈,並將其開放給所有算法的合作夥伴,為他們節省了大量的時間和精力。

由於SFA存儲優先架構不僅適配於終端,也適配於雲端、推理、訓練,因此可以組合成各種不同的產品形態。

魯勇表示,SFA存儲優先架構所具備的高能耗比、易用性和通用性,使其成為真正符合商業應用的AI晶片架構,受到了合作夥伴的一致認可和好評。

獨色設計的HONN高計算強度神經網絡

眾所周知,在一個完整的語音識別鏈路中,降噪算法和語音識別算法是重中之重。為此,探境科技通過自已研發的深度學習降噪算法和高計算強度神經網絡HONN,解決了諸如吸油煙機等高分貝噪音的干擾問題,大幅提高了語音的識別率。

據探境科技副總裁李同治介紹,探境自研的AI降噪算法基於深度學習,不僅能夠處理穩態的噪聲,非穩態的突發性噪聲也能很好的過濾。而為了驗證探境AI降噪算法的有效性,他曾將一批信噪比在3dB左右的語音數據送到一個知名的雲端公開語音識別引擎做了測試,降噪後比降噪前提高30%識別準確率。

在具備了非常強的噪聲處理能力之後,探境科技又重新設計了一個高計算強度的神經網絡,即HONN(High Operation Neural Network),解決了語音識別的問題。

HONN是將計算機視覺中的一些經驗遷移到語音識別中,在語音識別算法上加入了更多的卷積操作而來。與大部分公司採用的全連接操作(DNN/DTNN)相比,HONN對計算力要求更高,從探境科技提供的數據可以看到,HONN需要超過幾百兆OPS,而一般的DNN模型需要個位數的算力,兩者相差超過30倍。而藉助FSA晶片所具有的更強算力特點,HONN加入了更多的卷積操作,重新設計了聲學建模單元的網絡結構。

當然,由於HONN高計算強度神經網絡將每一個處理單元變成了立體維度,大大優於平面上的處理,因此高計算強度神經網絡的信息量和計算密度也遠遠超過傳統DNN/DTNN的方法,而多了一個維度的識別,性能提升是顯而易見的。況且,高計算強度的模型僅需要350k的存儲空間,而DNN需要1.6M的存儲空間,因此能夠大幅降低語音識別晶片的成本。

正是依託於AI降噪技術+HONN神經網絡,探境推出的Voitist音旋風611可以覆蓋絕大部分的生活場景,無懼各種噪音干擾。

基於FCSP的端到端AI雙麥算法

日常生活中,我們面臨著多種多樣的應用環境,例如低信噪比、遠場環境、高噪聲、非穩態噪聲的影響、多聲源等等,如何提高複雜場景下的語音識別精度也成為探境科技的攻克難題。為此,探境研發了設計出了基於FCSP的端到端AI雙麥算法。

所謂FCSP,即Frequency Complex Subspace Projection,是探境自研的頻域複數子空間投影算法的簡稱,其直接輸入陣列信號,輸出的是最終的識別結果,中間部分全部交給基於深度學習的AI算法來處理,不再使用傳統的數位訊號處理方法。信號增強與識別模塊整體以降低識別錯誤率為目標進行優化,避免了語音增強與語音識別模塊錯配的問題。

另外,在模型訓練期間,採取了「注意力增強」的學習方法,能夠靈敏的檢測到喚醒詞和命令詞,即使干擾信號與目標信號方向接近,也能靈敏的進行喚醒和識別。

根據媒體報導,谷歌公司採用了Factored Model in Frequency的算法,相對錯誤率降低至16%,雙麥達到了傳統算法7麥的識別率。而探境科技採取了頻域複數子空間投影,抗噪性能強,在信噪比為0dB時,相對於傳統的處理算法,相對識別錯誤率降低超過20%。

李同治表示,通過AI語音算法+HONN神經網絡模型來提升識別率,再通過FCSP「端到端」的雙麥處理算法簡化識別流程,降低最終識別錯誤率,探境的語音算法實現了跨越式的升級。

基於雙麥算法,探境對611進行了升級,推出了音旋風612語音識別方案,和傳統友商晶片相比,一是降低了對多麥的信號處理,節省了硬體成本;二是高噪聲環境下識別率大幅提高;三提供了更高的有效算力。

探境科技是一家擁有全棧式技術的公司,在IT設計、軟體開發、算法研究、系統集成方面,都有非常雄厚的研發力量。因此我們可以提供交鑰匙式的整體解決方案。

探境的未來規劃:圖像晶片已經在路上

在今天的媒體溝通會上,探境首次曝光了由低功耗系列、主打系列、旗艦系列組成的三大系列、6顆AI晶片組成的產品矩陣。除了支持AI雙麥的Voitist音旋風612之外,還包括在離線一體的Voitist音旋風621、以及語音晶片的旗艦產品——可支持本地NLP的音旋風7系列。據魯勇透露,未來探境還會將語音產品進行二次升級,推出更多在線離線一體化方案。


除了語音晶片之外,魯勇還公布了首個圖像晶片的規劃,其IPS/W更是高達800,是目前已知AI晶片中最高的。據介紹,探境的圖像晶片在2019年Q4就已經流片成功,圖像的某些領域甚至已經開始產生營收了。

據了解,探境科技全球總共有6個研發中心,分別在北京、上海、深圳、合肥、杭州以及美國的矽谷,員工接近200人,其中150人是研發人員,有50人擁有博士和碩士、研究生學歷。並且,骨幹研發人員的平均工作經驗超過15年,正處於研發的黃金周期。

「探境不僅有高性價比全棧式的語音解決方案,未來還將推出圖像領域的解決方案;不僅有全鏈條的研發實力,還願意攜手上下游合作夥伴一起,共享AI時代帶來的科技紅利。」 魯勇如是說。

關鍵字: