Siri 們的「智障」終於有救了？

「今天北京比上海熱嗎？」

摸著良心講，問這個問題的時候，並沒有想刁難Siri。但是Siri它就是回答不上來。

「今天似乎是晴天。」Siri天真（但驢唇不對馬嘴）地回答，配以用戶所在的上海的天氣卡片。

用同樣的問題去問必應機器人，它雖然沒有直接回答是或否，但至少給出了兩地的氣溫數據。

不光是Siri，語音助手們十年間似乎一點長進都沒有。用戶也已經習慣於對它們降低要求，給出明確、直接的指令：「音量小一些」「關燈」「下一首」。

但ChatGPT的出現改變了一切。人們感受著ChatGPT、新必應機器人、谷歌Bard等一眾大語言模型驅動的機器人切題、流暢、豐富的對話能力，Siri們的呆板從未如此明顯。

語音助手背後的大公司們也感受到了壓力。

北京時間4月28日，亞馬遜發布2023年第一財季財報，CEO安迪·賈西（Andy Jassy）在電話會議上表示：「我們已經在Alexa下面建立了一個大語言模型，但我們正在構建一個更大、更通用、更有能力的大語言模型，我認為這將會加速我們成為世界上最好的個人助理的願景。」

幾乎同一時間，The Information爆出消息，蘋果的工程師正在醞釀將LLM大語言模型與Siri結合，推出更聰明的Siri，隨此後的iOS更新與用戶見面。

谷歌似乎將資源在谷歌助手與Bard間進行了重新分配，在架構上將二者融合。

國內，在本月早些時候，阿里宣布所有產品未來將接入「通義千問」大模型，其中當然也包括天貓精靈。在官方演示Demo中，新天貓精靈支持自由對話，根據用戶需求和場景隨時生成內容，比如「合成1小時歌單，50%穿插搖滾風格的歌曲」。

從令人振奮，到令人失望，從代表未來，到明日黃花，Siri們走過了十幾個春秋，終於站在了抉擇的路口。

2011年10月，蒂姆·庫克（Tim Cook）迎來自己接任蘋果CEO後的第一場大型發布會。

全世界期待的iPhone 5沒有如約而至，庫克拿出的是中間代產品iPhone 4s。拯救那次新品發布的，是蘋果全新的數字語音助理產品Siri。

在此之前，手機內嵌語音指令功能並不是個新鮮事。中國用戶印象最深的也許是「金立語音王」，按住按鈕說出想撥打電話的用戶名，手機就會把電話打出去。

但這種語音功能能做的事情很少（基本就是打電話），對指令的識別率也不高，你必須嚴格說出「打電話給XXX」才行，「給XXX打個電話」都行不通。

Siri顯然是另一個維度的產品：用自然的語言，更靈活的指令，使喚設備做更多的事情，如查天氣、查地圖、讀簡訊、設置提醒事項和鬧鐘等等。

結果大家都知道了，iPhone 4s成為蘋果手機史上的一個經典機型，推出的那個季度銷量是上一個季度的兩倍有餘，分析師也紛紛上調後續的銷量預期。據當時Sterne Agee公司發表的投資者聲明，Siri正是推動銷量的重要原因。

亞馬遜在2014年將 Alexa 安裝到最初的 Echo 揚聲器上，自那以後，Echo 設備迅速擴張，第一代兩年銷量超過500萬台。Alexa語音助手也從智能音箱走向更多終端設備。

而谷歌也在2016年推出，作為 Google Now 的一個擴展，它不僅提供個性化元素——從 Google 日曆、 Gmail 和其他 Google 服務中獲取信息——還能理解上下文，識別不同的語音配置文件，並支持諸如「持續對話」和「翻譯模式」等功能。

基於安卓的手機廠商們，也紛紛定製自己的語音助手，如三星於2017年推出Bixby，同年小米推出「小愛同學」。如今，主流手機廠商幾乎都會給設備內置個語音助手，如華為的小藝，OPPO的小布，Vivo的小V等。這些助手也被同步進廠商的其他產品如電腦、平板電腦、智能手錶中。

智能音箱作為語音助手最直接的載體，也成為大廠們爭相布局的領域，谷歌有Nest Audio，蘋果也推出了HomePod，國內阿里有天貓精靈，小米則有小愛音箱。

在消費電子領域，內置語音助手已經相對普及。據TechInsights，2022年內置語音助手的消費電子設備出貨量為22億台，包括智慧型手機、智能電視、無線音箱、平板電腦、可穿戴設備等。其中手機占50%，可穿戴設備為第二大細分市場。

另據Statista，2022年美國大約有1.42億語音助手用戶，幾乎占全國人口的一半。

遺憾的是，有不代表好用，語音助手大行其道的另一面，是其被嫌棄的一生。

雖然Siri的推出引來人們的嘗試熱情，但失望接踵而來，而且隨著時間的推移，這種失望在不斷擴大。

早在其剛推出的那幾年，網絡上就有很多關於Siri奇葩回答的討論。2012年，也就是Siri發布的次年，投資銀行Piper Jaffray分析師基尼·蒙斯特（Gene Munster）最近對Siri進行了一系列測試，發現在1600多項語音測試中，Siri的回答準確率只有68%，而在喧鬧的室外環境，這一數字還會降低。

但在那個時候，多數人還是對Siri滿意的。彼時研究公司Parks Associates分析總監約翰·巴里特（John Barrett）對482名iPhone用戶進行了調查，有55%給予Siri高分評價，21%很滿意，只有10%完全不滿意。

圖源：蘋果官網

然而到了2017年，Adobe的研究報告顯示，37%的受訪用戶認為他們與語音助手的互動「並不好」或者「非常糟糕」，26%的用戶表示體驗「還行」，只有37%的用戶持積極態度。

到了2018年，調研公司Creative Strartegies的調查報告顯示，Siri的用戶滿意度僅為20%。

一個具有代表性的事件是，亞馬遜的Alexa在2018年還搞出了個「賽博靈異事件」。多位用戶表示Alexa在毫無預警的情況下發出詭異的笑聲，亞馬遜不僅發表公開聲明解釋原因（可能是將環境噪音錯誤識別為「Alexa，笑一個」），還緊急上線了產品補丁。

同樣的情況也發生在其他語音助手上：自己突然說話、答非所問、不聽指揮等等。

到了如今，智能語音助手已經不能符合人們對「智能」的想像。但這些吐槽和抱怨，似乎沒有推動語音助手的明顯進化。語音助手的「愚蠢」就像房間裡的大象，被科技大公司們集體忽視了。

一個最明顯的例子是，如果你去觀看2011年蘋果發布會上的Siri演示，會發現其用法和處理能力和今天相比沒有什麼明顯的差別。

直到ChatGPT的出現，才讓這個「大象」被看見。雖然自己也曾推出PC語音助手Cortana，但乘上ChatGPT快車的微軟毫不手軟，直接點出了問題。

3月，在接受英國《金融時報》採訪時，微軟CEO薩蒂亞·納德拉（Satya Nadella）表示：「無論是Cortana、Alexa、Google Assistant還是Siri，這些語音助手笨得像塊石頭（dumb as a rock）。我們最新推出的產品（必應聊天機器人），具備這些語音助手所無法提供的功能。」

Siri們的「愚笨」，或者說與ChatGPT相比之下的呆板，直接原因自然是背後的技術。

ChatGPT為代表的新一代聊天機器人由大型語言模型（LLM）驅動，這些模型系統經過大量網絡數據集的訓練，能識別和生成基於數據集的文本，在此基礎上生成完整的句子。

而Siri、Alexa和谷歌助手基本上都屬於所謂的命令和控制系統。這些系統智能理解有限的問題和請求，如果用戶所提出的問題不在其代碼中，助手就無能為力。

根據《紐約時報》的一篇報導，曾在蘋果負責Siri項目的工程師約翰·柏基（John Burkey）表示，由於設計的繁瑣，為Siri添加新功能很難。

他曾於2014年受命對Siri進行改進，而它的資料庫就像一個「巨大的雪球」，要在Siri的資料庫里添加哪怕一個單詞，「實際上就是在一大堆無序的資料庫中再添加一些數據。」

同樣的問題，Alexa和谷歌助手也有。

作為矽谷頭部科技巨頭，調用人才和財力為語音助手改頭換面不就行了？可惜事情沒有那麼簡單。

第一個問題是，他們有沒有動力這麼做？

用戶自然是希望語音助手更聰明，自從ChatGPT出現，網際網路上就不斷有「如何將ChatGPT接入我的手機」這樣的提問。而且，目前也已經有基於GPT的語音助手應用推出。

但這並不足以讓巨頭們做出戰略決策。Alexa雖然幫助亞馬遜搶占了智能音箱市場的份額，但卻並沒有清晰的商業化路徑，甚至是在做賠本買賣。亞馬遜的野心是通過語音助手將用戶引至電商消費，但隨著時間的推移，大部分的用戶只不過用Alexa執行諸如「聽音樂」「關燈」等基礎指令。

去年底，亞馬遜宣布裁員1.7萬人，其中，負責Alexa的「全球數字」部門成為了裁員重災區，部分高管離開了公司。據BusinessInsider，這個部門僅在2022年第一季度就虧損了30億美元，罪魁禍首就是Alexa，這是其他部門虧損總和的兩倍。

Alexa

該報導還稱，硬體團隊2022年預計虧損100億美元。

谷歌助手雖然在語音助手中占比很高，在美國是市場份額第一的語音助手，但似乎被亞馬遜誤導，走了同樣的彎路。從2016年到2021年的5年裡，谷歌發布了8個主要的內嵌主搜的音箱/智能顯示器硬體產品，自那以後似乎就陷入停滯。

2022年，谷歌移除了助手對兩個內部產品線的支持，NestWifi路由器和Fitbit可穿戴設備。同年，The Information報導稱，胡歌欲減少在開發谷歌助手語音輔助搜索功能方面的投資。

谷歌助手和Alexa一樣，沒有什麼賺錢的路徑，無廣告，無訂閱模式，就是一個兢兢業業的助手，還經常幫不到點子上。

將ChatGPT、Bard等聊天機器人背後的大型語言模型應用在語音助手上，自然對功能體驗有提升，但仍然無法解決產品商業化的問題。

至於蘋果，則深深受制於「保護用戶隱私」。幾年前Siri因為「偷聽」醜聞，收回了所有Siri項目的外包公司，對用戶和Siri之間對話的私密性更加尊重。但這對於大語言模型來說，就意味著訓練數據的匱乏。

第二個問題是，身形龐大的科技巨頭，轉起身來有困難。

不管是Siri、Alexa還是谷歌助手，都已經發展多年，要做大變革，最容易被外界忽略，卻也最棘手的問題，便是內部的資源分配。

蘋果的Siri從一開始就歷經坎坷，賈伯斯剛開始親自指導該項目，卻在產品上線第二天去世。到了發布一年之後，Siri就已經經歷三位負責人，而內部的分歧不斷。不僅有管理方式的分歧，也有搜索、語音識別、自然語義的派系紛爭。

到了2022年，又有三位關鍵人物 Srinivasan Venkatachary、Steven Baker 和 Anand Shukla離開，他們是機器學習初創公司Laselike的創始人，後被蘋果以1.5億美元收購。這次離開，他們投入了谷歌的懷抱。

讓Siri進行大轉向，勢必又要涉及到內部人員和資源的重新分配：誰來領導項目？走什麼路徑？過往人員是去是留？這都是擺在庫克面前的老大難問題。

谷歌倒是已經做出了選擇。

3月底，CNBC報導了谷歌的團隊變化，根據一份泄露的內部備忘錄，谷歌助理似乎為公司新的超級巨星Bard讓路。

這份名為「助理和Bard團隊的變化」的備忘錄顯示，公司將把Bard作為高度優先事項。曾擔任谷歌助理項目副總裁的Jianchang Mao離職，該項目另一位副總裁則將負責Bard團隊的工作，此前負責Bard項目的高管繼續擔任Bard「區域技術領導」。

看起來，谷歌已經做好了將Bard和谷歌助理融合的準備。

至於亞馬遜，在長久的沉默之後，終於宣布要用LLM給Alexa做升級，但具體怎麼做，並沒有對外透露。剛剛經歷了裁員重創的內部團隊要如何重振希望，是賈西要解決的難題。

Siri們已經意識到了ChatGPT的威脅，不進則退的局面已經形成。至於怎麼進，這是個問題。

希望有天我們可以拿起手機問Siri：「今天北京比上海熱嗎？」並得到令人滿意的有效回答。

參考資料：

1、澎湃新聞：《谷歌被曝調整虛擬助理部門領導架構，未來或集成Bard技術》

2、愛范兒：《從領先到落後，蘋果 Siri 和它動盪的 7 年時光》

3、大數據文摘：《從「全村的希望」到「大裁員」，亞馬遜是如何摧毀Alexa 的？》