Siri 們的「智障」終於有救了?

字母榜 發佈 2023-05-03T04:05:02.360195+00:00

摸著良心講,問這個問題的時候,並沒有想刁難Siri。用同樣的問題去問必應機器人,它雖然沒有直接回答是或否,但至少給出了兩地的氣溫數據。


「今天北京比上海熱嗎?」


摸著良心講,問這個問題的時候,並沒有想刁難Siri。但是Siri它就是回答不上來。


「今天似乎是晴天。」Siri天真(但驢唇不對馬嘴)地回答,配以用戶所在的上海的天氣卡片。


用同樣的問題去問必應機器人,它雖然沒有直接回答是或否,但至少給出了兩地的氣溫數據。



不光是Siri,語音助手們十年間似乎一點長進都沒有。用戶也已經習慣於對它們降低要求,給出明確、直接的指令:「音量小一些」「關燈」「下一首」。


但ChatGPT的出現改變了一切。人們感受著ChatGPT、新必應機器人、谷歌Bard等一眾大語言模型驅動的機器人切題、流暢、豐富的對話能力,Siri們的呆板從未如此明顯。


語音助手背後的大公司們也感受到了壓力。


北京時間4月28日,亞馬遜發布2023年第一財季財報,CEO安迪·賈西(Andy Jassy)在電話會議上表示:「我們已經在Alexa下面建立了一個大語言模型,但我們正在構建一個更大、更通用、更有能力的大語言模型,我認為這將會加速我們成為世界上最好的個人助理的願景。」


幾乎同一時間,The Information爆出消息,蘋果的工程師正在醞釀將LLM大語言模型與Siri結合,推出更聰明的Siri,隨此後的iOS更新與用戶見面。


谷歌似乎將資源在谷歌助手與Bard間進行了重新分配,在架構上將二者融合。


國內,在本月早些時候,阿里宣布所有產品未來將接入「通義千問」大模型,其中當然也包括天貓精靈。在官方演示Demo中,新天貓精靈支持自由對話,根據用戶需求和場景隨時生成內容,比如「合成1小時歌單,50%穿插搖滾風格的歌曲」。


從令人振奮,到令人失望,從代表未來,到明日黃花,Siri們走過了十幾個春秋,終於站在了抉擇的路口。


A


2011年10月,蒂姆·庫克(Tim Cook)迎來自己接任蘋果CEO後的第一場大型發布會。


全世界期待的iPhone 5沒有如約而至,庫克拿出的是中間代產品iPhone 4s。拯救那次新品發布的,是蘋果全新的數字語音助理產品Siri。



在此之前,手機內嵌語音指令功能並不是個新鮮事。中國用戶印象最深的也許是「金立語音王」,按住按鈕說出想撥打電話的用戶名,手機就會把電話打出去。


但這種語音功能能做的事情很少(基本就是打電話),對指令的識別率也不高,你必須嚴格說出「打電話給XXX」才行,「給XXX打個電話」都行不通。


Siri顯然是另一個維度的產品:用自然的語言,更靈活的指令,使喚設備做更多的事情,如查天氣、查地圖、讀簡訊、設置提醒事項和鬧鐘等等。


結果大家都知道了,iPhone 4s成為蘋果手機史上的一個經典機型,推出的那個季度銷量是上一個季度的兩倍有餘,分析師也紛紛上調後續的銷量預期。據當時Sterne Agee公司發表的投資者聲明,Siri正是推動銷量的重要原因。


亞馬遜在2014年將 Alexa 安裝到最初的 Echo 揚聲器上,自那以後,Echo 設備迅速擴張,第一代兩年銷量超過500萬台。Alexa語音助手也從智能音箱走向更多終端設備。


而谷歌也在2016年推出,作為 Google Now 的一個擴展,它不僅提供個性化元素——從 Google 日曆、 Gmail 和其他 Google 服務中獲取信息——還能理解上下文,識別不同的語音配置文件,並支持諸如「持續對話」和「翻譯模式」等功能。


基於安卓的手機廠商們,也紛紛定製自己的語音助手,如三星於2017年推出Bixby,同年小米推出「小愛同學」。如今,主流手機廠商幾乎都會給設備內置個語音助手,如華為的小藝,OPPO的小布,Vivo的小V等。這些助手也被同步進廠商的其他產品如電腦、平板電腦、智能手錶中。


智能音箱作為語音助手最直接的載體,也成為大廠們爭相布局的領域,谷歌有Nest Audio,蘋果也推出了HomePod,國內阿里有天貓精靈,小米則有小愛音箱。



在消費電子領域,內置語音助手已經相對普及。據TechInsights,2022年內置語音助手的消費電子設備出貨量為22億台,包括智慧型手機、智能電視、無線音箱、平板電腦、可穿戴設備等。其中手機占50%,可穿戴設備為第二大細分市場。


另據Statista,2022年美國大約有1.42億語音助手用戶,幾乎占全國人口的一半。


遺憾的是,有不代表好用,語音助手大行其道的另一面,是其被嫌棄的一生。


B


雖然Siri的推出引來人們的嘗試熱情,但失望接踵而來,而且隨著時間的推移,這種失望在不斷擴大。


早在其剛推出的那幾年,網絡上就有很多關於Siri奇葩回答的討論。2012年,也就是Siri發布的次年,投資銀行Piper Jaffray分析師基尼·蒙斯特(Gene Munster)最近對Siri進行了一系列測試,發現在1600多項語音測試中,Siri的回答準確率只有68%,而在喧鬧的室外環境,這一數字還會降低。


但在那個時候,多數人還是對Siri滿意的。彼時研究公司Parks Associates分析總監約翰·巴里特(John Barrett)對482名iPhone用戶進行了調查,有55%給予Siri高分評價,21%很滿意,只有10%完全不滿意。


圖源:蘋果官網


然而到了2017年,Adobe的研究報告顯示,37%的受訪用戶認為他們與語音助手的互動「並不好」或者「非常糟糕」,26%的用戶表示體驗「還行」,只有37%的用戶持積極態度。


到了2018年,調研公司Creative Strartegies的調查報告顯示,Siri的用戶滿意度僅為20%。


一個具有代表性的事件是,亞馬遜的Alexa在2018年還搞出了個「賽博靈異事件」。多位用戶表示Alexa在毫無預警的情況下發出詭異的笑聲,亞馬遜不僅發表公開聲明解釋原因(可能是將環境噪音錯誤識別為「Alexa,笑一個」),還緊急上線了產品補丁。


同樣的情況也發生在其他語音助手上:自己突然說話、答非所問、不聽指揮等等。


到了如今,智能語音助手已經不能符合人們對「智能」的想像。但這些吐槽和抱怨,似乎沒有推動語音助手的明顯進化。語音助手的「愚蠢」就像房間裡的大象,被科技大公司們集體忽視了。


一個最明顯的例子是,如果你去觀看2011年蘋果發布會上的Siri演示,會發現其用法和處理能力和今天相比沒有什麼明顯的差別。


直到ChatGPT的出現,才讓這個「大象」被看見。雖然自己也曾推出PC語音助手Cortana,但乘上ChatGPT快車的微軟毫不手軟,直接點出了問題。


3月,在接受英國《金融時報》採訪時,微軟CEO薩蒂亞·納德拉(Satya Nadella)表示:「無論是Cortana、Alexa、Google Assistant還是Siri,這些語音助手笨得像塊石頭(dumb as a rock)。我們最新推出的產品(必應聊天機器人),具備這些語音助手所無法提供的功能。」


C


Siri們的「愚笨」,或者說與ChatGPT相比之下的呆板,直接原因自然是背後的技術。


ChatGPT為代表的新一代聊天機器人由大型語言模型(LLM)驅動,這些模型系統經過大量網絡數據集的訓練,能識別和生成基於數據集的文本,在此基礎上生成完整的句子。


而Siri、Alexa和谷歌助手基本上都屬於所謂的命令和控制系統。這些系統智能理解有限的問題和請求,如果用戶所提出的問題不在其代碼中,助手就無能為力。


根據《紐約時報》的一篇報導,曾在蘋果負責Siri項目的工程師約翰·柏基(John Burkey)表示,由於設計的繁瑣,為Siri添加新功能很難。


他曾於2014年受命對Siri進行改進,而它的資料庫就像一個「巨大的雪球」,要在Siri的資料庫里添加哪怕一個單詞,「實際上就是在一大堆無序的資料庫中再添加一些數據。」


同樣的問題,Alexa和谷歌助手也有。


作為矽谷頭部科技巨頭,調用人才和財力為語音助手改頭換面不就行了?可惜事情沒有那麼簡單。


D


第一個問題是,他們有沒有動力這麼做?


用戶自然是希望語音助手更聰明,自從ChatGPT出現,網際網路上就不斷有「如何將ChatGPT接入我的手機」這樣的提問。而且,目前也已經有基於GPT的語音助手應用推出。


但這並不足以讓巨頭們做出戰略決策。Alexa雖然幫助亞馬遜搶占了智能音箱市場的份額,但卻並沒有清晰的商業化路徑,甚至是在做賠本買賣。亞馬遜的野心是通過語音助手將用戶引至電商消費,但隨著時間的推移,大部分的用戶只不過用Alexa執行諸如「聽音樂」「關燈」等基礎指令。


去年底,亞馬遜宣布裁員1.7萬人,其中,負責Alexa的「全球數字」部門成為了裁員重災區,部分高管離開了公司。據BusinessInsider,這個部門僅在2022年第一季度就虧損了30億美元,罪魁禍首就是Alexa,這是其他部門虧損總和的兩倍。


Alexa


該報導還稱,硬體團隊2022年預計虧損100億美元。


谷歌助手雖然在語音助手中占比很高,在美國是市場份額第一的語音助手,但似乎被亞馬遜誤導,走了同樣的彎路。從2016年到2021年的5年裡,谷歌發布了8個主要的內嵌主搜的音箱/智能顯示器硬體產品,自那以後似乎就陷入停滯。


2022年,谷歌移除了助手對兩個內部產品線的支持,NestWifi路由器和Fitbit可穿戴設備。同年,The Information報導稱,胡歌欲減少在開發谷歌助手語音輔助搜索功能方面的投資。


谷歌助手和Alexa一樣,沒有什麼賺錢的路徑,無廣告,無訂閱模式,就是一個兢兢業業的助手,還經常幫不到點子上。


將ChatGPT、Bard等聊天機器人背後的大型語言模型應用在語音助手上,自然對功能體驗有提升,但仍然無法解決產品商業化的問題。


至於蘋果,則深深受制於「保護用戶隱私」。幾年前Siri因為「偷聽」醜聞,收回了所有Siri項目的外包公司,對用戶和Siri之間對話的私密性更加尊重。但這對於大語言模型來說,就意味著訓練數據的匱乏。


第二個問題是,身形龐大的科技巨頭,轉起身來有困難。


不管是Siri、Alexa還是谷歌助手,都已經發展多年,要做大變革,最容易被外界忽略,卻也最棘手的問題,便是內部的資源分配。


蘋果的Siri從一開始就歷經坎坷,賈伯斯剛開始親自指導該項目,卻在產品上線第二天去世。到了發布一年之後,Siri就已經經歷三位負責人,而內部的分歧不斷。不僅有管理方式的分歧,也有搜索、語音識別、自然語義的派系紛爭。


到了2022年,又有三位關鍵人物 Srinivasan Venkatachary、Steven Baker 和 Anand Shukla離開,他們是機器學習初創公司Laselike的創始人,後被蘋果以1.5億美元收購。這次離開,他們投入了谷歌的懷抱。


讓Siri進行大轉向,勢必又要涉及到內部人員和資源的重新分配:誰來領導項目?走什麼路徑?過往人員是去是留?這都是擺在庫克面前的老大難問題。


谷歌倒是已經做出了選擇。



3月底,CNBC報導了谷歌的團隊變化,根據一份泄露的內部備忘錄,谷歌助理似乎為公司新的超級巨星Bard讓路。


這份名為「助理和Bard團隊的變化」的備忘錄顯示,公司將把Bard作為高度優先事項。曾擔任谷歌助理項目副總裁的Jianchang Mao離職,該項目另一位副總裁則將負責Bard團隊的工作,此前負責Bard項目的高管繼續擔任Bard「區域技術領導」。


看起來,谷歌已經做好了將Bard和谷歌助理融合的準備。


至於亞馬遜,在長久的沉默之後,終於宣布要用LLM給Alexa做升級,但具體怎麼做,並沒有對外透露。剛剛經歷了裁員重創的內部團隊要如何重振希望,是賈西要解決的難題。


Siri們已經意識到了ChatGPT的威脅,不進則退的局面已經形成。至於怎麼進,這是個問題。


希望有天我們可以拿起手機問Siri:「今天北京比上海熱嗎?」並得到令人滿意的有效回答。


參考資料:

1、澎湃新聞:《谷歌被曝調整虛擬助理部門領導架構,未來或集成Bard技術》

2、愛范兒:《 從領先到落後,蘋果 Siri 和它動盪的 7 年時光》

3、大數據文摘:《從「全村的希望」到「大裁員」,亞馬遜是如何摧毀Alexa 的?》

關鍵字: