人工智慧具有傳統軟體無法企及的巨大市場潛力，全球潛在市場價值高達數萬億美元。

矽谷頂級風投a16z投資人馬丁·卡薩多（ Martin Casado）和馬特·伯恩斯坦（ Matt Bornstein）撰寫的第一篇關於AI經濟學的文章（The New Business of AI）已被多家國內科技媒體翻譯並廣泛傳播。他們發現全球 AI 公司都有一個驚人共性，毛利率太低，通常在 50-60％，遠低於 SaaS 業務 60-80％以上的毛利率。而且AI 本身就是一個成本中心。

他們指出來，建立具有與傳統軟體公司相同吸引力（也就是高毛利）的人工智慧公司，面臨巨大挑戰。人工智慧公司毛利率通常較低，很難擴大規模，並不總是具有強大的護城河。

這篇文章可視為兩位投資人系列文章下篇，目的在於為AI公司如何應對那些挑戰提供指導性意見。在與數十家領先機器學團隊進行正式和非正式對話後，作者分享了他們的經驗教訓，最佳實踐和秘訣。

需要注意的是，文章重點針對那些依賴機器學習（主要是監督學習）提供核心服務的AI公司和產品。

建立具有與傳統軟體公司相同吸引力（也就是高毛利）的人工智慧公司，通常面臨巨大挑戰。人工智慧公司毛利率通常較低，很難擴大規模，而且並不總是具有強大的護城河。

不過，許多經驗豐富的AI公司在改善其公司財務狀況方面已取得了巨大進步。手段包括數據工程、模型研發、雲運營、組織化設計、產品管理等。其背後共同點在於，深刻而實際地理解所要解決的問題。

作為討論AI經濟學系列文章的下篇（上篇為 The New Business of AI），本文第一部分旨在解釋為什麼理解問題如此重要（尤其是存在長尾數據分布時），並將其與 AI公司面臨的經濟挑戰聯繫起來。

第二部分分享了我們從採訪中獲得的一些應對策略，這些策略可以幫助ML團隊構建性能更高的應用程式和利潤更高的AI業務。

一了解要解決的問題

構建與實驗（或軟體與人工智慧）

與軟體工程相比，AI開發通常「更接近於製藥中的分子發現」。因為它是一個類似化學或物理學的過程。AI 開發人員將統計模型擬合到數據集，測試該模型對新數據的性能如何，並加以重複。這本質上是試圖控制現實世界的複雜性。

而軟體開發是一個構建和工程過程，定義應用程式規範和整體體系結構後，可以逐步添加新特性和功能，比如一次一行代碼、庫或API調用，直到形成一幅完整願景。

軟體開發人員能很大程度上控制這個過程，藉助標準計算機科學實踐（例如模塊化、工具化、虛擬化或選擇正確的抽象方法），通常可以控制最終系統的複雜性。

然而，由於訓練數據本身固有系統複雜性，AI 開發人員幾乎無法掌控AI應用。

而且，對於許多自然系統而言，數據通常凌亂、長尾、不可預測甚至高度熵。更糟糕的是，由開發人員編寫的代碼不會直接改變程序運作，正如一位經驗豐富的創始人曾比喻過的，「ML本質上是創建代碼的代碼（根據輸入數據的功能）……這將附加創建一個難以理解的間接層。」

長尾與機器學習

面對長尾分布數據，想要建立一家高效的AI公司會遇到許多困難。儘管長尾概念的正式定義可能很燒腦，但其背後的直覺卻相對簡單：從長尾分布中隨機選擇一個數據點，它很有可能就位於尾巴上（比如，50 ％以上機率，甚至可能更高）。

以網際網路搜索詞為例。分布的「開頭」和「中間」中的熱門關鍵字（下圖藍色所示）占所有字詞的比例不到30％。剩餘70％的關鍵字位於「尾巴」中，每個月的搜索量不到100次。

假設不管查詢在分布中位置如何，都需要花費相同的工作量來處理查詢，那麼，長尾分布系統的大部分工作將落在尾部，在這裡，每個查詢產生的價值相對較低，但花費的工作量都是一樣的。

然而，越來越明顯的是，長尾分布在機器學習中也非常普遍，反映出現實世界狀態和典型數據收集實踐。下圖就顯示了幾個流行AI研究數據集中幾類模型頻率。

這些類型的分布不一定很糟糕。但與網際網路搜索的例子沒啥不同，當前，ML技術也不能很好地處理它們。

監督學習模型往往在常見輸入（即分布開頭）上表現良好，但在稀疏數據（分布的尾巴）情況下會遇到困難。由於尾部情況才是大多數，因此，ML開發人員會陷入一個循環（有時似乎是無限的）：收集新數據、再訓練，以解決邊緣情況。

然而，忽視這些尾巴同樣令人痛苦，比如會讓人錯過客戶和機會，收益不佳，也讓用戶沮喪。

對AI經濟學的影響

長尾及其引發的工作量，被證明是讓AI業務難以經濟起來的主要原因。最直接的影響是數據和計算資源的原始成本。機器學習的這些成本通常比傳統軟體要高得多，因為要獲得準確的結果需要大量的數據，大量的實驗和大量的參數。人工智慧應用程式的開發成本和故障率可能比典型軟體產品高出3-5倍。

然而，僅僅關注云計算成本就忽略了長尾理論的兩個更有害的潛在影響。首先，長尾會導致基礎設施以外的高可變成本。

例如，如果發送給聊天機器人的問題因客戶的不同而差異很大，也就是說，大部分問題都在尾部，那麼構建一個精確係統很可能需要針對每個客戶付出大量的工作。不幸的是，根據解決方案分布，這些付出和相關銷售成本可能很難通過精心設計而被消減掉。

更糟糕的是，面臨長尾問題的人工智慧公司實際上會出現規模不經濟。也就是說，相對於競爭對手，隨著時間的推移，經濟狀況會變得更糟。因為，數據有收集、處理和維護的成本。雖然相對於數據量，這種成本會隨著時間的推移而降低，但是，額外數據邊際效益下降更快。事實上，這種關係似乎是指數級的，在某種程度上，開發人員可能需要10倍數據才能實現2倍主觀上的改進。

雖然人們很希望能有一個類似於摩爾定律的人工智慧來顯著提高處理性能並降低成本，但這似乎並沒有實現(儘管算法有所改進)。

接下來，我們介紹從採訪對象獲取的思考和解決這些問題的指南。

二構建更好的AI系統

尋求解決方案

許多人工智慧系統被設計用來預測複雜的底層系統交互，這也是輸入數據長尾分布的原因。開發人員通常不能完全描述數據特徵，所以會通過一系列(監督的)學習實驗來建模。這一過程需要大量工作，可能觸及業績漸近線，進而引發或加劇人工智慧公司面臨的許多經濟挑戰。

這也是AI商業困境癥結所在。如果經濟學是問題的根源而不是技術本身，我們如何改進它們？沒有簡單的答案。

在某種程度上，長尾是對問題複雜性的一種衡量。也就是說，它是我們首先需要自動化的原因，並且與解決問題所需要的努力直接相關。不過，有一些方法可以幫助我們將長尾作為一階焦點並加以處理。

我們從ML工程師和研究人員那裡聽到了很多關於這個話題的建議。下面就分享一些最好、最具創新性的指導意見。

最簡單的情況：界定問題

在最簡單的情況下，理解這個問題意味著，搞清楚你是不是在處理長尾分布。如果不是，比如，這個問題可以用線性回或多項式加以合理描述，那麼，你根本不需要使用機器學習! 尤其是不要使用深度學習！

奇怪的建議？但是它反映出我們曾經提及的AI成本中心難題，而且正如本文第一部分提到的，這些難題很難解決。

隨著模型複雜性增加，這些問題也會變得更糟，因為複雜模型訓練和維護成本高昂。如果使用不當，甚至可能比簡單技術模型性能更差。比如，更容易使小型數據集過於參數化，或者生成性能迅速退化的脆弱模型。

Shopify的工程師指出，邏輯回歸和隨機森林之所以流行是有原因的：

它們具有可解釋性，可擴展性和成本效益。雖然在許多情況下，更大更複雜的模型性能更好（例如，對於語言理解/生成，捕獲快速變化的社交媒體趨勢），但是，只有當可以確定何時模型準確性能顯著提升，將大把鈔票砸在訓練和維護模型上才有價值和意義。

「機器學習不是宗教，而是科學、工程學再加一點藝術。機器學習方法很多，我們傾向於用先進的武器解決眼前的問題，但如果仔細觀察，你會發現有的問題就是個螺絲釘問題。」另一位機器學習領導者如是說。

更難一點：全球範圍的長尾問題

如果確實面臨長尾問題，包括最常見的NLP（自然語言處理），計算機視覺和其他ML任務，那麼，確定客戶、區域、細分和其他用戶群之間的一致性程度，至關重要。如果重疊程度很高，很大程度上可以使用全局模型（或整體模型）為大多數用戶提供服務，也會對毛利率和工程效率產生巨大積極影響。

在訪問大型用戶數據集的B2C技術公司中，最經常看到這種模式。對於B2B供應商來說，在熵相對較低的場景下，通常也有同樣的優勢，比如自動駕駛汽車，欺詐檢測或數據輸入，在這些環境中，部署環境對用戶行為的影響相當弱。

在上述情況下，一些基於本地的訓練(例如針對主要客戶的訓練)仍然必要。不過，通過在全球語境下界定問題，積極圍繞長尾建構問題，能夠將這些訓練需求最小化。對此的標準建議包括:

添加更多訓練數據（包括客戶數據），調整超參數或調整模型體系結構來優化模型，這往往只有在觸及長尾時才管用；
通過明確限制用戶可以進入系統的範圍來縮小問題範圍，這個辦法針對一個擁有龐大「頭部」的長尾分布最有效，比如專注於高價值聯繫人的數據供應商，或者那些易受用戶錯誤影響的長尾分布，比如Linkedin應該有17000個與IBM相關的實體；
轉化問題為單匝介面（例如，內容信息流，產品建議，「您可能認識的人」等），或者提示用戶輸入/設計人類故障轉移以涵蓋特殊情況（例如，自動駕駛汽車的遠程操作）

但對於許多現實問題，這些策略可能並不可行。對於這些情況，經驗豐富的ML建設者共享了一種更通用的模式 ——componentizing（組合）。

例如，Cloudflare的ML工程師分享了一個與Bot檢測器有關案例，主要是通過處理大量日誌文件，識別（並標記或阻止）數百萬個網站的非人類訪問者。

然而，將其視為單個任務在規模上是無效的，因為「機器人」概念包括數百種表現出獨特行為的不同子類型（搜索爬網程序，數據抓取程序，埠掃描程序等）。團隊使用集群技術並嘗試了各種級別粒度，最終發現了6-7類機器人，每種機器人都可以使用獨特的監督學習模型加以處理。

如今，他們的模型正提供實時保護，還有類似軟體業務的毛利率。

確實很難：本地的長尾問題

許多問題沒有顯示出客戶或其他用戶群之間的全局一致性，一些局部問題差異反而很常見。但是，這並不等於說確定重疊無足輕重，因為輸入數據(特別是在企業中)可能由於商業或監管原因而彼此分離。通常，全球性問題和局部問題的區別在於可用數據範圍。

局部ML問題經常存在長尾分布，需要加以解決。但是局部變化程度，會導致工作量迅速增加。

例如，一家大型音樂流媒體公司發現，他們需要為每個運營國家提供獨特的播放列表生成模式。類似地，工廠分析供應商通常為每一個客戶或裝配線提供一種獨特的模型。

雖然沒有簡單的解決辦法，不過有幾種策略可以幫助將全球模型的好處帶到局部問題當中。

近期可行的選擇是元模型模式，在該模式中，單個模型被訓練針對覆蓋一系列客戶或任務。在研究語境下，這項技術被討論最多(例如多任務機器人)。但對於人工智慧應用公司來說，這個辦法可以大大減少需要維護的模型數量。

例如，一家成功的市場營銷初創公司能夠將數千種離線的、針對客戶的模型組合成單一元模型，這樣再訓練成本要低得多。

另一個新興的解決方案是遷移學習。ML團隊普遍認為，預先訓練的模型，尤其是BERT或GPT-3等基於注意力的語言模型可以全面減少和簡化訓練需求，最終，僅用少量數據對每個客戶模型進行微調也會變得更加容易。

這些技術的潛力是毋庸置疑的。然而，目前應用相對較少，部分原因在於其龐大規模導致操作困難而且成本高昂。而且，在許多應用中仍需要做客制化工作。

最後，一些大型科技公司實踐者描述了一種基於主幹模型的遷移學習變體。例如，Facebook維護數千個ML模型，大多數都是針對特定任務單獨訓練的。但是，隨著時間的推移，可以將共享相似功能的模型與通用「主幹」結合在一起，以降低複雜性。目標是使軀幹模型儘可能「厚」（即完成大部分工作），同時使特定「分支」模型儘可能「薄」而又不犧牲準確性。

比如，一家自動化產品描述的AI團隊將七個垂直特定模型（一個用於家具，一個用於時尚，一個用於汽車等）組合到一個主幹架構中，該架構的精確度提升兩倍，並且運行成本更低。

在某種程度上，這種方法看起來很像全局模型模式。同時，它允許並行模型開發，並且還有高度的局部精度，為數據科學家提供了更豐富的嵌入式數據，將一些O(n^2)問題，比如語言翻譯，轉化為O(n)問題。這可能預示著未來的發展方向，有助於定義ML開發過程的基本模塊或接口。

賭註：操作樣本

最後，許多經驗豐富的機器學習工程師們強調了最佳操作實踐對提高AI經濟效益重要性。下面是一些最引人注目的案例。

整合數據管道。模型擴張並不一定意味著管道擴張。當全球模型不可行的時候，通過將大多數客戶合併到一個單一數據轉換過程，一位創始人實現了效率提升，這樣做對系統延遲的影響相對較小。也有團隊通過減少再訓練頻率(例如，通過夜間排隊或在積累了足夠數據時再訓練)，或者在更靠近數據的地方訓練來降低成本。

構建邊緣案例引擎。如果連長尾都看不到，你就沒辦法解決它。例如，特斯拉組裝了一個龐大的怪異停車標誌數據集，訓練自動駕駛儀模型。對於大多數機器學習團隊來說，以可重複方式收集長尾數據，這個能力很重要，通常包括識別分布外數據、尋找相似案例、標記新數據並經常使用主動學習進行智能化再訓練。

擁有基礎架構。許多領先的機器學習組織運行（甚至設計）自己的機器學習集群。在某些情況下，這對初創公司來說，也是個好主意。一位CEO每年節省了約1000萬美元，當公司從AWS切換到主機託管設施中的自己GPU盒。創始人的關鍵問題是，搞清楚節省多少成本才能證明維護成本支出的合理性，以及確定雲服務價格曲線下降速度情況。

壓縮，編譯和優化。隨著模型不斷發展，支持有效推理和訓練的技術（包括量化、蒸餾、修剪和編譯）變得至關重要。利用預訓練模型或自動API也越來越多。這些工具不會改變大多數AI問題的經濟性，但有助於降低大規模管理成本。

測試，測試，測試。這聽起來很明顯，但是一些專家鼓勵ML團隊將測試作為優先級——而不是基於像F分數這樣的經典機制。機器學習應用程式通常以不確定的方式執行（並失敗）。「bug」可能並不直觀，比如原因可能在於不良數據，精確度不匹配或隱性地侵犯隱私。另外，升級還涉及到數十個應用程式，不能向後兼容。這些問題需要對數據分布、預期漂移、偏差、對抗策略和其他因素進行可靠測試。

原文連結：

https://a16z.com/2020/08/12/taming-the-tail-adventures-in-improving-ai-economics/

矽谷頂級VC再發聲：解決AI商業化困境？先來馴服這條長尾

一 了解要解決的問題

二 構建更好的AI系統

一了解要解決的問題

二構建更好的AI系統