AIGC行業專題報告:從AI技術演進看AIGC

未來智庫 發佈 2024-04-10T06:23:33.097729+00:00

AI:1952 年,圖靈在《計算機械與智能》一文中提到了「圖靈測試」來驗證機器是否具有智能:如果一台機器能夠與人類展開交流,並且有超過 30%的人無法在規定時間內識別出與自己交談的是人還是機器,那麼這台機器可以被認為是具有智能的。

(報告出品方/作者:國信證券,張衡、夏妍)

AI(人工智慧):第四次生產力革命

AI(Artificial Intelligence):1952 年,圖靈在《計算機械與智能》一文中提到了「圖靈測試」來驗證機器是否具有智能:如果一台機器能夠與人類展開交流,並且有超過 30%的人無法在規定時間內識別出與自己交談的是人還是機器,那麼這台機器可以被認為是具有智能的。後來科技界又提出了其他界定人工智慧的標準:例如能否實現語音識別、機器翻譯、自動寫作等等。本報告中所提及的人工智慧技術,不僅包括具有自然語言處理能力、或通過圖靈測試的AI 技術,還包括有海量數據、超複雜性、要求實時性、人類智能暫時無法處理的機器智能技術。


AI 發展原動力:提效降本,在新一輪技術革命中搶占先機

微觀:提效降本,科技讓生活更美好

從 C 端用戶需求來看,人工智慧解決的是與人相關的娛樂、出行、健康等生活場景中的痛點。人工智慧在 C 端的應用分為兩方面:1)對原有勞動力的替代與生產力效率的提升:如語音識別、智能客服、機器翻譯等;2)新增需求的滿足:如「千人千面」的信息分發(如抖音、快手、小紅書等)、內容生成(AIGC)、人機互動(如 ChatGPT 等)、輔助駕駛、安防等。從 B 端需求來看,企業對於效率的提升需求旺盛,人工智慧在金融、公共安全、醫療健康等領域均取得了較為普遍的應用。

宏觀:新一輪技術革命,贏得未來國與國之間科技競爭的主動權

人工智慧有望引領了蒸汽革命、電氣技術革命以及信息產業革命之後的第四次生產力革命。1)18 世紀 60 年代,英國率先發展並完成了第一次工業革命,在隨後的一個多世界裡成為了世界霸主;2)19 世紀 60 年代,完成了資產階級革命或改革的美、德、法、日在第二次工業革命中崛起,使人類進入「電氣時代」;3)進入 20 世紀中葉,以信息技術、新能源技術的代表的第三次科技革命在美國興起,進一步強化了美國的霸主地位。自 2006 年以來,Hinton 提出深度學習算法,令機器在自主學習方面有了革命性的突破,同時,伴隨著海量數據的積累、GPU、晶片計算能力的提升,人工智慧的三大要素「算法」、「算力」和「數據」皆已準備就緒。2016 年,AlphaGo 首次擊敗人類問鼎世界冠軍,人工智慧的關注度急速攀升。而近期人工智慧技術在安防、金融、醫療、內容分發領域的持續落地,使AI 技術在提效降本、解放勞動力、提升資源配置效率方面的巨大作用得以顯現。我們認為,在本輪變革中具有良好技術沉澱和全面布局的國家有望搶得科技的主動權。

產業鏈及發展歷程:三起兩落,數據及算力爆發帶來新一輪AI 發展機遇

產業鏈:基礎層+技術層+應用層

總體來看,人工智慧產業鏈可分為基礎支撐層、技術層和應用層。基礎層提供算力,主要包含人工智慧晶片、傳感器、大數據及雲計算。其中,晶片具有極高的技術門檻,且生態搭建已基本成型。目前該層級的主要布局玩家為Nvidia、AMD、英特爾等在內的國際科技巨頭,國內在基礎層的布局和實力均相對薄弱。技術層主要解決具體類別問題,這一層級主要依託運算平台和數據資源進行海量識別訓練和機器學習建模,開發面向不同領域的應用技術,包括語音識別、自然語言處理、計算機視覺和機器學習技術等。科技巨頭谷歌、IBM、亞馬遜、蘋果、阿里巴巴、百度都在該層級深度布局,並湧現了如商湯科技、曠世科技、科大訊飛等諸多獨角獸公司。應用層主要解決場景落地問題,利用AI 技術針對行業提供產品、服務和解決方案,其核心是商業化。得益於人工智慧的全球開源社區,應用層的進入門檻相對較低,但也是商業價值最大的環節(典型如算法推動在抖音、快手等應用端落地)。


發展歷程:60 年三起兩落,呈螺旋式發展

回顧人工智慧技術的發展歷程,我們發現,人工智慧所經歷的三次興起浪潮均源於底層算法的革命性進展,而前兩輪的衰落是由於數據處理性能及底層算法的局限,使 AI 技術從成熟度以及商業可行性上無法落地。2006 年,Hinton 提出顛覆性的深度學習算法,使得 AI 產業邁出關鍵性一步:利用多層神經網絡,將人類從複雜的算法歸納中解放出來,只要給予機器足夠多的數據,便能使其自動歸納出算法,疊加底層算力 GPU 的不斷發展及網際網路時代海量數據的積累,人工智三駕馬車:算法、算力和數據皆已準備就緒,使 AI 技術徹底走出實驗室,逐步滲透進各個行業和場景。

第一輪:興於感知神經網絡,終於計算機性能約束

興起:1956 年達特茅斯會議開啟了人工智慧的元年,僅在定理層次等證明了AI商用的可能性,實際應用還十分有限。1956 年,以約翰·麥卡錫、馬文·明斯基、克勞德·香農等為代表的科學家們在達特茅斯組織了一場為期兩個月的人工智慧夏季研討會,探討如何通過機器模擬人類學習或人類智能的其他特徵。本次會議結束後,很多國家政府、研究機構、軍方等都開始投資人工智慧,掀起了第一波人工智慧熱潮。在第一波 AI 的浪潮中,占據主導地位的思想是邏輯主義,即通過引入符號方法進行語義處理、將待研究和解決的問題轉化為可以用計算機處理的符號,運用邏輯公理進行解答,從而實現人機互動。第一波人工智慧浪潮的總體成就有限,僅在定理證明等特定領域取得了成功。受制於計算機性能及可獲取的數據量,當時的人工智慧只能完成玩具式的簡單任務,在語音、圖像識別及想起遊戲等看似簡單的任務上,進展都十分有限。

衰落:計算機的性能制約了早期程序的應用,人工智慧的發展首次預冷。受限於計算機的處理性能,當時其所能處理的程序對象少且複雜度低,機器無法讀取足夠的數據實現智能化,AI 自然無法大規模落地商用。1973 年,學者萊特希爾發表了一份具有影響力的評估報告《人工智慧:一般性的考察》,報告指出:「迄今為止,人工智慧沒有在任何領域發生之前預想的重大影響,人工智慧的投入是金錢的浪費」,該報告發表後,英國政府隨後終止了對愛丁堡等幾所高效的人工智慧項目的支持。到 70 年代中期,美國和其他國家在該領域的投入也大幅度削減,人工智慧發展進入寒冬。

第二輪:興於 BP 神經網絡,終於專家系統失敗

興起:1980 年代,Hopfield 神經網絡和 BT 訓練算法的提出,使基於AI技術的專家系統首次得以商用。Hopfield 神經網絡是通過對動物或人腦的基本單元一神經元建模和連接,探索模擬動物或人腦神經系統的學習、聯想、記憶和模式識別等功能的人工模型。基於該模型,IBM 等公司開發出了一系列用於模擬專家決策的專家系統,使人工智慧第一次實現商業化落地。衰落:算法局限使計算結遭遇瓶頸,人工智慧由於實際商用成本過高再次衰落。專家系統的維護成本極高,但神經元網絡只能解決單一問題,數據量積累到一定程度後,計算結果便不再改進,實際應用價值有限。1987 年,蘋果和IBM生產的台式機性能超過了由 Symbolics 等廠商生產的通用計算機,專家系統逐漸淘汰。

第三輪:興於深度學習算法,強於數據及算力

興起: 2006 年,Hinton 提出了神經網絡 DeepLearning 算法,將人類從複雜的算法歸納中解放了出來,使人工智慧再一次聚焦了學術界和產業界的目光。從底層算法來講,深度學習算法彌補了傳統 BP 神經網絡的缺陷:1)多隱層的人工神經網絡具有優異的特徵學習能力,從而有利於可視化或分類;2)傳統人工神經網絡的訓練難度可以通過「逐層初始化」來克服。通俗來講,本輪算法的革命性進步在於:不需要人工去提取規則特徵,機器通過海量數據,即可自動實現規則的特徵提取,將最複雜的「算法歸納」留給機器去完成。數據顯示,自2012年在圖像識別領域引入深度學習算法以來,圖像識別的錯誤率顯著降低。並通過深度學習訓練層數的增長及優化,在 2015 年通過 ResNet 模型使圖像識別的精度超過了人眼可達的精度。


強化:底層算力的高速發展及多維數據的快速積累,使本輪人工智慧得以爆發。計算機硬體設施的發展,如 GPU(圖形處理器)、TPU(張量處理器)等新一代晶片及 FPGA(現場可編程門陳列)異構計算伺服器提供了足夠的計算力,能夠支持人工智慧算法的原型。數據的可獲得性和質量在這一時期得到了極大的改善,網際網路、物聯網等產業的發展也為人工智慧提供了規模空前的訓練數據。人工智慧三大要素:「算法、算力和數據」的準備就緒,使人工智慧快速滲透到各產業中,如安防、金融、醫療、文娛等。

人工智慧:技術流派及我們所處的階段

技術演進:行為主義+連接主義,誕生深度學習技術

AI 的技術流派經歷了符號主義、連接主義和行為主義,在行為主義思想中引入了連接主義的技術,誕生本輪的深度強化學習技術。

符號主義

符號主義又稱為邏輯主義 ,在人工智慧早期一直占據主導地位。該學派認為人工智慧源於數學邏輯,其實質是模擬人的抽象邏輯思維,用符號描述人類的認知過程。早期的研究思路是通過基本的推斷步驟尋求完全解,出現了邏輯理論家和幾何定理證明器等。上世紀 70 年代出現了大量的專家系統,結合了領域知識和邏輯推斷,使得人工智慧進入了工程應用。PC 機的出現以及專家系統高昂的成本,使符號學派在人工智慧領域的主導地位逐漸被連接主義取代。

連接主義

連接主義又稱為仿生學派 ,當前占據主導地位。該學派認為人工智慧源於仿生學,應以工程技術手段模擬人腦神經系統的結構和功能。連接主義最早可追溯到1943年麥卡洛克和皮茨創立的腦模型,由於受理論模型、生物原型和技術條件的限制,在 20 世紀 70 年代陷入低潮。

行為主義

行為主義又稱為進化主義,近年來隨著 AlphaGo 取得的突破而受到廣泛關注。該學派認為人工智慧源於控制論,智能行為的基礎是「感知—行動」的反應機制,所以智能無需知識表示,無需推斷。智能只是在與環境交互作用中表現出來,需要具有不同的行為模塊與環境交互,以此來產生複雜的行為。在人工智慧的發展過程中,符號主義、連接主義和行為主義等流派不僅先後在各自領域取得了成果,各學派也逐漸走向了相互借鑑和融合發展的道路。特別是在行為主義思想中引入連接主義的技術,從而誕生了深度強化學習技術,成為AlphaGo 戰勝李世石背後最重要的技術手段。


技術現狀:深度學習技術帶動本輪人工智慧發展

人工智慧算法經歷了「既定規則系統」、「淺層學習算法」和「深度學習算法」三個階段,其中,深度學習算法徹底將人類從複雜的算法抽象中解放了出來,用深度神經網絡+海量數據打破了計算準確度的瓶頸,帶動了本輪人工智慧的爆發。人工智慧算法所經歷的三大階段及實現過程如下:

1)既定規則系統及其實現過程

既定規則系統尚不屬於「機器學習」的範圍,其背後的關係為人力搭建算法的邏輯關係。面對待處理的問題,由人提取出問題特徵、再由人設定好算法規則,交由機器進行運行。例如,判斷某幅圖片是否為猴子,既定規則系統執行過程如下:1)人為提取猴子各部分像素特徵;2)人為設定猴子判定規則,如眼睛、鼻子、嘴巴等部位的像素應分別位於哪一區間內;3)機器根據讀取到的像素及判定規則,計算當前圖片是否為猴子,輸出結果「是」或「否」。

2)傳統機器學習算法及實現過程

傳統機器學習算法徹底將人類從複雜的算法抽象中解放了出來,但對複雜數據的處理受到明顯制約。簡單來說,機器學習是一種實現人工智慧的方法,深度學習算法是實現機器學習的技術。傳統機器學習算法又稱淺層算法,這類算法如反向傳播算法(BP 算法)、支持向量機(SVM)、Boosting 等,局限性在於對有限樣本和計算單元的情況下對複雜函數的表示能力有限,對複雜數據的處理受到制約。例如,在圖像識別領域,淺層學習的識別準確率較低,主要原因為該算法的處理邏輯偏向淺層,不能窮舉複雜的情景,在準確率達到一定程度後,即使再投入更多數據,準確率依然無法提升。如判斷某幅圖片是否為猴子,傳統機器學習算法執行過程如下:1)人為提取猴子各部分像素特徵;2)機器自動歸納猴子的判定規則,如眼睛、鼻子、嘴巴等部位的像素應分別位於哪一區間內;3)機器根據讀取到的像素及判定規則,計算當前圖片是否為猴子,輸出結果「是」或「否」。

3)深度學習算法及實現過程

深度學習與傳統的機器學習最主要的區別在於:隨著數據規模的增加,其判斷準確度也在不斷增長。判斷準確度的提升,使人工智慧技術可大規模應用於語音識別、圖像識別等多個領域。2006 年,Hinton 提出深度學習算法,該算法與傳統的機器學習算法最大的區別在於隨著數據規模的增加,算法計算準確率也不斷增長。當數據很少時,深度學習算法的性能並不突出,隨著數據量的增加,其優越性得以體現。傳統機器學習算法,在擬合度達到某一特定值後,再增加數據量,其擬合度不再提升;深度學習算法擬合準確度隨著數據量及神經網絡層數的增加而提升。例如,在引入深度學習之前,語音識別的準確率連續三年穩定在 76.4%,引入該算法後,其準確率逐年遞增,2017 年已達94.5%。如判斷某幅圖片是否為猴子,深度學習算法的執行過程如下:人為將海量帶有標籤的圖像數據到計算機中,無需進行任何特徵提取或規則設定,算法自動根據輸入圖像的特徵歸納出判定規則,並泛化至後續判斷過程中。


實現要素:海量數據及高效算力是深度學習實現基礎

海量數據及高效算力是深度學習實現基礎。深度學習全稱深度神經網絡,本質上是多層次的人工神經網絡算法,即從結構上模擬人腦的運行機制,從最基本的單元上模擬了人類大腦的運行機制。算法的實現過程分為訓練和推斷兩個階段。訓練階段需要海量數據輸入,訓練出一個複雜的深度神經網絡模型。推斷指利用訓練好的模型,使用待判斷的數據去「推斷」得出各種結論。大數據時代的到來,圖形處理器(Graphics Processing Unit,GPU)等各種更加強大的計算設備的發展,使得深度學習可以充分利用海量數據(標註數據、弱標註數據或無標註數據),自動地學習到抽象的知識表達,即把原始數據濃縮成某種知識。簡單來說,在深度學習算法的基礎上,海量數據解決了計算精準度的問題,算力的提升解決了計算速度的問題。

所處時代:基於統計規律的弱人工智慧時代,但商業化價值已經展現

人工智慧的分類標準及定義

李開復及王詠剛在《人工智慧》一書中,將人工智慧按照智能程度的強弱,劃分為:弱人工智慧(Artificial Narrow Intelligence,簡稱ANI)、強人工智慧(Artificial General Intelligence,簡稱 AGI)和超人工智慧(ArtificialSuperintelligence,簡稱 ASI)三個層次。

弱人工智慧(ANI)也稱為限制領域人工智慧或應用型人工智慧,本質上是某個特定領域內基於統計規律的大數據處理者。通俗來講,弱人工智慧只專注於完成某個特定的任務,例如語音識別、圖像識別和翻譯,是擅長單個方面的人工智慧,類似高級仿生學。該階段的 AI 技術是為了解決特定具體類的任務問題而存在,底層原理是從海量數據中從中歸納出模型,再泛化至新的數據中進行正向運算。例如,谷歌的 AlphaGo 和 AlphaGo Zero 就是典型「弱人工智慧」,儘管它們能夠戰勝象棋領域的世界級冠軍,但也僅限於擅長於單個遊戲領域的人工智慧。


強人工智慧(AGI)是人類級別的人工智慧,擁有獨立思想和意識,在各方面均能與人類媲美。擁有 AGI 的機器不僅是一種工具,其本身可擁有「思維」,能夠進行獨立的思考、計劃、解決問題、抽象思維、理解複雜理念、快速學習等,可實現「全面仿人性」,在智力水平和行動能力方面與人類基本沒有差別,目前只存在於電影及人類想像中。

超人工智慧:假設電腦程式通過不斷發展,智力水平可以超越人類,則由此產生的人工智慧系統就可以被稱為超人工智慧。在人工智慧的三個層級中,超人工智慧的定義最為模糊,目前還沒有精準預測能夠說明超越人類最高水平的智慧到底會表現為何種能力。對於超人工智慧,目前只能從哲學或科幻的角度加以想像。

當前人工智慧現狀:基於統計規律的弱 AI 時代

當前人工智慧尚屬於「弱人工智慧」階段。按照人工智慧的執行深度,我們將人工智慧的判定層次分為計算智能、感知智能和認知智能三個層次:1)計算智能:神經網絡和遺傳算法的出現,使機器能夠高效、快速地處理海量數據,目前該技術的應用已相當成熟;2)感知智能:技術已相對成熟,典型應用語音識別及人臉識別,準確率分別超過 98%和 99%;3)認知智能:還有較大提升空間,典型應用包括機器翻譯和計算機視覺認知,這兩項技術與人力還有較大差距。通過以上對三個層級的分析,我們判斷:人工智慧技術尚不具備完全「認知」能力,處於垂直領域的應用投入商用、自主認知尚待攻克的「弱人工智慧」階段。

「弱人工智慧」所帶來的收效依然十分可觀

弱人工智慧在特定領域的表現均超過人類,多種勞動密集型工作均具有較強自動化潛力。2017 年 10 月,AlphaGo 的升級版本實現了不通過向人類學習,只通過概率計算和自學自練就達成自我超越、戰勝李世石的初代AlphaGo。由IBM開發人工智慧 Waston,使用機器學習來分析和解讀海量醫療數據和文獻,檢查患者數據做出治療決定,印度班加羅爾研究表明,Waston 與醫生在提供肺癌、結腸癌和直腸癌治療建議方面一致性比例分別高達 96%、81%和93%。微軟公司的人工智慧虛擬機器人小冰,學習了 20 世紀 20 年代以來 519 位詩人的現代詩,自2017年2月起,「小冰」在天涯、豆瓣、貼吧、簡書四個平台上使用了27 個化名發表的詩歌作品,幾乎沒有被發現是機器所作。不僅如此,人工智慧在交通、教育、金融領域也展示出了巨大的應用前景。與人類相比,人工智慧在數據存儲、調用、分析處理方面的強大能力,以及在特定危險情境下的生存能力,都有望為人類生活帶來巨大顛覆。麥肯錫報告表明,多種人力勞動密集、機械類工作都具有較強的自動化潛力,住宿和餐飲服務、製造、交通和倉儲等職業自動化潛力巨大。


2020 年,弱人工智慧為全球 GDP 帶來 14%的提升。人工智慧將提升社區勞動生產率,特別是在有效降低勞動成本、優化產品和服務、創造新市場和就業等方面,將為人類的生產和生活帶來革命性的轉變。據 Sage 預測,2020 年,人工智慧的出現將為全球 GDP 帶來 14%的提升,相當於 15.7 萬億美元的增長。根據世界銀行及產新智庫的分析,人工智慧作為當下最先進生產力,如果能為製造業提高1%的效率,全球製造業便會節約 3000 億美元。再細分到各個產業,為航空提高1%的效率相當於 300 億美元,為電力提高 1%的效率相當於660 億美元,為醫療系統效率提高 1%相當於 630 億美元,為鐵路系統效率提高1%相當於270 億美元,為石油天然氣資本支出降低 1%相當於 900 億美元。綜上,截至2025 年,人工智慧可能影響 32 萬億美元的全球製造業領域,相當於將影響全球50%的經濟。

萬事俱備,人工智慧場景應用有望全面爆發

相比於前兩輪的 AI 浪潮,我們認為本輪人工智慧應用將全面爆發的原因如下:1)深度學習算法的革命性顛覆,使「數據量」成為決定擬合結果的核心要素:在本輪深度學習算法出現前,AI 的主要算法是 BP、SVM 等淺層算法,由於其處理邏輯停留在淺層,即使在擁有海量數據的情況下,擬合結果的準確率在提升至某一瓶頸後便無法提升,人工智慧難以處理複雜的問題。深度學習算法得益於多層神經網絡,可直接用海量數據「暴力破解」出計算算法,數據量越高,擬合精準度越高。這說明只要具備充足的數據和算力,便能快速訓練出精準的算法,這使得決定人工智慧準確度的核心由「算法」轉變為「數據和算力」;2)海量多維數據及GPU 算力已準備就緒,為算法運行提供充足「燃料」和「引擎」:網際網路使海量數據積累成為可能,而 GPU 的出現,滿足了機器學習大規模並行計算要求。至此,人工智慧的三駕馬車「算法、算力、數據」皆已準備就緒;3)開源框架大幅降低了 AI 的使用門檻;4)政策及資本的助力:AI 被廣泛認為人類歷史上第四次工業革命,美國、中國等科技大國均將其提升至頂層戰略高度,加之資本注入及催化,「弱人工智慧」的商用已廣泛落地。

資源層:數據及算力的大幅提升將 AI 推向浪潮之巔

網際網路及數字經濟的快速發展,為 AI 算法訓練提供充裕的數據來源。人工智慧領域頂級專家吳恩達曾提到:發展人工智慧就像用火箭發射衛星,需要強大的引擎和足夠的燃料,算法模型就是其引擎,高性能的算力是打造引擎的工具,海量的數據就是引擎的燃料。基於深度學習的算法特點,其計算準確度與數據量基本成正比。例如,在輸入 30 萬張人類對弈棋譜並經過3000 萬次自我對弈後,人工智慧 AlphaGo 具備了媲美頂尖棋手的棋力。當前,機器學習所能應用的數據已經不局限於文本、數字等結構化數據,還包括視頻、音頻、圖片等非結構化數據。而根據 IDC 的統計數據,2021 年全球數據量已經達到82 ZB,預計到2026年將達到 214 ZB。


GPU 的發展解決了深度學習的訓練速度和相應的成本問題。1)英偉達於2016年推出 P100,2017 年推出 V100,2020 年推出 A100,4 年間從P100 至A100英偉達GPU 晶片高性能計算能力提升 11 倍。2022 年英偉達持續疊代推出H100,其最新的 H100 晶片在 A100 的基礎上將訓練表現提升 9 倍;2)算力晶片的快速疊代使得提升 AI 模型訓練速度和下游用戶體驗,同時基於摩爾定律的算力提升也使得單位算力開銷持續下降,從技術成熟度和商業化成本兩端加速AI 技術走向普及。

技術環境:開源框架大幅降低開發門檻

各巨頭在 2016 年紛紛創立 AI 開源的開發框架,人工智慧的開發框架是底層硬體與上層軟體之間的紐帶,可以視作人工智慧進行開發和應用的「作業系統」。以往的專家系統是基於本地化專業知識進行運算,以知識庫和推理機為中心進行展開,推理機設計內容由不同的專家系統應用環境決定,不具備通用性。同時,知識庫是開發者收集錄入的專家分析模型與案例的資源集合,只能在單機系統環境下使用且無法連接網絡,升級更新不便。企業的軟體框架實現有閉源和開源兩種形式,少數企業選擇閉源方式開發軟體框架,目的是打造技術壁壘;目前,業內主流軟體框架基本都是基於開源化運營,如谷歌的TensorFlow、臉書的Torchnet、微軟的 DMTK、IBM 的 SystemML、三星的 VELES 等,均具有分布式深度學習資料庫和商業級即插即用功能。

外部環境:政策助力,人工智慧迎來發展良機

中國密集出台人工智慧相關政策,並將 AI 上升至國家戰略,力求在下一輪工業革命中搶占先機。自 2015 年以來,國內不斷出台推動人工智慧發展的鼓勵政策,包括:1)建立人工智慧促進機制;2)為人工智慧提供近支持,包括稅收優惠、財政扶持及制定金融政策等;3)推動創新,包括促進產業集群,布局創新基地,鼓勵人才培養;4)政府制定規制與保障措施等。

《新一代人工智慧發展規劃》提出了「三步走」戰略目標,加速AI 再各行業滲透落地。第一步,到 2020 年,人工智慧總體技術和應用與世界先進水平同步,人工智慧產業成為新的重要經濟增長點,核心產業規模超過1500 億元,帶動相關產業規模超過 1 萬億元;第二步,到 2025 年,新一代人工智慧在智能製造、智能醫療、智慧城市、智能農業、國防建設等領域得到廣泛應用,核心產業規模超過 4000 億元,相關產業規模超過 5 萬億元;第三步,到2030 年,人工智慧理論、技術與應用總體達到世界領先水平,形成涵蓋核心技術、關鍵系統、支撐平台和智能應用的完備產業鏈和高端產業群,人工智慧核心產業規模超過1萬億元,帶動相關產業規模超過 10 萬億元。


從算法推薦到內容生成:AI 有望引發新一輪內容與平台投資周期

基於對 AI 產業鏈及成長曆程的分析,我們認為,AI 底層算法和理論體系的突破相對緩慢,AI 對於各個行業的滲透和改造進度各不相同。但是當前基於神經網絡的深度學習算法已經在感知層(圖像、聲音等)及部分認知處理環節逐步步入技術成熟期,在特定技術環節和應用場景中已經具備良好的商用價值。我們認為,短期內 AI 能夠創造價值的行業必須具備以下三點要素:1)適合的場景應用:一方面行業內存在需求,AI 的應用能夠解決實際問題,真正為行業帶來降本提效;另一方面,深度學習的特點決定了 AI 的算法體系必須擁有特定領域的樣本數據持續訓練;2)充足的數據來源:在技術應用背後擁有足夠的數據來驅動AI 能力的提升;3)所需技術具備商業可行性(技術成熟度以及成本、效率等)。

結合以上三方面要素,從落地的角度來看,AI 在自動駕駛、安防、語音識別等領域已經得到大規模應用;從傳媒網際網路領域落地來看,基於AI 的算法推薦已經在信息分發領域獲得充分應用,並誕生出以字節跳動(今日頭條、抖音等典型APP)、小紅書為代表的移動網際網路時代信息分發平台新範式;從信息分發到內容生成(AIGC),AI 有望重塑內容及網際網路產業生態。

AI 賦能,字節跳動充分展現內容分發時代AI 商業化價值

網際網路時代信息爆炸,信息過載加速 AI 在內容分發領域落地。在網際網路、特別是移動網際網路的快速滲透推動之下,內容創作從傳統的PGC 向UGC、PUGC模式轉變,與之相應的是信息產生的數量呈現指數級上升;傳統的用戶主動獲取信息的模式不堪重負、信息過載成為制約網際網路產業發展的重要障礙;基於AI的「千人千面」算法推薦模式在此背景下快速導入,推動了網際網路從「人找信息」到「信息找人」的內容分發模式轉變。

技術解讀:「千人千面」的推薦系統本質上是一個由AI 技術驅動的擬合函數,輸入變量包括用戶特徵、環境特徵和內容特徵,輸出變量為推薦結果。參與運算的參數包括:1)用戶特徵:包括興趣、職業、年齡、性別、機型、用戶反饋行為等;2)環境特徵:地理位置、時間、網絡、天氣、當前場景(工作、地鐵等);3)內容特徵:主題詞、興趣標籤、熱度、質量等。結合三方面的信息,模型會運算出一個預估,即推測推薦內容在這一場景下對這一用戶是否合適。然後對小批量相同標籤的用戶進行實時推薦。如果用戶反饋(轉化率、熱度)達到設定標準,則將此內容進行大規模的推薦;如果用戶反饋低於設定標準,則停止推薦。依靠該推薦系統,使平台長尾內容實現了有效的分發和觸達。


從技術理念到產品落地,算法推薦引領內容分發進入新時代。從產品來看,以抖音、今日頭條、小紅書等 C 端娛樂內容為代表的內容平台,基於海量用戶數據,並通過視頻識別技術,挖掘出各視頻內容的特點及標籤,通過推薦系統,將合適的內容、在合適的地點、推送給合適的人,改變內容分發行業聚焦於頭部內容的生態特徵,挖掘出長尾內容的使用價值;而從當前移動網際網路產品來看,從內容分發到電商平台產品推送,基於 AI 的信息分發已成標配。

從產品到商業化,字節跳動的異軍突起驗證 AI 強大的生產力價值和商業化潛力。作為作為 AI 技術驅動型公司,字節跳動於 2012 年8 月推出首款新聞資訊分發產品「今日頭條」,產品基於機器學習技術,實現「千人千面」的新聞信息推送。在上線不到兩年的時間內,用戶數已超過 1.2 億,MAU 超過4000 萬。後續,公司基於今日頭條所打磨出的智能推薦系統,低成本、大規模生產「流產品」,推出了「抖音」等現象級產品,並將國內成熟產品通過「技術出海+本土化運營」順利推廣到全球。Questmoblie 數據顯示,截至 2022 年底,字節跳動旗下產品合計用戶時長占比達到 24.5%(2017 年底為 10.1%),成為僅次於騰訊系的網際網路巨頭。

生成式 AI(AIGC):從信息分發到內容生成,更為宏大的時代機遇

利用人工智慧方式生成內容的想法發源甚早。艾倫·圖靈(Alan Turing)1950在論文《計算機器與智能( Computing Machinery and Intelligence )》中提出了判定機器是否具有「智能」的試驗方法,即「圖靈測試」,判斷標準為,機器是否能模仿人類的思維方式並生成內容進一步與人交互。半個世紀的科技發展中,隨著數據量快速積累、算力性能不斷提升、算法效力增強,當前的AI 在與人交互的過程中還可產出寫作、編曲、繪畫、視頻製作等內容。2018 年,世界上首個出售的 AIGC 畫作在佳士得拍賣行以 43.25 萬美元成交,引發各界關注。隨著AI的內容生成能力不斷增強,場景落地開花,AIGC 產業浪潮興起。結合人工智慧的演進歷程,AIGC 的發展大致可以分為4 個階段,即: 早期萌芽階段(20 世紀 50 年代至 90 年代中期)、沉澱積累階段(20 世紀90 年代中期至21 世紀 10 年代中期) ,快速發展階段(21 世紀10 年代中期至今)以及當前的破圈爆發階段(2022 年至今)。

早期萌芽階段 (1950s-1990s) :技術所限,AIGC 局限於小範圍實驗。1957年,萊杰倫·希勒 (Leiaren Hiller ) 和倫納德·艾薩克森( LeonardIsaacson)通過將電腦程式中的控制變量換成音符得到了歷史上第一支由計算機創作的音樂作品——弦樂四重奏《依利亞克組曲 ( Illiac Suite )》。1966 年,世界第一款可人機對話的機器人「伊莉莎 ( Eliza)」問世,其可在關鍵字掃描和重組的基礎上進行人機互動。80 年代中期,IBM 基於隱形馬爾科夫鏈模型( HiddenMarkovModel,HMM) 創造了語音控制打字機「坦戈拉( Tangora )」,能夠處理約20000個單詞。然而在 20 世紀末期,高昂的研發與系統成本與難以落地商業變現模式,各國政府減少了對人工智慧領域的投入,AIGC 發展暫時停滯。

沉澱積累階段 (1990s-2010s):AIGC 實用性增強,開啟商業化探索。2006年,深度學習算法取得重大突破,且同期圖形處理器( Graphics Processing Unit,GPU)、張量處理器( Tensor Processing UnitTPU) 等算力設備性能不斷提升。數據層面網際網路的發展引發數據規模快速膨脹,成為 AIGC 發展的算法訓練基礎,AIGC發展取得顯著進步。但算法仍然面臨瓶頸,創作任務的完成質量限制了AIGC的應用,內容產出效果仍待提升。2007 年,紐約大學人工智慧研究員羅斯·古德溫裝配的人工智慧系統通過對公路旅行中見聞的記錄和感知,撰寫出世界第一部完全由人工智慧創作的小說《1 The Road》。但其仍整體可讀性不強的劣勢,存在拼寫錯誤、辭藻空洞、缺乏邏輯等問題。微軟 2012 年公開展示的全自動同聲傳譯系統,基於深層神經網絡 (Deep Neural Network,DNN)可自動將英文演講者的內容通過語音識別、語言翻譯、語音合成等技術生成中文語音。

快速發展階段(2010s-2021):深度學習算法的不斷疊代促進內容生態百花齊放。2014 年以來,以生成式對抗網絡 (Generative Adversarial Network,GAN)為代表的深度學習算法被提出和疊代更新,AIGC 進入生成內容多樣化的時代,且產出的內容效果逼真到難以分辨。2017 年,世界首部全部由AI 創作的詩集《陽光失了玻璃窗》由微軟的人工智慧少女「小冰」創造。2018 年,英偉達了可以自動生成圖片的 StyleGAN 模型,截止 2022 年末,其已升級到第四代StyleGAN-XL,可生成人眼難以分辨真假的高解析度圖片。2019 年,DeepMind 發布了可生成連續視頻的 DVD-GAN 模型。2021 年,OpenAI 推出了 DALL-E,並於2022 年將其升級為DALL-E-2。該產品主要生成文本與圖像的交互內容,可根據用戶輸入的簡短描述性文字,得到極高質量的卡通、寫實、抽象等風格的圖像繪畫作品。

爆發與破圈階段(2022-至今):2022 年以來,AIGC 產品密集發布,ChatGPT爆火出圈。Google 於 2022 年五月推出了文本圖像生成模型lmagen,同年8月,開源 AI 繪畫工具 StableDiffusion 發布;2022 年 9 月,Meta 推出可利用文字生成視頻的產品 Make-A-Video 以推動其視頻生態的發展。2022 年11 月30 日,OpenAl推出 AI 聊天機器人 ChatGPT,AIGC 的內容產出能力迅速吸引大批用戶,至2022年 12 月 5 日,根據 OpenAI 創始人表示,ChatGPT 用戶數已突破100 萬。2023年2 月,微軟宣布推出由 ChatGPT 支持的新版本 Bing 搜尋引擎和Edge 瀏覽器,AIGC與傳統工具進入深度融合曆程。

算力與數據皆備、大模型加速 AIGC 技術導入,應用創新、場景落地漸行漸近

深度模型的進步與創新奠定 AIGC 走向成熟的基礎。就底層技術而言,不斷創新的生成算法、預訓練模型、多模態等技術是 AIGC 行業發展的前提,以此為基礎AIGC在自動化內容生成上具備了通用性、基礎性多模態、參數多、訓練數據量大、生成內容高質穩定等特徵優勢。


預訓練模型進一步打開了 AIGC 的技術和商業化可能。以往的生成模型存在使用門檻高、訓練成本高、內容生成簡單和質量偏低等劣勢,而真實內容消費場景具備靈活多變、高精度、高質量等痛點要求。預訓練模型的出現通過提高AIGC技術能力解決了上述問題。AI 預訓練模型。即大模型、基礎模型(FoundationModel),其基於大量數據與巨量參數的模型,可適應下游廣泛任務並顯著提高各種下游任務的性能。AIGC 進入預訓練模型時代以 2018 年穀歌發布基於Transformer機器學習方法的自然語言處理預訓練模型 BERT 為標誌。當前按照基本類型分類,預訓練模型包括:(1)自然語言處理(NLP) 預訓練模型,如谷歌的LaMDA 和PaLM、OpenAl 的 GPT 系列;(2)計算機視覺(CV)預訓練模型,如微軟的Florence:(3)多模態預訓練模型,即融合文字、圖片、音視頻等多種內容形式。

以 GPT 為代表的大模型表現優異,AIGC 加速從實驗室設想向產業化落地。1)根據 IDC 的定義,AI 大模型是基於海量多源數據打造的預訓練模型,是對原有算法模型的技術升級和產品疊代,用戶可通過開源或開放API/工具等形式進行模型零樣本/小樣本數據學習,以實現更優的識別、理解、決策、生成效果和更低成本的開發部署方案。大模型的核心作用是突破數據標註的困境,通過學習海量無標註的數據來做預訓練,拓展整體模型前期學習的廣度和深度,以此提升大模型的知識水平,從而低成本、高適應性地賦能大模型在後續下游任務中的應用;2)以GPT 系列自然語言處理模型為例,從 2018 年 6 月的GPT-1 模型,經過數代的模型疊代,GPT3.5 已經從早期的 1.17 億參數量提升至當前的千億級以上,而基於GPT3.5 的 ChatGPT 在人機對話中表現優異並火爆出圈,印證了大模型在文本、圖像乃至視頻等領域內容生成的可能性和商業化潛力。


從 PGC 到 AIGC,AI 有望重構內容與媒介生態

AIGC 多樣化的內容生成能力使其覆蓋各類內容形式,各類應用場景正隨技術進步逐漸落地。AIGC 不僅可覆蓋文本、音頻、圖像、視頻等基本內容模態,還可綜合圖像、視頻、文本進行跨模態生成,並應用於各類細分行業成為具體的生產力要素,例如遊戲行業中的 AI NPC、虛擬人的視頻製作與生成等。

從 PGC 到 AIGC,內容與平台從生態到商業模式有望重塑,新投資周期即將來臨。1)從 PGC 到 UGC、PUGC,傳媒網際網路從 web 1.0 的門戶時代進入到移動網際網路的web 2.0 時代,結合算法推薦的信息分發模式誕生了以字節跳動(抖音、今日頭條)、美團、快手、小紅書等為代表移動網際網路新貴;2)算法推薦重塑了信息分發模式,而 AIGC 則實現了信息、內容的 AI 創作,內容生產將從PGC、UGC、PUGC邁入 AIGC 時代,內容生產的效率有望實現跨越式提高,內容將迎來大爆發時刻,與之相應的,從內容到媒介平台都將會迎來生態和商業模式的重塑,內容與平台的新投資周期即將來臨。


投資分析

AI 是新一輪生產力革命,算法創新及算力進步、數據爆發,催化本輪人工智慧奇點將至。1)人工智慧(AI)基於機器學習和數據分析的方法,賦予機器人類的能力,從而實現解放人力、降本提效的目的,已經成為推動新一輪生產力革命的核心技術方向;2)經歷符號主義、連接主義和行為主義的持續演進,最終誕生了引導本輪 AI 落地的深度學習技術;深度學習技術的出現,改變了傳統AI 的技術路線,解決了傳統機器學習算法無法處理大量數據、準確率遭遇瓶頸的問題,使得AI 從理論上具備了工程化落地的可能;基於摩爾定理的算力提升,網際網路及數字經濟的快速發展帶來的數據量井噴,使得 AI 最終從設想走向場景落地,在語音識別、圖像識別等領域的計算準確度都實現了突破性進展並得到廣泛應用。

從算法推薦到內容生成,AIGC 有望帶動新一輪內容與平台革命。1)從傳媒網際網路的實踐來看,基於 AI 算法推送的信息分發模型已經為web 2.0 時代主流的信息組織模式,並誕生出以字節跳動、快手、小紅書等為代表典型產品和商業案例;2)從算法推動到內容生成(AIGC),新時代的大門正在打開:海量的數據資源、快速提升的算力水平和不斷降低的單位算力成本開銷、基於深度學習的預訓練大模型構建的通用大模型顯著降低應用開發門檻,數位化的高滲透率賦予充裕場景應用可能;從 PGC 到 AIGC,內容生產的大爆炸將重塑內容與平台生態、商業模式,新一輪產業機遇漸行漸近。

(本文僅供參考,不代表我們的任何投資建議。如需使用相關信息,請參閱報告原文。)

精選報告來源:【未來智庫】。

關鍵字: