CSDN創始人蔣濤:「重應用輕生態」的AI開源模式非長久之計

csdn 發佈 2022-06-06T09:31:46.175371+00:00

近些年,AI、雲計算等技術的發展均得益於開源的興起,而開源自身的商業化模式也在市場上不斷得到驗證,開源在近十年迎來了飛速成長。

作者 | 彭慧中 責編 | 屠敏、何苗

出品 | 《新程式設計師》編輯部

6 月 2 日,2022 北京智源大會正於雲端相聚,密切關注中國開源發展的 CSDN 創始人&董事長、極客幫創投創始合伙人蔣濤在會議上發表了《中國 AI 開源開發者的現狀與機遇》主題演講,並表示,「中國 AI 開源的發展已進入黃金時代,且大有『滾雪球』之勢。目前,中國 AI 偏應用層發展,在全球開原始碼貢獻程度上與美國尚有差距。未來,中國 AI 開源生態的重中之重是建好開發者社區,CSDN 也將不遺餘力地推動中國 AI 開源平民化發展。」

點擊文末「閱讀原文」可觀看直播回放。

蔣濤,CSDN 創始人&董事長、極客幫創投創始合伙人

以下為蔣濤演講實錄:

很榮幸來到智源大會與大家相聚於此。開源目前已成為全球炙手可熱的焦點,而國內近十年來在開源已實現跨越式發展,國家政策的引導、基礎軟體的崛起、企業的大力投入……中國最好的開源時代已經來臨。今天我將從開源社區和生態的角度,來分析 AI 開源開發者的未來發展。

開源蓬勃發展之態已勢不可擋

根據 GitHub 所發布的報告顯示,每年都有越來越多的開發人員為開源項目做出貢獻。 在 2021 年,近 300 萬開發人首次為開源項目做出貢獻,而 2016 年時,這個數據僅為 80 萬。在開源浪潮之下,中國也在乘勝追擊,隨著去年開源被寫入國家「十四五」規劃,中國的開源也開創了歷史性的新篇章。

2021 GitHub 年度報告

從 GitHub 的數據上來看,中國毫無疑問是開源軟體的使用大國。開源項目活躍度美國位列第一,中國以 48% 的增速位列第二。但我認為中國的實際活躍數量應該更高,很多人由於語言的障礙和社區習慣,可能並沒有在 GitHub 中活躍。因此在 CSDN 社區中,我們能看到更快的增長。

近些年,AI、雲計算等技術的發展均得益於開源的興起,而開源自身的商業化模式也在市場上不斷得到驗證,開源在近十年迎來了飛速成長。

從統計數據來看,2013 年,全球收入超過一億美金的大型商業開源軟體公司僅有 4 家,目前已增至 53 家,獲得投資及已經上市的開源企業也呈 10 倍以上的增長,如 Cloudera、MongoDB、Mulesoft、Elastic、GitHub 等多家開源公司都實現了價值數十億美元的 IPO 或併購交易。

正如 GGV 投資寫的文章中所宣稱的那樣,SaaS 過後的「下一個萬億美元市場」是面向開發者的開源市場。全球開發者的實際人數超過 5000 萬,GitHub 也曾預測,2025 年其平台上將有 1 億開發者,未來幾年內開發者數量幾乎翻倍。那麼下一個「5000 萬開發者」群體將來自於哪裡?我認為這正是中國的機遇。

中國在下個階段將迎來三大紅利:

  • 人人都將成為開發者。全民編程的時代已然到來,或許未來,人人都將是AI開發者也未嘗可知。

  • 在技術浪潮席捲的時代,行業數位化大升級,家家公司都將成為技術公司。開發者不再是公司的成本中心,轉而成為數字引擎。

  • 中國核心棧生態系統和開源技術體系正在迅猛發展,努力朝著構建十萬億技術大生態的藍圖進發。

「重應用,輕生態」,為 AI 開源發展埋下隱患

站在開發者社區的角度來看行業 AI 開源的現狀如何,我想通過分享一組數據來說明。

首先,開發者對 AI 開源技術的感知程度可以從百度指數上得到一些體現,2014 年後,AI 作為一個熱點領域進入快速發展期,第一個高點即是 AlphaGo 的問世。而近兩年 AI 發展進入平穩期,主要是受到了疫情的衝擊。

其次,在開發者對 AI 開源技術的偏好方面,目前增長最快的 AI 開源框架為 Pytorch,其搜索指數在 2019 年超越 TensorFlow,且後續漲勢兇猛。原因是使用簡單、API 好用、性能優越。中國的 AI 開源框架和美國 AI 開源框架相比,大眾感知也存在較大差距,當前美國的 AI 開源框架在市場上具有更高的認知度。

在 CSDN 開發者調查報告中也對 AI 領域的熱詞進行了排序,然而當前熱議的 Transformers、Bert 等框架未能進入 CSDN 博文總量的熱點詞 TOP20。其中主要原因是,CSDN 社區主要聚集的是大批應用層面的開發者,這也表明以上兩個框架的應用層面仍在發展中。從 CSDN 關於 AI 開源框架的熱度排名中也可以看到,老牌的 OpenCV 排名第一,主要是因為實用性較高。但在認知和使用上 TensorFlow 還是排名第一,只不過較去年的 48% 的適用人群下降到今年的 37% 。

我曾在四五年前提出了一個「技術社區三倍速定律」,即一個技術要真正進入到應用領域中,首先要得到學術界的認可,接著進入工程界,最後才會進入大眾視野。

什麼樣的技術才能夠真正落地?要看開發者是否會自發地、主動地去研究這項技術,並且在工作中去應用它。因此,如 CSDN 一類的技術社區能一定程度上反映出未來的技術趨勢。報告中,可以看到人工智慧「三倍速增長」的時間點大約是 2016 年至 2018 年間,受 AlphaGo 的影響,這個概念於 2016 年得到廣泛關注,並在 2018 年達到最高峰,大量 VC 的資金狂熱湧入,現在稍有回落。

來源:CSDN 網站

除 AI 開源框架的應用,從全球 AI 開源框架的貢獻角度來看,中美仍有差距。在 CSDN 聯合 OSS Insight(PingCAP 出品)提供數據支持的全球 AI 開源框架 Star 數月榜 TOP20 中,儘管 6 個是中國開源項目,但無一進入 Star 數總榜前十,好在它們的發展勢頭十分迅猛。

截至2021年12月,百度「飛槳」深度學習平台(即 PaddlePaddle),已經衝破了過去在中國市場上 Google、Facebook(Meta)的壟斷局面,成為中國深度學習平台綜合市場份額第一,但 TensorFlow 與 PaddlePaddle 的 Star 數差距接近10:1。同時,TensorFlow 與 PaddlePaddle 的 Commits 數量,中美差距近 3 倍。儘管從 AI 發展歷程上,國外具有一定的先發優勢,但開源框架 Star 數和 Commits 數的欠缺仍能反映出中國開源生態中存在的些許問題,後面我將為大家詳細說明。

全球AI開源框架Star數4月、5月榜TOP2,來源:OSS Insight 數據

據前瞻產業研究院報告指出,中國 AI 的發展更偏向於應用層,且中國在應用層上也有一些優勢,但是要想取得真正的成功還得靠構建完整的生態。「重應用,輕生態」的 AI 開源模式並非長久之計。

那麼如何衡量開源生態是否良好呢?我認為要有以下三點,首先是項目社區的契合度;其次是產品市場的契合度;最後是價值市場契合度。其實人工智慧已經經歷過好幾輪春天與冬天了,而我認為 AI 在價值市場契合度方面還沒有完成閉環。現在真正的機會是把這三個閉環都完成,而這裡面都對應有具體的指標。

  • 項目契合度指標:包括 GitHub 上的 Star 數、協作者數量和拉取請求數量。

  • 產品市場契合度指標以下載次數衡量的自然採用率。

  • 價值市場契合度指標:RAS(可靠性、可用性、安全性);工具、插件;表現;審計;服務。

中國的現狀讓我們看到的問題是:項目契合度方面,Star 數不夠、Commit 數不足且過於集中在幾個主導開源項目的公司;產品市場契合度方面,用戶的貢獻與下載使用未形成完整閉環;價值市場契合度方面,商業化還有待發展。

打造良好開源生態從社區起步

中華民族自古以來是一個勤奮的民族,想要「彎道超車」並非難事。只是目前的開源生態尚且存在問題,甚至形成了一種「各自為政」的局面,這會導致內部消耗,增加用戶選擇成本,以及技術復用難度,阻礙整個行業的大規模發展。所以,開源生態建設對於中國的發展至關重要。

中國技術目前處於高速發展階段,以市場應用為第一先導暫且是可以理解的。走自己的道路,擁有自己的技術生態,我認為這是大勢所趨。

「美國道路」一直推行的是 AI 平民化。例如 Hugging Face 公司旗下被稱為是「機器學習界的 GitHub 」的 Transformers 成為史上 Star 增長最快的開源項目。Transformers 的 Star 數增長是 TensorFlow 的近 2 倍。由此看來,單一大模型本身有局限,從大模型里抽取出來的更普世、平民化的 AI 框架正在獲得更多開發者青睞。2022 年,一周之內完成了價值 1 億美元的 C 輪融資,Hugging Face 估值將達到 20 億美元。

讓更多的開發者和更多的公司能夠用起來才是最重要的。Hugging Face 取得巨大增長的原因也是如此。讓技術平民化、AI 平民化,為的就是讓更多的非技術人員成為程式設計師、讓普通程式設計師成為 AI 程式設計師。未來,讓技術能夠走進千家萬戶,是驅動所有行業大發展的基石。

中國打造良好開源生態的重中之重就是建好開發者社區,而社區中首先要有開發者的布道師。如今,布道師很搶手這是一件好事。曾經外國企業與我們合作在中國建生態,一路下來推動了技術大發展,現在也非常需要布道師來推廣,同時也需要有一些衡量指標來衡量這些開發生態的建設。當然這其中,貢獻者的數量非常關鍵。只有貢獻者數量豐富,才能說明這個產品不是在唱「獨角戲」,而是真正讓目標用戶參與進來了。他們既是使用者,也是貢獻者,這才是社區生態的核心價值。

那麼 CSDN 正在做一些什麼事情來推動中國 AI 開源平民化呢?

首先,CSDN 和 GitHub 形成了聯動,在前兩天已發布了內測版My GitHub,即 GitHub 精選,主要目的是讓中國開發者針對項目文檔等做一些中文介紹,以便讓中國開發者更好地使用,並且這些內容將與 CSDN 的內容進行打通。同時,我們和專業做代碼靜態分析和安全分析的 Scantist 公司合作,聯合推出了一個開源精選指數。

其次,我們希望每一個開源項目不光有代碼貢獻者,也要有內容貢獻者、生態貢獻者。因此,我們會發布一個社區雲,除了代碼社區以外,內容社區的貢獻者也都將作為開源項目的貢獻者加入到每一個開源項目裡面去。

最後,我們希望能提供更多具有 AI 開源能力的可交付產品,讓廣大的工程師能夠很方便地使用。

關於未來中國的開源會怎麼樣?我想在這裡做一個預測。

我認為全球開源 50 強,中國在未來的 5 年應該可以做到 30% 的占有率,具體在以下方面會有突破:

  • 第一是軟硬體結合方面我覺得中國是有優勢的,包括機器人、物聯網、智能汽車;

  • 第二是前沿技術,我們在人工智慧方面可以看到中國的研究能力,中國開源框架的技術能力全球領先。另外在分布式資料庫方面我覺得也有非常大機會。

CSDN 將擁抱中國開源技術生態,與業界攜手共同推動 AI 平民化、技術平民化的發展。

END

祝所有開發者朋友假期快樂,端午安康!

《新程式設計師001-004》全面上市

對話世界級大師,報導中國IT行業創新創造

暢享電子書及精美紙質書

成就一億技術人

關鍵字: