衡宇發自凹非寺

量子位 | 公眾號 QbitAI

「要做中國的OpenAI！」「要打造中國版ChatGPT！」ChatGPT的火以燎原之勢蔓延到每一個角落。

人們目光的焦點聚集到這個具體的現象級應用，或者其它大模型支撐的類ChatGPT產品上。大模型似乎成為了人人都能參與的遊戲？智源研究院院長黃鐵軍並不這樣想。

ChatGPT的出現，好比用電燈點亮了一個街區。
但是要建全國、全球的電網，中間還有很長的路要走。

「很長的路」上，技術、資金、算力、算法、基礎設施，搭建了一道難以攻破的壁壘。要繼續前行，得鑿開壁壘，開鑿的斧頭應是大量的技術研究和創新合作。

智源研究院就提供了這麼一把斧頭，它聯合30多家產學研單位，開發了FlagOpen（飛智）大模型技術開源體系。這也是國內首個大模型開源體系。

△黃鐵軍

黃鐵軍表示，希望大家的關注點從AI「海平面以上」冰山一角的大模型，回歸到「海平面以下」的AI技術生態的全部，尤其是技術體系上。

一枝獨秀，不如降低AI的應用門檻

2022年的雲棲大會上，阿里推出了AI大模型開源社區「魔搭」Model Scope，推出伊始，達摩院就向社區貢獻了300餘個AI模型，全面開源開放。

FlagOpen是否意味著又一個魔搭的誕生？智源研究院副院長兼總工程師林詠華解釋了二者的不同。

「魔搭有點像抱抱臉（HuggingFace）」林詠華談道，「FlagOpen和魔搭不一樣的地方是，我們的主要目標不是構建一個聚集很多人的繁華社區，而是推動大模型技術的發展。」

基於這個目標，FlagOpen配套了六個模塊，分別是FlagAI、FlagPerf、FlagEval、FlagData、FlagStudio和FlagBoot。

FlagAI

FlageAI集成了很多主流大模型算法技術，以及多種大模型並行處理和訓練加速技術，並支持微調。目前涵蓋的模型包括NLP、CV與多模態等領域，如語言大模型OPT、T5，視覺大模型ViT、Swin Transformer，多模態大模型CLIP等。目前，FlagAI已經加入Linux基金會。

「悟道2.0」通用語言大模型GLM，「悟道3.0」視覺與訓練大模型EVA，視覺通用多任務模型Painter，文生圖大模型AltDiffusion（多語言），文圖表徵預訓練大模型（多語言）等智源研究院「悟道」大模型項目多個成果也開源在FlagAI。

FlagPerf

AI軟硬體評測面臨異構程度高、兼容性差、應用場景複雜多變的挑戰。FlagPerf搭建的AI硬體評測體系，支持多種深度學習框架，及時跟進最新主流模型評測需求，便於AI晶片廠商插入底層支撐工具，且不以排名為核心目標

截至FlagOpen體系發布，FlagPerf已和天數智芯、百度PaddlePaddle、崑崙芯科技、中國移動等進行合作。

FlagEval

FlagEval是覆蓋多個模態領域、包含評測維度的評測工具，首先開放的是近期很火的多模態領域-CLIP系列模型評測工具，支持多語言多任務、開箱即用。

FlagData

FlagData數據工具開源項目集成包含清洗、標註、壓縮、統計分析等功能在內的多個數據處理工具與算法。此前，智源研究院已經構建了WuDaoCorpora語料庫。

FlagStudio

FlagStudio是文生圖、文生音樂等藝術創作相關的開源項目集合，集合的算法和模型更貼合中文場景，當前主要提供智源研究院文生圖相關能力的應用。

FlagBoot

FlagBoot是基於Scala開發的輕量級高並發微服務框架，默認完全異步，且沒有宏、隱式轉換等晦澀難懂的代碼。極少的代碼量便於開發者輕易了解背後邏輯，而後進行自定義修改。

「大數據+大算力+強算法=大模型」是當前AI發展的主流，用FlagOpen，開發者尤其是初創公司，可以嘗試大模型的開發和研究工作，換句話說，AI的研發、應用門檻被降低了。

以大模型為主導的方向提供基礎開源體系，某種意義上，智源研究院在追趕ChatGPT產品的熱點上退了一步。這或許是其非營利性機構的性質使然。

而ChatGPT背後的OpenAI，也是打著非營利性機構的旗號出道的（2019年3月1日，OpenAI LP子公司成立，旨在營利）。同樣的機構性質，同樣押注AI，並關注大模型賽道，

智源研究院有打算，或者可能成為中國的OpenAI嗎？

ChatGPT每日調動後台參數的成本已經是天文數字。如果要在中國打造一個OpenAI，需要多少成本打底？

「智源要不要做一個OpenAI，很難簡單做對比。」黃鐵軍回答這個問題時說道，DeepMind、OpenAI和智源研究院是同類機構，但不能簡單等同。追求AI前沿，做開放研究是三家機構的共鳴；沒有大量投資就沒有那麼多人做大量探索，三個機構也都有各自的社會資源投入辦法，比如微軟剛追投了OpenAI100億美元。

但黃鐵軍同時表達了自己的不解，那就是：中國版的OpenAI怎麼定義？

「某種意義上，這就是很不清楚的問題。」

我沒有批評的意思。但是有人站出來說要做中國的OpenAI，他到底是什麼意思？是想和OpenAI一樣有100倍的盈利嗎？更多的還是要問想做中國OpenAI機構那個人，他眼中的定義是什麼。

開源的打不過封閉的？

PC時代，Linux打破Wintel聯盟的壟斷；在iOS的封閉生態和Android的准封閉生態下，開源的RISC-V異軍突起。開源意味著開放，意味著多家機構同時維護帶來的風險降低和問題減少。

FlagOpen是國內首個大模型開源體系，智源研究院拿出了這樣的態度：

大模型時代，需要這樣的開源。智能時代需要真開源，就像Linux、RISC-V和2022年完全轉入開源社區的PyTorch。

聊到此處，林詠華表示更願意把FlagOpen類比為大模型領域的Linux。

但有一種說法廣為流傳，即開源雖好，能讓得到更好的疊代和更新，但開源的打不過封閉的。

對這個問題，黃鐵軍做出了回應。他稱Linux的成功，不是因為把其它作業系統都打敗了，而是在整個市場競爭中占據了主要份額。

開源開放應該是一個大趨勢，大部分情況下，以開源形式或以開源形式為基礎的產品會占據較大的份額。

與此同時，在某一特定方向上，有一個閉源產品做得更好並不奇怪。這不等於誰打敗了誰，而是大家在滿足用戶需求時做出了不同選擇。

開源是FlagOpen的選擇，來一起看看這個選擇現階段的成果——

登陸GitHub可以看到FlagOpen體系里各個項目的標星，標星最多的是FlagAI，尚不過千，最少的標星量只有幾十。另外還可以觀察發現，開源體系中只涉及推理方面，沒有涵蓋訓練部分。

林詠華表示這是智源的策略，即不是等做到完美再開源，而是把種子點做了之後就開源，以此方便各個企業之間在沒有商業合作協議的情況下就能互相合作。

選擇現在公布FlagOpen開源體系的另一個原因，是現在大模型火上了天，有很多沒有接觸過大模型的初創團隊也開始嘗試自己訓模型。

工欲善其事，必先利其器，「既然有這麼多人想做這件事，我們在這個時候開源出來，是想給予我們的經驗，讓他們更加順利往前走。」

— 完 —

量子位 QbitAI · 頭條號簽約

關注我們，第一時間獲知前沿科技動態

要做中國OpenAI的很多，但智源要打造大模型領域的Linux