打造大模型「新Linux」生態!智源將大模型技術開源,算法、數據、評測全覆蓋

智東西 發佈 2024-04-29T15:01:33.636720+00:00

智東西3月1日報導,昨日,北京智源人工智慧研究院發布FlagOpen大模型技術開源體系,旨在打造全面支撐大模型技術發展的開源算法體系和一站式基礎軟體平台,支持協同創新和開放競爭,共建共享大模型時代的「新Linux」開源開放生態。

智東西

作者 | ZeR0

編輯 | 漠影

智東西3月1日報導,昨日,北京智源人工智慧研究院(簡稱「智源研究院」)發布FlagOpen(飛智)大模型技術開源體系,旨在打造全面支撐大模型技術發展的開源算法體系和一站式基礎軟體平台,支持協同創新和開放競爭,共建共享大模型時代的「新Linux」開源開放生態。

智源研究院院長黃鐵軍在致辭中分享說,移動網際網路時代只有封閉生態iOS和准封閉生態安卓,在智能時代的選項已經很清楚——真正的開源開放生態,是唯一的出路。

「智能時代需要真開源,不是安卓那樣的利用開源,不是某一企業控制的開源,而是完全在開源社區發展的大家的開源,就像Linux、RISC-V和2022年完全轉入開源社區的PyTorch。」他認為,「大模型時代需要這樣的開源,也只有這樣的開源體系,成為哺育智能之樹蓬勃生長的大地母親。」

LF AI&DATA基金會董事主席、華為計算開源業務總經理堵俊平也談道,AI研發特性建立在「充分協同」之上的創新,具有高度全球化、數據集、人才密集等特性以及周期長、投入高、風險高、落地門檻高等挑戰,因此開源可發揮關鍵作用。「未來,大模型領域一定會出現類似Linux的開源生態體系,開源開放加速AI技術創新。」

今日發布的FlagOpen(飛智)大模型技術開源體系,包括集大模型算法和工具為一體的大模型算法開源項目FlagAI、面向AI異構晶片的AI系統性能評測開源項目FlagPerf、大模型評測開源系統FlagEval、數據工具開源項目FlagData、基於大模型技術的AIGC應用FlagStudio、AI應用微服務框架開源項目FlagBoot等。

FlagOpen開源平台入口:https://flagopen.baai.ac.cn

GitHub地址:https://github.com/Flag-Open/FlagAI

會上,智源研究院還宣布開放中文世界首個開放數據標註平台OpenLabel,並與CSDN合作啟動」數據飛輪」開放數據互助公益計劃,旨在建設動態開放的重要大型數據集,為大模型、AIGC發展創建豐富權威的大模型訓練數據來源。

為了推動優秀大模型技術人才培養,智源研究院與中國移動研究院、中科曙光、國家先進計算太原中心合作,與多所頂尖高校聯動,面向交叉學科背景學生與相關領域學者推出大模型前沿訓練營,通過舉辦系列人工智慧前沿公開課、創新應用大賽與前沿講習班,為大模型技術研究和產業發展培養具有實戰經驗的系統性人才。

FlagOpen大模型技術開源體系已與中國移動、浪潮信息、崑崙芯科技、天數等多家知名企業達成生態合作,並將FlagAI開源工具部署在中國移動九天畢昇教育平台、浪潮AI Station等平台。

一、智力是智能時代公共產品,開源開放加速AI技術創新

北京市副市長於英傑和科技部高新司副司長梅建平出席工作會並致辭。

於英傑副市長指出,智源研究院發布的FlagOpen大模型技術開源體系,是智源及上下游生態合作機構聯合開展技術攻關的成果展現,為大模型技術創新提供了「北京貢獻」。

他對於大模型的發展提出了三點期望:一是要抓住大模型發展機會,保持定力,強化基礎,要聚焦源頭,創新底層技術,大力突破核心關鍵技術,搶占制高點;二是應用導向,推動大模型應用生態建設,要加快大模型創新應用開發及API服務開放,形成數據飛輪效應,發揮大模型的通用泛化能力,賦智經濟社會發展;三是科研機構、企業等要圍繞算法及技術研究、數據等加強協同創新,建立開源開放的合作生態。

梅建平副司長指出,面對大模型引發的人工智慧技術範式變革趨勢,科技部從2021年開始超前布局大模型旗艦項目群,著力打造開源開放的大模型創新生態體系。「人工智慧基礎模型支撐平台與評測技術」旗艦項目是整個項目群的核心,由智源研究院聯合30多家產學研單位共同承擔。FlagOpen大模型技術開源體系即是旗艦項目的階段性成果,將對我國大模型技術創新能力的提升提供重要支撐。

此外,他談道,為滿足大模型發展所需的算力需求,科技部正在推動建設「國家公共算力平台」和「中國算力網」,為科技創新和產業智能化轉型提供普惠算力。科技部也將組織探索研究大模型的倫理治理問題,讓大模型技術趨利避害,更好地發揮前沿技術的賦能作用。

智源研究院院長黃鐵軍分享了關於AI基礎模型及應用生態的內容,AI之爭最終是生態之爭,AI生態包括基礎軟硬體、基礎模型、創新應用三個層次,而基礎模型是AI生態的「腰」,AI基礎模型向上支撐賦智經濟社會各類應用,向下帶動基礎軟硬體智算體系。我國智能應用具有獨特優勢,基礎軟硬體則相對薄弱。

智源研究院院長黃鐵軍

恰適以基礎模型為橋樑,帶動AI基礎算法、雲邊端晶片和開源開放平台研發,構建自主可控的基礎軟硬體技術體系和匯融算力及數據資源的國家智算體系;打造AI基礎模型開源技術體系,助力產出規模和性能國際領先的模型,支撐應用創新和國際拓展。

自18世紀以來,每次技術革命都伴隨著新的基礎設施建立和完善。在智能時代,算力和數據是生產要素,算法是工藝,智力是公共產品。在智能時代,大模型和基礎軟硬體都需要加快建立AI開源開放生態,走「Linux+RISC-V」之路。

智源研究院2020年搭建大模型攻關團隊,2021年6月推出當時規模最大、性能領先多模態大模型「悟道2.0」。為了推動大模型方向的協同創新,在「科技創新2030」新一代人工智慧重大科技項目支持下,2023年初,智源研究院聯合30多家產學研單位共同承擔的旗艦項目「人工智慧基礎模型支撐平台與評測技術」全面啟動。經2個月集中攻關,開發出FlagOpen(飛智)大模型技術開源體系。

據介紹,「新一代人工智慧」大模型旗艦項目採取「1+X+Y」項目群,「1」即AI基礎模型支撐平台與評測技術,「X」即通過「賽馬制」動態遴選一批關鍵技術項目,「Y」即一批應用示範項目。

2023年,「新一代人工智慧」大模型旗艦項目立項支持了8項關鍵技術項目,今年將對這8項關鍵技術項目及所有願意參加協同創新的技術和算法組織公開公平的評測,遴選優秀算法和技術進入大模型開源體系,得到國家項目支持但貢獻小的團隊將被淘汰,未得到國家項目支持但貢獻大的團隊來年將優先得到支持。

未來三年,新一代人工智慧」大模型旗艦項目將致力於打造更強大的多種模態訓練及評測數據體系、最完整的大模型評測平台、領先的大模型技術開源體系(FlagOpen)。

二、FlagOpen:建設大模型領域的「Linux」

智源研究院副院長兼總工程師林詠華在演講中談道,大模型+AIGC帶來了當前AI的可能拐點,大模型工業應用探索初見成效,AIGC的成功需要大模型技術全棧的創新突破。

對此,智源研究院與多家企業、高校和科研機構共建的一站式、高質量的大模型開源開放軟體體系——FlagOpen(飛智)大模型技術開源體系,包括大模型算法、模型、數據、工具、評測等重要組成部分,旨在建設大模型領域的「Linux」。

基於FlagOpen,國內外開發者可以快速開啟各種大模型的嘗試、開發和研究工作,企業可以低門檻進行大模型研發。同時,FlagOpen大模型技術開源體系正逐步實現對多種深度學習框架、多種AI晶片的完整支持。

FlagOpen將通過Linux基金會、啟智社區等開源組織,推動國內外開發者協同創新。通過開源開放方式,全球開發者可以自由探索、共同貢獻、協同創新。未來,FlagOpen也將支撐全球AI企業、機構基於FlagOpen構建AI大模型軟體發行版本、平台、商業軟體等。

智源研究院發布FlagOpen飛智大模型技術開源體系,主要包括:

1、FlagAI:大模型算法、模型及工具一站式開源項目

FlagAI項目提供了一站式領先、高質量的高效、易用、靈活的大模型算法與工具,旨在降低行業企業使用大模型的開發和應用門檻,提高大模型的開發效率。

該開源項目現涵蓋涉及語言、視覺、多模態等多種模態的60多個國內外主流開源基礎大模型,包括如語言大模型OPT、T5,視覺大模型ViT、Swin Transformer,多模態大模型CLIP等;以及大模型的各種優化工具,包括訓練並行、加速技術、高效壓縮、高效微調、推理加速等開發工具,可支撐大模型的多領域下游任務。

智源研究院也持續將「悟道」大模型項目成果開源至FlagAI,包括「悟道2.0」通用語言大模型GLM,「悟道3.0」視覺預訓練大模型EVA,視覺通用多任務模型Painter,文生圖大模型AltDiffusion(多語言),文圖表徵預訓練大模型(多語言)、EVA-CLIP(英文),阿拉伯語大模型ALM,百億語言基礎模型CPM3等。

目前,FlagAI已經加入Linux基金會,吸引全球科研力量對大模型技術共同創新、共同貢獻。

項目地址:

https://github.com/FlagAI-Open/FlagAI

2、FlagPerf:面向多種AI硬體的一體化評測引擎

AI硬體評測對AI生態有重要價值,但由於AI軟硬體技術棧異構程度高、兼容性差,應用場景複雜多變,給評測本身帶來了很多挑戰。當前業界缺少被廣泛認可的、中立的、開源開放的、針對異構晶片的評測體系。

面向AI異構加速系統,FlagPerf提供了一套開箱即用的通用Benchmark平台,希望共同探索開源、開放、靈活、公正、客觀的AI硬體評測體系,建立支持多種深度學習框架、最新主流模型評測需求、易於AI晶片廠商插入底層支撐工具的AI系統評測生態,不以排名為核心目標,而以提供行業價值、促進AI產業生態發展為願景。

目前有多家單位參與共建或試用FlagPerf,該項目已和天數智芯、百度PaddlePaddle、崑崙芯科技、中國移動等深度合作,共同推進AI硬體評測建設。

項目地址:

https://github.com/FlagOpen/FlagPerf

3、FlagEval:多領域、多維度的基礎大模型評測開源項目

學術界一直缺乏能涵蓋多種模態領域、多種評測維度的統一化評測體系和項目。尤其在AIGC的發展浪潮下,如何對生成任務進行更高效、更客觀的評價,是阻礙大模型落地的重要制約。

智源研究院將聯合多個高校團隊,共同打造覆蓋多個模態領域、包含評測維度的評測工具FlagEval,探索大模型自動評測技術,推動大模型技術創新和產業應用。

FlagEval旨在打造一站式的科學、公正、開放的基礎模型評測基準及工具形成基礎模型評估新範式,首先開放近期備受關注的多模態領域-CLIP系列模型評測工具,支持多語言多任務、開箱即用。之後更多領域、更多維度的評測工具將陸續發布。

項目地址:

https://github.com/FlagOpen/FlagEval

4、FlagData:開箱即用、易於擴展的數據工具開源項目

隨著大規模預訓練模型及相關技術不斷取得突破,在相應研究中使用高效數據處理工具提升數據質量變得日益重要。智源研究院長期投入數據建設工作,構建了全球最大WuDaoCorpora語料庫,同時開發了一批數據處理的高效工具。

FlagData數據工具開源項目集成包含清洗、標註、壓縮、統計分析等功能在內的多個數據處理工具與算法,可實現從原始網頁到文本的清洗隱私、噪聲、安全性過濾,支持多種文本、圖片標註任務,助力提高數據處理效率。

項目地址:

https://github.com/FlagOpen/FlagData

5、FlagStudio:利用AI大模型支持藝術創作應用

FlagStudio基於AltDiffusion和AltDiffusion-m9文生圖大模型提供中英雙語和9語(英語、中文、日語、法語、韓語、西班牙語、俄羅斯語、義大利語、阿拉伯語)文生圖能力,並提供微信小程序圖片快速生成入口,提供企業端API調用。

該開源項目提供多種預訓練模型,能夠大幅降低文生圖prompt(提示詞)撰寫門檻,而且支持圖片局部修改,可提升文生圖算法的可控性,同時支持多模型快速切換和圖片快速生成。

為促進人工智慧與經濟社會發展深度融合,智源聯合多家單位開展大模型行業應用探索,主要有:聯合中國移動研究院建立AI基礎模型服務開放實驗室,面向行業應用場景的聽覺內容分析等領域進行大模型研究與應用;聯合浪潮信息建立大模型開源生態聯合實驗室,共同推動國產AI硬體底層軟體的完善;聯合中國電子云建立大模型國產算力雲平台開放實驗室,探索國產CPU的大模型適配部署;聯合航天信息建立智慧政企人工智慧開放實驗室,探索稅務、政務領域的模型能力調優、模型研發、算法研究等;聯合啟元世界建立認知決策大模型開放實驗室,探索AI NPC、數字人AI等場景的大模型應用;聯合核桃科技建立國產3D圖形化AI編程平台開放實驗室,共同開展基於開源體系的國產化編程平台工具研發。

三、ChatGPT相當於點亮一個街區,距離電服務進入千家萬戶還有很長的路

會後,智源研究院院長黃鐵軍、智源研究院副院長兼總工程師林詠華接受智東西等媒體的採訪。

林詠華告訴智東西,不同於MLPerf等基準測試網站,AI硬體評測開源項目FlagPerf旨在解決硬體在產業落地困難的問題,降低晶片廠商和用戶企業為建設評測體系而付出的大量成本,以促進更多晶片企業的成功。如果用戶企業想要做評測,直接下載這樣的開源軟體即可很方便地進行一體化評測。

此外,MLPerf雖然定期公布新的評測榜單,但很少更新疊代評測集,難以跟上最新的大模型、AIGC的系統評測需求。相比之下,FlagPerf評測包中會第一時間將用戶企業關心的新AI應用,尤其是大模型應用納入其中,以對AI系統進行評測。

談及開源的考量,林詠華說,當前的FlagOpen還是處於初級階段。「一方面,我們希望通過開源發布,讓更多企業和團隊可以更加便利、開放地進行創新合作,從現在開始,共同推進FlagOpen往前發展;二是幫助缺乏大模型開發經驗的團隊藉助FlagOpen,可以快速上手開展大模型的研發。」

智源研究院副院長兼總工程師林詠華

黃鐵軍談道,大模型不是一切,只是露出海平面的冰山一角,ChatGPT或大模型是將AI轉入全民應用的代表性產品,但遠非AI技術生態的全部。

他用電力打了個比方,現在AI相當於發展到有企業搭建了小型電網、服務一群用戶,做大模型只是說明造出了發電機、可以發電,ChatGPT相當於點亮了一個街區,但距離建設更大範圍的電網、讓電作為服務進入千家萬戶還有很長的路。這個路背後就是大量的技術研究與創新合作。

他希望大家的關注焦點從海平面上的部分現象級應用或大模型產品回到底層技術體系和持續不斷的創新,從長遠考慮,打好根基,形成完整的大模型技術體系及強大的資源能力,未來才能產生更多的「ChatGPT級」的現場級應用。

FlagOpen正是為了建立大模型技術體系而開展的基礎性工作,通過開源開放的形式促進各類機構共創共享,形成良好生態,共同打牢大模型發展根基,未來將面向各類企業提供大模型相關技術服務,支撐各行業智能應用開發。

結語:開源開放,才能走向下一代人工智慧

由於現有AI算法存在難以透徹理解的技術特性,開源開放方能推動AI基礎技術發揮最大效益,淘汰低水平重複項目,並加速成果轉化。

近年來,得益於底層基礎技術的創新突破,大模型發展成全球競爭熱點,但從數據清洗到模型訓練、調參優化再到部署運營,每個環節都要消耗大量的資源和時間,高昂的開發和疊代成本,嚴重阻礙了下游的推廣和應用,導致大模型至今仍是少數人的「遊戲」。

而FlagOpen大模型技術開源體系的推出,為企業、高校團隊及科研機構提供了一個驗證大模型相關技術創新性、降低開發及應用門檻的平台,並將業界現有資源形成聚力,這將對加速構建模型技術創新體系和生態發展產生積極的影響。

關鍵字: