元宇宙聊天室|工程師為全球開源做出巨大貢獻,國家有鼓勵機制嗎?

澎湃新聞 發佈 2024-04-07T02:12:25.418909+00:00

2月25日下午,在「AI與開源:社區的社區」話題討論中,Kyligence聯合創始人兼CTO李揚,CSDN創始人&董事長、極客幫創投創始合伙人蔣濤,Linux Foundation APAC布道者主席李建盛和上海市人工智慧行業協會秘書長鍾俊浩探討了開源的重要性、開源社區的建設和工程師待遇等話題,嘉賓還特別談到了ChatGPT背後大模型的開源問題。

·「如果我是領跑者,一切以經濟為基礎,我肯定更願意封閉一些。就好像蘋果在領跑那段時間,它也願意建立一個相對封閉的生態,因為它能夠從中拿到更多的錢。ChatGPT目前看起來似乎就是在這個位置。」

【編者按】2023全球人工智慧開發者先鋒大會期間,澎湃科技在上海臨港中心會場開設「元宇宙聊天室」。2月25日下午,在「AI與開源:社區的社區」話題討論中,Kyligence聯合創始人兼CTO李揚,CSDN創始人&董事長、極客幫創投創始合伙人蔣濤,Linux Foundation APAC布道者主席李建盛和上海市人工智慧行業協會秘書長鍾俊浩探討了開源的重要性、開源社區的建設和工程師待遇等話題,嘉賓還特別談到了ChatGPT背後大模型的開源問題。以下為對話實錄,有刪減。

去大廠實習不如去開源社區

鍾俊浩(上海市人工智慧行業協會秘書長):我想請李主席先給我們講講布道者,它是什麼意思?為什麼叫布道者?

李建盛(Linux Foundation APAC布道者主席):從技術角度來講,有很多說法。把自己的知識傳播出去,知識是需要傳播的,作為一個知識火種的熱情傳播者,就叫布道者。它最初源於宗教,現在對於我們技術開發者來說,技術就是我們的宗教,我們都對某一類技術狂熱,比如像我是Linux的超級粉絲,或者我是Java的狂熱粉絲。其實我是開源布道者,很多人認為開源為什麼需要布道呢?我們很多時候小瞧了開源,我作為一個從業20年的人,從接觸開源開始,挖掘開源的東西越多,發現不是那麼簡簡單單兩句話就可以解釋開源,我可能需要寫三本書才能把這兩個字闡釋得清楚一點。

再說下我們LF APAC布道者團隊,我是今年當選為主席的。Linux是一個開源技術,也是一個開源社區,後來也成立了開源基金會,是目前為止全球最大的基金會之一,相當於承載了我們很多現代化數字基礎設施的一個非常重要的項目。Linux Foundation亞太區要傳播技術和理念,讓技術人員擁抱技術,讓企業、組織受益,所以招募了一批人,這批人不領薪水,純粹是志願者的方式做事。

鍾俊浩:開發者天生地一到開源社區里,本身就一定要開源,貢獻出自己的代碼。也有人告訴我,開源不代表未來沒有商業價值。

蔣濤(CSDN創始人&董事長、極客幫創投創始合伙人):我跟你講個故事吧,我是程式設計師出身。對程式設計師來說,他最終的價值就是被輸出成代碼。所以代碼是不是收錢、代碼有沒有價值?比爾·蓋茨就曾經寫了一封信,說代碼是我們辛辛苦苦寫出來的,為什麼不能賣錢呢?所以微軟奠定了微軟帝國,微軟就是賣軟體出身的,所以軟體可以賣錢。

但同時就出現了一個人,自由軟體的發起人理察·斯托曼(Richard Stallman)說你可以賣錢,但你的代碼要對我公開。因為我買了一個家電,它出了問題我可以去修復,你可以賣軟體給我,但你得讓我修啊。過去的軟體叫closed source(閉源),就是把軟體鎖住了。理察·斯托曼說軟體不應該被封閉在裡面。再延展,那就一定要把代碼公開。所以到1998年,一伙人就提出來free software(自由軟體)。我們是不是能把它改一下,改成open source,開源就這麼發展出來的。

把代碼開源,怎麼能讓它傳遞價值、每個人又能做貢獻?這是有文化的,有各種各樣很多很深的道理在裡面。我講一個淺一點的,我自己是程式設計師出身,做過金山詞霸,詞霸1和詞霸2是我寫的。當時我們做真人錄音,找了老外來錄發音,我給他一個單詞表,他念完,我錄下來,變成一個單詞,我得切音,這就是我寫的程序,一個人念了一串話,我要把它切開。那時候開源沒有這麼豐富,我找不到代碼就自己寫了一段,效果不好。所以詞霸1和詞霸2的單詞念到最後尾音有可能不是很準確,因為我切得不好。

後來我出來創業,我做了一個複讀機,就是你念一段,我就給你復讀一段。我也需要切音,那時候網際網路起來了,我就到網際網路上去找,也沒找到。我提了一個問題,就是我要分辨出一個人說的一句話里一個字的切音。有一個專家論壇說,大家可以互相交流。有一個德國人就說,你這個問題很簡單。他說你給我100分(積分),我就給你一段代碼。我把他的代碼拿過來一試,完美,比我寫得好太多了。後來我問他,這個代碼我能用嗎?他說這是開源的。他們是干語音識別的,這個功能是他們最基礎的功能,而且是公開代碼,隨便拿去用就行了。

所以人類的進步是科技帶來的,科技是共享和開放的,軟體是屬於科技的,軟體的開放就是要把原始碼開放出來,人類的智慧結晶都在這個領域。但是你光開放不行,開放得有經濟模型,所以最近這些年,開源又得到了巨大的發展,是它的商業化和做開源生態都被接受和認可了。華為現在投入開源,看到開源對它在產業里建立龍頭地位很重要。開源不等於免費,開源甚至和商業現在有很緊密的聯繫。但是程式設計師都熱愛開源,因為你想學東西。現在最好的軟體的代碼都是開源的,你可以學到全世界最優秀的程式設計師寫的東西,這是人類的財富。

鍾俊浩:第一類是大家為了技術而在一起形成了這麼一種技術型的開源社區。第二類是這次全球人工智慧開發者先鋒大會邀請來的大概有四五十個開源開放社區,我也看到有一些學習型的組織,大家共同成長和學習。第三類是為可以商業化的項目而構成的組織。

李揚(Kyligence聯合創始人兼CTO):這還挺有意思的,一個是社區,一個是免費的開源,還有一個是商業。有一句話叫社區比代碼重要,正好能夠呼應布道者。沉澱的是人類的知識,代碼是知識的一部分,還有描述設計理念的文檔,一些軟體的項目管理工程,它記錄了知識被開發出來的過程。什麼時候有了這個想法,什麼時候是第一稿設計,什麼時候是第一次代碼成型,什麼時候測試,這些都是代碼之外更大的知識。所以傳承的開源理念是知識,代碼是知識的一部分,承載著知識的人可能更重要,慢慢又演化出了這種想法。

既然知識都開放了,商業怎麼做?可以為愛發電。但也不可能所有人都為愛發電,這又不是永動機。這就聊到了開源的商業模式這個話題。我先說個簡單答案,企業尤其是傳統行業採購一個開源軟體,它主要是為了服務,它採購的本質是一個技術服務。

鍾俊浩:我打斷一下,既然開源了,為什麼要採購?

李揚:我用一個黑話的例子,特別好理解。因為我在IBM做過一段時間,以前在IBM有一句黑話,沒有甲方會因為買了IBM而被開除。啥意思?如果我是個金融企業,我買了IBM的資料庫。有一天銀行金融服務垮了,IBM會出來背這個鍋,IBM會說我錯了,我系統沒做好。IBM會來幫甲方當時做採購決策的採購經理承擔責任,來幫他一起解除危機。用最快的速度來修復問題,這就是我說的技術服務的意思。哪怕我把整個免費的代碼,包括它相關的知識都給到你,你自己來運營這個生意,你就需要為這個基礎設施負全責。但你可以通過採購技術服務的方式,把這一部分責任分攤出去。

李建盛:換一個角度去看商業付費的問題,剛才蔣總提到一個很好的事情,如果一個開源項目解決了我們的實際問題,那麼它有意義存在。不管是什麼項目,軟體、工程、建築,或者人工智慧,你要進入項目,肯定需要各方面的資源。首先解決人的、物的,這個時候我們需要融入大的社會裡,其中就有很多方式。第一種就是建立商業信任,IBM樹立的品牌完全是個商業邏輯,你信任我,我信任你,大家可以背靠背地幹活,這是商業非常注重的一個基石,就是信任,不管我的代碼是不是開源的,你應該通過付費來把事情搞好,這是其中一種方式,商業被我們現代世界所接受。

另外一種就是捐贈。比如Linux Foundation去跟政府註冊一個合法組織,接受社會、個人、企業、政府的資金。全世界的企業和組織去幫助一個對所有人有好處的項目,讓它用起來,這是一個非常令人讚嘆的工程。

鍾俊浩:這是靠大家的熱情嗎?

蔣濤:有人願意花錢解決問題,有人願意花時間解決問題。來了個開源項目,我自己折騰就花時間了。但自己折騰能不能保證把這件事情做好呢?那要對自己有信心。不願意花錢,這是一類人,80%是這種人,他出不起錢,或者他願意花時間。還有一類人願意花錢,比如銀行願意花錢,因為可靠性很重要。這兩種形成了一個生態。再說捐贈,銀行用了這個東西,銀行說我還有一些功能你能不能做?它就形成了一個社區。社區又分為,不給錢的用戶也提需求,給錢的用戶也提需求。你想影響這個項目,那就多給點錢。所以生態有很多種玩法。

鍾俊浩:開源的商業形態還是挺多樣的,並不是像大家所想像的由於開源開放,所以就一定是大家免費享有所有待遇。

蔣濤:應該投身開源。第一,你可以學到全世界最好的技術和最好的知識。你說哎呀我能不能把我們家小孩送到百度實習。不用,你送到Linux社區效果要好很多。開源是全世界最好的技術展示,而且你提出問題還真有人解答你;第二,做好開源可以賺到錢。

李建盛:關於免費的理解,有一些經濟學家應該科普一下,天下沒有免費的午餐,它裡邊有個學名,叫機會成本。其實當你選擇了開源項目時,你已經投入了很多資源,你可能沒有辦法選擇其他方式了。其實這就需要算,你投入開源的時間和資源,跟你花錢買的,這中間有沒有什麼差異。很多公司就因為這個把自己的技術拖到深淵。

網際網路帶給我們所有人的變革,就是協作的變革。今天來到臨港,幾千人的大聚會,這種事情不可能經常發生,一年一次,最多兩次,又耗錢又耗人。但網際網路給我們什麼機會呢?我在北京,李揚在上海,我們另外一個朋友可能在土耳其,全球化連接起來,不再區分地域去協作,坐在電腦前,我們只需要一台可以上網的電腦。當然現在就更多了,像代碼倉庫,甚至你可以跑到一些雲伺服器里驗證你的模型。它降低了所有人協作的門檻,又不分地域。

在信息知識生產方面,開源帶來了全新的一種協作,這是它最最厲害的地方,信息產業的人能夠去聚焦全球,這是原來幾乎不可能發生的事情,地理的位置全部消失了,這個協作是前所未有的。哪怕我們身邊可能很難遇到跟你相同的問題或互補的問題,但那麼多人因為一個共同的問題協作起來,這是相當了不起的一件事。

李揚:說到開源和國際化這個問題,我還是有一些熱情的。從精神層面上,開源的精神一定是一個國際化的東西。但前面也聊到了,就是開源社區。從精神落到一個具體的個體時,開源社區有各種各樣的動因。它成立的動因、背後的支持者,如果背靠一個、兩個、三個公司,多少又會帶入一些商業屬性進去。但我覺得這是很正常的,這個世界是彩色的,沒有那麼簡單又純粹的東西。如果一定要說一個大小頭的話,我覺得大部分開源社區裡的貢獻者還是有一份情懷在的。他(她)會感覺到人類的知識作為一個整體真真實實地在一代一代傳承下去。

2月25日下午,「元宇宙聊天室」的「AI與開源:社區的社區」話題探討了開源的重要性、開源社區的建設和工程師待遇等話題。左起依次是上海市人工智慧行業協會秘書長鍾俊浩,CSDN創始人&董事長、極客幫創投創始合伙人蔣濤,Kyligence聯合創始人兼CTO李揚,LF APAC布道者主席李建盛。

「搞一個開源的特區政策」

鍾俊浩:上海在世界人工智慧大會之下是孵化過開發者大會的,其實之前有三屆了,到這一屆準確來講是第四屆。第四屆比較獨特,是作為一個新的IP獨立出來了。我們已經看得到有很多開發者社區,開發者社區需要什麼?或者推動上海三大先導產業過程中,能夠幫助開發者社區去做好哪一些事?我們要如何做好社區的服務?怎麼讓這些社區做得更好?怎麼做好「社區的社區」,讓這些社區能夠在上海更好沉澱下來?

蔣濤:像我們這種大規模型社區,必然要有一定的商業化考慮。首先要有錢,錢從哪裡來?政府出錢能不能做社區,現在也不好說。國際上沒例子,中國有沒有模型,我覺得要看。

本質上來講,開發者社區和開源社區的變現,這是個國際性難題。所以我們的競品都賣掉了,全球第一大開源平台賣給了微軟,英文第一大開發者內容社區賣給了南非的基金,也就是騰訊的母公司。頭部開源項目能掙錢,腰部開源項目不掙錢,也是一個世界難題,國外有非常多的研究。整體來講,不是說國家怎麼支持,而是中國的開源文化、開源體系怎麼走出我們的特色。一方面可能要跟國際接軌,一方面可能要發揮我們一定的優勢。比如工程師的榮譽。在學校就有教授、助理教授。工程師可能給全世界的開源項目做出了巨大貢獻,他還不如隨便一個學校畢業的碩士,現在碩士滿地走。但他為全世界的開源做了貢獻,國家的評價體制對他有鼓勵嗎?

鍾俊浩:這一段時間,我們圍繞人事協會,在推動人工智慧整體的產業和人才培育高地的時候,倒真的開始在研究這方面的嘗試。我們現在就在考慮論文的引用量,已經在考量這個指標了。第二是在開源開放社區當中的貢獻值,我們也開始考量。

蔣濤:很多開源項目有一個經濟帳。反過來,國家也要把經濟帳算好,怎麼給予開源方向、AI方向各種各樣的扶持和支持,搞一個開源的特區政策。

鍾俊浩:或許可以在臨港嘗試。

李揚:這裡確實說得對,就是價值閉環,閉環了以後可以螺旋上升,這是一個關鍵的機制。我倒是有一個很不成熟的想法。最近自然語言模型ChatGPT很火,有一種理解,就是這個模型的能力其實是來自於它學習了所有貢獻給它語料的人的知識。按照這個價值鏈條邏輯來說,是不是我貢獻了我的知識給一個AI模型,這個AI模型建造出來以後,它產生的服務能力以及服務產生的商業價值,如果能夠回饋到提供智慧給AI學習的那群人,這就好像形成了閉環,這其實適合所有知識貢獻者。

如果投影到代碼開源的社區里,這也可以有一個具體例子。比如我有一個機器人,它學習GitHub(全球最大的開發者社區)上所有的開原始碼,學會編程了,不就可以幫所有程式設計師寫程序了嗎?我作為給這個開源社區貢獻過算法的人,是不是可以優先來使用它,來幫我寫程序?或者我有一個折扣,好像挺合理。而且今天的信息技術應該是可以做到的。因為我上面說到的這些知識資產,其實都在數位化,都已經被系統管理了,帳本是捋得清的,雖然可能工作量很大。

李建盛:我從布道的角度談一談關於建社區這個事。我們要相信知識的力量。當一個人掌握了一些知識的時候,他能夠洞悉所有機理的時候,他會做出自己的選擇。我們是站在擁抱開源這一方的,但有很多人是站在詆毀開源或者認為開源不可行的一方。我做布道就是要普及知識。普及知識當然有國家傳統的教育通道,還有培訓機構,但我們從個人角度搞聯盟。我認為從地域的角度來說,比如臨港可以搞一些文化沙龍,聊聊項目、聊聊問題。我們要打造這種文化高地,先讓知識流動起來。

鍾俊浩:最後一個問題。在ChatGPT這種狀態下,我們也知道類ChatGPT的開源也開始有了,大家分析一下,這種非常有前瞻性的模型,它的開源或者閉源路徑會是怎麼樣的?

李建盛:我最近讀完一本書叫《算法的力量》,開源的書里有一本很經典的叫《代碼2.0》。這兩本書有一個共同點,它們沒有說開源還是閉源,而是說它是我們社會上的力量,有商業的力量,有政府的力量,有法律的力量,有技術的力量,這四種力量在膠著。開源也好,閉源也罷,我們政府能不能承擔這個成本,普惠大眾。我們這個世界不是一分為二地開、閉。我們都是利益的綜合平衡。

有的時候商業的力量很強大,我把高新技術控制住了,我當然可以坐地起價,但政府允許你嗎?法律會允許你嗎?社區會允許你嗎?這是各種力量的膠著。我覺得我們每個人都要去做出平衡,努力讓它開源,也得均衡背後推動者的力量。開閉之間,長久來看我們都得開源。但在某個階段,就好像我們去跟商人達成和諧一樣,你讓人家有利益。

李揚:如果要說ChatGPT和開源,我覺得是有一層領跑者和追趕者的邏輯。如果我是領跑者,一切以經濟為基礎,我肯定更願意封閉一些。就好像蘋果在領跑那段時間,它也願意建立一個相對封閉的生態,因為它能夠從中拿到更多的錢。ChatGPT目前看起來似乎就是在這麼個位置。所以它如果選擇封閉一些,我覺得非常合理,這是符合底層經濟原理的。

從追趕者的角度來說,它就更適合開放的模式。因為它會犧牲一些短期利益,但長期會促進交流,火花碰撞,技術進步更快。這一段政府可以發揮很大力量,從最長遠的角度,政府有最長的眼光和魄力來做長期投入。

我也很希望國內類似ChatGPT的技術很快起來。但在起來這個階段,我們需要最大力度去開放,把開放的姿態打開。而且這裡我覺得不僅是代碼角度,算法只是一部分,人工智慧還有一大部分是數據語料,甚至中文世界的所有語料質量對比英文世界的語料質量,假如我的語料質量弱了一些,那我學習的東西肯定起點就弱了。所以我覺得這不光是算法本身,數據、語料甚至更廣泛一點,所有信息化的知識本身,都需要打開,然後提升質量。又說到前面那個價值閉環,如果打開能夠有一個價值閉環,就好像我獻血,然後我生病了,我就能夠優先回饋回來,形成這種循環可能是一個最好的效果。

蔣濤:ChatGPT會重寫所有的軟體,它會是新的作業系統,所以馬上會面臨巨大的變革,而且短期內,可能三年之內沒有人能夠追上它,我們只能跟著它的腳步走,這應該是比較確定的。

它會對產業產生顛覆性的革命,人類軟體使用方式的重大變革,從命令行到滑鼠,到觸摸,現在到了對話,對話以後一定會轉換成語音交互,這是巨大的歷史時刻。

這個產品由於投資巨大,數據非常重要,數據疊代和優化沒辦法開源開放,領先者具有巨大領先優勢。OpenAI也絕對不可能開源的。以後這樣的公司再加上機器人,絕大部分人類都不需要幹活了,因為物質生產是由算法和機器人完成的,我們干別的活就行了。OpenAI聯合創始人山姆·奧特曼非常有理想主義,他已經想到了這一點,所以這種公司以後就應該屬於國家,OpenAI 90%的收入應該上交美國國庫,或者上交給聯合國基金會,給全世界人發錢,這是未來趨勢。

短期怎麼辦?大家都慌了,就會出來開源的模式,一家搞不過。ChatGPT就是新一代的「蘋果」,新一代的應用就是ChatGPT對話式應用。誰都幹不了,大家就開始搞開源吧。開源的產品一開始一定很爛,但開源的優勢是跟時間做朋友,一定會出來一個開放式的大模型新生態,對抗微軟。未來三五年以後會發生新的變革,基於ChatGPT或對話式智能的新應用時代,大家要學習新的技術。

鍾俊浩:一句話,給今年大會的寄語。

李建盛:願開源更成功。

李揚:開源和AI是很好的組合,再加上上海的金融資本,三個要素加在一起,有可期。

蔣濤:希望未來的大會有更多的開源社區味兒,有更多的自主式的會議和活動。

(對話實錄由張靜整理,看直播回放視頻請)

關鍵字: