陸首群:ChatGPT不開源是說不過去的

機械工業出版社 發佈 2023-03-21T21:56:39.660359+00:00

3月15日,由機械工業出版社、中國計算機學會聯合主辦的《開源創新:數位化轉型與智能化重構》新書發布會在北京舉行。

3月15日,由機械工業出版社、中國計算機學會聯合主辦的《開源創新:數位化轉型與智能化重構》新書發布會在北京舉行。陸首群教授在會後對中國開源發展歷程、企業數位化轉型、當下人工智慧熱點等話題進行回答了多家媒體的提問。

以下是本次採訪的精彩要點,未經授權不得轉載。

問:《開源創新:數位化轉型與智能化重構》這本書的創作動機以及定位是什麼?

答:這本書的定位,可以說是面向全球各行各業各階層。另外,也照顧到國際同行,國際上有好多開源大師,有好多專家,也值得讓他們看一看。之前的一個活動中,國外的開源大師看這本書時也津津有味,因為這個書里有很多照片,即使看不懂文字,他們也能通過照片裡的人,了解大概在研究什麼問題。要給這本書準確定位的話,就比較複雜了。現在各方面都在擁抱開源,所以開源就發展得很快了,不是說幾個專業單位、開源社區、開源基金會關心開源,還有很多人都在研究開源,像官員、教師,都是能受益的。

總體來說,寫這本書的動機就是把開源進一步普及,進一步提高,促進開源的崛起;背景就是開源熱,大家都很關心,包括你們出版行業,也很關心,我就希望寫個比較廣泛的內容,總的來說還是希望講清開源觀念。

問:能否講講您理解的ChatGPT?

答:人類很喜歡讓計算機跟人來對話。機器能「翻譯」人說的話,但目前還不夠準確,所以在這種情況開發了ChatGPT,但是還有些麻煩。機器不能識別很多綜合性的東西,舉個例子,比如汽車,其實訓練一個三四歲的小孩兩三個月,他不管是紅汽車、綠汽車、藍汽車,他認為都是汽車,這是人類的思考。計算機可不行,綠汽車和紅汽車是兩碼事,藍汽車更是另外一回事。有好多程序的東西,計算機不識別,就卡在那裡,缺一個什麼東西?缺一個知識的邏輯特例,得推理,要是把概念弄在一塊了就推理不了了。所以OpenAI一開始搞了個類似字典的東西,就會把藍汽車、紅汽車都叫汽車,甚至把卡車也叫汽車,那這個字典不行於是就用大數據,把字典換成語料庫,裡面是語義,這樣一來精確度就很高了。這些都是基於機器學習,或者叫深度學習。如果想更準確,那就把由語義構成的「字典」弄厚一些,但它終究還是弱人工智慧,還是做不到強人工智慧的事情。

問:書的第二章中,您列舉了一些重要事件,您個人認為其中最難最艱辛的事件是什麼?

答:開源是一個學術體系。這個體系跟原來我們傳統的體系完全不一樣,它的法律概念也不一樣。比如說美國有美國用的法律,英國有英國用的法律,我們中國也有中國用的法律,它們基本上還是在一個大的體系里。但是開源不一樣,所以有人就把傳統的法律體系稱為右版體系,而開源所在的是左版體系,有時候對於某件事,右版體系認為它違法了,開源認為它沒有違法;開源認為合法的,右版體系可能又認為違法了,所以好多概念就不一樣。

因此,最關鍵的就是要理解開源的概念,理解開源的觀念,理解開源的本質,這個是最難的。

問:您構想的未來的人工智慧是什麼樣子?

答:這個問題在全世界都有爭論。現在的人工智慧屬於弱人工智慧,其中的代表技術叫機器學習、深度學習,這個是弱的。現在的人工智慧能做到的什麼事呢?比如人臉識別、語音識別、圖像識別,自動駕駛也是可以的,一些新的藥和新的材料的發現,也能夠依靠人工智慧去解決。但進一步的,現在都做不到。我認為人工智慧發展到未來會怎麼樣呢,現在看起來,接下來的挑戰是類人人工智慧,也就是和人的思考是類似的,這方面的研究現在有一些苗頭了。如果再進一步,能不能是超人人工智慧,現在誰也說不準,如果人工智慧超過人,那麼人就變成人工智慧的奴隸了,聽起來恐怕有點誇大其詞。但是,現在看起來,弱人工智慧邁向強人工智慧,這一步是很艱難的。

問:陸教授您好,我是想問,因為近些年來數字出版的發展它也是突飛猛進,特別是像一些傳統出版機構也在積極的開展數位化的轉型,尤其是隨著元宇宙產業的興起,無論是作為虛擬空間還是作為技術的這種集合,都將極大的推動出版融合的走向深入。那麼剛才我也注意到您的發言裡面也講到了,說開源已經運用到能源、農業、金融,那麼您能不能幫我們再分析一下在出版行業應該如何擁抱開源,也就是說開源技術在出版行業有哪些應用場景?

答:現在也大有可為,像5G、AR/VR現在發展得都很不錯。現在還有一個關鍵的問題,就是有一個概念,現在我們老說信息化,但是我們這個社會不是信息社會,信息社會還沒到來,現在仍然是工業社會,在工業社會搞創新,就存在一個階梯型的社會,高階社會的動能,高階社會的資源,作用到能讓低階社會的業態發生一個爆炸性的變化,也就是發生了0到1的變化。在出版這個行業,恐怕要走的也是這個路。

問:陸教授好,您從20世紀90年代就已經投入到開源中了,到今天已經30多年,中國整體開源的發展歷程發生了哪些變化?

答:我從90年代初就開始搞開源,工作的幾條線都是平行的。一個是「信息技術」這條線。現在我們叫深度信息技術,也叫新一代的信息技術,包括雲計算、區塊鏈、大數據、人工智慧,現在我們要把開源跟這些結合在一起,這些技術只要基於開源發展就會更好。另外一個是「網際網路技術」,我們中國發展網際網路建設也要結合開源往上推進。

很多技術都離不開開源,這裡我舉個人工智慧的例子。2015年,美國在人工智慧方面搞得好的四大企業:谷歌、微軟、Facebook、IBM。後來它們發現人工智慧搞不下去了,達到瓶頸了。這四家大企業就把所有的人工智慧框架、工具、軟體內容通通開源了,一下子解決了人工智慧的發展瓶頸。

聯合國在研究網際網路的治理問題時,曾經找過幾家組織:第一家是印度政府;第二家是谷歌公司;第三家是我們中國開源軟體推進聯盟;第四家是哈佛商學院;第五家是GitHub。這五家組織共同來討論網際網路的治理下一步怎麼做。

我們聯盟在這次會議的討論中,舉了一個百度「阿波羅」無人駕駛項目的開源案例。有人就問我說,技術開源給別人了,我們還有什麼優勢?我說你放心好了,這是兩碼事。

百度的阿波羅成為全球最活躍的自動駕駛跟無人駕駛的平台之一,匯集了7個國家的65,000名志願開發者一塊來開發,完成了60萬行的開原始碼。另外它還跟全世界的210家合作夥伴建立了供應關係,這個就是開源的優勢。你本來1個人開發,現在有10個人幫你一塊來開發,效果就好多了。

問:最近幾年,國內越來越重視開源,如果我們想更好地構建國產化的開源生態體系,還需要各方做出哪些努力?

答:開源生態跟開源發展的關係非常之大。拿華為來說,我認為華為手機必須國際化,不能只在中國賣,要有國際化的生態。從技術層面上,華為要搞生態是沒問題的,但這裡面有好多因素在干預。開源有一個重要的特徵叫協同。企業自己要主動,也要在國內找開源組織,幫企業一塊來連結生態。

問:陸教授您好。首先我想問一下關於開源的商業化的問題,構建一個良好的開源社區的生態和實現一個開源項目的商業化盈利之間怎麼把握平衡?

答:關於開源商業化的問題,國內一些企業還是沒有搞清楚。現在叫社區開發的版本都是開源的、免費的,是可以從網上自由下載的。但如果我們從頭到尾都免費拿走,誰還搞產業?這樣開源是發展不起來的。

所以就有了從社區版發展而成的企業的商業發行版,這裡包含了社區版,但是又不同於社區版。當企業要引領產業的時候,要在這個上面加一個透明的環,這個環是什麼呢?就是針對原來社區版的框架改造,由於社區版不夠成熟,穩定性不好,所以還要進一步測試。另外還要做好維護,因為不管是開源還是閉源軟體,都會產生大量的Bug,所以這裡面有個維護的工作。另外生態建設也包含幾個方面:硬體的生態,軟體的生態。生態建設有開源的也有閉源的,因為它不是產品本身。其次產品還要有安全模塊和質量認證保障,這些也不一定是開源的。所以要把開源的社區版本跟開源的商業發行版本區別開來。

將來要引領產業的主要是商業版本,不是開源版本。中國現在有幾種情況,一種是我拿到你的開源社區版,我自己就搞產品了,別的東西不要了,這個是不行的。第二種是企業拿到社區版本後自己封起來了,這個更不行。所以在開源發展的概念和做法要明確,這樣的話才能保證開源發展引領產業。

問:ChatGPT到目前為止還沒有開源,但市面上已經出現了一些開源的替代品,有人說開源最終會吞噬人工智慧,您怎麼看這個問題?

答:最近很多專家問我這個問題。ChatGPT現在不開源,是因為公共保障還沒有完善,因為你真的要在市場上面宣布全面開源,還要做好多事情,法律的、商業的、技術的,現在還顧不上這些問題,但我估計它是肯定要開源的。ChatGPT是基於機器學習的,機器學習技術是開源的,ChatGPT不開源是說不過去的。

問:陸教授好,看您在包括國務院信息聯席會議辦公室,還有吉通公司等等任過很多高職。那麼從您的經驗和您從事這麼多年的研究來看,企業面對現在的數位化浪潮,怎麼樣利用開源來進行一個轉型升級和創新?

答:我個人的觀點是,現在的中國要從工業社會向信息社會發展,但是現在從工業社會向信息社會發展還缺少條件,因為我們現在連個試點地區都沒有。我們現在是工業社會,再進一步發展是後工業級社會,比如像美國現在已經進入後工業級社會,當然它也不是信息社會,而只是有信息技術。

另外關於創新的問題,我希望是社會各界來把它重新演變,所以這裡面就要找兩個空間,一個是虛擬化的數字空間,一個是現實的物理空間。這樣可以解決工業社會的業態到現代化的創新,一種從0到1的創新。

高階社會是信息社會,空間也是信息空間,低階社會是工業社會,也是現實的空間,物理空間。信息社會實際上也是分層次的,底層是數據層或者數字層,數字層上面是信息層,信息層上面是知識層,知識層上面是智能層。這4個層次裡面,最基礎的、最關鍵的就是數據層。按照歐洲人的說法,就叫Cyber-Physical(信息物理)。

現在我們都說搞數位化就是這個意思。數位化再擴大一點,就是數字網絡化,再擴大才是數字經濟。數位化實際上是代表信息化,從底層到高層基本上是這樣一個概念。

問:您是20世紀30年代生人,1953年上大學,現在快90歲了,精神狀態這麼好,實現了清華的「為祖國健康工作50年」,請問您是怎麼做到的?

答:我1953年進北京,到八幾年的時候,我已經工作了好幾十年了。清華電機系很有名,那時候沒有計算機系,也沒有自動化系,電機系是最有名的,我是奔著清華電機系去的。那時的清華大學,在教育戰線上的目標是要培養又紅又專的紅色工程師。那時我們分配工作,祖國需要我們到哪個地方去,我們就去哪裡。我們甚至願意到西藏去,到邊疆去,沒有二話的。生命力跟年齡有關係,但是更主要的跟你的精神狀態有關係。

問:您對新知識包括ChatGPT這些還能保持這麼敏銳的捕捉度,隨時能跟上現代知識的更新,您是怎麼做到的?

答:我的學習有個特點,就是干哪一行,就把原來乾的跟這個無關的都拋掉,拋掉之後我就鑽進去研究這一行,我必須要弄清楚它的基本概念以及整個行業的思路,否則的話就別搞這個東西。

比如數學,我當時學數學還是下功夫的。我曾經就統計數學的相關理論在日本做過講義,也曾與史丹福大學數學系主任進行過深入的學術探討。有一次在我國舉辦的數學年會上,會議籌辦過程中,日方問工作人員「你們有一位陸先生,怎麼不請他參加?他在日本還挺有聲望的」。工作人員說:「哪一位陸先生,我們大學裡沒有陸先生,科學家也沒有陸先生。」後來才知道,這位「陸先生」不在教育領域,也不在科研領域,這個人在工業領域。

問:您喜歡理論數學還是應用數學?

答:應用數學。

問:您覺得人工智慧是應用的還是理論的或者兩個在一塊?

答:現在國內好多人都在搞人工智慧,現在的人工智慧是弱人工智慧,它的一個理論是統計理論。人工智慧當時在我國發展較緩慢,在這種情況下,我們自己就辦兩件事,一個我自己在這裡面進行研究,另外一個是得從頭到尾弄清楚人工智慧的發展情況,這些你只要下點功夫就行。於是,我們搞了一個平台,通過這個平台展現人工智慧發展的情況,同時也促進國內外業內人士的交流。

問:Linux系統目前的部分代碼存在於美國的一些託管平台,如果因為地緣政治的關係,託管平台不對中國開放了,那中國的企業應該如何應對?

答:這有幾個條件。第一,Linux系統是開源的;第二,Linux系統現在發展很快。當初,Linus搞出來作業系統以後,以現在的視角來看,當初的開源發展是有問題的。作為一個產品,Linus告訴我,最初的社區是不收費的,後來我知道的也只是收取很少的費用,所以這種情況下,開發者都是利用業餘時間從事開發,平時需要找一份工作,來滿足生活、家庭和開發的需求。這些問題是要解決的,後來Linus搞出來作業系統後,他也在一家公司打工,後來有了IBM等多家公司提供資金支持研究後,Linux的發展才開始加速。

我還跟你們談一個事情,我們有個圓桌會議,討論現在美國IT領域排名前20%的企業。曾經搞開發,80%~100%是企業內部開發,現在則大多是企業外部開發,就是因為有開源的資源,它們等於站在巨人的肩膀上向前走,所以開發速度很快。我國還不能完全利用外面的資源,為了解決這個問題,首先,不僅要把開源發展好,還要把科學國際關係發展好;其次,我現在組織了一個開源高地,開源高地也是科技的高地,也是新興的高地,也是人才的高地。我希望將來的開源,能溝通全世界。

參與本次採訪媒體名單:

李釗,科技日報

孟麗媛,中國出版傳媒商報

張珺,中國新聞出版廣電報

凌敏,InfoQ

張潔,51CTO

劉伊純,《企業家》雜誌

趙建琳,《商學院》雜誌

張貝貝,《軟體和集成電路》雜誌

開源創新:數位化轉型與智能化重構

作者:陸首群 著

《開源創新:數位化轉型與智能化重構》所收錄的陸首群教授在過去29年來的文章、報告、談話、評論等60餘篇作品,逐步搭建出開源發展歷程,串聯起陸首群教授在這一歷程中的實踐、觀察和思考,具有重要史料價值和現實指導意義。

採訪稿整理:李島、舒琴、戴文杰

撰稿人:趙天曉

責任編輯:李鈺韓

審核人:李雙雷

聲明:本文所用視頻、圖片、文字如涉及作品版權問題,請第一時間告知,我們將根據您提供的證明材料確認版權並按國家標準支付稿酬或立即刪除內容!

關鍵字: