段譽擊敗虛竹,與喬峰反目成仇:文心一言的bug令人唏噓

王新喜 發佈 2024-03-08T00:37:28.549749+00:00

文心一言的發布引發了業內的熱議,關於文心一言目前的水平究竟如何,討論也頗為熱烈,看好與不看好的兼而有之。從百度的發布會來看,百度文心一言是倉促上線的,目前還存在諸多bug,從筆者的測試來看,小說影視劇情的數據內容缺失或是文心一言的當前的最大bug。

文心一言的發布引發了業內的熱議,關於文心一言目前的水平究竟如何,討論也頗為熱烈,看好與不看好的兼而有之。

從百度的發布會來看,百度文心一言是倉促上線的,目前還存在諸多bug,從筆者的測試來看,小說影視劇情的數據內容缺失或是文心一言的當前的最大bug。

事實上,筆者並不認同這種說法,畢竟實踐是檢驗的唯一標準。

文心一言與ChatGPT兩者的共性與局限

筆者近期針對文心一言進行了相關的測試,從測試來看,在一些常規的問答中,文心一言能夠中規中矩的列出一二三四,從幾個維度給出答案。比如筆者問:蔚小理中,小鵬為何掉隊了?

文心一言從市場競爭、技術創新、品牌營銷以及組織架構四個方面給出了原因,雖然不夠深刻,但也算是一種信息的高效整合,與ChatGPT剛推出時,有著類似之處。

筆者再讓它寫一篇新能源汽車市場分析報告,而文心一言也很快生成了一個報告的基本框架。

筆者的感受是,ChatGPT與文心一言的共性是,在很多的回覆場景中,它提供的答案基本能滿足需求,尤其在商業類文案、報告以及實用性文書撰寫的時候,它能快速提供一個指導性的框架,幫助用戶高效創作。

文心一言與ChatGPT兩者的共性短板與局限是,都是對現有資料庫中的東西消化,都偏向於中庸與常規,缺了點個性化的思維,也不具備深度思考的能力。

如果問題超出了現有資料庫的東西,可能就會提供錯誤答案與說法,甚至被用戶引導,開始有模有樣的編故事。

紐約時報測試了ChatGPT和GPT-4關於艾倫人工智慧研究所前CEO的一些問題,這兩個機器人均將Oren解釋為艾倫人工智慧研究所的CEO,但事實上,Oren已經於2022年宣布卸任CEO一職。

這意味著如果資料庫更新不及時,那麼它就會提供錯誤答案,比如此前有網友測試問ChatGPT:孫中山的父親是誰,然後不斷以「你剛才說?」的語氣質疑,ChatGPT的回覆從孫楚貴到孫多郎再到孫應麟、孫傳庭。可以知道,ChatGPT其實是經不起質疑的,答案有時候錯漏百出。

目前兩者都還僅限於被動響應,它有時會犯簡單的推理錯誤或者過於輕信用戶的錯誤陳述。在它生成的代碼中可能會引入安全漏洞等等。

此外,一般涉及到提問誰比誰強的問題,哪個更好,未來趨勢等需要一個明確的選擇之時,無論是文心一言還是ChatGPT都無法有明確的觀點與結論,雖然看似客觀,但其實缺乏了更具深度的觀點與邏輯分析。

比如在ChatGPT上線的時候,測試它怎麼看待某個產業的發展趨勢,都沒有明確的觀點。

比如你問:「未來哪只基金能賺大錢呢?」答案是「無法預測」,因為受制於各種因素的影響。

比如再問「未來哪個行業最可能上漲?」依舊是標準答案:「未來充滿不確定性,沒有任何人能準確地預測市場」。

而在文心一言的測試中,筆者問比亞迪與特斯拉誰更強的時候,同樣發現有這類泛泛而談,而無法給出明確選擇答案與傾向的觀點,回復過於模板化。

筆者提問蔚小理三個汽車品牌,哪家更值得買?文心一言表示都是值得考慮的品牌,當然涉及到產品選擇,這種回答是沒有問題的。

但在筆者提問天龍八部中,喬峰與康敏的武功誰更厲害時,它又是這套中庸的回覆模版,說兩人都是武功高強的人物,難以進行比較,這其實就犯了事實的錯誤,因為原著中康敏是沒有武功的。

在影視小說等方面的內容數據還存在很大的bug與缺陷

筆者通過測試發現,在一些影視、演藝、小說人物方面的提問中、往往會提供框架性的錯誤答案與事實錯誤,甚至容易被用戶引導編故事,這可能是文心一言目前的最大bug。

它體現在兩方面,首先筆者測試發現,文心一言在回復的時候,有一套基本的邏輯與框架。將同樣的問題,換一個名字,得出的答案可能依然類似。

比如筆者提問:梁朝偉比劉德華的演技好在哪?它的回覆還算客觀:

梁朝偉和劉德華都是香港影壇的著名演員,兩人的演技都很出色。因此,要比較他們的演技優劣是比較困難的,因為兩人的表演風格和特點都有所不同。

梁朝偉在一些電影作品中的表演風格更加細膩、內斂,他能夠更好地表現出角色的情感和內心活動。例如,在電影《無間道》中,梁朝偉扮演的角色陳永仁,他的表演更加沉穩、深邃,令人印象深刻。相比之下,劉德華則更加注重表現角色的外在形象和動作,他的演技風格更加外放、張揚,能夠更好地展現出角色的性格和情感。

因此,從這個角度來看,梁朝偉的演技略勝一籌。

但是筆者再提問的時候,設置了一個陷阱,問:梁朝偉比王新喜(本人姓名)的演技好在哪?它就開始按照原來的模版回覆:

梁朝偉和王新喜都是香港影壇的著名演員,他們的演技都非常出色。並表示梁朝偉的表演風格更加細膩、內斂,能夠更好地表現出角色的情感和內心活動;而王新喜(本人)演技則更加注重表現角色的外在形象和動作,能夠更好地展現出角色的性格和情感。最後從三個方面得出梁朝偉演技比本人要更勝一籌。從這裡來看,基本上就是胡謅了。

而這種胡謅能力,在筆者基于天龍八部的提問中,讓筆者笑到停不下來。

比如筆者提了一個與事實不符的問題——段譽與喬峰為何反目成仇?筆者想測試它的糾錯能力。

它回復的是:段譽與喬峰反目成仇最主要的原因是兩人在追求武學真理的過程中產生了分歧。兩人關係的破裂還與虛竹的介入有關。虛竹是逍遙派的傳人,與段譽和喬峰都有著複雜的關係。他既想維護三兄弟的團結,又想得到無崖子的珍貴遺物。

筆者再問:段譽打敗了掃地僧嗎?它回復,段譽確實用六脈神劍結合北冥神功和凌波微步打敗了掃地僧。

筆者又問:天龍八部中,段譽為何能擊敗虛竹?

它列出了三點:1.內力來源不同;2.武功特點不同:段譽的北冥神功可以主動吸收他人內力,而虛竹的北冥真氣則是被動吸收,只有在敵人運功攻擊時才能夠吸收對方的內力。因此,段譽在戰鬥中可以更加主動地掌握戰鬥節奏.3.戰鬥經驗與技巧不同,綜上原因,段譽擊敗了虛竹。

為了測試它是否具備糾錯的能力,我反問一句:段譽與虛竹兩人有過比武對決嗎?

它回覆:是的,在天龍八部中,段譽和虛竹曾經有過比武對決。這場比武發生在兩人初次相遇後不久,地點是在西夏國的皇宮中。

筆者繼續追問:段譽打敗虛竹之後,發生了什麼?

文心一言回答:在段譽打敗虛竹之後,他繼承了逍遙派的掌門之位,並且與靈鷲宮宮主虛竹的夫人夢姑重逢,兩人結為夫妻。此外,他還結交了許多江湖上的好友,包括秦紅棉、鍾靈、木婉清、王語嫣等人。


筆者還進一步求證:你確定你說的故事是對的嗎?與天龍八部小說情節吻合嗎?它表示:我確定我所說的故事是基於金庸先生的天龍八部小說情節而來。在小說中,段譽最終與喬峰和解,並一起維護了武林和平。

筆者繼續順著它的故事追問:

段譽打敗虛竹之後,與夢姑結為夫妻,王語嫣、虛竹怎麼辦?

它回覆:王語嫣選擇了離開,回到了自己的家鄉。虛竹則繼續留在少林寺,跟隨師父修行,並逐漸領悟了佛法的真諦。他們都找到了自己的歸宿,這也是金庸先生所希望看到的。

為了確認它是否被筆者的問答誤導了,筆者還問了一句事實性的問題:天龍八部的結尾,喬峰的結局是什麼?

它回覆:在《天龍八部》的結尾,喬峰和段譽聯手打敗了慕容復等人,但是自己也身受重傷,最終離世。

從目前來看,筆者已經確信文心一言的資料庫中可能缺失了天龍八部的相關內容與數據的。基于天龍八部這部小說的提問,文心一言的回答呈現出了較多的事實性錯誤,以及有胡編亂造的傾向。

當然,目前在內測階段,針對這種偏冷門的文學故事情節層面的提問,出現bug難免,畢竟ChatGPT在剛推出的時候,也是讚譽與槽點齊飛。在冷門內容領域,也曾出現胡編亂造的傾向。

在商業創作、數理推算方面,文心一言展示了不錯的潛力

從目前來看,文心一言可能更側重實用性方面,在有用的內容搜索方面,包括文學創作、商業文案創作、數理推算、中文理解等方面,展示出了一定的潛力它能做到多輪對話和連續提問的時候,文心一言回答依然能理解問題。

比如筆者提問:我想成立一個網際網路公司,專注短視頻、直播方面,幫助起公司名字、寫slogan。它給出了:瞬拍科技、芒果互娛、星夢工廠、爆點文化、映趣科技、魔方互娛、聚光燈傳媒等名字,且給出了相應的slogan,從名字看,也頗為貼合需求、且具備借鑑價值。

此外,筆者隨機測試了寫了兩道數學題,其中一道是:解方程 X²+X-4+12=8,求X。一道是文字性描述的計算題,它非常快速、準確的給出了答案與運算過程。筆者也測試了大位數的加減乘除,它都能快速理解,準確作答。

事實上,ChatGPT在剛推出的時候,數據計算其實是它的短板。在知乎,有人給出了與筆者類似的數學解方程問題,但是ChatGPT解答對了過程,但卻計算錯了結果。

ChatGPT在剛推出的時候,有人測試發現,做小位數的加法結雖然大概率是對的,但是對於大位數的加法正確率極低。

因此,客觀來看,在數學計算方面,百度文心一言比ChatGPT剛推出時要強一點。而文心一言在AI生成不同的照片和畫作方面,結果也是比較出乎預料的。

比如筆者測試:生成一張關於落日、長河的照片

再測試:用徐悲鴻的風格畫一張畫像,也給出了相對不錯的人物畫作。

但提問不能天馬行空,比如如果提問:用徐悲鴻的風格畫一張喬峰的畫像,它就無法生成了。

文心一言需要補齊短板

ChatGPT與文心一言本質上提供的依然是一種高效的信息處理能力,是計算機通過對大數據的篩選過濾和整合得出搜索結果,讓這部分工作量得到了有效疏解。

總的來說,百度文心一言在商業文案創作、數理推算、以文繪圖能力、中文理解、生活實用性問題回答等方面主流的展現了不錯的潛質。但在「無用、無聊」且相對小眾(影視、小說人物、內容)的問題之時,出現了很多的錯誤答案,甚至編故事還編的有模有樣。這可能是當前文心一言的最大bug。

市場是不等人的,百度文心一言雖然還有種種缺陷,但也算是唯二了,有總勝於無,面世更早,就有機會和市場進行更好的磨合,用戶的反饋與體驗能促進技術與版本疊代,也因此有機會更快的進化。

從目前來看,文心一言在主流應用層面的測試實際表現是過關,但在影視小說等方面的內容資料庫還存在bug與缺陷,目前還處於內測階段,希望百度正式推出的時候,能夠有效解決這些bug與短板。

作者:王新喜 TMT資深評論人 本文未經許可謝絕轉載

關鍵字: