搜狐科技實測阿里通義千問:仍是「數學差生」,能替小學生寫作文

搜狐科技 發佈 2024-01-25T13:33:26.486302+00:00

低調開啟內測之後, 2023 阿里雲峰會將於4 月 11 日召開,包括阿里巴巴董事局主席兼 CEO 張勇,阿里雲智能首席技術官周靖人、阿里雲智能全球商業總裁蔡英華在內的主要負責人將出席主論壇,屆時將正式推出阿里大模型。

出品 | 搜狐科技

作者 | 潘琭璵

4月7日,阿里的大模型也交卷了。

今日,阿里雲大模型「通義千問」官宣內測,開始邀請用戶測試體驗。據悉,現階段該模型主要定向邀請企業用戶進行體驗測試,用戶可通過官網申請,符合條件的用戶可參與體驗。

低調開啟內測之後, 2023 阿里雲峰會將於4 月 11 日召開,包括阿里巴巴董事局主席兼 CEO 張勇,阿里雲智能首席技術官周靖人、阿里雲智能全球商業總裁蔡英華在內的主要負責人將出席主論壇,屆時將正式推出阿里大模型。

有消息稱,阿里巴巴將於 4 月 11 日推出大模型,4月18日推出行業應用類模型。

此前,天貓精靈「鳥鳥分鳥」脫口秀版GPT推出,作為基於大模型的「壓縮版」,有用戶以15個問題對其進行實測,其中有10個問題表現優於競品,也提升了大眾期待。

從官方網站提供的「職場助理」、「電影腳本」、「寫封郵件」、「撰寫短文」四個示例可見,通義千問能夠實現實現輸出文字、故事以及資料的收集等等。本質上,通義千問就是一個大語言模型,基本功能就是文本生成,並沒有語音、圖片等多模態功能。

對於中文大模型賽道的新選手,搜狐科技第一時間進行了實測,結果表明通義千問並沒有實現對文心一言或是ChatGPT的突破。但通義千問創新推出了九大實用場景的「百寶袋」,提升了易用性和親和力。

「百寶袋」功能降低指令(prompt)輸入門檻

根據搜狐科技實測體驗,阿里大模型「通義千問」的創新功能是其在主頁中提供了「百寶袋」功能,其中列舉了通義千問在效率、生活與娛樂三方面的九種實用場景,基於此,用戶能夠根據示例輸入口令(prompt),將提升在日常與工作使用中的效率。

例如,在效率分類下,通義千問預設了寫提綱、SWOT分析以及商品描述生成的功能,在點擊進入問答界面後,根據提示輸入相應內容即可。

搜狐科技在商品描述生成的場景內,根據提示的輸入示例輸入「大蒜咖啡」,通義千問可直接生成商品描述文案。但生成的文案內容嚴肅無趣,在面向消費者的使用場景中,需結合可讀性與趣味性,目前僅可作輔助參考。

搜狐科技也進一步於SWOT分析場景實測其分析能力,在輸入「抖音做外賣業務的機會在哪裡」後,通義千問以SWOT的四大板塊生成了較為完整的分析。但內容較為寬泛,能夠為用戶提供切入點的參考,但具體內容仍需人工細化。

寫提綱的使用場景下,通義千問生成的內容具有很高的參考價值,提出的切入點角度豐富細緻,確實能夠作為日常工作場景中的效率工具。

在生活與娛樂類目下,通義千問能夠生成詳細可參考的菜譜,但在故事續寫上邏輯性還有待加強。另外,在寫「彩虹屁」和寫情書的娛樂性功能上,可玩性高但表達生硬彆扭,並不符合日常對話的語言模式。

而在小學生作文的具體場景下,通義千問以「夏天」為題寫作了一篇符合小學生水平的作文,熟練運用擬人手法。

值得一提的是,在ChatGPT與文心一言接連發布後,對於如何輸入指令(prompt)的討論層出不窮,「指令大全」、「指令發布指南」等文章大量出現,也意味著對用戶而言,輸入指令也成為使用門檻之一,甚至有猜測或許未來指令師將成為新興職業。

通義千問通過功能預設能夠降低用戶使用門檻,降低輸入指令(prompt)的難度,有助於準確性的提升。

日常類問答實測沒有驚喜:同是「數學差生」,無法回答新聞實事

在對日常類問題的問答中,搜狐科技就此前實測文心一言與GPT-4的部分問題對通義千問也進行了實測。結果表明,通義千問仍有著無法解答數學問題的大模型通病;另外,在新聞實事上並不具備獲取最新信息的能力,在基本常識問答上無法理解問題,在對於網絡梗的理解上,文心一言也略勝一籌。

實測發現在中文理解層面,通義千問在方言理解上高於文心一言,此前文心一言將上海方言識別為吳語蘇州方言,並且給出了錯誤的方言解釋。

而在中文語言邏輯的理解上,文心一言與通義千問的中文排列詞序能力和語法邏輯都較差,對於同一個問題兩個大模型均無法給出正確的解答。

在基本常識方面,通義千問甚至無法理解問題,也並沒有給出答案。在此前對文心一言與GPT-4的實測中,它們都能夠理解問題並直接給出答案,其中GPT-4給出了正確的答案,文心一言答案正確但理由錯誤。

在頻頻難倒GPT-4與文心一言的數學問題上,通義千問也毫無意外地回答錯誤。

另外,在新聞實事方面,通義千問表示自己並不具備獲取最新信息的能力,而在切換另一種問法後,通義千問給出了與事實完全不符的回答。

在娛樂性方面,通義千問成功以「搜狐科技」創作出了一首藏頭詩,但詩句間並沒有邏輯上的連貫性。在理解網絡梗上,通義千問沒能理解「V我50」的肯德基瘋四文學,也沒能接上「宮廷玉液酒,180一杯」的經典春晚梗。而此前文心一言成功接梗並準確解釋了「宮廷玉液酒,180一杯」來源。

或能成為效率工具:文案能力強大,信息整合搜集錯誤率高

在提升工作效率方面,搜狐科技通過文案創作、信息搜集、分析對其進行了實測,結果表示,

在新聞稿寫作上,通義千問生成了一篇可讀性較強的新聞快訊,信息充分結構完整。

在宣傳文案寫作上,通義千問也輸出了完整準確的文案,可讀性強,簡介明了又突出重點,雖然在網感上仍需提升,但已經能夠成為工作上的效率工具。

另外,在數據整理與表格製作方面,通義千問確實做出了一張符合要求的表格,但具體數據都是錯誤的。

但在整合最新癌症研究治療網站地址上,通義千問提供的網址僅有一個網址顯示失效,其他網址均能夠正常訪問,並且確實涵蓋癌症治療相關內容,與此前實測GPT-4的表現一致。

實測發現,通義千問在作為效率工具的使用上優於作為日常對話、問答的使用,結合「百寶袋」中所提供的九大場景也進一步降低了作為輔助工具的使用門檻,相比起僅有對話框的文心一言與ChatGPT,用戶使用體驗也會有所提升。

關鍵字: