搜狐科技實測阿里通義千問：仍是「數學差生」，能替小學生寫作文

出品 | 搜狐科技

作者 | 潘琭璵

4月7日，阿里的大模型也交卷了。

今日，阿里雲大模型「通義千問」官宣內測，開始邀請用戶測試體驗。據悉，現階段該模型主要定向邀請企業用戶進行體驗測試，用戶可通過官網申請，符合條件的用戶可參與體驗。

低調開啟內測之後， 2023 阿里雲峰會將於4 月 11 日召開，包括阿里巴巴董事局主席兼 CEO 張勇，阿里雲智能首席技術官周靖人、阿里雲智能全球商業總裁蔡英華在內的主要負責人將出席主論壇，屆時將正式推出阿里大模型。

有消息稱，阿里巴巴將於 4 月 11 日推出大模型，4月18日推出行業應用類模型。

此前，天貓精靈「鳥鳥分鳥」脫口秀版GPT推出，作為基於大模型的「壓縮版」，有用戶以15個問題對其進行實測，其中有10個問題表現優於競品，也提升了大眾期待。

從官方網站提供的「職場助理」、「電影腳本」、「寫封郵件」、「撰寫短文」四個示例可見，通義千問能夠實現實現輸出文字、故事以及資料的收集等等。本質上，通義千問就是一個大語言模型，基本功能就是文本生成，並沒有語音、圖片等多模態功能。

對於中文大模型賽道的新選手，搜狐科技第一時間進行了實測，結果表明通義千問並沒有實現對文心一言或是ChatGPT的突破。但通義千問創新推出了九大實用場景的「百寶袋」，提升了易用性和親和力。

「百寶袋」功能降低指令（prompt）輸入門檻

根據搜狐科技實測體驗，阿里大模型「通義千問」的創新功能是其在主頁中提供了「百寶袋」功能，其中列舉了通義千問在效率、生活與娛樂三方面的九種實用場景，基於此，用戶能夠根據示例輸入口令（prompt），將提升在日常與工作使用中的效率。

例如，在效率分類下，通義千問預設了寫提綱、SWOT分析以及商品描述生成的功能，在點擊進入問答界面後，根據提示輸入相應內容即可。

搜狐科技在商品描述生成的場景內，根據提示的輸入示例輸入「大蒜咖啡」，通義千問可直接生成商品描述文案。但生成的文案內容嚴肅無趣，在面向消費者的使用場景中，需結合可讀性與趣味性，目前僅可作輔助參考。

搜狐科技也進一步於SWOT分析場景實測其分析能力，在輸入「抖音做外賣業務的機會在哪裡」後，通義千問以SWOT的四大板塊生成了較為完整的分析。但內容較為寬泛，能夠為用戶提供切入點的參考，但具體內容仍需人工細化。

寫提綱的使用場景下，通義千問生成的內容具有很高的參考價值，提出的切入點角度豐富細緻，確實能夠作為日常工作場景中的效率工具。

在生活與娛樂類目下，通義千問能夠生成詳細可參考的菜譜，但在故事續寫上邏輯性還有待加強。另外，在寫「彩虹屁」和寫情書的娛樂性功能上，可玩性高但表達生硬彆扭，並不符合日常對話的語言模式。

而在小學生作文的具體場景下，通義千問以「夏天」為題寫作了一篇符合小學生水平的作文，熟練運用擬人手法。

值得一提的是，在ChatGPT與文心一言接連發布後，對於如何輸入指令（prompt）的討論層出不窮，「指令大全」、「指令發布指南」等文章大量出現，也意味著對用戶而言，輸入指令也成為使用門檻之一，甚至有猜測或許未來指令師將成為新興職業。

通義千問通過功能預設能夠降低用戶使用門檻，降低輸入指令（prompt）的難度，有助於準確性的提升。

日常類問答實測沒有驚喜：同是「數學差生」，無法回答新聞實事

在對日常類問題的問答中，搜狐科技就此前實測文心一言與GPT-4的部分問題對通義千問也進行了實測。結果表明，通義千問仍有著無法解答數學問題的大模型通病；另外，在新聞實事上並不具備獲取最新信息的能力，在基本常識問答上無法理解問題，在對於網絡梗的理解上，文心一言也略勝一籌。

實測發現在中文理解層面，通義千問在方言理解上高於文心一言，此前文心一言將上海方言識別為吳語蘇州方言，並且給出了錯誤的方言解釋。

而在中文語言邏輯的理解上，文心一言與通義千問的中文排列詞序能力和語法邏輯都較差，對於同一個問題兩個大模型均無法給出正確的解答。

在基本常識方面，通義千問甚至無法理解問題，也並沒有給出答案。在此前對文心一言與GPT-4的實測中，它們都能夠理解問題並直接給出答案，其中GPT-4給出了正確的答案，文心一言答案正確但理由錯誤。

在頻頻難倒GPT-4與文心一言的數學問題上，通義千問也毫無意外地回答錯誤。

另外，在新聞實事方面，通義千問表示自己並不具備獲取最新信息的能力，而在切換另一種問法後，通義千問給出了與事實完全不符的回答。

在娛樂性方面，通義千問成功以「搜狐科技」創作出了一首藏頭詩，但詩句間並沒有邏輯上的連貫性。在理解網絡梗上，通義千問沒能理解「V我50」的肯德基瘋四文學，也沒能接上「宮廷玉液酒，180一杯」的經典春晚梗。而此前文心一言成功接梗並準確解釋了「宮廷玉液酒，180一杯」來源。

或能成為效率工具：文案能力強大，信息整合搜集錯誤率高

在提升工作效率方面，搜狐科技通過文案創作、信息搜集、分析對其進行了實測，結果表示，

在新聞稿寫作上，通義千問生成了一篇可讀性較強的新聞快訊，信息充分結構完整。

在宣傳文案寫作上，通義千問也輸出了完整準確的文案，可讀性強，簡介明了又突出重點，雖然在網感上仍需提升，但已經能夠成為工作上的效率工具。

另外，在數據整理與表格製作方面，通義千問確實做出了一張符合要求的表格，但具體數據都是錯誤的。

但在整合最新癌症研究治療網站地址上，通義千問提供的網址僅有一個網址顯示失效，其他網址均能夠正常訪問，並且確實涵蓋癌症治療相關內容，與此前實測GPT-4的表現一致。

實測發現，通義千問在作為效率工具的使用上優於作為日常對話、問答的使用，結合「百寶袋」中所提供的九大場景也進一步降低了作為輔助工具的使用門檻，相比起僅有對話框的文心一言與ChatGPT，用戶使用體驗也會有所提升。