OpenAI推出ChatGPT「克星」,秒辨AI生成文本,但錯把莎翁判成AI

智東西 發佈 2023-02-02T08:55:05.331371+00:00

智東西2月1日報導,今日,美國AI初創公司OpenAI宣布推出一個AI文本分類器,用於輔助辨別文本是由人類還是AI編寫的。

智東西

編譯 | ZeR0

編輯 | 漠影

智東西2月1日報導,今日,美國AI初創公司OpenAI宣布推出一個AI文本分類器,用於輔助辨別文本是由人類還是AI(人工智慧)編寫的。

這款AI工具可免費試用。用戶將待檢測文本複製到文本框中,點擊Submit,系統就會評估該文本由AI系統生成的可能性,給出評估結果。

評估結果分成5類:非常不可能、不太可能、不清楚、可能、非常可能是AI生成

目前試用這款AI文本分類器有一些限制,要求至少1000個字符,大約150-250個單詞。

該工具在檢測大於1000個字符的英文文本時效果更好,在檢測其他語言時的表現要差得多,而且無法辨別計算機代碼是由人類還是AI寫的。

AI文本分類器直通門:https://platform.openai.com/ai-text-classifier

一、針對AI濫用風險,打造克星工具

AI文本分類器意在解決ChatGPT爆紅之後引發的爭議。

OpenAI在去年11月推出的ChatGPT聊天機器人,不僅能準確回答專業問題,還能撰寫詩詞歌賦、廣告文案、散文小說、電影劇本、編程代碼等各類文本,大受使用者的稱讚追捧。

但隨著使用者越來越多,ChatGPT的問題也很快暴露出來。一方面是它本身的局限性,例如素材來源可能涉及抄襲、侵權,或者有時會寫出看似正確實則錯誤的文本;另一方面是濫用風險,例如有些人會用AI工具作弊、散播虛假信息等。

為了緩解這些問題,OpenAI打造了一個全新的AI文本分類器

這是一個GPT語言模型,對從各種來源收集的同一主題的人類編寫文本和AI編寫文本的數據集進行了微調,使用了來自5個不同組織的34個模型生成的文本,以檢測該文本由AI生成的可能性。

人類編寫文本的數據集來自三個來源:一個新的維基百科數據集、2019年收集的WebText數據集、一組作為訓練InstructGPT的一部分收集的人類演示。

OpenAI將每個文本分成了「提示(prompt)」和「回復(response)」,根據這些提示,從OpenAI和其他組織訓練的各種不同的語言模型中生成了回復。對於Web應用程式,OpenAI調整了置信度閾值,以保持低誤報率;換句話說,只有當分類器非常有信心時,它才會將文本標記為可能是AI編寫的。

OpenAI也貼心地為試用者備好了引用這款AI文本分類器的BibTex格式。

二、1秒給出分類結果,但偶爾錯把人類當AI

我們分別用幾段ChatGPT生成文本、幾段外媒新聞報導內容,測了測AI文本分類器的表現。

首先,讓ChatGPT就中美前沿人工智慧研究的不同之處分析了一通。

ChatGPT針對「中美前沿AI研究有哪些不同」問題的回答

接著將這些文字複製粘貼到分類器的文本框中。

AI文本分類器秒出判斷

結果,AI文本分類器1秒判斷出這非常可能是AI生成的(likely AI-generated)。

換幾段由人類寫的分析生成式AI風險的內容:

AI分類器很快給出評估結果

AI文本分類器這次花得時間略長,2秒給出結果:非常不可能是AI生成的(very unlikely AI-generated)。評估結果依然準確。

不過,再提升點難度,分類器就不太靈了。

知名AI研究人員Sebastian Raschka用莎士比亞《麥克白》第一頁的內容做測試,發現AI文本分類器誤判為「很可能是AI生成的(likely AI-generated)」。

看來在AI文本分類器眼中,莎士比亞已經走在了時代的前面

Sebastian Raschka還從自己在2015年出版的Python ML書摘錄了好幾段,AI文本分類器的識別也不是很準,Randy Olson的前言部分被識別成「不清楚是否由AI生成」,他自己寫的前言部分被識別成「可能是AI生成的」,第一章部分被識別成「很可能是AI生成的」。

看到一系列令人啼笑皆非的測試結果後,他評價說:「在ChatGPT讓你的作業變得更簡單之後,它現在比以前更難了。現在,你必須多次修改自己的措辭,直到它們看起來不再是AI生成的,然後才能提交。」

三、識別正確率僅26%AI文本分類器還有很多局限性

OpenAI在與訓練集分布相同的驗證集和挑戰集上評估了其AI文本分類器和之前發布的分類器,挑戰集由人類編寫的補全(completions)和來自在人類補全上訓練的強語言模型的補全組成。

結果顯示,與OpenAI之前發布的分類器相比,全新AI文本分類器的可靠性要高得多,在驗證集上的AUC得分為0.97,在挑戰集上為0.66(OpenAI之前發布的分類器在驗證集上為0.95,在挑戰集上為0.43)。分類器可靠性通常隨著輸入文本長度的增加而提高。

OpenAI還發現,隨著生成文本模型大小的增加,分類器的性能會下降。

換句話說,隨著語言模型規模變大,它的輸出對AI文本分類器來說更像人類編寫的文本。

OpenAI在博客中坦言其分類器「不完全可靠」,比如在低於1000個字符的短文本上非常不可靠,即使是較長的文本有時也會被錯誤標記,有時人類書寫的文本也會被錯判成AI編寫的文本。

在對英語文本「挑戰集」的評估中,該分類器正確地將26%的AI創作文本識別為「可能是AI編寫的」,而在9%的時間內錯誤地將人類創作文本標記為AI編寫。

OpenAI建議只對英文文本使用該AI文本分類器,因為它在其他語言中的表現要差得多,而且在代碼上不可靠。此外,它也很難識別有標準正確答案的文本,例如你很難判斷「1+1=2」是人類還是AI寫的。AI文本分類器很可能在兒童編寫的文本和非英語文本上出錯,因為它主要是在成人編寫的英語內容上進行訓練。

AI書寫的文本可以通過編輯來逃開分類器的檢測。OpenAI分類器可根據成功的攻擊進行更新和重新訓練,但還不清楚從長期來看檢測是否具有優勢。

OpenAI也提醒道,基於神經網絡的分類器在訓練數據之外的校準很差。對於與訓練集中的文本有很大不同的輸入,分類器有時可能對錯誤的預測非常有信心。

結語:著重解決ChatGPT在教育領域構成的風險

由於上述局限性,OpenAI建議在確定內容來源的調查中只使用分類器作為眾多因素中的一個,並對AI產生的虛假信息行為的風險、對大型語言模型在教育領域構成的風險進行研究。

OpenAI正與美國教育工作者合作,討論ChatGPT的能力和局限性,並為教育工作者開發了一個關於使用ChatGPT的初步資源,其中概述了一些用途以及相關的限制和考慮因素。

資源連結:https://platform.openai.com/docs/chatgpt-education

通過將AI文本分類器公開,OpenAI希望從使用者那裡獲得更多有價值的反饋,以進一步改進OpenAI在檢測AI生成文本方面的工作。

關鍵字: