OpenAI推出ChatGPT「克星」，秒辨AI生成文本，但錯把莎翁判成AI

智東西

編譯 | ZeR0

編輯 | 漠影

智東西2月1日報導，今日，美國AI初創公司OpenAI宣布推出一個AI文本分類器，用於輔助辨別文本是由人類還是AI（人工智慧）編寫的。

這款AI工具可免費試用。用戶將待檢測文本複製到文本框中，點擊Submit，系統就會評估該文本由AI系統生成的可能性，給出評估結果。

評估結果分成5類：非常不可能、不太可能、不清楚、可能、非常可能是AI生成。

目前試用這款AI文本分類器有一些限制，要求至少1000個字符，大約150-250個單詞。

該工具在檢測大於1000個字符的英文文本時效果更好，在檢測其他語言時的表現要差得多，而且無法辨別計算機代碼是由人類還是AI寫的。

AI文本分類器直通門：https://platform.openai.com/ai-text-classifier

一、針對AI濫用風險，打造「克星」工具

AI文本分類器意在解決ChatGPT爆紅之後引發的爭議。

OpenAI在去年11月推出的ChatGPT聊天機器人，不僅能準確回答專業問題，還能撰寫詩詞歌賦、廣告文案、散文小說、電影劇本、編程代碼等各類文本，大受使用者的稱讚追捧。

但隨著使用者越來越多，ChatGPT的問題也很快暴露出來。一方面是它本身的局限性，例如素材來源可能涉及抄襲、侵權，或者有時會寫出看似正確實則錯誤的文本；另一方面是濫用風險，例如有些人會用AI工具作弊、散播虛假信息等。

為了緩解這些問題，OpenAI打造了一個全新的AI文本分類器。

這是一個GPT語言模型，對從各種來源收集的同一主題的人類編寫文本和AI編寫文本的數據集進行了微調，使用了來自5個不同組織的34個模型生成的文本，以檢測該文本由AI生成的可能性。

人類編寫文本的數據集來自三個來源：一個新的維基百科數據集、2019年收集的WebText數據集、一組作為訓練InstructGPT的一部分收集的人類演示。

OpenAI將每個文本分成了「提示（prompt）」和「回復（response）」，根據這些提示，從OpenAI和其他組織訓練的各種不同的語言模型中生成了回復。對於Web應用程式，OpenAI調整了置信度閾值，以保持低誤報率；換句話說，只有當分類器非常有信心時，它才會將文本標記為可能是AI編寫的。

OpenAI也貼心地為試用者備好了引用這款AI文本分類器的BibTex格式。

二、1秒給出分類結果，但偶爾錯把人類當AI

我們分別用幾段ChatGPT生成文本、幾段外媒新聞報導內容，測了測AI文本分類器的表現。

首先，讓ChatGPT就中美前沿人工智慧研究的不同之處分析了一通。

ChatGPT針對「中美前沿AI研究有哪些不同」問題的回答

接著將這些文字複製粘貼到分類器的文本框中。

AI文本分類器秒出判斷

結果，AI文本分類器1秒判斷出這非常可能是AI生成的（likely AI-generated）。

換幾段由人類寫的分析生成式AI風險的內容：

AI分類器很快給出評估結果

AI文本分類器這次花得時間略長，2秒給出結果：非常不可能是AI生成的（very unlikely AI-generated）。評估結果依然準確。

不過，再提升點難度，分類器就不太靈了。

知名AI研究人員Sebastian Raschka用莎士比亞《麥克白》第一頁的內容做測試，發現AI文本分類器誤判為「很可能是AI生成的（likely AI-generated）」。

看來在AI文本分類器眼中，莎士比亞已經走在了時代的前面

。

Sebastian Raschka還從自己在2015年出版的Python ML書摘錄了好幾段，AI文本分類器的識別也不是很準，Randy Olson的前言部分被識別成「不清楚是否由AI生成」，他自己寫的前言部分被識別成「可能是AI生成的」，第一章部分被識別成「很可能是AI生成的」。

看到一系列令人啼笑皆非的測試結果後，他評價說：「在ChatGPT讓你的作業變得更簡單之後，它現在比以前更難了。現在，你必須多次修改自己的措辭，直到它們看起來不再是AI生成的，然後才能提交。」

三、識別正確率僅26%，AI文本分類器還有很多局限性

OpenAI在與訓練集分布相同的驗證集和挑戰集上評估了其AI文本分類器和之前發布的分類器，挑戰集由人類編寫的補全（completions）和來自在人類補全上訓練的強語言模型的補全組成。

結果顯示，與OpenAI之前發布的分類器相比，全新AI文本分類器的可靠性要高得多，在驗證集上的AUC得分為0.97，在挑戰集上為0.66（OpenAI之前發布的分類器在驗證集上為0.95，在挑戰集上為0.43）。分類器可靠性通常隨著輸入文本長度的增加而提高。

OpenAI還發現，隨著生成文本模型大小的增加，分類器的性能會下降。

換句話說，隨著語言模型規模變大，它的輸出對AI文本分類器來說更像人類編寫的文本。

OpenAI在博客中坦言其分類器「不完全可靠」，比如在低於1000個字符的短文本上非常不可靠，即使是較長的文本有時也會被錯誤標記，有時人類書寫的文本也會被錯判成AI編寫的文本。

在對英語文本「挑戰集」的評估中，該分類器正確地將26%的AI創作文本識別為「可能是AI編寫的」，而在9%的時間內錯誤地將人類創作文本標記為AI編寫。

OpenAI建議只對英文文本使用該AI文本分類器，因為它在其他語言中的表現要差得多，而且在代碼上不可靠。此外，它也很難識別有標準正確答案的文本，例如你很難判斷「1+1=2」是人類還是AI寫的。AI文本分類器很可能在兒童編寫的文本和非英語文本上出錯，因為它主要是在成人編寫的英語內容上進行訓練。

AI書寫的文本可以通過編輯來逃開分類器的檢測。OpenAI分類器可根據成功的攻擊進行更新和重新訓練，但還不清楚從長期來看檢測是否具有優勢。

OpenAI也提醒道，基於神經網絡的分類器在訓練數據之外的校準很差。對於與訓練集中的文本有很大不同的輸入，分類器有時可能對錯誤的預測非常有信心。

結語：著重解決ChatGPT在教育領域構成的風險

由於上述局限性，OpenAI建議在確定內容來源的調查中只使用分類器作為眾多因素中的一個，並對AI產生的虛假信息行為的風險、對大型語言模型在教育領域構成的風險進行研究。

OpenAI正與美國教育工作者合作，討論ChatGPT的能力和局限性，並為教育工作者開發了一個關於使用ChatGPT的初步資源，其中概述了一些用途以及相關的限制和考慮因素。

資源連結：https://platform.openai.com/docs/chatgpt-education

通過將AI文本分類器公開，OpenAI希望從使用者那裡獲得更多有價值的反饋，以進一步改進OpenAI在檢測AI生成文本方面的工作。