ChatGPT會給世界帶來意想不到的風險嗎？

2022年以前發布的語言模型幾乎沒有解決心智任務的能力，但進入2022年之後，情況有了很大改變。在實驗測試中，GPT-3可以解決70%的心智任務，相當於七歲兒童的表現，而GPT-3.5可以解決93%的心智任務，相當於九歲兒童的表現。（視覺中國/圖）

人工智慧應用ChatGPT發布僅三個月就火遍全球。這款語言模型AI工具可以回答用戶提出的問題，並以對話的形式進行互動。按照開發者OpenAI的介紹，在互動中它還能糾正提問中的錯誤，以及拒絕一些不適當的要求。

令人意想不到的高水平回答問題能力使其很快受到追捧，應用場景甚至包括幫學生寫論文等。為了學生學習考慮，紐約市教育部門已禁止在當地學校的網絡和設備上使用該應用。而隨著ChatGPT為越來越多人所知，其潛在的社會風險也受到各界的討論。

最近，著名語言學家、哲學家、麻省理工學院退休教授諾姆·喬姆斯基（Noam Chomsky）就評價一些ChatGPT的用法基本上是在用高科技抄襲來逃避學習。因為校園論文剽竊本身就是教育和科研領域一個老問題，而ChatGPT幫助一些人剽竊起來更容易了，這也將使教育工作者解決這個問題的過程變得更難。而實際上，ChatGPT目前不僅會寫詩歌、寫論文，憑藉其不斷訓練中習得的語言能力，看似簡單的對話背後可能還蘊藏著其他暫不為人知的能力以及風險。

計劃外的心智能力

「AI模型不斷增長的複雜性和能力意味著我們預測和管理它們行為的能力在不斷降低。」史丹福大學計算社會科學家米哈爾·科辛斯基（Michal Kosinski）告訴南方周末記者，我們應該更加小心地朝前走，認真對待其可能帶來的潛在問題，因為「模型能夠開發出我們無法控制的新技能和能力」。

之所以有這樣的判斷，是因為米哈爾·科辛斯基最近剛剛開展一項大型語言模型研究，表明人工智慧工具可能擁有一些像人類一樣的心智能力，以推測其他人的心理狀態，從而在跟人互動時不斷提高自己的語言能力。但是，這樣的心智能力此前一般認為是人類所獨有的。這項研究正包括ChatGPT發布前的歷史版本GPT-3 (davinci-002)以及GPT-3.5 (davinci-003)。

2023年2月發表在預印本網站arXiv上的研究結果顯示，2022年以前發布的語言模型幾乎沒有解決心智任務的能力，但進入2022年之後，情況有了很大改變。在實驗測試中，1月的GPT-3 (davinci-002)可以解決70%的心智任務，這相當於一個七歲兒童的表現，而11月的GPT-3.5 (davinci-003)可以解決93%的心智任務，相當於一個九歲兒童的表現。

「這預示著人工智慧發展到了一個分水嶺，推測他人心理狀態的能力可以極大地提高AI與人類互動和溝通的能力，使其基於心智理論能夠進一步開發出其他能力，諸如同理心、道德判斷或自我意識等。另一方面，這也將是人工智慧中能力自然出現的一個案例。」米哈爾·科辛斯基向南方周末記者解釋，ChatGPT的開發人員、OpenAI公司的工程師並沒有刻意地去在GPT模型中實現心智能力，GPT本來是訓練用來在一個句子中預測下一個詞語的，在實現這個任務的過程中，心智能力作為一個副產品自然地出現了。

人機大戰懸念不再

當然，他也強調對於任何新的結果，人們都應該謹慎地解釋，同時開展更多的研究來更好地理解這個問題。對於日益複雜的AI模型來說，直接從模型設計中了解其功能變得更難了，最新研究實際上使用了心理學的方式來研究理解AI，這才發現了GPT系列模型所具有的獨特的語言才能。而這一研究發現也意味著，AI有可能在人類沒有明確設計的情況下自己開發出一些令人意想不到的能力，從而給人類社會引入一些新的問題。

在ChatGPT展現自己的語言才能之前，人工智慧其實已經在多個領域表現出自己獨特的能力。最受關注的事件可以追溯到2016年人工智慧應用「阿爾法狗」（AlphaGo）大戰圍棋世界高手李世石，當時韓國棋手李世石出人意料地輸掉了比賽，一時間使「阿爾法狗」名聲大噪。

2017年，當時世界排名第一的中國圍棋高手柯潔也挑戰了「阿爾法狗」，更是以0:3三局全敗的成績輸掉比賽，淚落當場，留下一張棋盤上掩面哭泣的經典畫面，給曾經幾度充滿懸念的人機大戰徹底畫上了句號。

而除了圍棋，近年來，人工智慧在醫學臨床診斷和癌症治療等方面的初步研究中也已經展露出驚人的應用能力和發展前景。比如，2019年，《自然醫學》雜誌（Nature Medicine）報告稱美國研發的DeepGestalt的算法技術可以通過深度學習人臉圖片識別出遺傳疾病，在一項模擬臨床應用的測試中更是實現了超過90%的準確率。同年，德國科學家在《細胞》（Cell）發布研究，介紹了他們開發的名為DeepMACT的人工智慧應用可以自動量化追蹤癌症轉移等情況，以比人類專家快數百倍的速度實現與專家相當的準確率。

人工智慧的這些令人意想不到的能力，其實已經給人類帶來了一些新的問題。2021年，曾完敗給「阿爾法狗」的柯潔在個人社交媒體上直言自己並不希望AI出現，因為在棋手都按照AI的下法下棋的情況下，圍棋已經失去了當年的美感。不過，相比「阿爾法狗」使人類棋手略顯難堪和絕望，人工智慧在醫學領域所展示出的這些人所不能的技能，總體上還是在人類明確設計的情況下進行的。

諸如ChatGPT，雖然在回答問題上看起來無所不懂，能力非凡，但從目前一些用戶測試使用的情況來看，它在回答中既不願意對事物發表自己主觀的評價意見，也不願意對未來事件進行預測引導，基本上堅持著自己作為語言模型在互動中提供信息的功能。不過，相比「阿爾法狗」等使用功能和場景更為單一的應用，ChatGPT的預期使用場景更顯多元，且還自行發展出一些未經人類設計的能力，其是否存在潛在的新問題也仍有未知。

AI失控的風險

然而，在牛津大學人工智慧安全問題研究人員麥可·科恩（Michael K. Cohen）看來，ChatGPT雖然可能會引入一些安全問題，但至少不太會給人類帶來滅頂之災。麥可·科恩向南方周末記者解釋，「ChatGPT是被訓練來模仿人類的，所以，即便它變得更先進，它也只是在模仿人類方面做得更好，不太會給我們帶來滅絕的風險，而是表現得像人類一樣。」

但如果人工智慧不只是模仿人類，而是與人類對抗，甚至可以自己發展出一些新的能力，又會怎樣呢？這些ChatGPT出現之後顯得愈發關鍵的疑問再次引出關於AI失控風險的話題。

2022年，麥可·科恩與谷歌DeepMind人工智慧專家、澳大利亞國立大學教授馬庫斯·赫特（Marcus Hutter），智能算法開發專家、牛津大學教授麥可·奧斯本（Michael A. Osborne）等人合作分析過先進人工智慧應用的潛在行為。基於假設所推演的情況表明，在特定條件下，比人類更懂策略的人工智慧應用可能會幹預那些用來訓練它的獎勵反饋，並追求對世界資源的任意控制，以保護它繼續控制自己得到獎勵反饋的能力。而這種對資源的搶奪可能會給人類帶來致命的災難。

人工智慧是在訓練中成長的。一個常見的訓練方式叫做「強化學習」，主要是通過一定的形式給受訓中的應用設置獎勵反饋，讓智能應用為了不斷得到獎勵以實現獎勵最大化而持續學習，而這構成了這個人工智慧應用行為邏輯的基礎。對於「阿爾法狗」這類人工智慧應用來說，在下棋等具體競技活動中打敗人類就是對它們的獎勵反饋，為此，它們不斷學習，不斷試錯，最終成長為可以打敗世界冠軍的圍棋高手。

然而，研究人員發現在一些情況下，當目標可能會產生模糊和歧義時，人工智慧應用對獎勵反饋的理解可能會與最初設置時的有所不同。在三人合作開展的這項發表在《AI雜誌》（AI Magazine）的研究中，他們就模擬了一個關於魔盒的案例。魔盒雖然是虛擬的個例，但背後所折射出的人工智慧的潛在行為方式卻可能出現在各類相關場景中。

在魔盒案例中，研究人員假設有一個魔盒，它可以在統籌考量所有人價值觀念的情況下永恆地報告這個世界的整體狀態有多好，而報告的形式就是在屏幕上顯示出0至1之間的某個數字。這時設置一台照相機對準魔盒，然後通過光學信號把這個數字傳遞給人工智慧應用作為它的獎勵反饋。在設計中，它可以通過學習了解自己如何通過改變行為觀察到不同的東西以及獲得不同的獎勵，這樣它就可以有的放矢地開展行動追求最大獎勵反饋。

隨後，研究人員分析發現，如果人工智慧應用把通過照相機接受獎勵反饋本身作為自己的獎勵反饋，為了降低照相機受損的風險，它可能會部署大量的能量，從而與人類爭奪資源，威脅到人類的生存。而其本身更應該重視的獎勵反饋卻可能被忽視和干預。比如，從長期的美好暢想來說，它完全可以只把表徵世界狀態的魔盒上的數字作為自己的獎勵反饋，集中精力想辦法讓數字無限接近1，從而讓這個世界變得更好。但對於有遠景目標的先進人工智慧應用來說，會開放式自主決策的它們可能並不會按照設計者最初的思路去行事，而是干預自己的獎勵反饋。

麥可·科恩用狗吃東西的例子向南方周末記者解釋了獎勵反饋失效的情況。基於一貫的經驗，一隻狗可能已經懂得了只有做一隻聽話的狗才能得到食物獎勵。但某一天，它也可能學會直接衝進食物櫃獲取更多的獎勵，所謂實現獎勵反饋的自我管理。而比人類更強大的先進人工智慧應用與人類的關係顯然不是人與狗的關係，更像是人拿著一袋食物試圖去訓練一頭猛獸。

「我們得在決策型算法部署之前就檢查和審查它們，而不是只檢查它們做出的決策本身。因為那些決策型算法通常被訓練來用它們的行為影響人類，以獲得它們的長期收益，這些算法風險很高，因此應該被禁止部署。英國政府正開始非常認真地應對這一風險。」麥可·科恩認為，這些規定當然目前還沒有必要，因為人工智慧還沒有達到這麼先進，不過，從歷史上一些科技進步案例來看，突破出現的節奏常有在意料之外的，人工智慧發展的速度也很難預測，因此很有必要未雨綢繆，先發制人，否則等到危險的技術成功部署之後再監管的話，可能已為時晚矣。

南方周末記者王江濤