Auto-GPT實測報告——雖不完美,但卻是最有前景的AI路線

阿爾法工場 發佈 2024-01-09T13:43:36.030451+00:00

在可預見的未來,自動生成子智能體的AI會進一步發展,為複雜問題解決給出一種新式答案。Auto-GPT,一款基於GPT-4的人工智慧內容生成機器人在近期迅速爆紅。截止至2023年4月16日,Auto-GPT項目在GitHub上共斬獲了72.

在可預見的未來,自動生成子智能體的AI會進一步發展,為複雜問題解決給出一種新式答案。

Auto-GPT,一款基於GPT-4的人工智慧內容生成機器人在近期迅速爆紅。

截止至2023年4月16日,Auto-GPT項目在GitHub上共斬獲了72.8k Star,吸引了全世界關注著AIGC的人的關注。

AutoGPT GitHub Star增長情況

此前讓LLM(大語言模型)火出圈的產品ChatGPT,最大的局限性就在於需要人工提供大量的原始信息和引導詞(Prompt),才能讓ChatGPT生成理想的內容。

而Auto-GPT就是為了解決這個痛點而誕生的。它可以通過LLM自主產生Prompt,並且通過Google搜索和python腳本來實現自己的目的。

Auto-GPT在推特上有很多收穫了極高關注量的例子,案例的內容包括有商業調查、無代碼生成APP或網頁、自動化辦公和文本生成等等。在加入了Stable Diffusion後甚至可以擁有圖片的生成能力。

這一切聽起來非常美好對吧?但是別忘了Auto-GPT仍然只是一個實驗性項目,仍然有較大的局限性。

01 Auto-GPT的工作流程

由人類給Auto-GPT分配一個角色(例如一名寫手),接著給他分配最多五個任務讓他執行。

Auto-GPT就會自己將任務列表拆解成某些具體的任務,並生成後續的任務執行列表。每一步可以是執行Google搜索、生成Python腳本、存儲生成文本、執行腳本文件等等。

上述步驟主要依賴於以下幾個部件:

1.基礎框架:GPT-4和GPT-3.5,二者分別被成為聰明模型和快速響應模型。這兩者共同充當整個Auto-GPT的大腦。不同的任務將會適時的分配給兩種不同的模型以加快生成速度和降低成本開銷。

2.自主疊代:從最原始的Task List中出發,將任務投入LLM中生成更進一步細化的Task List。再逐項完成任務並將結果保存。每次結果都會被選擇性的放回LLM中再疊代生成回應。

3.內存管理:Auto-GPT默認使用一種向量資料庫(保存在auto-gpt.json中)存儲對話上下文,使得LLM可以獲得長期記憶並且最大程度降低token(LLM中的數據量計數單位)的使用,防止超過輸入限制和降低使用成本。除了本地向量資料庫外,還可以使用Redis保存上下文進一步提升性能。

4.多功能部件:Auto-GPT被賦予了多種新型的工具,包括本地shell的執行權限、本地文件的讀取和寫入、Google搜索能力、Python腳本執行能力等等。

以上能力不僅僅賦予了Auto-GPT的聯網能力,還使其擁有了部分本地操作權限,極大拓寬了AI的能力以及使用範圍。

Auto-GPT初始化所需信息

02 Auto-GPT實測表現

測試一:自動化檢索。

在這裡定義Auto-GPT為一個Research GPT,可以自動化檢索網際網路信息並作出市場分析。任務分配就是找到市面上的Top5電視盒子並列出他們的配置和價格。

電視盒子信息

Auto-GPT找到了所需要的數據,但是也僅給出了分析出的Top5的盒子的參數和價格,並沒有列出數據來源和評判標準。同時也沒有做市場分析,只是單列出了數據和配置,沒有針對所收集到的數據進行額外分析。

可以說雖然Auto-GPT降低了對Prompt的依賴性,但是對初始任務的描述詳細性仍然要求較高。

2.測試二任務:自動寫作。

這個測試中,Auto-GPT被定義為作家,要求寫一個以賽博朋克為背景的科幻小說的大綱。

Auto-GPT完成的非常出色,其在文件夾中分別生成了幾個文件:「賽博朋克大綱」、「對話」、「賽博朋克調查」、「世界背景」、「人物性格」、「人物目標及其背景」等等文件。每份文件中都詳實地記下了其文件名的內容,而且每個內容都是基於同一個世界觀下生成的。

本次任務僅僅只為創作一個故事大綱,但是他最後交付給我們了一個近似完整的故事。主角的設定也符合賽博朋克的背景故事。

Auto-GPT的長期記憶功能幫助了Auto-GPT可以始終保持在相同的背景設定里而不偏離。雖然沒有完成整篇文章,但是故事脈絡已經非常清晰,甚至已經可以說是在「創作」一些新文字了。

03 Auto-GPT當前的問題

1.開銷極高

Auto-GPT是基於GPT-3.5和GPT-4而建立起來的。而GPT-4的單個token價格為GPT-3.5的15倍。

假設每次任務需要50個step(較好狀況下),每個step會花費6K tokens的GPT-4 使用量,Prompt(提示詞)和Completion(回答)的平均每一千tokens花費是0.05美元(因為實際使用中回答使用的token遠遠多於提示詞),匯率為1美元 : 6.8人民幣,那麼花費就是50*6*0.05*6.8=102人民幣。

GPT-4 API訪問價格

GPT-3.5 API訪問價格

注意,這僅僅只是理想狀況下,而且假設了使用時Auto-GPT沒有出現其他的問題(後續會提到),單次任務的成本就為100餘元。這個成本顯然是不可以被大規模應用的。

2.常見死循環現象

在執行任務的時候,Auto-GPT會將任務細化並分解。但是一旦遇到了一些GPT-4都無法處理的問題時,就會陷入自我循環,每一個step執行完後的動作都為「do_nothing」,而且下一個動作仍為這個。

但是每次都會將相同的Prompt交給GPT-4處理從而造成了極其大量的資源浪費現象。而且從目前來看並沒有什麼很好的解決方案。

Auto-GPT陷入死循環中常見表現

除了這種do_nothing類型的死循環外,還可以經常發現Auto-GPT的另一種死循環,即生成的python腳本執行的時候無法正確完成任務。

接著GPT-4就會嘗試修復腳本,再重新執行。通常的修復可能分為很多步讓人很難發現問題所在。但是通常來說這種修復都是不起作用的,就又會陷入另一種死循環。

3.執行速度過慢

從實測的第一個問題來看,還有一個非常大的問題就是響應速度過慢。GPT-4的生成token的速度就比GPT-3.5慢許多,再加上腳本執行其它指令(比如Google)所消耗的時間就更長了。

本次統計出Top5的電視盒子,Auto-GPT共耗時8分鐘,進行了20個steps完成了總結。但是聯網的AI工具除了Auto-GPT還有其它的AI工具可以完成,例如New Bing。

雖然Bing無法自我搜索網絡評論並鑑別是否為虛假評論,而且數據來源比較狹窄,但是New Bing的響應只花了8秒,還提供了參考連結供讀者自行參考,比起Auto-GPT更加直觀。

04 總結

AGI,即通用人工智慧,最重要的一個特點就是脫離人工監督可自行完成任務,並且可以完成一些「創意任務」。而Auto-GPT正是在當前條件比較有限的前提下對AGI做出的一個有益嘗試。

通過主任務生成子任務(也有人叫子智能體)的方法而讓AI通過LLM脫離人類監督自行完成任務可能是未來的發展方向之一。

當前的問題是LLM的能力還是比較弱,對當前的狀態把握的還不夠好,從而經常讓自己陷入死循環需要人類的介入。而且雖然向量資料庫成功賦予了AI中長期記憶的可能性,但是對於後續的任務缺無法繼續沿用此前的記憶了。

執行速率也可以通過調整架構提升,例如將逐項執行的子智能體轉換為可以異步同時執行的模式,大幅提升效率,每一步不強依賴於上一步,就可以極大提升運行效率。又可以像Bing一樣快速獲取信息,還可以自行分析獲取內容達到超過New Bing的效果。

在可預見的未來,這種自動生成子智能體的AI會進一步發展,為複雜問題的解決給出一種新式的答案。

關鍵字: