斯坦福發布報告:AI在多項任務中擊敗人類

中國科學報 發佈 2024-04-25T05:24:13.043402+00:00

編譯 | 李木子4月15日,美國史丹福大學人工智慧研究所發布《2024年人工智慧指數報告》,描繪了過去10年機器學習系統的飛速發展。

編譯 | 李木子


4月15日,美國史丹福大學人工智慧研究所發布《2024年人工智慧指數報告》,描繪了過去10年機器學習系統的飛速發展。


前面加上 據《自然》報導,報告顯示,聊天機器人ChatGPT等人工智慧(AI)系統在閱讀理解、圖像分類和競賽級數學等任務上的表現,已接近甚至超過人類。AI系統的快速發展意味著,許多用於評估它們的通用基準和測試很快就會過時。


報告特別指出,推出評估AI的新方法越來越有必要,如評估其在抽象和推理等複雜任務上的表現。史丹福大學社會科學家Nestor Maslej表示,10年前,基準可以為社會服務5至10年,而現在,它們往往在短短几年內就變得無關緊要了。「增長的速度快得驚人。」


史丹福大學的年度人工智慧指數於2017年首次發布。該指數由學術和行業專家編制,旨在評估AI領域的技術能力、成本、道德等,從而為研究人員、政策制定者和公眾提供信息。今年這份長達400多頁的報告指出,美國對與AI相關的監管正在升級。但是,由於缺乏對負責任地使用AI的標準化評估,因此很難根據系統構成的風險對它們進行比較。


新報告還首次用整個章節專門介紹AI的科學應用,包括谷歌DeepMind的一個旨在幫助化學家發現新材料的圖形網絡材料探索(GNoME)項目,以及DeepMind的另一個工具GraphCast,它可以進行快速天氣預報。


當前的AI熱潮建立在神經網絡和機器學習算法之上,這可以追溯到2010年代早期。此後,這一領域迅速發展壯大。例如,代碼共享平台GitHub上的AI編碼項目數量從2011年的約800個增加到去年的180萬個。報告稱,在此期間,關於AI的期刊出版物大約增加了兩倍。


AI的大部分前沿工作都在工業領域內進行。去年,該領域產生了51個著名的機器學習系統,其中學術研究人員貢獻了15個。美國德克薩斯大學奧斯汀分校人工智慧實驗室主任Raymond Mooney表示:「學術工作正在轉向分析企業推出的模型,深入研究它們的弱點。」


這包括開發更嚴格的測試,以評估大型語言模型(LLM)的視覺、數學甚至道德推理能力,這些能力為聊天機器人提供了動力。最新的測試之一是研究生級谷歌驗證問答基準測試(GPQA),去年由包括美國紐約大學機器學習研究員David Rein在內的團隊開發。


GPQA由400多個選擇題組成,難度很大,博士水平的學者回答其所在領域問題的正確率為65%。而當他們試圖回答其專業領域以外的問題時,儘管在測試期間可以上網,但正確率只有34%。


隨著AI性能的飆升,成本也在飆升。據報導,OpenAI公司2023年3月發布的GPT-4的培訓成本為7800萬美元。谷歌的聊天機器人Gemini Ultra於2023年12月推出,耗資1.91億美元。許多人擔心這些系統的能源使用,以及冷卻運行這些系統的數據中心所需的水量。


報告指出,在美國,監管急劇升級。2016年,美國只有一項法規提到了AI,去年則增加到25項。Maslej表示,2022年之後,政策制定者提出的AI相關法案數量大幅增加。


監管行動越來越側重於促進負責任的AI使用。Maslej說,儘管出現了可以對AI工具的真實性、偏見等指標進行評分的基準,但並不是每個人都在使用相同的模型,這使得交叉比較變得困難。

關鍵字: