斯坦福發布報告：AI在多項任務中擊敗人類

由中國科學報發佈 2024-04-25T05:24:13.043402+00:00

編譯｜李木子4月15日，美國史丹福大學人工智慧研究所發布《2024年人工智慧指數報告》，描繪了過去10年機器學習系統的飛速發展。

編譯｜李木子

4月15日，美國史丹福大學人工智慧研究所發布《2024年人工智慧指數報告》，描繪了過去10年機器學習系統的飛速發展。

前面加上據《自然》報導，報告顯示，聊天機器人ChatGPT等人工智慧（AI）系統在閱讀理解、圖像分類和競賽級數學等任務上的表現，已接近甚至超過人類。AI系統的快速發展意味著，許多用於評估它們的通用基準和測試很快就會過時。

報告特別指出，推出評估AI的新方法越來越有必要，如評估其在抽象和推理等複雜任務上的表現。史丹福大學社會科學家Nestor Maslej表示，10年前，基準可以為社會服務5至10年，而現在，它們往往在短短几年內就變得無關緊要了。「增長的速度快得驚人。」

史丹福大學的年度人工智慧指數於2017年首次發布。該指數由學術和行業專家編制，旨在評估AI領域的技術能力、成本、道德等，從而為研究人員、政策制定者和公眾提供信息。今年這份長達400多頁的報告指出，美國對與AI相關的監管正在升級。但是，由於缺乏對負責任地使用AI的標準化評估，因此很難根據系統構成的風險對它們進行比較。

新報告還首次用整個章節專門介紹AI的科學應用，包括谷歌DeepMind的一個旨在幫助化學家發現新材料的圖形網絡材料探索（GNoME）項目，以及DeepMind的另一個工具GraphCast，它可以進行快速天氣預報。

當前的AI熱潮建立在神經網絡和機器學習算法之上，這可以追溯到2010年代早期。此後，這一領域迅速發展壯大。例如，代碼共享平台GitHub上的AI編碼項目數量從2011年的約800個增加到去年的180萬個。報告稱，在此期間，關於AI的期刊出版物大約增加了兩倍。

AI的大部分前沿工作都在工業領域內進行。去年，該領域產生了51個著名的機器學習系統，其中學術研究人員貢獻了15個。美國德克薩斯大學奧斯汀分校人工智慧實驗室主任Raymond Mooney表示：「學術工作正在轉向分析企業推出的模型，深入研究它們的弱點。」

這包括開發更嚴格的測試，以評估大型語言模型（LLM）的視覺、數學甚至道德推理能力，這些能力為聊天機器人提供了動力。最新的測試之一是研究生級谷歌驗證問答基準測試（GPQA），去年由包括美國紐約大學機器學習研究員David Rein在內的團隊開發。

GPQA由400多個選擇題組成，難度很大，博士水平的學者回答其所在領域問題的正確率為65%。而當他們試圖回答其專業領域以外的問題時，儘管在測試期間可以上網，但正確率只有34%。

隨著AI性能的飆升，成本也在飆升。據報導，OpenAI公司2023年3月發布的GPT-4的培訓成本為7800萬美元。谷歌的聊天機器人Gemini Ultra於2023年12月推出，耗資1.91億美元。許多人擔心這些系統的能源使用，以及冷卻運行這些系統的數據中心所需的水量。

報告指出，在美國，監管急劇升級。2016年，美國只有一項法規提到了AI，去年則增加到25項。Maslej表示，2022年之後，政策制定者提出的AI相關法案數量大幅增加。

監管行動越來越側重於促進負責任的AI使用。Maslej說，儘管出現了可以對AI工具的真實性、偏見等指標進行評分的基準，但並不是每個人都在使用相同的模型，這使得交叉比較變得困難。