神奇!神經網絡讓計算機自我進化,自我探索,超越深度學習算法

待穗田 發佈 2019-12-19T15:48:08+00:00

計算機進化出一條通往人類智能的新道路從生物學中借鑑的神經網絡,其能力正在發生深刻的飛躍。神經網絡是製造真正智能機器的最佳方式嗎?踏腳石原理是一種將創造力注入人工智慧的方法。

計算機進化出一條通往人類智能的新道路

從生物學中借鑑的神經網絡,其能力正在發生深刻的飛躍。神經網絡是製造真正智能機器的最佳方式嗎?

2007年,中佛羅里達大學的計算機科學家肯尼斯·斯坦利正在和他的學生創建的網站Picbreeder,突然一個外星人變成了一輛賽車,改變了他的生活。在Picbreeder上,用戶可以看到一組15張類似的圖片,由幾何形狀或漩渦圖案組成,所有這些都是同一個主題的變體。有時,有些照片可能像一個真實的物體,像蝴蝶或臉。用戶可以選擇一張圖片,他們通常會點擊他們認為最有趣的東西。一旦他們這樣做了,一組新的圖像將填充螢幕。從這個有趣的探索中,一個充滿幻想的設計目錄出現了。

斯坦利是人工智慧領域「神經進化」的先驅,該領域利用生物進化原理來設計更智能的算法。使用Picbreeder,每張圖像都是一個類似於神經網絡的計算系統的輸出。當一個圖像生成時,它的底層網絡突變為15個稍微不同的變體,每個變體都生成一個新的圖像。斯坦利並不打算讓Picbreeder產生任何特別的東西。他只是有一種預感,他或公眾可能會學到一些關於進化或人工智慧的知識。


有一天,斯坦利在網站上發現了一張類似外星面孔的東西,並開始進化它,選擇了一個孩子和一個孫子等等。碰巧,圓圓的眼睛往下挪了挪,開始像汽車的輪子了。斯坦利也跟著做了,並設計了一輛外觀漂亮的跑車。他一直在想這樣一個事實:如果他從零開始,而不是從外星人面孔開始,他可能永遠也做不到這一點,他想知道這意味著什麼,直接解決問題。「這對我的整個人生產生了巨大的影響,」他說。他查看了Picbreeder上出現的其他有趣的圖片,追蹤了它們的譜系,發現它們幾乎都是通過完全不同的方式進化而來的。「我一看到證據,就驚呆了。」


斯坦利的認識造就了他所稱的「踏腳石原理」,並由此設計出一種更充分地利用生物進化無窮創造力的算法。這種腳踏式原理,就像中國先賢所說的「一生二,二生三,三生萬物」,從一個源頭開始,創造出無窮無盡的事物。

踏腳石原理與生物進化

進化算法已經存在很長時間了。傳統上,它們被用來解決特定的問題。在每一代中,在某些指標上表現出最好的解決方案,比如控制一個兩腿機器人的能力,被選中並產生後代。雖然這些算法已經取得了一些成功,但它們的計算能力可能比深度學習等其他方法更強,深度學習近年來大受歡迎。

踏腳石原理超越了傳統的進化方法。它不針對特定的目標進行優化,而是對所有可能的解決方案進行創造性的探索。通過這樣做,它取得了突破性的成果。不久前,一個基於「踏腳石原理「的系統掌握了兩款電子遊戲,而這兩款遊戲卻難倒了流行的機器學習方法。在《自然》雜誌發表的一篇論文中,人工智慧公司DeepMind報告稱,該公司成功地將深度學習與多樣化解決方案的演變結合起來。DeepMind率先將深度學習用於解決圍棋等問題。


踏腳石原理的潛力可以用生物進化來類比。在自然界中,生命之樹沒有包羅萬象的目標,用於一個功能的特性可能會發現自己會去做一些完全不同的事情。例如,羽毛可能是為了隔熱而進化的,後來才變得便於飛行。

生物進化也是產生人類智能的唯一系統,這是許多人工智慧研究者的終極夢想。由於生物學的跟蹤記錄,斯坦利和其他人已經開始相信,如果我們想要的算法能夠儘可能輕鬆地在物理和社會世界中導航,我們需要模仿大自然的戰術。他們認為,我們必須讓大量的解決方案開花結果,而不是硬編碼推理規則,或讓計算機學會在特定的性能指標上取得高分。讓計算機優先考慮新奇感或興趣,而不是走路或說話的能力。他們可能會發現一條迂迴的道路,一組墊腳石,最終能更好地走路和說話,而不是直接尋求這些技能。


從無到有,新奇探索

繼Picbreeder之後,斯坦利著手證明生物進化原則可以克服人們的爭議:「如果我運行一個算法的創意到了這樣一種程度,我不確定它會產生什麼,這是非常有趣的,但這也難以商業化。」

他希望通過簡單地沿著有趣的方向跟隨想法,算法不僅可以產生多樣化的結果,而且可以解決問題。更大膽的是,他的目標是證明完全無視一個目標比追求它會更快地實現目標。他通過一種叫做查新的方法做到了這一點。

該系統由一個神經網絡開始,它是一種被稱為神經元的小計算單元按照層狀連接排列。一層神經元的輸出通過具有不同「權重」的連接傳遞到下一層。在一個簡單的例子中,輸入數據,比如圖像,可能被輸入到神經網絡中。隨著來自圖像的信息從一層傳遞到另一層,網絡對其內容的提取越來越抽象。最後,最後一層計算最高級別的信息:圖像的標籤。

對於優步人工智慧實驗室和中佛羅里達大學的計算機科學家肯尼思•斯坦利來說,「踏腳石原則」解釋了創新。

在神經進化中,你首先給層間的權重分配隨機值。這種隨機性意味著網絡不會很好地完成它的工作。但是,從這種令人遺憾的狀態中,你可以創建一組隨機突變,後代神經網絡的權重略有不同,並評估它們的能力。你保留最好的,產生更多的後代,然後重複。更高級的神經進化策略也會在神經元和連接的數量和排列上引入突變。神經進化是一個元算法,一個設計算法的算法。最終,這些算法很好地完成了它們的工作。

為了測試踏腳石原理,斯坦利和他的學生Joel Lehman調整了選擇過程。新穎性的搜索並沒有選擇那些在一項任務中表現最好的網絡,而是根據它們與行為最相似的網絡之間的差異來選擇它們。在Picbreeder中,人們會獎勵有趣的人。在這裡,作為興趣度的代理,新奇搜索將獎勵新奇。


在一項測試中,他們將虛擬輪式機器人置於迷宮中,並對控制它們的算法進行進化,希望它們能找到出口的路徑。他們從零開始進行了40次進化。在一個比較程序中,機器人到出口的距離誰最短,如直線距離,40次中只有3次進化出獲勝的機器人。完全不考慮每個機器人離出口有多近的新穎性搜索,成功了39次。它成功了,因為機器人設法避免了死胡同。他們不是面對出口,將頭撞在牆上,而是探索不熟悉的領域,找到變通方法,並意外獲勝。查新很重要,因為它徹底顛覆了一切,基本上就是問,當我們沒有目標時,會發生什麼。

一旦斯坦利指出追求目標可能會成為實現這些目標的障礙,他就開始尋找將新奇搜索和具體目標結合起來的聰明方法。這促使他和雷曼兄弟創建了一個反映自然進化壁龕的系統。在這種方法中,算法只與與它們相似的其他算法競爭。就像蠕蟲不會與鯨魚競爭一樣,該系統維護著不同的算法利基,從中可以產生各種有前途的方法。

這種具有局部競爭的進化算法在處理像素、控制機器人手臂以及幫助一個失去肢體的六足機器人快速適應其步態方面表現得很熟練,就像動物一樣。這些算法的一個關鍵要素是它們培育了踏腳石。他們不是不斷地優先考慮一個整體的最佳解決方案,而是維護一個多樣化的充滿活力的小眾市場,其中任何一個都可以成為贏家。最好的解決方案可能來自於在不同的利基之間跳躍的譜系。

進化到贏

對於目前在優步人工智慧實驗室工作的斯坦利來說,「踏腳石原則」解釋了創新,如果你帶著一台現代電腦回到過去,告訴人們放棄真空管,專注於筆記本電腦,我們就什麼都沒有了。這也解釋了進化,我們是由扁蟲進化而來的,扁蟲不是特別聰明,但卻有兩側對稱的特徵。目前還完全不清楚左右對稱的發現是否與智力有關,更不用說與莎士比亞有關了,但確實如此。

神經進化本身在過去十年中走了一條出乎意料的迂迴之路。很長一段時間以來,它一直生活在其他形式的人工智慧的陰影下。

據德克薩斯大學奧斯汀分校的計算機科學家說,它最大的缺點之一就是計算量大。在傳統的機器學習中,當你訓練一個神經網絡時,它會逐漸變得越來越好。在神經進化中,權值是隨機變化的,因此網絡的性能可能在改進之前就會下降。

另一個缺點是,大多數人都有自己想要解決的問題。一個優化興趣度的搜索策略可能會讓你找到解決這個問題的創造性方法。但它可能會讓你在走上正路之前就誤入歧途。

然而,沒有什麼策略是完美的。在過去五年左右的時間裡,人工智慧研究的不同領域,如深度學習和強化學習,出現了爆炸式的增長。在強化學習中,算法與環境相互作用,一個機器人在現實世界中導航,或者一個玩家在遊戲中競爭,並通過反覆試驗來學習哪些行為會導致預期的結果。深度強化學習被DeepMind用來創建一個程序,它可以在圍棋上打敗世界上最好的棋手,許多人認為這一壯舉還需要幾年或幾十年的時間。

但是強化學習可能會陷入困境。稀疏或不頻繁的獎勵不能給算法足夠的反饋,使它們能夠朝著目標前進。欺騙性的獎勵對阻礙長期進步的短期收益進行獎勵會讓算法陷入死胡同。因此,儘管強化學習可以在眾多遊戲中得分頻繁,一些目標明確的遊戲可以打敗人類,但它們在其他缺乏這些功能的經典遊戲中卻一敗下地。

在過去的一年裡,基於踏腳石原理的人工智慧終於成功地解決了該領域長期存在的一些挑戰。


在遊戲《蒙特祖瑪的復仇》中,巴拿馬喬在地下迷宮中從一個房間導航到另一個房間,收集打開門的鑰匙,同時避開敵人和蛇、火坑等障礙物。為了打破這個遊戲,研究人員開發了一個系統,基本上可以讓遊戲四處閒逛,隨機嘗試各種動作。每一次他到達一個新的遊戲狀態,例如一個新的位置和一套新的財產,他把它歸檔到他的記憶中,連同他所採取的一系列行動。如果他後來找到一條更快的路逕到達那個狀態,它就會取代舊的內存。在訓練期間,巴拿馬喬反覆挑選其中一個存儲狀態,隨機地探索一段時間,並將他發現的任何新狀態添加到他的記憶中。

最終,其中一個狀態就是贏得比賽的狀態。巴拿馬喬在他的記憶中有他所採取的所有行動。他沒有使用神經網絡或強化學習,沒有收集鑰匙或接近迷宮盡頭的獎勵,只是隨機探索和收集並連接踏腳石的聰明方法。這種方法不僅擊敗了最好的算法,還打破了人類的遊戲世界紀錄。

同樣的技術,也就是研究人員所說的《去探索》,曾被用於在陷阱上擊敗人類專家!在這個遊戲中,陷阱哈利在叢林中尋找寶藏,同時避開鱷魚和流沙。沒有其它機器學習人工智慧的得分高於零。

2019年1月,研究團隊展示了AlphaStar,這款軟體可以在複雜的電子遊戲《星際爭霸2》中擊敗頂級專業人士。AlphaStar進化出了一群互相競爭、互相學習的玩家。升級版的AlphaStar在一個熱門遊戲平台上排名前0.2%的活躍玩家中名列前茅,成為第一個不受任何限制地登上熱門電子競技遊戲頂層的人工智慧。

開放式的發現可能是實現類人人工智慧的最快方式。

設計人工智慧的人工智慧

到目前為止討論的所有算法在創造力方面都是有限的。AlphaStar只能想出新的星際爭霸2戰略。新穎性搜索一次只能在一個領域內找到新穎性,例如解決迷宮或行走機器人。

另一方面,生物進化產生了無窮無盡的新奇事物。我們有細菌、海帶、鳥類和人類。這是因為解決方案在進化,但問題也在進化,例如長頸鹿是對樹木問題的回應。人類的創新也是如此。我們給自己製造麻煩,我們能把人送上月球嗎?然後解決它們。進化算法卻不能給自己製造麻煩,無法自我創造新的領域。

數十年的研究告訴我們,這些算法不斷地讓我們感到驚訝,並勝過我們。

為了反映這種問題與解決方案之間的開放式對話,研究團隊發布了一個名為POET的算法,用於配對開放式開拓者。為了測試這個算法,他們進化了一群虛擬的兩腿機器人。它們還為機器人進化出了一群障礙訓練場,包括山丘、戰壕和樹樁。這些機器人有時會交換位置,嘗試新的地形。例如,一個機器人學會了拖著它的膝蓋穿越平坦的地形。然後它被隨機轉移到一個有短樹樁的地方,在那裡它必須學會直立行走。當它回到它的第一個障礙訓練場時,它完成得更快了。一個間接的途徑允許它通過從一個難題中學習技能來提高將它們應用於另一個。

詩人有可能設計出新的藝術形式,或者通過為自己發明新的挑戰然後解決它們來進行科學發現。它甚至可以走得更遠,這取決於它建立世界的能力。斯坦利說,他希望建立的算法在10億年之後仍然可以做一些有趣的事情。

斯坦利說,進化發明了視覺,發明了光合作用,發明了人類級別的智能,它發明了所有的一切,所有的一切都是在一個算法的運行過程中完成的。捕捉到這一過程中哪怕是一丁點的變化,都是非常強大的。

有人認為開放式的發現可能是通向人工智慧的最快路徑,這樣機器幾乎具備人類所有的能力。人工智慧領域的大部分研究都集中在人工設計智能機器的所有構件上,比如不同類型的神經網絡架構和學習過程。但目前還不清楚這些信息如何最終整合成一種通用智能。


相反,也有人認為應該更多地關注設計AI的AI。算法將設計或進化神經網絡和它們學習的環境,使用詩人的方法。這種開放式的探索可能會通過我們從未預料到的途徑,或者通過各種各樣的外星智能,引導我們獲得人類級別的智能。這些外星智能可以教給我們很多關於智能的知識。

有一件事真的很驚人,可能也很瘋狂,那就是我是如何來到這個世界上的,基本上和讓我來到這裡的算法洞察力是一樣的。導致我們頓悟的東西其實是由頓悟本身來解釋的。

關鍵字: