圖說人工智慧博弈論

人工智能遇見磐創 發佈 2019-12-30T08:41:32+00:00

介紹我想先問一個簡單的問題——你能認出下圖中的兩個人嗎?我肯定你說對了。對於我們這些早期數學發燒友來說,電影《美麗心靈》(A Beautiful Mind)已經深深地印在了我們的記憶中。Russell Crowe在電影中扮演John Nash,一位諾貝爾經濟學獎得主(上圖左側)。

介紹

我想先問一個簡單的問題——你能認出下圖中的兩個人嗎?

我肯定你說對了。對於我們這些早期數學發燒友來說,電影《美麗心靈》(A Beautiful Mind)已經深深地印在了我們的記憶中。Russell Crowe在電影中扮演John Nash,一位諾貝爾經濟學獎得主(上圖左側)。

現在,你應該還記得那個經典場景:「不要追金髮女郎」。在這個場景中,約翰·納什引用道:

「當團隊中的每個人都在做對自己和團隊最有利的事情時,最好的結果就會出現。」

許多人認為這是著名的「納什均衡」的發現。雖然這場景很經典,但也不一定是對的。這個場景實際上描述了「帕累托最優」。但這對我們理解博弈論還是有幫助的。

所以在這篇文章中,我們將鳥瞰博弈論。我們還將討論博弈論在人工智慧領域的應用。我以一種即使是初學者和非技術人員也能跟上的方式來寫這篇文章。

目錄

  1. 什麼是博弈論?
  2. 博弈論中的納什均衡
  3. 博弈類型
  4. 人工智慧中的博弈論

1.什麼是博弈論?

什麼是博弈論?我相信你在某個時候曾經遇到過這個概念,但從來沒有真正深入研究過它。相信我,在人工智慧領域,這是一個耐人尋味的話題。

我們先來給博弈論下一個正式的定義。

博弈論可以被認為是兩個或多個理性的代理人或玩家之間相互作用的模型。

在這裡,我必須強調理性這個關鍵字,因為它是博弈論的基礎。但理性究竟意味著什麼呢?

我們可以簡單地把理性稱為一種理解,即每個行為人都知道所有其他行為人都和他/她一樣理性,擁有相同的理解和知識水平。同時,理性指的是,考慮到其他行為人的行為,行為人總是傾向於更高的報酬/回報。

簡而言之,每個行為人都是自私的,都試圖使報酬最大化。

既然我們已經知道了理性意味著什麼,讓我們來看看與博弈論相關的其他一些關鍵詞:

  • 遊戲:一般來說,遊戲是由一組玩家,行動/策略和最終收益組成。例如:拍賣、象棋、政治等。
  • 玩家:玩家是參與任何遊戲的理性實體。例如:
  • 在拍賣會的投標人
  • 石頭剪刀布的玩家
  • 參加選舉的政治家等。
  • 收益:收益是所有玩家在獲得特定結果時所獲得的獎勵。它可以是正的,也可以是負的。正如我們之前所討論的,每個代理都是自私的,並且想要最大化他們的收益:

博弈論中的納什均衡

納什均衡是人工智慧博弈論方法的「基石」。納什均衡是每個玩家選擇的行動滿足:

「沒有玩家會想要改變他們的行動。從納什均衡中改變他們的行為意味著他們沒有達到最佳狀態"

「考慮到其他所有代理人都是理性的,他們都為他們自己選擇最好的行動,納什均衡產生的行動對我來說是最好的。」

任何玩家都不可能通過改變之前的決定來增加收益。我們也可以將其視為「無悔」,即一旦做出決定,玩家便不會因為考慮到後果而後悔。

為了了解納什均衡的作用,我們現在來解決博弈論中最常見的問題——囚徒困境。這個遊戲是一個經典的例子,它說明了在代理人只關心自身利益的情況下,為了共同利益而協同行動的困難。

在這個遊戲中,我們有兩個犯人,Alan和Ben,他們因為同樣的罪行被抓了起來,被關在兩個不同的審訊室里。他們有兩個選擇:

  1. 保持沉默
  2. 承認罪行

假設每個人都有兩個選擇。總共有4種結果:

  • {沉默,沉默}
  • {承認,沉默}
  • {沉默,承認}
  • {承認,承認}

這4個結果可以方便地表示為一個博弈矩陣:

在這個表達式中,支付的形式是(Alan的支付,Ben的支付)。沿著行,我們有Alan的動作,沿著列,我們有Ben的動作。

好好思考收益。為什麼有收益是負的?這是因為,根據他們的行動,他們將獲得預先確定的監禁年限。

結果如下:

  1. 如果兩人都保持沉默,兩人都將被監禁一年
  2. 如果他們中的任何一人認罪,認罪的人將獲得自由,而另一名囚犯將被判15年監禁
  3. 如果兩人都認罪,兩人都將被判處10年監禁

這一困境的出現是因為兩個囚犯都不知道另一個囚犯做了什麼。那麼,你認為這個問題中的納什均衡產生的結果是什麼呢?人們憑直覺大概是認為犯人會互相合作,保持沉默。

但我們也知道,囚犯會盡力減少他們所受的監禁,這關乎他們的個人利益。即使他們保持沉默,他們仍然會被監禁一年。

實際情況是這樣的:

Ben也會這麼想。如果我們專注於博弈矩陣,思考過程將會變得非常有趣:

  1. 在Ben坦白的情況下,Alan最好的選擇就是坦白。這將導致10年的監禁而不是15年
  2. 如果Ben保持沉默,Alan最好還是坦白,因為如果他也保持沉默,他將面臨一年的監禁,而不是一個自由人

所以這個博弈矩陣和Alan的想法是完全一致的。現在,如果Ben也有同樣的想法,博弈矩陣對他來說應該是這樣的:

假設Ben也像Alan一樣經歷了理性思考過程。Ben還得出結論,無論艾倫選擇什麼,坦白總是有益的。現在,如果我們把這兩個囚犯的理性思維疊加起來,結果是這樣的:

從結果來看,最好的策略是{坦白,坦白}。即使他們中的任何一個試圖偏離這個動作,他們的情況也比他們通過玩這個動作所得到的更糟。因此,{坦白,坦白}是一種納什均衡策略

很有道理,對吧?對於納什均衡,我們可以得出這樣的結論:對於任何遊戲來說,它都是一個「無悔」的解決方案,但不一定是最優的。

博弈類型

我們剛剛看到一個囚徒困境的例子,兩個囚徒必須同時做出決定,我們用一個博弈矩陣來表示。這些類型的博弈通常被稱為正則形式的博弈

在博弈論中,遊戲可以根據許多不同的標準分為許多不同的類別。

代理之間的交互

直觀上,我們可以根據遊戲中的代理是競爭還是合作來區分遊戲。

政治競選就是一個競爭遊戲的好例子,一個候選人的獎勵導致另一個候選人的失敗。另一方面,一場籃球比賽可以被看作是一場合作的比賽,每個球員如果互相合作就會得到更多的獎勵。

代理怎麼進行遊戲

我們還可以根據遊戲是否同時存在或是否具有廣泛性來對它們進行分類

為了理解這一點,讓我們以一個名為「性別之戰」的問題為例。

考慮到Bob和Amy兩個經常一起玩。他們很清楚對方分別喜歡出去踢足球和參加舞會。這次他們決定這次一起出去玩,他們可以給對方一個驚喜或者各自玩自己的。

如果他們打算給對方一個驚喜,他們並不知道對方的周末計劃。博弈矩陣描述了4種不同的情況:

博弈矩陣清楚地解釋了如果Bob和Amy彼此不配合,他們就得不到任何回報。這是一個同時進行的遊戲的例子,在這個遊戲中,兩個玩家同時行動,並且事先不知道其他玩家的行動。

另一方面,如果他們通過告訴對方自己的行動來相互配合,遊戲的形式如下:

這是一個廣泛的形式遊戲或「回合制遊戲」的例子。在這裡,每個玩家都可以看到其他玩家在玩什麼動作。

這是另一個直觀的例子——石頭-剪刀-布的遊戲是同時進行遊戲中的一個很好的例子。另一方面,井字棋遊戲是一種廣泛的形式遊戲。

信息

在博弈論中,經常會出現這樣的情況:玩家的信息不完整。他們可能不知道其他玩家所有可用的策略或潛在的回報。玩家可能不知道他們在和什麼樣的人打交道,也不知道他們的動機是什麼。

根據玩家對其他代理的了解程度,遊戲大致可以分為三類:

  • 完美信息
  • 不完美信息
  • 不完整信息

完美信息:

在完美信息中,每個代理都知道:

  • 其他代理可能採取的所有操作
  • 他們在做什麼
  • 他們得到了多少回報

井字遊戲和西洋棋就是很好的例子。在現實世界中,完美信息遊戲非常罕見。此外,機器學習和深度學習方法在這些遊戲中也非常有效。

不完美信息:

在這種情況下,行為人知道其他行為人的性質和動機,以及在所有可能的結果中他們會得到多少回報。但他們不知道自己在做什麼。

在這裡,將軍知道在每個可能的情況下敵人的動機和回報。但他不知道敵人藏在哪裡。因此,將軍不知道他所在的確切決策節點(用虛線框表示)。不完全信息遊戲在現實場景中經常遇到。

不完全信息

不完全信息是一種非常緊密地模擬現實世界的情況。在這裡,代理沒有關於其他代理的「類型」的信息。

即使任何給定的代理能夠看到其他代理所採取的操作,他/她也不知道其他代理的動機,也不知道其他代理將從該操作中獲得什麼獎勵。

從本質上說,不完全信息博弈是最普遍的博弈形式。

撲克是一個典型的不完全信息遊戲的例子,因為玩家不知道對手手裡拿的是好牌還是壞牌。

我們對撲克遊戲特別感興趣,因為它的不完全信息的性質使它很好地代表了現實世界。正因為如此,它一直被認為是不完全信息博弈的人工智慧領域的一個基準問題。

人工智慧中的博弈論

啊——你一定想知道這一切在人工智慧的背景下意味著什麼。這些不同類型的遊戲和信息與人工智慧有什麼關係?好吧,讓我們來看看!

就人工智慧而言,博弈論基本上有助於做出決策。考慮到「理性」是博弈論的基礎,這並不難。事實上,博弈論已經開始在人工智慧中確立自己的地位——你能猜到它在哪裡嗎?

其中一個是生成對抗網絡(GANs)的概念。它們被引述如下:

「這是過去二十年來機器學習中最酷的想法。」——Yann LeCun,人工智慧和深度學習領域的領導者之一

那麼博弈論是如何幫助GANs的呢?

要回答這個問題,我們需要首先了解GANs的基礎知識。GAN是兩個神經網絡的組合,即:

  • 生成器
  • 判別器

生成器是生成隨機圖像的神經網絡。另一方面,判別器嘗試對生成的圖像是屬於給定的數據集還是生成的圖像進行分類。

如果圖像被分類為「生成的」或偽圖像被判別器捕獲,則生成器網絡調整其參數。另一方面,如果「判別器」將生成的假圖像作為數據集中的一個分類,那麼「判別器」將調整其參數。

這種競爭過程一直持續下去,直到達到一種沒有更多改進餘地的狀態。這種狀態被稱為「納什均衡」。驚訝嗎?

本質上,這是兩個神經網絡之間的競爭遊戲。雖然在這種情況下,他們不斷優化自己,以找到納什均衡。

博弈論的核心實施在於信息不完全博弈。正如我們已經討論過的,撲克是一個經典例子,它也是AI應用在不完全信息上一個不錯的基準問題。

不完全信息非常重要,因為現實世界中的問題常常屬於這一類。迄今為止,在人工智慧的歷史上,機器學習和深度學習方法在不完全信息遊戲方面還暫時未取得特別大的成功。

其中一個這樣的遊戲是德州撲克。這是一個不完美信息遊戲,因為對手的信息隱藏在他手中的牌中。這是一個非常具有挑戰性的問題,考慮到在遊戲中這個撲克有10的161次方的可能性

具體來說,可觀測宇宙中的原子總數是10的82次方!

因此,使用蠻力建模這個遊戲是不可能的。也有人嘗試過使用深度學習和深度強化學習,但效果一般。

不過,由美國卡內基梅隆大學(Carnegie Mellon University)的托馬斯•桑德赫姆(Tuomas Sandholm)教授和人工智慧研究員諾姆•布朗(Noam Brown)開發的名為Libratus的人工智慧程序,迄今為止的表現超過了以往任何一種方法。Libratus已經贏了贏過兩萬多次撲克牌的世界冠軍。Libratus的神奇之處在於它不使用任何機器學習方法!

博弈論是Libratus的核心思想。與深度學習或強化學習方法相比,它的計算能力相對較低。為了了解更多關於博弈論在Libratus的發展中是如何應用的,以及博弈論在未來如何成為人工智慧的一部分,我強烈推薦Lex Fridman和Tuomas Sandholm之間的人工智慧播客:
https://youtu.be/b7bStIQovcY

另一方面,人們經常討論將機器學習和深度學習研究轉移到真實的用例。由於現實世界中的案例通常是不完整信息遊戲,因此大多數機器學習和深度學習方法在這方面都存在困難。

由於博弈論方法在真實用例中的通用性,它們正逐漸獲得發展勢頭。最好的例子是Milind Tambe的工作,她是「社會公益AI」的負責人。利用博弈論的概念,米琳德坦貝處理現實世界的問題如下:

  • 公共安全
  • 野生動物保護
  • 公共衛生等

我強烈建議大家看看這段視頻,看看Tambe教授是如何使用博弈論解決與上述應用相關的現實問題的。視頻播放五分鐘後,你將會看到博弈論是如何在真實的用例中實現的:https://youtu.be/O2su1u2AXG0

結尾

在這篇文章中,我們討論了博弈論的基本原理,並簡要介紹了基本的主題。我們甚至談到了博弈論是如何在機器學習領域及其在現實世界中的應用。

這是一篇介紹性的文章——在以後的文章中,我們將更深入地討論博弈論以及如何將它應用到人工智慧領域,那這篇文章中,我將從技術角度進行分析。

關鍵字: