《策略思維》

西域過(guò)客01 2017-01-15

展開(kāi)全文

《策略思維》——即時(shí)博弈里面的囚徒困境與無(wú)限重復(fù)下的優(yōu)勢(shì)策略

電話鈴聲響了，你接起來(lái)。

但是，“這該死的運(yùn)營(yíng)商！”網(wǎng)絡(luò)斷開(kāi)了，電話連接中斷，你想也沒(méi)想就直接重?fù)苓^(guò)去。

《策略思維》——即時(shí)博弈里面的囚徒困境與無(wú)限重復(fù)下的優(yōu)勢(shì)策略

“對(duì)不起，您撥打的電話正在通話中，請(qǐng)稍后再撥！sorry，the number you have dialed is busy……”

你忍不住罵出一聲“shit！”。

第一次你接起電話，這是一個(gè)回合制事件；第二次你撥號(hào)的時(shí)候，這時(shí)候“打電話”這件事情，變成了你們兩人的即時(shí)制事件。

在回合制事件之中，對(duì)方或者你先選擇打電話，然后另一方接起來(lái)。但是在即時(shí)制的情況下，兩人都面臨兩種選擇——撥過(guò)去或者是等待對(duì)方撥過(guò)來(lái)。

這種時(shí)候總是會(huì)出現(xiàn)那種詭異的“神同步”：當(dāng)你想打過(guò)去的時(shí)候，對(duì)方也想著要打過(guò)來(lái)；當(dāng)你想著等對(duì)方打過(guò)來(lái)的時(shí)候，對(duì)方也在等待……

《策略思維》——即時(shí)博弈里面的囚徒困境與無(wú)限重復(fù)下的優(yōu)勢(shì)策略

在即時(shí)制的事件之中，我們不得不在毫不知曉對(duì)方?jīng)Q定的情況下采取行動(dòng)，等到彼此發(fā)現(xiàn)對(duì)方做了什么，再想做什么改變已經(jīng)太遲了。

這種即時(shí)博弈，最為出名的就是“囚徒困境”，所有的即時(shí)博弈模型，近乎都是從這一原型之下推導(dǎo)而出。

一、囚徒困境

我們先簡(jiǎn)單介紹一個(gè)標(biāo)準(zhǔn)的囚徒困境模型。

警察抓住兩個(gè)囚犯，現(xiàn)在要單獨(dú)審問(wèn)兩個(gè)囚犯。并且因?yàn)槟承┓▌t，如果兩個(gè)囚犯拒絕認(rèn)罪，那么警方只能把兩人各關(guān)兩年。

如果一人坦白，另一方死不認(rèn)罪的話，那么坦白的人將獲得嘉許，當(dāng)場(chǎng)釋放。而嘴硬到底的那一人，則會(huì)被判刑五年。

如果兩人都坦白的話，兩人都將判刑三年。

我們將兩個(gè)囚犯分別簡(jiǎn)化成A跟B，畫出博弈論在分析即時(shí)博弈常用的博弈矩陣。如下：

《策略思維》——即時(shí)博弈里面的囚徒困境與無(wú)限重復(fù)下的優(yōu)勢(shì)策略

其中，每個(gè)格子里面左下角是A的結(jié)果，右上角是B的結(jié)果。

二、優(yōu)勢(shì)策略

通過(guò)上面那張表單，我們可以看到，對(duì)A而言，認(rèn)罪有兩個(gè)結(jié)果：-3和0。而同時(shí)，不認(rèn)罪的兩個(gè)結(jié)果分別對(duì)應(yīng)的是-5跟-1。

其中-3優(yōu)于-5，0優(yōu)于-1。

在這種情況下，我們將結(jié)果總是比較好的那一列所對(duì)應(yīng)的策略，稱之為優(yōu)勢(shì)策略。

我們簡(jiǎn)單理解一下這個(gè)優(yōu)勢(shì)策略的含義：不管對(duì)方怎么選擇，優(yōu)勢(shì)策略的結(jié)果都要好過(guò)于其他策略。在上例之中，對(duì)A而言，B認(rèn)罪的話，自己認(rèn)罪得到-3，自己不認(rèn)罪得到的是-5，認(rèn)罪好過(guò)于抵賴；B如果不認(rèn)罪，自己認(rèn)罪得到的是0，不認(rèn)罪得到的是-1，還是認(rèn)罪得到的結(jié)果更好。

而另外的處于明顯劣勢(shì)地位的策略，稱之為劣勢(shì)策略。

我們劃出一根線，消去那些所謂的劣勢(shì)策略，得到這么一張圖：

《策略思維》——即時(shí)博弈里面的囚徒困境與無(wú)限重復(fù)下的優(yōu)勢(shì)策略

此時(shí)我們看到即時(shí)博弈里面有三個(gè)框之中都出現(xiàn)了刪除的實(shí)線，最后只留下唯一一個(gè)框：兩人同時(shí)認(rèn)罪的框。

也就是說(shuō)，這兩個(gè)囚徒在追求自己最佳策略的時(shí)候，往往會(huì)得到兩人雙雙入獄判刑的結(jié)局，這就是博弈論里面最為基礎(chǔ)的囚徒困境。

三、納什均衡

回到最開(kāi)始我們提出的打電話的例子，我們假設(shè)電話打通雙方收益都是1，打電話打不通兩方的收益都是0。

畫出博弈矩陣圖：

《策略思維》——即時(shí)博弈里面的囚徒困境與無(wú)限重復(fù)下的優(yōu)勢(shì)策略

有意思，你仔細(xì)觀察，發(fā)現(xiàn)無(wú)論是對(duì)A還是對(duì)B，都沒(méi)有一個(gè)優(yōu)勢(shì)策略：（0,1）的組合，跟（1,0）的組合比起來(lái)，顯然是毫無(wú)優(yōu)勢(shì)。

這種情況下，我們沒(méi)有辦法消去所謂的“劣勢(shì)策略”，整個(gè)矩陣還是四個(gè)情況擺在我們的眼前。

但是從兩個(gè)人的整體上來(lái)看，兩個(gè)(1,1)相對(duì)起(0,0)就是“雙方的優(yōu)勢(shì)策略組合”，這兩個(gè)結(jié)果下誰(shuí)改變都對(duì)自己沒(méi)好處。比如說(shuō)A選擇撥打，B選擇等待，A此時(shí)改變自己的選擇，從1到0，沒(méi)好處，B從等待變成撥打，也會(huì)導(dǎo)致從1到0，也沒(méi)好處。

這兩種雙方的優(yōu)勢(shì)策略組合可以稱之為是納什均衡：（撥打，等待）和（等待，撥打），就是這一博弈里面的納什均衡。

好了，基本的概念性玩意兒到此為止。。（不能說(shuō)看過(guò)一期概覽連博弈論里面的一些基礎(chǔ)定義都不清楚啊，很不想寫這種乏味的概念陳述）

四、現(xiàn)實(shí)限制下的囚徒困境：懲罰

在前文之中的囚徒困境里面，那只是一個(gè)極度簡(jiǎn)化的模型，現(xiàn)實(shí)里面的情況比起模型要復(fù)雜許多。

起碼我們看過(guò)那么多的香港電影、TVB劇，基本上沒(méi)見(jiàn)過(guò)這么老實(shí)合作的“犯罪嫌疑人”，他們往往拒不認(rèn)罪，為什么？

《策略思維》——即時(shí)博弈里面的囚徒困境與無(wú)限重復(fù)下的優(yōu)勢(shì)策略

因?yàn)椤皯土P”的存在。

前面我們提出優(yōu)勢(shì)策略的時(shí)候，0（無(wú)罪釋放）相對(duì)于-1（關(guān)一年）是優(yōu)勢(shì)策略，但是這只是理想情況下，考慮到現(xiàn)實(shí)——萬(wàn)一放出來(lái)會(huì)被打，那無(wú)罪釋放還是一個(gè)優(yōu)勢(shì)策略？

A此時(shí)的思考方式就成了，放出去一定會(huì)被認(rèn)為是招了，那么自己的其他同伙一定會(huì)懲罰自己，那么此時(shí)，招供就不是一個(gè)優(yōu)勢(shì)策略。

牢獄的懲罰和出去之后同伴的打擊報(bào)復(fù)，都是懲罰。如果同伴之間的懲罰來(lái)的更為嚴(yán)重的時(shí)候，不招供才是這種情況下的優(yōu)勢(shì)策略。

《策略思維》——即時(shí)博弈里面的囚徒困境與無(wú)限重復(fù)下的優(yōu)勢(shì)策略

這也就出現(xiàn)了我們?cè)陔娪袄锩娼?jīng)常碰上的情況，罪犯?jìng)兺鶎幵付妆O(jiān)獄都不大愿意招供，犯罪團(tuán)伙的懲罰機(jī)制，有力的制止了其成員在被警察抓住之后選擇“招供”的傾向性。

五、無(wú)限重復(fù)的囚徒困境

如果無(wú)限重復(fù)，用囚徒的例子已經(jīng)不合適了。（牢底坐穿嗎？）

還記得《自私的基因》概覽么？放蕩和羞怯的雌性個(gè)體，忠貞與薄情的雄性個(gè)體。

不過(guò)這里不用那個(gè)例子，為了簡(jiǎn)化，我們用一個(gè)銀行家的例子。為了簡(jiǎn)化篇幅，直接上圖：

《策略思維》——即時(shí)博弈里面的囚徒困境與無(wú)限重復(fù)下的優(yōu)勢(shì)策略

如同上面的囚徒困境，合作是會(huì)被每個(gè)人刪除掉的劣勢(shì)策略。

但是如果這個(gè)游戲不是一輪位置，而是無(wú)限重復(fù)的時(shí)候，會(huì)是怎么樣的局面？這個(gè)“重復(fù)博弈”更為復(fù)雜，但這個(gè)復(fù)雜性里孕育著希望。

這個(gè)時(shí)候，A跟B并不是敵人，雖然他們還是追求每個(gè)人的最大收益，但是對(duì)方不可能永遠(yuǎn)是傻瓜——選擇合作，而自己選擇背叛。

誰(shuí)都清楚，無(wú)限的背叛下去，雙方都討不到好。

那么這就引入了一個(gè)新的詞匯——信任。

《策略思維》——即時(shí)博弈里面的囚徒困境與無(wú)限重復(fù)下的優(yōu)勢(shì)策略

我們會(huì)從彼此過(guò)去的行為中，判斷對(duì)方是否值得信任，確定自己在這一輪里面打出什么樣的策略，同時(shí)我們?cè)谑聦?shí)上也監(jiān)管著對(duì)方的行為。

我們可以信任、背叛這樣循環(huán)，可以每十次信任打出一次背叛，可以……

哪種綜合策略可以獲得最好的收益？

六、針?shù)h相對(duì)策略

阿克塞爾羅德（一個(gè)政治科學(xué)家）為此舉辦了一個(gè)實(shí)驗(yàn)：每個(gè)人提交自己的策略，把這些策略輸入計(jì)算機(jī)，然后計(jì)算機(jī)讓它們自動(dòng)演化，在若干次循環(huán)之后計(jì)算每個(gè)策略的得分。

最后得分最高的是這么一個(gè)策略：針?shù)h相對(duì)策略，又叫以牙還牙策略。（來(lái)自于心理學(xué)家和博弈學(xué)家阿納托爾）

《策略思維》——即時(shí)博弈里面的囚徒困境與無(wú)限重復(fù)下的優(yōu)勢(shì)策略

這個(gè)策略在第一回合會(huì)采取合作行動(dòng)，之后每一步都會(huì)重復(fù)對(duì)手上一局的策略。

這一場(chǎng)比賽可以讓我們明白一個(gè)事情：在重復(fù)的囚徒困境里面，善意和寬容是得到一個(gè)好結(jié)果的必須要素。

不過(guò)在這里，事后的研究卻也認(rèn)為，針?shù)h相對(duì)策略并非是一個(gè)非常完美的策略，之所以在計(jì)算機(jī)的模擬之下能夠獲得最后的勝利，跟計(jì)算機(jī)的“從不犯錯(cuò)”有很大的關(guān)系。

這個(gè)策略有個(gè)致命的疏忽：誤會(huì)。

設(shè)想一下，在現(xiàn)實(shí)里面使用針?shù)h相對(duì)策略的時(shí)候，誤會(huì)對(duì)方行為一次？（那么兩個(gè)針?shù)h相對(duì)者會(huì)無(wú)窮無(wú)盡的重復(fù)選擇背叛下去）

針?shù)h相對(duì)策略缺少的是一個(gè)宣布“到此為止”的方法。

《策略思維》——即時(shí)博弈里面的囚徒困境與無(wú)限重復(fù)下的優(yōu)勢(shì)策略

具體在現(xiàn)實(shí)之中，作者也提出了一個(gè)比較復(fù)雜的策略，這個(gè)策略從合作開(kāi)始，總共四條：

1、第一印象——第一輪就背叛的對(duì)方絕對(duì)不可接受，直接進(jìn)入針?shù)h相對(duì)策略；

2、短期——任何三輪當(dāng)中出現(xiàn)兩次背叛不可接受，轉(zhuǎn)向針?shù)h相對(duì)策略；

3、中期——過(guò)去二十輪之中出現(xiàn)兩次背叛不可接受，轉(zhuǎn)向針?shù)h相對(duì)策略；

4、長(zhǎng)期——過(guò)去一百輪當(dāng)中出現(xiàn)五次背叛也是不可接受的，轉(zhuǎn)向以牙還牙策略。

末、小結(jié)

總體來(lái)說(shuō)今天這一篇文章還是比較多的摻雜了理論和概念，不過(guò)非常抱歉，這也是不得已而為之。

無(wú)論是囚徒困境、納什均衡，還是無(wú)限重復(fù)的囚徒困境，這些是我們用知識(shí)去解釋現(xiàn)實(shí)里面不得不涉及到的一些博弈論基礎(chǔ)。

本周，將給大家?guī)?lái)明理系列第四期——現(xiàn)實(shí)世界里面的博弈縮影。

《策略思維》——即時(shí)博弈里面的囚徒困境與無(wú)限重復(fù)下的優(yōu)勢(shì)策略

不管是在《自私的基因》里面出現(xiàn)的進(jìn)化抉擇傾向，還是當(dāng)下熱門的“消費(fèi)升級(jí)”，甚至還有“房?jī)r(jià)問(wèn)題”，這些都可以用前面提到的那幾個(gè)博弈論的基礎(chǔ)概念進(jìn)行解釋和預(yù)測(cè)。

讀書不是為了讀死書，而是為了用來(lái)構(gòu)建我們的知識(shí)體系和預(yù)測(cè)機(jī)制。

明天，將給大家?guī)?lái)這一期概覽系列的最后一篇——博弈之下的自由市場(chǎng)失靈。

在《國(guó)富論》之后，人們對(duì)自由市場(chǎng)經(jīng)濟(jì)里面那個(gè)“看不見(jiàn)的手”充滿了盲目的信心，人們認(rèn)為每個(gè)理性人在追求個(gè)人經(jīng)濟(jì)最大化的時(shí)候，同時(shí)也會(huì)讓整個(gè)社會(huì)變的更好。

盡管一次次經(jīng)濟(jì)危機(jī)的出現(xiàn)讓人們知道，這只看不見(jiàn)的手并非上帝他老人家的，但是我們依舊對(duì)其充滿信心。

但是博弈之下人們的取舍，最終卻總是會(huì)帶來(lái)一些“并不是對(duì)所有人更好”的結(jié)局。

想要知道具體是怎么一些情況，還有為什么？那就期待明天的推送吧！

你的閱讀時(shí)間就是最好的贊美。

倘若你意猶未盡，還請(qǐng)搜索微信公眾號(hào)名字：“你的文具盒”——

關(guān)注我們，概覽群書，長(zhǎng)見(jiàn)識(shí)；修身明理，知是非。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：西域過(guò)客01 > 《人文知識(shí)》

舉報(bào)/認(rèn)領(lǐng)