電話鈴聲響了,你接起來(lái)。 但是,“這該死的運(yùn)營(yíng)商!”網(wǎng)絡(luò)斷開(kāi)了,電話連接中斷,你想也沒(méi)想就直接重?fù)苓^(guò)去。 “對(duì)不起,您撥打的電話正在通話中,請(qǐng)稍后再撥!sorry,the number you have dialed is busy……” 你忍不住罵出一聲“shit!”。 第一次你接起電話,這是一個(gè)回合制事件;第二次你撥號(hào)的時(shí)候,這時(shí)候“打電話”這件事情,變成了你們兩人的即時(shí)制事件。 在回合制事件之中,對(duì)方或者你先選擇打電話,然后另一方接起來(lái)。但是在即時(shí)制的情況下,兩人都面臨兩種選擇——撥過(guò)去或者是等待對(duì)方撥過(guò)來(lái)。 這種時(shí)候總是會(huì)出現(xiàn)那種詭異的“神同步”:當(dāng)你想打過(guò)去的時(shí)候,對(duì)方也想著要打過(guò)來(lái);當(dāng)你想著等對(duì)方打過(guò)來(lái)的時(shí)候,對(duì)方也在等待…… 在即時(shí)制的事件之中,我們不得不在毫不知曉對(duì)方?jīng)Q定的情況下采取行動(dòng),等到彼此發(fā)現(xiàn)對(duì)方做了什么,再想做什么改變已經(jīng)太遲了。 這種即時(shí)博弈,最為出名的就是“囚徒困境”,所有的即時(shí)博弈模型,近乎都是從這一原型之下推導(dǎo)而出。 一、囚徒困境 我們先簡(jiǎn)單介紹一個(gè)標(biāo)準(zhǔn)的囚徒困境模型。 警察抓住兩個(gè)囚犯,現(xiàn)在要單獨(dú)審問(wèn)兩個(gè)囚犯。并且因?yàn)槟承┓▌t,如果兩個(gè)囚犯拒絕認(rèn)罪,那么警方只能把兩人各關(guān)兩年。 如果一人坦白,另一方死不認(rèn)罪的話,那么坦白的人將獲得嘉許,當(dāng)場(chǎng)釋放。而嘴硬到底的那一人,則會(huì)被判刑五年。 如果兩人都坦白的話,兩人都將判刑三年。 我們將兩個(gè)囚犯分別簡(jiǎn)化成A跟B,畫出博弈論在分析即時(shí)博弈常用的博弈矩陣。如下: 其中,每個(gè)格子里面左下角是A的結(jié)果,右上角是B的結(jié)果。 二、優(yōu)勢(shì)策略 通過(guò)上面那張表單,我們可以看到,對(duì)A而言,認(rèn)罪有兩個(gè)結(jié)果:-3和0。而同時(shí),不認(rèn)罪的兩個(gè)結(jié)果分別對(duì)應(yīng)的是-5跟-1。 其中-3優(yōu)于-5,0優(yōu)于-1。 在這種情況下,我們將結(jié)果總是比較好的那一列所對(duì)應(yīng)的策略,稱之為優(yōu)勢(shì)策略。 我們簡(jiǎn)單理解一下這個(gè)優(yōu)勢(shì)策略的含義:不管對(duì)方怎么選擇,優(yōu)勢(shì)策略的結(jié)果都要好過(guò)于其他策略。在上例之中,對(duì)A而言,B認(rèn)罪的話,自己認(rèn)罪得到-3,自己不認(rèn)罪得到的是-5,認(rèn)罪好過(guò)于抵賴;B如果不認(rèn)罪,自己認(rèn)罪得到的是0,不認(rèn)罪得到的是-1,還是認(rèn)罪得到的結(jié)果更好。 而另外的處于明顯劣勢(shì)地位的策略,稱之為劣勢(shì)策略。 我們劃出一根線,消去那些所謂的劣勢(shì)策略,得到這么一張圖: 此時(shí)我們看到即時(shí)博弈里面有三個(gè)框之中都出現(xiàn)了刪除的實(shí)線,最后只留下唯一一個(gè)框:兩人同時(shí)認(rèn)罪的框。 也就是說(shuō),這兩個(gè)囚徒在追求自己最佳策略的時(shí)候,往往會(huì)得到兩人雙雙入獄判刑的結(jié)局,這就是博弈論里面最為基礎(chǔ)的囚徒困境。 三、納什均衡 回到最開(kāi)始我們提出的打電話的例子,我們假設(shè)電話打通雙方收益都是1,打電話打不通兩方的收益都是0。 畫出博弈矩陣圖: 有意思,你仔細(xì)觀察,發(fā)現(xiàn)無(wú)論是對(duì)A還是對(duì)B,都沒(méi)有一個(gè)優(yōu)勢(shì)策略:(0,1)的組合,跟(1,0)的組合比起來(lái),顯然是毫無(wú)優(yōu)勢(shì)。 這種情況下,我們沒(méi)有辦法消去所謂的“劣勢(shì)策略”,整個(gè)矩陣還是四個(gè)情況擺在我們的眼前。 但是從兩個(gè)人的整體上來(lái)看,兩個(gè)(1,1)相對(duì)起(0,0)就是“雙方的優(yōu)勢(shì)策略組合”,這兩個(gè)結(jié)果下誰(shuí)改變都對(duì)自己沒(méi)好處。比如說(shuō)A選擇撥打,B選擇等待,A此時(shí)改變自己的選擇,從1到0,沒(méi)好處,B從等待變成撥打,也會(huì)導(dǎo)致從1到0,也沒(méi)好處。 這兩種雙方的優(yōu)勢(shì)策略組合可以稱之為是納什均衡:(撥打,等待)和(等待,撥打),就是這一博弈里面的納什均衡。 好了,基本的概念性玩意兒到此為止。。(不能說(shuō)看過(guò)一期概覽連博弈論里面的一些基礎(chǔ)定義都不清楚啊,很不想寫這種乏味的概念陳述) 四、現(xiàn)實(shí)限制下的囚徒困境:懲罰 在前文之中的囚徒困境里面,那只是一個(gè)極度簡(jiǎn)化的模型,現(xiàn)實(shí)里面的情況比起模型要復(fù)雜許多。 起碼我們看過(guò)那么多的香港電影、TVB劇,基本上沒(méi)見(jiàn)過(guò)這么老實(shí)合作的“犯罪嫌疑人”,他們往往拒不認(rèn)罪,為什么? 因?yàn)椤皯土P”的存在。 前面我們提出優(yōu)勢(shì)策略的時(shí)候,0(無(wú)罪釋放)相對(duì)于-1(關(guān)一年)是優(yōu)勢(shì)策略,但是這只是理想情況下,考慮到現(xiàn)實(shí)——萬(wàn)一放出來(lái)會(huì)被打,那無(wú)罪釋放還是一個(gè)優(yōu)勢(shì)策略? A此時(shí)的思考方式就成了,放出去一定會(huì)被認(rèn)為是招了,那么自己的其他同伙一定會(huì)懲罰自己,那么此時(shí),招供就不是一個(gè)優(yōu)勢(shì)策略。 牢獄的懲罰和出去之后同伴的打擊報(bào)復(fù),都是懲罰。如果同伴之間的懲罰來(lái)的更為嚴(yán)重的時(shí)候,不招供才是這種情況下的優(yōu)勢(shì)策略。 這也就出現(xiàn)了我們?cè)陔娪袄锩娼?jīng)常碰上的情況,罪犯?jìng)兺鶎幵付妆O(jiān)獄都不大愿意招供,犯罪團(tuán)伙的懲罰機(jī)制,有力的制止了其成員在被警察抓住之后選擇“招供”的傾向性。 五、無(wú)限重復(fù)的囚徒困境 如果無(wú)限重復(fù),用囚徒的例子已經(jīng)不合適了。(牢底坐穿嗎?) 還記得《自私的基因》概覽么?放蕩和羞怯的雌性個(gè)體,忠貞與薄情的雄性個(gè)體。 不過(guò)這里不用那個(gè)例子,為了簡(jiǎn)化,我們用一個(gè)銀行家的例子。為了簡(jiǎn)化篇幅,直接上圖: 如同上面的囚徒困境,合作是會(huì)被每個(gè)人刪除掉的劣勢(shì)策略。 但是如果這個(gè)游戲不是一輪位置,而是無(wú)限重復(fù)的時(shí)候,會(huì)是怎么樣的局面?這個(gè)“重復(fù)博弈”更為復(fù)雜,但這個(gè)復(fù)雜性里孕育著希望。 這個(gè)時(shí)候,A跟B并不是敵人,雖然他們還是追求每個(gè)人的最大收益,但是對(duì)方不可能永遠(yuǎn)是傻瓜——選擇合作,而自己選擇背叛。 誰(shuí)都清楚,無(wú)限的背叛下去,雙方都討不到好。 那么這就引入了一個(gè)新的詞匯——信任。 我們會(huì)從彼此過(guò)去的行為中,判斷對(duì)方是否值得信任,確定自己在這一輪里面打出什么樣的策略,同時(shí)我們?cè)谑聦?shí)上也監(jiān)管著對(duì)方的行為。 我們可以信任、背叛這樣循環(huán),可以每十次信任打出一次背叛,可以…… 哪種綜合策略可以獲得最好的收益? 六、針?shù)h相對(duì)策略 阿克塞爾羅德(一個(gè)政治科學(xué)家)為此舉辦了一個(gè)實(shí)驗(yàn):每個(gè)人提交自己的策略,把這些策略輸入計(jì)算機(jī),然后計(jì)算機(jī)讓它們自動(dòng)演化,在若干次循環(huán)之后計(jì)算每個(gè)策略的得分。 最后得分最高的是這么一個(gè)策略:針?shù)h相對(duì)策略,又叫以牙還牙策略。(來(lái)自于心理學(xué)家和博弈學(xué)家阿納托爾) 這個(gè)策略在第一回合會(huì)采取合作行動(dòng),之后每一步都會(huì)重復(fù)對(duì)手上一局的策略。 這一場(chǎng)比賽可以讓我們明白一個(gè)事情:在重復(fù)的囚徒困境里面,善意和寬容是得到一個(gè)好結(jié)果的必須要素。 不過(guò)在這里,事后的研究卻也認(rèn)為,針?shù)h相對(duì)策略并非是一個(gè)非常完美的策略,之所以在計(jì)算機(jī)的模擬之下能夠獲得最后的勝利,跟計(jì)算機(jī)的“從不犯錯(cuò)”有很大的關(guān)系。 這個(gè)策略有個(gè)致命的疏忽:誤會(huì)。 設(shè)想一下,在現(xiàn)實(shí)里面使用針?shù)h相對(duì)策略的時(shí)候,誤會(huì)對(duì)方行為一次?(那么兩個(gè)針?shù)h相對(duì)者會(huì)無(wú)窮無(wú)盡的重復(fù)選擇背叛下去) 針?shù)h相對(duì)策略缺少的是一個(gè)宣布“到此為止”的方法。 具體在現(xiàn)實(shí)之中,作者也提出了一個(gè)比較復(fù)雜的策略,這個(gè)策略從合作開(kāi)始,總共四條: 1、第一印象——第一輪就背叛的對(duì)方絕對(duì)不可接受,直接進(jìn)入針?shù)h相對(duì)策略; 2、短期——任何三輪當(dāng)中出現(xiàn)兩次背叛不可接受,轉(zhuǎn)向針?shù)h相對(duì)策略; 3、中期——過(guò)去二十輪之中出現(xiàn)兩次背叛不可接受,轉(zhuǎn)向針?shù)h相對(duì)策略; 4、長(zhǎng)期——過(guò)去一百輪當(dāng)中出現(xiàn)五次背叛也是不可接受的,轉(zhuǎn)向以牙還牙策略。 末、小結(jié) 總體來(lái)說(shuō)今天這一篇文章還是比較多的摻雜了理論和概念,不過(guò)非常抱歉,這也是不得已而為之。 無(wú)論是囚徒困境、納什均衡,還是無(wú)限重復(fù)的囚徒困境,這些是我們用知識(shí)去解釋現(xiàn)實(shí)里面不得不涉及到的一些博弈論基礎(chǔ)。 本周,將給大家?guī)?lái)明理系列第四期——現(xiàn)實(shí)世界里面的博弈縮影。 不管是在《自私的基因》里面出現(xiàn)的進(jìn)化抉擇傾向,還是當(dāng)下熱門的“消費(fèi)升級(jí)”,甚至還有“房?jī)r(jià)問(wèn)題”,這些都可以用前面提到的那幾個(gè)博弈論的基礎(chǔ)概念進(jìn)行解釋和預(yù)測(cè)。 讀書不是為了讀死書,而是為了用來(lái)構(gòu)建我們的知識(shí)體系和預(yù)測(cè)機(jī)制。 明天,將給大家?guī)?lái)這一期概覽系列的最后一篇——博弈之下的自由市場(chǎng)失靈。 在《國(guó)富論》之后,人們對(duì)自由市場(chǎng)經(jīng)濟(jì)里面那個(gè)“看不見(jiàn)的手”充滿了盲目的信心,人們認(rèn)為每個(gè)理性人在追求個(gè)人經(jīng)濟(jì)最大化的時(shí)候,同時(shí)也會(huì)讓整個(gè)社會(huì)變的更好。 盡管一次次經(jīng)濟(jì)危機(jī)的出現(xiàn)讓人們知道,這只看不見(jiàn)的手并非上帝他老人家的,但是我們依舊對(duì)其充滿信心。 但是博弈之下人們的取舍,最終卻總是會(huì)帶來(lái)一些“并不是對(duì)所有人更好”的結(jié)局。 想要知道具體是怎么一些情況,還有為什么?那就期待明天的推送吧! 你的閱讀時(shí)間就是最好的贊美。 倘若你意猶未盡,還請(qǐng)搜索微信公眾號(hào)名字:“你的文具盒”—— 關(guān)注我們,概覽群書,長(zhǎng)見(jiàn)識(shí);修身明理,知是非。 |
|
來(lái)自: 西域過(guò)客01 > 《人文知識(shí)》