博弈論經(jīng)典案例“囚徒困境”及其實證分析

老莊走狗 2007-01-17

展開全文

博弈論經(jīng)典案例“囚徒困境”及其實證分析

發(fā)帖時間：2005-10-27 11:06:52

功能：[回復(fù)] [收藏] [使用卡片] [違規(guī)舉報] 【復(fù)制地址】 [點242/回2]

分頁：第一頁 [1-50] 下一頁尾頁 [新開閱讀] [只看樓主] [刷新本帖]

[樓主] [每日必看] [大字小字]
博弈論經(jīng)典案例“囚徒困境”及其實證分析

分類：博弈論與信息經(jīng)濟學(xué)        博弈論與信息經(jīng)濟學(xué)  文章提交者：劉健發(fā)表時間：2003-09-03
博弈論經(jīng)典案例“囚徒困境”及其實證分析
北京工商大學(xué)  劉健

    最近三四十年，經(jīng)濟學(xué)經(jīng)歷了一場“博弈論革命”，就是引入博弈論的概念和方法改造經(jīng)濟學(xué)的思維，推進經(jīng)濟學(xué)的研究。諾貝爾經(jīng)濟學(xué)獎授予包括美國普林斯頓大學(xué)的納什博士在內(nèi)的3位博弈論專家，可以看作是一個標(biāo)志，這自然也激發(fā)了人們了解博弈論的熱情。博弈論作為現(xiàn)代經(jīng)濟學(xué)的前沿領(lǐng)域，已成為占據(jù)主流的基本分析工具。
    博弈論是研究決策主體的行為發(fā)生直接相互作用時的決策以及這種決策的均衡，也就是說，當(dāng)一個主體的選擇受到其他主體選擇的影響，而且反過來影響到其他主體選擇時的決策問題和均衡問題。
一個完整的博弈應(yīng)當(dāng)包括五個方面的內(nèi)容：第一，博弈的參加者，即博弈過程中獨立決策、獨立承擔(dān)后果的個人和組織；第二，博弈信息，即博弈者所掌握的對選擇策略有幫助的情報資料；第三，博弈方可選擇的全部行為或策略的集合；第四，博弈的次序，即博弈參加者做出策略選擇的先后；第五，博弈方的收益，即各博弈方做出決策選擇后的所得和所失。

    “囚徒困境”
    “囚徒困境”是博弈論里最經(jīng)典的例子之一。講的是兩個嫌疑犯（Ａ和Ｂ）作案后被警察抓住，隔離審訊；警方的政策是"坦白從寬，抗拒從嚴"，如果兩人都坦白則各判８年；如果一人坦白另一人不坦白，坦白的放出去，不坦白的判１０年；如果都不坦白則因證據(jù)不足各判１年。
　　在這個例子里，博弈的參加者就是兩個嫌疑犯Ａ和Ｂ，他們每個人都有兩個策略即坦白和不坦白，判刑的年數(shù)就是他們的支付?？赡艹霈F(xiàn)的四種情況：Ａ和Ｂ均坦白或均不坦白、Ａ坦白Ｂ不坦白或者Ｂ坦白Ａ不坦白，是博弈的結(jié)果。Ａ和Ｂ均坦白是這個博弈的納什均衡。這是因為，假定Ａ選擇坦白的話，Ｂ最好是選擇坦白，因為Ｂ坦白判８年而抵賴卻要判十年；假定Ａ選擇抵賴的話，Ｂ最好還是選擇坦白，因為Ｂ坦白判不被判刑而抵賴確要被判刑１年。即是說，不管Ａ坦白或抵賴，Ｂ的最佳選擇都是坦白。反過來，同樣地，不管Ｂ是坦白還是抵賴，Ａ的最佳選擇也是坦白。結(jié)果，兩個人都選擇了坦白，各判刑８年。在（坦白、坦白）這個組合中，Ａ和Ｂ都不能通過單方面的改變行動增加自己的收益，于是誰也沒有動力游離這個組合，因此這個組合是納什均衡。
    囚徒困境反映了個人理性和集體理性的矛盾。如果Ａ和Ｂ都選擇抵賴，各判刑１年，顯然比都選擇坦白各判刑８年好得多。當(dāng)然，Ａ和Ｂ可以在被警察抓到之前訂立一個"攻守同盟"，但是這可能不會有用，因為它不構(gòu)成納什均衡，沒有人有積極性遵守這個協(xié)定。

    實證分析：
    "囚犯困境"在經(jīng)濟學(xué)上有很多應(yīng)用，也有力地解釋了一些經(jīng)濟現(xiàn)象。

一．電信價格競爭
    根據(jù)我國電信業(yè)的實際情況，我們來構(gòu)造電信業(yè)價格戰(zhàn)的博弈模型。假設(shè)此博弈的參加者為電信運營商A與B, 他們在電信某一領(lǐng)域展開競爭，一開始的價格都是P0。A（中國電信）是老牌企業(yè)，實力雄厚，占據(jù)了絕大多數(shù)的市場份額；B（中國聯(lián)通）則剛剛成立不久，翅膀還沒有長硬，是政府為了打破壟斷鼓勵競爭而籌建起來的。
    正因為B是政府扶植起來鼓勵競爭的，所以B得到了政府的一些優(yōu)惠，其中就有B的價格可以比P0低10％。這一舉動，還不會對A產(chǎn)生多大的影響，因為A的根基實在是太牢固了。在這樣的市場分配下，A、B可以達到平衡，但由于B在價格方面的優(yōu)勢，市場份額逐步壯大，到了一定程度，對A造成了影響。這時候，A該怎么做？不妨假定：
    A降價而B維持，則A獲利15，B損失5，整體獲利10；
    A維持且B也維持，則A獲利5，B獲利10，整體獲利15；
    A維持而B降價，則A損失10，B獲利15，整體獲利5；
    A降價且B也降價，則A損失5，B損失5，整體損失10。
    從A角度看，顯然降價要比維持好，降價至少可以保證比B好，在概率均等的情況下，A降價的收益為15×50％－5×50％＝5，維持的收益為5×50％－10×50％＝－2．5，為了自身利益的最大化，A就不可避免地選擇了降價。從B角度看，效果也一樣，降價同樣比維持好，其降價收益為 5，維持收益為2．5，它也同樣會選擇降價。在這輪博弈中，A、B都將降價作為策略，因此各損失5，整體損失10，整體收益是最差的。這就是此博弈最終所出現(xiàn)的納什均衡。我們構(gòu)造的這一電信業(yè)價格戰(zhàn)博弈模型是典型的囚徒困境現(xiàn)象，各個局部都尋求利益的最大化，而整體利益卻不是最優(yōu)，甚至是最差。
    許多其他行業(yè)的價格競爭都是典型的囚徒困境現(xiàn)象，如可口可樂公司和百事可樂公司之間的競爭、各大航空公司之間的價格競爭等等。
二．OPEC組織成員國之間的合作與背叛
    “囚徒困境”告訴我們，個人理性和集體理性之間存在矛盾，基于個人理性的正確選擇會降低大家的福利，也就是說，基于個人利益最大化的前提下，帕累托改進得不到進行，帕累托最優(yōu)得不到實現(xiàn)。
    上述我們在對電信價格競爭的博弈分析中，只是一次性的“囚徒困境”博弈，因此得到了互相降價的納什均衡。而在現(xiàn)實生活當(dāng)中，信任與合作很少達到如此兩難的境地，無論在自然界還是在人類社會，“合作”都是一種隨處可見的現(xiàn)象。比如中東石油輸出國組織（ＯｒｇａｎｉｚａｔｉｏｎｏｆＰｅｔｒｏｌｅｕｍＥｘｐｏｒｔｉｎｇＣｏｕｎｔｒｉｅｓ簡稱ＯＰＥＣ）的成立，本身就是要限制各石油生產(chǎn)國的產(chǎn)量，以保持石油價格，以便獲取利潤，是合作的產(chǎn)物。OPEC之所以能夠成立，各組織成員國之間之所以能夠合作，是因為囚徒困境如果是一次性博弈 (One shot game)的話，基于個人利益最大化，得到納什均衡解，但如果是多次博弈，人們就有了合作的可能性，囚徒困境就有可能破解，合作就有可能達成。連續(xù)的合作有可能成為重復(fù)的囚徒困境的均衡解，這也是博弈論上著名的“大眾定理”(Folk Theorem)的含義。
    但合作的可能性不是必然性。博弈論的研究表明，要想使合作成為多次博弈的均衡解，博弈的一方（最好是實力更強的一方）必須主動通過可信的承諾(Credible commitment) ，向另一方表示合作的善意，努力把這個善意表達清楚，并傳達出去。如果該困境同時涉及多個對手，則要在博弈對手中形成聲譽，并用心地維護這個聲譽。這里“可信的承諾”是一個很牽強的翻譯，“Credible commitment”并不是什么空口諾言，而是實實在在的付出。所以合作是非常困難的。所以O(shè)PEC組織經(jīng)常會有成員國不遵守組織的協(xié)定，私自增加石油產(chǎn)量。每個成員國都這樣想，只要他們不增加產(chǎn)量，我增加一點點產(chǎn)量對價格沒什么影響，結(jié)果每個國家都增加產(chǎn)量，造成石油價格下跌，大家的利潤都受到損失。當(dāng)然，一些產(chǎn)量增加較少的國家損失更多，于是也更加大量生產(chǎn)，造成價格進一步下降――結(jié)果，陷入一個困境：大家都增加產(chǎn)量，價格下跌，大家再增加產(chǎn)量，價格再下跌……。
    理論上，幾乎所有的卡特爾都會遭到失敗，原因就在于卡特爾的協(xié)定（類似囚犯的攻守同盟）不是一個納什均衡，沒有成員有興趣遵守。那么是不是不可能有卡特爾合作成功了？理論上，如果是無限期的合作，雙方考慮長遠利益，他們的合作是會成功的。但只要是有限次的合作，合作就不會成功。比如合作１０次，那么在第九次博弈參與人就會采取不合作態(tài)度，因為大家都想趁最后一次機會撈一把，反正以后我也不會跟你合作了。但是大家料到第九次會出現(xiàn)不合作，那么就很可能在第八次就采取不合作的態(tài)度。第八次不合作會使大家在第七次就不合作……一直到，從第一次開始大家都不會采取合作態(tài)度。
    以上是運用博弈論中的經(jīng)典案例“囚徒困境”對現(xiàn)實經(jīng)濟生活的一些簡單的理論上的分析，雖然在現(xiàn)實生活當(dāng)中影響人們決策和態(tài)度的因素很多，但是，博弈論作為現(xiàn)代經(jīng)濟學(xué)的前沿領(lǐng)域，始終是一個強有力的分析工具。