纳什均衡:多人戰術策略 @ 心理學知識特快-首頁

1994年諾貝爾經濟學獎的獲得者是美國普林斯頓大學的約翰·納什。納什獲得諾貝爾經濟學獎的原因是他在博弈論領域的貢獻，他提出了“納什均衡”理論。經濟學的定義是：“納什均衡是指這樣一種均衡：在這一均衡中，每個博弈參與人都確信，在給定其他參與人戰略決定的情況下，他選擇了最優戰略以回應對手的戰略。”也就是說，所有人的戰略都是最優的。而講解“納什均衡”的最著名的案例就是“囚徒的困境”。

話說有一天，一個富翁在家中被殺，財物被盜；警方在此案的偵破過程中，抓到兩個犯罪嫌疑人張三和李四，並從他們的住處搜出被害人家中丟失的財物。但是，他們矢口否認曾殺過人，辯稱他們只是順手牽羊偷了點兒東西。於是警方將兩人隔離，分別關在不同的房間進行審訊。員警分別對張三和李四說，“由於你們的偷盜罪已有確鑿的證據，所以可以判你們1年刑期。但是，我可以和你做個交易。如果你單獨坦白殺人的罪行，我只判你3個月的監禁，但你的同夥要被判10年刑。如果你拒不坦白，而被同夥檢舉，那麼你就將被判10年刑，他只判3個月的監禁。但是，如果你們兩人都坦白交代，那麼，你們都要被判5年刑。”

張三和李四怎麼辦呢?他們面臨著兩難的選擇——坦白或抵賴。顯然最好的策略是雙方都抵賴，結果是大家都只被判一年。但是由於兩人處於隔離的情況下無法串供，按照亞當·斯密的理論，每一個人都是一個“理性的經濟人”，都會從利己的目的出發進行選擇。這兩個人都會有這樣一個盤算過程：假如他招了，我不招，得坐10年監獄，招了才5年，所以招了划算；假如我招了，他也招，得坐5年，他要是不招，我就只坐3個月，而他會坐10年牢，也是招了划算。綜合以上幾種情況考慮，不管他招不招，對我而言都是招了划算。兩個人都會動這樣的腦筋，最終，兩個人都選擇了招，結果都被判5年刑期。原本對雙方都有利的策略(抵賴)和結局 (被判1年刑)就不會出現。這就是著名的“囚徒困境”。它實際上反映了一個很深刻的問題，這就是個人理性與集體理性的矛盾。

實際上，如果兩個都抵賴，各判刑1年，顯然比都判5年好，但實際上做不到，因為它不滿足個人理性要求。作為一個理性的人，張三和李四都會想，如果我抵賴而對方坦白的話，自己就可能判刑10年，理性的人是不會冒這種險的。但張三和李四都理性選擇的結果，兩人都被判了5年，最優的被判1年的結果並沒有出現。也就是說，對每個人而言都是理性的選擇，但對於整個集體來說卻是不理性的。

這與傳統經濟學所言的結論相悖。傳統經濟學認為市場經濟存在“看不見的手”，它調節的結果是每個人的理性選擇最終會造成對整個集體的最大利益。實際上，就像囚徒困境一樣，這只看不見的手在參與選擇的人數只有少數幾個的時候會失去作用，因為這個時候，人們決策的過程會考慮其他參與者的想法，就像賭博和下棋的時候一樣，這就和買家和賣家數量都巨大時的完全競爭不完全一樣，需要新的一套思路進行研究。

在上面的例子中，我們注意到了一個並非最優的結果，就是兩人都選擇坦白的策略以及因此被判5年的結果，這個結果被稱為“納什均衡”，也叫非合作均衡。博弈論中最基本的概念就是“納什均衡”，一談到博弈論，人們說的最多的最著名的也是“納什均衡”。納什均衡指的是這樣一種戰略組合，這種戰略組合由所有參與人的最優戰略組成，也就是說，給定別人戰略的情況下，沒有任何單個參與人有積極性選擇其他戰略使自己獲得更大利益，從而沒有任何人有積極性打破這種均衡。

當然，“納什均衡”雖然是由單個人的最優戰略組成，但並不意味著是一個總體最優的結果。如上述，在個人理性與集體理性的衝突的情況下，各人追求利己行為而導致的最終結局是一個“納什均衡”，也是對所有人都不利的結局。

從這個意義上說，“納什均衡”提出的悖論實際上動搖了西方經濟學的基石。同時，它也提示我們：合作是有利的“利己策略”。實際上，如果上述兩個囚徒能夠串供進行合作，那麼他們一定會選擇都抵賴從而只因偷盜罪被判1年，當然，正是考慮到了這一點，所以員警才對他們隔離審查從而獲知了事實真相，對囚徒而言最有利的合作結果才沒有出現。“納什均衡”描述的就是一種非合作博弈均衡，在現實中非合作的情況要比合作情況普遍。

合作是一切團體繁盛的根本，而要達成合作，惟有參與。

納什均衡和博奕論

舉個簡單的例子來說明博奕論是什麼？

你在一個屋子裡，屋裡有很多人。這時候，屋裡突然失火，火勢很大，無法撲滅。此時你的目的就是逃生。你的面前有兩個門，左門和右門，你必須在它們之間選擇。但問題是，其他人也要爭搶這兩個門出逃。如果你選擇的門是很多人選擇的，那麼你將因人多擁擠、沖不出去而燒死；相反，如果你選擇的是較少人選擇的，那麼你將逃生。這裡我們不考慮道德因素，你將如何選擇？——這就是博弈論！

你的選擇必須考慮其他人的選擇，而其他人的選擇也考慮你的選擇。你的結果(博弈論稱之為支付pay off)，不僅取決於你的行動選擇(博弈論稱之為策略選擇)，同時取決於他人的策略選擇。你和這群人構成一個博弈（game）。

博弈論對人的基本假定是：人是理性的（rational）。所與謂理性的人是指他在具體策略選擇時的目的是使自己的利益最大化，博弈論研究的是理性的人之間如何進行策略選擇的。

中國人對博弈論有天生的瞭解。正如中國人常說的“事事洞明皆學問，人情練達即文章”，即是說人與人之間的關係、社會交往均是學問。而中國很多“做人”的道理，道出了如何在人與人的博弈中獲取成功。羅貫中的《三國演義》在今天看來就是一部博弈論教材！無論是兵書如《孫子兵法》、《三十六計》，還是現代流行的所謂
“厚黑學”，都是關於如何贏得與人交往的勝利的，或者說如何獲取成功的.

博奕論中流傳最廣的是一個叫做“囚徒困境”的故事。說的是兩個囚犯的故事。這兩個囚徒一起做壞事，結果被員警發現抓了起來，分別關在兩個獨立的不能互通資訊的牢房裡進行審訊。在這種情形下，兩個囚犯都可以做出自己的選擇：或者供出他的同夥（即

員警合作，從而背叛他的同夥），或者保持沉默（也就是與他的同夥合作，而不是與員警合作）。如果他們中的一個人背叛，即告發他的同夥，那麼他就可以被無罪釋放。而他的同夥就會被判10年。如果雙方都與警方合作共同招認，則各被判5 年。如果雙方均不承認有罪，因員警找不到其他證據來證明他們以前的違法證據，則各判3個月。這兩個小偷將如何選擇。如圖示：

      乙\甲　　抵賴　　　坦白
      抵賴　　　判3個月　　乙：10年
      　　　　　　　　　　甲：釋放
      坦白　　　甲：10年　各5年
      　　　　　乙：釋放

他們兩人都是在坦白與抵賴策略上首先想到自己，這樣他們必然要服長的刑期。只有當他們都首先替對方著想時，或者相互合謀(串供)時，才可以得到最短時間的監禁的結果。但是由於兩人處於隔離的情況下無法串供。這樣兩人都選擇坦白的策略以及因此被判5年的結局就被稱為“納什均衡”，也叫非合作均衡。也就是說一策略組合中，所有的參與者面臨這樣的一種情況，當其他人改變策略時，他此時的策略是最好的。也就是說，此時如果他改變策略，他的支付將會降低。

“納什均衡”首先對亞當·斯密的“看不見的手”的原理提出挑戰。按照斯密的理論，在市場經濟中，每一個人都從利己的目的出發，而最終全社會達到利他的效果。不妨讓我們重溫一下這位經濟學聖人在《國富論》中的名言：“通過追求(個人的)自身利益，他常常會比其實際上想做的那樣更有效地促進社會利益。”從“納什均衡”我們引出了“看不見的手”的原理的一個悖論：從利己目的出發，結果損人不利己，既不利己也不利他。兩個囚徒的命運就是如此。

從“納什均衡”中我們還可以悟出一條真理：合作是有利的“利己策略”。但它必須符合以下規律：按照你願意別人對你的方式來對別人，但只有他們也按同樣方式行事才行。也就是中國人說的“己所不欲勿施於人”。

可口可樂和百事可樂訂價策略

1999年11月16日：可口可樂漲價7%

1999年11月22日：百事可樂漲價6.9%

「可口可樂和百事可樂的競爭將從價格戰轉移到市場戰」~Andrew Conway, Morgan Stanley，在之前的4年裡，可口可樂和百事可樂一直進行價格戰

可口可樂進行的是一項策略性決策

他們如何結束價格戰？

可口可樂瓶裝公司(bottlers)的合併

從1978年到1998年，由370家減少到100家

百事可樂獨立特許經營／瓶裝公司

策略性的思考

策略（strategy）是一個在多方決策時都主動考慮到與其他方交互行動環境中的行動計劃

擁有市場力量的商家可以影響購買／銷售形勢

需要考慮賣方／買方／競爭者／合作者之間的相互作用

結構性的策略思考

我們將探討：

競爭性的商業策略

訂價策略:

公司財務：收購、競標、反收購

策略性

一個人採取的行動計畫會考慮到可能引起的對手反應行動
非策略性決策型態

各方不考慮對方的反應，例如：

小投資者購買100股微軟的股票，不會考慮對其他買賣方的影響

家庭購買日用品：超市不會為了吸引一個家庭來購買而改變訂價或貨品的擇放

任何一方可以採取非策略性行動，但可以通過策略性的思考和策略性的行動取得更好的結果

博奕論（賽局理論）（game theory）

一組用來指引人們如何做出策略思考的觀念與原則

對任何具有市場支配力的產業在分析競爭策略方面都是有用的

兩種賽局模型：

策略性型態（strategic form）

一同行動，例如：許多股票在收購中一同競標

延伸性型態(extensive form)

順序行動，例如：富士比拍賣、tic-tac-toe賭馬、象棋

博奕的策略形式（競爭的兩難）（a game in strategic form）

百事可樂

漲價
折扣

可口可樂
漲價
C：3 P：3
C：0 P：5

折扣
C：5 P：0
C：1 P：1

可口可樂的困境在於它最好的決定依賴於百事可樂是否改變價格策略

博奕的策略形式是策略情形的表格表現形式，沿著行表示一方的策略，沿著列表示另一方的策略，並把各方的結果表示在相應的格子中

納什均衡

對於雙方，在任何情況下，「漲價」的結果比「折扣」差

可口可樂和百事可樂持續了4年的價格戰，直到1999年11月才結束這種情況

劣（勢）策略（dominated strategy）

不管另一方的選擇如何，比其他策略產生更差的結果的策略（不論對手的反應如何，當一個策略在任何情況下的報酬都劣於另一個策略時），這個策略就稱為劣勢策略

不要用劣勢策略

排除劣勢策略，例如：競爭的兩難

納什均衡（Nash equilibrium）

一組策略性選擇的組合，在納什均衡下，即使雙方都知道其對手的最佳選擇為何，雙方都會傾向於選擇自己的納什均衡策略

沒有哪一方會違背納什均衡

主要是穩定的局勢

在這方面與競爭市場的「均衡」概念相似

提供一種戰略指導

為策略決策時所提出的無窮倒推問題，提供了一個合乎邏輯的可靠解決辦法

解決無限循環的問題：我的最佳策略在於對手的行動，而對手的最佳策略在於我的行動

如何求得均衡解

策略性型態的賽局

以表列方式說明對方可選擇策略情形，同時把一方的各種選擇放在行中，將另一方的各種選擇放在列中；而把各種不同的可能結果放在相對應的表列中。

找出納什均衡的方法
首先排除劣策略，然後依次檢查所有剩餘的策略（方格）

使用箭頭法

【案例】贏得合約的賽局

飛盤電台(F)

輕音樂
維持現狀

台北電台(T)
熱門音樂
J：60 F：40
J：60 F：40

維持現狀
J：40 F：30
J：50 F：50

對於飛盤電台，「輕音樂」是在任何情況下，比「維持現狀」差；所以只考慮「維持現狀」的情況（轉變到輕音樂是一個劣策略）

假設飛碟電台選擇「維持現狀」，台北電台應該選擇「熱門音樂」（納什均衡）

重複選擇「箭頭法」

【案例】OPEC：一個石油同盟國的困境

1998年6月，沙烏地阿拉伯石油部長納依米(Ali Ibrahim Naimi)說：「我不認為大家都會百分之百遵守……一旦價格上漲，就會有欺騙。」

1999年3月，阿爾及利亞(Algeria)石油部長Youcef Yousfi說：「石油輸出國家組織仍然能夠一致行動，保持市場的穩定。」

設石油輸出國家組織成員必須從「服從配額」和「超額生產」中擇一為之　

「服從配額」不如「超額生產」

卡特爾不穩定的本質

每個成員都會多生產，直到超額產量使市場價格下降

1998年的削減生產無效

亞洲經濟危機：對石油的需求下降

購買者有大量存貨

價格下降到歷史最低

1999年石油輸出國組織的變化

1998年的油價下降使得石油公司削減了1999年石油開發和生產計畫，削減幅度達250億美元

沙烏地阿拉伯開始在Shayba的生產，其生產能力為50萬桶∕天：是自Alaska’s Prudhoe Bay以來，世界生產能力最大的，使得總生產能力為每天1,000萬桶

沙烏地阿拉伯是世界石油生產成本最低、也是最守紀律的

德州撲克可以練習賽局理論

全民瘋撲克

纳什均衡

Hook

心理學知識特快-首頁

Hook 發表在痞客邦留言(0) 人氣()

心理學知識特快-首頁

蒐集很多外國文章翻譯讓大家可以吸收外國的知識內容大多都是心理學,社會學,經濟學,人類學,哲學邏輯等等