征兵的故事美國海軍每次征兵都會打出號召性的廣告,盡其所能地宣傳,讓最優(yōu)秀的年青人加入軍隊(duì),還要想辦法不讓父母們擔(dān)心孩子的安危。 美軍征兵海報(bào) 這不,有一年廣告是這么說的:
普通人一看,有這么3點(diǎn)反應(yīng):
恭喜,中計(jì)了! 這個(gè)詭計(jì)的要害其實(shí)一語即可道破: 紐約市民中包括老弱病殘,而美國海軍全是挑選出來的精壯青年,后者正常的死亡率應(yīng)該連0.2%都不到,而到了海軍要多犧牲出0.7%,還說不危險(xiǎn)?! 軍人上戰(zhàn)場都是冒著生命危險(xiǎn) 所以,想用概率的比較來說明問題,就必須很清晰概率的計(jì)算前提。 要想通過比較概率來說明問題,前提是: 分析事件的關(guān)聯(lián)性與獨(dú)立性。 具體地說,一個(gè)人是美國海軍這個(gè)事件,與一個(gè)人是普通市民的這個(gè)事件,二者是有隱含邏輯關(guān)聯(lián)的,因?yàn)橐粋€(gè)人100%是普通市民,但也許只有1%可以選中成為海軍士兵。 精要總結(jié): 兩個(gè)概率的統(tǒng)計(jì)群體,擁有邏輯上的關(guān)聯(lián)性,但該關(guān)聯(lián)性沒有體現(xiàn)在概率計(jì)算中,因此兩個(gè)概率值是無法做比較的。 如果注意觀察,在生活甚至工作中,這樣的“偽對比”其實(shí)非常之多,稍不注意就會落入概率陷阱之中。 甚至可以說,我們?nèi)粘R姷降膹V告宣傳中,凡是出現(xiàn)概率或比率的,都需要擦亮雙眼仔細(xì)辨別。 條件概率概率對比的正確操作,是使用“條件概率”。 直接上例子: 統(tǒng)計(jì)發(fā)現(xiàn),人類患肺癌的概率為0.1%,而吸煙者患肺癌的概率為0.4%,如何知道不吸煙的人患肺癌的概率是多少呢?(人群中吸煙者的比率為20%) 第一反應(yīng),0.4>0.1,不吸煙肯定不那么容易患肺癌,那么差多少呢? 歸納一下已條件:
最后那一行的意思表示“條件概率”: P(肺癌|吸煙) 表示 在吸煙的條件下 得肺癌的概率。 豎線后面就表示這個(gè)概率計(jì)算的總體,所以說,為什么要用一豎來表示條件概率,因?yàn)?strong>這一豎“|”其實(shí)就是除號“/”??! 那么,咱們要求的,不吸煙的人患肺癌的概率 可以表示為: P(肺癌|不吸煙) 這里采用“分解法”,對于全體人類而言,患肺癌的人分兩類:
所以: P(肺癌) = P(肺癌 且 吸煙) +P(肺癌 且 不吸煙) = P(肺癌|吸煙) x P(吸煙)+P(肺癌|不吸煙) x P(不吸煙) 這種把一個(gè)事件(肺癌)用另一個(gè)事件(吸煙)給分割開的公式,叫做 全概率分解。 而式中,只有一個(gè)未知量,得到 P(肺癌|不吸煙)=0.025%。 戒煙吧,還您一個(gè)健康的肺 可見:
全概率分解展現(xiàn)的是兩個(gè)事件的關(guān)聯(lián)性。 貝葉斯公式如果對上面式子中的乘號有疑問,可以再看看下面的圖形解釋。 假設(shè)有事件A 和 B : 顯然,事件A 與 事件B有交集,也就是說他們可能同時(shí)發(fā)生,(比如一個(gè)人既吸煙,同時(shí)也患了肺癌),那么AB同時(shí)發(fā)生的概率可以表示為: 或: 都是可以的。 所以顯然: 上面這三個(gè)式子叫做貝葉斯原理,這個(gè)公式非常擅于解決這樣一類問題: 假如已經(jīng)發(fā)生了一個(gè)事件,如事件B,那么,在此基礎(chǔ)上,事件A會發(fā)生的概率是多少呢? 其實(shí),就是求 P(A|B),由上式,顯然: 這個(gè)貝葉斯原理可厲害了,是人工智能算法中的一項(xiàng)重要技術(shù),其實(shí)它在生活中的方方面面都有應(yīng)用,理解貝葉斯原理對于大腦進(jìn)行邏輯判斷非常有幫助。 上個(gè)實(shí)例吧。 檢查結(jié)果為陽性!你懷疑自己得了一種嚴(yán)重的疾病,雖然這種疾病在人群中比較少見(概率為1%),但是你還是到醫(yī)院來檢查一下,檢查結(jié)果竟然是陽性(陽性意思就是判定有?。蠓蛘f他們醫(yī)院進(jìn)口的檢驗(yàn)機(jī)器正確率高達(dá)98%! (要假設(shè)機(jī)器的檢驗(yàn)正確或錯(cuò)誤,與檢驗(yàn)樣品無關(guān),是機(jī)器本身的功能性) 你更絕望了! 看起來好像必然會生病了,98%的正診率怕是跑不掉了。 是直接做手術(shù)?還是再做一次昂貴的檢查? 其實(shí),學(xué)過上面的知識,你會更理智地更準(zhǔn)確地判斷問題。 首先,明確“陽性”與“有病”是兩個(gè)概念,“陽性”是醫(yī)院的診斷,而醫(yī)院是完全有可能誤診的,所以說有4種情況:
目前的情況是,事件“陽性”已經(jīng)發(fā)生了,所以我們想求的是: P(有病|陽性) 有事件發(fā)生了,所以根據(jù)貝葉斯公式得到: P(有病|陽性) = P(有病 且 陽性) / P(陽性) 根據(jù)貝葉斯定理—— P(有病 且 陽性) = P(有病 且 正診) = P(有病) x P(正診) = 0.01 x 0.98 = 0.0098 根據(jù)全概率分解—— 陽性包括 有病查出陽性 和 沒病查出陽性(誤診了) P(陽性) = P(正診 且 有病) +P(誤診 且 沒病) = 0.98 x 0.01 + 0.02 x 0.99= 0.0296 最后計(jì)算結(jié)果為 P(有病|陽性) = 33% 也就是說,雖然檢查出了陽性,但你患病的概率其實(shí)中只有1/3,當(dāng)然要再檢查一次,不要著急做手術(shù)! 那么,這是什么道理呢? 原因就在于,這種病比較罕見,只有1%,這就造成了雖然誤診率小,但是不患病卻誤診成陽性的人數(shù)比例就顯得多,事實(shí)上是患病而正診成陽性的2倍之多。 當(dāng)然,這個(gè)例子在實(shí)際情況中不太成立,主要因?yàn)樵\斷的正誤不是隨機(jī)的,診斷主要還是根據(jù)醫(yī)生的經(jīng)驗(yàn),而且檢查往往也不是一項(xiàng)指標(biāo)而是許多項(xiàng)指標(biāo)。 理解貝葉斯定理——相關(guān)度因子貝葉斯定理是基于兩個(gè)事件的關(guān)聯(lián)性,是在B事件發(fā)生后,對A事件發(fā)生概率的重新評估與預(yù)測。 P(A) —— ''預(yù)估概率'',指在B發(fā)生前,對A事件發(fā)生概率的初步判斷,所以也叫“先驗(yàn)概率”。 P(A|B) —— ''修正概率'',指B事件發(fā)生后,對A事件概率的重新評估與預(yù)測,所以也叫“后驗(yàn)概率”。 P(B|A)/P(B)這一部分看起來都是“不對稱的”,所以想要徹底理解,有一個(gè)最關(guān)鍵的變形步驟,好像沒見有資料這么提,卻是理解貝葉斯的關(guān)鍵所在—— 上文提到: 那么,就把 P(B|A) = P(A且B)/P(A)代入葉貝斯公式,得到: 更易理解的葉貝斯公式 下面精彩了,咱們把 這一部分,稱為: 關(guān)聯(lián)度因子(Likelihood ratio) 所以貝葉斯原理是在教你:如何根據(jù)出現(xiàn)的新信息修正概率預(yù)測呢! 修正概率 = 預(yù)估概率 x 關(guān)聯(lián)度因子 詳解關(guān)聯(lián)度因子這個(gè)關(guān)聯(lián)度因子終于變得對稱了,它的深層含義就昭然若揭了 |
|