酷播亮新聞
最棒的知識補給站

揭示貝葉斯公式應用中的認識誤區

假定有一組完備且互斥的事件A1,…,An, 它們發生的概率具有初始的假定值P(Ai),…,P(An), 稱為先驗概率。

在正概率隨機事件B發生(被觀察到)的條件下(P(B)>0), 這些事件出現的條件概率P(Ai| B),( i = 1,…,n ),稱為驗後概率。

應用條件概率公式和全概率公式,我們得到下面的貝葉斯公式(貝葉斯定理)

(i = 1,…, n)

驗後概率P(Ai| B)被認為是獲得新的信息(事件B)後,對先驗概率P(A)的修正。

所謂「修正」的說法,其實是不嚴格的,或者說有條件的。

準確地說,條件概率P(Ai| B)只是從事件B的角度去觀察事件A1,…,An,打個比方,也可能是管窺蠡測,坐井觀天。

為了下面分析的簡明,我們討論兩組完備且互斥的事件A與A ̄,及B與B ̄,有下面的條件概率公式和全概率公式:

P(A|B)= P(A)P(B|A)/ P(B)

P(A ̄|B)= P(A ̄)P(B|A ̄)/ P(B)

以及

P(B)= P(A)P(B|A)+ P(A ̄)P(B|A ̄)

用P(B)的公式代入前面兩個公式,就分別得到兩個貝葉斯公式。

現在分析下面的應用背景。它蘊含著A是事件的原因,B是事件的結果,從結果來推測原因這樣一種相互關係。

假定某社區的全部人口為樣本空間,社區出現某種疾病。從社區中隨機抽取一人,得這種病為事件A,未得病為事件A ̄,根據統計數據估計,得病的概率為p = P(A),未得病的概率為P(A ̄)= 1 – p 記為q。

有一種檢測疾病的試劑,檢測結果呈陽性為事件B,呈陰性為事件B ̄。

經過對這種試劑多次檢驗發現,這種試劑對於已得病的人呈陽性的概率(即檢測到得病的準確率)為P(B|A)= α;對於未得病的人,呈陽性的概率(即誤診得病(假陽性)的概率為P(B|A ̄)=β。

在上面的基本假定條件下,我們應用貝葉斯公式可以得出哪些合理的結論,又可能得出哪些似是而非、實則錯誤的結論呢?

貝葉斯公式在一些領域的應用近年來成為一個熱門的課題。

然而,就像在概率統計其他領域以及貝葉斯公式發展歷史中,也出現由於混淆(誤用)概念,導致不正確的結論。

本文希望通過分析較廣泛傳播的具體例子(引自近年出版的專業著作,或科普文章),釐清重要的概念,並引起這個領域的學者及愛好者的重視或進一步討論。

第一個例子:「設從某個城市的人口中隨機選取一個人作結核病皮膚試驗(「簡稱為皮試」),而試驗的結果是陽性,問給出皮試陽性結果(記為事件B)這個人正是結核病患者(記為事件A)的概率是多少?

它假定已從醫療機構得到的信息為:P(A)= 0.01,P(B|A)= 0.98,及P(B|A ̄)= 0.05。應用貝葉斯定理計算的結果是P(A|B) = 0.165。

結論是:這個皮試後呈陽性的人確是結核病患者的概率從0.01上升到0.165。

第二個例子:「已知某種疾病的發病率是0.001,即1000人中會有1個人得病。現有一種試劑可以檢驗患者是否得病,它的準確率是0.99,即在患者確實得病的情況下,它有99%的可能呈現陽性。它的誤報率是5%,即在患者沒有得病的情況下,它有5%的可能呈現陽性。現有一個病人的檢驗結果為陽性,請問他確實得病的可能性有多大?

應用貝葉斯定理計算的結果是P(A|B) = 0.019。結論是:這個檢驗結果為陽性的人得病的概率從0.001上升到0.019。

( 本文在引用時對其中關鍵的語句用粗體表示。這兩個例子是同一個類型。)

難道這個令人驚訝的結論是貝葉斯公式的可靠結論嗎?

在應用條件概率時容易出現比較隱蔽的錯誤,即隨機事件A和隨機事件B的界限以及它們之間的關係被混淆。

如果我們的問題是:一個隨機抽取的人在試劑檢驗呈陽性的條件下得病的概率是多少?

那麼,事件A是「在討論的人群總體中隨機抽取的一人得病」,事件B應該是「這個被隨機抽取到的人試劑檢驗呈陽性」,在這樣的語境下,文章中所得結果及解釋方為正確。

可是,文章提出的問題是:「現有一個病人的檢驗結果為陽性,請問他確實得病的可能性有多大?」,情況就完全不一樣了。

事件b是「某甲的檢驗結果為陽性」,這是一次檢驗結果的事件,由於檢驗結果帶有隨機性,所以事件b仍然是隨機事件。

事件a是「某甲得病」。如果這次陽性檢驗結果不正確(假陽性),某甲沒有得病,按題設,這個概率為0.05;否則,陽性檢驗結果正確,某甲得病了,這個概率為1 – 0.05 = 0.95。也就是說,某甲確實得病的概率為0.95。

類似地,我們可以討論兩類「假陰性」問題。

一個是:一個隨機抽取的人在試劑檢驗呈陰性的條件下得病的概率是多少?

另一個是「現有一個病人的檢驗結果為陰性,請問他確實得病的可能性有多大?

一種檢測試劑如果對於發現疾病的準確性很高,有可能對於未病者的誤診率稍高,出現「假陽性」;一種檢測試劑如果對於發現疾病的準確性略低,但對於未病者的誤診率很低,就會出現「假陰性」。

應用貝葉斯方法應該概念清晰,避免掉入陷阱。

它應用的前提是,對於樣本空間中隨機抽取的樣本,以及這些隨機樣本屬於事件B的條件(子範疇,子空間)下,其他隨機事件A出現的條件概率。

它只是對於局部的子空間整體成立的公式,並不意味著應用到一個具體的或特定的樣本時,一定可以適用同一個公式。

正如我們上面著重指出的,這是兩種不同類型的問題。

目前,在介紹貝葉斯公式應用的例子中常常出現的問題,恰恰是在已經獲得有關個體呈現陽性時的誤診概率的信息後,仍然套用針對樣本空間中隨機樣本成立的貝葉斯公式,得出不恰當的結論。

關於「假陽性」的進一步說明

「假陽性」現象說明,判別小概率事件出現特有的困難。

在上面的例子中,如果我們記全體人員為W集合,得某種疾病的人員為A集合,檢驗呈陽性的人員為B集合。

儘管對每一個被檢驗的人員若他呈陽性(屬於B集合),可以以相當大的概率(比如0.95)判斷他得病(屬於A集合)(即不得病的誤判概率為0.05),但是,由於出現A的概率非常小(比如0.001),在全體不得病人員的集合W-A中,有百分之五的人被誤判(即呈陽性但並未得病),其數量以較大比例超過只佔全體人員千分之一的得病人員總數。

這就是說,對全體人員而言,如果每個人都去檢驗,檢驗結果呈陽性的人員中,只有小部分的人真正得了病,換言之,從總體而言,呈陽性的人群真正得病的概率並不高,很多人雖然呈陽性而沒有得病,屬於「假陽性」!

這種對抽樣個體與對總體下的結論相左的情況似乎是一個悖論,然而,這的確是一個合理且經得起檢驗的結果。

本文作者:吳新瞻

應用數學與計算機應用高級工程師,編審;

1957一1963北京大學數學力學係數學專業畢業;

1963一1967中國科學院計算技術研究所概率統計計算專業研究生畢業;

長期從事數學應用研究與計算機應用軟體開發工作;

曾擔任中國大百科全書《電子學與計算機》卷特約編輯與撰稿人,《今日電子》執行主編;

發表論文十餘篇,編著出版《隨機模型與計算機模擬》一書,譯書若干種。

本文系網易新聞·網易號「各有態度」特色內容

本文由超級數學建模社區「靈魂寫手」提供

分享、轉發請隨意

轉載請在公眾號中,回復「轉載」

——這裡是數學思維的聚集地——

「超級數學建模」(微信號supermodeling),每天學一點小知識,輕鬆了解各種思維,做個好玩的理性派。60萬數學精英都在關注!

「徵稿啟事」


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 超級數學建模 的精彩文章:
如有侵權請來信告知:酷播亮新聞 » 揭示貝葉斯公式應用中的認識誤區