導讀:在世界十大悖論中,辛普森悖論是統計學中最經典的,但是相比于節儉悖論和說謊者悖論而言,卻是比較抽象的,原因是辛普森悖論研究的對象,可
在世界十大悖論中,辛普森悖論是統計學中最經典的,但是相比于節儉悖論和說謊者悖論而言,卻是比較抽象的,原因是辛普森悖論研究的對象,可能具有一定的相關性,但是也可能毫無關系,那么究竟是什么辛普森悖論呢?我們一起來了解一下。
辛普森悖論是什么
所謂辛普森悖論,其實就是在某個條件下的兩組數據,如果分開來研究都很正常也會滿足某種性質,但是如果將它們綜合在一起來考慮,就會出現結果相反的情況,而這種情況也被稱之為辛普森悖論,比如新生錄取率與性格兩個變量放在一起研究的時候,就會出現這樣的問題。
所謂辛普森悖論實際就是指在單獨比較的時候可能占優勢的一方,卻在最后的總體比較中反而稱了弱勢,這與人們平常的認知是相違背的,而這個現象其實在現實中是比較普遍的,但是它的存在也是合理的。
辛普森悖論的案例
最常見的辛普森悖論的案例就發生在大學的男女比例問題上,比如兩所大學A和B,在物理學院方面,A大學男女比例大于B大學;在數學院方面,A大學的男女比例還是大于B大學,其他所有專業A大學的男女比例都比B大學要高,于是有人可能會認為A大學的男女比例肯定比B大學要高,然而事實卻并非如此。
事實是A大學的男女總比例是比B大學低的,這是有人就可能產生疑問了,不是A大學所有專業男女比例都比B大學高嗎,為什么總比例反而低呢?原因就是辛普森悖論的在作怪,我們可以下面數據中發現B大學的男女比例確實比A大學要高。
數據比較:
物理院 男生人數 女生人數 男:女
A大學 45 8 5.6:1(大)
B大學 101 51 2.0:1
數學院 男生人數 女生人數 男:女
A大學 50 201 0.25:1(大)
B大學 9 92 0.10:1
總體 男生人數 女生人數 男:女
A大學 95 209 0.45:1
B大學 110 143 0.77:1(大)
辛普森悖論的產生原因
為什么會產生辛普森悖論呢?這是我們需要思考的問題,實際上這是因為在統計的時候,兩組數據的權重是有分別的,因此在最后統計的時候,應該以一定的系數去消除每組數據之間的差異,就比如A大學和B大學中,物理院和數學院的數據權重就不一樣。
很明顯物理院的男女比例數據要比數學院的權重要低,所以我們在選擇大學的時候不能只看某個學院的男女比例,而需要避開辛普森悖論而去看總體的男女比例,當然總體男女人數也是我們可以考慮的。
辛普森悖論管理應用
辛普森最為明顯的運用就是在考察兩者實力的時候,比如同樣進行100常籃球賽來比較李和張誰實力更強,張找頂級高手打20場贏1場,找一般選手打80場贏40場,那么他的總勝率是41%。而李則完全不同。
李找頂級高手打80場贏了8場,但是找一般選手打20場贏20場,那么他的總的勝率只有28%,初看起來李的勝率沒有張高,但是里與高手過招的勝率達到10%,而張只有5%,明顯是李實力更強,原因是與頂級高手過招的權重比與普通選手過招的權重要高。