6 統計可信
538網站,在2016年的美國總統大選前,持續發表預測。表1至表5,給出若干該網站最後的預測值。有些我們也附上實際值,以供比較。
為讓大家對獲勝及當選機率,能有所了解,先舉一簡單的例子。假設美國只有3州,以A、B,及C稱之,各有10、15,及20張選舉人票,共45張。又假設3州皆採贏者全拿制。則任一總統候選人,要拿到過半數,即至少23張的選舉人票,才能勝選。某次總統大選,有M及N兩位主要的候選人。假設M在3州的獲勝機率分別為0.5、0.7,及0.8;N在3州的獲勝機率分別為0.5、0.3及0.2。顯然M很佔優勢。由於得23張以上的選舉人票,表至少贏2州,因此兩位候選人,要當選都有相同的4種可能:
(A州勝,B州勝,C州勝),(A州勝,B州勝,C州敗),(A州勝,B州敗,C州勝),(A州敗,B州勝,C州勝)。
又假設各州的投票結果相互獨立。由此得
P(M當選總統)
=0.5×0.7×0.8+0.5×0.7×0.2+0.5×0.3×0.8+0.5×0.7×0.8
=0.28+0.07+0.12+0.28=0.75;
P(N當選總統)
=0.5×0.3×0.2+0.5×0.3×0.8+0.5×0.7×0.2+0.5×0.3×0.2
=0.03+0.12+0.07+0.03=0.25。
再來求M,N兩人,各能獲得選舉人票之期望值。
E(M獲得之選舉人票)
=0.28×45+0.07×25+0.12×30+0.28×35+0.12×20+0.07×15+0.03×10
=12.6+1.75+3.6+9.8+2.4+1.05+0.3=31.5;
E(N獲得之選舉人票)
=0.03×45+0.12×25+0.07×30+0.03×35+0.07×20+0.12×15+0.28×10
=1.35+3+2.1+1.05+1.4+1.8+2.8=13.5。
B州及C州,0.3與0.2的劣勢機率,加上A州N也只有一半的機會,使不少人以為,N很難贏了。另一方面,預期能獲得的選舉人票,N只有13.5張,比當選所需的23張,差了9.5張之多。更讓人覺得N的機會渺茫,M可躺著選了。
期望值其實並非一很恰當的名詞。“期望”也者,難免讓人誤以為那是較該得到的值。或者得到的值,應在期望值附近。投擲一公正的骰子,點數出現的期望值為3.5,但無論怎麼投擲,也絕不會出現3.5。買樂透彩,期望所得是很小的,但若中頭獎,將有高額獎金,實際所得可以遠遠大於期望值。因此不要被13.5所迷惑,N並非只能得到13.5張左右的選舉人票。另外,N有0.25的機率選上總統。而機率0.25的事件,並無不可能發生的涵義。看到氣象局預測降雨機率為0.25,你判斷不會下雨,遂不帶傘,結果淋了一身雨。懊惱歸懊惱,能因此就指責氣象局的預測很離譜嗎?氣象局何時說降雨機率0.25就是不下雨?要知這樣的降雨機率,平均每4天,就會有1天下雨。
現在來看538網站對當選機率之預測。由表3知,柯林頓是0.714,川普則有0.286。川普雖未被看好,當選機率卻並未小到大勢已去的地步。結果川普贏了,不過就是一正常的隨機現象,能因此怪統計騙人嗎?能因此哀嘆數據已死嗎?
再以另一方式,來看獲勝機率。再度,先考慮一簡單的例子。假設A君持一正面出現機率為0.88的銅板。投擲56次(並不必假設各次的結果為獨立)。雖正面的出現,極具優勢,但會預期56次皆得正面嗎?顯然不至於這麼沒概念。由於投擲一正面出現機率為p的銅板1次,正面出現數之期望值為p(可直接去計算,或利用伯努力分佈(Bernoulli distribution)的性質),所以投擲出現正面機率為0.88的銅板56次,共出現正面數的期望值為56×0.88=49.28。即預期出現49個左右的正面,而不是正面該儘量多出現,才認為統計可靠。若真的出現56個正面,反該懷疑那0.88的機率有問題。當然各位大約也了解,正面出現的次數,若為47,48,50,51等,即環繞49附近,亦都相當合理。
其次考慮較一般的情況。假設有56個銅板,正面出現的機率不盡相同。今各投擲1次(仍不必假設各次的結果獨立),由於期望值有線性性質,因此將各銅板正面出現的機率相加,便是共得的正面數之期望值。
50個州、哥倫比亞特區、緬因州2個選區,及內布拉斯加3個選區,美國總統大選時,可視為共有56個採贏者全拿的州(區)。欲估計總統候選人所得的選舉人票,便要對56個州(區),皆估計獲勝機率。表4便是538網站的預測。雖候選人有多組,但因採贏者全拿,使得只有柯林頓與川普兩位遙遙領先者,才有當選的可能。我們想回答一個令人感興趣的問題。州(區)預測獲勝機率較大的候選人,確實也在該州(區)贏,這種州(區)數的期望值為何?此本質上正是前述投擲銅板的問題。對56個州(區),將預測獲勝機率較大的那位候選人(柯林頓或川普),視為銅板正面。要知所謂正面反面,不過有如名字,不同的銅板,指定那一面為正並無妨。如此一來,問每州(區)預測獲勝機率較大者是否獲勝,便有如問投擲一銅板正面是否出現。而要知道共有幾個州(區),由預測獲勝機率較大的候選人當選,便相當於求投擲56個銅板,共得的正面數。將表4中56個州(區),各取較大的預測獲勝機率,全部相加,得總和49.35。其中為了簡便,機率大於0.999者,以1計,機率小於0.001者,則以0計。即得由538網站的預測,預期(期望)有49.35個州(區),由獲勝機率較大的候選人,贏得該州(區)。實際吻合幾個?50個!這還能說不準嗎?還能不信統計嗎?
若某州(區)預測獲勝機率較大者落敗,我們不妨從俗稱之為“逆轉”州(區)。由表4知,56個州(區)中,共有6個“逆轉”州(區)。表5給出538網站,在那6個逆轉州(區),對柯林頓及川普,所預測之得票率,實際得票率亦附上以為比較。6個逆轉州(區),得票率預測領先的都是柯林頓,分別領先0.6%、0.3%、4.2%、0.7%、3.7%,及5.3%。我們知道做民調時,抽樣誤差常預定為3%。最後的誤差則與樣本數有關,但總在3%左右。因此兩候選人支持率的差異,用民調的術語講,乃在誤差範圍內。換句話說,柯林頓在共有91張選舉人票,那6個逆轉州(區)裡,預測領先的幅度,並未大到夠安全。
回過頭來看川普,他在6個逆轉州(區)的實際得票率,分別高出柯林頓1.20%、10.47%、0.23%、3.66%、0.73%,及0.75%。這些差距,除了緬因州第2選區(只有1張選舉人票,影響很小)的10.47%較大,及北卡羅來納州的3.66%不算太小外,其餘在佛羅里達(Florida)、密西根、賓夕法尼亞(Pennsylvania),及威斯康辛(Wisconsin)等4州,差距分別是1.20%、0.23%、0.73%,及0.75%,都相當小。只要些微的波動,輸贏便可能換人。這4州,共有75張選舉人票。若少掉這75票,川普便只有231票,如此表1所給選舉人票之預測,誤差就很小了,而川普也將黯然神傷地落選。能這麼驚險的逆轉這4州,說川普運氣好,應不為過。
其實,還不必4州全輸掉,因川普得到的選舉人票,比當選所需的270票,多出36票,故佛羅里達州與密西根州(共45票)、佛羅里達州與賓夕法尼亞州(共49票)、佛羅里達州與威斯康辛州(共39票),或密西根州、賓夕法尼亞州,與威斯康辛州(共46票),只要在上述任一組州輸掉,則“時代”雜誌2016年選出的風雲人物,便將是柯林頓,而不是川普了。
事實上,我們早說過了,若真見到次次正確預測銅板那一面朝上的人,人們恐怕不但不信他,反而懷疑其中有假。所以如何能對這麼複雜的選舉,要求處處精準預測?
這是一雙方實力接近的總統大選,贏者全拿制,造成正確預測誰當選的困難。若如一般選舉,依得票率的高低,以決定誰當選,則538網站便有近乎完美的預測。由表2,預測柯林頓的得票率為48.5%,領先川普的44.9%,實際果然柯林頓的得票率較高。而且柯林頓的實際得票率為48.07%,比預測值僅略少0.43%;川普的實際得票率為45.99%,比預測值不過高出1.09%。這樣的誤差,在選舉預測裡,算是高度準確了。只要想,從一袋中,以隨機取球來估計紅球所佔比例。兩次試驗所得比例之差異,若只有1.09%,不會很滿意嗎?差異若小至0.43%,難道不驚嘆不已嗎?那更不要說是民調了。
像538網站的預測,準確中夾著些微的誤差,算是將統計的功能徹底發揮。只要了解隨機性,只要知道誤差難免,將對統計更加服氣。
表1. 538網站2016年美國總統大選預測及實際選舉人票 |
候選人 |
Clinton |
Trump |
McMullin |
Johnson |
預測值 |
302.2 |
235.0 |
0.80 |
0.0 |
實際值 |
232 |
306 |
0 |
0 |
表2. 538網站2016年美國總統大選預測及實際得票率 |
候選人 |
Clinton |
Trump |
Johnson |
Other |
預測值 |
48.5% |
44.9% |
5.0% |
1.6% |
實際值 |
48.07% |
45.99% |
3.28% |
2.66% |
表3. 538網站2016年美國總統大選當選機率之預測 |
候選人 |
Clinton |
Trump |
預測值 |
0.714 |
0.286 |
表4. 538網站2016年美國總統大選各州(區)獲勝機率之預測 |
|
|
候選人 |
|
州(區) |
選舉人票 |
Clinton |
Trump |
實際獲勝者 |
Alabama |
9 |
<0.001 |
>0.999 |
Trump |
Alaska |
3 |
0.235 |
0.764 |
Trump |
Arizona |
11 |
0.334 |
0.666 |
Trump |
Arkansas |
6 |
0.004 |
0.996 |
Trump |
California |
55 |
>0.999 |
<0.001 |
Clinton |
Colorado |
9 |
0.775 |
0.224 |
Clinton |
Connecticut |
7 |
0.973 |
0.027 |
Clinton |
Delaware |
3 |
0.915 |
0.085 |
Clinton |
District of Columbia |
3 |
>0.999 |
<0.001 |
Clinton |
Florida* |
29 |
0.551 |
0.449 |
Trump |
Georgia |
16 |
0.209 |
0.791 |
Trump |
Hawaii |
4 |
0.989 |
0.011 |
Clinton |
Idaho |
4 |
0.009 |
0.990 |
Trump |
Illinois |
20 |
0.983 |
0.017 |
Clinton |
Indiana |
11 |
0.025 |
0.975 |
Trump |
Iowa |
6 |
0.302 |
0.698 |
Trump |
Kansas |
6 |
0.027 |
0.973 |
Trump |
Kentucky |
8 |
0.004 |
0.996 |
Trump |
Louisiana |
8 |
0.005 |
0.995 |
Trump |
Maine |
2 |
0.826 |
0.173 |
Clinton |
District 1 |
1 |
0.915 |
0.085 |
Clinton |
District 2* |
1 |
0.509 |
0.490 |
Trump |
Maryland |
10 |
>0.999 |
<0.001 |
Clinton |
Massachusetts |
11 |
>0.999 |
<0.001 |
Clinton |
Michigan* |
16 |
0.789 |
0.211 |
Trump |
Minnesota |
10 |
0.850 |
0.150 |
Clinton |
Mississippi |
6 |
0.022 |
0.978 |
Trump |
Missouri |
10 |
0.039 |
0.961 |
Trump |
Montana |
3 |
0.041 |
0.959 |
Trump |
Nebraska |
2 |
0.023 |
0.977 |
Trump |
District 1 |
1 |
0.107 |
0.893 |
Trump |
District 2 |
1 |
0.442 |
0.558 |
Trump |
District 3 |
1 |
0.008 |
0.992 |
Trump |
Nevada |
6 |
0.583 |
0.417 |
Clinton |
New Hampshire |
4 |
0.698 |
0.302 |
Clinton |
New Jersey |
14 |
0.969 |
0.031 |
Clinton |
New Mexico |
5 |
0.826 |
0.172 |
Clinton |
New York |
29 |
0.998 |
0.002 |
Clinton |
North Carolina* |
15 |
0.555 |
0.445 |
Trump |
North Dakota |
3 |
0.023 |
0.977 |
Trump |
Ohio |
18 |
0.354 |
0.646 |
Trump |
Oklahoma |
7 |
<0.001 |
>0.999 |
Trump |
Oregon |
7 |
0.937 |
0.063 |
Clinton |
Pennsylvania* |
20 |
0.770 |
0.230 |
Trump |
Rhode Island |
4 |
0.932 |
0.068 |
Clinton |
South Carolina |
9 |
0.103 |
0.897 |
Trump |
South Dakota |
3 |
0.061 |
0.939 |
Trump |
Tennessee |
11 |
0.027 |
0.973 |
Trump |
Texas |
38 |
0.060 |
0.940 |
Trump |
Utah |
6 |
0.033 |
0.832 |
Trump |
Vermont |
3 |
0.981 |
0.019 |
Clinton |
Virginia |
13 |
0.855 |
0.145 |
Clinton |
Washington |
12 |
0.984 |
0.016 |
Clinton |
West Virginia |
5 |
0.003 |
0.997 |
Trump |
Wisconsin* |
10 |
0.835 |
0.165 |
Trump |
Wyoming |
3 |
0.011 |
0.989 |
Trump |
註:*表由獲勝機率預測值較低者獲勝 |
表5. 538網站2016年美國總統大選 6逆轉州(區)預測及實際得票率 |
|
|
538網站預測
之得票率 |
實際得票率 |
逆轉州(區) |
選舉人票 |
Clinton |
Trump |
Clinton |
Trump |
Florida |
29 |
48.1% |
47.5% |
47.82% |
49.02% |
Maine (District 2) |
1 |
45.6% |
45.3% |
41.06% |
51.53% |
Michigan |
16 |
48.4% |
44.2% |
47.27% |
47.50% |
North Carolina |
15 |
48.2% |
47.5% |
46.17% |
49.83% |
Pennsylvania |
20 |
48.9% |
45.2% |
48.02% |
48.75% |
Wisconsin |
10 |
49.6% |
44.3% |
46.44% |
47.19% |