21 數據已死?
2016年的美國總統選舉,身為共和黨策士的墨菲,坐擁數據,羽扇綸巾,因而從來不看好川普。11月8日開票當晚,眼看川普就要當選,不禁慨嘆“數據已死”。那2020的美國總統選舉後,有沒有人也慨嘆些什麼呢?2020年投票日(11月3日)的兩天後,11月5日,“紐約時報”(The New York Times)有一則報導,標題為,“2016 年對投票造成打擊,那2020年有毀了它嗎?”(2016 Dealt a Blow to Polling. Did 2020 Kill It?)此文一開始便指出,“選舉之夜,計票開始後不到24小時,媒體和政治圈已經宣布一個失敗者,那就是民調(polling)。”即雖尚不知那一候選人會落選,但已確定的是民調輸了。然後引述一些民調專家的意見,包括“對我們這一行來說就是完了”;“民調似乎已崩潰了,救不回了”;“民調業就是一堆廢棄物,炸掉算了。”看來經過4年,民調落入比“數據已死”更淒慘的狀態。
2016年的美國總統選舉,選前各家民調,對柯林頓普選得票率領先的預測,平均略低於4%,最終她贏了約2.09%,誤差並不算太大,與1968年以來民調的平均誤差差不多。因而許多民調專家,並不認為他們的預測太離譜。只不過柯林頓雖贏得普選,卻輸掉大選。因美國的總統選舉,並非由普選得票率之多寡來決定,而是由各州的選舉人票,尤其是搖擺州。在總統選舉時,搖擺州向來為兩大黨極力爭取的目標。像美國有18個州及特區,自1992至2012的總統選舉,都是投給民主黨的候選人,是所謂民主黨的藍牆(Blue Wall)。2016年風雲變色,密西根、賓夕法尼亞,及威斯康辛等3州,倒向川普,這3州共有46張選舉人票,若非輸掉這3州,柯林頓便當選了(她應獲232張選舉人票,但有5位失信者,實際得227張,227+46=273>270)。2020年拜登光復這3州,分別贏2.78%、1.17%,及0.63%,若沒這3州,拜登便落選了(他獲306張選舉人票,306-46=260<270)。選前眾人皆知,拜登只要保住柯林頓4年前勝出的州,加上讓此3搖擺州搖回來,得票便超過入主白宮所需的270票。拜登達成目標,且翻轉的還不只上述3州。共和黨的鐵票倉亞利桑那州,自從1952年開始,除1996年外,此州的總統選舉,全由共和黨勝出,但拜登以驚險的約0.30%得票率領先攻下,11張選舉人票入袋;另外,過去6屆的總統選舉,喬治亞州均由共和黨候選人以大差距拿下,此次拜登贏了約0.24%,是不太多,但已夠將紅土染藍了,又是16張選舉人票。
2020年的總統選舉,最後雖如大部分的預測,拜登當選,但在州這級,則有好幾州的誤差不小。如民調預測,在佛羅里達州,拜登約領先2.5%,結果倒輸了約3.3%;在俄亥俄州,川普領先不到1%,結果大贏約8.03%。更不要說在眾議院,民主黨原本就領先共和黨35席,許多人預測藉由擊敗川普的旋風,民主黨將再增加5至15席,結果卻是跌破眼鏡的民主黨減少10席,共和黨增加16席。民主黨雖仍保住眾議院之控制權,但差距大幅縮小。這是從事民調者,對自己這行徹底失望的一主要原因。
FiveThirtyEight,亦簡單寫成538,此網站於2008年3月7日,由西爾弗(Nate Silver,1978-)所創。網站名稱源自於美國總統選舉時,共有538位選舉人。自2010年8月起,此網站隸屬“紐約時報”。又自2013年7月起,網站被ESPN收購。為何知名媒體,會爭相將538網站納入麾下?因此網站,以精準預測2008及2012年的美國大選結果而出名。媒體當然樂意與如此聲譽卓著的網站結合。今日該網站所公佈的預測,涵蓋民意調查分析、政治、經濟、科學、流行文化,與體育等,早已不侷限在選舉。
為讓大家對當選機率的涵義有所了解,先舉一簡單的例子。假設美國只有A、B、C 3州,各有10、15、20張選舉人票,共45張,且皆採“勝者全得”制。則任一總統候選人想勝選,須拿到至少23張選舉人票。現設某次總統選舉,有M及N兩位主要的候選人。又設預測M在3州的獲勝機率分別為0.5、0.7、0.8;N在3州的獲勝機率分別為0.5、0.3、0.2。看到這樣的數據,不少人會解讀成,就是M了,N豈有機會?底下來計算兩人的勝選機率。由於得23張以上的選舉人票,表至少要贏2州,因此兩位候選人,要當選都有相同的4種可能:
(A州勝,B州勝,C州勝),
(A州勝,B州勝,C州敗),
(A州勝,B州敗,C州勝),
(A州敗,B州勝,C州勝)。
又假設各州的投票結果相互獨立。由此得
P(M當選總統)
=0.5×0.7×0.8+0.5×0.7×0.2+0.5×0.3×0.8+0.5×0.7×0.8
=0.28+0.07+0.12+0.28=0.75。
立即可得P(N當選總統)=1-0.75=0.25。N雖看起來贏面不大,但仍有0.25的機率。這種事件,離被視為不可能發生還遠得很。因此若發生何須訝異?
若氣象局預測降雨機率為0.25,你自己判斷不會下雨,遂不帶傘出門,結果淋了一身雨。雖懊惱,能就此指責氣象局的預測不準嗎?除非你已長期收集數據,預測不準的證據確鑿,否則顯然不行。因1/4的機率,表示約每4次,便會發生1次。機率用在對氣象之預測,一般人似較易理解其涵義。不會輕易慨嘆“氣象局該關門了”。
538網站對2016年美國總統選舉的兩位主要候選人,表1給出預測及實際得票率,可看出誤差並不算大;表2給出當選機率之預測,川普雖不被看好,預測仍有0.286的當選機率,大於1/4的機率,比“時代”(Time)雜誌宣稱的川普僅“百分之1的獲勝機率”大多了。川普幸運地當選了,豈能因此導致“數據已死”?表3給出預測及實際選舉人票,這部分差異較大,並且誰當選也預測錯了。但我們已多次強調,美國總統選舉,特殊的“勝者全得”制,使得當兩候選人實力相差不大時,究竟誰的選舉人票會較多,是很難精準預測的。
我們再度來討論獲勝機率,先看一簡單的例子。假設D君投擲一正面出現機率為0.88的銅板56次(此處並不必假設各次的結果為獨立)。因56×0.88=49.28,即預期將出現49個左右的正面。不會因正面出現機率的機率0.88相當大,就預期可得56個正面。而且正面出現的次數,若在49附近,也都會覺得合理。事實上,若出現過多正面,可能會啟人疑竇,懷疑正面出現的機率應大於0.88。其次考慮較一般的情況。假設有56個銅板,正面出現的機率不盡相同。今各投擲1次(仍不必假設各次的結果為獨立),由於期望值有線性性質,因此將各銅板正面出現的機率相加,便是共得的正面數之期望值,也是合理的預測值。美國50州、特區、緬因州2個選區,加上內布拉斯加3個選區,總統選舉時,可視為共有56個採“勝者全得”的州(區)。欲估計總統候選人所得的選舉人票,便要對56個州(區),皆估計獲勝機率。表4便是538網站對2016年美國總統選舉的兩位主要候選人,勝選機率之預測。雖候選人有多組,但因“勝者全得”,使得只有柯林頓與川普,才有獲選舉人票的可能。我們想回答一個令人感興趣的問題:州(區)預測獲勝機率較大的候選人,確實也在該州(區)贏,這種州(區)數的期望值為何?
上述問題此本質上正是之前的投擲銅板問題。對56個州(區),將預測獲勝機率較大的那位候選人(柯林頓或川普),視為銅板正面。要知所謂正面或反面,不過有如名字,不同的銅板,指定那一面為正並無妨。如此一來,問每州(區)預測獲勝機率較大者是否獲勝,便有如問投擲一銅板正面是否出現。而問共有幾個州(區),由預測獲勝機率較大的候選人當選,便相當於求投擲56個銅板,共得的正面數。將表4中56個州(區),各取較大的預測獲勝機率,全部相加,得總和49.35。其中為了簡便,機率大於0.999者,以1計,而機率小於0.001者,則以0計。即得由538網站的預測,預期有49.35個州(區),由獲勝機率較大的候選人,贏得該州(區)。實際吻合幾個?50個!這還能說不準嗎?還能慨嘆“數據已死”嗎?
若某州(區)預測獲勝機率較大者落敗,我們不妨從俗稱之為“逆轉”州(區)。由表4知,56個州(區)中,共有6個“逆轉”州(區)。表5給出538網站,在那6個逆轉州(區),對柯林頓及川普,所預測之得票率,實際得票率亦附上以為比較。6個逆轉州(區),得票率預測領先的都是柯林頓,分別領先0.6%、0.3%、4.2%、0.7%、3.7%,及5.3%。其中0.6%、0.3%,及0.7%,都很小,即這6州(區)裡,至少有3州(區),兩候選人的支持率差異,應是在誤差範圍內,因而柯林頓被逆轉,並不足為奇。回過頭來看川普,他在6個逆轉州(區)的實際得票率,分別高出柯林頓1.20%、10.47%、0.23%、3.66%、0.73%,及0.75%。這些差距,除了緬因州第2選區(只有1張選舉人票,影響很小)的10.47%,及北卡羅來納州的3.66%較大外,其餘在佛羅里達、密西根、賓夕法尼亞,及威斯康辛等4州,差距分別是1.20%、0.23%、0.73%,及0.75%,可說都相當小。只要些微的波動,輸贏便可能換人。這4州,共有75張選舉人票。若少掉這75票,川普便只有231票,將黯然神傷地落選。能這麼驚險的逆轉這4州,說川普運氣好,應不為過。話說回來,有多少預測能掌握這麼小的誤差?
其實,還不必上述4州全輸掉,因川普得到的選舉人票,比當選所需的270票,多出36票,故佛羅里達州與密西根州(共45票)、佛羅里達州與賓夕法尼亞州(共49票)、佛羅里達州與威斯康辛州(共39票),或密西根州、賓夕法尼亞州,與威斯康辛州(共46票),只要在此4組州的任一組輸掉,則“時代”雜誌2016年選出的風雲人物,便不是川普了。
事實上,我們已數度強調,若真見到次次正確預測銅板那一面朝上的人,人們恐怕不但不信他,反而懷疑其中有假。所以如何能對這麼複雜的總統選舉,要求處處精準預測?
這是一雙方實力接近的總統大選,“勝者全得”制,造成正確預測誰當選之困難。若如一般選舉,依得票率的高低,以決定誰當選,則538網站便有近乎完美的預測。由表2,預測柯林頓的得票率為48.5%,領先川普的44.9%,實際果然柯林頓的得票率較高。而且柯林頓的實際得票率為48.07%,比預測值僅略少0.43%;川普的實際得票率為45.99%,比預測值不過高出1.09%。這樣的誤差,在選舉預測裡,算是高度準確了。只要想,從一袋中,以隨機取球來估計紅球所佔比例。兩次試驗所得比例之差異,若只有1.09%,豈會不滿意?差異若小至0.43%,難道不會驚嘆不已嗎?
只要了解隨機性,便知預測之誤差難免。美國總統選舉誰輸誰贏之預測不易,統計就是做到它能做的。數據不死,也未逐漸凋謝。
表1. 538網站2016年美國總統大選預測及實際得票率
候選人 |
柯林頓 |
川普 |
預測值 |
48.50% |
44.90% |
實際值 |
48.07% |
45.99% |
表2. 538網站2016年美國總統大選當選機率之預測
候選人 |
柯林頓 |
川普 |
預測值 |
0.714 |
0.286 |
表3. 538網站2016年美國總統大選預測及實際選舉人票
候選人 |
柯林頓 |
川普 |
預測值 |
302.2 |
235.0 |
實際值 |
232 |
306 |
表4. 538網站2016年美國總統大選各州(區)獲勝機率之預測
|
|
候選人 |
|
州(區) |
選舉人票 |
柯林頓 |
川普 |
實際
獲勝者 |
Alabama |
9 |
<0.001 |
>0.999 |
川普 |
Alaska |
3 |
0.235 |
0.764 |
川普 |
Arizona |
11 |
0.334 |
0.666 |
川普 |
Arkansas |
6 |
0.004 |
0.996 |
川普 |
California |
55 |
>0.999 |
<0.001 |
柯林頓 |
Colorado |
9 |
0.775 |
0.224 |
柯林頓 |
Connecticut |
7 |
0.973 |
0.027 |
柯林頓 |
Delaware |
3 |
0.915 |
0.085 |
柯林頓 |
District of Columbia |
3 |
>0.999 |
<0.001 |
柯林頓 |
Florida* |
29 |
0.551 |
0.449 |
川普 |
Georgia |
16 |
0.209 |
0.791 |
川普 |
Hawaii |
4 |
0.989 |
0.011 |
柯林頓 |
Idaho |
4 |
0.009 |
0.990 |
川普 |
Illinois |
20 |
0.983 |
0.017 |
柯林頓 |
Indiana |
11 |
0.025 |
0.975 |
川普 |
Iowa |
6 |
0.302 |
0.698 |
川普 |
Kansas |
6 |
0.027 |
0.973 |
川普 |
Kentucky |
8 |
0.004 |
0.996 |
川普 |
Louisiana |
8 |
0.005 |
0.995 |
川普 |
Maine |
2 |
0.826 |
0.173 |
柯林頓 |
District 1 |
1 |
0.915 |
0.085 |
柯林頓 |
District 2* |
1 |
0.509 |
0.490 |
川普 |
Maryland |
10 |
>0.999 |
<0.001 |
柯林頓 |
Massachusetts |
11 |
>0.999 |
<0.001 |
柯林頓 |
Michigan* |
16 |
0.789 |
0.211 |
川普 |
Minnesota |
10 |
0.850 |
0.150 |
柯林頓 |
Mississippi |
6 |
0.022 |
0.978 |
川普 |
Missouri |
10 |
0.039 |
0.961 |
川普 |
Montana |
3 |
0.041 |
0.959 |
川普 |
Nebraska |
2 |
0.023 |
0.977 |
川普 |
District 1 |
1 |
0.107 |
0.893 |
川普 |
District 2 |
1 |
0.442 |
0.558 |
川普 |
District 3 |
1 |
0.008 |
0.992 |
川普 |
Nevada |
6 |
0.583 |
0.417 |
柯林頓 |
New Hampshire |
4 |
0.698 |
0.302 |
柯林頓 |
New Jersey |
14 |
0.969 |
0.031 |
柯林頓 |
New Mexico |
5 |
0.826 |
0.172 |
柯林頓 |
New York |
29 |
0.998 |
0.002 |
柯林頓 |
North Carolina* |
15 |
0.555 |
0.445 |
川普 |
North Dakota |
3 |
0.023 |
0.977 |
川普 |
Ohio |
18 |
0.354 |
0.646 |
川普 |
Oklahoma |
7 |
<0.001 |
>0.999 |
川普 |
Oregon |
7 |
0.937 |
0.063 |
柯林頓 |
Pennsylvania* |
20 |
0.770 |
0.230 |
川普 |
Rhode Island |
4 |
0.932 |
0.068 |
柯林頓 |
South Carolina |
9 |
0.103 |
0.897 |
川普 |
South Dakota |
3 |
0.061 |
0.939 |
川普 |
Tennessee |
11 |
0.027 |
0.973 |
川普 |
Texas |
38 |
0.060 |
0.940 |
川普 |
Utah |
6 |
0.033 |
0.832 |
川普 |
Vermont |
3 |
0.981 |
0.019 |
柯林頓 |
Virginia |
13 |
0.855 |
0.145 |
柯林頓 |
Washington |
12 |
0.984 |
0.016 |
柯林頓 |
West Virginia |
5 |
0.003 |
0.997 |
川普 |
Wisconsin* |
10 |
0.835 |
0.165 |
川普 |
Wyoming |
3 |
0.011 |
0.989 |
川普 |
註:*表由獲勝機率預測值較低者獲勝 |
表5. 538網站2016年美國總統大選 6逆轉州(區)預測及實際得票率
|
|
538網站預測
之得票率 |
實際得票率 |
逆轉州(區) |
選舉
人票 |
柯林頓 |
川普 |
柯林頓 |
川普 |
Florida |
29 |
48.1% |
47.5% |
47.82% |
49.02% |
Maine
(District 2) |
1 |
45.6% |
45.3% |
41.06% |
51.53% |
Michigan |
16 |
48.4% |
44.2% |
47.27% |
47.50% |
North Carolina |
15 |
48.2% |
47.5% |
46.17% |
49.83% |
Pennsylvania |
20 |
48.9% |
45.2% |
48.02% |
48.75% |
Wisconsin |
10 |
49.6% |
44.3% |
46.44% |
47.19% |