國立高雄大學統計學研究所
最新消息 本所簡介 師資介紹 開設課程 教師成果 學生表現 學術演講 入學管道 學生園地 心在南方 表格下載 活動集錦 網路資源 關於我們
本站首頁 本校首頁 英文版
:::心在南方  
主題:統計下凡(二十一)
發表者:黃文璋 Email:huangwj@nuk.edu.tw 日期:2021/10/31 下午 11:04:38

21 數據已死?

2016年的美國總統選舉,身為共和黨策士的墨菲,坐擁數據,羽扇綸巾,因而從來不看好川普。118日開票當晚,眼看川普就要當選,不禁慨嘆“數據已死”。那2020的美國總統選舉後,有沒有人也慨嘆些什麼呢?2020年投票日(113)的兩天後,115日,“紐約時報”(The New York Times)有一則報導,標題為,“2016 年對投票造成打擊,那2020年有毀了它嗎?”(2016 Dealt a Blow to Polling. Did 2020 Kill It?)此文一開始便指出,“選舉之夜,計票開始後不到24小時,媒體和政治圈已經宣布一個失敗者,那就是民調(polling)。”即雖尚不知那一候選人會落選,但已確定的是民調輸了。然後引述一些民調專家的意見,包括“對我們這一行來說就是完了”;“民調似乎已崩潰了,救不回了”;“民調業就是一堆廢棄物,炸掉算了。”看來經過4年,民調落入比“數據已死”更淒慘的狀態。

2016年的美國總統選舉,選前各家民調,對柯林頓普選得票率領先的預測,平均略低於4%,最終她贏了約2.09%,誤差並不算太大,與1968年以來民調的平均誤差差不多。因而許多民調專家,並不認為他們的預測太離譜。只不過柯林頓雖贏得普選,卻輸掉大選。因美國的總統選舉,並非由普選得票率之多寡來決定,而是由各州的選舉人票,尤其是搖擺州。在總統選舉時,搖擺州向來為兩大黨極力爭取的目標。像美國有18個州及特區,自19922012的總統選舉,都是投給民主黨的候選人,是所謂民主黨的藍牆(Blue Wall)2016年風雲變色,密西根、賓夕法尼亞,及威斯康辛等3州,倒向川普,這3州共有46張選舉人票,若非輸掉這3州,柯林頓便當選了(她應獲232張選舉人票,但有5位失信者,實際得227張,227+46=273>270)2020年拜登光復這3州,分別贏2.78%1.17%,及0.63%,若沒這3州,拜登便落選了(他獲306張選舉人票,306-46=260<270)。選前眾人皆知,拜登只要保住柯林頓4年前勝出的州,加上讓此3搖擺州搖回來,得票便超過入主白宮所需的270票。拜登達成目標,且翻轉的還不只上述3州。共和黨的鐵票倉亞利桑那州,自從1952年開始,除1996年外,此州的總統選舉,全由共和黨勝出,但拜登以驚險的約0.30%得票率領先攻下,11張選舉人票入袋;另外,過去6屆的總統選舉,喬治亞州均由共和黨候選人以大差距拿下,此次拜登贏了約0.24%,是不太多,但已夠將紅土染藍了,又是16張選舉人票。

2020年的總統選舉,最後雖如大部分的預測,拜登當選,但在州這級,則有好幾州的誤差不小。如民調預測,在佛羅里達州,拜登約領先2.5%,結果倒輸了約3.3%;在俄亥俄州,川普領先不到1%,結果大贏約8.03%。更不要說在眾議院,民主黨原本就領先共和黨35席,許多人預測藉由擊敗川普的旋風,民主黨將再增加515席,結果卻是跌破眼鏡的民主黨減少10席,共和黨增加16席。民主黨雖仍保住眾議院之控制權,但差距大幅縮小。這是從事民調者,對自己這行徹底失望的一主要原因。

FiveThirtyEight,亦簡單寫成538,此網站於200837日,由西爾弗(Nate Silver1978-)所創。網站名稱源自於美國總統選舉時,共有538位選舉人。自20108月起,此網站隸屬“紐約時報”。又自20137月起,網站被ESPN收購。為何知名媒體,會爭相將538網站納入麾下?因此網站,以精準預測20082012年的美國大選結果而出名。媒體當然樂意與如此聲譽卓著的網站結合。今日該網站所公佈的預測,涵蓋民意調查分析、政治、經濟、科學、流行文化,與體育等,早已不侷限在選舉。

為讓大家對當選機率的涵義有所了解,先舉一簡單的例子。假設美國只有ABC 3州,各有101520張選舉人票,共45張,且皆採“勝者全得”制。則任一總統候選人想勝選,須拿到至少23張選舉人票。現設某次總統選舉,有MN兩位主要的候選人。又設預測M3州的獲勝機率分別為0.50.70.8N3州的獲勝機率分別為0.50.30.2。看到這樣的數據,不少人會解讀成,就是M了,N豈有機會?底下來計算兩人的勝選機率。由於得23張以上的選舉人票,表至少要贏2州,因此兩位候選人,要當選都有相同的4種可能:

(A州勝,B州勝,C州勝)

(A州勝,B州勝,C州敗)

(A州勝,B州敗,C州勝)

(A州敗,B州勝,C州勝)

又假設各州的投票結果相互獨立。由此得

P(M當選總統)

=0.5×0.7×0.8+0.5×0.7×0.2+0.5×0.3×0.8+0.5×0.7×0.8

=0.28+0.07+0.12+0.28=0.75

立即可得P(N當選總統)=1-0.75=0.25N雖看起來贏面不大,但仍有0.25的機率。這種事件,離被視為不可能發生還遠得很。因此若發生何須訝異?

若氣象局預測降雨機率為0.25,你自己判斷不會下雨,遂不帶傘出門,結果淋了一身雨。雖懊惱,能就此指責氣象局的預測不準嗎?除非你已長期收集數據,預測不準的證據確鑿,否則顯然不行。因1/4的機率,表示約每4次,便會發生1次。機率用在對氣象之預測,一般人似較易理解其涵義。不會輕易慨嘆“氣象局該關門了”。

538網站對2016年美國總統選舉的兩位主要候選人,表1給出預測及實際得票率,可看出誤差並不算大;表2給出當選機率之預測,川普雖不被看好,預測仍有0.286的當選機率,大於1/4的機率,比“時代”(Time)雜誌宣稱的川普僅“百分之1的獲勝機率”大多了。川普幸運地當選了,豈能因此導致“數據已死”?表3給出預測及實際選舉人票,這部分差異較大,並且誰當選也預測錯了。但我們已多次強調,美國總統選舉,特殊的“勝者全得”制,使得當兩候選人實力相差不大時,究竟誰的選舉人票會較多,是很難精準預測的。

我們再度來討論獲勝機率,先看一簡單的例子。假設D君投擲一正面出現機率為0.88的銅板56(此處並不必假設各次的結果為獨立)。因56×0.88=49.28,即預期將出現49個左右的正面。不會因正面出現機率的機率0.88相當大,就預期可得56個正面。而且正面出現的次數,若在49附近,也都會覺得合理。事實上,若出現過多正面,可能會啟人疑竇,懷疑正面出現的機率應大於0.88。其次考慮較一般的情況。假設有56個銅板,正面出現的機率不盡相同。今各投擲1(仍不必假設各次的結果為獨立),由於期望值有線性性質,因此將各銅板正面出現的機率相加,便是共得的正面數之期望值,也是合理的預測值。美國50州、特區、緬因州2個選區,加上內布拉斯加3個選區,總統選舉時,可視為共有56個採“勝者全得”的州()。欲估計總統候選人所得的選舉人票,便要對56個州(),皆估計獲勝機率。表4便是538網站對2016年美國總統選舉的兩位主要候選人,勝選機率之預測。雖候選人有多組,但因“勝者全得”,使得只有柯林頓與川普,才有獲選舉人票的可能。我們想回答一個令人感興趣的問題:州()預測獲勝機率較大的候選人,確實也在該州()贏,這種州()數的期望值為何?

上述問題此本質上正是之前的投擲銅板問題。對56個州(),將預測獲勝機率較大的那位候選人(柯林頓或川普),視為銅板正面。要知所謂正面或反面,不過有如名字,不同的銅板,指定那一面為正並無妨。如此一來,問每州()預測獲勝機率較大者是否獲勝,便有如問投擲一銅板正面是否出現。而問共有幾個州(),由預測獲勝機率較大的候選人當選,便相當於求投擲56個銅板,共得的正面數。將表456個州(),各取較大的預測獲勝機率,全部相加,得總和49.35。其中為了簡便,機率大於0.999者,以1計,而機率小於0.001者,則以0計。即得由538網站的預測,預期有49.35個州(),由獲勝機率較大的候選人,贏得該州()。實際吻合幾個?50個!這還能說不準嗎?還能慨嘆“數據已死”嗎?

若某州()預測獲勝機率較大者落敗,我們不妨從俗稱之為“逆轉”州()。由表4知,56個州()中,共有6個“逆轉”州()。表5給出538網站,在那6個逆轉州(),對柯林頓及川普,所預測之得票率,實際得票率亦附上以為比較。6個逆轉州(),得票率預測領先的都是柯林頓,分別領先0.6%0.3%4.2%0.7%3.7%,及5.3%。其中0.6%0.3%,及0.7%,都很小,即這6()裡,至少有3(),兩候選人的支持率差異,應是在誤差範圍內,因而柯林頓被逆轉,並不足為奇。回過頭來看川普,他在6個逆轉州()的實際得票率,分別高出柯林頓1.20%10.47%0.23%3.66%0.73%,及0.75%。這些差距,除了緬因州第2選區(只有1張選舉人票,影響很小)10.47%,及北卡羅來納州的3.66%較大外,其餘在佛羅里達、密西根、賓夕法尼亞,及威斯康辛等4州,差距分別是1.20%0.23%0.73%,及0.75%,可說都相當小。只要些微的波動,輸贏便可能換人。這4州,共有75張選舉人票。若少掉這75票,川普便只有231票,將黯然神傷地落選。能這麼驚險的逆轉這4州,說川普運氣好,應不為過。話說回來,有多少預測能掌握這麼小的誤差?

其實,還不必上述4州全輸掉,因川普得到的選舉人票,比當選所需的270票,多出36票,故佛羅里達州與密西根州(45)、佛羅里達州與賓夕法尼亞州(49)、佛羅里達州與威斯康辛州(39),或密西根州、賓夕法尼亞州,與威斯康辛州(46),只要在此4組州的任一組輸掉,則“時代”雜誌2016年選出的風雲人物,便不是川普了。

事實上,我們已數度強調,若真見到次次正確預測銅板那一面朝上的人,人們恐怕不但不信他,反而懷疑其中有假。所以如何能對這麼複雜的總統選舉,要求處處精準預測?

這是一雙方實力接近的總統大選,“勝者全得”制,造成正確預測誰當選之困難。若如一般選舉,依得票率的高低,以決定誰當選,則538網站便有近乎完美的預測。由表2,預測柯林頓的得票率為48.5%,領先川普的44.9%,實際果然柯林頓的得票率較高。而且柯林頓的實際得票率為48.07%,比預測值僅略少0.43%;川普的實際得票率為45.99%,比預測值不過高出1.09%。這樣的誤差,在選舉預測裡,算是高度準確了。只要想,從一袋中,以隨機取球來估計紅球所佔比例。兩次試驗所得比例之差異,若只有1.09%,豈會不滿意?差異若小至0.43%,難道不會驚嘆不已嗎?

只要了解隨機性,便知預測之誤差難免。美國總統選舉誰輸誰贏之預測不易,統計就是做到它能做的。數據不死,也未逐漸凋謝。

1. 538網站2016年美國總統大選預測及實際得票率

候選人

柯林頓

川普

預測值

48.50%

44.90%

實際值

48.07%

45.99%

2. 538網站2016年美國總統大選當選機率之預測

候選人

柯林頓

川普

預測值

0.714

0.286

3. 538網站2016年美國總統大選預測及實際選舉人票

候選人

柯林頓

川普

預測值

302.2

235.0

實際值

232

306

4. 538網站2016年美國總統大選各州()獲勝機率之預測

候選人

()

選舉人票

柯林頓

川普

實際

獲勝者

Alabama

9

<0.001

>0.999

川普

Alaska

3

0.235

0.764

川普

Arizona

11

0.334

0.666

川普

Arkansas

6

0.004

0.996

川普

California

55

>0.999

<0.001

柯林頓

Colorado

9

0.775

0.224

柯林頓

Connecticut

7

0.973

0.027

柯林頓

Delaware

3

0.915

0.085

柯林頓

District of Columbia

3

>0.999

<0.001

柯林頓

Florida*

29

0.551

0.449

川普

Georgia

16

0.209

0.791

川普

Hawaii

4

0.989

0.011

柯林頓

Idaho

4

0.009

0.990

川普

Illinois

20

0.983

0.017

柯林頓

Indiana

11

0.025

0.975

川普

Iowa

6

0.302

0.698

川普

Kansas

6

0.027

0.973

川普

Kentucky

8

0.004

0.996

川普

Louisiana

8

0.005

0.995

川普

Maine

2

0.826

0.173

柯林頓

District 1

1

0.915

0.085

柯林頓

District 2*

1

0.509

0.490

川普

Maryland

10

>0.999

<0.001

柯林頓

Massachusetts

11

>0.999

<0.001

柯林頓

Michigan*

16

0.789

0.211

川普

Minnesota

10

0.850

0.150

柯林頓

Mississippi

6

0.022

0.978

川普

Missouri

10

0.039

0.961

川普

Montana

3

0.041

0.959

川普

Nebraska

2

0.023

0.977

川普

District 1

1

0.107

0.893

川普

District 2

1

0.442

0.558

川普

District 3

1

0.008

0.992

川普

Nevada

6

0.583

0.417

柯林頓

New Hampshire

4

0.698

0.302

柯林頓

New Jersey

14

0.969

0.031

柯林頓

New Mexico

5

0.826

0.172

柯林頓

New York

29

0.998

0.002

柯林頓

North Carolina*

15

0.555

0.445

川普

North Dakota

3

0.023

0.977

川普

Ohio

18

0.354

0.646

川普

Oklahoma

7

<0.001

>0.999

川普

Oregon

7

0.937

0.063

柯林頓

Pennsylvania*

20

0.770

0.230

川普

Rhode Island

4

0.932

0.068

柯林頓

South Carolina

9

0.103

0.897

川普

South Dakota

3

0.061

0.939

川普

Tennessee

11

0.027

0.973

川普

Texas

38

0.060

0.940

川普

Utah

6

0.033

0.832

川普

Vermont

3

0.981

0.019

柯林頓

Virginia

13

0.855

0.145

柯林頓

Washington

12

0.984

0.016

柯林頓

West Virginia

5

0.003

0.997

川普

Wisconsin*

10

0.835

0.165

川普

Wyoming

3

0.011

0.989

川普

註:*表由獲勝機率預測值較低者獲勝

5. 538網站2016年美國總統大選 6逆轉州()預測及實際得票率



538網站預測

之得票率

實際得票率

逆轉州()

選舉

人票

柯林頓

川普

柯林頓

川普

Florida

29

48.1%

47.5%

47.82%

49.02%

Maine

(District 2)

1

45.6%

45.3%

41.06%

51.53%

Michigan

16

48.4%

44.2%

47.27%

47.50%

North Carolina

15

48.2%

47.5%

46.17%

49.83%

Pennsylvania

20

48.9%

45.2%

48.02%

48.75%

Wisconsin

10

49.6%

44.3%

46.44%

47.19%

   暫無回應
 回本區首頁 
  回應總數0  
 
 
  下一頁  
  
 
我要回應
姓 名: 回應前,請先註冊登入
E-mail:
內 容:
驗證碼:  (IK5M
 
 
:::
 
*

地  址:811高雄市楠梓區高雄大學路700號
電  話:07-5919362 傳真:07-5919360 e-mail: stat@nuk.edu.tw
更新日期:2024/11/19 下午 03:57:23

2003/10/20起第 10498801 位訪客
*