國立高雄大學統計學研究所
最新消息 本所簡介 師資介紹 開設課程 教師成果 學生表現 學術演講 入學管道 學生園地 心在南方 表格下載 活動集錦 網路資源 關於我們
本站首頁 本校首頁 英文版
:::心在南方  
主題:統計可信嗎?(三)
發表者:黃文璋 Email:huangwj@nuk.edu.tw 日期:2016/12/4 下午 03:58:15

3 誤差的概念

A君拿一銅板,宣稱為公正,有人問你怎麼確定?”A君說那就來投擲看看。於是持續投擲100次。若出現50次正面,50次反面,你有何評論?嗯!這麼巧!可能會這樣想。不過銅板的公正性,並無可質疑處。如果出現52正及48反呢?總會有波動,些微偏差很正常,沒理由認為銅板不公正。若出現45正及55反呢?有點偏頗,但還沒大到無法忍受的地步,不能就此說銅板不公正。若出現58正及42反呢?這屬於不算小的偏差,不像只是肇因於運氣不佳所致,銅板真的公正嗎?大約會興起懷疑了。那若出現63正及37反呢?此時對銅板為公正,可能便無法接受了。再考慮另一情境。如果A君得到50正及50反後,在眾人矚目下,重來一回,仍得50正及50反,此時你會更加相信銅板為公正嗎?恐怕不會,反而將懷疑其中有詐,否則那有那麼巧?如果再一回,仍得50正及50反呢?連續3回了,此時很可能有不少人,將不相信A君沒有作假了。

銅板投擲100次,假設各次投擲的結果相互獨立,則出現50正及50反的機率約為0.0796,發生其實並非太稀罕。至於連續3回,皆得50正及50反,機率約為0.07963≈0.0005。可以這麼說,巧歸巧,萬分之5的發生機率,卻還不真的小到可列為不可能的事件。但看起來太巧合的事件發生,大部分的人,往往沒想先算一下機率再說,直覺反應便是,怎麼可能?這樣輕率的懷疑,誤判自然會不少。

小學生做數學計算題,常被要求再三驗算,務求不犯錯。若幾次所得答案均相同,才會放心,因少會錯的那麼巧。對隨機現象則完全不一樣,人們了解變異不但會存在,且難以避免。仍以投擲銅板為例。宣稱是公正的銅板,一擲之下,若所得正面數太吻合預期,也就是沒有偏差或偏差太小,或者出現其他過度巧合的結果,有時會引起是否有動什麼手腳的懷疑。所得正面數與預期略有偏差,反而認為合理,而心安地接受銅板為公正的前提。但若偏差太大就不行,銅板為公正的前提,可能就會被放棄了。

對一銅板,很多時候,並不知出現正面出現的機率p為何。如何估計p?一常見的作法是,持續投擲n次,假設各次投擲的結果相互獨立,則以所得正面數X的相對頻率X/n,來估計p。這種是所謂點估計(point estimation),因是以一個點(),來估計一未知參數。點估計雖是一毫不含混的估計,只是每次所得的X不盡相同。更明確地說,當n固定時,隨機變數X有參數np之二項分佈(binomial distribution)。既然會得到不同的X,便不會每個X/n都等於p。實務上,有時會讓人覺得這樣的估計準嗎?於是遂產生對p的另一種估計法,即區間估計(interval estimation)。也就是以一區間來估計一未知參數,並給出該參數落在此區間之機率。前述區間稱為信賴區間(confidence interval),伴隨的機率,則稱為信心水準(confidence level),或信賴係數(confidence coefficient)。信心水準通常以百分比來表示。信心水準是否愈大愈好?愈大難道不表示愈有信心?倒也不見得。信心水準愈大,區間將愈長,估計的明確性,便隨之而降,反而可能讓人對估計不太有信心了,並非一定較好。95%是一常取的信心水準。

家屬想知道已病入膏肓的親人,還有多少來日?醫生答以6個月。結果可能才過了2個月又10天便去世了,家屬措手不及;但也可能家屬一切準備妥當,卻過了10個月仍存活。因而會有家屬抱怨醫生信口開河,專業能力不足。若醫生答以病人尚可存活1個月至11個月,雖不像只給一個明確值6個月,有斬釘截鐵式的權威,卻會讓人覺得這樣的醫生,更科學、更值得信賴,因而對他更有信心。但畢竟是隨機現象,說不準是常態,豈會必然就在111個月間死亡?除給一存活期的區間估計外,若醫生能附上病人存活期落在該區間之機率,譬如說95%,則家屬對親人的來日究竟有多長,將有一更清晰的概念。

如前所述,對銅板出現正面之機率pX/n可當做一點估計。至於信賴區間,常取成一個以X/n為中心的區間,型式如[X/n-d, X/n+d],並附上對應的信心水準。信賴區間的半徑d,稱為估計誤差,或說抽樣誤差,或就簡單的稱做誤差。。誤差d當然愈小愈佳,若過大,往往會被認為此估計太粗糙。欲得較小的d,除了以較好的估計法外,通常得仰賴較大的樣本數n。另外,有時是倒過來,先給信心水準,及估計誤差d,然後求所需的樣本數n信心水準、樣本數n及誤差d,此三者通常給出其中兩個另一便能求出(有時是得到近似值)X有二項分佈,由於一方面參數np中的p未知,另一方面,二項分佈之機率值,為一串有階乘數(即符號!)的數字之和,不太好計算,所以d並無法有效地求出。幸好n較大時,X/n經標準化(即減去期望值後,除以標準差)後,其分佈可以中央極限定理(Central limit theorem)來近似,因而求出近似的d

在此,對信心水準的涵義略說明如下。我們以估計銅板出現正面之機率p為例。假設有k個人,對同一銅板,分別投擲n次。由於每人所得之X/n可能不同,因此各人所得之95%信賴區間,也就可能不同。那k個信賴區間,有些包含(實際的)p,有些則不包含。但只要k夠大,其中便大約有95%比例的信賴區間包含p。這便是信心水準95%之意義。

不要覺得中央極限定理很難,此定理早已堂而皇之地出現在高中數學裡。當年在訂定95課綱時,課綱委員會決定在高中數學中,放些統計題材。放什麼好呢?總是要有用且不太難的。媒體上不時刊登有關各種民調的報導,結尾皆有如下說明:

此次民調由xxx民意調查中心舉辦,在xx日辯論會後進行,以電話方式隨機訪問903位成年民眾,另有150人拒絕訪問。在百分之95的信心水準下,抽樣誤差在正負3.3個百分點之內。調查是以台閩地區住宅電話為母體作尾數兩位隨機抽樣,結果依台閩地區20歲以上人口之性別、年齡及設籍縣市結構進行加權,調查經費來自xxx

抽樣誤差在正負3.3%,其中的3.3,便是之前的誤差d,在民調裡常以百分比表之。想了解某地區民眾,對某議題之支持率,經由抽樣調查後,得到對該議題之支持率,再算出抽樣誤差d,便得到支持率估計的信賴區間。可能是由於有關民調的報導經常可見,若干課綱委員,因而認為信賴區間,應是一基本的統計知識。於是自民國95年起,信賴區間進入高中數學。而為了近似,中央極限定理也跟著被引進高中數學。

做民調時,信心水準通常取成95%,抽樣誤差則預定為3%,由此換算出所需成功訪問的樣本數n約為1,068。實際調查結束,經篩選後,有效樣本數n不一定能剛好是1,068。由所得到的n,以下式換算出近似的抽樣誤差

(1) d ≈ 0.98/n1/2

n大於1,068,則抽樣誤差便小於3%,否則大於3%。以前述所引報導裡的n=903為例,代入(1),得抽樣誤差d=0.98/9031/2≈0.0326≈3.3%報導中的3.3%就是這樣來的。

之前所提的以隨機取球,來估計袋中紅球所佔比例,跟以投擲銅板,來估計正面出現的機率,二者間其實有一很大的不同。投擲銅板,可假設各次投擲的結果為相互獨立。除非有人蓄意作假,否則這假設是合理的。而在獨立的假設下,也就有投擲n次後,所得正面數有二項分佈。但自袋中隨機取球,且取出後不放回,各次取球的結果,便不獨立,因此取n次後,其中所得之紅球數,並沒有二項分佈,而有超幾何分佈(hypergeometric distribution),這時中央極限定理,其實是不適用的。

民調的抽取樣本,一般類如前述取球的方式。即隨機取樣,且取出後不放回(稱做簡單隨機抽樣,simple random sampling),因此各次取樣並不獨立。於是涉及的分佈,為超幾何分佈,而非二項分佈。那為什麼民調抽樣時,不採取出後放回?因要讓人願意受訪都不容易了,總不能在完成訪問後,稍後告訴他,你又被被抽中了,要再訪問你一遍。所以原本中央極限定理,並不適用在民調裡的近似。但若抽取的樣本數(通常幾千),比起地區的人口數(假設至少有幾十萬)少很多,則將取出後不放回,視為取出後放回,便說得過去,就當做是近似。如此便能藉助中央極限定理來近似,計算上的確方便許多。這樣的便宜行事,當然產生誤差了。但在所有的誤差裡,此誤差其實算不了什麼。

銅板或球,那一面或什麼顏色,皆可相當清楚地辨別。而且不論板或球,都能無怨無悔地被投擲或抽取。但每個人是一單獨的個體,並無法像球一般,視為外形不可區別。人會拒訪、不在家、未擁有電話、不誠實回答問題、會改變看法,且不一定去投票。拒訪或聯絡不上的族群,與成功受訪者之意見,差異有可能很大。再加上從問卷設計、調查流程,至結果分析,都可能不夠客觀。這林林總總,有意無意下所產生的誤差,將遠遠大於取樣不放回,所造成的超幾何分佈,而非二項分佈之誤差。

媒體公佈的候選人之民調,有時會說兩候選人支持率的差異在誤差範圍內,這是什麼意思?假設有兩後選人CD,民調後得C之支持率為38.73%D之支持率為41.72%,且抽樣誤差在正負3.26%內。由於D之支持率比C之支持率高出2.99%,小於抽樣誤差3.26%,遂說差異在誤差範圍內。又此時對CD支持率估計的信賴區間,分別為[35.47, 41.99][38.46, 44.98]。兩區間有重疊,顯示所估計D之支持率,不見得一定高過C。差異在誤差範圍內,乃表就算支持率領先,但高出不算太大,翻盤機會不容忽視,雙方都須再加把勁。

有人說不定好奇,抽樣誤差何以不設定較小的值,例如1%,讓民調的結果更精準些?由(1)式,抽樣誤差若要由3%降為1%,樣本數須增至9倍。樣本數9倍,在短時間內,要完成調查,難度將增大許多。另一方面,由於要完成的樣本數大幅增加,在時間壓力下,說不定另產生誤差,反而得不償失。更何況,我們已指出,在整個調查過程中,無法避免的各種誤差極多,且還數度用到近似,估計要真的夠準確,幾乎是不可能的任務。信心水準真的是95%嗎?誤差真的是3.3%?一點都不能去深究。民調可說是在不擬寄託在怪力亂神下,要對未來預測,沒有辦法中的辦法,但準確性應勝過占卜。民調的結果,不過是供參考而已,主要是讓人們對民意走向,略有些概念,並不企圖扮演鐵口直斷的角色。若過度追求較小的抽樣誤差,將有如明察秋毫之末,而不見輿薪。

最後,要指出的是,萬不可以為能帶著(1)式走遍天下。(1)式乃基於中央極限定理,那是大樣本下的結果。的確有些教科書指出,除若干基本條件外,通常樣本數n只要30以上,就可使用中央極限定理來近似。雖是這麼講,但一方面n當然還是較大為宜,否則誤差可能能太大;另一方面可找到極多n已很大,如達到1百萬了,但中央極限定理仍不適合拿來近似之例。無論如何,有關極限的定理,應用時務必要很謹慎。何況在執行民調的過程中,已一路採用近似了,各種誤差不知有多少,更不宜毫不節制地考慮太小的樣本數。曾見到政府部門所委託,一大規模對全國某族群人口及語言之調查計畫的期中報告,總樣本數有幾千,並不算少,但分到各鄉鎮,就沒有太多了。該調查報告中,對一樣本數才2的小鄉,仍套用(1)式,而給出該鄉的抽樣誤差

d ≈ 0.98/21/2 ≈ 69.30%

不要說n=2怎可用(1)式,這麼大的誤差之估計,豈有多少價值?可說對誤差沒什麼概念。誤差概念不佳,不論樣本數再多,得到的估計,其誤差恐將比所宣稱的誤差大許多。

   暫無回應
 回本區首頁 
  回應總數0  
 
 
  下一頁  
  
 
我要回應
姓 名: 回應前,請先註冊登入
E-mail:
內 容:
驗證碼:  (X050
 
 
:::
 
*

地  址:811高雄市楠梓區高雄大學路700號
電  話:07-5919362 傳真:07-5919360 e-mail: stat@nuk.edu.tw
更新日期:2024/5/10 上午 10:49:01

2003/10/20起第 9267692 位訪客
*