28 再探假設檢定
機率與統計有何不同?考卷上有道題,“設有一公正銅板,獨立地投擲20次,試求至少出現17個正面的機率。”不必在乎是否真有一個公正銅板,也不必實際去投擲,學生很快便能算出正確答案1,351/220。此為機率問題,在給定的前提(銅板為公正)下,去推導出指定事件的機率。其中前提是給的,不必去懷疑是否真有此前提,這與數學裡一向的推導,其精神是一致的。再看一情況。若有人獨立地投擲某銅板20次,由於事先看不出銅板有何特別,因而合理地視為公正。結果一擲之下,得到17個正面。因正面數過多,遂懷疑該銅板並非公正,出現正面的機率可能大於0.5,於是去執行一個假設檢定。這便是統計問題,見可疑追查到底,由觀測到的結果,去檢驗前提(銅板為公正)是否可接受。
對於銅板,若投擲出較偏差的結果,便懷疑其公正性;若投擲出的正面數,約為一半的投擲數,便大致相信其公正性。因正面數出現的多寡,乃由銅板出現正面的機率而定,且銅板會無怨無悔地讓人投擲,並維持同一出現正面的機率。至於投擲的人會不會搞鬼?除非有證據,否則便不考慮此因素,當然也是認為銅板的投擲,想搞鬼沒那麼容易。但銅板之外的假設檢定,就得很謹慎地執行。如曾有一則報導,標題是“德國科學家證實,喝綠茶可以減肥”。看到這種新聞,立即會令人想到假設檢定,要找人做實驗。但人可不是銅板,每個人之體質各不相同、人也不見得會安份地聽命行事,且人除了綠茶外還會吃喝很多食物,這些都使減肥若要與喝綠茶連結,實驗必須嚴謹地設計。
我們以下例來說明,假設檢定的推論,應用時須謹慎。A君某日心血來潮買了1張49取6的樂透彩,而居然就中了頭獎。頭獎要6碼全吻合,不計順序。因此中頭獎的機率為
1/C(49,6)=1/13,983,816。
將近1千4百萬分之1的機率,卻僅買1張就中了。A君的好友B君,他每期都買好幾張,幾年下來,卻只曾中過幾個小獎。B君對A君說,“你一定是買通樂透彩公司的員工,或能算牌之類的,否則豈可能一買就中?”A君當然否認。兩人都學過統計,B君說“我們來做一假設檢定”。A君心裡坦蕩蕩,欣然同意,但強調“虛無假設須取成我是清白的”。B君毫不猶豫地說“那當然。”虛無假設是被保護的,A君遂安心地等著看B君“證實”他清白。現令
H0:A君沒作弊,Ha:A君作弊,
分別表虛無假設及對立假設。此處作弊的意思很廣,借助任何外力(包含作假)都算。至於拒絕域要取成什麼?要知只要是合理的拒絕域,便該包含A君中頭獎,這是一明顯可能觀測到的結果。如今在H0為真下,觀測到A君中頭獎,此機率即
p-值=1/13,983,816。
B君認為實務上顯著水準α極少有設定這麼小的,所以在任一合理的α之下,皆該拒絕H0,而接受Ha。居然被證實作弊!怎會這樣?A君愣住了。
事實上,眾所皆知,樂透彩只要銷售量夠大,則“有人”中頭獎,幾乎可說是必然。如今這個“有人”,不過恰好就是A君而已。投擲銅板出現正面數之多寡,與銅板出現正面的機率,極度相關。但樂透彩要中頭獎,並非只能靠作弊,還有運氣可依賴。所以就算B君如上得到A君作弊的推論,大部分的人,恐怕仍是相信A君就只是好運而已。否則用相同的方法,將得到歷來每位樂透彩的頭獎得主,都是作弊之推論。但若下一期,A君仍僅買1張,且又中頭獎,當然便會被強烈懷疑其中有弊。第一次中頭獎,A君僅會被視為不過是“有人”好運臨門的那位。而前面已指出,一旦銷售量夠大,“有人”好運中頭獎,乃毫不稀奇。但A君第二次中頭獎,人們的認知將是,有一“特定的人”中頭獎,其機率為1/13,983,816。運氣好得驚人,被調查就沒什麼好覺得委曲的。只是若無其他佐證,也不能就因A君運氣過度好,便判定他作弊。其實對前述投擲銅板之例,即使投擲20次出現20個正面,雖對大部分實務中的顯著水準α(只要大於1/1,048,576(=1/220)),都將拒絕“銅板為公正”。但銅板是否真的不公正?並不得而知,只能說在此結果(出現20個正面)下,接受銅板不為公正,是合理的。假設檢定並無法證明那一假設為真。這是何以科學家一旦接受某假設,習於宣稱“證實”(而不說證明)某假設成立,如前述“證實喝綠茶可以減肥”。
如同遺傳學家孟德爾之豌豆生長實驗,由於結果與預期太吻合,遂被懷疑可能是持續重覆做實驗,直到結果看起來很好才停止,然後只公佈結果較好的那組數據。假設檢定也不能只公佈想要的數據。否則若顯著水準α取為0.05,則即使H0為真,可預期平均做20次實驗,便將有1次能拒絕H0;就算α取為0.01,且H0為真,仍平均做100次實驗,便將有1次能拒絕H0。舉個例來看。假設某公司研發出一種新飲料後,心想市面上現有飲料品牌眾多,如何才能脫穎而出,獲顧客青睞?該公司遂設計出一套實驗流程,然後找到25所中學進行實驗,每所中學的飲料配方僅有極微小的差異。各校均執行一檢定,取
H0:喝此飲料無法提高記憶力,Ha:喝此飲料能提高記憶力。
中學生升學壓力大,飲料若對提高記憶力有幫助,就有賣點。在α=0.05下,其中有一所學校得到顯著的結果。於是該公司以此校的結果(其餘24校的結果當然就不公開了),完成一份研究報告,宣稱“經嚴格的統計檢定,證實喝該配方的飲料,能提高記憶力”,且大力促銷。一瓶才20元左右的飲料,會有那麼驚人的功能?不少人嗤之以鼻。但報告看起來,卻符合假設檢定的流程。
上述飲料提高記憶力的實驗,乃屬俗稱“德州神槍手謬誤”(Texas sharpshooter fallacy)之一種,與中文裡的“先射箭再畫靶”類似。典故的由來,是美國有個德州人,朝著自己的轂倉(barn)射出多發子彈,隨即在彈孔最密集的區域畫一靶(shooting target),然後自稱是神槍手(sharpshooter)。其後衍伸出,凡在大量的數據中,刻意挑選出對自己的觀點有利者,然後宣稱得到具統計顯著性的結果,至於其餘多筆對自己想要之觀點不利的數據,則棄之不用,皆可稱為“德州神槍手謬誤”。底下再來看一例子。
高壓電線可怕嗎?也就是對人體有害嗎?直至今日,仍屢有人對為輸送電力,而架於空中的高壓電線,深感疑慮。1992年,瑞典曾有項研究,試圖找出空中上的高壓電線,對人們健康之影響。研究人員收集某地區高壓電線300公尺範圍內,所有居民的健康資料,時間長達25年。他們對超過800種大小疾病(ailments),一一檢驗在該地區之發生率,是否較其他非住高壓電線地區,有顯著性的多。結果顯示,孩童白血病(leukemia)之染病率,為其他地區的4倍。依據此結果,研究主持者,施壓政府相關單位,須採取行動改善。只是當比較的疾病超過800種時,其中至少有一種疾病,其染病率較一般高達4倍,不過是隨機下正常會產生的現象。而後續的研究,果真不再發現高壓電線,與孩童白血病,有任何相關。
投擲一銅板100次,設得到65個正面,比公正銅板出現正面數之期望值50,超出3個標準差,p-值=0.0026,所以對大部分常見的α值,此結果是顯著的,將拒絕銅板為公正之假設。但若某中學的高二年級,有超過4百個學生,每位學生皆執行一投擲銅板100次之實驗,則就算每位學生拿的銅板皆為公正,其中若有學生擲出之正面數,與期望值50,偏離至少3個標準差(≥65,或≤35),絲毫不必訝異。