國立高雄大學統計學研究所
最新消息 本所簡介 師資介紹 開設課程 教師成果 學生表現 學術演講 入學管道 學生園地 心在南方 表格下載 活動集錦 網路資源 關於我們
本站首頁 本校首頁 英文版
:::心在南方  
主題:統計下凡(二十七)
發表者:黃文璋 Email:huangwj@nuk.edu.tw 日期:2021/12/12 下午 01:30:32

27 假設檢定

數學裡常在證明“若pq”形式的命題,一旦證出,便毫無例外地成立。除非指出證明中有錯誤,否則企圖推翻該命題,將徒勞而無功。歐幾里得(Euclid,約西元前325-265)將在他之前各數學家所證明出之命題,以及若干他自己所推導出之結果,彙集成“幾何原本”(The Elements)一書,內容主要是幾何,也包含一些代數及數論的結果。此書在今日仍相當有價值。所以至少在兩千多年前,人們就懂得數學證明了。隨機世界裡,卻很少在證明。某銅板是否公正,即使投擲再多次也都無法確定,最後有可能是基於沒什麼理由可拒絕,而接受是公正;某開發出的新冠疫苗是否有效?即使通過檢驗,也上市了,可能仍有不少人不信其藥效;某殺人嫌犯是否有罪?就算最後被判定無罪釋放,恐怕還是有人堅信他有罪。在隨機世界裡,無法證明的事,俯拾皆是。只能想成處處是假設,就看接受那一個。

既然處處是假設,那如何決定是否接受某假設?可採“無罪推定原則”!這是今日世界各國法庭普遍採取的原則。我國刑事訴訟法第154條,“被告未經審判證明有罪確定前,推定其為無罪。犯罪事實應依證據認定之,無證據不得認定犯罪事實。”這就是“無罪推定原則”。台灣並沒那麼先進,此原則出現在台灣法庭的歷史並未太久。我國刑事訴訟法,直到2001年,才廢止原於民國25年,所立下的有罪推定原則。自此被起訴之嫌犯,即使千夫所指,法官仍會先假設他無罪。在無罪的假設下,何以有這些與嫌犯有關之不尋常的事件(或說顯著事件(significant event),即發生機率很小的事件)發生?嫌犯若無法交待清楚,則被判有罪便怨不了別人了。顯著事件若發生,會引人注意,至於尋常的事件,即發生機率不算太小的事件,其發生自然不會令人太在意。要注意的是顯著或不顯著,乃依發生機率而定,與“值”的大小無關。如賽跑成績進步0.1秒,算顯著嗎?這並無法回答。對於男子100公尺短跑的世界紀錄,1968年為9.95秒,目前則為2009年所創之9.58秒。每10年平均進步不到0.1秒。甚至自2009年起,紀錄一直高懸,因此若在某次比賽中,有選手將紀錄推進0.05秒,雖有如一剎那的0.05秒,不會讓人有何感覺,卻會被視為顯著進步。但0.05秒,對馬拉松(marathon,路程為41.195公里)或半程馬拉松(路程為21.0975公里)賽,便微不足道了。2021829日有則報導,在北愛爾蘭安特里姆海岸(Antrim Coast)賽事中,剛滿22歲,來自衣索比亞(Ethiopia)的耶華勞(Yalemzerf Yehualaw),打破女子半程馬拉松(halfmarathon,路程為21.0975公里)賽之世界紀錄。耶華勞以6343秒的成績,比今年初於伊斯坦堡(Istanbul)半程馬拉松賽裡,肯亞(Kenya)選手切普恩傑蒂奇(Ruth Chepngetich),所創的世界紀錄6402秒快了19秒。

統計裡假設檢定的想法,就是在無罪推定的原則下,如果某顯著事件發生,那原本的假設,就可放棄了。至於多小的發生機率才算顯著?要事先設定,而這又視情況而定。若涉及食品添加物是否超過含量,則5%的發生機率通常便不算小了,因較該保護的是消費者而非廠商;若是關於死刑的判決,則連百萬分之1的誤判機率可能都覺得太大,畢竟人命關天。執行假設檢定時會不會誤判?當然會,連法官也會誤判。法官有什麼樣的誤判?有兩類。第一類是嫌犯無罪卻被判有罪,第二類是嫌犯有罪卻被判無罪。民主時代,相當注重人權,通常第一類誤判被視為較嚴重。理論上兩類誤判都不應該發生,都須儘量減少發生的可能性,但通常就是很難將兩類誤判的機率同時降低。想想如果過度把關第一類誤判,則實際有罪,卻由於證據不夠強,因而被縱放的,將大幅度增加,這並非好事;反之,若過度把關第二類誤判,則將導致寧可錯殺1千,不可誤放1人的後果,製造出一個又一個的冤屈。宋朝歐陽修說他父親當年為官時,對已被判死囚的犯人,會反覆審閱其案件,為的是“求其生而不得,則死者與我皆無恨也。”無罪推定正是秉持盡全力為死囚犯求其生的精神,即使這樣都還難免誤判了,怎可先射箭再畫靶,即一開始便認定嫌犯該死,然後檢驗證據是否吻合?

統計學裡,假設檢定的理論與架構,是波蘭裔的統計學家奈曼(Jerzy Neyman1894-1981),及英國統計學家皮爾生(Egon S. Pearson1895-1980,為Karl Pearson之子),於1933年,給出著名的奈曼-皮爾生引理(Neyman-Pearson lemma)所奠定的。他們設計了一套檢定的流程。一開始先確定二假設,即虛無假設(null hypothesis),以H0表之,與對立假設(alternative hypothesis),以Ha表之。虛無假設通常表現況,或傾向推翻的;而對立假設則表傾向接受的。雖想推翻虛無假設、明明已對虛無假設充滿懷疑,卻儘量保護,不讓它輕易被推翻。如此一旦推翻,才能減少不服。統計學裡的假設檢定,乃依所觀測到的樣本(即數據),來決定究竟要接受虛無假設或對立假設。但如法官判案,豈能永不犯錯?若虛無假設為真,卻接受對立假設,稱為第一型錯誤(type I error);若對立假設為真,卻接受虛無假設,稱為第二型錯誤(type II error)。先設定一能容忍的第一型錯誤之機率,通常以α表之,稱為顯著水準(significance level)。常取的α值為0.010.05,或0.1等,當然若要取其他α值也沒有不行。給定α後,便要決定拒絕域(rejection region,或critical region),即決定何時拒絕H0而接受Ha

H0為真的假設下,出現的結果,若落在拒絕域,即稱得到顯著的結果。小機率事件發生,豈可等閒視之?亦即結果若顯著,便該拒絕H0。出現的結果,若沒有落在拒絕域,即不夠顯著,表得到發生機率不算太小的結果,一尋常事件,尚不足以撼動H0的假設,遂仍接受H0。以產品檢驗為例。若產品明明有高比率不合格,取樣時卻大都取中合格產品,廠商豈不就僥倖過關?是這樣沒錯,隨機世界的確充滿機運。但怎會次次好運?若廠商不思改進,則總有通不過檢驗的時候,那時品牌信譽便受損了。

就好像拿到相同的數據,不同的人可有不同的推論。對同一α,拒絕域的選取,並不唯一。若能有使第二型錯誤的機率值β最小的拒絕域,當然相當完美。此拒絕域,稱為顯著水準不超過α下之“最佳拒絕域”(best critical region)。在某些條件下,統計學裡有一套找到最佳拒絕域的方法。那些以為假設檢定的主題很深奧者,往往是對找最佳拒絕域心有餘悸。不過在很多情況下,憑直觀所決定的拒絕域,常便是最佳拒絕域。更何況人生有多少機會在找最佳拒絕域呢?有如女生決定對象,常不過就是從兩、三個已向她告白的男子中挑選一個,什麼時候會尋找在全世界裡的最佳者?

至於虛無假設命名的由來,乃是因那根本是一空的假設。試想如果產品其實是合格的,主管的政府單位,卻懷疑其成分有問題,非要抽樣來檢驗,大費周章後,卻宣佈該產品合格(接受H0),廠商不罵擾民、損害商譽才怪;又如檢察官大都在意自己起訴案件定罪率之高低,如果被他起訴者,最後卻被法庭宣判無罪(接受H0),檢察官將灰頭土臉。接受虛無假設,往往表示白忙一場,天下本無事,庸人自擾之。虛無假設是執行檢定者,一點都不想接受的假設。

假設檢定裡,通常是先給定一α,然後由所得觀測值(數據),做出接受或拒絕H0之推論。但有時對這樣的展示推論,被認為不夠詳實,因若接受H0,並不知是勉強地接受,或信心滿滿地接受。這便產生了p-(p-value)的概念。所謂p-值,乃在H0之為真之下,會得到比觀測值,至少同樣極端的數據之機率。求出p-值後,不同的決策者,可依其所設定的α值,而決定是否接受H0

底下來展示一憑直觀,找到最佳拒絕域之例。考慮檢定銅板出現正面的機率p。設H0p=1/2Hap1/2。即擬檢定此是否為一公正銅板。持續投擲銅板n次,以X表所得正面數,則XB(np)分佈。當H0為真,即p=1/2,則觀測到的X,較可能落在期望值n/2的附近。所以直觀上,當X偏離n/2較大時,便該拒絕H0。由是取拒絕域為

{|X-n/2|c}={Xn/2+c,或Xn/2-c}

其中c將由nα來決定。現設n=100,且取α=0.05。再度,因n較大時,二項分佈的機率值就不太好算了,以常態分佈來近似,得c約為9.8,取整數c=10。如此拒絕域={X60,或X40},再回頭求出實際的α值約為0.0456。對離散型分佈,有時無法取到剛好能達到所給α值之拒絕域。前述拒絕域,便為顯著水準不超過0.05下之最佳拒絕域。設觀測到X=61,則p-=0.0278,此時若α取得比0.0278小,如0.01,便無法拒絕H0了;若觀測到X=65,則p-=0.0026,相當小,此時除非α取得比0.0026小,否則都無法拒絕H0了。另外,若取α=0.01,則c約為12.88,所以取c=13。如此拒絕域={X63,或X37},此時實際的α值約為0.0094。此為顯著水準不超過0.01下之最佳拒絕域。在同樣的n之下,所取之α值愈小,表H0愈被保護,因此拒絕域將愈小,即愈不容易拒絕H0。當α=0.01,如果投擲銅板100次,得到62個正面,比在H0(銅板為公正)的期望值50多了12,即超過24%,感覺上很偏差,卻仍得接受此銅板為公正。沒辦法,那是因α取得太小之故。解決之道是加大n。假設取n=10,000,則在H0為真之下,X之期望值=5,000。當α=0.01時,c約為128.8,故取c=129,且拒絕域={X5,129,或X4,871}。此時正面數X,只要比5,000偏離逾129/5,000=2.58%,就得拒絕H0了。至於有關求第二型錯誤的機率,比較複雜些,在此就不討論了。

無罪推定原則倒也非處處通行無阻。例如,由於學位論文不時發生抄襲事件,今日不少大學校要求學生畢業前,必須提交自己的論文進行檢測,以確定是否有抄襲行為。有些學生則抗議此作法,因這意味著有罪推定。除此之外,大部分的科學領域,於作決策時,大抵都採無罪推定原則。科學家不時宣佈一些新發現,如接觸某殺蟲劑會使人罹患帕金森氏症的機率增加,及過胖的中年人罹患失智症的風險較低等,其中宣佈的增加或較低,其依據可說就是執行一項假設檢定後之推論。即使生活裡,人們在面臨該接受那一選項時,往住也是憑藉假設檢定。假設檢定此科學性的思維,乃一適合讓國民提早學習的統計方法。

   暫無回應
 回本區首頁 
  回應總數0  
 
 
  下一頁  
  
 
我要回應
姓 名: 回應前,請先註冊登入
E-mail:
內 容:
驗證碼:  (O70R
 
 
:::
 
*

地  址:811高雄市楠梓區高雄大學路700號
電  話:07-5919362 傳真:07-5919360 e-mail: stat@nuk.edu.tw
更新日期:2022/1/13 下午 01:35:57

2003/10/20起第 6328941 位訪客
*