國立高雄大學統計學研究所
最新消息 本所簡介 師資介紹 開設課程 教師成果 學生表現 學術演講 入學管道 學生園地 心在南方 表格下載 活動集錦 網路資源 關於我們
本站首頁 本校首頁 英文版
:::心在南方  
主題:統計下凡(九)
發表者:黃文璋 Email:huangwj@nuk.edu.tw 日期:2021/8/8 下午 12:03:08

9 隨機法則()

先來看一個例子。假設某袋中有100個球,其中有30個紅球,70個非紅球。每次隨機取1(即設袋中每個球被取中的機率皆相同),每次取出後不放回。令Xi=1,或0,分別表第i次取中紅球或非紅球。經n次取樣後,得到一數列的伯努力隨機變數X1X2Xn。又令Sn=X1+X2+…+Xn,表n次取樣後之樣本和,也就是共得之紅球數。首先我們注意到,此處n最大只能到100,且S100=30,為一常數,因此S100並無二項分佈。對取樣不放回,樣本數n是無法趨近至的。又,X1顯然有Ber(0.3)分佈。那X2之分佈呢?若X1=1(機率為30/100),則X2=1之機率為29/99;若X1=0(機率為70/100),則X2=1之機率為30/99。由此知X2之值與X1之值有關,因而X1X2不獨立。又由上討論得

P(X2=1)=30/100×29/99+70/100×30/99=0.3

X2X1一樣,有Ber(0.3)分佈。但X2的分佈受X1影響,故X1X2並不獨立。另外,

P(S2=0)=P(X1=X2=0)=70/100×69/99≠C(2,0)×0.72

S2並無二項分佈。雖只驗證X1X2不獨立,但直觀上,對X1X2Xn1≤n≤100,每一Xi1≤in,皆有Ber(0.3)分佈、彼此間並不獨立,且Sn並無二項分佈,證明在此略去。由此亦可得知,在摸彩活動中,先抽後抽並不影響各人的中獎機率。

底下我們將上述例子一般化。假設一袋中有N個球,其中有D個紅球,及N-D個非紅球。自袋中依序隨機取出n個球,1≤nN,每次取出的球皆不放回。令X表總共取出之紅球數。則

(6) P(X=k)=C(D,k)C(N-D,n-k)/C(N,n)max{0,n-N+D}≤ k ≤min{n,D}

其中minmax,分別表較小及較大者。至於X可能取的值k,何以有那麼複雜的範圍?此因取n個球,且袋中紅球數共有D個,所以取中的紅球數k,既不會超過n,也不會超過D,即k≤min{n,D};另一方面,共取出的非紅球數,即n-k,當然不能超過全部的非紅球數N-D,且k≥0,故k≥max{0,n-N+D}(6)式便定義出一超幾何分佈(hypergeometric distribution),有3個參數,此分佈以H(N,D,n)表之。前述Sn,便有H(100,30,n)分佈。民調裡的取樣,大抵都屬取樣不放回的情況,因而此時涉及的,便是超幾何分佈,而非二項分佈。

取樣不放回的例子處處可見。除了民調外,品質管制裡也常出現。如要檢驗一批電池的壽命是否合格,先隨機取樣,由於取出的每一個都要測試,所以當然是取樣不放回。另外,對台灣某保育的野生動物,如被列入其他應予保育的台灣長鬃山羊(學名Naemorhedus swinhoei),如何估計在某棲息地區,共有多少頭?一種容易想到的作法是,設該地區此種山羊有n頭,在該地區捕捉k頭後,做好記號後便放走,隔若干日後再度捕捉t隻,算出其中有做記號的有s隻。假設每頭山羊被捕捉到的機率都一樣,則再度捕捉的t隻中,有做記號的山羊之比例,與全部中有做記號的比例應差不多。令k/n=s/t,解出n=kt/s。我們便以kt/s,來估計該地區的山羊數。像這類對動物的捕捉-再捕捉法(capture-recapture method),通常亦是取樣不放回。惟此作法有些缺點,首先是記號可能脫落,其次是不知動物是否每隻被捕捉到的機率皆相同?若差異很大,則此估計法便將有不小的誤差。但在缺乏更有效的辦法下,此仍是一常見之估計法。由上述說明可知,對於取樣,就是會存在各式各樣的誤差。因而引用中央極限定理時,樣本獨立且有共同分佈之條件,實務上並不易滿足。但即使如此,取樣時仍須盡量謹慎,使樣本儘量滿足或近似滿足,獨立且有共同分佈的條件。

假設某地有N個合格選民,其中有D個人支持某候選人A,有N-D個人不支持A。欲估計A之支持率p=D/N。隨機抽取n個選民調查,1≤nN,每次取出皆不放回。令X表其中支持A之總人數,則XH(N,D,n)分佈。要注意的是,N應還能知道,但D並不知,否則p=D/N便知道了,何須估計?由於取樣不放回,因而X並無二項分佈,所以原本無法利用中央極限定理來近似。但我們之所以仍引用,是基於忽略取樣不放回所造成的誤差。例如,比較第一及第二次,被抽中選民支持A之機率,若第一次抽中之樣本不屬於D,則

D/N - D/(N-1) = -D/(N(N-1))

若第一次抽中之樣本屬於D,則

D/N - (D-1)/(N-1) = (N-D)/(N(N-1))

不論那一情況,當N很大時,二機率之差便都很小。由此即得知,只要抽出的樣本數nN相比很小,則若將取樣不放回,當做取樣放回看待,產生的誤差並不太大,尚可忍受。這是取樣不放回時,樣本裡出自D的個數,可近似地以二項分佈來描述,進而引用中央極限定理,以常態分佈來近似二項分佈的原因。換句話說,一路下來,其實誤差不少,因而我們已數次強調,民調的結果,包括所得支持率p之信賴區間,都是僅供參考,不能太當真。

有些人,秉於實事求事的精神,企圖證明N→∞時,

C(D,k)C(N-D,n-k)/C(N,n)→C(n,k)(D/N)k(1-D/N)n-k

亦即N→∞時,超幾何分佈H(N,D,n)分佈趨近至二項分佈B(n,D/N)。可惜其證明過程不必看便知是錯的。因既然令N→∞,則其極限下的結果,怎能還包含N呢?事實上,如上段之說明,以常態分佈來近似超幾何分佈,就是一關又一關地忍受誤差,而根本未讓任何參數趨近至。這是統計實務裡常見的作法,就是對於一個又一個不太大的誤差,忍受再忍受。

大數法則”4字淺顯易懂,因而經常出現,但有時卻是與中央極限定理混淆。此外,有時明明是稀有事件法則,也會被誤以為是大數法則。另有一巨數法則(law of truly large numbers),與大數法則無關,但在凡間,也常大剌剌地以大數法則自居。其英文稱呼中的truly large numbers,更如鳩佔鵲巢。此處的,當然便是大數法則了。巨數法則通常出現在科普文章中,有時甚至就稱為大數法則(law of large numbers)。此法則是說,當樣本數夠大,任何非比尋常的事(any outrageous thing),都可能發生。非比尋常,或聳人聽聞等,皆屬不可能發生的事件,也就是機率極小的事件。巨數法則指出,不論發生機率再怎麼小的事件,一旦有夠多的樣本,其發生便不足為奇了。例如,每年過年期間,台灣有些廟宇會舉行擲筊比賽,連得最多聖筊(一陽一陰)者,可獲汽車之類的優渥獎品。每得1次聖筊之機率為1/2,有可能連得20次聖筊嗎?(1/2)20=1/1,048,576,小於百萬分之1的機率,算是相當不容易。但台灣有約23百萬人,即使扣除約1百萬不滿5歲之幼兒,仍有約22百萬人,若每人都去擲筊,將會見到21件左右至少連得20次聖筊者。至於全世界人口超過70億,只要能每人都去執行,則即使發生機率約10億分之1的事件(如連得30次聖筊,其機率約為9.31×10-10),其發生便一點都不稀奇。所謂天下之大,無奇不有,正是這個意思。

小機率事件發生,向來不可輕易忽視。會出現在媒體上的報導,便有不小比例,屬於小機率事件,因小機率才引人注目。某君去家網路上評價不錯的餐廳用餐,結果某道菜不新鮮,經理誠懇道歉,並給適當補償,此君便不計較了,接受只是自己運氣不佳。若隔幾個月再去,又遇到食物不新鮮,則該君可能便再也不去了。因他已不願相信純粹是自己運氣不佳,而認為該餐廳品管有問題。這就是小機率事件的影響力。中文裡的三人成虎,及曾參殺人等典故,都是在強調小機率事件的影響力。底下給一小機率事件備受矚目之例。

有位大學生,在某年暑假78月間,與同學常在網咖打發時間,得到百餘張發票。開獎後中了12張,幸運之神眷顧,該生高興萬分。豈料兌獎後,他被國稅局通知去說明,有人還建議他,乾脆將全都獎金都繳回算了,省得麻煩。只不過中最小的六獎,獎金區區200元,全部才2,400元,連想好好請個客都不容易,便被懷疑其中有弊,運氣好有罪嗎?不但該生,也有不少人感到不服氣。

六獎是發票號碼末3位,與頭獎中獎號碼(3)3位相同,那一期(兩個月一期)增開2組六獎,中獎機率提高至0.005(=1/200)。五獎(獎金1,000)是發票號碼末4位,與獎中獎號碼末4位相同,中獎機率3/10,000,四獎以上當然中獎更難。一般人並不妄想,因此所謂中獎,不特別說明時,就是指中六獎,且通常中1張就很滿意了。新聞上報後,有自認數學不錯者提出其算法,連中12之機率為

(1/200)12 = (1/4,096)×10-24 ≈ 2.44×10-28

以此佐證該生中獎必有弊。此機率固然微乎其微,但卻是錯的。因何須連中呢?此生被懷疑,是因他擁有的發票中,有12張中獎,並不必連中,正確的機率應比連中大很多。

運氣好沒有不行,但過度好的運氣,讓人產生懷疑,也是合理。國稅局負責發票中獎的官員,總不能尸位素餐,見可疑是該追查一下。媒體未明確報導該生究竟幾張發票,只含糊地說百餘張,我們就以150張計。令X表中獎張數。由於同一家店開出的發票,應為連號,故各張發票的中獎與否,不會獨立,因此X並無二項分佈。但我們只是想約略了解中獎12張,究竟有多不可能,不妨將X之分佈,就視為B(150,0.005)。則X之期望值與標準差,分別為150×0.005=0.75,及(150×0.005×0.995)1/2≈0.8639X≥12,表X超過期望值約13.02(≈(12-0.75)/0.8639)個標準差,不論對那一分佈,此機率想必都是很小的。附帶一提,因150×0.005=0.75<5,故此處不宜引用中央極限定理來近似二項分佈。但可利用稀有事件法則,得X有近似的P(0.75)分佈。對P(0.75)分佈,X≥12的機率當然很小。事實上,若XB(150,0.005)分佈,利用計算機,可求出X≥12之機率約為2.2211×10-11。對發生機率這麼小(比連得35次聖筊的機率約2.910×10-11還小)的事件,的確不能以一句運氣好,就想輕鬆帶過。

   暫無回應
 回本區首頁 
  回應總數0  
 
 
  下一頁  
  
 
我要回應
姓 名: 回應前,請先註冊登入
E-mail:
內 容:
驗證碼:  (2PD2
 
 
:::
 
*

地  址:811高雄市楠梓區高雄大學路700號
電  話:07-5919362 傳真:07-5919360 e-mail: stat@nuk.edu.tw
更新日期:2021/12/8 下午 05:20:44

2003/10/20起第 6226944 位訪客
*