國立高雄大學統計研究所-心在南方

:::

:::

主題：統計下凡(九)

發表者：黃文璋　Email:huangwj@nuk.edu.tw

日期：2021/8/8 下午 12:03:08

9 隨機法則(三)

先來看一個例子。假設某袋中有100個球，其中有30個紅球，70個非紅球。每次隨機取1球(即設袋中每個球被取中的機率皆相同)，每次取出後不放回。令X_i=1，或0，分別表第i次取中紅球或非紅球。經n次取樣後，得到一數列的伯努力隨機變數X₁，X₂，…，X_n。又令S_n=X₁+X₂+…+X_n，表n次取樣後之樣本和，也就是共得之紅球數。首先我們注意到，此處n最大只能到100，且S₁₀₀=30，為一常數，因此S₁₀₀並無二項分佈。對取樣不放回，樣本數n是無法趨近至∞的。又，X₁顯然有Ber(0.3)分佈。那X₂之分佈呢？若X₁=1(機率為30/100)，則X₂=1之機率為29/99；若X₁=0(機率為70/100)，則X₂=1之機率為30/99。由此知X₂之值與X₁之值有關，因而X₁與X₂不獨立。又由上討論得

P(X₂=1)=30/100×29/99+70/100×30/99=0.3。

故X₂與X₁一樣，有Ber(0.3)分佈。但X₂的分佈受X₁影響，故X₁與X₂並不獨立。另外，

P(S₂=0)=P(X₁=X₂=0)=70/100×69/99≠C(2,0)×0.7²。

故S₂並無二項分佈。雖只驗證X₁與X₂不獨立，但直觀上，對X₁，X₂，…，X_n，1≤n≤100，每一X_i，1≤i≤n，皆有Ber(0.3)分佈、彼此間並不獨立，且S_n並無二項分佈，證明在此略去。由此亦可得知，在摸彩活動中，先抽後抽並不影響各人的中獎機率。

底下我們將上述例子一般化。假設一袋中有N個球，其中有D個紅球，及N-D個非紅球。自袋中依序隨機取出n個球，1≤n≤N，每次取出的球皆不放回。令X表總共取出之紅球數。則

(6) P(X=k)=C(D,k)C(N-D,n-k)/C(N,n)，max{0,n-N+D}≤ k ≤min{n,D}，

其中min及max，分別表較小及較大者。至於X可能取的值k，何以有那麼複雜的範圍？此因取n個球，且袋中紅球數共有D個，所以取中的紅球數k，既不會超過n，也不會超過D，即k≤min{n,D}；另一方面，共取出的非紅球數，即n-k，當然不能超過全部的非紅球數N-D，且k≥0，故k≥max{0,n-N+D}。(6)式便定義出一超幾何分佈(hypergeometric distribution)，有3個參數，此分佈以H(N,D,n)表之。前述S_n，便有H(100,30,n)分佈。民調裡的取樣，大抵都屬取樣不放回的情況，因而此時涉及的，便是超幾何分佈，而非二項分佈。

取樣不放回的例子處處可見。除了民調外，品質管制裡也常出現。如要檢驗一批電池的壽命是否合格，先隨機取樣，由於取出的每一個都要測試，所以當然是取樣不放回。另外，對台灣某保育的野生動物，如被列入“其他應予保育”的台灣長鬃山羊(學名Naemorhedus swinhoei)，如何估計在某棲息地區，共有多少頭？一種容易想到的作法是，設該地區此種山羊有n頭，在該地區捕捉k頭後，做好記號後便放走，隔若干日後再度捕捉t隻，算出其中有做記號的有s隻。假設每頭山羊被捕捉到的機率都一樣，則再度捕捉的t隻中，有做記號的山羊之比例，與全部中有做記號的比例應差不多。令k/n=s/t，解出n=kt/s。我們便以kt/s，來估計該地區的山羊數。像這類對動物的捕捉-再捕捉法(capture-recapture method)，通常亦是取樣不放回。惟此作法有些缺點，首先是記號可能脫落，其次是不知動物是否每隻被捕捉到的機率皆相同？若差異很大，則此估計法便將有不小的誤差。但在缺乏更有效的辦法下，此仍是一常見之估計法。由上述說明可知，對於取樣，就是會存在各式各樣的誤差。因而引用中央極限定理時，樣本獨立且有共同分佈之條件，實務上並不易滿足。但即使如此，取樣時仍須盡量謹慎，使樣本儘量滿足或近似滿足，獨立且有共同分佈的條件。

假設某地有N個合格選民，其中有D個人支持某候選人A，有N-D個人不支持A。欲估計A之支持率p=D/N。隨機抽取n個選民調查，1≤n≤N，每次取出皆不放回。令X表其中支持A之總人數，則X有H(N,D,n)分佈。要注意的是，N應還能知道，但D並不知，否則p=D/N便知道了，何須估計？由於取樣不放回，因而X並無二項分佈，所以原本無法利用中央極限定理來近似。但我們之所以仍引用，是基於忽略取樣不放回所造成的誤差。例如，比較第一及第二次，被抽中選民支持A之機率，若第一次抽中之樣本不屬於D，則

D/N - D/(N-1) = -D/(N(N-1))，

若第一次抽中之樣本屬於D，則

D/N - (D-1)/(N-1) = (N-D)/(N(N-1))，

不論那一情況，當N很大時，二機率之差便都很小。由此即得知，只要抽出的樣本數n與N相比很小，則若將取樣不放回，當做取樣放回看待，產生的誤差並不太大，尚可忍受。這是取樣不放回時，樣本裡出自D的個數，可近似地以二項分佈來描述，進而引用中央極限定理，以常態分佈來近似二項分佈的原因。換句話說，一路下來，其實誤差不少，因而我們已數次強調，民調的結果，包括所得支持率p之信賴區間，都是僅供參考，不能太當真。

有些人，秉於實事求事的精神，企圖證明N→∞時，

C(D,k)C(N-D,n-k)/C(N,n)→C(n,k)(D/N)^k(1-D/N)ⁿ^-k，

亦即N→∞時，超幾何分佈H(N,D,n)分佈趨近至二項分佈B(n,D/N)。可惜其證明過程不必看便知是錯的。因既然令N→∞，則其極限下的結果，怎能還包含N呢？事實上，如上段之說明，以常態分佈來近似超幾何分佈，就是一關又一關地忍受誤差，而根本未讓任何參數趨近至∞。這是統計實務裡常見的作法，就是對於一個又一個“不太大”的誤差，忍受再忍受。

“大數法則”4字淺顯易懂，因而經常出現，但有時卻是與中央極限定理混淆。此外，有時明明是稀有事件法則，也會被誤以為是大數法則。另有一巨數法則(law of truly large numbers)，與大數法則無關，但在“凡間”，也常大剌剌地以大數法則自居。其英文稱呼中的truly large numbers，更如鳩佔鵲巢。此處的“鵲”，當然便是大數法則了。巨數法則通常出現在科普文章中，有時甚至就稱為大數法則(law of large numbers)。此法則是說，“當樣本數夠大，任何非比尋常的事(any outrageous thing)，都可能發生”。非比尋常，或聳人聽聞等，皆屬不可能發生的事件，也就是機率極小的事件。巨數法則指出，不論發生機率再怎麼小的事件，一旦有夠多的樣本，其發生便不足為奇了。例如，每年過年期間，台灣有些廟宇會舉行擲筊比賽，連得最多聖筊(一陽一陰)者，可獲汽車之類的優渥獎品。每得1次聖筊之機率為1/2，有可能連得20次聖筊嗎？(1/2)²⁰=1/1,048,576，小於百萬分之1的機率，算是相當不容易。但台灣有約2千3百萬人，即使扣除約1百萬不滿5歲之幼兒，仍有約2千2百萬人，若每人都去擲筊，將會見到21件左右至少連得20次聖筊者。至於全世界人口超過70億，只要能每人都去執行，則即使發生機率約10億分之1的事件(如連得30次聖筊，其機率約為9.31×10^-10)，其發生便一點都不稀奇。所謂天下之大，無奇不有，正是這個意思。

小機率事件發生，向來不可輕易忽視。會出現在媒體上的報導，便有不小比例，屬於小機率事件，因小機率才引人注目。某君去家網路上評價不錯的餐廳用餐，結果某道菜不新鮮，經理誠懇道歉，並給適當補償，此君便不計較了，接受只是自己運氣不佳。若隔幾個月再去，又遇到食物不新鮮，則該君可能便再也不去了。因他已不願相信純粹是自己運氣不佳，而認為該餐廳品管有問題。這就是小機率事件的影響力。中文裡的“三人成虎”，及“曾參殺人”等典故，都是在強調小機率事件的影響力。底下給一小機率事件備受矚目之例。

有位大學生，在某年暑假7、8月間，與同學常在網咖打發時間，得到百餘張發票。開獎後中了12張，幸運之神眷顧，該生高興萬分。豈料兌獎後，他被國稅局通知去說明，有人還建議他，乾脆將全都獎金都繳回算了，省得麻煩。只不過中最小的六獎，獎金區區200元，全部才2,400元，連想好好請個客都不容易，便被懷疑其中有弊，運氣好有罪嗎？不但該生，也有不少人感到不服氣。

六獎是發票號碼末3位，與頭獎中獎號碼(有3組)末3位相同，那一期(兩個月一期)增開2組六獎，中獎機率提高至0.005(=1/200)。五獎(獎金1,000元)是發票號碼末4位，與獎中獎號碼末4位相同，中獎機率3/10,000，四獎以上當然中獎更難。一般人並不妄想，因此所謂中獎，不特別說明時，就是指中六獎，且通常中1張就很滿意了。新聞上報後，有自認數學不錯者提出其算法，“連中12張”之機率為

(1/200)¹² = (1/4,096)×10^-24 ≈ 2.44×10^-28，

以此佐證該生中獎必有弊。此機率固然微乎其微，但卻是錯的。因何須“連中”呢？此生被懷疑，是因他擁有的發票中，有12張中獎，並不必連中，正確的機率應比連中大很多。

運氣好沒有不行，但過度好的運氣，讓人產生懷疑，也是合理。國稅局負責發票中獎的官員，總不能尸位素餐，見可疑是該追查一下。媒體未明確報導該生究竟幾張發票，只含糊地說百餘張，我們就以150張計。令X表中獎張數。由於同一家店開出的發票，應為連號，故各張發票的中獎與否，不會獨立，因此X並無二項分佈。但我們只是想約略了解中獎12張，究竟有多不可能，不妨將X之分佈，就視為B(150,0.005)。則X之期望值與標準差，分別為150×0.005=0.75，及(150×0.005×0.995)^1/2≈0.8639。X≥12，表X超過期望值約13.02(≈(12-0.75)/0.8639)個標準差，不論對那一分佈，此機率想必都是很小的。附帶一提，因150×0.005=0.75<5，故此處不宜引用中央極限定理來近似二項分佈。但可利用稀有事件法則，得X有近似的P(0.75)分佈。對P(0.75)分佈，X≥12的機率當然很小。事實上，若X有B(150,0.005)分佈，利用計算機，可求出X≥12之機率約為2.2211×10^-11。對發生機率這麼小(比連得35次聖筊的機率約2.910×10^-11還小)的事件，的確不能以一句“運氣好”，就想輕鬆帶過。

暫無回應

回本區首頁

回應總數0

姓名：	回應前，請先註冊或登入。
E-mail：
內容：
驗證碼：	（74OF）

:::

地　　址：811高雄市楠梓區高雄大學路700號
電　　話：07-5919362 傳真：07-5919360 e-mail: stat@nuk.edu.tw
更新日期：2024/4/11 上午 09:16:10

2003/10/20起第

9047598

位訪客