國立高雄大學統計學研究所
最新消息 本所簡介 師資介紹 開設課程 教師成果 學生表現 學術演講 入學管道 學生園地 心在南方 表格下載 活動集錦 網路資源 關於我們
本站首頁 本校首頁 英文版
:::心在南方  
主題:統計下凡(二十四)
發表者:黃文璋 Email:huangwj@nuk.edu.tw 日期:2021/11/21 下午 09:45:04

24 再談隨機取樣

生活裡,人們常提到“隨機取樣”一詞。如自區間[0,1]隨機取1點、自某班n位學生中,n3,隨機選3位學生去打掃、自019中,隨機取6個數字當提款卡密碼等。其中的隨機是什麼意思呢?隨機並非隨便,除非另有聲明,否則對於前述第一例,若以X表取中之點,則X有在區間[0,1]之均勻分佈;對於第二例,乃以“取出後不放回”的隨機取樣,抽取3位學生,即第1次,每位學生被取中的機率為1/n,第2次,每位學生被取中的機率為1/(n-1),第3次,每位學生被取中的機率為1/(n-2),也就是對編號1n,每次取樣,會取中的號碼,皆有離散型的均勻分佈,分別是U[1,n]U[1,n-1]U[1,n-2],但各次取樣間並不相互獨立;對於第三例,則以“取出後放回”的隨機取樣,自019,選取6碼。即每次取中的號碼,皆有離散型的均勻分佈U[0,9],且各次取樣間為相互獨立。“隨機取樣”可說常與均勻分佈相連結。

現代統計學的鼻祖費雪(Sir Ronald Aylmer Fisher1890-1962),曾提到下述故事。在1920年代後期,某日的下午茶時間,有位女士對一群科學家宣稱,奶茶的調製順序,對風味有很大的影響。把茶加進牛奶裡,與把牛奶加進茶裡,兩者喝起來口味大不相同。當時在座不乏各領域的泰斗,對這種說法莫不感到可笑。難道不知a+b=b+a嗎?兩種混合方式的化學成分,會有什麼差異?眾人皆醒我獨醉,費雪卻很當一回事地看待此女士的見解。他設計了一個實驗步驟,包括要準備多少杯奶茶,及該依照什麼順序給這位女士喝,以對這女士的說法做一檢定。這就是有名的“淑女品茶”(lady tasting tea)實驗,乃費雪在他引進“實驗設計”概念的著作裡,所舉之例子。世上奇人異事著實不少,還有人宣稱能以手指識字呢!撇開費雪,我們不妨想想,該如何設計一合理的程序,以檢定某人是否真能判斷“奶茶是先放奶或先放茶”?

首先,該準備幾杯奶茶來測試?這並無定論,不妨就先採10杯。其次,那幾杯先放奶,那幾杯先放茶?有人以為該隨機放,而既然是隨機放,則先放奶與先放茶的杯數便宜相同,也就是各5杯;至於各那5杯?就“隨機挑”,有人這樣提議。如何執行呢?將杯子以110編號,隨口唸出5個號碼,那些編號的杯子便先放奶,其餘當然便先放茶。對此方式,有人可能立即表示反對,覺得這樣不見得能符合隨機性,主張用抽籤。因C(10,5)=252,這樣的組合數有252組,可準備252張字條,每張上有110中的某5個號碼,然後將字條全放進某袋子中。隨機抽取1張,其上5個號碼的杯子便先放奶,如此能全猜中的機率為1/252。對此亦有人指出,做252張籤太麻頃了,可就做110等共10個號碼籤放進袋子中,攪和後,依序抽取5個籤,那5個編號的杯子便先放奶,其餘則先放茶。這的確簡易多了。只是又有人指出,這樣並不算太難猜,該每杯隨機先放奶或茶。如在每杯奶茶製作前,先投擲1公正的銅板,若出現正面則先放奶,否則便先放茶。或者用一組亂數表,遇奇數則先放奶,偶數則先放茶。則全猜中的機率為1/210=1/1,0241,0242524.06倍多,如此顯然難猜多了。若覺得10杯全中,約千分之1的機率仍不夠小,則可採20杯,且每杯均隨機先放奶或茶。由於220=1,048,57620杯能全中的機率,比百萬分之1還小,真有人這麼神奇,恐怕就只好先相信他了。反正若是招搖撞騙,遲早會失手。當然也會有人以為,不見得須要求20杯都講對,畢竟人難免會犯錯,而一般犯點小錯是可以容忍的。至於能允許多大的犯錯機率?可事先設定一α值,α為一不太大的正數,只要犯錯的機率不超過α,便接受該女士“能分辨奶茶是先放奶或先放茶”之假設,並換算出至少要講對幾杯。上述的流程,看起來相當有邏輯,之後便發展出一套假設檢定(hypothesis testing)的理論。

要知人的天性,通常是沒有隨機性的,若僅憑腦海中“隨便”想到那個數字就說出來,雖自以為隨機,但所產生的數字,很可能是極不隨機的。有些中學教室,講台上放一籤筒,以供任課教師上課點學生回答問題時用。籤筒的使用,亦可分取出後放回及取出後不放回兩種。放籤筒是免得教師自以為每次都是隨機叫出一個號碼,學生卻發現,教師常就是點那幾個號碼。一般而言,諸如提款機的密碼等,隨機選號是最難猜中的。假設是6碼,有人以為誰會想到123456?遂以此做為密碼,偏偏人同此心。據統計,不僅在台灣,全世界最愛用的密碼即為123456。若設定此為密碼,一旦提款卡遭竊,戶頭裡的錢,很快就被盜領了。

前面提過,隨機取樣常與均勻分佈相連結,因而口語裡的“均勻”,遂也屢會被聯想到隨機。有位母親在做芝麻餅,要讀大學的兒子幫忙灑芝麻,且要他灑得均勻些。兒子學過機率,想均勻就是隨機,遂隨機地灑芝麻。結果卻被母親責怪了,因有些地方芝麻很厚,有些地方很稀薄,相當不均勻。事實上,隨機的後果,常是不均勻。某新藥擬做實驗,負責人將受測者分成兩組,且宣稱採隨機分組。但若兩組分配的人數相同,將被懷疑並非真採隨機分組。教師點名學生,如果一學期下來,每位學生剛好都被點1次,也會被懷疑並非真的隨機點名。因隨機產生的號碼,即使是取出後放回,其中應很可能會有同號。底下給一例。

10個球,隨機地投擲進10個箱子,則每箱中各有1球的機率相當小,為

10!/1010=3,628,800/1010=0.00036288

即在隨機投擲下,極不容易很均勻地各箱中各恰有1球。現以a表上述機率,可求出事件“1箱中有3球、7箱中各有1球、2空箱”之機率為60a。此投擲後看起來相當“不均勻”的結果,發生之機率卻為很均勻的,每箱各有1球的機率之60倍。我們再給一些亦屬“不均勻”的事件之機率如下。

(a) 1空箱的機率為45a

(b) 2空箱的機率為375a

(c) 3空箱的機率為980a

(d) 4空箱的機率為(7609/8)a

(e) 5空箱的機率為(2,835/8)a

(f) 6空箱的機率為(6,821/144)a

(g) 7空箱的機率為(311/168)a

(h) 8空箱的機率為(73/5,760)a

(i) 9空箱的機率為a/9!

可看出一直到7個空箱,其發生的機率,都比每箱中各恰有1球的機率大。換個方式說,若自10個箱子中,每次隨機取1個,連取10次,且取出後放回,則10次中,取中的箱子集中在其中某b個,b39,其機率都比b=0(每箱都各被取中1)容易發生,且集中在7個箱子(3空箱)最容易,發生之機率為980a

類似的例子很普遍。如在著名的生日問題(birthday problem)裡指出,一團體裡,只要有23人以上,則其中至少有2人生日相同的機率,便大於1/2。也就是假設將23個球,隨機地投擲進365個箱子(即忽略閏年的情況),則有某箱中至少有2球,比球皆投進不同的箱中,更容易發生。雖然箱子多達365個,而僅投擲少少的23球,都進不同的箱子,比至少有2球擲進同1箱中還難。事實止,一團體裡的n人生日皆相異之機率為

pn=365×364××(365-n-1)/365n

因而至少有2人生日相同之機率為

1-pn=1-(365×364××(365-n-1)/365n)

可解出n=22時,1-pn0.411n=23時,1-pn0.507n=40時,1-pn0.891。由此知,一班只要有23人,有人生日相同的機率便超過1/2了,而若有40人以上,則至少有2人生日相同,根本輕而易舉,若發生完全不必驚訝,因機率高達約0.891。如果班級大一點,如n=64,則1-pn0.997,幾乎必有2人生日相同了。

但若某人在小學時,班上才20多位同學,便有位生日與他相同,上國中後,尋尋覓覓,卻不只在班上,連全年級200個學生,都找不到一位生日與他相同,這是怎麼一回事?難道國中生的生日,較不隨機嗎?來看底下的推導。

假設一團體中,除某特定人外,另有n個人。則n個人中,至少有1人生日與該特定人相同之機率為

qn=1-(364/365)n

qn1/2,解出n253。得知若欲qn1/2,所需的人數,比我們想像的多很多。亦即在一團體中,有任2人生日相同容易,但對某特定人,尋找有人生日與他相同,可就難多了。

樂透彩的頭獎號碼是隨機產生,且屬於取出後不放回,其中也屢有令人訝異的結果產生。就以426的樂透彩為例。開出的6碼全為偶數之機率為

C(21,6)/C(42,6)=54,264/5,245,7860.0103

並不算太大。但6碼全為奇數、6碼全在121間,及6碼全在2242間,機率也都約為0.0103。再加上6碼全為3的倍數、6碼全不為3的倍數,及某碼連續5期出現等,在開了很多期下,只要認真觀察,總會發現某些有趣現象,並不足為奇。除非經過統計檢定,否則不能就此斷言其中有弊,即號碼並非隨機產生。

在樂透彩裡,有些事件發生的可能性,遠比我們以為的大,仍以426的樂透彩為例。有連號之機率為

1-C(42-6+1,6)/C(42,6)=1-C(37,6)/C(42,6)0.5568>0.5

即有連號比沒有連號更容易發生。因此不必因看到頭獎號碼裡,常出現連號,就產生懷疑。又,既然頭獎號碼裡,連號較可能比不連號多,那選號是否選連號較易中頭獎?這當然不對,任一組號碼中頭獎之機率皆為1/C(42,6)

樂透彩中1次頭獎就很難了,怎可能中2次?美國紐約時報於1986214日,在頭版刊登一則大新聞,有位Adams女士,第二度獲紐澤西(New Jersey)州樂透彩頭獎。前一年(19851024)她第一次中了390萬美元,第二次則獲150萬美元。兩次樂透彩,分別是396,及426,中頭獎機率分別是

1/C(39,6)=1/3,262,623

1/C(42,6)=1/5,245,786

新聞中強調,任何人一生當中,能2次中頭獎的機率為17兆分之1。這麼小的機率,顯然是由下述計算所得到:

1/3,262,623×1/5,245,7861/(17.115×1012)

只是這樣對嗎?

Adams一生中,就僅兩種樂透彩各買1張,則兩次皆中頭獎的機率,的確如上的約為17兆分之1。但她其實每期都買好幾張,且買了好幾年。不必太多,假設對396,及426的樂透彩,Adams每星期分別買3張及5張。則每星期至少中1張頭獎的機率為

1-(1-3/3,262,623)(1-5/5,245,786)1.87265×10-6

這是大於百萬分之1的機率。現設Adams以上述方式連買10年。就忽略她在一星期內中2張頭獎的情況,因那機率實在太小了。則在10年的約520個星期裡,利用二項分佈,並取近似,得她1次頭獎皆未中的機率為

(1-1.87265×10-6)520exp(-520×1.87265×10-6)exp(-9.737×10-4)

恰中1次頭獎的機率約為

C(520,1)×1.87265×10-6×(1-1.87265×10-6)5199.737×10-4

λ表至少中2次頭獎的機率,則

λ1-exp(-9.737×10-4)-9.737×10-4(1/2)(-9.737×10-4)24.734×10-7

λ1千萬分之4.734,此值當然是微乎其微。紐澤西州人口超過8百萬,假設有k=50(=5×105)人,皆以上述方式買樂透彩,又令Y10年間至少2次中頭獎的人數,利用稀有事件法則,Y之分佈可以P(λk)來近似。因

λk=4.734×10-7×5×105=0.2367

P(Y1)=1-P(Y=0)=1-exp(-0.2367)0.2108

0.2108的機率,已不能說太小了。同一人2次中頭獎,就算10年間未發生,20年間就容易多了,若有40年,發生就完全不稀奇。何況要上紐約時報的頭版,並非只能是紐澤西州有人2次中頭獎,任何1州都行,而美國有多達50州呢!那為什麼並沒頻繁地看到有人2次中頭獎的報導?財不露白,大部分的人,應連中1次中頭獎都不想曝光吧!

總之,在隨機取樣下,不論放回或不放回,事件發生可能性之大小,直觀並非屢屢可靠。而在觀察次數夠大後,各種原本罕見的事件,其發生常便稀鬆平常了。又,切記隨機取樣與“均勻”的連結,要很謹慎。

   暫無回應
 回本區首頁 
  回應總數0  
 
 
  下一頁  
  
 
我要回應
姓 名: 回應前,請先註冊登入
E-mail:
內 容:
驗證碼:  (9UN4
 
 
:::
 
*

地  址:811高雄市楠梓區高雄大學路700號
電  話:07-5919362 傳真:07-5919360 e-mail: stat@nuk.edu.tw
更新日期:2021/12/8 下午 05:20:44

2003/10/20起第 6227035 位訪客
*