26 交叉分析
投擲1公正銅板n次,則出現的正面數X之期望值μ=n/2,標準差σ=n1/2/2。如果n=10,000,則μ=5,000,σ=50。由中央極限定理,將約有0.9544的機率,X介於[4,900,5,100],此區間長度達200。至於正面數出現的相對頻率X/n,則亦有約0.9544的機率,介於[0.49,0.51]。此區間長度為0.02,並沒想像中的短。而且,尚有約0.0456的機率,X及X/n,分別不落在前述二區間中。現令n增大些,如n=100,000,000。則μ=50,000,000,σ=5,000。仍由中央極限定理,將約有同樣0.9544的機率,X介於[49,990,000,50,010,000]。即出現的正面數X落在一更大的範國,寬達20,000,即可偏離期望值50,000,000更遠。至於正面數出現的相對頻率X/n,則有約0.9544的機率,介於[0.4999,0.5001],長度僅0.0002,即X/n將更接近期望值1/2。可看出隨著投擲數n之不斷增大,出現的正面數X,將可能愈來愈偏離期望值n/2,但正面數出現的相對頻率X/n,則將有高機率,愈來愈接近期望值1/2。但不論n有多大,X/n就是很難剛好等於1/2。也就是即使有些偏差,仍是正常的,不會因而懷疑銅板的公正性。反倒是,若X/n過度接近1/2,將可能被認為其中有弊。
曾有好幾年,高中數學裡有“信賴區間”的題材。要知即使在大學數學系的統計課程,信賴區間通常置於教科書的後半部,有夠完整的鋪陳後,才進入信賴區間。而為了學習信賴區間,所引進的中央極限定理,對大學數學系的學生,更絕非容易的題材。既然如此,那為何此二題材皆會進入高中?可能有些課綱委員,認為高中生該多懂些統計,至於得學那些?則可能因見到媒體上常會報導各式各樣的民調結果,於是覺得信賴區間乃如國民統計,高中生皆該理解。雖立意良善,卻未曾考慮此題材是否適合高中生。於是在95課綱時,信賴區間連同中央極限定理,便堂而皇之地進入高中數學了。又應是見到執行民調時,常會同時比較各族群對同一議題之支持度,此即“交叉分析”(Cross Analysis)。於是高中的選修數學裡,便有了交叉分析。由於很快便發現高中生不適合學此題材,99課綱便將交叉分析拿掉了。至於信賴區間,不少高中教師仍一直努力與其奮鬥,直到幾年前,在撰寫108課綱時,才徹底放棄此題材。至此讓高中師生困擾多年的信賴區間(及中央極限定理),才不得不離開高中數學了。以昭炯戒,雖一切都已成為過去,大家仍不妨思索,是什麼原因,使得當初信賴區間、交叉分析及中央極限定理,幾個那麼深的題材,會被放進高中數學?
交叉分析為何不適合在高中?底下為某教科書中的例子,而這在當時各版教科書中,是很典型的例子。先給出某校入學考試的所謂列聯表(Contingency table,又稱交叉表(cross tabulation)):
|
錄取人數(A) |
未錄取人數(F) |
合計 |
男生(B) |
24 |
36 |
60 |
女生(G) |
36 |
54 |
90 |
合計 |
60 |
90 |
150 |
由此得
男生錄取率為P(A|B)=40%,
女生錄取率為P(A|G)=40%。
然後就說男生女生錄取率沒有差異。有些教科書會加上類如底下的一句:“至於比例不相等時,是否就代表男女生錄取率有差異,留待日後再學習。”這樣的寫法,顯示既具學術良知,卻又無可奈何。要知大學的犯罪防治學系,在有關嫌犯辨識的課程,如果所舉的例子,都是“符合xx條件者,便無犯罪之嫌”,且說“若不符合xx條件者,是否就有犯罪之嫌,留待日後再學習”,則這門課豈有何大用?像這種既講不清楚,也無法讓學生學到任何正確統計概念的交叉分析,居然能在眾多數學專家盯著下,溜進高中數學,實在令人難以理解。
這其中有兩點必須指出。首先,怎可由男女錄取率的“相等與否”,來判定錄取與男女性別是否有關?這毫無統計思維。我們已多次強調。如果投擲銅板100次,恰好出現50個正面及50個反面,並不會讓人相信銅板為公正,反而較易讓人懷疑其中有作假。像教科書這種例子看多後,恐會使初學者誤以為,事件出現次數的相對頻率,就是該等於事件的機率。要知,除非事先設定男女錄取率一定要相同(這時男女的“錄取標準”,就很難相同了),否則即使用抽籤(這時錄取與否總該跟性別無關了),來決定錄取名單,都不能保證抽出的男女錄取率相同。更不要說,追求男女平等,應是追求男女“錄取標準”相同,而非“錄取率”相同。其次是較微妙的一點。這只是一次錄取的數據,不宜過度引申。即一次考試的錄取率,豈能使用條件機率的符號P(A|B),及P(A|G)?來看個例子。投擲一銅板100次,出現52次正面,可將52/100=0.52當做銅板正面出現機率之估計值,但不會理所當然地視此值為銅板正面出現之機率。這點人們平常大都能了解,像是不能將一次民調的支持率,當做候選人的得票率。但不知何以統計只要一擺進高中數學課程中,人們往往就連常識都失去了。
我們再給一有名的例子。交叉分析並不只能用來檢定各類之比率相同與否,如樂透彩開了多期後,檢定1至42,42個號碼出現之頻率是否相同。也可用來檢定各類事件(如連號)之出現,是否符合該有之比率,用途廣泛。著名的遺傳學家孟德爾(Gregor Johann Mondel,1822-1884),有一關於豌豆生長的實驗。他將圓黃(round yellow)種子的豌豆,與縐綠(wrinkled green)種子的豌豆雜交。依其理論,會生長出圓黃、圓綠、縐黃及縐綠種子的後代之比率,應分別為
9/16=56.25%,3/16=18.75%,3/16=18.75%及1/16=6.25%。
經由一組有556個樣本的實驗,他得到如下表中的後代之觀測比率與預期比率。
|
圓黃 |
圓綠 |
縐黃 |
縐綠 |
合計 |
後代數 |
315 |
108 |
101 |
32 |
556 |
觀測比率 |
56.65% |
19.42% |
18.17% |
5.76% |
100% |
預期比率 |
56.25% |
18.75% |
18.75% |
6.25% |
100% |
乍看之下,4種豌豆觀測到的後代比率,與預期比率都有些差異,並不吻合該有之比率。但經過所謂“卡方檢定”(Chi-squared test,這當然無法在高中數學裡講授),即使可忍受的誤差α值大到0.90(一般α取為0.001、0.005、0.01,或0.05等,很少有大於0.1者),都無法拒絕
虛無假設:孟德爾的理論為正確。
舉例來看。投擲一銅板10,000次,若出現的正面數落在區間[4,994,5,006],便是即使將誤差α取為0.90,都無法拒絕虛無假設:銅板為公正。正面數離5,000那麼近,不但不會讓人相信銅板公正,反而可能立即被懷疑根本沒投擲,數據乃造假。同樣,孟德爾也踢到鐵板。由於此實驗結果與預期太吻合(fit too well,上述高中數學教科書,所舉有關錄取率的例子,則是完美吻合),曾引起著名統計學者費雪的懷疑,認為孟德爾可能是持續重覆做實驗,直到結果看起來“很好”才停止,然後只公佈結果“最好”的那組數據。偷雞不成蝕把米,這就是我們已多次強調的,對於隨機實驗,若結果與理論值過於一致,反而會讓人懷疑其中有弊。而眾所皆知,不論上述豌豆雜交或投擲銅板的實驗,當被質疑時,若重做一次實驗,想再度得到那麼“漂亮”的數據,機率可是微乎其微。