4 取樣
“不確定性與數據”為國民4大數學素養之一。其中“不確定性”一詞,以“隨機性”取代,或許較恰當些。因一般說到不確定性,常有點負面的意思。如政治裡向來就有各種大小的風險存在,對不確定性的存在,本不該感到訝異。但2017年1月10日,經濟日報有一則報導:
英國準備脫離歐盟,美國新政府的貿易政策可能衝擊中美關係,政治不確定性引發市場避險需求,帶動黃金價格五個交易日來第四次上漲。…。
顯示不確定性讓人排斥。再給一例。橋本忍(1918-)是日本著名的電影編劇家,長期與大導演黑澤明(1910-1998)合作,兩人共同完成不少好作品。在他(2006)一書中,談論多部黑澤明拍攝的電影。如同一流球員,再怎麼了不起的導演,也有失手的時候。在此書便提到:
“生者的紀錄"(1955)的失敗,是因為劇本是帶有未知數與不確定性的原創故事,…。
將拍片失敗,歸罪於劇本裡有未知數與不確定性。在黃文璋(2014)一文,尚舉了一些不確定性,讓人不喜,避之唯恐不及的例子。
處在此隨機世界裡,隨機性導致不確定,而在不確定性下,自然有很多事屬未知。事實上,雖說隨機,仍會遵循某些法則,並非完全不可預期。因此,與其擔心不確定性,不如去了解隨機法則,並設法做出較佳的決策。而就像製磚不能沒有黏土,欲有好的決策,數據常是不能少的。分析數據,從中挖掘出一些可掌握的資訊,以讓不確定性裡,不都那麼不確定。這是何以數學素養裡,不確定性要與數據結合在一起。
高中數學自“九五暫綱”(民國九十五年開始實施的高中數學課綱),引進“信賴區間與信心水準的解讀”。為什麼高中生要學信賴區間?媒體上,經常有關於民調的報導,其中往往附有信賴區間,信賴區間儼然是國民該具備的統計素養,遂堂而皇之地進入高中數學。對某議題,光給樣本顯示的支持率還不夠,不同族群的看法如何?於是民調裡常會做的“交叉分析”,也就跟著進入高中數學。至於主要為量測二變數間的線性關係之強弱及正負的“相關係數”,也被高中數學招手進入了。可以這麼說,自“九五暫綱”起,以數學家為主的課綱委員,覺得高中生該多懂些統計,遂增加高中數學裡的統計分量。其後“九九課綱”中,取消交叉分析,“十二年課綱”中,則連信賴區間也取消了。十年來,信賴區間給高中師生帶來的困擾,掀起的爭議,即將煙消雲散。只是信賴區間真有那麼難學?
在金庸(1924-)“鹿鼎記”(1972)一書的第二十二回,對少林寺武功一竅不通的韋小寶,要澄觀教他一指禪。澄觀是少林寺般若堂的首座,武學所知之博,被寺中群僧,推為當世第一。澄觀說:
咱們少林派武功循序漸進,入門之後先學少林長拳,熟習之後,再學羅漢拳,然後學伏虎拳,內功外功有相當根柢了,可以學韋陀掌。
預備功夫可真多。還沒完,韋陀掌後,依序是散花掌、波羅蜜手、金剛神掌、拈花擒拿手、般若掌、易筋經,待這些都練熟了後,才能學一指禪。澄觀自稱練了42年,才略窺門徑,在少林寺千餘年來,名列第三。最快的那位,花了36年,次快者則花了39年。
高中數學裡的信賴區間,乃一綜合性的統計題材,其中包含好幾個統計主題,至少有取樣、估計,及極限;涉及的分佈有二項、超幾何,及常態;包含的概念有隨機性、機率的意義,及條件機率。信賴區間若能弄懂,表示統計已有相當基礎了。一般在大學統計學的教科書裡,信賴區間通常置於全書的後半部。而交叉分析出現時,全書可能已到尾聲了。又由於要用到近似,需要藉助中央極限定理,或者僅是較簡單的版本,即二項分佈的常態近似。但此機率裡相當重要的極限定理,即使是初步的版本,都沒太多大學數學系的畢業生,能講得清楚明白。雖在大學統計課程裡,於足夠的鋪陳後,才會引出信賴區間。而就算這樣,大學生對信賴區間的涵義,仍不過一知半解而已。如今企圖在高中數學很少的篇幅中,講授信賴區間、中央極限定理及交叉分析,彷彿想在短時間內,教會韋小寶一指禪,師生皆備嘗辛苦,乃是必然。
先看取樣。人們常在取樣,樣本如何取得?該不該出來參選系學會會長?難以決定。問問幾個朋友的意見,被問的人,就是你取的樣。在眾人皆鼓勵下,信心大增,於是報名參選,不料以慘敗收場。想去某家餐廳,評價如何?上網看看。好評不少,去後卻大失所望。後來想通了,這種平價餐廳,顧客及會上網寫評論者,皆以年輕人居多。年輕人的愛好,自然跟你這位老先生不太一樣。如吃飯或看電影,有些事無關緊要,可就近取得一些意見。但有時若隨意取樣,且依據做決策,則懊惱的機會將不少。輕者貽笑大方,重者損失不小。
底下來看一道統計試題。104學年的學測,數學科有如下一多選題:
小明參加某次路跑10公里組的比賽,下表為小明手錶所記錄之各公里的完成時間、平均心率及步數:
|
完成時間 |
平均心率 |
步數 |
第一公里 |
5:00 |
161 |
990 |
第二公里 |
4:50 |
162 |
1000 |
第三公里 |
4:50 |
165 |
1005 |
第四公里 |
4:55 |
162 |
995 |
第五公里 |
4:40 |
171 |
1015 |
第六公里 |
4:41 |
170 |
1005 |
第七公里 |
4:35 |
173 |
1050 |
第八公里 |
4:35 |
181 |
1050 |
第九公里 |
4:40 |
171 |
1050 |
第十公里 |
4:34 |
188 |
1100 |
在這10公里的比賽過程,請依上述數據,選出正確選項。
(1)由每公里的平均心率得知小明最高心率為188。
(2)小明此次路跑,每步距離的平均小於1公尺。
(3)每公里完成時間和每公里平均心率的相關係數為正相關。
(4)每公里步數和每公里平均心率的相關係數為正相關。
(5)每公里完成時間和每公里步數的相關係數為負相關。
答案是(2)、(4)、(5)。“大考中心”很客氣,說所提供的僅是“參考答案”,而非“標準答案”。
首先,來檢視一下5個選項的敘述。題目中的數據,都是關於小明在某次路跑賽裡的資料,所以也只能得到有關小明在此次路跑的推論。但選項(1)及(2),是問小明如何,選項(3)、(4)及(5),卻皆未提到“小明”,兩相對照,會讓人以為(3)、(4)及(5),是針對一般人的體能提問,這是疏失。另外,選項(2)裡,於“小明”之後,有“此次路跑”4字,選項(1)、(3)、(4)及(5)裡則沒有,再度,會讓人以為是針對一般情況提問,而不僅是此次路跑。所以,若依現有題目之敘述,有學生遵循邏輯,謹慎地未選(1)、(3)、(4)及(5),應該算是對的。命題者對題目之敘述,似不夠謹慎。
再給一文字方面的問題。兩個隨機變數,才有所謂正相關、負相關,或無相關可言。至於相關係數,不過是一數字,可能為正、負或0。因此在選項(3)、(4)及(5)裡,問相關係數是否為正相關(或負相關),並不太通。宜問相關係數是否為正(或負)。
有人可能好奇,選項(4)(或(5))的敘述,可否改為“每公里步數和每公里平均心率為正相關(或負相關)”?即刪除“的相關係數”5字。若這樣改,題目敘述便無瑕疵。但這只是一次路跑的數據,若小明再跑一次,或繼續跑10公里,可能得到完全迥異的數據,因而計算出之相關係數,連正負說不定都會反過來。這有如題目若先說“投擲一銅板10次,得到5個正面”,則“銅板出現正面的機率為0.5”之選項,便不該選。因此實際上“每公里步數”,與“每公里平均心率”,此二變數是否為正相關,並無法由小明跑10公里後,產生的數據得知。所以,一旦敘述如上修改,則選項(4)便不正確。但既然參考答案中有(4),表示命題者認為選項(4)是可判定為正確的,因此敘述便不可如此修改。至於選項(3),由於未列進大考中心提供的參考答案中,因此若要刪除“的相關係數”那5字,自然是可以的。
在學測如此大型的考試,命題者對文字的陳述隨意,尚非本題最關鍵的缺失。要知就算題目寫得不清不楚,也大致能猜出命題者的意思,這是我們的中學生,早就被訓練出來的本領。假設某人想觀察自己體重的變化,每天記錄。能否想到該注意些什麼?須在相同的情況下記錄。例如,每天皆在剛起床時量,這樣比較能相比。即使如此,每天起床時間可能有差,或前晚因應酬吃喝較多,就算採取剛起床時量測,恐怕也不敢宣稱,確實做到每天在相同的情況下記錄,但至少已儘量了。如今題目一開始便敘明,小明是參加比賽。而眾所皆知,比賽有競爭,跑者大抵會依自己體能去配速。甚至,人非汽車,連續跑10公里,並不易維持每1公里的狀況都相同。因此,少有以這種方式,收集個人的數據。若每天在差不多同一時間跑1公里,量測3項數據,連跑10天,再分析所得的數據,還較合理些。無論如何,用一個人自身的幾個變數,來考慮相關係數,意義並不太大。如應力與應變有線性關係,此為力學裡的虎克定律(Hooke's law)。小明個人的那些變數,甚至可能並不隨機,彼此之間,也可能僅有函數關係。
資料的收集,是從事統計工作,一很重要的步驟。惟有秉持很嚴謹的態度,取得的數據,方能準確客觀,因而得到的推論,才較具參考價值。就如醫學上,一種新藥,或新技術,其效果如何?需找人做實驗,也非徵求自願,來者不拒。不但要謹慎挑選受測樣本,且過程有一定規範,如須雙盲實驗。對某政治議題,進行一項民調,也並非就站在商區街頭,任意找願意受訪者填寫問卷,或拿起電話便撥。取樣須很謹慎。
最後,對於上述那道考題,是否可假設小明每一公里,都維持相同的狀態?如果做這樣的假設,則那便是數學而非統計題目了。總之,考試畢竟引導學習,高中生若常接觸這類題目,將難具備統計素養。
參考文獻
1. 黃文璋(2014)。談不確定性。黃家小館(http://www.stat.nuk.edu.tw/huangwj)
2. 橋本忍(2006)。複眼的映像─我與黑澤明(張秋明譯)。大家出版社,新北市。