原本在“九年一貫數學課程綱要”(底下簡稱“九年課綱”)裡,百分位數(percentile)的相關題材,乃列在統計與機率的主題中,被置於九年級(即國中三年級)。近年於制訂“十二年國教數學課程綱要”(底下簡稱“十二年課綱”)時,部分百分位數的內容,被移出國中數學了。更明確地說,在“十二年課綱”裡,在七年級(即國中一年級)有:
統計數據:用平均數、中位數與眾數描述一組資料的特性;使用計算機的M+或Σ鍵計算平均數;
在九年級有:
統計數據的分布:全距;四分位距;盒狀圖。
國中數學已不見百分位數了。但仍有中位數,那是一種特別的百分位數。又在普通高中一年級(即十年級),於數據分析的主題下有:
數據分析:一維數據的平均數、標準差。二維數據的散布圖,最適直線與相關係數,數據的標準化。
其中並未提到百分位數,百分位數自此從中小學數學中消失了嗎?
百分位數是什麼?既然是“百”,你腦海中可能浮現出一組數據1,2,…,100。直觀上,1就是第1百分位數,2就是第2百分位數,…,100就是第100百分位數。那中位數呢?數據中間有兩個數50及51,要嘛都當做中位數,要嘛取二者之平均,即50.5亦可,怎麼規定就怎麼做。百分位數看起來一點都不難,放在國中好好的,何以只留下中位數,至於一般的百分位數便不教了?
百分位數其實移到高中了。你可能感到納悶,前面所引“十二年課綱”裡,那段“數據分析:…標準化”,其中並沒出現百分位數的字眼。況且,高中生學這種東西,豈不太簡單?
百分位數是一個大家耳熟能詳的名詞,沒學過也大約知道意思。但放在數學課程中,便須有明確的定義。先看百分位數。“九年課綱”裡並未給百分位數的定義,在“九年級分年細目”中,只寫著:
能以中位數、四分位數、百分位數,來認識資料在群體中的相對位置。
沒有更多,就僅這麼一句話。事實上,對每個概念,課綱裡通常都寫得很簡短,連微言大義都談不上。之後在“附錄一”中的“九年級細目銓釋”(底下簡稱“銓釋”)中,則有如下說明:
中位數是將資料排序後,前後各切一半的中間位置資料值。…。中位數會使落在兩邊的資料呈現出某種“平衡”狀態。…。中位數則是個數的平衡。
百分位數和中位數、四分位數一樣,可以表示某資料組在總資料中的相對位置。學生應能自資料之相對累積次數分配表求出百分位數。
知道百分位數通常用於分析總次數多的資料,避免在資料數少的例子中,做百分位數的教學。
又在“附錄四”“標準用詞與解釋”(底下簡稱“解釋”),於“中位數”項下是:
第50百分位數,通常表示比這筆或這組數大和比這筆或這組數小的資料各佔一半。
於“百分位數”項下則是:
各筆或各組資料的相對位置,表示有百分之多少的資料比該筆或該組資料的數要小。
如前,假設有數據1,2,…,100。則依“解釋”,第0百分位數為1,第1百分位數為2,…,第99百分位數為100,跟人們之前想的並不一樣。至於中位數,由於是第50百分位數,故為51。51是中位數,它的鄰居50卻非中位數,頗令人不解。還有,比51小的數有50個,的確佔一半;但比51大的數有49個,並未佔一半,僅佔49%。怎會這樣?不只如此,檢視“銓釋”,51不但不在前後各切一半的中間位置,前後兩邊的個數也不平衡。尚有一點令人疑惑,即能否有第0百分位數?我們不知道,在“九年課綱”裡,從頭到尾都沒說。但若沒有,則數據中的第1個,也就是1,便不是任何百分位數,那將很奇怪。所以我們當做有。
不妨換組數據來看,假設有數據1,2,…,99。則第0百分位數仍為1。第1百分位數呢?不是2嗎?比2小的數只有1個,佔1/99,並非1/100,所以2不是第1百分位數。那2是第多少百分位數?依“標準用詞與解釋”,就是第1/99,或說第1.0101…百分位數。只是能否有非整數的百分位數?“九年課綱”裡雖沒說,但理論上可以有。事實上,不但沒有第1百分位數,連第2,…,第99百分位數都不存在。而既然第50百分位數不存在,也就不存在中位數。但長久以來,對這組個數為奇數的數據,人們不是認為正中間那個50,就是中位數嗎?雖然比50小的數有49個,比50大的數也有49個,均並未各佔一半。
上述兩個例子顯示,有關百分位數的“銓釋”及“解釋”,充滿矛盾。在教學及學習上,此單元想必帶給師生相當多的困擾。這樣的學百分位數,如何能讓學生“認識資料在群體中的相對位置”?更不可能體會到什麼數學之美了。等等,有人警覺,會不會是我們所舉之例,皆屬於“資料數少”,該避免拿來當例子?當然不是。諸位不妨自行舉例,很快就可看出,前述那些問題,即使資料數再多,也仍存在。你現在應知道了,在制訂“十二年課綱”時,何以負責國中數學的委員,要建議將百分位數這塊燙手山芋移出。令人好奇的是,難道當初寫那些“銓釋”及“解釋”的“九年課綱”委員,都是閉門造車,而沒順手給幾個例子,看這樣的銓釋或解釋,是否會窒礙難行?這我們就不知道了。說不定是覺得太簡單,所以沒有多加留意。
前述提到“十二年課綱”裡,雖未述及“百分位數”,但其實內含百分位數。因在“說明手冊”中,提到“新課綱將過去九年級的百分位數移到此”。原來課綱中沒列出的,並不表示就沒有涵蓋,真有夠隱晦的。只是不免擔心,百分位數放進高中數學,前面我們指出的那些問題,便能迎刃而解嗎?有人可能還好奇,中位數為一種特別的百分位數,何以中位數能放進國中,百分位數卻不行?
對百分位數,有人提出如下的“補充說明”:
第m百分位數Pm,指的是同時滿足:小於等於Pm的資料至少占全部資料的m%以上,大於等於Pm的資料至少占全部資料的(100-m)%以上。
有人則除上述條件外,又增加一點補充:
當資料中恰有一個滿足上述條件的(原始)數據時,採用它作為Pm;當超過一個(原始)數據滿足上述條件時,取它們的平均值作為Pm。
我們來檢視上述“補充說明”。首先,“九年課綱”中使用的“占”,被改成“佔”了。為了本文前後一致,我們仍採“佔”。另外,“補充說明”中的“小於等於”,宜寫成“小於或等於”。我們再度舉數據1,2,…,100為例。則依“補充說明”的第一點,得P0=1,P1=1,2,P2=2,3,…,P50=50,51,…,P99=99,100,P100=100。這樣的規定,使中位數P50有50及51兩個值,尚可接受。但除P0及P100外,每一Pm皆有兩個值,m=1,2,…,99。而每一m=1,2,…,100,也皆等於兩個百分位數,即m=Pm-1=Pm。第1百分位數不只是1,也可以是2,第2百分位數除2之外,也可為3,…,此明顯違反一般人的認知,疑惑自然產生,這是何以有人建議增加一點“補充說明”的原因。但加上此點補充後,P0=1,P1=1.5,P2=2.5,…,P50=50.5,…,P99=99.5,P100=100。中位數=50.5仍沒問題,但第1百分位數不是1,而是1.5;第2百分位數不是2,而是2.5,…,與一般人所想的完全不同。這種百分位數,能被接受嗎?
其次看數據1,2,…,50。則依“補充說明”的第一點,得P0=1,P1=1,P2=1,2,P3=2,P4=2,3,…,P50=25,26,…,P98=49,50,P99=50,P100=50。中位數P50有25及26兩個值,可以接受。當m是0、100及奇數時,Pm只有一個值;當m是偶數時,Pm有兩個值,m=2,…,98。若再遵循第二點“補充說明”,則得P0=1,P1=1,P2=1.5,P3=2,P4=2.5,…,P50=25,…,P98=49.5,P99=50,P100=50。中位數仍沒問題,但其他百分位數,可能讓學生看得糊里糊塗。
問題並不只上述那些,我們再看一例。假設美國某種球的職業球員共有1千位。按年薪由高至低排序,前9位年薪各3千萬(美元),第10位及11位年薪各2千萬(美元)。各位不妨自行依“補充說明”,立即可得P1=2千萬。3千萬呢?依“補充說明”,那9個3千萬,對P1毫無影響。至於沒學過“補充說明”的人,只能憑直觀行事。1千的1%為10,前10位最高薪球員的平均年薪為2.9千萬,即得一合理的P1=2.9千萬。此例的問題並不只P1,留給讀者自行探索。
在“十二年課綱”中,對百分位數所給的“補充說明”,不像之前九年課綱中所給的“銓釋”及“解釋”,數學上並沒有瑕疵。對任一組數據,每一百分位數皆可明確求出。但連1,2,…,100,這麼四平八穩的數據,依一點或兩點“補充說明”,得到的每一百分位數,不是兩個,就是1.5,2.5之類的,將讓學生摸不著頭緒。升學至上,多想無益,最後恐怕只好把百分位數當做(簡單的)數學來學。豈會想到與數據分析有何相干?豈會明白百分位數有有什麼大用?
中位數應是百分位數裡,人們較常接觸到的。平均成績、平均國民所得等,若想以一個單一的值,來代表一組數據,平均數常被採用。但也有一些情況,平均數並不那麼適合用來當代表值。在職業球隊,球員薪資差異往往很大。大部分的球員,薪資都不太高,少數較高,且每隊總有一兩位薪資是天價的球員,會將全隊球員的平均薪資,大幅拉高。這時光看平均薪資,可能使人們誤以為球員薪資普遍很高。由於少數極端值,並不影響中位數之值,因此當數據中有極端值時,中位數常較平均數更適合當代表值。中位數大致是位於一組數據中間的值,前後約有各半的數據。媒體偶有關於職業球隊薪資的報導,可能因涉及球隊財務,及球員隱私等原因,數據常無法太精準。例如,曾有新聞說美國職業棒球大聯盟(Major League Baseball,縮寫MLB),2015年球員年薪的中位數是470萬美元。怎麼那麼粗糙,只計到10萬?因球員很年從球隊實際得到的總薪資,有時包含績效獎金等,說來有點複雜。而只不過想讓人們對球員年薪的多寡,能約略有些概念。這時太在乎細節,就不是那麼必要。100萬跟470萬是有差,至於470萬跟478.5萬,又不是自己的薪資,有幾個人會很介意?因此宣稱的中位數,是真的正中間那個值嗎?或者是某幾個的平均?何須太計較?只要是一差不多位在中間的值,就可以了。
百分位數的情況類似。假設政府公佈2016年,台灣國民所得的第5百分位數(即P5)。怎樣叫有所得?學生打工,及擺地攤者,也都算嗎?而凡有所得的人,及其全部所得之數,政府真能精確掌握?究竟列入考慮的,是900萬人,或1千1萬人,不同單位所做的統計,相信差異很大。因此其中百分位數如何產生,不需太計較。反正就是讓人大概知道,全國最高收入的前5%,究竟高到那裡去。就算數據有些含混,也不必挑剔,或企圖追根究柢,因僅供參考而已。
在很多實務中,百分位數不過就是差不多之事,不必深究,也無法深究。這樣不求弄太清楚的題材,豈適合出現在在乎定義、講求準確之中小學數學中?