國立高雄大學統計學研究所
最新消息 本所簡介 師資介紹 開設課程 教師成果 學生表現 學術演講 入學管道 學生園地 心在南方 表格下載 活動集錦 網路資源 關於我們
本站首頁 本校首頁 英文版
:::心在南方  
主題:談統計素養(三)
發表者:黃文璋 Email:huangwj@nuk.edu.tw 日期:2017/1/8 下午 07:32:19

3 百分位數的應用

九年課綱中強調:

百分位數通常用於分析總次數多的資料,避免在資料數少的例子中,做百分位數的教學。

這可以理解,當資料數過少,百分位數便的確不太能發揮作用。例如,假設有數據1210。則依十二年課綱,可得P1=…=P9=1P10=12P11=P12=…=P19=2P20=23P91=P92=…=P100=10。若再依補充說明第二點,可得P10=1.5P90=9.5110,每個數同時為910個百分位數。這時百分位數,對了解每一資料,在全體中的相對位置,並無太大幫助。再看一例。假設有一筆數據,先是30,0001,接著是30,0002,然後3410,各有5,000個,總共有100,000筆資料,資料數不少。結果P1=…=P29=1P30=12,或者取P30=1.5;其他百分位數亦不難得到,就讓各位自行完成。看似資料數有10萬之多,因重覆之故,實際相異的資料數只有10。於是110,每個數仍同時為多個百分位數。大學入學考試中心”(簡稱大考中心”),每年負責統籌舉辦的大學學科能力測驗”(簡稱學測),各科考生,都有好幾萬人,因此百分位數,可在其中運用自如?

之前我們指出,百分位數這種題材,並不適合出現在中小學數學裡。只是與高中生關係密切的學測裡,也用到百分位數,有人可能因此會說,所以中學生還是該懂得百分位數。百分位數為何會出現在學測裡?

台灣有學測,始自民國83年開始實施大學多元入學新方案,至今已有不短的歷史。其中細節,二十餘年來,曾經數度修正。高中生想進大學,學測成績相當關鍵。學測共有國文、英文、數學、社會及自然等5科。每科原始滿分依序是108100100144,及128。其中有3科的原始滿分,都不是常見的100,似乎是各科專家深思熟慮後所產生。但沒有用,因後來大考中心會將考生的各科成績,皆轉換成015級分”(83學年度只有10級分)。何以要全換算成15級分制?大考中心的說法是,為了不要讓考生為了0.1分的差距而計較。這理由很可笑,原始成績若只少0.1分,並沒什麼大差別。如今卻可能差了很顯著的1級分。

級分如何得出?各科取前1%考生成績的平均,不妨以a表之,將a除以15a/15即為各級分之級距。原始成績至少有a的,為15級分;低於a,但至少有14a/15的,為14級分,餘類推,至於成績低於a/15的,則為0級分。由於科目之別,再加上不同年度題目難易之差,成績散布之變異可能很大。導致科目或年度不同,級分無法相比。所以不能問12級分算好還是不好?如果各科級分是由高至低,依到考人數等分,則各科即使不同年度,同一級分所反映考生的表現優劣,便較接近。

91學年度起,學測除了級分外,各科及總級分,又都依到考人數之百分位數,訂出頂標、前標、均標、後標,及底標等5項標準,此即所謂5標。學測成績,能用在諸如個人申請等,進入大學的管道。各大學校系在第一階段篩選時,可對學測的總級分,及各科級分,依5標訂出檢定標準,做為篩選門檻。在此頂標乃成績位於第88百分位數之考生級分,前標乃成績位於第75百分位數之考生級分,均標乃成績位於第50百分位數之考生級分,後標乃成績位於第25百分位數之考生級分,底標乃成績位於第12百分位數之考生級分。級分是按分數切割,5標則是按人數切割。忽而分數忽而人數,這套制度設計的邏輯,頗令人難以理解。各科5標雖依相同的百分位數,但由於已先經級分的扭曲原始成績,不同科目的同一標,並無法相比。

前面看到資料數少時,一數可能同時為好幾個百分位數,會弄得不清不楚。學測考生那麼多,應不會有這個問題吧!這樣想就錯了。考生雖多,可惜成績轉換成15級分,連同0級分,相當於一筆資料數只有16的數據。就像我們之前所舉,那一資料數有10萬之例,每1級分,將可能同時為好幾個百分位數。換句話說,學測忽略百分位數該避免用於資料數少的原則,貿然使用。遂造成頂不見得是頂,前不見得是前,均也不見得是均。

學測的5標如何求出?大考中心在學測的簡章中有說明。假設某科到考生為161,567人,分別乘上5標對應的百分比,然後取整數,小數部分無條件進位。即得

161,567×0.88=142,178.96→142,179

161,567×0.75=121,175.25→121,176

161,567×0.50=80783.5→80,784

161,567×0.25=40391.75→40,392

161,567×0.12=19388.04→19,389

將考生成績,由低至高排序後,從最低分往上數之第142,179位到考生的級分,便為頂標,餘類推。此與依十二年課綱中的定義,所求出的百分位數,有何不同?如果是數據12161,567,則滿足小於或等於P88的資料,至少佔88%,大於或等於P88的資料,至少佔12%,唯一只有142,179。同理121,176為唯一的P75,餘類推。即在二定義下,所得的5標均相同。既然如此,十二年課綱中的百分位數為,何不採學測上的定義就好?事實上,由兩種定義所得之百分位數,並不永遠一致。舉個例子來看。對於數據12100,依學測的定義,得第10百分位數為10,第90百分位數為90;但依十二年課綱上的定義,得P10=1011,或取P10=10.5P90=9091,或取P90=90.5

各科的級分,是按原始成績等分(15級分為頂)。而基於考題的難易程度,全部考生的原始成績,有不同的集中情況。因此即使同一科,各級分考生數所佔的百分比,可能相差很大。本來每一級分的考生數,平均約有6%多。但以104學年度的國文科為例,12級分的考生數最多,約占19.04%;而由1013,這4級分的考生數,便約佔63.46%;至於1級分的考生數才約佔0.02%0級分的考生數才約佔0.003%。國文科考生集中在某幾個級分的情況,並非僅發生在104學年度。不妨來看105學年度。考生數最多的是11級分,約佔16.62%,由912,這4級分的考生數,共約佔58.77%,而10級分的考生數,仍差不多佔0%。個人申請入學,於第一階段篩選時,各大學校系可對學測的總級分及各科級分,擇其中若干,依5標訂出檢定標準,做為篩選門檻。以國立臺灣大學數學系為例,該系訂出的門檻為,國文均標、英文均標、數學均標、社會後標,及自然均標。大考中心規定,於訂門檻時,所能依據的,並非考生的原始成績或級分,而是總級分與各科級分的5標。5標既然在篩選過程中,扮演重要的角色,因此大考中心提供之5標,所代表的意義,應該要很明確才行。只是並非如此。

如前所述,頂標、前標、均標、後標,及底標等5標,乃分別依到考生之第8875502512等百分位數之級分而定。看到這裡,不少人腦海中可能浮現12255075,及88等百分比,分別為達到各標的考生數之百分比。可惜大考中心並無此邏輯。仍以104學年度的國文科為例。表1給出級分人數百分比累計,其中顯示到考人數為144,250

144,250×0.88=126,940

144,250×0.75=108,187.5→108,188

144,250×0.50=72,125

144,250×0.25=36,062.5→36,063

144,250×0.12=17,310

從最低分往上數之第126,940108,18872,12536,063,及17,310位到考生的級分,分別為頂標、前標、均標、後標,及底標。由表1,即得分別13131110,及8級分。頂標與前標,居然同為13級分!某大學中文系,每年在訂申請入學各科的篩選門檻時,斟酌再三。少子化導致報考人數年年下降,先得預測今年申請本系的人數,然後決定國文科該訂什麼標,頂標或前標,究竟怎樣訂,對本系最有利?討論了很久。結果看到大考中心公布的成績統計後,發現白費功夫了,今年國文科的頂標及前標,二標沒有差別。怎會這樣?

我們已指出,各科的原始成績只是過客,皆被大考中心轉換成級分。由於各科的級分,總共才16筆相異資料,而對一筆資料數不多的數據,一數可能同時為好幾個百分位數。大考中心看似經過精心規劃,所產生的百分比:88755025,及12,最後完全不是那麼一回事。這說來並不奇怪。先看頂標,由表1,國文科成績位於第88百分位數,即由最低分往上數起,第120,964位到考生,其級分為13。但與該考生,同為第88百分位數的考生,共有23,824位。而13級分以上(131415級分)的考生,共約佔28.50%。達到頂標的考生,不是該僅佔12%,如今卻佔了超過4分之1!因此國文科13級分,只能算是考在前面,怎麼會是什麼頂級的標準

再從另一方式來看。由表1,國文科1415級分,共約佔11.98%,未達12%。雖才差約0.02%,但按其算法,要往下降1級分。但13級分的考生有16.52%。以0.02%16.52%,這樣一來,達到頂標的考生,不但遠超過12%,甚至超過前標的下界25%,有28.50%。於是頂標與前標,便同一級分了!我們來看,由表1,成績位於第75百分位數,即由最低分往上數起,第108,188位到考生,其級分正是13。表2給出,104學年度學測各科及總級分,5標的級分,及達到的考生,所佔之百分比。達到及設定的百分比,有些的確差異很大。仍看國文科。不只頂標考生佔的百分比超多,達到均標的考生,有63.81%,比設定的50%,高出13.81%之多。這都是因級分數太少之故,或者說將原始成績轉換成級分之故。

不同標卻同一級分,除104學年度國文科外,尚有96學年度的國文科,及92學年度的社會科。3次皆是頂標與前標同為13級分。當資料數少時,百分位數在教學上,該避免拿來做為例子。這點即使課綱沒提醒,也應是常識。連當例子都不適合,何況在攸關全國高中生進大學的比序,資料數才16而已,怎宜引進百分位數?大考中心的專家沒學過百分位數嗎?當然不至於。只是如果連他們學了都沒用,中學生學了又何用?

人們常講大數據,以為一旦有大數據,一切大小問題,均可迎刃而解。如今明明是小數據,卻視為大數據,然後隨興揮舞百分位數。若缺乏數據素養,真有大數據,豈有大用?不過暴殄天物而已。

比起眾多深奧的統計方法,百分位數縱有不同的定義,但概念皆屬淺顯,理解不難。實際應用時,要切記這是有關數據分析,而非在做算術練習,只管求值即可。百分位數是統計,統計不可數學化。若只在乎數學,將難培養出統計素養。

有關百分位數進一步的參考資料,可見黃文璋(2014)及黃文璋(2015ab)三文。

參考文獻

1. 黃文璋(2014)PR值與百分位數。黃家小館(http://www.stat.nuk.edu.tw/huangwj)

2. 黃文璋(2015a)。數據素養。黃家小館(http://www.stat.nuk.edu.tw/huangwj)

3. 黃文璋(2015b)。談中位數。科學人。164(201510月號)32

1 104學年度學測國文科級分人數百分比累計表

級分

國文

人數

百分比

累計人數

累計百分比

15

4,402

3.05

144,250

100.00

14

12,882

8.93

139,848

96.95

13

23,824

16.52

126,966

88.02

12

27,459

19.04

103,142

71.50

11

23,486

16.28

75,683

52.47

10

16,778

11.63

52,197

36.19

9

11,015

7.64

35,419

24.55

8

7,548

5.23

24,404

16.92

7

5,475

3.80

16,856

11.69

6

4,185

2.90

11,381

7.89

5

3,165

2.19

7,196

4.99

4

2,223

1.54

4,031

2.79

3

1,356

0.94

1,808

1.25

2

417

0.29

452

0.31

1

30

0.02

35

0.02

0

5

0.00

5

0.00

2 104學年度學測各科及總級分5標一覽表

標準

頂標

前標

均標

後標

底標

項目

國文

13(28.50%)

13(28.50%)

11(63.81%)

10(75.45%)

8(88.31%)

英文

14(12.18%)

12(30.14%)

9(55.73%)

6(75.49%)

4(91.94%)

數學

12(12.98%)

10(25.59%)

7(51.27%)

4(82.03%)

3(90.06%)

社會

14(16.63%)

13(30.11%)

11(60.90%)

9(80.59%)

7(91.76%)

自然

13(15.92%)

11(31.38%)

9(50.30%)

6(80.75)

5(90.39%)

總級分

63(13.27%)

57(25.86%)

47(52.08%)

36(76.75%)

28(88.24%)

. 各級分括號中之百分比為達到該級分之累積考生所占百分比。

   暫無回應
 回本區首頁 
  回應總數0  
 
 
  下一頁  
  
 
我要回應
姓 名: 回應前,請先註冊登入
E-mail:
內 容:
驗證碼:  (X8CD
 
 
:::
 
*

地  址:811高雄市楠梓區高雄大學路700號
電  話:07-5919362 傳真:07-5919360 e-mail: stat@nuk.edu.tw
更新日期:2024/5/10 上午 10:49:01

2003/10/20起第 9265200 位訪客
*