33 估計量之評比
不同的估計法,有時會導致不同的估計量,如何評比各估計量之優劣?在此來看點估計。首先,若不設準則,便無所謂好的估計量,遑論最佳估計量?舉個例子來看,假設欲估計袋中紅球所佔比例p。有人就隨機取樣n次,每次取出後放回,得到X1,X2,…,Xn,分別表各次所得之結果,其中Xi=1,或0,就依第i次得到紅球或非紅球,i=1,…,n。令Sn=X1+X2+…+Xn,n≥1。眾所皆知,樣本平均Sn/n為一常見之p的估計量。但不論n多大,Sn/n都不一定會很接近p,當然n很大時,不接近的機率很小。不過,若某君不取樣,就隨興地以0.48來估計p,亂猜的估計量應是很荒謬吧?或保守一點地說,該比Sn/n差吧!倒也未必,Sn/n不一定等於0.48,但若p真的是0.48,該君便估計正確了。
某家有3個小孩,在分配物品時,很難每次每個小孩拿到的分量皆相同。對於少給的,媽媽承諾下次會給他多些。此家孩子講理,幾次下來每人平均拿到的若一樣多,便能接受,不會計較了。另外,某委員會中有位委員,開會遲到時,屢以時間沒估準為藉口,幾次下來,其他委員提醒他,若時間沒估準,應有時會早到,不該次次晚到。上二例顯示,人們常有平均須是準的之概念,底下我們要介紹的不偏估計量(unbiased estimator),可說便是這樣產生的。設有一組n個隨機樣本X1,X2,…,Xn,並以統計量T=Tn(X1,X2,…,Xn)來估計某未知參數θ。若滿足
E(T)=θ,
則T便稱為θ之一不偏估計量,或就簡單地說T是不偏的(unbiased)。如前,此表有時高估,有時低估,但平均會是準的。直觀上,不偏性(unbiasedness)似乎是“好的”估計量該具備的條件,但其實有些不偏估計量,卻存在明顯瑕疵。又若T非不偏估計量,便稱T為偏差估計量(biased estimator),或就說T為偏差的。
一般而言,以一估計量T來估計參數θ,會希望T與θ之差距,即|T-θ|要愈小愈好。但T-θ與未知的參數θ有關,大小無從知道;而且T-θ為一隨機變數,其大小依賴觀測的隨機量T而定,所以|T-θ|無從曉得到底多大。又在數學裡,有關絕對值的處理較麻煩,不妨想想|f(x)|在區間[1,10]之積分,其中f(x)=xsinx-logx,要決定f(x)何時為正,何時為負,以去掉絕對值符號,實非易事。退而求其次,我們考慮均方差(mean squared error,簡稱MSE)R(θ,T),其定義為
R(θ,T)=E((T-θ)2)。
將上式改寫如下
R(θ,T)=E((T-E(T)+E(T)-θ)2)
=E((T-E(T))2)+E((E(T)-θ)2)+2E((T-E(T))(E(T)-θ))
=Var(T)+b2(θ,T),
我們便有
(1) R(θ,T)=Var(T)+b2(θ,T),
其中
(2) b(θ,T)=E(T)-θ,
稱為T之偏差(bias)。此處用到乘積公式
(a+b)2=a2+b2+2ab,
且因E(T)-θ已非隨機變數,故
E((T-E(T))(E(T)-θ))=(E(T)-θ)E((T-E(T))=0,
其中用到E((T-E(T))=E(T)-E(E(T))=E(T)-E(T)=0。
我們知道,期望值有如一隨機變數分佈之一中心。上述偏差b(θ,T),便是量測估計量T之中心E(T),與欲估計的參數θ,兩者間偏差之大小。因此MSE可分成兩部分Var(T)及b2(θ,T),前者即估計量T之變異,可顯示精準性;後者則用來描述偏差之大小,以顯示正確性(accuracy)。以射箭為例。若射在靶上的點都很接近(表Var(T)較小),可說射得很穩定,相當精準。而若這些點之集中處偏離靶心(即b(θ,T)不小),便是正確性不夠。至於若箭在靶上各處(或靶外)散佈,便是既不精準又不正確(表R(θ,T)較大)。理想狀態當然是不但|b(θ,T)|愈小愈好(0是最小的),且Var(T)也愈小愈好。底下給個簡單的例子。
欲估計一銅板出現正面的機率θ,重複投擲後,得到X1,X2,…,Xn,分別表各次所得之結果,其中Xi=1,或0,就依第i次得到正或反面,i=1,…,n。人們常取Tn=Sn/n做為θ之估計量,因E(Tn)=θ。故
b(θ,Tn)=E(Tn)-θ=0,
且
Var(Tn)=Var(X1+X2+…+Xn/n)=nVar(X1)/n2=θ(1-θ)/n。
即得
R(θ,Tn)=θ(1-θ)/n。
可看出對每一n≥1,Tn為θ之一不偏估計量、隨著樣本數n的增大,MSE愈來愈小,且n→∞時,R(θ,Tn)→0。
設參數θ有二估計量U與V。若對每一可能的θ,皆有R(θ,U)≤R(θ,V),且至少有一θ,使得嚴格不等式成立,此時我們說U較V為佳(U is better than V),且稱V為不可採用的(inadmissible)。一估計量U,若不存在較其為佳之估計量,便稱為可採用的(admissible)。此處所謂可採用與不可採用,乃以MSE為評比標準。做決策時,“可採用的”之概念用途廣泛。例如,女孩在找對象時(就依自己所訂的標準),在周遭可挑的人選中,想找到最佳固然不易,因人總是各有優缺點,但無論如何,要選取可採用的。少有女孩會看上樣樣不如人者。像是女孩在意的因素設有100個,若A君每項因素皆不如B君,則A君當然該被淘汰了。處在一團體(或者就是一企業機構)裡,要儘量避免自己是個不可採用的人,如果不至少具備一項別人比不上的優點,那在此團體中,有什麼角色能發揮呢?此團體若要裁員時,豈不最早被列出來?
是否有一估計量比其他估計量全都較佳?較佳當然是以MSE來評比。除非只有一個可能的θ,否則便不存在。假設存在一個這種估計量U,則任取一可能的θ,不妨以θ0稱之,再取V=θ0。則因
Var(V)=Var(θ0)=0,
且
b(θ0,V)=b(θ0,θ0)=E(θ0)-θ0=0,
因而R(θ0,V)=0。故若U要比V為佳,則須滿足R(θ0,U)=0。但θ0不過是任一可能的θ,因而須有對每一可能的θ,皆有R(θ,U)=0。但除了一些退化的情況,此乃不可能。由於不存在一永遠的第一名,在比MSE之大小外,我們得再加上其他評比的準則,也藉此排除一些不合理的估計量,如前述V=θ0。在較小的估計量之集合中,尋找最佳(指MSE最小)估計量,便較可能找到。底下給一例。
設X1,X2,…,Xn,為一組由U[0,θ]分佈所產生之隨機樣本,其中欲估計的參數θ>0。對n≥1,考慮X1,X2,…,Xn之順序統計量(order statistics)X(1),X(2),…,X(n),即將X1,X2,…,Xn,按小至大排列。令
U1=X(n),
U2=((n+1)/n)X(n),
U3=X(1)+X(n),
U4=(n+1)X(1),
U5=2Sn/n,
其中如前Sn=X1+X2+…+Xn。上述5個統計量,皆可用來當做θ之估計量,底下我們來比較其MSE。
計算過程略去,5個估計量之MSE分別為
R(θ,U1)=2θ2/((n+1)(n+2)),
R(θ,U2)=θ2/(n(n+2)),
R(θ,U3)=2θ2/((n+1)(n+2)),
R(θ,U4)=nθ2/(n+2),
R(θ,U5)=θ2/(3n)。
按小至大之排序如下,這是對每一可能的θ皆成立的:
R(θ,U2)<R(θ,U1)=R(θ,U3)<R(θ,U5)<R(θ,U4),n≥2。
至於n=1時,5個估計量之MSE皆相等,即有
R(θ,U1)=R(θ,U2)=R(θ,U3)=R(θ,U4)=R(θ,U5),n=1。
因而U1、U3、U4,及U5,皆為不可採用的。當然這並不保證U2為可採用的。
再度X1,X2,…,Xn,在區間[0,θ]均勻分佈,按小至大排出來為X(1),X(2),…,X(n),這n個點將[0,θ]分割成n+1個子區間。均勻分佈的關係,不難看出,平均來說每一子區間的長度皆為
θ/(n+1)。
X(n)是n個點中最接近θ的一個,這是何以會想到估計量U1。但畢竟X(n)比θ小,以X(n)來估計θ,必然是低估,即U1為偏差的。調整一下,乘上(n+1)/n後,得到U2。至少U2滿足E(U2)=θ,為不偏的。而也可預期U2必較U1為佳。U3的產生,也是因U1比θ小,故加上X(1),彌補一下,至少讓U3因而成為不偏的。U1為偏差的,但將U1加上一隨機的量所得的U3,雖成為不偏,MSE是否會變大或變小,可就難說了。事實上,二者之MSE仍相等,這倒是一有趣的現象。由於X(1)離θ較遠,乘上(n+1)後,雖使U4成為不偏的,但變異數顯然會較大,不像X(n)已接近θ了,經由乘上一個接近1的因子(n+1)/n,不太會產生過大的變異。果然,U4的MSE是最大的。Sn/n是樣本平均,E(Sn/n)=θ/2。故U5為不偏的。以樣本平均來調整的估計量,應不如以X(n)來調整的估計量,但優於以X(1)來調整的估計量,而也的確有R(θ,U2) <R(θ,U5)<R(θ,U4),n≥2。
欲估計參數θ,由(1)及(2)式知,一估計量T若為不偏的,則b(θ,T)=0,且此時
(3) R(θ,T)=Var(T)。
我們常可在所有不偏估計量中,找到一較所有其他估計量至少不差的估計量。即常會存在一不偏估計量T∗,使得對任一其他的不偏估計量S,及任一可能的θ,皆有
R(θ,T*)=Var(T∗)≤Var(S)=R(θ,S)。
這種T*便稱為“一致最小變異不偏估計量”(uniformly minimum variance unbiased estimator,簡稱UMVUE)。在此所謂“一致”,是指對一可能的θ,T*之變異數皆最小。
既不偏,變異數又最小,其涵義為何?仍以射箭為例。平均沒有偏差,且射在靶上的點都很接近,那不就是射出的箭都集中在靶心附近?射箭技術顯然高明。一般而言,UMVUE是統計裡認為不錯的,也有一些有效的定理來協助尋找。但有時這樣的估計量,卻顯得極不合理。譬如說,在估計一絕不會是負的參數θ,找到的一致最小變異不偏估計量,取值卻可能為負,例子可參考一般數理統計的教科書。另外,尚有幾個評比的準則,此處僅是初步的介紹,我們就此打住。