估計與檢定

在此僅簡單介紹假設檢定之相關名詞、公式以及應用，若欲進一步閱讀請參考黃文璋(2003). 數理統計第八章，華泰文化事業股份有限公司。

假設檢定名詞介紹

名稱

說明

假設檢定

之流程

猜想(假定)收集資料檢定作決策(接受或拒絕猜想)。

統計假設

(hypothesis)

一個關於母體分佈之斷言或猜想。
一個關於母體之敘述(statement)。
統計假設分為兩部分：

虛無假設(null hypothesis)，以符號表之。

對立假設(alternative hypothesis)以符號(或,)表之。

統計假設又可分為：簡單假設和複合假設。

簡單假設(simple hypothesis)：

例如：。

複合假設(composite hypothesis)：

例如：。

統計推論

(statistical inference)

導致接受或拒絕之統計假設的步驟，就是統計推論之主要工作。

假設檢定

(testing hypothesis)

基於母體之一組隨機樣本，以決定兩個假設(,)中何者該拒絕。

接受域

(acceptance region)

拒絕域

(rejection region)

接受域：使虛無假設被接受之集合。
拒絕域：使虛無假設被拒絕之集合。

檢定

(test)

決定一檢定，即表決定拒絕域及接受域。
對一檢定，以為拒絕域，即拒絕，若且為若。
統計檢定之可能結果：

	為真	不真
接受	正確	型II錯誤()
拒絕	型I錯誤()	正確

顯著水準

(significance level)

稱為顯著水準，又稱為檢定大小。
之值常取成0.1，0.05或0.01等。

檢定統計量

(test statistic)

樣本的一個實值函數，以表之。利用來決定是否接受。

p-值

(p-value)

在為真之下，檢定統計量會落在比觀測值至少同樣極端的區域之機率。
p-值又稱觀測大小。
若所得之觀測值得p-值夠小，小於，則此組觀測執導至棄卻虛無假設。

T-檢定

(Student's T distribution)

名稱

說明

單樣本T-檢定

(one sample

T-test)

用來檢定一組含個樣本且平均值為之樣本，看它是否取自一個平均值為 $\mu=\mu_0$ 的常態分佈，此時虛無假設取為 $H_0:\mu=\mu_0$ 。
在常態分佈的假設下，統計量

$\begin{displaymath}t=\frac {(\overline{\mbox{\mathversion{bold}{$X$}}}-\mu)}{s/\... ...{n}(\overline{\mbox{\mathversion{bold}{$X$}}}-\mu)}{s}\mbox{, }\end{displaymath}$

有自由度的T-分佈。(表樣本標準差)。

二樣本T-檢定

(two- sample

T-test)

此檢定也可用於檢定配對中兩變數之平均值是否相同，或兩個具有相等標準差之常態分佈是否有相同的平均值。

假設有兩組獨立的隨機樣本及, $\cdots$ , $Y_{n_2}$ ，分別有 $\mathcal{N}(\mu_1, \sigma_1^2)$ 及 $\mathcal{N}(\mu_2,\sigma_2^2)$ 。令 $\overline{X}$ ，及 $\overline{Y}$ ，分別表第一組及第二組樣本之樣本平均及樣本變異數。則

$\displaystyle Z=\frac {(\overline{Y}-\overline{X})-(\mu_2-\mu_1)}{\sqrt{\sigma_1^2/n_1+\sigma_2^2/n_2}}$

有 $\mathcal{N}(0,1)$ 分佈。又

$\begin{eqnarray*} V=\frac {(n_1-1)S_1^2}{\sigma_1^2}+\frac {(n_2-1)S_2^2}{\sigma... ...}\sim \chi^2_{n_1+n_2-2}\raisebox{-1.2mm}{\scriptsize {$\circ$}} \end{eqnarray*}$

則

$\begin{eqnarray*} T_1=\frac {Z}{\sqrt{V/(n_1+n_2-2)}}\sim \mathcal{T}_{n_1+n_2-2}\raisebox{-1.2mm}{\scriptsize {$\circ$}} \end{eqnarray*}$

若 $\sigma_1^2, \sigma_2^2$ 未知且不相等, 則並非統計量。但若 $\sigma_1^2=\sigma_2^2$ ，則，其中

$\displaystyle T=\frac {(\overline{Y}-\overline{X})-(\mu_2-\mu_1)}{\sqrt{\frac {(n_1-1)S_1^2+(n_2-1)S_2^2}{n_1+n_2-2}}\sqrt{\frac {1}{n_1}+\frac {1}{n_2}}}$

為一有 $\mathcal{T}_{n_1+n_2-2}$ 分佈之統計量。

注意：請先 load package "ctest"。(若為新版 R1.9.0版，則此 package改

為"stats"。)

T-檢定：t.test(x, y=NULL, alternative=c("two.sided", "less", "greater"), mu=0, paired=FALSE, var.equal=FALSE, conf.level=0.95)。

參數說明：

x：欲做檢定的資料，必須是數值向量物件；
y：欲做兩個樣本檢定的另一筆資料，必須是數值向量物件，預設為 "NULL" 表示只有單一樣本的檢定；
alternative：為檢定中的對立假設，必須為 "two.sided", "less", "greater"其中一項，預設為 "two.sided"；
mu：若為單一樣本則表示"mean"的值，若為兩個獨立樣本則表示兩個樣本"mean"的差距；
paired：是否為成對樣本，預設為"FALSE"；
var.equal：兩個樣本的"variance"是否相等，預設為"FALSE"；
conf.level：信賴區間的信心水準，預設為"0.95"。

資料說明：

利用已知分佈(常態分佈)生成隨機亂數並進行檢定分析。生成三組常態分佈的隨機亂數資料，分別為 $\mathcal{N}(0,1)$ ， $\mathcal{N}(5,1)$ ， $\mathcal{N}(5,5)$ ，每組資料各有10筆數據。資料內容如表 1。

表 1 由常態分佈生成之隨機亂數數據

	$\mathcal{N}(0,1)$	$\mathcal{N}(5,1)$	$\mathcal{N}(5,5)$
1	1.00405702	5.82325516	2.85546774
2	-0.37944062	3.65857746	9.41795098
3	-1.33690441	5.08153128	-2.51473331
4	1.70595851	4.63310514	2.78444268
5	-1.021613848	4.78817883	-4.51136987
6	0.02488106	5.578173303	0.15908764
7	-2.03636920	5.74009755	6.02712745
8	0.27912606	4.60472340	8.43356766
9	-0.04036002	4.94552555	12.54101082
10	1.42386970	4.79023810	3.17784588

　單樣本T檢定之例：

由單樣本之T檢定的結果可知檢定統計量 t 為 -0.0986，且其值為0.9236, 此值大於所設定的顯著水準。故由分析結果知此筆數據不拒絕虛無假設 $H_0:\mu=0$ 。在分析結果中, 也列出了95%信賴區間及樣本平均。

範例程式碼：

>norm2.test<-data.frame(rnorm(10,mean=0,sd=1),
+ rnorm(10,mean=5,sd=1),rnorm(10,mean=5,sd=5))

> t.test(norm2.test[,1],mu=0,alternative =c("two.sided"),
+ conf.level = 0.95)

　二樣本T檢定之例：(假設變異數相等)

利用表 1的 $\mathcal{N}(0,1)$ 及 $\mathcal{N}(5,1)$ 之數據來進行二樣本之T檢定分析。指令與單樣本之T檢定為同一指令，即“t.test”。若一開始並不知道此二筆數據, 是由 $\mathcal{N}(0,1)$ 及 $\mathcal{N}(5,1)$ 分佈所產生的，且假設變異數是相等的，利用T檢定來作分析，可得其值為9.268e-10，此值小於所設定的顯著水準。故由分析結果知此數據拒絕虛無假設。同樣的, 在分析結果中，也列出了95%信賴區間及二組資料的樣本平均。

範例程式碼：

> t.test(norm2.test[,1],norm2.test[,2],alternative =
+ c("two.sided"),paired=F,var.equal = T,conf.

+ level = 0.95)

　二樣本T檢定之例：(假設變異數不相等)

若假設變異數是不相等的，可得其值為 1.856e-8, 此值小於所設定的顯著水準。故由分析結果知此數據同樣拒絕虛無假設 $H_0:\mu_1=\mu_2$ 。同時也在分析結果中，列出了95%信賴區間及二組資料的樣本平均。

範例程式碼：

> t.test(norm2.test[,1],norm2.test[,2],alternative =
+ c("two.sided"),paired=F,var.equal = F,

+ conf.level = 0.95)

F-檢定

(F- test)

名稱

說明

F-檢定

(F-test)

用來檢定兩個統計量是否估計相等的變異數。大的F值表示分子的統計量可能估計較大的變異數。
F-檢定亦稱為變異數比例檢定。
兩組樣本大小分別為和的兩組樣本取自同一個常態分佈，則此母體變異數的兩個估計值和應近似相等。要是比值不接近於1，那就有理由認為這兩個樣本可能來自不同的母體。
設有兩組獨立的隨機樣本 $X_1,\cdots,X_{n_1}$ , $Y_1,\cdots,Y_{n_2}$ , 分別有 $\mathcal{N}(\mu_1,\linebreak\sigma_1^2)$ 及 $\mathcal{N}(\mu_2,\sigma_2^2)$ 分佈。又以，分別表兩組樣本之樣本變異數。欲檢定
$H_0:\sigma^2_1/\sigma^2_2=1$ 。先設 $\mu_1,\mu_2$ 皆為已知。則
$\begin{eqnarray*} \frac {\sum_{i=1}^{n_1} (X_i-\mu_1)^2/(n_1\sigma_1^2)}{\sum_{j=1}^{n_2} (Y_j-\mu_2)^2/(n_2\sigma_2^2)}\sim \mathcal{F}_{n_1,n_2}, \end{eqnarray*}$
若 $\mu_1,\mu_2$ 皆為未知，而為真時，則
$\begin{eqnarray*} \frac {S_1^2}{S_2^2}\sim \mathcal{F}_{n_1-1,n_2-1}\raisebox{-1.2mm}{\scriptsize {$\circ$}} \end{eqnarray*}$

注意：請先 load package "ctest"。(若為新版 R1.9.0版，則此 package改

為"stats"。)

F-檢定：var.test(x, y, ratio=1, alternative=c("two.sided", "less", "greater"), conf.level=0.95)。

參數說明：

x, y：分別為兩個樣本的資料，必須是數值向量物件；
ratio：樣本"x"的變異數與樣本"y"的變異數的比值，預設為"1"；
alternative：為檢定中的對立假設，必須為 "two.sided", "less", "greater"其中一項，預設為 "two.sided"；
conf.level：信賴區間的信心水準，預設為"0.95"。

資料說明：　　

利用表 1的 $\mathcal{N}(0,1)$ 及 $\mathcal{N}(5,5)$ 數據來進行變異數的檢定分析。指令為“ var.test”。若一開始並不知道此二筆數據，是由 $\mathcal{N}(0,1)$ 及 $\mathcal{N}(5,5)$ 分佈所產生的，利用變異數檢定分析可得其值為0.0001373，此值小於所設定的顯著水準。由分析結果知此數據拒絕虛無假設 $H_0:\sigma^2_1/\sigma^2_2=1$ 。同樣的，在分析結果中，亦列出了95%信賴區間及二組資料之樣本變異數的比例值。

範例程式碼：

> var.test(norm2.test[,1],norm2.test[,3],ratio=1,
+ alternative =c("two.sided"),conf.level = 0.95)

卡方檢定

(chi-square test)

名稱

說明

卡方檢定

(chi-sqaure test)

卡方檢定又稱為皮爾生之卡方適合度檢定(Pearson's chi-square goodness-of-fit test)，是最常用的適合度檢定法之一。
"fit"一詞，就是指機率模型是否合適。
對一隨機現象，由收集到的數據，想檢定某一模型對此組數據是否合適。
想區別數據的偏差是由於機運所產生，或真的是因模型不夠精確，這種過程變統稱為適合度檢定。
皮爾生卡方(Pearson )統計量為

。

顯然是在測量在之下，觀測頻率與期望頻率

之差異情況。

注意：請先 load package "ctest"。(若為新版 R1.9.0版，則此 package改

為"stats"。)

卡方檢定：chisq.test(x, y = NULL, correct = TRUE,
p = rep(1/length(x), length(x)),simulate.p.value = FALSE, B = 2000)。

參數說明：

x：為向量或矩陣物件。
y：向量物件。若"x"唯一矩陣物件則省略"y"；
correct：是否作連續性修正，預設為 "TRUE"；
p：與"x"有相同長度之向量的機率；
simulate.p.value：是否利用Monte Carlo simulation計算p-值；
B：利用Monte Carlo simulation所須之筆數。

資料說明：　　

以孟德爾著名的關於豌豆生長的實驗為例。他將有圓黃(round yellow)種子的與有縐綠(wrinkled green)種子的豌豆雜交。依其理論，會生長出圓黃、圓綠、縐黃及縐綠種子的後代之比率，應分別為9/16, 3/16, 3/16及1/16。經由一組有556個樣本的實驗，我們列出觀測頻率及期望頻率於表 2。

表 2 豌豆雜交後生長的觀測頻率及期望頻率

	圓黃	圓綠	縐黃	縐綠
觀測頻率	315	108	101	32
期望頻率	312.75	104.25	104.25	34.75

由表 2的資料，利用R的卡方檢定之指令“chisq.test”，所得結果，值為0.9254。因此無法拒絕虛無假設 :孟德爾的理論為正確。

範例程式碼：

> pea<-read.table("pea.txt")
> chisq.test(pea,p=c(9/16,3/16,3/16,1/16))

最大概似估計法

(method of maximum likelihood)

最大概似估計的理論架構及性質, 請參考請參考黃文璋(2003)。華泰文化事業股份有限公司。

名稱

說明

最大概似估計法

(method of maximum likelihood)

最大概似估計法，就是找參數 $\theta$ 之估計量 $\hat{\theta}$ ，使得在 $\theta=\hat{\theta}$ 之下，會最可能產生數據 $\mbox{\mathversion{bold}{$x$}}$ 。本來要先給出 $\theta$ ，樣本 $\mbox{\mathversion{bold}{$x$}}$ 的分佈才會完全決定。現由觀測到的值 $\mbox{\mathversion{bold}{$x$}}$ 倒回去推想, 怎樣的 $\theta$ ，才會使此 $\mbox{\mathversion{bold}{$x$}}$ 在諸多可能的 $\mbox{\mathversion{bold}{$x$}}$ 中拔得頭籌？若 $\hat{\theta}$ 存在，便稱為 $\theta$ 之最大概似估計值(maximum likelihood estimate, 簡寫為MLE)。
利用最大概似估計法可推得一些常見分佈的最大概似估計值。以 $\mathcal{N}(\mu,\sigma^2)$ 來說, 設有個樣本，, $\cdots$ , 。若 $\mu$ 及 $\sigma^2$ 皆未知, 則可推得 $\mu$ 及 $\sigma^2$ 的最大概似估計值分別為 $\hat{\mu}=\bar{x}_n$ 及 $\hat{\sigma}^2=\sum_{i=1}^n(x_i-\bar{x}_n)^2/n$ 。而參數為 $\lambda$ 的指數分佈之最大概似估計值則為 $\hat{\lambda}=1/\bar{x}_n$ 。

注意：請先 load package "MASS"。

最大概似估計：fitdistr(x, densfun, start)。

參數說明：

x：為向量或矩陣物件。
densfun：為一字串或計算分佈值的函數。目前我們測試過已可使用的函數為"gamma"，"exponential"，"normal"，"t"，"weibull"，"Negative Binomial"。
start：給定參數的列表，此部分可省略。

資料說明：　　

利用R生成10筆 $\mathcal{N}(0,1)$ 的數據，如表 3。由R的指令計算後可得此筆資料的 $\hat{\mu}=-0.008086072$ 及 $\hat{\sigma}^2=0.839037210$ ，由公式推導的結果 $\mu$ 及 $\sigma^2$ 之最大概似估計值分別為 $\hat{\mu}=\bar{x}_n=-0.008086072$ 及 $\hat{\sigma}^2=\sum_{i=1}^n(x_i-\bar{x}_n)^2/n=0.839037210$ 。

表 3 由 $\mathcal{N}(0,1)$ 生成之10筆數據

1	-1.25494872994457	2	0.580494591832429
3	-0.203463056389231	4	0.0507923242732363
5	-0.400148582512666	6	-0.133561998301612
7	-1.48978604201467	8	0.883319416939335
9	1.19584395609907	10	0.690597401520781

範例程式碼：

> simnorm<- rnorm(10,mean=0,sd=1)
> fitdistr(simnorm,"normal")

> mean(simnorm) $\mu$ 之最大概似估計值

> sqrt((10-1)*var(simnorm)/10) $\sigma^2$ 之最大概似估計值

同樣地，利用R生成10筆指數分佈參數 $\lambda=0.5$ 的數據, 如表 4。透過R的計算可得 $\hat{\lambda}=0.6530994$ ，由公式推導的結果 $\lambda$ 之最大概似估計值為 $\hat{\lambda}=1/\bar{x}_n=0.6531623$ 。

表 4 由參數 $\lambda=0.5$ 的指數分佈生成之10筆數據

1	6.18360018696556	2	0.0952219185649138
3	0.92688906379044	4	0.783767773644048
5	0.849087740046285	6	0.37164671998471
7	2.23702448970618	8	0.509015057058229
9	0.381319892592728	10	2.97255648867447

範例程式碼：

> simnorm<- rnorm(10,mean=0,sd=1)
> fitdistr(exp,"gamma",shape=1)

> 1/mean(exp) $\lambda$ 之最大概似估計值

從求常態分佈及指數分佈參數的最大概似估計值的結果中，可看出此指令為數值計算的結果會與實際利用公式推導出的估計值有些微誤差。在常態分佈的例子中，不論公式計算或透過R來求最大概似估計值皆可得到同樣的結果，但是在指數分佈的例子中，兩個估計值有些微的誤差，兩者的差為 0.000629。當樣本數夠多時此誤差值會越小。　

區間估計

(interval estimation)

名稱

說明

區間估計

(interval estimation)

在此我們目前僅給出常態分佈期望值的區間估計。
設 $X_1,\cdots,X_n$ 為一組由 $\mathcal{N}(\mu,\sigma^2)$ 分佈所產生之隨機樣本，欲給出 $\mu$ 之信賴區間。先設 $\sigma^2$ 已知。由於樣本平均 $\overline{X}$ 有 $\mathcal{N}(\mu,\sigma^2/n)$ 分佈，因此 $(\overline{X}-\mu)/(\sigma/\sqrt{n})$ 有 $\mathcal{N}(0,1)$ 分佈，故
$\displaystyle P_{\mu}(\frac {\vert\overline{X}-\mu\vert}{\sigma/\sqrt{n}}\leq z_{1-\alpha/2})=1-\alpha,$
與 $\mu$ 無關。即得
$\displaystyle \left[\overline{X}-z_{1-\alpha/2}\frac {\sigma}{\sqrt{n}}, \overline{X}+z_{1-\alpha/2}\frac {\sigma}{\sqrt{n}}\right]$
為 $\mu$ 之一信賴係數為 $1-\alpha$ 之信賴區間。若 $\sigma^2$ 未知，則以 $\displaystyle \left[\overline{X}-t_{1-\alpha/2,n-1}\frac {S}{\sqrt{n}}, \overline{X}+t_{1-\alpha/2,n-1}\frac {S}{\sqrt{n}}\right]$ 為 $\mu$ 之 $1-\alpha$ 信賴區間，其中 $S=\sqrt{S^2}=\sqrt{\sum_{i=1}^n (X_i-\overline{X})^2/(n-1)}$ 。

注意：請先 load package "ctest"。(若為新版 R1.9.0版，則此 package改

為"stats"。)

區間估計：t.test$conf.int。

參數說明：

利用“t.test”指令可給出單樣本之檢定的結果，在此我們只須多加一些指令就可將常態分佈期望值的區間估計求出，此指令即為“t.test$conf.int”。

同樣的方式也可只列出“t.test”檢定結果的單一個值, 只須將“ conf.int”改成所要求之值的指令即可, 對應的指令參考表 5 $\circ$

表 5 有關`` t.test''的一些細部指令

指令	對應指令的意義
statistic	檢定統計量的值
parameter	檢定的自由度
p.value	檢定的值
conf.int	信賴區間
estimate	參數的估計值
null.value	虛無假設的檢定內容, 檢定平均值或二平均值的差
alternative	虛無假設採用單邊或雙邊檢定
method	檢定方法, 單樣本檢定或雙樣本檢定
data.name	檢定的資料名稱

資料說明：　　

以表 3的數據為例,並假設此筆數據的 $\mu$ 及 $\sigma^2$ 皆未知。

範例程式碼：

> t.test(simnorm)$conf.int
> mean(simnorm)+qt(0.05/2,9)*sqrt(var(simnorm))/sqrt(10)

由公式直接求得上信賴界
> mean(simnorm)-qt(0.05/2,9)*sqrt(var(simnorm))/sqrt(10)

由公式直接求得下信賴界