CHAPTER 11 單一母體推論
description
Transcript of CHAPTER 11 單一母體推論
CHAPTER 11CHAPTER 11單一母體推論單一母體推論
基礎統計學STATISTICS FOR MANAGEMENT
AND ECONOMICS
目錄目錄
11.1 導論11.2 母體標準差未知時的母體平均數推論11.3 母體變異數的推論11.4 母體比例推論11.5 公式彙整
11.111.1 導論導論估計和檢定母體平均數,我們都假設母體標準差已知,一般在應用時母體標準差是未知的
現在我們要提出其他的統計技術首先,我們要識別估計或檢定的參數然後確認參數的估計式及其抽樣分配再利用簡單的數學運算求出信賴區間估計式與檢定統計量
應用應用 11
為了分析 ATM 的潛在數量與設置的問題,一家銀行針對數以千計的 ATM 使用者,進行問卷調查,並計算每人每年實際使用的次數。此處所關心的問題是探討 ATM 使用者的母體,因為銀行業者想要確認每位使用者每年的使用次數,所以呈現的資料是計量資料,其估計參數為每人每年使用的平均次數
應用應用 22
測量組裝線完成一項組裝工作所花費時間的實驗中,該組裝線工人工作時間的隨機樣本被測量。此實驗中主管人員所關注的問題在於描述“計量資料” 組裝工作時間的母體。主管人員在這樣的狀況下,欲估計或檢定的參數為母體平均數
應用應用 33
尼爾森公司 (A. C. Nielsen) ,尼爾森專注在描述電視收視觀眾母體的問題。因此所搜集的資料是屬性資料。當然,此處尼爾森所感興趣的參數是觀看不同節目的觀眾比例
11.211.2 母體標準差未知時的母體平均數推論母體標準差未知時的母體平均數推論當母體標準差 為已知時,信賴區間估計式與檢定統計量可以從樣本平均數抽樣分配獲得,並且表示為下列式子:
/
xz
n
11.211.2 母體標準差未知時的母體平均數推論母體標準差未知時的母體平均數推論上述的抽樣分配就無法使用,必須以樣本的標準差
s 來取代母體的標準差 ,這樣的做法稱為 t- 統計量 (t-statistic) ,是由數學家高斯特 (William S. Gosset) 在 1908 年提出學生 t (Student t) 分配,簡稱 t 分配, Gosset 並將其定義成下列的式子:
當抽樣母體呈常態分配時,學生 t 分配存在,茲所以稱為學生 t 分配,是因為高斯特在發表時,使用“學生”的筆名。
/
xt
s n
11.211.2 母體標準差未知時的母體平均數推論母體標準差未知時的母體平均數推論
11.211.2 母體標準差未知時的母體平均數推論母體標準差未知時的母體平均數推論
11.211.2 母體標準差未知時的母體平均數推論母體標準差未知時的母體平均數推論
At At
為了計算信賴區間估計值與拒絕域的設定,進行假設檢定時,需要先決定臨界值 (critical value) 。在附錄 t 分配的臨界值表已界定了 的數值,該 的數值為其學生 t 分配右邊面積為 A 時的數值
11.211.2 母體標準差未知時的母體平均數推論母體標準差未知時的母體平均數推論
11.211.2 母體標準差未知時的母體平均數推論母體標準差未知時的母體平均數推論0.05 ,10 1.812t
11.211.2 母體標準差未知時的母體平均數推論母體標準差未知時的母體平均數推論
11.2.111.2.1 母體標準差未知時母體平均數的檢母體標準差未知時母體平均數的檢定定
例題例題 11.111.1UPS及 FedEx 等快遞公司在服務及價錢上的較勁,減少成本的方法之一即是保持成本低廉的工資以及依照需求來僱用及縮減員工。問題是往往生手不及老手在生產作業上更具經驗,也因此決定員工需求數目及工作排程是一件困難的工作,目前工作所制定的排程,乃依據新進員工可以在 1 週內達到有經驗員工90% 以上的工作水準。因此某快遞公司的經理進行一項實驗,他在 1小時內觀察 50 位新進員工,並記錄某路線他們所處理完成的包裹數目 ( 資料存於XM11-01) ,結果列示如下。已知有經驗員工一小時平均可以完成 500個包裹,試問此經理對於新進員工平均完成的包裹數目大於 450個的信念是否正確?
例題例題 11.111.1
例題例題 11.111.1
統 計方法確認對立假設應設成:
虛無假設設成:
檢定統計量為:
1 : 450H
0 : 450H
1/
xt n
s n
自由度
例題例題 11.111.1
筆算 作答拒絕域為:
我們需要計算樣本平均數 及樣本標準差 s ,從資料中我們獲得:
因此,
, 1 0.05 , 49 0.05 , 50 1.676nt t t t x
23,019ix 及 2 10,671,357ix
23,019 460.3850
ixxn
例題例題 11.111.1
以及,
因此,
2 22
2
( ) (23,019)10,671,357
50 1,507.551 50 1
ii
xx
nsn
2 1,507.55 38.83s s
虛無假設的 為 450 。檢定統計量的值為:
因為 1.89大於 1.676 ,所以我們拒絕虛無假設。請參照圖 11.5 :
460.38 450 1.89/ 38.83 / 50
xt
s n
例題例題 11.111.1
結果解釋結果顯示有足夠證據推論新進員工完成的包裹平均數是大於有經驗員工的 90% 以上。因此,在此決策下所雇用的員工數應該是有效且能達成滿意的生產力。
11.2.211.2.2 估計母體平均數當其母體標準差位知時估計母體平均數當其母體標準差位知時
例題例題 11.211.2
過去的十年間,有許多公司致力於增進美國的生產及服務品質。達成生產高品質產品及服務的這些公司會被頒發年度獎勵。有一位投資者相信贏得獎勵的公司比起未獲獎勵的公司表現較佳,為了估計這些贏得獎勵公司的股票投資報酬率,他隨機抽取 50 家去年獲得品質獎勵的公司,並取得他們的年度投資報酬率 ( 資料存於 XM11-02) ,結果列示如下,此投資者想要知道他可以期待報酬率,並以 95% 的信賴區間進行估計量的計算
例題例題 11.211.2
例題例題 11.211.2
統計 方法確認參數是母體平均數 且其區間估計量為:
筆算作答
/ 2 sx tn
737.61ix 2 14,159.55ix 及
例題例題 11.211.2
因此,
以及
因此,
737.61 14.7550
ixxn
2 22
2
( ) (737.61)14,159.55
50 66.901 50 1
ii
xx
nsn
2 66.90 8.18 s s
因為 95% 信賴區間估計量為預定的,所以 ,且 。因此, 的 95% 信賴區間 延續例題 11.2 的估計量為:
1 0.95, 0.05, / 2 0.025
/ 2 , 1 0.025 , 49 0.025 , 50 2.009 nt t t
/ 28.1814.75 2.009 14.75 2.32
50LCL 12.43 UCL 17.07
sx tn
結果解釋我們估計上述的報酬平均數介於 12.53% 及 17.08% 之間
11.2.311.2.3 必要條件的檢查必要條件的檢查當介紹 t 分配時,我們指出 t 統計量是從常態母體中抽取的樣本,假若母體不是極端的非常態,此方法仍然有效
但在此時我們建議畫一直方圖來檢測分配
繪出例題 11.1 及例題 11.2 的直方圖。兩個直方圖都顯示為近似常態或至少不是極端地非常態
11.2.411.2.4 統計觀念的養成統計觀念的養成
11.311.3 母體變異數的推論母體變異數的推論11.3.111.3.1 統計量與抽樣分配統計量與抽樣分配
的點估計式就是樣本變異數( ) , 的點估計式 具有不偏及一致的特性
變異數的抽樣分配會因樣本數及 值的不同而改變其型態,然而,不管其樣本數及 值,抽樣分配將會呈現右偏
2 22s
2s
22
11.3.111.3.1 統計量與抽樣分配統計量與抽樣分配數學家已經證明差異平方和 [ 也等於 ] 除以母體變異數稱為卡方分配 (chi-squared distribution) ,自由度為 ,統計量為:
2( )ix x 2( 1)n s
1n
22
2
( 1)n s
11.3.111.3.1 統計量與抽樣分配統計量與抽樣分配
稱為卡方統計量 (X2 -statistic)。 X 為希臘字母,稱為 chi。
11.3.111.3.1 統計量與抽樣分配統計量與抽樣分配卡方分配卡方分配為 0到 的右偏分配。就像學生 t 分配,其形狀取決於自由度。圖 11.9 描繪幾個不同自由度的卡方分配
11.3.111.3.1 統計量與抽樣分配統計量與抽樣分配在卡方曲線下,某點以左邊面積等於 A的X2值,且被標示為 X2 A。我們不能使用 X2
A來代表左方面積 A ( 在 z及 t 時可使用 ) 的卡方值,因為卡方統計量永遠大於 0 。要表示左尾臨界值,須注意如果某一點以左的面積為 A ,那麼以右的面積必為 1-A,這是因為在卡方曲線下 ( 包括所有隨機分配 ) 的所有面積必須等於 1 。因此, 代表某一左側面積為 A 的點
21 A
11.3.111.3.1 統計量與抽樣分配統計量與抽樣分配圖 11.10 描繪具 與 的卡方分配。附錄中的 的臨界值,就是表 11.5 。舉例來說,要尋找自由度為 8 的卡方分配,以及某點右方的面積為 0.05 ,只要找到表 11.6左欄為 8 的自由度與上列標示 交會的地方即可找到:
2A
21 A
2
20.05
20.050 , 8 15.5073
若在相同分配中,要找尋出某點以左的面積為 0.05 ,只要找出其右區域為 0.95 的點你應該可以找到:
20.950 , 8 2.73264
11.3.211.3.2 檢定母體變異數檢定母體變異數
11.3.211.3.2 檢定母體變異數檢定母體變異數
例題例題 11.311.3容器裝填機器被用來包裝不同的液體,包括牛奶、飲料與塗料。理想的狀況下,裝填容量應該只有些微的差距,因為變動性太大會導致容量太少,有欺騙消費者之嫌,而有時容量裝太多,會造成成本的浪費。一家發展新型機器公司的總裁,誇耀該公司的機器可以持續性的填裝 1 公升 (1,000立方公分 ) 的容器且控制填裝的變異數少於 1立方公分。為了檢驗該說法的真實性, 25件 1 公升裝的樣本被隨機抽出並記錄結果 ( 資料存檔於 XM11-03) ,列示如下。為了避免四捨五入的問題,數字以減去 1,000 的方式表示,在 5% 顯著水準下,這些資料是否支持該公司總裁的聲明?
例題例題 11.311.3
例題例題 11.311.3
統計 方法確認
虛無假設可寫成:
完整的檢定假設列示如下:
21 1 :H
20 : 1H
20
21
: 1
: 1
H
H
例題例題 11.311.3
檢定統計量:
拒絕域:
22 ( 1)
n s
2 2 21 , 1 0.95 , 24 13.8484 n
例題例題 11.311.3
筆算 作答
因此,
統計量的值為:
2
3.6
21.3
i
i
x
x
2 22 ( ) ( 3.6)
21.3 20.825
ii
xx
n
8.20
1
8.201 X
2
2
2
22
XXisn
例題例題 11.311.3
結果解釋結果顯示並沒有足夠證據推論宣稱為真。就如之前所討論過的,結果並不能說變異數大於 1 ,只能推論我們不能支持變異數小於 1
11.3.311.3.3 估計母體變異數估計母體變異數
例題例題 11.411.4
2 2/ 2 , 1 0.005 , 24
2 21 / 2 , 1 0.995 , 24
45.5585
9.88623
n
n
2( 1)n s2
估計例題 11.3填充容量變異數 99% 的信賴區間筆算作答
在解答例題 11.3 中,我們發現 等於 20.8 ,從附錄 臨界值的表中,我們得到:
因此,
我們估計填充容量變異數介於 0.46及 2.10 之間
2
2/ 2
2
21 / 2
( 1) 20.8LCL 0.4645.5585
( 1) 20.8UCL 2.109.88623
n s
n s
2
結果解釋我們並沒有足夠證據推論母體變異數小於 1 。在此可以看到 的估計值介於 0.46及 2.10
11.3.411.3.4 簡述卡方分配的由來簡述卡方分配的由來
11.411.4 母體比例推論母體比例推論11.4.111.4.1 參數參數
當資料為屬性時,我們可以藉著算出每個數值出現次數,來描述母體或樣本
因此,描述單一屬性資料母體的參數為母體比例 p
11.4.211.4.2 統計量與抽樣分配統計量與抽樣分配用來估計及檢定母體比例的理想統計量是樣本比例,定義為:
此抽樣分配表示為:ˆ xp
n
ˆ
(1 ) /
p pz
p p n
11.4.211.4.2 統計量與抽樣分配統計量與抽樣分配
使用 來估計 p 值,因此便可以計算區間估計式
p̂
11.4.211.4.2 統計量與抽樣分配統計量與抽樣分配
例題例題 11.511.5
在 1998 年的秋天,一報紙發行者想要發行加拿大“全國性”新的報紙。他們相信此新報紙至少必須達到多倫多市場佔有率 12% 以上,才符合財務上的可行性。此新報紙發行計畫的過程中,有一針對 400 位多倫多讀者的市場調查被執行,在介紹將要發行報紙的簡單介紹後,一個問題被提出,即如果成本不超過 1個月 $20元,受訪的民眾是否有可能訂閱該報紙。調查結果有 58 位說到他們會訂閱報紙,試問此報紙發行者,可以提出此新報紙發行合乎財務可行性的結論嗎?
例題例題 11.511.5
統計方 法確認將對立假設設為:
虛無假設可設為:
檢定統計量為:
1 : 0.12H p
0 : 0.12H p
ˆ
(1 ) /
p pz
p p n
例題例題 11.511.5
筆算作答顯著水準設為 10%拒絕域為:
樣本比例為
檢定統計量的值計算如下:
0.10 1.28 z z z
58ˆ 0.145400
p
ˆ 0.145 0.12 1.54(1 ) / 0.12(1 0.12) / 400
p pz
p p n
例題例題 11.511.5
其 p 值為:
結果解釋 p 值為 0.0618 ,代表有足夠證據支持對立假設
( 1.54) 0.0618p P Z 值
例題例題 11.611.6
假設在 1998年 9月 28日星期一晚上 11點調查2,000 位觀眾 ( 資料存檔於 XM11-06) ,這些被調查的節目使用下列代碼1 Tonight Show with Jay Leno (NBC)2 The Late Show with David Letterman (CBS)3 Nightline (ABC)4 其他5 關電視
其中,有 226 位觀眾在觀看“ Tonight Show” 。如果在母體中有一億位潛在電視觀眾,試估計在95% 信賴水準下,觀眾觀看“ Tonight Show” 的數目
例題例題 11.611.6
統計方法確認區間估計式為:
筆算作答筆算作答檔案中的數目,比值為 226 ,因此:
/ 2ˆ ˆ(1 )
ˆp p
p zn
226ˆ 0.1132,000
xpn
例題例題 11.611.6
p的 95% 信賴區間估計值為:
如果有一億位潛在觀眾,我們估計轉台到“ Tonight Show” 的數目介於:
/ 2ˆ ˆ(1 ) (0.113)(0.887)ˆ 0.113 1.96 0.113 0.014
2,000p p
p zn
LCL 0.099 100,000,000 9,900,000
UCL 0.127 100,000,000 12,700,000
例題例題 11.611.6
結果解釋 我們估計介於 9.99% 及 12.7% 的觀眾收看“ Tonight Show” ,估計的數字是介於九百九十萬及一千二百七十萬之間
11.4.411.4.4 選擇樣本數以估計區間比例選擇樣本數以估計區間比例
11.4.411.4.4 選擇樣本數以估計區間比例選擇樣本數以估計區間比例我們假設在品牌喜好的調查中,想要估計在 95% 信賴水準下,消費者偏好某公司品牌的區間比例為 0.03 ,此表示當樣本被抽出所該計算的區間估計值將為 ,因此, ,既然 、 、 及 ,所以:
ˆ 0.03p
0.03W 1 0.95 0.05 / 2 0.025
/ 2 0.025 1.96z z
2ˆ ˆ1.96
0.03pq
n
11.4.411.4.4 選擇樣本數以估計區間比例選擇樣本數以估計區間比例為求解 n ,我們需要知道 ,但是 值為未知,我們可使用下列兩種方式以求得 n1. 方法 1
因為選擇這樣做會產生 的保守值
p̂ p̂
ˆ 0.5p
2
21.96 (0.5)(0.5)(32.67) 1,068
0.03n
11.4.411.4.4 選擇樣本數以估計區間比例選擇樣本數以估計區間比例2. 方法 2掌握 值的觀念如果我們認為 近似於 0.2
p̂p̂
2
21.96 (0.2)(0.8)(26.13) 683
0.03n
11.4.411.4.4 選擇樣本數以估計區間比例選擇樣本數以估計區間比例
11.4.411.4.4 選擇樣本數以估計區間比例選擇樣本數以估計區間比例
11.511.5 公式彙整公式彙整