第二章 資料的蒐集與性質

25
第第第 第第第第第第第第 第第第 第第第第第第第第

description

第二章 資料的蒐集與性質. 學習蒐集資料的方法。 瞭解資料的不同種類。 認識四種資料的衡量尺度。. 學 習 目 標. 本 章 架 構. 2.1 資料的種類 2.2 資料的蒐集與彙整 2.3 資料的衡量尺度. 2.1 資料的種類. 2.1.1 資料的來源 2.1.2 資料本身的特性 2.1.3 資料的發生時間 2.1.4 資料的數學特性. 2.1.1 資料的來源. 一般可由以下兩個來源來獲得資料,而統計學所指之資料乃以外部資料為主 : - PowerPoint PPT Presentation

Transcript of 第二章 資料的蒐集與性質

Page 1: 第二章 資料的蒐集與性質

第二章 資料的蒐集與性質第二章 資料的蒐集與性質

Page 2: 第二章 資料的蒐集與性質

學 習 目 標學 習 目 標

1.1. 學習蒐集資料的方法。學習蒐集資料的方法。2.2. 瞭解資料的不同種類。瞭解資料的不同種類。3.3. 認識四種資料的衡量尺度。認識四種資料的衡量尺度。

Page 3: 第二章 資料的蒐集與性質

本 章 架 構本 章 架 構

2.1 2.1 資料的種類資料的種類 2.2 2.2 資料的蒐集與彙整資料的蒐集與彙整 2.3 2.3 資料的衡量尺度資料的衡量尺度

Page 4: 第二章 資料的蒐集與性質

2.1 2.1 資料的種類資料的種類

2.1.1 2.1.1 資料的來源資料的來源 2.1.2 2.1.2 資料本身的特性資料本身的特性 2.1.3 2.1.3 資料的發生時間資料的發生時間 2.1.4 2.1.4 資料的數學特性資料的數學特性

Page 5: 第二章 資料的蒐集與性質

2.1.1 2.1.1 資料的來源資料的來源

一般可由以下兩個來源來獲得資料,而統計學所指之資料一般可由以下兩個來源來獲得資料,而統計學所指之資料乃以外部資料為主 : 乃以外部資料為主 :

1.1. 內部資料:這些來源包括會計記錄、庫存記錄、薪水單、內部資料:這些來源包括會計記錄、庫存記錄、薪水單、銷售發票、設備保養記錄、應酬帳目、雇員考察、設備失銷售發票、設備保養記錄、應酬帳目、雇員考察、設備失靈的調查與雇員意外等。 靈的調查與雇員意外等。

2.2. 外部資料:這些來源包括初級外部資料:這些來源包括初級 (primary)(primary) 與次級與次級 (secondary)(secondary)資料。資料。

Page 6: 第二章 資料的蒐集與性質

2.1.1 2.1.1 資料的來源資料的來源 (( 續續 ))

初級資料初級資料 (primary data)(primary data) : : 資料的蒐集是因某一特定問題而起。例如以問卷資料的蒐集是因某一特定問題而起。例如以問卷調查取得大學生對於我國政府「戒急用忍」政策之調查取得大學生對於我國政府「戒急用忍」政策之看法,此資料即為初級資料。看法,此資料即為初級資料。

次級資料次級資料 (secondary data)(secondary data) : : 資料本身並非為特定問題而蒐集,它可能因其他資料本身並非為特定問題而蒐集,它可能因其他的研究或報告而已被彙整成檔案。例如政府或民營的研究或報告而已被彙整成檔案。例如政府或民營企業每年的出版品或報告,這些數據並非為某一特企業每年的出版品或報告,這些數據並非為某一特定的研究而整理,故均為次級資料。定的研究而整理,故均為次級資料。

Page 7: 第二章 資料的蒐集與性質

例例 2.1 2.1 初級資料抑或是次級資料?初級資料抑或是次級資料? 請判斷以下五個資料是屬於初級資料或是次級資料?請判斷以下五個資料是屬於初級資料或是次級資料?1.1. 自經濟新報取得民國九十年台積電股票的每日交易收盤價。自經濟新報取得民國九十年台積電股票的每日交易收盤價。2.2. 工廠裡品質管制員自某天產品中抽出工廠裡品質管制員自某天產品中抽出 100100 瓶咖啡並測量其瓶咖啡並測量其

容量,以瞭解自動裝瓶器是否應調整?容量,以瞭解自動裝瓶器是否應調整?3.3. 為即將上市的新產品進行市場分析,顧問公司先行對為即將上市的新產品進行市場分析,顧問公司先行對 3030

位顧客施測,以取得他們試用的滿意度資料。位顧客施測,以取得他們試用的滿意度資料。4.4. 利用網路取得行政院主計處所公佈過去二十四個月的全國利用網路取得行政院主計處所公佈過去二十四個月的全國

失業率數據。失業率數據。5.5. 某政黨為推出公元某政黨為推出公元 20042004 年的總統候選人,先行對全國合年的總統候選人,先行對全國合

格選民作民意調查,取得格選民作民意調查,取得 10001000 位的看法之資料。位的看法之資料。解:解:初級資料有初級資料有 22 、、 33 和和 55 ;次級資料為;次級資料為 11 和和 44 。。

Page 8: 第二章 資料的蒐集與性質

2.1.2 2.1.2 資料本身的特性資料本身的特性 屬質資料屬質資料 (qualitative data)(qualitative data) : : 屬質資料又稱為類別資料,凡是本質上不能以數屬質資料又稱為類別資料,凡是本質上不能以數值來表示,僅能以類別區分的資料稱之。例如,性值來表示,僅能以類別區分的資料稱之。例如,性別、血型、教育程度、宗教信仰、教師學力等資料,別、血型、教育程度、宗教信仰、教師學力等資料,均為屬質資料。均為屬質資料。

屬量資料屬量資料 (quantitative data)(quantitative data) : : 是指本質上以數值來表示的資料。例如,身高、是指本質上以數值來表示的資料。例如,身高、體重、統計學期末考成績、台北市溫度等,均為屬體重、統計學期末考成績、台北市溫度等,均為屬量資料。量資料。

Page 9: 第二章 資料的蒐集與性質

產業景氣調查編製說明產業景氣調查編製說明 臺灣廠商經營調查係參考西德臺灣廠商經營調查係參考西德 IFOIFO 經濟研究之「景氣測驗」經濟研究之「景氣測驗」 (B(B

usiness Test)usiness Test)及日本之「企業調查」 及日本之「企業調查」 (Economic Survey of Selec(Economic Survey of Selected Enterprises)ted Enterprises) 方法,以問卷方式,廣泛徵詢企業家的營業狀方法,以問卷方式,廣泛徵詢企業家的營業狀況及未來景氣之判斷。接受調查的廠家約況及未來景氣之判斷。接受調查的廠家約 800800家,調查內容包家,調查內容包括生產、銷售、訂貨、員工、加班、存貨、價格、成本等項目。括生產、銷售、訂貨、員工、加班、存貨、價格、成本等項目。

所詢問的問題包括所詢問的問題包括屬質屬質及及屬量屬量兩種形式。屬量的問題係詢問業兩種形式。屬量的問題係詢問業者某種項目之絕對數字的如銷售額、訂單總額等。屬質的問題者某種項目之絕對數字的如銷售額、訂單總額等。屬質的問題則包括業者之判斷與業者之預期兩大類,業者判斷主要係詢問則包括業者之判斷與業者之預期兩大類,業者判斷主要係詢問業者目前或本月對上月之營業狀況好、滿意或壞,生產或銷售業者目前或本月對上月之營業狀況好、滿意或壞,生產或銷售增加、不變或減少,價格上漲、不變或下跌,目前存貨量過多、增加、不變或減少,價格上漲、不變或下跌,目前存貨量過多、適當或過少等;業者預期則詢問未來三個月該公司的營業狀況適當或過少等;業者預期則詢問未來三個月該公司的營業狀況比目前好轉、不變或轉壞等。 比目前好轉、不變或轉壞等。

(( 資料來源:行政院經濟建設委員會資料來源:行政院經濟建設委員會 ))

Page 10: 第二章 資料的蒐集與性質

例例 2.2 2.2 屬質的資料抑或是屬量的資料?屬質的資料抑或是屬量的資料? 某校管理學院五個系的基本資料:系別、智商平均、某校管理學院五個系的基本資料:系別、智商平均、畢業生人數、教師學歷及學制,哪些是屬質的資料?畢業生人數、教師學歷及學制,哪些是屬質的資料?哪些是屬量的資料?哪些是屬量的資料?

解:解: 屬質的資料有系別、教師學歷及學制;屬質的資料有系別、教師學歷及學制; 屬量的資料為智商平均及畢業生人數。屬量的資料為智商平均及畢業生人數。

Page 11: 第二章 資料的蒐集與性質

2.1.3 2.1.3 資料的發生時間資料的發生時間 橫斷面資料橫斷面資料 (cross-section data)(cross-section data) : : 指發生於同一時間點或同一期間的資料。例如民指發生於同一時間點或同一期間的資料。例如民國九十年各銀行的投資報酬率,因其考慮一年的期國九十年各銀行的投資報酬率,因其考慮一年的期間,故為橫斷面的資料。間,故為橫斷面的資料。

時間數列資料時間數列資料 (time-series data)(time-series data) : : 指發生在不同時間點或不同期間的資料。例如最指發生在不同時間點或不同期間的資料。例如最近十年的每年全國失業率及市場利率等,因其考慮近十年的每年全國失業率及市場利率等,因其考慮不同的時間點,故為時間數列資料。不同的時間點,故為時間數列資料。

Page 12: 第二章 資料的蒐集與性質

橫斷面資料—聯電股價與交易量日走勢圖橫斷面資料—聯電股價與交易量日走勢圖

Page 13: 第二章 資料的蒐集與性質

時間序列資料—聯電股價與交易量月趨勢圖時間序列資料—聯電股價與交易量月趨勢圖

Page 14: 第二章 資料的蒐集與性質

例例 2.3 2.3 橫斷面資料與時間數列資料橫斷面資料與時間數列資料 表表 2.12.1呈現之資料為橫斷面資料。呈現之資料為橫斷面資料。

表表 2.22.2呈現之資料為時間數列資料。呈現之資料為時間數列資料。

表2.1 民國八十七年人壽保險投保率 (單位:%)

國 別 中華民國 美國 日本

投保率 99.02 132.49 581.55

表2.2 為民國八十年至八十九年我國的投保率 (單位:%)

年 度 80 81 82 83 84 85 86 87 88 89

投保率 36.12 41.79 47.33 54.94 61.81 69.80 81.87 99.02 108.68 121.41

Page 15: 第二章 資料的蒐集與性質

2.1.4 2.1.4 資料的數學特性資料的數學特性 間斷資料間斷資料 (discrete data)(discrete data) : : 又稱為離散資料,主要是以整數為計數單位,且各數值間又稱為離散資料,主要是以整數為計數單位,且各數值間無法插入任何另一數值。例如某校的各系學生人數、今年台無法插入任何另一數值。例如某校的各系學生人數、今年台灣地區的颱風個數、擲一公正骰子灣地區的颱風個數、擲一公正骰子 1010 次,出現正面的次數次,出現正面的次數等都是間斷資料。等都是間斷資料。

事實上,間斷資料可以是可數有限事實上,間斷資料可以是可數有限 (countable finite)(countable finite) ,或,或是可數無限是可數無限 (countable infinite)(countable infinite) 。。

連續資料連續資料 (continuous data)(continuous data) : : 指資料任意兩個數值之間可以再插入另一個數值,主要指資料任意兩個數值之間可以再插入另一個數值,主要

是以實數為範圍。換句話說,連續資料包含無限多個數值。是以實數為範圍。換句話說,連續資料包含無限多個數值。例如人的身高、體重、等待公車的時間、統計學期末考成績例如人的身高、體重、等待公車的時間、統計學期末考成績等都是連續資料。 等都是連續資料。

Page 16: 第二章 資料的蒐集與性質

例例 2.4 2.4 間斷資料抑或是連續資料?間斷資料抑或是連續資料?

請判斷下列四個資料是屬間斷的或連續的資料?請判斷下列四個資料是屬間斷的或連續的資料?1.1. 台中市的溫度。台中市的溫度。2.2. 中山高速公路每天的車禍數目。中山高速公路每天的車禍數目。3.3. 中正國際機場每天的起降次數。中正國際機場每天的起降次數。4.4. 連續兩架飛機抵達中正國際機場的空檔時間。連續兩架飛機抵達中正國際機場的空檔時間。

解:解:間斷資料有間斷資料有 22 和和 33 ;連續資料有;連續資料有 11 和和 44 。。

Page 17: 第二章 資料的蒐集與性質

2.2 2.2 資料的蒐集資料的蒐集 資料的蒐集資料的蒐集

普查普查 (census)(census) : : 對於母體中的每個個體進行全面性的調查。例對於母體中的每個個體進行全面性的調查。例如政府每十年進行一次的全國國民普查,即為普如政府每十年進行一次的全國國民普查,即為普查之實例。查之實例。

抽樣抽樣 (sampling)(sampling) : : 自欲研究的木體中取得部分個體的資料來進行自欲研究的木體中取得部分個體的資料來進行調查。例如抽取調查。例如抽取 1,0001,000 位民眾調查其對總統的施位民眾調查其對總統的施政滿意度,即為抽樣之實例。政滿意度,即為抽樣之實例。

Page 18: 第二章 資料的蒐集與性質

抽樣調查的必要性抽樣調查的必要性

普查工作在執行時須耗費大量人力、物力及時間才得以完成,普查工作在執行時須耗費大量人力、物力及時間才得以完成,常因母體資料取得不易而無法進行,因此在實務上運用普查常因母體資料取得不易而無法進行,因此在實務上運用普查方法進行資料蒐集的情形很少見 。方法進行資料蒐集的情形很少見 。

採用抽樣的主要理由為:採用抽樣的主要理由為: 1. 1. 節省時間、人力及經費。節省時間、人力及經費。

2. 2. 資料的準確性。資料的準確性。3. 3. 減少損失。減少損失。

Page 19: 第二章 資料的蒐集與性質

抽樣的程序抽樣的程序

在抽樣過程中,應視研究目的來進行在抽樣過程中,應視研究目的來進行 (1)(1) 母體界定、母體界定、 (2)(2) 確認確認抽樣架構、抽樣架構、 (3)(3) 抽樣設計、抽樣設計、 (4)(4) 收集樣本、乃至收集樣本、乃至 (5)(5) 最後的評最後的評估工作,這些過程都是不可或缺的重要步驟。抽樣為許多市估工作,這些過程都是不可或缺的重要步驟。抽樣為許多市場調查的開端,每一步驟之不同方法組合均會造成不同結果,場調查的開端,每一步驟之不同方法組合均會造成不同結果,研究者宜謹慎選擇並徹底執行,促使市場調查有效而又完整。研究者宜謹慎選擇並徹底執行,促使市場調查有效而又完整。

Page 20: 第二章 資料的蒐集與性質

2.2 2.2 資料的蒐集(續)資料的蒐集(續) 資料的彙整原則資料的彙整原則

系統化: 系統化: 藉由系統化使雜亂的初級資料或次級資料成為有系統藉由系統化使雜亂的初級資料或次級資料成為有系統之形式。例如對總統施政的調查,依問項之性質將其分之形式。例如對總統施政的調查,依問項之性質將其分為認同度、滿意度…等主題後,再進一步加以分析。為認同度、滿意度…等主題後,再進一步加以分析。

簡單化: 簡單化: 藉由簡單化可消除資料之複雜性,使繁雜之資料變成藉由簡單化可消除資料之複雜性,使繁雜之資料變成簡單、易懂之數據或圖表。例如以直方圖、圓形圖、集簡單、易懂之數據或圖表。例如以直方圖、圓形圖、集中趨勢量數、分散程度量數…等,來顯示資料之特性。中趨勢量數、分散程度量數…等,來顯示資料之特性。

Page 21: 第二章 資料的蒐集與性質

2.3 2.3 資料的衡量尺度資料的衡量尺度 名目尺度名目尺度 (nominal scale )(nominal scale ) : : 衡量無任何順序關係之類別資料,此種類型資料衡量無任何順序關係之類別資料,此種類型資料之數學四則運算沒有任何意義。例如性別、血型。之數學四則運算沒有任何意義。例如性別、血型。

順序尺度順序尺度 (ordinal scale)(ordinal scale) :: 衡量有重要、大小、強弱、好壞程度等級順序之衡量有重要、大小、強弱、好壞程度等級順序之資料,但無法衡量不同等級間的差異大小,此種類資料,但無法衡量不同等級間的差異大小,此種類型資料之數學四則運算沒有任何意義。例如對政府型資料之數學四則運算沒有任何意義。例如對政府施政滿意度、地震強度資料。施政滿意度、地震強度資料。

Page 22: 第二章 資料的蒐集與性質

2.3 2.3 資料的衡量尺度資料的衡量尺度

區間尺度區間尺度 (interval scale)(interval scale) : : 衡量無固定原點之數量資料,其資料具有相同的衡量無固定原點之數量資料,其資料具有相同的衡量單位,又稱為等距尺度,此種類型資料之數學衡量單位,又稱為等距尺度,此種類型資料之數學四則運算中之加減運算有意義,但乘除運算沒有意四則運算中之加減運算有意義,但乘除運算沒有意義。例如台中市溫度。義。例如台中市溫度。

比例尺度比例尺度 (ratio scale)(ratio scale) : : 衡量固定原點之數量資料,此種類型資料之數學衡量固定原點之數量資料,此種類型資料之數學四則運算具有意義。例如國民年所得、公司營運業四則運算具有意義。例如國民年所得、公司營運業績。績。

Page 23: 第二章 資料的蒐集與性質

2.3 2.3 資料的衡量尺度(續)資料的衡量尺度(續)

通常名目尺度與順序尺度衡量的資料為屬質資料。 通常名目尺度與順序尺度衡量的資料為屬質資料。 區間尺度與比例尺度衡量的資料為屬量資料。區間尺度與比例尺度衡量的資料為屬量資料。 當一個資料的衡量尺度為比例尺度時,可以透過適當一個資料的衡量尺度為比例尺度時,可以透過適當的轉換成區間尺度、順序尺度或名目尺度。當的轉換成區間尺度、順序尺度或名目尺度。

不過反方向的轉換是不允許的,也就是說名目尺度不過反方向的轉換是不允許的,也就是說名目尺度衡量的資料不能轉換成順序尺度衡量的資料。 衡量的資料不能轉換成順序尺度衡量的資料。

Page 24: 第二章 資料的蒐集與性質

2.3 2.3 資料的衡量尺度(續資料的衡量尺度(續 11 )) 在問卷調查中,常常會訪問受訪者對某項產品的滿意度,此在問卷調查中,常常會訪問受訪者對某項產品的滿意度,此

時資料的衡量尺度為順序尺度,但是若想計算所謂的平均滿時資料的衡量尺度為順序尺度,但是若想計算所謂的平均滿意度,則此時應以區間尺度的形式來衡量滿意度,此時則建意度,則此時應以區間尺度的形式來衡量滿意度,此時則建議以非常滿意給予議以非常滿意給予 55 分,滿意給予分,滿意給予 44 分,普通給予分,普通給予 33 分,不分,不滿意給予滿意給予 22 分,非常不滿意給予分,非常不滿意給予 11 分之方式來衡量滿意度。分之方式來衡量滿意度。

若年齡資料為若年齡資料為 2020歲、歲、 3232歲、歲、 1111 歲、…歲、… .. ,則其係以比例尺,則其係以比例尺度的形式來蒐集。如果將它轉換成,以下列的方式來表示:度的形式來蒐集。如果將它轉換成,以下列的方式來表示:““ 1”1”代表代表 1010歲以下,“歲以下,“ 2”2”代表代表 11~2011~20歲,“歲,“ 3”3”代表代表 21~321~300歲,”歲,” 4”4”代表代表 31~4031~40歲,“歲,“ 5”5”代表代表 41~5041~50歲,“歲,“ 6”6”代表代表51~6051~60歲,“歲,“ 7”7”代表代表 6060歲以上,此時資料的衡量尺度為區歲以上,此時資料的衡量尺度為區間尺度。間尺度。

當資料是以當資料是以 1010歲以下、歲以下、 11~2011~20歲、歲、 21~3021~30歲、歲、 31~4031~40歲、歲、 441~501~50歲、歲、 51~6051~60歲和歲和 61~7061~70歲之方式來蒐集時,那麼就不歲之方式來蒐集時,那麼就不能轉換成以比例尺度衡量之資料。 能轉換成以比例尺度衡量之資料。

Page 25: 第二章 資料的蒐集與性質

練習思考題練習思考題 試問下列試問下列 1010 個資料是屬於屬質資料或屬量資料,且資料尺度個資料是屬於屬質資料或屬量資料,且資料尺度

是屬於何種衡量尺度? 是屬於何種衡量尺度? 1.1. 學院年級制度;學院年級制度;2.2. 學院科系制度;學院科系制度;3.3. 車輛顏色;車輛顏色;4.4. 電話通話時間;電話通話時間;5.5. 血壓;血壓;6.6. 體溫;體溫;7.7. 是否擁有大哥大;是否擁有大哥大;8.8. 電影分級制度;電影分級制度;9.9. 年齡;年齡;10.10. 讀書之時數。讀書之時數。