測驗的效度

77
測測測測測 測測測測測 教教教教教教教 教教教教教

description

測驗的效度. 教育測驗與評量 胡悅倫教授. 第一節、效度的意義與原理. 效度的意義 效度的特性. 效度的意義. 效度( validity ):測驗分數的正確性 一個測驗能夠測量它所想要測量的特質的程度。 一個測驗在使用目的上的有效性,測驗能夠達到某種目的的程度。. 效度的特性. 效度無法直接測量。 效度的判斷,主要依據測驗分數的使用目的,或測驗結果的解釋。 效度是程度上的差別,而非全有或全無的問題。. 效度的特性(續). 效度在使用的目的和情境方面具有特殊性,故不宜視為普遍性的特質。 對某一測驗目的而言,此測驗有很高的效度,但對另一目的而言,則可能效度很低。 - PowerPoint PPT Presentation

Transcript of 測驗的效度

Page 1: 測驗的效度

測驗的效度測驗的效度

教育測驗與評量胡悅倫教授

Page 2: 測驗的效度

第一節、效度的意義與原理第一節、效度的意義與原理

效度的意義效度的特性

Page 3: 測驗的效度

效度的意義效度的意義

效度( validity):測驗分數的正確性一個測驗能夠測量它所想要測量的特質的程度。

一個測驗在使用目的上的有效性,測驗能夠達到某種目的的程度。

Page 4: 測驗的效度

效度的特性效度的特性效度無法直接測量。效度的判斷,主要依據測驗分數的使用目的,或測驗結果的解釋。效度是程度上的差別,而非全有或全無的問題。

Page 5: 測驗的效度

效度的特性(續)效度的特性(續)

效度在使用的目的和情境方面具有特殊性,故不宜視為普遍性的特質。對某一測驗目的而言,此測驗有很高的效度,但對另一目的而言,則可能效度很低。

例:手指靈巧測驗預測裝配手錶的能力:高效度預測銷售手錶的能力:沒有什麼效度

Page 6: 測驗的效度

第二節、效度的種類第二節、效度的種類

內容效度效標關聯效度構念效度

Page 7: 測驗的效度

內容效度的意義內容效度的意義(( content validitycontent validity ))

內容關聯效度( content-related validity)測驗內容的代表性或取樣的適切性( adequacy)老師給學生做數學成就測驗:教學所欲達成的目標教材的重要內容

有內容效度

Page 8: 測驗的效度

如何知道一個測驗具有如何知道一個測驗具有內容效度內容效度

教學的目標?教材內容所強調的知識、概念及技能?測驗的所有題目符合教學目標和教材內容?足夠的題目來代表這兩個方面?

Page 9: 測驗的效度

內容效度所關心的內容效度所關心的兩個重要層面兩個重要層面

教材的主題或教材的範圍學生的行為改變

Page 10: 測驗的效度

判斷內容效度的方法判斷內容效度的方法確定內容關效效度的主要方法:邏輯的分析法仔細判斷每個題目是否符合教材內容與教學目標測驗具有良好的內容效度:全體題目很能代表教材內容的樣本,及所預期的行為改變

沒有其他無關因素(如閱讀能力)的影響

Page 11: 測驗的效度

判斷內容效度的方法(續)判斷內容效度的方法(續)

邏輯的分析與合理的判斷:合理或邏輯的效度( rational or logical validity)

Page 12: 測驗的效度

測驗內容是否適切、有代表性?測驗內容是否適切、有代表性?

判斷方法題目的適切性

題目是否和所欲測量的內容或能力具有關聯性

測驗內容的代表性題目是否能涵蓋所欲測量的內容領域( content domain)

涵蓋範圍愈周延,代表性愈大;反之,則小

Page 13: 測驗的效度

測驗內容的適切性、代表性:例子測驗內容的適切性、代表性:例子

見第 84頁圖 3-1

說明: F圖所涵蓋的內容,多數超出內容領域之外,故內容有嚴重的偏差,代表性最有問題。

Page 14: 測驗的效度

內容效度的判斷程序內容效度的判斷程序

詳細說明所欲測量的內容領域(或主題)確認測驗中每一試題所測量的內容領域(或主題)比較測驗結構和內容領域結構的符合程序

Page 15: 測驗的效度

雙向細目表雙向細目表(( two-way specification tabletwo-way specification table ))雙向細目表的設計方法:列出教材內容的主題及所預期的行為改變

判斷每一個主題的相對重要性建立雙向細目表依據雙向細目表編寫符合主題及行為改變的題目

Page 16: 測驗的效度

表表 3-13-1  數學成就測驗雙向細目表 數學成就測驗雙向細目表教材內容 教學目標 合計

題數知識 理解 應用

一、整數的加法 4 10 6 20

二、整數的減法 3 7 3 13

三、整數的乘法 5 12 3 20

四、因數與倍數 7 15 5 27

五、分數的四則運算 4 8 8 20

合計題數 23 52 25 100

Page 17: 測驗的效度

雙向細目表(續)雙向細目表(續)

如課程專家參與測驗的編制,其人數與專業資格應加以敘述。如果他們做為題目分類的評斷者,分類的指導語及相互間的同意程度,亦應加以報告。

Page 18: 測驗的效度

內容效度的判斷(續)內容效度的判斷(續)複份的編制( duplicate-construction):分析內容效度。此方法類似複本信度。根據編製前所確立的測驗內容之選擇原則,分由兩組編製人員擬兩套試題,如果兩份內容大致符合,即表示內容適當。

此信度關心的是:我們有多少信心能夠從測驗上的得分推論到其他相等測驗的分數。

Page 19: 測驗的效度

複份的編制(續)複份的編制(續)

內容效度:從一個獨特的分數能夠推論到較大教材內容的適切性。同樣內容編製兩份測驗所求得之相關,可提供複本信度和內容效度。

Page 20: 測驗的效度

評估內容效度的量化方法評估內容效度的量化方法

CVR =

CVR:內容效度比率N :評審員總人數Ne   :評為很重要的人數

公式 3.6

Ne – N/2

N/2

Page 21: 測驗的效度

例子例子

高中國文科成就測驗的題數: 30擔任評審員的專家或教師數: 20依據下列的問題判斷每一題目的重要性:您認為此題對測量高中國文科學習的知識或技能的重要性如何 ?很重要有用但不必要沒有必要

Page 22: 測驗的效度

例子(續)例子(續)

CVR = 18 – 20/2

20/2= .80

Page 23: 測驗的效度

內容效度的應用內容效度的應用內容效度最為適用於成就測驗的效度考驗,尤其是標準參照測驗,因為標準參照測驗的成績是依據內容的意義,加以解釋。

Page 24: 測驗的效度

內容效度對成就測驗內容效度對成就測驗較為適合的原因較為適合的原因

測驗是否涵蓋特定的技能與知識的有代表性樣本?測驗成績是否不受無關因素的影響?成就測驗具有獨特的教材內容和學習經驗,測驗內容從中選擇出來,較易從事邏輯的分析和合理的判斷。

Page 25: 測驗的效度

內容效度的應用(續)內容效度的應用(續)

不適用於性向測驗與人格測驗上述兩種測驗的效度考驗,需要實證的證明內容關聯效度常易於和表面效度( face validity)混為一談表面效度:缺乏系統的邏輯分析

Page 26: 測驗的效度

效標關聯效度的意義效標關聯效度的意義(( criterion-related validitycriterion-related validity ))以經驗性的方法,研究測驗分數與一些外在效標間的關係。故又稱 :經驗效度( empirical validity)統計效度( statistical validity)

Page 27: 測驗的效度

效標關聯效度的意義(續)效標關聯效度的意義(續)

指測驗分數和外在效標間的相關相關愈高,效標關聯效度愈高,反之,則不然。效標關聯效度愈高,測驗分數愈能有效預測外在效標。外在效標:測驗所要預測的某些行為或量數

Page 28: 測驗的效度

考驗效標關聯效度的步驟考驗效標關聯效度的步驟

確定並收集可靠的適當效標建立測驗分數與實施測驗同時可取得的外在效標(或實施測驗後一段時間所取得的外在效標)之間的相關

Page 29: 測驗的效度

效標關聯效度的種類效標關聯效度的種類

同時效度預測效度

Page 30: 測驗的效度

同時效度同時效度(( concurrent validityconcurrent validity ))

指測驗分數與實施測驗同一個時間所取得的效標之間的相關。旨在使用測驗分數估計個人在效標方面的目前實際表現。同時效度的效標:易於考驗做測驗的同一時間取得,不必等待

Page 31: 測驗的效度

同時效度的應用同時效度的應用

用建立了同時效度的測驗(以學生平日的技能為效標的學習技能測驗)來評估學生的學習技能,可迅速而簡易的獲得所需的資料。

Page 32: 測驗的效度

預測效度預測效度(( predictive validitypredictive validity ))

指測驗分數與實施測驗後一段時間所取得的效標之間的相關。旨在使用測驗分數預測個人在效標方面的未來表現。例:職業測驗的預測效度工作一段時間後,收集其工作成績資料做為效標,測驗分數與其工作成績的相關,即為此測驗的預測效度。

Page 33: 測驗的效度

預測效度的應用預測效度的應用用於職業或教育上的人員選擇、分類和安置的測驗僱用工作應徵者選擇學生入大學分派軍人到不同的職業訓練計劃鑑定精神異常者接受治療甄別可能產生情緒困擾者性向測驗、人格測驗、成就測驗上述測驗分數,常被用來預測未來學習的成就或工作的成績

Page 34: 測驗的效度

同時效度和預測效度的差異同時效度和預測效度的差異效標取得的時間不同測驗的目的不同同時效度:評估目前的情形預測效度:預測未來的行為例:

張三是否有精神病?–同時效度

張三是否可能罹患精神病?–預測效度

Page 35: 測驗的效度

效標的特性效標的特性

適切性可靠性客觀性可用性

Page 36: 測驗的效度

適切性適切性(( relevancerelevance ))

效標資料能反映出測驗所欲測量的重要特質。判斷效標適切性的程度:沒有經驗的證據依賴價值的判斷如同內容效度的評估須由專家做判斷一樣例子:機械性向測驗效標:實際的工作成績

Page 37: 測驗的效度

可靠性可靠性(( reliabilityreliability ))

信度資料本身需具有可靠性再可靠的測驗也不能夠預測不可靠的效標

Page 38: 測驗的效度

客觀性客觀性(( freedom from biasfreedom from bias ))

避免偏差和效標混淆主觀評量產生的偏差:教師或管理員的評分,如傾向於偏愛男性而輕視女性

Page 39: 測驗的效度

可用性可用性(( availabilityavailability ))

效標資料的取得是否容易和方便等待時間過長,使得效標不具可用性

Page 40: 測驗的效度

效標的種類效標的種類

學業成就特殊化的訓練成績實際工作成績對照團體精神病學的診斷評定成績先前的有效測驗

Page 41: 測驗的效度

學業成就學業成就最常做為智力測驗的效標。智力測驗=學業性向測驗以學業成就做為效標,包括:學校成績成就測驗分數升級與畢業的成績特殊榮譽教師對智力評定成績

Page 42: 測驗的效度

特殊化的訓練成績特殊化的訓練成績各種專門學校的訓練成績,常用作性向測驗的效標。如:性向測驗:商業學校的打字、簿記、會計等

專業性向測驗:工業、農業、醫學、護理、家事、水產等特殊計畫的訓練成績:空軍飛行員選擇測驗

Page 43: 測驗的效度

特殊化的訓練成績(續)特殊化的訓練成績(續)

特殊計畫的訓練成績和專門學校的訓練成績:均屬於中間效標僅可代表工作成功的部分效標終極效標才是理想的效標,它可代表個人專業生涯成功的評價。例如,醫學性向測驗的終極效標是實施行醫的成就。但終極效標難取得,所以常用中間效標取代。

Page 44: 測驗的效度

實際工作成績實際工作成績

最令人滿意的效標

Page 45: 測驗的效度

對照團體對照團體(( contrasted groupscontrasted groups ))

例:音樂性向測驗的效度依據音樂學校學生和普通中學學生在測驗上的得分

Page 46: 測驗的效度

精神病學的診斷精神病學的診斷(( psychiatric diagnosispsychiatric diagnosis ))可做為人格測驗題目的選擇及效度考驗的依據。若是依據長期的觀察和詳細的個案歷史而做的精神病學診斷,則可做為人格測驗的適當效標。

Page 47: 測驗的效度

評定成績(評定成績( ratingsratings ))

依據教師、督學、輔導員、同學、朋友或同事對受試者所評定的分數,不論是人格適應、學習成就或工作成績,均可做為效標資料。應用在各種測驗的效度考驗上。

Page 48: 測驗的效度

先前的有效測驗先前的有效測驗(( previously available testspreviously available tests ))可做為新編測驗的效標例:比西量表可為新編智力測驗的效標

Page 49: 測驗的效度

構念效度的意義構念效度的意義(( construct validityconstruct validity ))

指測驗能夠測量到理論上的構念或特質的程度指測驗分數能夠依據某種心理學的理論構念加以解釋的程度凡是根據心理學的構念,對測驗分數的意義所做的分析和解釋

Page 50: 測驗的效度

構念效度的意義(續)構念效度的意義(續)

構念( construct)心理學上的一種理論構想或特質觀察不到的心理學家假設它是存在的,以便能解釋一些個人的行為。

Page 51: 測驗的效度

例子例子

心理學上的理論構念,或假設性的概念:智力、性向、動機、焦慮、批判思考、社會性、內向性、外向性、機械性向。。。

從焦慮的理論中,可預測在競爭的情境裡,焦慮高的人,抱負水準較高。

Page 52: 測驗的效度

描述構念的過程描述構念的過程

確認和所要測量的構念有關係的行為。確認其他的構念,並確定他們是否和所要測量的構念有關或無關。依據理論,確認和這些構念有關的行為,並確定每一項行為是否和所要測量的構念有關。

Page 53: 測驗的效度

例子例子以測量「攻擊」這個構念為例:

首先,從攻擊的相關理論中,可以預測一些和攻擊有關的行為。

其次,確認一些和攻擊有關或無關的構念。 最後,確認和權力需求,或和誠實這兩個構念有關的行為。

如果測驗分數與行為間的相關型態,和依據理論所預期的相關型態類似,則表示此測驗具有良好的構念效度。

Page 54: 測驗的效度

獲得構念效度證據的方法獲得構念效度證據的方法

所有效度的建立,可以說都是構念效度的確認,構念效度因而被視為是一種最普遍性的效度

Page 55: 測驗的效度

確定構念效度常用的技術與方法確定構念效度常用的技術與方法

相關研究團體差異的分析實驗研究內部一致性分析因素分析多項特質-多項方法分析

Page 56: 測驗的效度

相關研究相關研究(( correlation studiescorrelation studies ))

新編測驗和已經公認有效的類似測驗的相關:新編測驗也能測量相同特質的依據例:新編智力測驗分數和比西量表分數的相關:新編測驗也能像比西量表一樣測驗智力這個構念

Page 57: 測驗的效度

團體差異的分析團體差異的分析(( group differencesgroup differences ))

在人格適應測驗上,適應良好的分數應比適應欠佳者為高。如果結果如理論的預測,則可做為支持構念效度的證據。

Page 58: 測驗的效度

實驗研究實驗研究(( experimental studiesexperimental studies ))欲考驗標準參照測驗( criterion-referenced test)的效度,可比較前測和後測的分數。實施有關教學之前:前測的分數:低教學之後的後測分數:高

Page 59: 測驗的效度

內部一致性分析內部一致性分析(( internal consistencyinternal consistency ))

以測驗本身的總分為效標分析方法:對照團體方法相關方法計算分測驗與總分的相關

Page 60: 測驗的效度

對照團體方法對照團體方法

依據測驗總分的高低將受試者分成高分組與低分組,然後比較兩組在各個題目上的答對比例。

Page 61: 測驗的效度

相關方法相關方法

計算每一個題目通過 - 失敗和總分的系列相關,凡相關達到有意義的,則保留,否者,則刪除。

Page 62: 測驗的效度

計算分測驗與總分的相關計算分測驗與總分的相關

許多智力測驗常包括若干的分測驗,如字彙、算術、空間知覺等,這些測驗的分測驗分數合併在一起就是總分。

Page 63: 測驗的效度

因素分析因素分析(( factor analysisfactor analysis ))

因素分析是研究構念效度適當方法之一。主要目的:用以認定心理學上的特質,藉著共同因素的發現而確定觀念的結構成分。

Page 64: 測驗的效度

表表 3-53-5  因素分析摘要表 因素分析摘要表題目 共同因素 共同性

( h2)A B

1. 老師常讚美同學的行為 .83 .01 .6890

2. 老師常接受同學的想法 .79 .10 .6341

3. 老師常設身處地為同學設想 .70 .10 .5000

4. 老師常常責罵同學 .10 .70 .5000

5. 老師上課時常發脾氣 .10 .79 .6341

6. 老師常將自己的觀念灌輸給學生

.01 .83 .6890

平方和 1.8231 1.8231 3.6462

Page 65: 測驗的效度

多項特質-多項方法分析多項特質-多項方法分析(( multitrait-multimethod approacmultitrait-multimethod approac

hh))用來建立區別性效度和輻合性效度區別性效度測驗的分數和測量不同構念的其他測驗的分數有低相關輻合性效度測驗的分數和測量相同構念或特質的其他測驗的分數有高相關相關矩陣見第 104頁表 3-6

Page 66: 測驗的效度

第三節、影響效度的因素第三節、影響效度的因素

測驗的品質測驗的實施受試者的因素效標的品質團體的性質

Page 67: 測驗的效度

測驗的品質測驗的品質測驗本身的任何缺點均會影響到試題所欲測量的功能,因而降低效度指導語不夠清楚用字太難題目難度太高或太低題目有暗示答案的線索題意含糊不清題目和所測量的能力不符合題目數量過少題目沒有由易而難安排正確答案有規則的安排

Page 68: 測驗的效度

測驗的實施測驗的實施

測驗實施的程序和測驗的情境是否適當,對效度有很大的影響未遵守指導語時間的限制給予學生權限以外的協助記分的誤差燈光、溫度、通風、安靜、氣氛

Page 69: 測驗的效度

受試者的因素受試者的因素受試者的身心狀態如動機、情緒、焦慮、疲勞會限制或改變個人對測驗的反應情形,因而會降低測驗的信度。反應心向( response set)影響測驗結果指依照某種反應的型態對測驗的題目做一致性的反應。

如:對是非題的答案不知道時,總是答「是」。

Page 70: 測驗的效度

效標的品質效標的品質

測驗的信度: .90效標的信度: .70代入公式,最大的效標關聯效度是 .79效標的信度增加到 .85時,效度課題高到 .87要提高效標關聯效度,必須確信效標是可靠的,具有良好的信度

rxy. = (rxx) (ryy)√ 公式 3.7

rxy:測驗分數與效標的最大相關

rxx:測驗的信度ryy:效標的信度

Page 71: 測驗的效度

團體的性質團體的性質

信度與效度常以相關係數來表示在其他條件相等之下,分數的分布範圍愈大,相關係數愈高(見第 110頁圖 3-3)

如同信度係數一樣,建立效度的樣本異質性愈大時,效度係數愈高。

Page 72: 測驗的效度

第四節、效度的解釋與應用第四節、效度的解釋與應用

效度與效標分數的預測效度與人員的選擇

Page 73: 測驗的效度

效度與效標分數的預測:例子效度與效標分數的預測:例子效度係數: .80智力測驗與高中聯考分數的平均數與標準差如下表:

一國三生在該智力測驗上得到 IQ125,如何預測其高中聯考分數?

智力測驗(X) 高中聯考(Y)平均數 100.21 470.26

標準差 16.05 70.46

Page 74: 測驗的效度

效度與效標分數的預測效度與效標分數的預測rxy:效度係數Sy:效標分數的標準差Sx:測驗分數的標準差X:測驗的得分X:測驗分數的平均數Y:效標分數的平均數

公式 3.8

Y = rxy.( ) (X - X) + YSy

Sx

將上述資料代入公式 3.8

Y = .80.( ) (125 – 100.21) + 470.26

= 557.32

70.4616.05

Page 75: 測驗的效度

效度與效標分數的預測(續)效度與效標分數的預測(續)Sest.y = Sy 1 – (rxy)2√

公式 3.9

將效度係數( .80 )和效標分數的標準差( 70.46)代入公式 3.9,可得標準誤為:

Sest.y. = 70.46 1 – (.80)2

= 42.28

Sest.y :估計標準誤  Sy:效標分數的標準差rxy:效度係數

Page 76: 測驗的效度

效度與效標分數的預測(續)效度與效標分數的預測(續)

IQ125的人95%的機率得到高中聯考分數在 557.

32+ 1.96 (42.28) 之間,即大約 474~640之間

99%的機率得到高中聯考分數在 557.32+ 258 (42.28) 之間,即大約 448~666之間

_

_

Page 77: 測驗的效度

效度與人員的選擇效度與人員的選擇

正確拒絕

正確接受錯誤拒絕

錯誤接受

成功   失

20% 拒絕    接受

8

2426

42