§O L¦êNG TRONG GI¸O DôC - stream.bigschool.vn · 1 GS.TSKH. LÂM QUANG THIỆP §O L¦êNG...

291
1 GS.TSKH. LÂM QUANG THIỆP §O L¦êNG TRONG GI¸O DôC Lý thuyÕt vμ øng dông Nhμ xuÊt b¶n ®¹i häc quèc gia Hμ néi

Transcript of §O L¦êNG TRONG GI¸O DôC - stream.bigschool.vn · 1 GS.TSKH. LÂM QUANG THIỆP §O L¦êNG...

1

GS.TSKH. LÂM QUANG THIỆP

§O L¦êNG

TRONG GI¸O DôC

Lý thuyÕt vµ øng dông

Nhµ xuÊt b¶n ®¹i häc quèc gia Hµ néi

2

3

MỤC LỤC

LỜI NÓI ĐẦU ................................................................................................................ 7

GIỚI THIỆU CẤU TRÚC VÀ CÁCH SỬ DỤNG CUỐN SÁCH ............................. 9

PHẦN I. MỘT SỐ KHÁI NIỆM BAN ĐẦU VỀ TRẮC NGHIỆM VÀ ĐO LƯỜNG

TRONG GIÁO DỤC .................................................................................................... 15

Chương 1. VỀ TRẮC NGHIỆM VÀ ĐO LƯỜNG TRONG GIÁO DỤC ............... 16 1.1. NHU CẦU ĐO LƯỜNG TRONG CUỘC SỐNG VÀ KHOA HỌC VỀ ĐO LƯỜNG

NÓI CHUNG ............................................................................................................... 16 1.2. ĐO LƯỜNG VÀ ĐÁNH GIÁ TRONG GIÁO DỤC ................................................... 17 1.3. PHÂN LOẠI CÁC MỤC TIÊU GIÁO DỤC ............................................................... 19 1.4. PHÂN LOẠI CÁC PHƯƠNG PHÁP ĐO LƯỜNG VÀ ĐÁNH GIÁ

TRONG GIÁO DỤC ................................................................................................... 23 1.5. CÁC KIỂU CÂU HỎI TRẮC NGHIỆM KHÁCH QUAN .......................................... 26 1.6. SO SÁNH CÁC PHƯƠNG PHÁP TRẮC NGHIỆM KHÁCH QUANVÀ TỰ LUẬN29

1.6.1. Các đặc điểm của phương pháp TL: ............................................................... 29 1.6.2. Các đặc điểm của phương pháp TNKQ:......................................................... 29

1.7. SỰ KẾT HỢP TRẮC NGHIỆM KHÁCH QUAN VỚI TỰ LUẬN

TRONG ĐÁNH GIÁ ................................................................................................... 37 1.8. SỬ DỤNG CÁC CÂU HỎI TRẮC NGHIỆM ĐỂ ĐÁNH GIÁ CÁC MỨC ĐỘ

NHẬN THỨC KHÁC NHAU ..................................................................................... 37 1.9. CÁCH CHẾ TÁC CÂU HỎI TRẮC NGHIỆM KHÁCH QUAN ............................... 41 1.10. QUY TRÌNH XÂY DỰNG MỘT NGÂN HÀNG CÂU HỎI HOẶC MỘT ĐỀ TRẮC

NGHIỆM TIÊU CHUẨN HÓA .................................................................................. 42 1.10.1. Mục tiêu giảng dạy, ma trận kiến thức và đề kiểm tra .................................. 42 1.10.2. Quy trình thiết kế một đề kiểm tra tiêu chuẩn hóa và một NHCH......................... 43

Chương 2. MỘT SỐ KHÁI NIỆM BAN ĐẦU VỀ THỐNG KÊ VÀ KHÁI QUÁT

VỀ TRẮC NGHIỆM CỔ ĐIỂN ............................................................. 51 2.1. MỘT SỐ KHÁI NIỆM VÀ ĐỊNH LUẬT QUAN TRỌNG

TRONG THỐNG KÊ HỌC ......................................................................................... 51 2.1.1. Xác suất .......................................................................................................... 51 2.1.2. Luật số lớn ..................................................................................................... 52 2.1.3. Tổng thể và mẫu ............................................................................................. 52 2.1.4. Phân bố .......................................................................................................... 53 2.1.5. Tương quan .................................................................................................... 57

2.2. CÁC THAM SỐ ĐẶC TRƯNG CHO MỘT CÂU HỎI TRẮC NGHIỆM VÀ MỘT

ĐỀ TRẮC NGHIỆM ................................................................................................... 59 2.2.1. Độ khó của CH ............................................................................................... 59 2.2.2. Độ phân biệt của CH ...................................................................................... 60 2.2.3. Độ tin cậy của ĐTN ....................................................................................... 62

4

2.2.4. Độ giá trị của ĐTN ......................................................................................... 64 2.3. ĐÁNH GIÁ MỘT ĐỀ TRẮC NGHIỆM ..................................................................... 66

2.3.1. Phân tích các CH trắc nghiệm ........................................................................ 66 2.3.2. Tính độ tin cậy của ĐTN ................................................................................ 68 2.3.3. Xem xét độ giá trị của ĐTN ........................................................................... 70

2.4. CÁC LOẠI ĐIỂM TRẮC NGHIỆM ........................................................................... 71 2.4.1. Điểm thô ........................................................................................................ 71 2.4.2. Điểm tiêu chuẩn tuyệt đối .............................................................................. 72 2.4.3. Các loại điểm tương đối dựa vào phân bố chuẩn ............................................ 72 2.4.4. Về các thang điểm được sử dụng ở nước ta ................................................... 75

2.5. CÁC HẠN CHẾ CỦA LÝ THUYẾT TRẮC NGHIỆM CỔ ĐIỂN

VÀ KỲ VỌNG ĐỐI VỚI MỘT LÝ THUYẾT TRẮC NGHIỆM MỚI ...................... 76

PHẦN II. TRẮC NGHIỆM HIỆN ĐẠI - LÝ THUYẾT ỨNG ĐÁP CÂU HỎI ......... 81

Chương 3. HÀM ĐẶC TRƯNG CÂU HỎI – TẾ BÀO CỦA LÝ THUYẾT ỨNG

ĐÁP CÂU HỎI ....................................................................................... 82 3.1. VỀ CÁC PHÉP ĐO LƯỜNG ...................................................................................... 82

3.1.1. Về quy trình xây dựng một phép đo lường ..................................................... 82 3.1.2. Các con số và các loại thang đo ..................................................................... 83 3.1.3. Về các phép đo lường trong tâm lý và giáo dục ............................................. 85

3.2. VỀ ĐƯỜNG CONG ĐẶC TRƯNG CÂU HỎI ........................................................... 86 3.2.1. Các mối tương tác nguyên tố và tính đơn chiều ............................................. 86 3.2.2. Xây dựng thang đo để biểu diễn các tương tác .............................................. 87 3.2.3. Ví dụ về mô hình đường cong đặc trưng câu hỏi đơn chiều, nhị phân, một

tham số (mô hình Rasch) ......................................................................................... 88

Chương 4. CÁC MÔ HÌNH ĐƯỜNG CONG ĐẶC TRƯNG

CỦA CÂU HỎI NHỊ PHÂN .................................................................. 92 4.1. BA MÔ HÌNH ĐƯỜNG CONG ĐẶC TRƯNG CỦA CÂU HỎI NHỊ PHÂN

DẠNG LOGISTIC ...................................................................................................... 92 4.1.1. Mô hình đường cong đặc trưng của câu hỏi hai tham số ................................ 92 4.1.2. Mô hình đường cong đặc trưng của câu hỏi ba tham số ................................. 94

4.2. MỘT VÀI LƯU Ý VỀ CÁC MÔ HÌNH KIỂU KHÁC VỀ ĐẶC TRƯNG

CỦA CÂU HỎI ........................................................................................................... 96 4.2.1. Mô hình đặc trưng của câu hỏi dạng đường cong tích lũy vòm chuẩn ..... 97 4.2.2. Về mô hình Rasch và vai trò của nó ............................................................... 98

Chương 5. ƯỚC LƯỢNG CÁC THAM SỐ CỦA CÂU HỎI TRẮC NGHIỆM ... 102 5.1. QUY TRÌNH ƯỚC LƯỢNG CÁC THAM SỐ CỦA CÂU HỎI ............................... 102 5.2. VỀ TÍNH BẤT BIẾN CỦA CÁC THAM SỐ CÂU HỎI

ĐỐI VỚI MẪU THÍ SINH ........................................................................................ 105

Chương 6. ĐIỂM THỰC - ĐƯỜNG CONG ĐẶC TRƯNG CỦA ĐỀ TRẮC

NGHIỆM .............................................................................................. 117 6.1. ĐIỂM THỰC VÀ ĐƯỜNG CONG ĐẶC TRƯNG CỦA ĐỀ TRẮC NGHIỆM ....... 117

6.1.1. Quan niệm về điểm thực trong CTT............................................................. 117 6.1.2. Xác định điểm thực theo IRT ....................................................................... 118 6.1.3. So sánh điểm thô, điểm thực và điểm năng lực ............................................ 122

5

6.2. MỘT SỐ PHÉP CHUYỂN ĐỔI ................................................................................ 124 6.2.1. Vài phép chuyển đổi tuyến tính .................................................................... 124 6.2.2. Vài phép chuyển đổi phi tuyến ..................................................................... 125

Chương 7. HÀM THÔNG TIN CỦA CÂU HỎI VÀ CỦA ĐỀ TRẮC NGHIỆM . 129 7.1. HÀM THÔNG TIN CỦA CÂU HỎI TRẮC NGHIỆM ............................................. 129 7.2. HÀM THÔNG TIN VÀ SAI SỐ TIÊU CHUẨN CỦA ĐỀ TRẮC NGHIỆM .................. 132

7.2.1. Hàm thông tin của đề trắc nghiệm ................................................................ 132 7.2.2. Sai số tiêu chuẩn của đề trắc nghiệm............................................................ 134 7.2.3. Hàm hiệu suất tỷ đối .................................................................................... 135

Chương 8. ƯỚC LƯỢNG NĂNG LỰC CỦA THÍ SINH

VÀ ĐỊNH CỠ ĐỀ TRẮC NGHIỆM .................................................... 137 8.1. QUY TRÌNH ƯỚC LƯỢNG GIÁ TRỊ NĂNG LỰC CỦA THÍ SINH ..................... 137

8.1.1. Các nguyên tắc chung của quy trình............................................................. 138 8.1.2. Một ví dụ đơn giản về ước lượng nhờ đồ thị ................................................ 140 8.1.3. Một ví dụ về việc sử dụng phương pháp tính lặp để tìm cực đại .................. 142 8.1.4. Về sai số ước lượng giá trị năng lực ............................................................. 145

8.2. ĐỊNH CỠ ĐỀ TRẮC NGHIỆM: ƯỚC LƯỢNG ĐỒNG THỜI THAM SỐ

CỦA CÂU HỎI VÀ NĂNG LỰC CỦA THÍ SINH .................................................. 146 8.2.1. Về việc ước lượng các tham số của câu hỏi ................................................. 146 8.2.2. Ước lượng đồng thời tham số của câu hỏi và năng lực của thí sinh:

định cỡ đề trắc nghiệm ........................................................................................... 146 8.2.3. Vấn đề metric ............................................................................................... 148

8.3. TÍNH BẤT BIẾN CỦA VIỆC ƯỚC LƯỢNG NĂNG LỰC THÍ SINH

ĐỐI VỚI CÁC ĐỀ TRẮC NGHIỆM ........................................................................ 149 8.4. VÍ DỤ VỀ ĐỊNH CỠ ĐỀ TRẮC NGHIỆM, TÍNH HÀM THÔNG TIN, HÀM ĐẶC

TRƯNG CỦA ĐỀ TRẮC NGHIỆM ......................................................................... 150

Chương 9. ĐÁNH GIÁ SỰ PHÙ HỢP GIỮA SỐ LIỆU VÀ MÔ HÌNH .............. 161 9.1. CÁC PHƯƠNG PHÁP ĐÁNH GIÁ SỰ PHÙ HỢP GIỮA SỐ LIỆU

VÀ MÔ HÌNH ........................................................................................................... 161 9.1.1. Đảm bảo tính đơn chiều ............................................................................... 162 9.1.2. Kiểm tra tính bất biến ................................................................................... 162 9.1.3. Kiểm tra các dự đoán mô hình ..................................................................... 163

9.2. VÍ DỤ VỀ ĐÁNH GIÁ SỰ PHÙ HỢP GIỮA SỐ LIỆU VÀ MÔ HÌNH .................. 164 9.2.1. Kiểm tra tính bất biến của tham số CH đối với các mẫu TS khác nhau ....... 164 9.2.2. Kiểm tra tính bất biến của năng lực TS đối với các ĐTN khác nhau ..... 166 9.2.3. Đánh giá sự phù hợp giữa số liệu thực nghiệm và mô hình

qua giá trị thặng dư tiêu chuẩn hóa ........................................................................ 168

Chương 10. THIẾT KẾ CÁC ĐỀ TRẮC NGHIỆM .............................................. 171 10.1. SO SÁNH CTT VÀ IRT TRONG VIỆC THIẾT KẾ CÁC ĐỀ TRẮC NGHIỆM ................. 171 10.2. CÁCH TIẾP CẬN CƠ BẢN ĐỂ THIẾT KẾ ĐỀ TRẮC NGHIỆM ........................ 172 10.3. MỘT SỐ LOẠI ĐỀ TRẮC NGHIỆM VÀ CÁCH THIẾT KẾ ................................ 174 10.4. ẢNH HƯỞNG CỦA MÔ HÌNH ĐƯỜNG CONG ĐTCH VÀ SỐ LƯỢNG CÂU HỎI

LÊN ĐỀ TRẮC NGHIỆM......................................................................................... 175

Chương 11. SO BẰNG CÁC ĐIỂM TRẮC NGHIỆM .......................................... 178

6

11.1. CÁC PHƯƠNG PHÁP SO BẰNG TRONG CTT ................................................... 178 11.2. CÁC PHƯƠNG PHÁP SO BẰNG – KẾT NỐI – XÁC LẬP THANG ĐO THEO IRT .... 181

11.2.1. Một số trường hợp thực hiện định cỡ và xác lập thang đo ......................... 182 11.2.2. Xác định các hằng số thiết lập thang đo ..................................................... 186

11.3. VÍ DỤ VỀ SO BẰNG – KẾT NỐI – XÁC LẬP THANG ĐO THEO IRT ............. 191

Chương 12. TRẮC NGHIỆM NHỜ MÁY TÍNH .................................................. 203 12.1. ĐẶC ĐIỂM CỦA TRẮC NGHIỆM NHỜ MÁY TÍNH

VÀ CÁC HỆ THỐNG HỖ TRỢ ............................................................................... 203 12.1.1. Một số đặc điểm của trắc nghiệm nhờ máy tính ......................................... 203 12.1.2. Đòi hỏi đối với các phầm mềm hỗ trợ trắc nghiệm nhờ máy tính .................... 204

12.2. MỘT SỐ MÔ HÌNH TRIỂN KHAI TRẮC NGHIỆM NHỜ MÁY TÍNH .............. 206 12.2.1. Các trắc nghiệm cố định nhờ máy tính ....................................................... 206 12.2.2. Các trắc nghiệm di chuyển thẳng nhờ máy tính ......................................... 207 12.2.3. Các trắc nghiệm thích ứng nhờ máy tính dựa vào câu hỏi.......................... 207 12.2.4. Các trắc nghiệm thích ứng nhờ máy tính dựa vào phân đề ......................... 210 12.2.5. Các trắc nghiệm thích ứng nhờ máy tính cấu trúc đa giai đoạn ..................... 210

12.3. VÍ DỤ VỀ TRẮC NGHIỆM THÍCH ỨNG NHỜ MÁY TÍNH ............................... 215

Chương 13. CÁC MÔ HÌNH TRẮC NGHIỆM ĐA PHÂN ................................... 219 13.1. MỘT SỐ MÔ HÌNH TRẮC NGHIỆM ĐA PHÂN ................................................. 219

13.1.1. Mô hình định giá từng phần ....................................................................... 220 13.1.2. Mô hình định giá từng phần tổng quát ....................................................... 231

13.2. CÁC VÍ DỤ VỀ ỨNG DỤNG TRẮC NGHIỆM ĐA PHÂN .................................. 232 13.2.1. Phân tích các bài kiểm tra gồm các CH tự luận

nhờ phần mềm CONQUEST.................................................................................. 232 13.2.2. Phân tích các bài kiểm tra gồm hỗn hợp các CH trắc nghiệm khách quan và

tự luận nhờ phần mềm CONQUEST...................................................................... 242 13.2.3. Phân tích các bài kiểm tra gồm hỗn hợp các CH trắc nghiệm khách quan và

tự luận nhờ phần mềm PARSCALE ...................................................................... 251

Chương 14. KHÁI NIỆM VỀ TRẮC NGHIỆM ĐA CHIỀU ................................ 256 14.1. MỘT SỐ MÔ HÌNH TRẮC NGHIỆM ĐA CHIỀU ................................................ 256

14.1.1. Mô hình trắc nghiệm đa chiều nhờ các hàm logistic tuyến tính theo

số liệu từ các CH nhị phân ..................................................................................... 256 14.1.2. Một cách tiếp cận xây dựng mô hình tổng quát cho trắc nghiệm nhị phân,

đa phân, một chiều, đa chiều .................................................................................. 262 14.1.3. Về các cách biểu hiện tính đa chiều: giữa các CH và trong từng CH ......... 265

14.2. VÀI VÍ DỤ VỀ ÁP DỤNG TRẮC NGHIỆM ĐA CHIỀU ...................................... 266 14.2.1. Phân tích bài kiểm tra gồm các CH nhị phân và đa phân đo lường 3 chiều

năng lực biểu hiện ở riêng từng CH ....................................................................... 266 14.2.2. Phân tích bài kiểm tra gồm các CH nhị phân đo lường 3 chiều năng lực

biểu hiện hỗn hợp trong mỗi CH ............................................................................ 268

Các tài liệu dẫn và tham khảo chính ........................................................................ 289

7

LỜI NÓI ĐẦU

Trong các khoa học về giáo dục có một nhánh quan trọng là khoa

học về đo lường trong tâm lý và giáo dục, thường được gọi là tâm trắc học

(psychometrics). Khoa học này ở phương Tây bắt đầu phát triển mạnh từ

cuối thế kỷ XIX và đạt được rất nhiều thành tựu vào cuối thế kỷ XX. Tuy

nhiên tại Liên Xô cũ vì gặp một số trắc trở nên khoa học này phát triển rất

chậm, điều đó cũng ảnh hưởng đến nước ta, do vậy cho đến thập niên 90

của thế kỷ XX nước ta hầu như vẫn chưa tiếp cận với khoa học này, trừ vài

ba chuyên gia ở phía Nam được đào tạo từ phương Tây trước năm 1975.

Nhìn thấy khiếm khuyết lớn nói trên trong việc xây dựng một nền

giáo dục bền vững cho đất nước, khi làm công tác quản lý ở Bộ Giáo dục

và Đào tạo vào thập niên 90 của thế kỷ trước, tác giả tập sách này đã đề

nghị Bộ Giáo dục và Đào tạo lần lượt gửi hàng mấy chục giảng viên đại

học đi học thạc sỹ và tiến sỹ về khoa học này ở các nước tiên tiến. Nhiều

người học xong đã về làm việc rải rác ở các trường đại học, cũng có người

tiếp tục làm việc ở nước ngoài. Tuy nhiên, một thực tế đáng buồn là cho

đến nay việc tiếp cận và ứng dụng khoa học này vào thực tiễn giáo dục ở

nước ta vẫn còn rất yếu kém. Trong các chương trình đào tạo giáo viên các

cấp không có một môn học thích đáng giúp sinh viên tiếp cận khoa học

này; ở các kỳ thi quan trọng cấp quốc gia, khoa học này cũng chưa thực sự

được áp dụng. Ngay trong các trường đại học lớn về sư phạm và giáo dục

hiện nay chưa có các nhóm nghiên cứu sâu về đo lường trong tâm lý và

giáo dục, cũng chưa có một cuốn giáo trình nào giới thiệu về thành tựu

hiện đại của khoa học này. Những thiếu sót nói trên chứng tỏ việc lấp lỗ

hổng về nhánh khoa học giáo dục này ở nước ta quá chậm, điều đó tất yếu

ảnh hưởng đến sự phát triển bền vững của toàn bộ hệ thống giáo dục.

Vì thấy tầm quan trọng của khoa học đo lường trong tâm lý và giáo

dục qua hoạt động thực tiễn, cũng vì vẻ đẹp bên trong của bản thân nó,

tác giả đã dành thời gian tiếp cận lý luận và áp dụng thực tiễn khoa học

8

đã nêu trong hơn mười năm qua. Cuốn sách trong tay bạn đọc nhằm đóng

góp thúc đẩy sự phát triển nhanh chóng hơn khoa học này ở nước ta.

Cuốn sách có thể sử dụng làm cơ sở ban đầu để giảng dạy trong các

chương trình đại học và sau đại học ở các trường có các ngành sư phạm

và giáo dục, đặc biệt để tạo cho các bạn giáo viên và sinh viên trẻ quan

tâm một con đường tương đối ngắn để tiếp cận khoa học này so với con

đường mà tác giả đã phải đi qua.

Từ năm 2007 đến nay, Viện Khoa học Giáo dục Việt Nam đã tạo

cơ hội cho tác giả được tham gia phân tích các kết quả trắc nghiệm khách

quan và tự luận từ việc khảo sát kết quả học tập một số môn học lớp 5,

lớp 6 và lớp 9 ở nước ta, nhờ đó tác giả có số liệu thô để minh họa về kỹ

thuật phân tích trắc nghiệm trong sách, tác giả trân trọng cảm ơn Viện về

các cơ hội nói trên. Một công cụ được dùng để phân tích kết quả trắc

nghiệm trong cuốn sách này là phần mềm phân tích trắc nghiệm

VITESTA được xây dựng đầu tiên ở nước ta theo Lý thuyết Ứng đáp

Câu hỏi. Công ty Khoa học và Công nghệ Giáo dục (EDTECH-VN) đã

cung cấp các kỹ sư giúp tác giả xây dựng thành công phần mềm nói trên,

tác giả chân thành cảm ơn Công ty về sự hỗ trợ đó. Tác giả cảm ơn

Trường Đại học Giáo dục thuộc Đại học Quốc gia Hà Nội đã hỗ trợ làm

thủ tục in cuốn sách. Cuối cùng tác giả tỏ lòng biết ơn anh Dương Quang

Minh, nghiên cứu sinh về tâm trắc học tại Viện Đại học Bang Michigan

đã đọc bản thảo cuốn sách và đóng góp nhiều ý kiến quý báu.

Một cuốn sách như thế này lẽ ra phải được các giảng viên đã có cơ

hội tiếp cận đầy đủ các chương trình đào tạo tiến sỹ ở các nước tiên tiến

viết ra, nhưng vì chờ đợi mãi hàng chục năm qua chưa thấy ai chịu khó

làm việc này nên tác giả đành phải cố gắng thực hiện. Một mảng khoa

học hiện đại rộng lớn, phát triển nhanh chóng và có nhiều ứng dụng đa

dạng, nhưng chỉ được giới thiệu thu gọn trong một cuốn sách tương đối

nhỏ như thế này thì chắc không tránh khỏi thiếu sót. Tác giả rất hoan

nghênh các ý kiến đóng góp về cuốn sách và xin bạn đọc gửi về địa chỉ

[email protected].

Hà Nội, tháng 10 năm 2010

TÁC GIẢ

9

GIỚI THIỆU

CẤU TRÚC VÀ CÁCH SỬ DỤNG CUỐN SÁCH

Cuốn sách gồm 2 phần lớn. Phần I có 2 chương, chương 1 giới thiệu

các khái niệm chung về trắc nghiệm và đo lường trong giáo dục; chương 2

giới thiệu khái quát về lý thuyết trắc nghiệm cổ điển. Phần II là trọng tâm

của cuốn sách, có 12 chương, tập trung vào trắc nghiệm hiện đại, đặc biệt

là Lý thuyết Ứng đáp Câu hỏi (Item Response Theory – IRT). Để bạn đọc

dễ theo dõi, đầu mỗi chương đều có nêu những vấn đề sẽ được đề cập

đến trong chương và lưu ý người đọc nên tập trung vào vấn đề gì, ở cuối

mỗi chương có các câu hỏi tự kiểm tra hoặc bài tập, hoặc cả hai.

Người đọc nếu đã quen với trắc nghiệm cổ điển qua các cuốn sách

về trắc nghiệm của GS. Dương Thiệu Tống [1] thì chỉ cần đọc lướt phần I

để nhớ lại các khái niệm sẽ được dùng đến ở phần II.

Ở phần II, IRT được trình bày theo trình tự từ các điểm xuất phát

cần thiết để xây dựng một phép đo lường trong giáo dục nói chung. Diễn

tả được bắt đầu từ khái niệm cơ bản của IRT là hàm đặc trưng câu hỏi

(biểu hiện qua đường cong đặc trưng câu hỏi), mô tả ứng đáp của một thí

sinh lên một câu hỏi, mối tương tác xảy ra trong một “tế bào” bao gồm một

cặp “thí sinh – câu hỏi”, mà tác giả gọi là “mối tương tác nguyên tố”.

Mối tương tác đó là viên gạch để xây dựng toàn bộ tòa nhà IRT, cơ sở

của khoa học đo lường hiện đại trong tâm lý và giáo dục. Chương 3 và 4

dành để giới thiệu các mô hình đường cong đặc trưng câu hỏi khác nhau,

mô hình 1, 2 và 3 tham số dạng logistic, cũng giới thiệu mối quan hệ giữa

chúng với dạng đường cong tích lũy vòm chuẩn đã được sử dụng nhiều

trong quá khứ. Vai trò của mô hình Rasch (mô hình một tham số) trong

IRT nói chung cũng được bàn đến trong chương 3. Từ chương 3 đến

chương 12 của phần II chỉ tập trung trình bày mô hình trắc nghiệm nhị

phân (dichotomous) và đơn chiều (unidimentional).

10

Sau khi giới thiệu các hàm đặc trưng câu hỏi, chương 5 mô tả định

tính về quy trình ước lượng các tham số của câu hỏi để bạn đọc hiểu thực

chất của quy trình này, rồi chương 8 trở lại giới thiệu định lượng về quy

trình ước lượng giá trị năng lực của thí sinh và ước lượng đồng thời các

tham số của câu hỏi và năng lực của thí sinh, tức là định cỡ đề trắc

nghiệm. Những bạn đọc ngại đi vào các tính toán định lượng có thể chỉ

đọc chương 5 là đủ để hình dung được khái quát cách dựa vào mô hình để

tính toán các kết quả mong đợi cuối cùng – các tham số đặc trưng câu hỏi

và giá trị năng lực của thí sinh. Bắt đầu ở chương 5 và trình bày rõ hơn ở

chương 8 một tính chất quan trọng, hòn đá tảng thể hiện ưu việt của IRT,

đó là tính bất biến của các tham số của câu hỏi và năng lực của thí sinh đối

với các phép đo bằng trắc nghiệm. Tính bất biến (invariance) này cũng

hay được diễn đạt bằng các cụm từ “không phụ thuộc vào câu hỏi” (item-

free), “không phụ thuộc vào mẫu thử” (sample-free). Các chương 6 và 7

trước hết giới thiệu thêm một công cụ quan trọng phản ánh tính chất của

câu hỏi trắc nghiệm là hàm thông tin của câu hỏi trắc nghiệm, sau đó giới

thiệu các công cụ tổng hợp mô tả tính chất của toàn bộ đề trắc nghiệm, đó

là hàm và đường cong đặc trưng đề trắc nghiệm (đường cong điểm thực)

cũng như hàm và đường cong thông tin của đề trắc nghiệm.

Chương 9 trình bày một vấn đề quan trọng, đó là cách đánh giá sự

phù hợp giữa số liệu và mô hình trong IRT. Chỉ khi mức độ phù hợp giữa

số liệu và mô hình có thể chấp nhận được thì mọi ưu điểm liên quan đến

IRT mới phát huy đầy đủ và chất lượng các phép đo lường mới đảm bảo.

Ba chương tiếp theo nêu các phương pháp ứng dụng thực tế cụ thể

của lý thuyết trắc nghiệm. Chương 10 trình bày các phương pháp thiết kế

các đề trắc nghiệm dựa vào lý thuyết trắc nghiệm cổ điển và đặc biệt là

dựa vào IRT. Chương 11 trình bày các phương pháp liên quan đến một

nhu cầu quan trọng của hoạt động đánh giá trong thực tế: làm sao so sánh

được các điểm trắc nghiệm thu được từ các đề trắc nghiệm khác nhau

cũng như so sánh được các tham số của câu hỏi trắc nghiệm thu được từ

các mẫu định cỡ khác nhau. Nhu cầu này được giải quyết bởi các phương

pháp so bằng các điểm trắc nghiệm. Chương 12 giới thiệu các mô hình

trắc nghiệm nhờ máy tính, đặc biệt là phương pháp trắc nghiệm thích ứng

11

nhờ máy tính (computational adaptive tests) một phương pháp phát triển

rất thuận lợi dựa trên cơ sở IRT.

Hai chương cuối phần II của cuốn sách trình bày các cách tiếp cận

mở rộng mô hình nhị phân đơn chiều sang các mô hình đa phân

(polytomous) và đa chiều (multidimentional). Chương 13 giới thiệu

chung các mô hình trắc nghiệm đa phân và tập trung đi sâu vào mô hình

định giá từng phần (partial credit model), một mô hình trắc nghiệm đa

chiều có tính khái quát cao. Có thể sử dụng mô hình này để phân tích kết

quả đo lường bằng các đề tự luận có cấu trúc và được quy định điểm cho

từng phần. Mô hình trắc nghiệm nhị phân được xem là một trường hợp

riêng của mô hình trắc nghiệm đa phân nói chung cũng như của mô hình

định giá từng phần. Với quan niệm đó, có thể triển khai phân tích một đề

thi kết hợp trắc nghiệm với tự luận bằng mô hình định giá từng phần.

Chương 14 trình bày mở đầu về trắc nghiệm đa chiều, giới thiệu một số

mô hình trắc nghiệm đa chiều và việc ứng dụng chúng khi phân tích ảnh

hưởng của các chiều năng lực khác nhau lên kết quả đo lường.

Phần ứng dụng lý thuyết đo lường vào thực tiễn đánh giá trong giáo

dục được trình bày qua nhiều ví dụ đan xen trong các chương. Ví dụ

được lấy phần lớn từ thực tế đánh giá ở nước ta trong mấy năm qua.

Qua các ví dụ thực tế, một vài phần mềm tính toán tiêu biểu cũng được

sử dụng, đó là phần mềm CONQUEST của ACER (Úc), phần mềm

BILOG-3M, MULTILOG, PARSCALE (Mỹ) và phần mềm VITESTA

của EDTECH-VN (Việt Nam).

Để bạn đọc dễ theo dõi, đầu cuốn sách có đưa ra bảng thống kê các từ

viết tắt được sử dụng nhiều trong sách. Hơn nữa, do thành tựu hiện đại của

khoa học đo lường trong giáo dục hầu hết gắn với các tác giả phương Tây,

cho nên có thể xem chúng ta đang nhập khẩu khoa học này từ phương

Tây. Vì vậy các thuật ngữ tiếng Việt liên quan trong sách phần lớn do tác

giả tự tạo ra, và để dễ đối chiếu khi đọc các tài liệu tiếng Anh ở cuối sách

có đưa ra một bảng thuật ngữ đối chiếu Anh – Việt.

Cuối cùng tác giả có liệt kê các tài liệu dẫn và tài liệu tham khảo

chính là các sách hoặc bài viết mà tác giả có lấy ý tưởng hoặc trích dẫn

trong cuốn sách, cũng là các tài liệu mà tác giả đã đọc và tin tưởng về

12

chất lượng. Tác giả không muốn đưa quá nhiều tài liệu tham khảo liên

quan vì không muốn giới thiệu với bạn đọc những cuốn sách mà tác giả

chưa đọc kỹ và chưa nắm chắc về chất lượng.

Tuy cố gắng giới thiệu một số kiến thức tổng quát ban đầu liên

quan đến những thành tựu hiện đại của khoa học về đo lường trong giáo

dục, nhưng cuốn sách vẫn chưa bao trùm hết các vấn đề cần thiết. Tác giả

hy vọng sẽ bổ sung trong các lần xuất bản sau.

13

CÁC TỪ VIẾT TẮT THƯỜNG DÙNG

Câu hỏi CH

Thí sinh TS

Lý thuyết Ứng đáp Câu hỏi (Item Response Theory) IRT

Lý thuyết trắc nghiệm cổ điển (Classical Test Theory) CTT

Tự luận TL

Trắc nghiệm khách quan TNKQ

Đề trắc nghiệm ĐTN

Nhiều lựa chọn NLC

Ngân hàng câu hỏi NHCH

Đặc trưng của câu hỏi ĐTCH

Hàm đặc trưng của câu hỏi (Item Characteristic Function) ICF

Đường cong đặc trưng của CH (Item Characteristic Curve) ICC

Log odds unit logit

Ước lượng theo biến cố hợp lý cực đại (maximum likelyhood

estimation)

MLE

Phản ứng khác biệt của câu hỏi (differential item functioning) DIF

Dịch vụ trắc nghiệm giáo dục (Educational Testing Service) ETS

Trắc nghiệm Đại học Hoa Kỳ (American College Testing) ACT

Trắc nghiệm Đánh giá Học vấn (Scholastic Assesment Test) SAT

Kỳ thi Ghi nhận Sau đại học (Graduate Record Examination) GRE

14

Trắc nghiệm Tuyển sinh sau đại học ngành Quản lý (Graduate

Management Admission Test)

GMAT

Trắc nghiệm Ngoại ngữ tiếng Anh (Test of English as a Foreign Language) TOEFL

Mô hình định giá từng phần PCM

Trắc nghiệm nhờ máy tính (Computer-based test) CBT

Trắc nghiệm Thích ứng nhờ máy tính (Computational Adaptive Test) CAT

Trắc nghiệm cố định nhờ máy tính (Computerized Fixed Tests) CFT

Trắc nghiệm thích ứng nhờ máy tính cấu trúc đa giai đoạn

(Structured Computer Adaptive Multistage Test)

ca-MST

Trắc nghiệm trên giấy (paper-and-pencil test) PAP

Quá trình tạo đề tự động (automated test assembly) ATA

Trắc nghiệm di chuyển thẳng nhờ máy tính (Linear-on-the-Fly Test) LOFT

15

Phần I

MỘT SỐ KHÁI NIỆM BAN ĐẦU VỀ TRẮC NGHIỆM VÀ ĐO LƯỜNG

TRONG GIÁO DỤC

16

Chương 1

VỀ TRẮC NGHIỆM VÀ ĐO LƯỜNG TRONG GIÁO DỤC

Mở đầu chương này là các khái niệm chung về đo lường và đánh

giá trong giáo dục, các cách phân loại mục tiêu giáo dục và các cách

phân loại quan trọng đối với các phương pháp đo lường và đánh giá

trong giáo dục. Tiếp đến hai nhóm phương pháp đánh giá quan trọng là

trắc nghiệm khách quan và tự luận được trình bày, được so sánh với

nhau để dẫn đến nhận định phải tận dụng kết hợp ưu thế của từng

phương pháp phục vụ các bài toán đánh giá trong giáo dục. Một quy

trình nhằm thiết kế các đề kiểm tra tiêu chuẩn hóa và các ngân hàng câu

hỏi (NHCH) được nêu tóm tắt ở cuối chương, trong đó cho thấy ở các

khâu nào cần sử dụng lý thuyết trắc nghiệm cổ điển hay hiện đại. Làm

quen với những khái niệm mở đầu về đo lường và đánh giá trong giáo

dục ở chương này rất quan trọng để đọc tiếp các chương sau.

1.1. NHU CẦU ĐO LƯỜNG TRONG CUỘC SỐNG VÀ KHOA HỌC

VỀ ĐO LƯỜNG NÓI CHUNG

Từ buổi sơ khai của lịch sử loài người, trong quá trình lao động và

giao tiếp, con người đã phải thực hiện các phép đo lường. Đo lường là

phép so sánh một đại lượng nào đó với một vật chuẩn đã biết, và kết quả

là đưa ra các con số để đánh giá.

D. I. Menđêlêep có nói: “Ở đâu có sự đo lường thì ở đó bắt đầu có

khoa học”. Ở buổi ban đầu, con người cần đo lường để xây dựng nơi cư

trú, chế tạo quần áo, trao đổi thực phẩm, nguyên liệu… Với sự phát triển

các hoạt động của con người, các phép đo ngày càng chính xác, các đơn

vị đo ngày càng tinh tế. Chẳng hạn, để đo chiều dài người cổ đại sử dụng

17

các đơn vị đo dựa trên gang tay, để đo thời gian dùng các chu kỳ mọc và

lặn của Mặt Trời và Mặt Trăng… Người Lưỡng Hà đã biết sử dụng hệ

thập phân khi đo chiều dài, và các sử gia có biết đến đơn vị nhỏ nhất để

đo chiều dài mà người Lưỡng Hà đã sử dụng còn lưu lại ở các dấu khắc

trên ngà voi vào cỡ 1,704mm. Khi đo thời gian và góc người xưa sử dụng

cách chia vòng tròn thành 360 phần, có lẽ xuất phát từ con số 360 ngày

trong một năm.

Khi khoa học còn sơ khai thì các phép đo cũng thô thiển. Với sự

phát triển của một khoa học nào đó, độ chính xác của phép đo trong khoa

học ấy cũng ngày càng được nâng cao. Hãy lấy ví dụ về phép đo thời

gian. Thời xa xưa con người đo thời gian bằng đơn vị tính theo độ dài

ước chừng giữa thời điểm Mặt Trời mọc và Mặt Trời lặn, rồi sau đó sử

dụng đồng hồ dựa vào độ dài của chu kỳ dao động con lắc. Ngày nay

người ta phải tính đơn vị đo thời gian bằng việc xác định các bước sóng

bức xạ của dịch chuyển siêu tinh vi trong nguyên tử. Mặt khác, tùy theo

mục tiêu của mỗi phép đo mà người ta đòi hỏi độ chính xác đến đâu, tức

là chấp nhận sai số đến mức nào. Chẳng hạn, trong cuộc sống hàng ngày

người ta chỉ cần hẹn nhau chính xác đến năm ba phút. Tuy nhiên, nói

chung sự tiến bộ của khoa học giúp con người có cơ sở để thiết kế các

phép đo có độ chính xác ngày càng cao.

1.2. ĐO LƯỜNG VÀ ĐÁNH GIÁ TRONG GIÁO DỤC

Bất kỳ một quá trình giáo dục nào mà một con người tham gia cũng

nhằm tạo ra những biến đổi nhất định trong con người đó. Muốn biết

những biến đổi đó xảy ra ở mức độ nào phải đánh giá hành vi của người

đó trong một tình huống nhất định. Việc đánh giá cho phép chúng ta xác

định, một là mục tiêu giáo dục được đặt ra có phù hợp hay không và có

đạt được hay không, hai là việc giảng dạy có thành công hay không, học

viên có tiến bộ hay không.

Để việc đánh giá được đúng đắn phải triển khai đo lường: muốn so

sánh vật nào nặng hơn trong hai vật có bề ngoài không khác nhau người

ta phải đem cân chúng lên. Việc dạy và học đã xuất hiện trong lịch sử

loài người hàng nghìn năm trước đây, và để tuyển dụng người giỏi người

ta phải tạo ra các hình thức thi để so sánh các thí sinh với nhau.

18

Trong lịch sử giáo dục Việt Nam, nhằm giúp nhà vua đánh giá đúng hiền

tài để tuyển dụng vào các chức quan lại trị nước, triều đình phải tổ chức

các kỳ thi từ thấp đến cao: thi hương, thi hội, thi đình. Ở các kỳ thi này,

người ta ra đề thi cho sỹ tử làm bài, và các giám khảo đo lường năng lực

của thí sinh qua các bài thi đó dựa vào sự nhận xét chủ quan của mình.

Giám khảo giỏi và công bằng thì việc đo lường sẽ chính xác, giám khảo

kém và không công bằng thì việc đo lường thường sai lệch, như vậy việc

tuyển chọn đúng người tài cho quốc gia phụ thuộc nhiều vào độ chính

xác trong phép đo lường năng lực thí sinh của giám khảo.

Những ví dụ nêu trên cho thấy, việc đo lường và đánh giá trong

giáo dục đã phát triển từ xa xưa, tuy nhiên, có thể nói, một ngành khoa

học thật sự về đo lường trong tâm lý và giáo dục mới bắt đầu hình thành

từ cuối thế kỷ XIX. Ở châu Âu, và đặc biệt là ở Mỹ, lĩnh vực khoa học về

trắc nghiệm phát triển mạnh trong thế kỷ XX. Có thể kể những dấu mốc

quan trọng trong tiến trình phát triển, như Trắc nghiệm trí tuệ Simon-

Binet được xây dựng bởi hai nhà tâm lý học người Pháp Alfred Binet và

Theodore Simon vào khoảng năm 1905, tiếp đến được áp dụng tại Đại

học Stanford ở Mỹ bởi Lewis Terman năm 1916, sau đó nó đã được cải

tiến liên tục và được sử dụng ngày nay với tên gọi là Trắc nghiệm trí tuệ

IQ (intelligence quotient). Bộ trắc nghiệm thành quả học tập tổng hợp

đầu tiên Stanford Achievement Test ra đời vào năm 1923 ở Mỹ. Với việc

đưa vào chấm trắc nghiệm bằng máy của IBM năm 1935, việc thành lập

Hội quốc gia về Đo lường trong giáo dục (National Council on

Measurement in Education - NCME) vào thập niên 1950, sự ra đời hai tổ

chức tư nhân Educational Testing Service (ETS) năm 1947 và American

College Testing (ACT) năm 1959, hai tổ chức làm dịch vụ trắc nghiệm

lớn thứ nhất và thứ hai Hoa Kỳ, một ngành công nghiệp về trắc nghiệm

đã hình thành ở Mỹ. Từ đó đến nay khoa học về đo lường trong tâm lý và

giáo dục đã phát triển liên tục, những phê bình chỉ trích đối với khoa học

này cũng xuất hiện thường xuyên nhưng chúng không đánh đổ được nó

mà chỉ làm cho nó tự điều chỉnh và phát triển mạnh mẽ hơn. Hiện nay ở

Mỹ ước tính mỗi năm số lượt trắc nghiệm tiêu chuẩn hoá cỡ 1/4 tỷ và

trắc nghiệm do giáo viên soạn lên đến con số 5 tỷ. Tương ứng với ngành

công nghiệp trắc nghiệm đồ sộ và sự phát triển của công nghệ thông tin,

19

lý thuyết về đo lường trong tâm lý giáo dục cũng phát triển nhanh. Các

thành tựu lý luận quan trọng của khoa học về đo lường trong giáo dục đạt

được cho đến thập niên 70 của thế kỷ trước được bao gồm trong "Lý

thuyết trắc nghiệm cổ điển" (Classical Test Theory - CTT). Còn bước

phát triển về chất của nó trong khoảng 4 thập niên vừa qua bao gồm

trong “Lý thuyết trắc nghiệm hiện đại” mà cốt lõi là "Lý thuyết Ứng đáp

Câu hỏi" (Item Response Theory - IRT). IRT đã đạt được những thành

tựu quan trọng nâng cao độ chính xác của trắc nghiệm, và trên cơ sở lý

thuyết đó, công nghệ Trắc nghiệm thích ứng nhờ máy tính (Computer

Adaptive Test – CAT) ra đời. Ngoài ra, trên cơ sở những thành tựu của

IRT và ngôn ngữ học máy tính, công nghệ Criterion chấm tự động các

bài tự luận tiếng Anh nhờ máy tính của ETS đã được triển khai qua mạng

Internet trong mấy năm qua.

1.3. PHÂN LOẠI CÁC MỤC TIÊU GIÁO DỤC

Để thiết kế quá trình dạy, học và đánh giá kết quả học tập, xác định

rõ các mục tiêu của hoạt động giáo dục là rất quan trọng. Tại Hội nghị

của Hội Tâm lý học Mỹ năm 1948, B. S. Bloom đã chủ trì xây dựng một

hệ thống phân loại các mục tiêu đó. Ba lĩnh vực của các hoạt động giáo

dục đã được xác định, đó là lĩnh vực về nhận thức (cognitive domain),

lĩnh vực về cảm xúc, thái độ (affective domain) và lĩnh vực về tâm lý vận

động (kỹ năng) (psychomotor domain).

Lĩnh vực nhận thức thể hiện ở khả năng suy nghĩ, lập luận, bao

gồm việc thu thập các sự kiện, giải thích, lập luận theo kiểu diễn dịch và

quy nạp và sự đánh giá có phê phán.

Lĩnh vực cảm xúc liên quan đến những đáp ứng về mặt tình cảm,

bao hàm cả những mối quan hệ như yêu ghét, thái độ nhiệt tình, thờ ơ,

cũng như sự cam kết với một nguyên tắc và sự tiếp thu các lý tưởng.

Lĩnh vực tâm lý vận động liên quan đến những kỹ năng đòi hỏi sự

khéo léo về chân tay, sự phối hợp các cơ bắp và khả năng của thân thể từ

đơn giản đến phức tạp để điều phối động tác.

Các lĩnh vực nêu trên không hoàn toàn tách biệt hoặc loại trừ lẫn

nhau. Phần lớn việc phát triển tâm linh và tâm lý đều bao hàm cả 3 lĩnh

vực nói trên.

20

1) Lĩnh vực nhận thức

Bloom và những người cộng tác với ông ta cũng xây dựng nên các

mức độ của các mục tiêu giáo dục, thường được gọi là cách phân loại

Bloom, trong đó lĩnh vực nhận thức được chia thành các mức độ nhận

thức (hay mức độ thao tác xử lý kiến thức) từ đơn giản nhất đến phức tạp

nhất như sau [32]:

- Biết (Knowledge): được định nghĩa là sự nhớ, thuộc lòng, nhận

biết được và có thể tái hiện các dữ liệu, các sự việc đã biết hoặc đã học

được trước đây. Điều đó có nghĩa là một người có thể nhắc lại một loạt

dữ liệu, từ các sự kiện đơn giản đến các lý thuyết phức tạp, tái hiện trong

trí nhớ những thông tin cần thiết. Đây là mức độ hành vi thấp nhất đạt

được trong lĩnh vực nhận thức.

- Hiểu (Comprehention): được định nghĩa là khả năng nắm được ý

nghĩa của tài liệu. Điều đó có thể thể hiện bằng việc chuyển tài liệu từ

dạng này sang dạng khác (từ các ngôn từ sang số liệu…), bằng cách giải

thích tài liệu (giải nghĩa hoặc tóm tắt), mô tả theo ngôn từ của mình và

bằng cách ước lượng xu hướng tương lai (dự báo các hệ quả hoặc ảnh

hưởng). Hành vi ở mức độ này cao hơn so với mức độ biết, và cũng bao

gồm cả mức độ biết.

- Áp dụng (Application): được định nghĩa là khả năng sử dụng các

tài liệu đã học vào một hoàn cảnh cụ thể mới. Điều đó có thể bao gồm

việc áp dụng các quy tắc, phương pháp, khái niệm, nguyên lý, định luật

và lý thuyết. Hành vi ở mức độ này cao hơn mức độ biết và hiểu trên đây,

và cũng bao gồm cả các mức độ đó.

- Phân tích (Analysis): được định nghĩa là khả năng phân chia một

tài liệu ra thành các phần của nó sao cho có thể hiểu được các cấu trúc tổ

chức của nó. Điều đó có thể bao gồm việc chỉ ra đúng các bộ phận, phân

tích mối quan hệ giữa các bộ phận, và nhận biết được các nguyên lý tổ

chức của chúng. Hành vi ở mức độ này cao hơn so với mức độ biết, hiểu

và áp dụng, và cũng bao gồm cả các mức độ đó, vì nó đòi hỏi một sự thấu

hiểu cả nội dung và hình thái cấu trúc của tài liệu.

- Tổng hợp (Synthesis): được định nghĩa là khả năng sắp xếp các

bộ phận lại với nhau để hình thành một tổng thể mới. Điều đó có thể bao

21

gồm việc tạo ra một cuộc giao tiếp đơn nhất (chủ đề hoặc bài phát biểu),

một kế hoạch hành động (dự án nghiên cứu), hoặc một mạng lưới các

quan hệ trừu tượng (sơ đồ để phân lớp thông tin). Hành vi ở mức độ này

cao hơn so với các mức độ biết, hiểu, áp dụng, phân tích, và cũng bao

gồm cả các mức độ đó, nó nhấn mạnh các yếu tố sáng tạo, đặc biệt tập

trung vào việc hình thành các mô hình hoặc cấu trúc mới.

- Đánh giá (Evaluation): là khả năng xác định giá trị của tài liệu,

phán quyết được về những tranh luận, bất đồng ý kiến (tuyên bố, tiểu

thuyết, thơ, báo cáo nghiên cứu). Việc đánh giá dựa trên các tiêu chí nhất

định. Đó có thể là các tiêu chí bên trong (cách tổ chức) hoặc các tiêu chí

bên ngoài (phù hợp với mục đích), và người đánh giá phải tự xác định

hoặc được cung cấp các tiêu chí. Hành vi ở mức độ này cao hơn so với

tất cả các mức độ biết, hiểu, áp dụng, phân tích, tổng hợp, và cũng bao

gồm tất cả các mức độ đó.

Cách phân chia mức độ thao tác xử lý kiến thức của lĩnh vực nhận

thức trên đây do nhóm các nhà tâm lý học được chủ trì bởi B. Bloom đưa

ra từ cách đây hơn nửa thế kỷ. Vào năm 2001, các học trò cũ của Bloom là

Anderson L.W. và Krathwohl D.R. [33], sau một quá trình bàn luận với

một số nhà tâm lý học, đã đưa ra phương án điều chỉnh phân loại mục tiêu

trong lĩnh vực nhận thức của Bloom. Nội dung chính của điều chỉnh bởi

Anderson và Krathwohl là thay 2 thao tác xử lý kiến thức tổng hợp và

đánh giá ở mức độ thứ 5 và thứ 6 tương ứng bằng đánh giá và sáng tạo.

Ngoài ra, họ mô tả các thao tác xử lý kiến thức bằng các động từ thay vì

danh từ như trước đây (trong tiếng Anh), và tạo thành một ma trận phân

loại 2 chiều bằng cách, cùng với chiều đứng biểu diễn 6 thao tác xử lý kiến

thức, đưa vào thêm chiều ngang biểu diễn 4 loại kiến thức liên quan đến sự

vật (factual), khái niệm (conceptual), quy trình (procedural) và siêu nhận

thức (metacornitive). Hiện nay trong cộng đồng giáo dục thế giới sử dụng cả

hai cách phân loại cổ điển và điều chỉnh tùy theo thói quen của từng người.

2) Lĩnh vực tình cảm: lĩnh vực tình cảm được phân chia thành các

mức độ hành vi từ đơn giản nhất đến phức tạp nhất như sau:

- Tiếp nhận (Receiving): thể hiện sự tự nguyện tiếp nhận thông tin,

sự quan tâm có lựa chọn.

22

- Đáp ứng (Responding): thể hiện sự quan tâm tích cực để tiếp

nhận, sự tự nguyện đáp ứng và cảm giác thỏa mãn.

- Chấp nhận giá trị (Valuing): thể hiện niềm tin và sự chấp nhận

giá trị, sự ưa chuộng và sự cam kết.

- Tổ chức (Organization): thể hiện sự khái quát hóa các giá trị và tổ

chức thành hệ thống giá trị.

- Đặc trưng hóa (Characterization): Đây là cấp độ cao và phức tạp

nhất. Nó bao gồm hành vi liên quan tới việc tiếp nhận một tập hợp các giá

trị và sự khái quát thành đặc trưng của bản thân hay triết lý của cuộc sống.

Cách phân loại mức độ hành vi của lĩnh vực tình cảm trên đây được

đề xuất bởi nhóm nhà tâm lý học do Krathworl D.R. (1964) chủ trì.

3) Lĩnh vực kỹ năng: lĩnh vực kỹ năng được chia thành các mức độ

hành vi từ đơn giản nhất đến phức tạp nhất như sau:

- Bắt chước thụ động (Imitation): Làm theo hành vi của một người

khác một cách thụ động.

- Thao tác theo (Manipulation): Thực hiện được các thao tác theo

một sự hướng dẫn từng bước quy trình.

- Tự làm đúng (Precision): Thực hiện được một nhiệm vụ với sai

sót nhỏ và dần dần chính xác hơn mà không có nguồn hướng dẫn. Thể

hiện thao tác trơn tru, chính xác.

- Khớp nối được (Articulation): Sắp xếp được một chuỗi thao tác

bằng cách kết hợp hai hay nhiều kỹ năng, có thể cải tiến thao tác cho phù

hợp để giải quyết một vấn đề gì đó.

- Thao tác tự nhiên (Naturalisation): Chứng tỏ mức độ thực hiện

thao tác một cách tự nhiên như bản hăng (”không cần suy nghĩ”). Các kỹ

năng được kết hợp, thao tác trình tự, thực hiện nhất quán dễ dàng, tức là

mất ít năng lượng và thời gian.

Cách phân loại mức độ hành vi của lĩnh vực kỹ năng trên đây được

Dave R.H. (1970) đề xuất.

Ngoài ra còn có một số cách phân loại mục tiêu giáo dục khác,

nhưng trên đây là các cách được sử dụng phổ biến nhất.

23

1.4. PHÂN LOẠI CÁC PHƯƠNG PHÁP ĐO LƯỜNG VÀ ĐÁNH GIÁ

TRONG GIÁO DỤC

Có nhiều kiểu phân loại các phương pháp đo lường và đánh giá

trong giáo dục, tùy theo cách xem xét và mục tiêu phân loại. Chúng ta

hãy làm quen với một số kiểu phân loại sau đây.

1) Theo cách thực hiện việc đánh giá, có thể phân chia các phương

pháp đánh giá làm ba loại quan trọng: loại quan sát, loại vấn đáp và loại

viết (xem Bảng 1).

- Loại quan sát giúp đánh giá các thao tác, các hành vi, các phản ứng

vô thức, các kỹ năng thực hành và cả một số kỹ năng về nhận thức, chẳng

hạn cách giải quyết vấn đề trong một tình huống đang được nghiên cứu.

- Loại vấn đáp có tác dụng tốt để đánh giá khả năng ứng đáp các

câu hỏi được nêu một cách tự phát trong một tình huống cần kiểm tra,

cũng thường được sử dụng khi sự tương tác giữa người hỏi và người đối

thoại là quan trọng, chẳng hạn để xác định thái độ người đối thoại...

- Loại viết thường được sử dụng nhiều nhất, vì nó có các ưu điểm sau:

+ cho phép kiểm tra nhiều thí sinh cùng một lúc;

+ cho phép thí sinh cân nhắc nhiều hơn khi trả lời;

+ có thể đánh giá một số thao tác tư duy ở mức độ cao;

+ cung cấp các bản ghi trả lời của thí sinh để nghiên cứu kỹ khi

chấm điểm;

+ dễ quản lý vì người chấm không tham gia trực tiếp vào bối cảnh

kiểm tra.

Loại viết lại được chia thành hai nhóm chính:

+ Nhóm các câu hỏi (CH) trắc nghiệm tự luận (TL- essay test): Các

CH buộc thí sinh (TS) phải tự mình trình bày ý kiến trong một đoạn bài

viết để trả lời.

+ Nhóm các CH trắc nghiệm khách quan (TNKQ - objective test):

Đề thi thường bao gồm rất nhiều CH, mỗi CH nêu lên vấn đề và cho

những thông tin cần thiết để TS có thể trả lời một cách ngắn gọn.

24

Bảng 1 còn mô tả hai kiểu bài tự luận, và các loại CH TNKQ. Mục 1.5

sẽ mô tả kỹ hơn các loại CH đó. Ở nước ta nhiều người thường gọi tắt

TNKQ là “trắc nghiệm”. Thuận theo thói quen ấy, từ nay về sau nếu

trong sách này dùng từ “trắc nghiệm” mà không nói gì thêm thì ta ngầm

hiểu là TNKQ.

Bảng 1. Phân loại các phương pháp đánh giá thành quả học tập theo cách thực hiện việc đánh giá

2) Theo mục tiêu của việc đánh giá có thể phân chia các phương

pháp đánh giá làm hai nhóm: đánh giá trong tiến trình (formative) và

đánh giá tổng kết (summative).

- Đánh giá trong tiến trình được sử dụng trong quá trình dạy và học

để nhận được các phản hồi từ học viên, xem xét mức độ thành công của

việc dạy và học, chỉ ra các trở ngại và tìm cách khắc phục.

- Đánh giá tổng kết nhằm tổng kết những gì học viên đạt được, xếp

loại học viên, lựa chọn học viên thích hợp để tiếp tục đào tạo hoặc sử

dụng trong tương lai, chứng tỏ hiệu quả của khóa học cũng như việc dạy

của giảng viên, đề ra mục tiêu tương lai cho học viên.

Hai nhóm đánh giá nêu trên được tiến hành theo những cách hoàn

toàn khác nhau. Trong giảng dạy ở nhà trường, các đánh giá trong tiến trình

Cung cấp thông tin

QUAN SÁT VIẾT VẤN ĐÁP

TRẮC NGHIỆM KHÁCHQUAN (Objective tests)

TRẮC NGHIỆM TỰ LUẬN (Essay tests)

CÁC PHƯƠNG PHÁP ĐÁNH GIÁ THÀNH QUẢ HỌC TẬP

Tiểu luận

Ghép đôi

Điền khuyết

Trả lời ngắn

Đúng sai

Nhiều lựa chọn

25

thường gắn chặt với giảng viên, còn các đánh giá tổng kết thường bám sát

vào mục tiêu dạy học đã được đề ra, và có thể tách khỏi giảng viên. Khi chỉ

quan tâm đến mục tiêu của hai phương pháp đánh giá trên đây, người ta

thường diễn tả ngắn gọn hai loại phương pháp nêu trên tương ứng là đánh

giá vì việc học tập (assessment FOR learning) và đánh giá việc học tập

(assessment OF learning).

3) Theo phương hướng sử dụng kết quả đánh giá, có thể phân chia

ra đánh giá theo chuẩn (norm-referenced) và đánh giá theo tiêu chí

(criterion-referenced)

- Đánh giá theo chuẩn: là đánh giá được sử dụng để xác định mức

độ thực hiện của một cá nhân nào đó so với các cá nhân khác trong một

nhóm mà trên đó việc đánh giá được thực hiện.

- Đánh giá theo tiêu chí: là đánh giá được sử dụng để xác định mức

độ thực hiện của một cá nhân nào đó so với các tiêu chí xác định cho

trước của môn học hoặc chương trình học.

4) Theo cách chuẩn bị cuộc đánh giá, có thể phân chia đánh giá

theo hai nhóm, đánh giá tiêu chuẩn hoá và đánh giá ở lớp học.

- Đánh giá tiêu chuẩn hoá thường do các chuyên gia đánh giá thiết

kế, thử nghiệm, tu chỉnh công cụ đánh giá, soạn thảo quy trình đánh giá và

sử dụng kết quả đánh giá. Nếu đánh giá bằng TNKQ thì mỗi CH trắc

nghiệm được gắn với các chỉ số cho biết thuộc tính và chất lượng của nó

(độ khó, độ phân biệt và các tham số khác đặc trưng cho CH, nội dung và

mức độ kỹ năng gắn với CH), mỗi ĐTN phải đảm bảo có độ tin cậy và độ

giá trị xác định.

- Đánh giá ở lớp học là đánh giá chủ yếu do giáo viên tự chế tác

hoặc lựa chọn để sử dụng trong quá trình giảng dạy, có thể chưa được thử

nghiệm và tu chỉnh công phu, thường chỉ sử dụng ở lớp học hoặc trong các

kỳ kiểm tra với số lượng học sinh không lớn và không thật quan trọng.

5) Theo mức độ đảm bảo thời gian để làm đề kiểm tra, có thể phân

chia loại đánh giá theo tốc độ và đánh giá không theo tốc độ.

- Đánh giá theo tốc độ thường hạn chế thời gian, chỉ một ít TS làm

nhanh mới có thể làm hết số CH của đề kiểm tra, nhằm đánh giá khả

năng làm nhanh của TS.

26

- Đánh giá không theo tốc độ thường cung cấp đủ thời gian cho

phần lớn TS có thể kịp suy nghĩ để làm hết đề kiểm tra.

1.5. CÁC KIỂU CÂU HỎI TRẮC NGHIỆM KHÁCH QUAN

Như đã mô tả ở Bảng 1, trong nhóm TNKQ có nhiều kiểu CH

khác nhau:

- Câu ghép đôi (matching item) đòi hỏi TS phải ghép đúng từng

cặp dòng ở hai cột với nhau sao cho phù hợp về một phương diện nào đó.

Ví dụ câu trắc nghiệm về văn học:

Hãy tìm ở cột bên phải tên tác giả của hai câu thơ liệt kê ở cột

bên trái:

1. Hồ Tây cảnh đẹp hoá gò hoang

Thổn thức bên song mảnh giấy tàn

2. Rặng liễu đìu hiu đứng chịu tang

Tóc buồn buông xuống lệ ngàn hàng

3. Bóng chiều không thắm, không vàng vọt

Sao đầy hoàng hôn trong mắt trong

4. Con đường nhỏ nhỏ, gió xiêu xiêu

Lả lả cành hoang, nắng trở chiều

5. Ở ngoài kia vui sướng biết bao nhiêu

Nghe chim reo trong gió mạnh lên triều

a. Thâm Tâm

b. Xuân Diệu

c. Huy Cận

d. Nguyễn Du

e. Hàn Mặc tử

g. Tố Hữu

Đáp án: 1-d, 2-b, 3-a, 4-b, 5-g

Đối với loại CH ghép đôi, người ta thường cho số dòng ở cột bên

trái không bằng số dòng ở cột bên phải, vì rằng khi số dòng ở hai phía

bằng nhau thì hai dòng cuối cùng sẽ mặc nhiên được ghép với nhau mà

không phải lựa chọn.

- Câu điền khuyết (supply item): nêu một mệnh đề có khuyết một

bộ phận, TS phải nghĩ ra nội dung thích hợp để điền vào chỗ trống.

Ví dụ câu trắc nghiệm về lịch sử:

Ngày 2 tháng 9 năm 1945 Chủ tịch Hồ Chí Minh đã

đọc.................... khai sinh nước Việt Nam Dân chủ Cộng hòa.

27

Đáp án: Tuyên ngôn độc lập.

- Câu trả lời ngắn (short answer item): là câu trắc nghiệm chỉ đòi

hỏi trả lời bằng một từ hoặc cụm từ chỉ một khái niệm nào đó, rất ngắn.

Ví dụ câu trắc nghiệm về sinh học:

Nguyên nhân hình thành các đặc điểm thích nghi của sinh vật là gì?

Đáp án: Chọn lọc tự nhiên.

- Câu đúng sai (yes/no item): đưa ra một nhận định, TS phải lựa

chọn một trong hai phương án trả lời để khẳng định nhận định đó là đúng

hay sai. Ví dụ câu trắc nghiệm về hoá học:

Sự khử là quá trình nhường electron.

A) Đúng. B) Sai.

Đáp án: B

- Câu nhiều lựa chọn (NLC - multiple choise item) đưa ra một nhận

định và một số phương án trả lời, TS phải chọn để đánh dấu vào một

phương án đúng hoặc phương án tốt nhất. Ví dụ CH trắc nghiệm về toán:

Hãy xác định giá trị của số hạng thứ bảy trong dãy các số "tam

giác" mà 4 số hạng đầu được biểu diễn bởi các hình dưới đây:

A. 7 B. 22 C. 25 D.28

Đáp án: D

Muốn làm được câu này cần xác định quy luật hình thành mỗi số

hạng của dãy: số hạng thứ n có giá trị là 1+2+3+…+n, từ đó dễ dàng suy

ra số hạng thứ 7 là 1+2+3+4+5+6+7 = (7+1)x3+4=28.

- Câu thí sinh tự tạo đáp án (student-produced responses item) là

loại CH có đáp án bằng số mà trắc nghiệm SAT cải tiến mới đưa vào vào

28

năm 2005 để giảm bớt sự lệ thuộc của TS vào cái khung trả lời định sẵn.

TS có thể tô giá trị trả lời bằng số vào phiếu trả lời có dạng thức xác

định, do đó có thể chấm bằng máy. Ví dụ:

Tính giá trị của x thỏa mãn 2 phương trình: |4x - 7| = 5 và |3x -8| = 1.

Giải: Vì |4x - 7| = 5 nên 4x-7=±5 x= 3 hoặc x= 1/2.

Tương tự |3x -1| = x → 3x-1=±x x=1/4 hoặc x= 1/2. Như vậy

giá trị x thỏa mãn hai phương trình trên là x= 1/2. TS phải tô các ô biểu

diễn số 1/2 trên phiếu trả lời.

Trong các kiểu câu trắc nghiệm đã nêu, kiểu CH đúng-sai và kiểu

CH NLC có cách trả lời đơn giản nhất. CH đúng-sai cũng chỉ là trường

hợp riêng của CH NLC với 2 phương án trả lời.

Dễ dàng thấy rằng khi một người hoàn toàn không có hiểu biết chỉ

đánh dấu hú hoạ để trả lời một CH đúng - sai thì xác suất để người đó làm

đúng CH là 50%, cũng vậy nếu anh ta đánh dấu hú hoạ để trả lời câu trắc

nghiệm NLC với n phương án trả lời thì xác suất để làm đúng câu đó là 1/n.

Trong các kiểu CH trắc nghiệm, kiểu câu NLC được sử dụng phổ

biến hơn cả vì, một mặt, chúng có cấu trúc đơn giản, dễ xây dựng thành

các đề thi, dễ chấm điểm tự động, mặt khác, chúng cho phép đánh giá

được nhiều cấp độ nhận thức từ thấp đến cao. Vì vị trí quan trọng của

kiểu CH NLC nên sau đây chúng ta sẽ nói kỹ hơn về chúng. Loại CH

NLC thường dùng nhất là loại có 4 hoặc 5 phương án trả lời, vì số

phương án như vậy vừa đủ để giảm xác suất làm đúng do đoán mò hú

họa xuống tương ứng còn 25%, 20%, đồng thời việc chế tác chúng cũng

không quá phức tạp.

Câu trắc nghiệm NLC có hai phần, phần đầu được gọi là câu dẫn

(stem), nêu vấn đề, cung cấp thông tin cần thiết hoặc đặt một CH; phần sau

là các phương án chọn, thường được đánh dấu bằng các chữ cái A, B, C,

D,... hoặc các chữ số 1, 2, 3, 4,... Kiểu CH trắc nghiệm NLC đơn giản nhất

quy định trong các phương án chọn chỉ có một phương án đúng duy nhất

hoặc một phương án đúng nhất; các phương án khác được đưa vào có tác

dụng “gây nhiễu” (distractor) đối với TS. Nếu CH NLC được soạn tốt thì

một người không nắm vững vấn đề sẽ không thể nhận biết được trong tất

29

cả các phương án để chọn đâu là phương án đúng, đâu là phương án nhiễu.

Trong khi soạn thảo CH trắc nghiệm, người ta thường cố gắng làm cho các

phương án nhiễu đều có vẻ dường như “có lý” tựa như phương án đúng.

Về nguyên tắc, đối với người có kinh nghiệm chế tác CH, một nội

dung bất kỳ nào cần kiểm tra đều có thể được thể hiện vào một CH trắc

nghiệm theo một kiểu nào đó. Vì thế đối với tất cả các môn học người ta đều

có thể chế tác CH trắc nghiệm. Tuy nhiên, do đặc thù của từng môn học mà

việc chế tác CH trắc nghiệm cho môn này có thể khó hơn cho môn kia.

Cũng cần lưu ý rằng không phải bất cứ ai có kiến thức chuyên môn

cũng chế tác được CH trắc nghiệm có chất lượng cao cho chuyên môn

đó. Muốn chế tác CH trắc nghiệm tốt phải suy nghĩ sâu sắc về chuyên

môn, phải có những hiểu biết cơ bản về trắc nghiệm và cần tích lũy kinh

nghiệm sau một thời gian luyện tập lâu dài.

1.6. SO SÁNH CÁC PHƯƠNG PHÁP TRẮC NGHIỆM KHÁCH QUAN

VÀ TỰ LUẬN

1.6.1. Các đặc điểm của phương pháp TL

- Cho phép TS tương đối tự do trong việc lựa chọn cách bố cục,

trình bày để diễn đạt ý kiến của mình nhằm trả lời một CH sao cho chính

xác và sáng sủa.

- Trong phạm vi thời gian hạn chế (một vài giờ) đề thi chỉ có thể

hỏi vài chủ đề nào đó của môn học. Vì có quá ít chủ đề được đề cập nên

việc đánh giá không phủ kín được nội dung môn học, dễ xảy ra hiện

tượng "trúng tủ, trật tủ" tạo nên mức độ may rủi lớn trong thi cử.

- TS muốn trình bày phần kiến thức nào đó của môn học phải nhớ

lại hơn là nhận biết thông tin.

- Bài thi TL thường được người chấm đọc, đánh giá cho điểm theo

nhận định chủ quan của mình, vì vậy các điểm cho bởi những người

chấm khác nhau thường dễ không thống nhất.

1.6.2. Các đặc điểm của phương pháp TNKQ

- TS phải trả lời các CH TNKQ theo các phương án trả lời cho sẵn,

thông thường một CH chỉ có một phương án là đúng duy nhất hoặc đúng

30

nhất, phù hợp nhất. Như vậy, TS trả lời TNKQ theo một khuôn khổ định

sẵn, không thể đưa ra các ý kiến nào khác của mình.

- Vì thời gian cần thiết để trả lời một CH trắc nghiệm thường rất

ngắn nên một ĐTN KQ có thể bao gồm rất nhiều CH, có thể đánh giá bao

trùm chương trình của cả một môn học, điều này hạn chế việc học tủ và

việc "trúng tủ, trật tủ", tức là hạn chế độ may rủi trong thi cử.

- Kiến thức giúp TS lựa chọn đúng các phương án trả lời các CH

trắc nghiệm, tuy nhiên TS không có kiến thức cũng có thể "đoán mò" để

trả lời hoặc trả lời hú họa, dù rằng việc đoán mò đó cũng không dẫn "ăn

may" khi ĐTN có số CH đủ lớn (theo dõi ví dụ trình bày dưới đây).

- TS có thể nhận biết kiến thức qua các CH trắc nghiệm chứ không

cần phải nhớ lại để trình bày.

- Bài TNKQ thường được chấm điểm bằng cách so sánh xem việc

chọn phương án đúng của TS có trùng với đáp án cho sẵn hay không một

cách máy móc, do đó người chấm điểm không đưa ra quan điểm riêng để

đánh giá ĐTN mà chỉ cần đếm một cách máy móc. Từ đó TNKQ có thể

được chấm bằng máy. Chính do tính khách quan của việc chấm điểm mà

người ta gọi loại trắc nghiệm đó là trắc nghiệm khách quan.

- Việc xử lý định lượng kết quả TNKQ nhờ khoa học thống kê đã

đạt được nhiều thành tựu quan trọng. Chính vì vậy, đối với TNKQ có các

phương pháp định lượng để nâng cao chất lượng của từng CH và có quy

trình tạo các ĐTN tốt để đo chính xác năng lực của TS. Ưu thế này làm

cho TNKQ được sử dụng phổ biến trong các đánh giá tiêu chuẩn hóa.

Có một câu hỏi thường nảy sinh: trong hai phương pháp TNKQ và

TL, phương pháp nào tốt hơn? Cần phải khẳng định ngay rằng không thể

nói phương pháp nào là hoàn toàn tốt hơn, mỗi phương pháp đều có các

ưu điểm và nhược điểm nhất định. Bảng so sánh dưới đây cho thấy tuỳ

theo từng yêu cầu trong việc đánh giá, ưu thế thuộc về phương pháp nào.

Ở Bảng 2 có đưa ra bảng tóm tắt so sánh các ưu thế của phương

pháp TNKQ và TL đối với các yêu cầu khác nhau của việc đánh giá

trong giáo dục. Tuy nhiên, để làm rõ hơn một số ưu thế của TNKQ được

31

nêu trong Bảng 2, dưới đây sẽ bàn tỉ mỉ một vài vấn đề quan trọng về ưu

thế của TNKQ và TL mà nhiều bạn đọc còn nhầm lẫn.

Bảng 2. So sánh ưu thế của phương pháp trắc nghiệm khách quan và tự luận theo các yêu cầu trong việc đánh giá

Yêu cầu

Ưu thế thuộc

về phương pháp

Trắc

nghiệm

Tự luận

Ít tốn công ra đề thi

Đánh giá được khả năng diễn đạt, đặc biệt là diễn đạt

tư duy hình tượng

Thuận lợi cho việc đo lường các tư duy sáng tạo

Đề thi phủ kín nội dung môn học

Ít may rủi do trúng tủ, trật tủ

Ít tốn công chấm thi

Khách quan trong chấm thi, hạn chế tiêu cực trong

chấm thi

Giữ bí mật đề thi, hạn chế quay cóp khi thi

Có tính định lượng cao, áp dụng được công nghệ đo

lường trong việc phân tích xử lý để nâng cao chất

lượng các câu hỏi và đề thi.

Cung cấp số liệu chính xác và ổn định để sử dụng

cho các đánh giá so sánh trong giáo dục

Trước hết chúng ta hãy bàn về sự may rủi. Phương ngôn nước ta

có câu "học tài, thi phận" để nói lên sự may rủi trong thi cử. Khẳng định

đó không hoàn toàn đúng, nhưng trong cuộc sống đôi khi cũng có thể

hiện. Vậy nếu có sự may rủi trong thi cử thì phương pháp nào tạo sự

may rủi nhiều hơn, TNKQ hay TL? Với kiểu đánh dấu có vẻ giản đơn

khi làm một ĐTN, một số người tưởng rằng một TS không có chút kiến

thức nào cũng có thể làm tốt bài thi nếu “số đỏ” giúp anh ta đánh dấu

đúng vào những chỗ cần thiết. Từ suy nghĩ đó họ nhầm tưởng rằng đề

32

thi TNKQ tạo nên sự may rủi nhiều hơn đề thi TL. Thực ra hoàn toàn

ngược lại! Vì một đề thi TL thường chỉ liên quan đến một vài chủ đề

của môn học nên TS rất dễ gặp may rủi do "trúng tủ, trật tủ", còn với đề

thi TNKQ có số CH đủ lớn (ba bốn chục câu trở lên) thì sự may rủi hầu

như hoàn toàn không xảy ra. Thật vậy, như đã nói ở trên, đề thi TNKQ

bao gồm rất nhiều CH nhỏ phủ kín chương trình môn học. Nếu TS nắm

chắc nội dung môn học thì sẽ làm đúng phần lớn các CH trắc nghiệm.

Trong trường hợp TS quên hoặc không nắm vững một vài chi tiết của

môn học thì một số ít CH không làm được cũng không ảnh hưởng lớn

đến kết quả của bài thi. Ngược lại, đề thi TL thường chỉ liên quan đến

một vài chủ đề của môn học, do đó ngoài những TS học chắc thật sự,

những TS không học chắc nhưng ăn may “trúng tủ” cũng sẽ đạt kết quả

cao, còn “trật tủ” sẽ bị đánh hỏng, bất kể kiến thức của anh ta về phần

lớn nội dung còn lại của môn học như thế nào. Vậy “số đỏ” có bao giờ

đến với một TS "mít đặc" không có một hiểu biết nào mà chỉ đánh dấu

“hú họa” vào bài thi hay không? Có thể khẳng định là không bao giờ!

Thật vậy, giả sử một ĐTN gồm các CH NLC với 5 phương án trả lời,

xác suất đánh dấu “hú họa” để làm đúng một CH là 1/5. Khi số CH ít

tần suất làm đúng của TS thăng giáng rất nhiều, có thể đạt giá trị khá

lớn, giúp TS “ăn may”. Tuy nhiên, khi số CH (số phép thử) tăng lên đến

một giá trị đủ lớn, tần suất làm đúng sẽ tiến dần đến xác suất làm đúng,

tức là chỉ đạt giá trị gần với 1/5 (xem "luật số lớn" trong lý thuyết xác

suất ở mục 2.1). Nếu ĐTN có 100 CH, TS “mít đặc” sẽ chỉ làm đúng

trên dưới 20 CH. Theo cách cho điểm trắc nghiệm thông thường, người

ta thường chưa tính điểm cho một bài trắc nghiệm khi số CH trả lời

đúng nằm dưới ngưỡng làm đúng do “đoán mò” đó. Nếu tính xác suất

để một TS "mít đặc" làm đúng hoàn toàn đề trắc nghiệm nói trên thì con

số thu được còn bé hơn nữa, chỉ bằng (1/5)100. Ngoài ra, lý thuyết trắc

nghiệm hiện đại mà chúng ta sẽ làm quen ở Phần II của tập sách này

còn nâng cao độ chính xác và loại trừ khả năng "ăn may" ngay với các

ĐTN với chỉ vài chục CH.

Một quan niệm cũng thường được bàn đến là ý kiến cho rằng

phương pháp TNKQ chỉ đánh giá được khả năng ghi nhớ chứ không đo

33

được những khả năng nhận thức ở mức độ cao. Thật ra những người chế

tác CH trắc nghiệm chuyên nghiệp có khả năng chế tác các CH TNKQ

thích hợp để đánh giá tất cả 6 mức độ xử lý kiến thức trong lĩnh vực nhận

thức đã nêu trước đây. Ở mục 1.8 dưới đây chúng ta sẽ làm quen với một

số ví dụ về cách chế tác các CH để đánh giá các mức độ nhận thức như

vậy. Tất nhiên chế tác những CH để đánh giá mức độ nhận thức cao

thường khó hơn so với để đánh giá mức độ nhận thức thấp, nên những

người mới biết chế tác CH trắc nghiệm thường có thiên hướng chế tác CH

trắc nghiệm thuộc loại sau. Hiện nay trên truyền hình liên tục có những kỳ

thi sử dụng các loại CH trắc nghiệm, nhưng hầu hết các CH cho các kỳ thi

này chỉ đo lường mức độ nhận thức thấp nhất, tức là hỏi người thi có nhớ

hoặc biết một sự kiện nào đó hay không. Các chương trình truyền hình có

thể sử dụng loại CH tầm thường như vậy vì mục tiêu chủ yếu của các

chương trình đó không phải là đánh giá chính xác năng lực của những

người tham gia, mà để phổ biến các thông tin trong các CH cho đông đảo

khán giả trước màn hình. Ở đây, việc đánh giá năng lực và thứ hạng của

những người tham gia chỉ là mục tiêu phụ, để làm cho chương trình thêm

hấp dẫn. Các nhà giáo không nên nghĩ là có thể chỉ sử dụng các CH trắc

nghiệm tầm thường như ở các chương trình trên truyền hình để đánh giá

người học. Trắc nghiệm để đo lường thành quả học tập trong giáo dục đòi

hỏi đánh giá chính xác năng lực của người được trắc nghiệm, nên cần có

nhiều CH nhằm đo lường các mức độ nhận thức cấp cao, chẳng những nhớ

và hiểu mà còn áp dụng, phân tích, tổng hợp, đánh giá. Đưa ra các ý kiến

trên đây chúng tôi muốn loại bỏ quan niệm không đúng là phương pháp

TNKQ chỉ đánh giá được khả năng ghi nhớ. Tuy nhiên, phải thừa nhận là

để đánh giá khả năng sáng tạo ở mức độ rất cao thì phương pháp TNKQ bị

hạn chế hơn phương pháp TL, vì làm bài TNKQ bị giới hạn ở việc trả lời

trong những cái khung định sẵn. Do đó, trong quá trình giảng dạy rất cần

sử dụng nhiều phương pháp đo lường đánh giá khác nhau để tận dụng ưu

điểm và hạn chế nhược điểm của từng phương pháp.

Chúng ta hãy bàn thêm một chút về khả năng hạn chế nạn gian lận

quay cóp trong thời gian làm bài thi. Đối với TNKQ, với phạm vi bao

quát rộng của đề thi, TS khó có thể chuẩn bị tài liệu để "quay". Vậy liệu

họ có "cóp" bài của nhau được không? Nếu trong một phòng thi mọi

34

người đều làm một đề có hình thức như nhau thì TS rất dễ "cóp" cách tô

đáp án của nhau. Tuy nhiên một giải pháp đơn giản được thực hiện dễ

dàng hiện nay là biến một ĐTN thành nhiều phiên bản cùng nội dung

bằng cách đảo các phương án chọn trong từng CH sao cho các phương

án đúng của các ĐTN nằm ở vị trí khác nhau. Các TS ngồi gần nhau sẽ

nhận được các ĐTN hoàn toàn khác nhau về hình thức, họ sẽ phải đánh

dấu vào phiếu trả lời theo những cách hoàn toàn khác nhau, do đó họ

không thể "cóp" bài của nhau. Đây là một giải pháp chống "cóp" bài rất

hữu hiệu (tuy rằng, thực ra thay đổi vị trí các CH và các phương án trả

lời có thể làm thay đổi độ khó của CH trắc nghiệm). Như vậy đối với đề

TNKQ cả "quay" và "cóp" đều khó thực hiện hơn đối với đề TL.

Một ưu điểm nữa cũng đáng lưu ý của TNKQ so với TL là quy trình

xây dựng ĐTN đối với các kỳ thi đại trà. ĐTN có thể được xây dựng theo

một quy trình có rất nhiều người tham gia trong một thời gian đủ dài để

vận dụng "trí tuệ tập thể" nhằm tăng chất lượng và sự an toàn về nội dung,

đồng thời vẫn đảm bảo được tính bí mật, còn đề TL thì muốn đảm bảo tính

bí mật phải hạn chế tối đa số người tham gia ra đề và thời gian làm đề, sự

hạn chế này dễ dẫn đến những sơ suất trong đề thi mà một số ít người ra đề

trong một thời gian ngắn chưa phát hiện được. Thật vậy, đối với TNKQ,

có thể tổ chức cho từng cá nhân hoặc từng nhóm người tham gia soạn thảo

một số lượng rất nhỏ, khoảng 5 - 7 CH trắc nghiệm và thử nghiệm các CH

đó nhiều lần trên từng nhóm nhỏ TS thích hợp (khi thử nghiệm phải thu lại

ĐTN) để phát hiện các sai sót và tu chỉnh, các CH được thử nghiệm này

được đưa vào một NHCH trắc nghiệm đủ lớn. Sau một thời gian chuẩn bị

đủ dài, khi mọi CH trong ngân hàng đó đã đủ hoàn thiện và đảm bảo chất

lượng, người ta mới sử dụng các công nghệ và phần mềm tin học lựa chọn

các CH thích hợp để tạo lập rất nhanh các ĐTN. Quy trình nói trên vừa

đảm bảo tính bí mật vừa tăng độ an toàn cho ĐTN, nhất là các ĐTN cho

các kỳ thi đại trà cấp quốc gia.

Một khác biệt quan trọng giữa phương pháp TNKQ và TL là ở

tính khách quan. Đối với đề TL, kết quả chấm thi phụ thuộc rất nhiều

vào chủ quan của người chấm bài, do đó rất khó công bằng, chính xác.

Để hạn chế mức độ chủ quan đó, người ta có thể cải tiến việc chấm bài

35

TL bằng cách ra trước các đáp án và thang điểm rất chi tiết. Dù vậy,

việc so sánh câu trả lời của TS với đáp án chi tiết cũng tùy thuộc vào

phán xét của người chấm, thường rất khác nhau. Dù với mọi biện pháp

khắc phục tính chủ quan đó, nhiều thử nghiệm cho thấy sự thiên lệch

của kết quả chấm bài TL từ những người chấm khác nhau thường rất

lớn, thậm chí của cùng một người chấm ở những thời điểm với tâm

trạng khác nhau cũng không nhỏ. Tuy nhiên, việc ra đề TL có tính cấu

trúc với các thang điểm tỉ mỉ nếu không khéo cũng có thể dẫn đến nguy

cơ là làm giảm ưu điểm của đề TL về độ “tự do”, và biến đề TL thành

một đề TNKQ tồi.

Tính khách quan, "máy móc" của việc chấm bài TNKQ cho phép

chấm bài trắc nghiệm bằng máy. Hiện nay trên thị trường có các máy

đọc dấu hiệu quang học chuyên dụng (optical mark reader – OMR),

hoặc các máy quét ảnh thông dụng kèm thêm một phần mềm đọc dịch

có thể chấm từ hàng trăm đến hàng chục nghìn bài trong một giờ. Loại

máy quét ảnh ngày càng tốt và rẻ tiền, rất thuận lợi cho các trường học

trang bị để chấm thi trắc nghiệm.

Cuối cùng chúng tôi muốn bàn thêm về ưu thế của TNKQ liên

quan đến các công nghệ xử lý nâng cao chất lượng của từng CH trắc

nghiệm và xây dựng các ĐTN trên cơ sở các lý thuyết trắc nghiệm. Các

lý thuyết này, đặc biệt là lý thuyết trắc nghiệm hiện đại, đã đưa các

phép đo lường trong giáo dục từ loại phép đo lường dường như rất trừu

tượng, định tính và kém chính xác thành một loại phép đo có tính định

lượng cao, có thể so sánh với các phép đo trong khoa học tự nhiên và

kỹ thuật. Một trong những thành tựu quan trọng của khoa học đo lường

hiện đại trong giáo dục là khả năng thiết kế các ĐTN tương đương với

mức độ tương đương rất cao, tạo điều kiện hết sức thuận lợi cho việc

triển khai các hoạt động thi cử. Phần 2 sẽ bàn sâu hơn về khả năng này.

Qua tất cả các phân tích trên đây, chúng ta có thể đi đến một kết

luận tương đối khái quát là chất lượng của phương pháp TNKQ phụ

thuộc chủ yếu vào người làm đề và quy trình làm đề, còn chất lượng

của phương pháp TL chủ yếu phụ thuộc năng lực đánh giá và phẩm chất

36

của người chấm bài. Do đó đối với TNKQ quy trình làm ĐTN (chế tác

CH, phân tích xử lý tu chỉnh từng CH, xây dựng ĐTN theo một công

nghệ khoa học...) là hết sức quan trọng. Nếu làm ĐTN theo một quy

trình không thích hợp thì chẳng những các ưu thế của TNKQ không

được phát huy mà các nhược điểm của nó có thể được nhân lên. Do đó

có thể nói TNKQ là một con dao hai lưỡi, hiệu quả của nó phụ thuộc

nhiều vào năng lực của người dùng dao.

Như vậy cả hai phương pháp, TNKQ và TL, đều là những phương

pháp hữu hiệu để đánh giá kết quả học tập, nhưng mỗi phương pháp có

các ưu nhược điểm nhất định của mình. Cần nắm vững bản chất và công

nghệ triển khai cụ thể của từng phương pháp để có thể sử dụng mỗi

phương pháp đúng quy trình, đúng lúc, đúng chỗ.

Các chuyên gia về đánh giá cho rằng phương pháp TL nên dùng

trong những trường hợp sau:

Khi TS không quá đông;

Khi muốn khuyến khích và đánh giá cách diễn đạt;

Khi muốn tìm hiểu ý tưởng của TS hơn là khảo sát thành quả học tập;

Khi có thể tin tưởng khả năng chấm bài TL của giáo viên là chính xác;

Khi không có nhiều thời gian soạn đề nhưng có đủ thời gian để

chấm bài.

Phương pháp TNKQ nên dùng trong những trường hợp sau:

Khi số TS rất đông;

Khi muốn chấm bài nhanh;

Khi muốn có điểm số đáng tin cậy, không phụ thuộc vào người

chấm bài;

Khi phải coi trọng yếu tố công bằng, vô tư, chính xác và muốn

ngăn chặn sự gian lận khi thi;

Khi muốn đề thi có độ an toàn cao về nội dung và đảm bảo tính bí mật.

Khi muốn kiểm tra một phạm vi hiểu biết rộng, muốn ngăn ngừa

nạn học tủ, học vẹt và giảm thiểu sự may rủi.

37

1.7. SỰ KẾT HỢP TRẮC NGHIỆM KHÁCH QUAN VỚI TỰ LUẬN

TRONG ĐÁNH GIÁ

Trên đây chúng ta đã nghiên cứu tách biệt TNKQ và TL, và nêu

các ưu điểm và nhược điểm của từng phương pháp.

Tuy nhiên, với sự phát triển của khoa học về đo lường trong giáo

dục và về công nghệ TNKQ và TL, có thể thấy rằng không nên tách

biệt hoàn toàn hai phương pháp đánh giá này, xét về hai khía cạnh sau

đây. Một là, để tận dụng được ưu điểm và tránh bớt nhược điểm của

cả hai phương pháp, người ta ngày càng sử dụng nhiều đề kiểm tra có

hỗn hợp các CH TNKQ và TL. Hai là, khi phát triển các mô hình trắc

nghiệm, người ta ngày càng tìm được nhiều mô hình khái quát mà

trong đó TNKQ và TL chỉ là các trường hợp riêng, trong nhiều trường

hợp có thể kết hợp phân tích chung TNKQ và TL trong một bài kiểm

tra. Chương 13 và 14 của giáo trình này, khi xét đến các mô hình trắc

nghiệm đa phân và đa chiều sẽ có giới thiệu các ví dụ liên quan với sự

kết hợp nói trên.

1.8. SỬ DỤNG CÁC CÂU HỎI TRẮC NGHIỆM ĐỂ ĐÁNH GIÁ CÁC

MỨC ĐỘ NHẬN THỨC KHÁC NHAU

Như đã nói trên đây có thể chế tác các CH trắc nghiệm để đánh giá

các mức độ nhận thức từ thấp đến cao. Dưới đây sẽ giới thiệu ví dụ về

các CHTN được chế tác để đánh giá các mức độ nhận thức theo thang

phân chia của B. Bloom đã nêu trên đây.

1) Biết (knowledge):

Ở mức độ này người ta chỉ đòi hỏi TS nhớ lại các kiến thức đã thu

nhận được.

Ví dụ: Ai trong các nhà nghiên cứu sau đây là tác giả của tác phẩm

“Tư bản”:

A. Mannheim

B. Marx

C. Weber

D. Engels

38

E. Michels

Chú ý là các phương án chọn của CH này có sự phù hợp nội tại, vì

mọi tác gia được nêu đều là các học giả người Đức nghiên cứu về những

vấn đề xã hội. Đáp án là B.

2) Hiểu (comprehention):

Ở mức độ này kiến thức về các sự kiện, lý thuyết, quá trình v.v….

được xem là đã biết, và người ta muốn trắc nghiệm xem TS có hiểu kiến

thức đó không.

Ví dụ: Hai vật tích điện hút nhau bằng một lực xác định. Nếu điện

tích trên mỗi vật tăng gấp đôi còn khoảng cách giữa chúng giữ nguyên thì

lực tác dụng giữa chúng sẽ:

A. tăng gấp bốn.

B. tăng gấp đôi.

C. giảm một nửa.

D. tăng lên nhưng không biết tăng bao nhiêu.

Để trả lời được câu trắc nghiệm này TS phải biết định luật Culông

(Lực tương tác giữa hai điện tích tỷ lệ thuận với tích số các điện tích và

tỷ lệ nghịch với bình phương khoảng cách giữa các điện tích) và phải

hiểu mối quan hệ giữa các đại lượng trong định luật. Đáp án là A.

3) Áp dụng (application):

Đối với loại CH ở mức này phải xem là TS đã biết và hiểu các kiến

thức cần thiết làm cơ sở cho CH, cần trắc nghiệm xem họ có thể áp dụng

các điều đã biết và hiểu đó hay không. Các CH yêu cầu tính toán dựa trên

các công thức đã biết là phù hợp với mức độ này.

Ví dụ:

Giá trị nào dưới đây là xấp xỉ gần nhất của thể tích một hình cầu có

bán kính 5m?

A. 2000m3

B. 1000m3

39

C. 500m3

D. 250m3

E. 125m3

Để trả lời được CH này TS phải biết công thức để tính thể tích quả

cầu 4r3/3 (biết) và ý nghĩa của các ký hiệu khác nhau trong công thức

(hiểu), từ đó áp dụng để tính được thể tích. TS cũng không cần tính toán

chính xác đến từng chữ số thập phân, mà chỉ cần ước lượng để biết cỡ

của đáp án gần với phương án nào. Đáp án là C.

4) Phân tích, tổng hợp (analysis, synthesis):

Ví dụ:

Xem các bảng sau đây và cho biết các số liệu thống kê của nước

nào được trình bày ở các dòng 1,2 và 3:

GNP trên

đầu

người

năm 1991

(USD)

Tăng

trưởng

GNP trên

đầu người

thời kỳ

1980 - 1991

Tỷ lệ

tăng

dân số

1980 -

1991

Cơ cấu tổng thể về việc làm

thời kỳ 1980-1985 (%)

Nông

nghiệp

Công

nghiệp

Dịch

vụ

1 500 2,5% 1,5% 51 20 29

2 1570 5,8% 1,6% 74 8 8

3 25110 1,7% 0,3% 6 32 62

Hãy chọn phương án trả lời từ danh sách sau đây:

A. 1 là Hàn quốc; 2 là Kenya; 3 là Canada.

B. 1 là Sri Lanka; 2 là Đức; 3 là Thái Lan.

C. 1 là Sri Lanka; 2 là Thái Lan; 3 là Thụy Điển.

D. 1 là Namibia; 2 là Portugal; 3 là Botswana.

Để trả lời câu hỏi này TS phải nhớ các xếp hạng về kinh tế liên

quan của nhiều nước (biết) và hiểu cơ sở của sự xếp hạng đó (hiểu). Họ

40

phải áp dụng được các khái niệm đó khi được cung cấp thông tin, phải

phân tích các thông tin đã cho và tổng hợp để trả lời CH. Thật ra loại CH

này không yêu cầu TS phải nhớ các con số thống kê cụ thể, mà cần phải

xem bảng thống kê và thực hiện việc xếp hạng dựa trên các khái niệm

mà họ nắm được. Đáp án là C.

5) Đánh giá (evaluation):

Ở mức độ này TS được đòi hỏi phải đánh giá, chẳng hạn, sự nhất

quán của các tài liệu đã viết, giá trị của các quá trình thực nghiệm hoặc

việc giải thích dữ liệu.

Ví dụ : một câu hỏi về "nguyên nhân" trong đó có hai nhận định

được nối với nhau bằng từ "BỞI VÌ". TS phải đưa ra đánh giá của mình

về các sự kiện và nguyên nhân đó.

Hãy đánh giá câu in trong ngoặc sau đây theo tiêu chí được nêu

bên dưới:

"Hoa Kỳ gây cuộc Chiến tranh vùng vịnh chống Irắc năm 2003

BỞI VÌ Sađam Hussen che dấu Alqueda và chế tạo vũ khí hạt nhân"

A. Sự kiện thứ nhất và thứ hai đều đúng, và nguyên nhân là

chính xác.

B. Sự kiện thứ nhất là đúng nhưng sự kiện thứ hai không

đúng, và nguyên nhân là không đúng.

C. Sự kiện thứ nhất và thứ hai đều không đúng, và nguyên nhân

là không đúng.

D. Sự kiện thứ nhất là không đúng, sự kiện thứ hai là đúng, và

nguyên nhân là không đúng.

Đúng là Hoa Kỳ đã gây cuộc chiến tranh Vùng Vịnh chống Irắc,

nhưng không có việc Irắc che dấu Alqueda, và câu thứ hai không phải là

nguyên nhân thực chất của câu thứ nhất. Thực ra quyền lợi của các tập

đoàn dầu mỏ Hoa Kỳ đứng sau tổng thống Bush là nguyên nhân chính

xác hơn của việc Hoa Kỳ gây chiến tranh Vùng Vịnh. Để trả lời CH này

cần phải biết và hiểu tình hình chính trị của vùng Cận Đông, biết phân

tích và tổng hợp tình hình. Điều được trắc nghiệm ở đây là khả năng

đánh giá quan hệ giữa nguyên nhân và kết quả trong câu đã nêu. Đáp án

là B.

41

1.9. CÁCH CHẾ TÁC CÂU HỎI TRẮC NGHIỆM KHÁCH QUAN

Nhiều sách chuyên khảo có trình bày tỉ mỉ những điều cần lưu ý khi

chế tác các CH TNKQ. Ở đây chỉ xin nêu ngắn gọn những lưu ý chung nhất.

Yêu cầu chung:

1. Sử dụng ngôn ngữ phù hợp với TS.

2. Không hỏi quan điểm riêng của TS, chỉ hỏi sự kiện, kiến thức.

Loại nhiều lựa chọn

1. Các phương án sai phải có vẻ hợp lý.

2. Chỉ nên dùng 4 hoặc 5 phương án chọn.

3. Đảm bảo cho câu dẫn nối liền với mọi phương án chọn theo đúng

ngữ pháp.

4. Chỉ có một phương án chọn là đúng hoặc đúng nhất.

5. Tránh dùng câu phủ định, đặc biệt là phủ định hai lần.

6. Tránh lạm dụng kiểu khẳng định "Không phương án nào trên

đây đúng” hoặc “Mọi phương án trên đây đều đúng”.

7. Tránh việc làm cho phương án đúng khác biệt so với các phương

án nhiễu (dài hơn hoặc ngắn hơn, mô tả tỉ mỉ hơn...).

8. Phải sắp xếp phương án đúng và các phương án nhiễu theo thứ

tự ngẫu nhiên.

Loại đúng sai:

1. Câu phát biểu phải hoàn toàn đúng hoặc hoàn toàn sai, không có

ngoại lệ.

2. Soạn câu trả lời thật đơn giản

3. Tránh dùng câu phủ định, đặc biệt là phủ định hai lần.

Loại ghép đôi:

1. Hướng dẫn rõ về yêu cầu của việc ghép cho phù hợp

2. Đánh số ở một cột và chữ ở cột kia.

3. Các dòng trên mỗi cột phải tương đương về nội dung, hình thức,

ngữ pháp, độ dài.

42

4. Tránh các câu phủ định.

5. Số từ trên hai cột không như nhau, thường chỉ nên từ 5 đến 10 từ.

Loại điền khuyết:

1. Chỉ nên để một chỗ trống.

2. Thiết kế sao cho có thể trả lời bằng một từ đơn nhất mang tính

đặc trưng (người, vật, địa điểm, thời gian, khái niệm).

3. Cung cấp đủ thông tin để chọn từ trả lời.

4. Chỉ có một lựa chọn là đúng.

1.10. QUY TRÌNH XÂY DỰNG MỘT NGÂN HÀNG CÂU HỎI HOẶC MỘT

ĐỀ TRẮC NGHIỆM TIÊU CHUẨN HÓA

1.10.1. Mục tiêu giảng dạy, ma trận kiến thức và đề kiểm tra

Trắc nghiệm là một phép đo: dùng thước đo là đề kiểm tra để đo

một năng lực nào đó của TS. Phép đo nào cũng có mục tiêu của nó: đo

cái gì? Muốn một đề kiểm tra đo được cái cần đo, tức là đo được mức độ

đạt các mục tiêu cụ thể của môn học, cần chế tác các CH và thiết kế các

đề kiểm tra bám sát mục tiêu của môn học. Một đề kiểm tra tốt kết hợp

với việc tổ chức triển khai kỳ thi tốt sẽ giúp đạt được mục tiêu của phép

đo, tức là đo được cái cần đo, cái muốn đo.

Để đơn giản chúng ta hãy lấy ví dụ về việc xây dựng một đề kiểm

tra để đánh giá tổng kết một môn học. Nhằm giảng dạy tốt một môn học,

giảng viên cần xây dựng một danh mục chi tiết về các mục tiêu giảng

dạy, thể hiện ở năng lực hay hành vi cần đạt được của học viên qua quá

trình giảng dạy các nội dung cụ thể của môn học. Khi xây dựng một đề

kiểm tra để đánh giá môn học đó người ta phải dựa vào các mục tiêu đã

đề ra cho môn học.

Trong thực tế, các mục tiêu giảng dạy môn học không phải bao giờ

cũng có sẵn đủ chi tiết để có thể soạn thảo một đề kiểm tra. Khi đó cần

xây dựng lại chi tiết danh mục các mục tiêu. Việc xây dựng mục tiêu

thường được triển khai trong một nhóm những người cùng giảng dạy

môn học đó phối hợp với một vài chuyên gia hiểu biết về cách chế tác

các CH. Trước hết cần liệt kê các mục tiêu cụ thể liên quan đến các mức

43

độ nhận thức muốn đo đối với từng phần của môn học, sau đó tùy thuộc

tầm quan trọng của từng mục tiêu ứng với từng phần của môn học mà

quyết định là cần bao nhiêu CH.

Bảng 3. Ví dụ về sử dụng ma trận kiến thức của môn học để xác định cấu trúc của một đề kiểm tra

Mức độ nhận thức

Phần Hiểu đúng

khái niệm

Tính

toán

Lập

luận

Tổng

cộng

Giới hạn 5 3 2 10

Vi phân 3 8 3 14

Tích phân 5 8 3 16

Hàm nhiều biến 6 5 8 19

Phương trình vi phân 6 8 10 24

Phương trình đạo hàm riêng 5 6 6 17

Tổng cộng 30 38 32 100

Một công cụ thuận lợi để thiết kế cấu trúc của một đề kiểm tra là

bảng các mục tiêu giảng dạy, hoặc còn gọi là các ma trận kiến thức.

Trong bảng có chia ra các hàng ứng với các phần của môn học, và các

cột ứng với các mức độ nhận thức liên quan đến mục tiêu cụ thể. Ứng với

mỗi ô của bảng người ta ghi số CH cần xây dựng cho đề kiểm tra. Trên

Bảng 3 có trình bày ví dụ về việc thiết kế một ĐTN 100 CH cho môn

Toán ở một trường cao đẳng. Các mức độ nhận thức được lựa chọn ở đây

bao gồm 3 loại: hiểu đúng khái niệm, biết tính toán và biết lập luận trong

các trường hợp cụ thể. Tuỳ theo tầm quan trọng của từng phần nội dung

và từng mức độ nhận thức mà các giảng viên bàn nhau quy định số CH

trắc nghiệm phải chế tác: chẳng hạn ở phần về giới hạn chỉ cần 3 CH cho

kỹ năng tính toán, còn ở phần về phương trình vi phân cần đến 10 CH

cho kỹ năng lập luận.

1.10.2. Quy trình thiết kế một đề kiểm tra tiêu chuẩn hóa và một NHCH

Ở mục 1.4 đã nêu khái niệm về đánh giá tiêu chuẩn hóa. Một đề

kiểm tra tiêu chuẩn hóa thường được thiết kế bởi các CH chọn từ một

NHCH. NHCH là tập hợp một số lượng tương đối lớn các CH, trong đó

mỗi CH được mô tả gắn với các phần nội dung xác định và các tham số

44

của nó, trong trường hợp CH trắc nghiệm đó là độ khó, độ phân biệt theo

lý thuyết trắc nghiệm cổ điển, và các tham số a, b, c theo IRT. Ngoài ra,

NHCH phải được thiết kế sao cho trên đó có thể thực hiện các thao tác

loại trừ hoặc thay đổi các CH xấu, bổ sung các CH tốt để số lượng và

chất lượng các CH ngày càng tăng (xem chương 2 và chương 4).

Thiết kế một đề kiểm tra tiêu chuẩn hóa và một NHCH là khá phức

tạp. Để đơn giản chúng ta sẽ xem xét việc thiết kế một đề kiểm tra tổng

kết tiêu chuẩn hóa hoặc một NHCH cho một môn học. Có thể mô tả tóm tắt

các bước của quy trình đó như sau:

1) Xác định các nội dung chi tiết của môn học và các mức độ nhận

thức mong muốn TS đạt được liên quan đến các phần nội dung đó. Để thực

hiện bước này, một trong các cách thông dụng là xây dựng ma trận kiến

thức của môn học như ví dụ ở Bảng 3. Có thể quan niệm các con số trong

các ô của ma trận là tỷ lệ số CH cần có trong NHCH. Một đề kiểm tra tổng

kết toàn diện của môn học cũng có phân bố các CH theo tỷ lệ này. Còn các

đề kiểm tra một phần kiến thức hoặc kiểm tra giữa kỳ thì tùy theo yêu cầu

mà xây dựng cho chúng các ma trận kiến thức tương ứng.

2) Phân công cho các giáo viên, mỗi người chế tác một số CH theo

các yêu cầu gắn với các ô ma trận kiến thức, tùy theo sở trường của từng

người, sao cho tổng số CH chế tác sẽ phủ kín cả ma trận. Việc chế tác

CH trắc nghiệm của mỗi cá nhân là một quá trình lao động rất công phu,

tỉ mỉ, người chế tác phải đọc đi, đọc lại và chỉnh sửa nhiều lần.

3) Trao đổi các CH trong nhóm đồng nghiệp. Kinh nghiệm cho thấy

việc trao đổi này rất quan trọng, giúp người chế tác thấy được nhiều sai sót

mà bản thân không tự phát hiện được vì những đường mòn trong suy nghĩ.

4) Tổ chức đọc duyệt, biên tập và đưa các CH lưu vào các kho dữ

liệu trong máy tính. Phải chọn người đọc duyệt là người vừa nắm vững

chuyên môn của môn học và tương đối thành thạo trong việc chế tác CH

trắc nghiệm. Khi phát hiện các sai sót về chuyên môn hoặc về quy tắc chế

tác CH trắc nghiệm, người đọc duyệt trao đổi lại với tác giả để tác giả

chỉnh sửa. Cuối bước này sẽ thu được một tập hợp các CH trắc nghiệm đã

được chỉnh sửa công phu lưu trong máy tính. Tuy nhiên, đó chưa phải là

NHCH vì các CH chưa được thử nghiệm để xác định tham số.

45

5) Lập các đề kiểm tra thử và tổ chức trắc nghiệm thử trên các

nhóm TS đại diện cho tổng thể đối tượng sẽ được kiểm tra. Các đề kiểm

tra thử thường tương đối ngắn, cần đảm bảo thời gian đầy đủ cho TS

hoàn thành. Lưu ý thuật ngữ "trắc nghiệm thử" được sử dụng ở đây để

chỉ một khâu trung gian trong quá trình xây dựng NHCH, trong thực tế

phải tạo tình huống để các TS làm thật, vì chỉ khi họ “làm thật” hết mình

thì mới thử nghiệm được các CH.

6) Chấm và phân tích thống kê các kết quả trắc nghiệm thử để định

cỡ các CH. Việc sử dụng công nghệ trắc nghiệm nào, cổ điển hay hiện

đại, để phân tích kết quả và định cỡ CH sẽ được thể hiện ở khâu này. Quá

trình phân tích thống kê và định cỡ CH trắc nghiệm sẽ cho hai loại kết

quả: một là cung cấp các tham số của CH trắc nghiệm, hai là phát hiện

các CH có chất lượng kém.

7) Xử lý các CH chất lượng kém: hoặc là sửa đổi tu chỉnh, hoặc là

loại bỏ nếu chất lượng quá kém không thể sửa đổi được. Các CH được tu

chỉnh xong lại được đưa vào kho lưu trữ. Qua bước này một NHCH bắt

đầu hình thành. Việc tổ chức trắc nghiệm thử và chỉnh sửa các CH trắc

nghiệm có thể tổ chức rất nhiều lần, qua mỗi lần một số CH trong NHCH

được chỉnh sửa, hoàn thiện và NHCH được bổ sung. Cần lưu ý là các

tham số của mọi CH trong NHCH phải được đặt trên các thang đo chung,

điều này sẽ được trình bày rõ ở chương 11. Như vậy NHCH không phải

là một kho lưu trữ chết cứng mà nó như là một "sinh vật", có đồng hóa,

dị hóa và tăng trưởng.

8) Khi đã yên tâm về số lượng và chất lượng các CH trong NHCH

có thể thiết kế các đề kiểm tra cho các kỳ thi chính thức. Cấu trúc của

một đề kiểm tra chính thức phải được thể hiện bằng một ma trận kiến

thức tương ứng. Tính chất của một đề kiểm tra chính thức phụ thuộc vào

mục tiêu của kỳ thi: lập đề kiểm tra theo chuẩn hay theo tiêu chí, cần đo

lường chính xác dải năng lực như thế nào... Có thể thiết kế một đề kiểm

tra cung cấp kết quả đo ứng với một hàm thông tin hay một đường đặc

trưng ĐTN thích hợp (xem chương 10). Cũng như ở khâu phân tích kết

quả kiểm tra, chính khâu thiết kế đề kiểm tra này thể hiện lý thuyết trắc

nghiệm nào, CTT hay IRT, được sử dụng. Quá trình thiết kế ĐTN nói

46

trên cũng cho phép tạo ra các ĐTN tương đương chứa các tập hợp CH

trắc nghiệm khác nhau, nhưng giống nhau về cấu trúc nội dung và về các

tham số thống kê. Ở chương 2 và chương 10 sẽ trình bày rõ quan niệm về

ĐTN tương đương trong CTT và IRT, sẽ chứng tỏ rằng IRT cho phép

xây dựng các ĐTN với mức độ tương đương cao hơn nhiều so với CTT.

Sau khi quyết định chọn một ĐTN đáp ứng tốt các mục tiêu đo

lường, từ một ĐTN có thể dễ dàng sinh ra nhiều phiên bản ĐTN có cùng

nội dung nhưng hình thức khác nhau bằng cách hoán đảo thứ tự các CH

và các phương án trả lời, nhằm hạn chế TS "cóp" bài của nhau. Thủ pháp

này đơn giản nhưng việc thay đổi vị trí các CH và các phương án chọn có

thể làm thay đổi độ khó của các CH.

9) Đối với một đề kiểm tra tiêu chuẩn hóa, trước khi sử dụng đại trà

cần xây dựng một nhóm chuẩn mực và thử nghiệm đề kiểm tra trên nhóm

chuẩn mực đó. Phân tích kết quả kiểm tra và xây dựng bảng mô tả các

đặc trưng của nhóm chuẩn mực.

10) Triển khai kiểm tra chính thức. Sau khi tổ chức kiểm tra chính

thức cũng tiến hành phân tích kết quả như ở kỳ kiểm tra thử. Quá trình

này nhằm hai mục tiêu. Một là thu các kết quả của kỳ thi, các điểm đánh

giá năng lực của từng TS, mục tiêu quan trọng hàng đầu của kỳ thi. Hai

là, tiếp tục phát hiện các CH để tu chỉnh và tiếp tục đưa vào NHCH, thậm

chí nếu có một vài CH trắc nghiệm quá xấu thì có thể loại chúng ra khỏi

số liệu chấm điểm chính thức. Việc sử dụng các điểm thô (theo tổng các

CH trả lời đúng) hoặc chuyển đổi tham số năng lực sang các thang điểm

mong muốn được thực hiện theo các quy tắc của lý thuyết trắc nghiệm

tương ứng, sẽ được trình bày ở chương 2 và 11.

Một tác dụng hết sức quan trọng của các kỳ thi tiêu chuẩn hóa đại

trà là các thông tin thu được qua việc phân tích thống kê toàn bộ bài làm

của TS là những số liệu hết sức quý báu để đánh giá định lượng về tình

hình giáo dục của từng khu vực, từng cộng đồng, từng nhóm TS và đánh

giá xu thế phát triển của chất lượng giáo dục theo thời gian.

Việc sử dụng điểm thô hay các điểm chuyển đổi khác để đánh giá

năng lực của TS sẽ được bàn đến trong các chương sau.

47

Một điểm cần lưu ý nữa là vì mục đích giữ bí mật cho NHCH, các

ĐTN trong các kỳ trắc nghiệm thử phải được thu lại. Các ĐTN trong các

kỳ thi chính thức ở cấp khoa, trường được tổ chức nhiều lần trong phạm

vi hẹp cũng thường được thu lại. Tuy nhiên, trong các kỳ thi quốc gia

quy mô lớn tổ chức mỗi năm một lần trên phạm vi toàn quốc thường đề

thi và đáp án phải được công bố ngay sau khi thi xong, và quá trình chấm

thi trắc nghiệm thường được tổ chức nhanh chóng và công bố kết quả chỉ

sau một thời gian ngắn. Các ĐTN đó thường được in lại như các đề mẫu

để TS làm quen trong quá trình luyện thi.

1.10.3. Vài nét về sự phát triển của khoa học về đo lường trong giáo dục

ở nước ta

Ở nước ta, khoa học về đo lường trong giáo dục ở trong tình trạng

khá lạc hậu và phát triển rất chậm. Trước năm 1975 ở miền Nam có một

vài người được đào tạo về khoa học này từ các nước phương Tây, trong

đó có Giáo sư Dương Thiệu Tống. Vào năm 1974, một hoạt động đáng

lưu ý là kỳ thi tú tài lần đầu tiên được tổ chức ở miền Nam bằng phương

pháp TNKQ [1].

Ở miền Bắc nước ta trước đây khoa học này ít được lưu ý vì trong

hệ thống các nước xã hội chủ nghĩa cũ, kể cả Liên Xô, khoa học này rất

kém phát triển. Vào những năm sau 1975 ở phía Bắc nước ta có một số

người có nghiên cứu về khoa học đo lường trong tâm lý. Chỉ đến năm

1993 Bộ Giáo dục và Đào tạo mới mời một số chuyên gia nước ngoài

vào nước ta, xuất bản sách phổ biến về khoa học này, cũng như cử một

số cán bộ ra nước ngoài học tập. Từ đó một số trường đại học có tổ chức

các nhóm nghiên cứu áp dụng các phương pháp đo lường trong giáo dục

để thiết kế các công cụ đánh giá, soạn thảo các phần mềm hỗ trợ, mua

máy quét quang học chuyên dụng (OMR) để chấm thi. Một điểm mốc

đáng ghi nhận là kỳ thi tuyển đại học thí điểm tại trường Đại học Đà Lạt

vào tháng 7 năm 1996 bằng phương pháp TNKQ.

Từ sau năm 1997 các hoạt động đổi mới phương pháp đo lường và

đánh giá trong giáo dục ở các trường đại học lắng xuống. Cho đến mùa

thi tuyển đại học năm 2002 Bộ Giáo dục và Đào tạo mới tổ chức kỳ thi

48

tuyển đại học “3 chung”. Bộ Giáo dục và Đào tạo cũng thành lập “Cục

Khảo thí và Kiểm định chất lượng” vào năm 2003 để cải tiến việc thi cử

và đánh giá chất lượng các trường đại học, và đã dùng phương pháp trắc

nghiệm khách quan để làm đề thi tuyển đại học cho môn tiếng Anh, sau

đó là Vật lý, Hóa học, Sinh học từ mùa thi 2006. Tuy nhiên cho đến nay

(2010), những thành tựu hiện đại của khoa đo lường trong giáo dục vẫn

chưa được áp dụng và Bộ Giáo dục và Đào tạo vẫn còn lúng túng trong

việc chọn một giải pháp tuyển sinh thích hợp.

Trong khi đó một số hoạt động khảo sát kết quả học tập của học

sinh ở bậc giáo dục phổ thông có sử dụng các thành tựu của khoa học đo

lường trong giáo dục cũng được triển khai nhờ sự hỗ trợ của các dự án

giáo dục vay vốn của các ngân hàng quốc tế. Viện Khoa học Giáo dục

Việt Nam chính là đầu mối của các hoạt động này. Có thể điểm qua các

hoạt động quan trọng đầu tiên là khảo sát kết quả học tập hai môn Toán

và tiếng Việt của học sinh lớp 5 vào năm 2001 và 2007 [34], đánh giá kết

quả học tập Toán và tiếng Việt của học sinh lớp 6 và kết quả học tập

Toán, tiếng Việt, Vật lý và tiếng Anh của học sinh lớp 9 vào đầu năm

2010 kết hợp TNKQ và TL. Nước ta cũng đang chuẩn bị để tham gia

PISA quốc tế vào năm 2012.

Ngoài hoạt động của Viện Khoa học Giáo dục Việt Nam cũng có

một số cố gắng của các cơ sở ngoài nhà nước. Công ty Khoa học và Công

nghệ Giáo dục (EDTECH-VN) đã triển khai xây dựng ngân hàng câu hỏi

trắc nghiệm cho các trường cao đẳng sư phạm theo hợp đồng với Dự án

đào tạo giáo viên trung học cơ sở của Bộ Giáo dục và Đào tạo năm 2006,

thiết kế phần mềm trắc nghiệm TESTPRO phục vụ xây dựng ngân hàng

câu hỏi, làm đề thi, chấm thi trắc nghiệm và đặc biệt là phần mềm

VITESTA [19] phân tích trắc nghiệm theo lý thuyết Ứng đáp Câu hỏi

(IRT).

Đó là một số cố gắng có tác động thúc đẩy việc phát triển ứng dụng

khoa học về đo lường trong giáo dục ở nước ta.

Tuy vậy, chông gai trên con đường đổi mới giáo dục nói chung,

phát triển khoa học về đo lường trong giáo dục vẫn còn nhiều. Các

trường cao đẳng, đại học có thể đóng góp gì để thúc đẩy sự phát triển đó?

49

Chúng tôi xin đề xuất những giải pháp sau đây:

Tất cả giảng viên các trường đại học cần được bồi dưỡng những

hiểu biết sơ đẳng về khoa học đo lường trong giáo dục.

Mọi trường đại học đều nên tổ chức bộ phận nghiên cứu triển khai để

áp dụng khoa học đó vào các hoạt động kiểm tra đánh giá kết quả học tập

của học viên, hoạt động giảng dạy và phục vụ của giảng viên.

Các trường đại học và viện nghiên cứu chuyên về giáo dục cần đẩy

mạnh việc nghiên cứu về khoa học đo lường trong giáo dục để thấu hiểu

nó, từ đó hướng dẫn áp dụng nó trong toàn hệ thống giáo dục từ mẫu giáo

đến sau đại học.

Tiếp đến, cần triển khai áp dụng khoa học đo lường trong giáo dục

ra mọi hoạt động xã hội bên ngoài hệ thống giáo dục, vì rằng trong tương

lai, với sự phát triển của kinh tế xã hội, tất yếu việc áp dụng khoa học đó

sẽ trở thành một ngành công nghiệp lớn.

50

CÂU HỎI TỰ KIỂM TRA

1. Nêu các kiểu phân loại phương pháp đánh giá trong giáo dục: theo

cách thực hiện việc đánh giá, theo mục tiêu đánh giá, theo phương

hướng sử dụng kết quả đánh giá.

2. Nêu ba các lĩnh vực mục tiêu giáo dục và các mức độ hành vi trong

từng lĩnh vực.

3. Nêu hai nhóm phương pháp cấu thành loại đánh giá bằng bài viết

và các thể loại CH của TNKQ.

4. Nêu các ưu nhược điểm cơ bản của TNKQ và TL. Nên sử dụng mỗi

phương pháp trong điều kiện nào? Có nên kết hợp TNKQ với TL

trong các đề kiểm tra hay không, vì sao?

5. Nêu ví dụ về cách viết các CH TNKQ để đánh giá các mức kỹ năng

khác nhau trong lĩnh vực nhận thức.

6. Nêu các nguyên tắc cơ bản cần tuân theo khi chế tác CH trắc nghiệm.

7. Tại sao các CH và đề kiểm tra phải bám sát mục tiêu giảng dạy? Trình

bày cách sử dụng ma trận kiến thức để xây dựng một đề kiểm tra.

8. Nêu các bước cơ bản để xây dựng một đề kiểm tra tiêu chuẩn hóa

và một NHCH. Tại sao người ta ví NHCH như một vật sống?

51

Chương 2

MỘT SỐ KHÁI NIỆM BAN ĐẦU VỀ THỐNG KÊ VÀ KHÁI QUÁT

VỀ TRẮC NGHIỆM CỔ ĐIỂN

Việc học và thi trên thế giới đã diễn ra hàng nghìn năm trước đây,

nhưng một khoa học về đo lường trong giáo dục thật sự có thể xem như

bắt đầu cách đây chỉ khoảng hơn một thế kỷ. Trong thế kỷ XX, khoa học

này phát triển xuất phát từ châu Âu nhưng tăng tốc mạnh mẽ khi du nhập

vào Hoa Kỳ. Cho đến thập niên 1970 thì khoa học này phát triển tương

đối hoàn chỉnh trong khuôn khổ một lý thuyết được gọi là lý thuyết trắc

nghiệm cổ điển (classical test theory - CTT). Cuốn Trắc nghiệm và đo

lường thành quả học tập [1] của GS. Dương Thiệu Tống xuất bản ở nước

ta đã trình bày cơ sở của trắc nghiệm cổ điển. Chương này dành để trình

bày ngắn gọn các khái niệm cơ bản của của lý thuyết đó, đôi chỗ xem

như tóm tắt từ cuốn sách nói trên.

Lý thuyết trắc nghiệm được xây dựng dựa trên thống kê học, nên

trước khi đi vào lý thuyết trắc nghiệm chúng ta nhắc lại một vài khái

niệm thường sử dụng trong thống kê học.

2.1. MỘT SỐ KHÁI NIỆM VÀ ĐỊNH LUẬT QUAN TRỌNG TRONG THỐNG

KÊ HỌC

2.1.1. Xác suất

Đối với các hiện tượng ngẫu nhiên người ta không thể biết chắc

chắn một biến cố gì sẽ xảy ra, chỉ có thể nói về xác suất xảy ra một biến

cố nào đó. Ví dụ, nếu ta có một con xúc xắc được cấu tạo bằng chất liệu

hoàn toàn đồng nhất thì biến cố một mặt nào đó trong 6 mặt của con xúc

52

xắc sẽ xuất hiện sau khi gieo xúc xắc là một điều ngẫu nhiên, không thể

biết chắc trước đó. Tuy nhiên, khả năng xuất hiện mỗi một trong 6 mặt

của xúc xắc là như nhau, cho nên có thể nói xác suất xuất hiện, chẳng

hạn, mặt lục của xúc xắc, là 1/6. Xác suất là một số không âm, có giá trị

từ 0 đến 1. Xác suất bằng 0 ứng với một biến cố không thể xảy ra, xác

suất bằng 1 ứng với biến cố chắc chắn sẽ xảy ra.

Một động tác để làm xuất hiện một biến cố được gọi là một phép

thử. Chẳng hạn, việc gieo con xúc xắc là một phép thử. Chúng ta có thể

thực hiện nhiều phép thử như vậy để khảo sát việc xuất hiện mặt lục. Tỷ

số giữa số lần xuất hiện mặt lục trên tổng số phép thử được gọi là tần

suất xuất hiện mặt lục. Chẳng hạn, nếu ta gieo xúc xắc 10 lần, mặt lục

xuất hiện 2 lần, thì tần suất xuất hiện mặt lục là 2/10.

2.1.2. Luật số lớn

Có một định luật quan trọng của lý thuyết xác suất, làm cơ sở cho

mọi nghiên cứu thống kê, là luật số lớn (hoặc luật về giá trị trung bình).

Luật số lớn được chứng minh chặt chẽ trong lý thuyết xác suất. Ở

đây, chúng ta chỉ nêu nội dung bản chất của nó. Tương ứng với các ví dụ

đã nêu trên đây, với các khái niệm tần suất, xác suất và phép thử đã biết,

có thể phát biểu luật số lớn như sau:

Khi số lượng phép thử tăng lên đủ lớn, giá trị tần suất sẽ tiến dần

đến giá trị xác suất.

Điều vừa nêu trên chính là luật mạnh số lớn theo phát biểu của E. Borel.

Bạn đọc có thể kiểm tra lại luật số lớn bằng một thực nghiệm rất

đơn giản. Bạn hãy chọn một con xúc xắc và tiến hành gieo xúc xắc, đếm

số lần gieo và số lần xuất hiện mặt lục. Bạn sẽ thấy sau khi tăng số lần

gieo xúc xắc lên vài trăm, tỷ lệ số lần xuất hiện mặt lục trên tổng số lần

gieo sẽ tiến dần đến rất gần giá trị xác suất 1/6.

2.1.3. Tổng thể và mẫu

Khoa học thống kê thường xem xét các số liệu hoặc tính chất nào

đó trong một tập hợp rất lớn các đối tượng, ta sẽ gọi tập hợp đó là một

53

tổng thể (population). Chẳng hạn xem xét kết quả trắc nghiệm trong một

tổng thể gồm toàn bộ TS tham dự kỳ thi tuyển đại học ở nước ta, gồm

hàng triệu người.

Việc thực hiện nghiên cứu trên một tổng thể với một số rất lớn đối

tượng thường rất khó khăn và tốn kém. Do đó người ta thường triển khai

nghiên cứu trên một tập hợp con với số đối tượng ít hơn của tổng thể.

Tập hợp con đó được gọi là mẫu (sample) nghiên cứu. Để việc nghiên

cứu trên các mẫu thu được các kết quả thống kê gần với kết quả thu được

từ tổng thể, người ta phải chọn mẫu có tính đại diện của tổng thể. Lý

thuyết thống kê đưa ra những quy tắc xác định để chọn được các mẫu

mang tính đại diện đó.

2.1.4. Phân bố

Giả sử chúng ta tiến hành đo chiều cao của học sinh ở một trường

phổ thông trung học của một tỉnh nào đó, số đo chính xác đến cm. Ta mô

tả kết quả đo trên một đồ thị, trục hoành biểu diễn chiều cao chính xác

đến cm, trục tung biểu diễn tần suất xuất hiện một chiều cao nào đó.

Đường cong mô tả có dạng đại loại như trên Hình 2.1, được gọi là đường

cong phân bố tần suất.

Nếu chúng ta tiến hành đo chiều cao của toàn bộ học sinh trung học

của tỉnh đã nêu và mô tả trên đồ thị, ta cũng sẽ được một đường cong có

dạng giống như trên nhưng mịn màng và đều đặn hơn. Trong ví dụ nêu

trên ta có thể gọi tập hợp học sinh trung học của toàn tỉnh là một tổng

thể, và tập hợp học sinh trung học của trường đã chọn là một mẫu.

Phân bố tần suất đối với một tổng thể được gọi là phân bố xác suất.

Dạng phân bố kiểu hình chuông đối xứng như được biểu diễn trên

Hình 2.1 được gọi là phân bố chuẩn. Nhiều nghiên cứu cho thấy phân bố

tần suất của nhiều đại lượng trong tự nhiên khi xem xét trong một tổng

thể nào đó thường có dạng phân bố chuẩn, chẳng hạn phân bố tần suất

của chiều cao hoặc trọng lượng của một tập hợp người, phân bố tần suất

của một năng lực nào đó của một tập hợp TS, và do đó, phân bố điểm

trắc nghiệm đánh giá năng lực đó của tập hợp TS đã cho.

54

Hình 2.1. Phân bố chuẩn

Để xác định một phân bố tần suất cần biết hai đại lượng đặc trưng.

- Một là giá trị trung bình của các giá trị đo được trên mẫu đo (gồm n

cá thể):

x = n

x

n

1i

i (2.1)

Trong ví dụ đã cho, giá trị đó là chiều cao trung bình, được xác

định bằng cách cộng tất cả chiều cao của mọi học sinh chia cho tổng số

học sinh. Ngoài giá trị trung bình, còn có trung vị là điểm chia đôi tổng

thể, và yếu vị là điểm ứng với cực đại của đường cong phân bố. Đối với

một phân bố chuẩn đối xứng thì 3 giá trị nêu trên trùng nhau.

- Hai là độ lệch tiêu chuẩn của các giá trị đo được so với giá trị trung bình:

S =

2

1

( )

( 1)

n

i

i

x x

n

(2.2)

Lưu ý rằng ở mẫu số trong biểu thức trên là (n-1) chứ không phải n,

vì sao vậy, bạn đọc có thể tìm hiểu lý do từ lý thuyết xác suất. Tuy nhiên,

55

khi n đủ lớn thì giá trị tính theo (2.2) rất gần với căn bậc hai của trung

bình các bình phương độ lệch. Giá trị trung bình xác định vị trí của một

phân bố tần suất trên một thang đo nào đó, còn độ lệch tiêu chuẩn xác

định mức độ phân tán của các số đo của đại lượng: khi độ lệch tiêu chuẩn

bé đường cong phân bố sẽ có dạng hẹp và nhọn, còn khi độ lệch tiêu

chuẩn lớn đường cong phân bố sẽ có dạng doãn và tù.

Vài ví dụ: Các điểm thô của nhóm TS đối với một bài trắc nghiệm

được xếp từ cao đến thấp ở cột (1) trong Bảng 2.1.

Bảng 2.1.

(1) xi (2) di (3) di2

16 5,5 30,25

14 3,5 12,25

12 1,5 2,25

11 0,5 0,25

10 -0,5 0,25

10 -0,5 0,25

9 -1,5 2,25

9 -1,5 2,25

8 -2,5 6,25

6 -4,5 20,25

xi = 105 di = 0,0 2id = 76,50

Từ cột (1) có thể tính giá trị trung bình M =105/10 =10,5; độ lệch

của mỗi điểm so với giá trị trung bình d ghi ở cột (2) và bình phương của

độ lệch ghi ở cột (3). Từ đó dễ dàng tính độ lệch tiêu chuẩn S và phương sai

S2 theo công thức:

S2 = 76,5/9 = 8,5 ; S = 9/5,76 = 2,91.

Khi chọn một mẫu không đồng nhất người ta có thể thu được một

đường cong phân bố lệch. Phân bố lệch nếu có phần đuôi ở phía phải thì

là lệch dương, ngược lại nếu có phần đuôi ở phía trái thì là lệch âm (xem

Hình 2.2).

56

Phân bố đôi khi có hai yếu vị nếu trong mẫu nghiên cứu có thể

phân chia thành hai nhóm hoàn toàn khác nhau về tính chất nghiên cứu.

Chẳng hạn trong ví dụ về đo chiều cao trên đây nếu ta chọn một mẫu hỗn

hợp bao gồm học sinh lớp 6 và học sinh lớp 1 của một trường nào đó

(Hình 2.3).

Hình 2.2. Các phân bố lệch dương và lệch âm

Đối với phân bố chuẩn, lý thuyết xác suất đã xác định được biểu

thức giải tích của hàm phân bố xác suất theo các giá trị trung bình và độ

lệch tiêu chuẩn trên một tổng thể (*).

(*) Mật độ phân bố chuẩn các xác suất của các giá trị đại lượng x trên một tổng thể được

biểu diễn bởi hàm:

2

2

μ)(x

e2πσ

1p(x)

,

trong đó là trung bình của các giá trị của x đo được trên tổng thể:

n

1i

ixn

1μ ,

và là độ lệch tiêu chuẩn của các giá trị của x trên tổng thể so với giá trị trung bình,

được xác định theo biểu thức:

n2

i

2 i 1

(x μ)

σ(n 1)

.

Đại lượng 2 được gọi là phương sai của đại lượng x.

57

Hình 2.3. Phân bố có hai yếu vị

Xét từ một góc độ khác có thể phát biểu luật số lớn được nhắc đến

trên đây như sau:

Khi kích thước của mẫu được chọn càng lớn, giá trị trung bình

trên mẫu sẽ càng tiến gần đến giá trị trung bình trên tổng thể.

Chính vì vậy người ta còn gọi luật số lớn là luật về giá trị trung bình.

2.1.5. Tương quan

Trong các phép tính thống kê người ta thường gọi biến là một đại

lượng đặc trưng nào đó nhận các giá trị khác nhau từ một cá thể này đến

một cá thể khác trong một tổng thể thống kê. Ví dụ, điểm số của một

môn thi trên một tập hợp TS nào đó là một biến, mỗi TS trong tập hợp

nhận một điểm khác nhau.

Số liệu thống kê thường được sử dụng để xem xét mối quan hệ giữa

các biến khác nhau. Trong trường hợp có hai biến, mối quan hệ giữa

chúng thường được biểu diễn bằng hệ số tương quan (correlation

coefficient).

Hệ số tương quan r giữa hai biến x và y được định nghĩa như sau:

r = yx

xy

S.S

S

trong đó Sx, Sy là các độ lệch tiêu chuẩn được tính theo biểu thức

(2.2), còn xyS được gọi là hiệp biến giữa x và y, được xác định bởi

biểu thức:

58

Sxy = 1)(n

)y)(yx(x

n

1i

ii

Từ đó có thể lập được biểu thức để tính hệ số tương quan Pearson:

r =

n n n

i i i i

i=1 i=1 i=1

2n n n n

2 2 2i i i i

i=1 i=1 i=1 i=1

n x y - x y

n x -( x ) n y - y

(2.3)

Bảng 2.2.

Thí sinh (2) xi (3) yj (4) xi yj (5) x2 (6) y2

A 11 8 88 121 64

B 8 0 0 64 0

C 9 8 72 81 64

D 14 11 154 196 121

E 12 14 168 144 196

F 7 6 42 49 36

G 18 11 198 324 121

H 6 8 48 36 64

I 6 9 54 36 81

J 6 3 18 36 9

K 5 10 50 25 100

n = 11 xi = 102 yi = 88 xiyi= 892 xi2 =1112 yi

2= 856

Hệ số tương quan là một đại lượng để đo mối quan hệ tuyến tính

giữa hai biến ngẫu nhiên. Nó có giá trị trong khoảng từ -1 đến +1. Nếu

các giá trị thấp của biến x có liên hệ với các giá trị thấp của biến y, các giá

trị trung bình của biến x có liên hệ với các giá trị trung bình của biến y, các

giá trị cao của biến x có liên hệ với các giá trị cao của biến y thì hệ số

tương quan sẽ dương. Nếu các giá trị thấp của biến x có liên hệ với các

giá trị cao của biến y, các giá trị trung bình của biến x có liên hệ với các

59

giá trị trung bình của biến y, các giá trị cao của biến x có liên hệ với các

giá trị thấp của biến y thì hệ số tương quan sẽ âm. Nếu quan hệ của các

giá trị của biến x và các giá trị của biến y không tuân theo một quy luật rõ

ràng nào thì hệ số tương quan sẽ bằng 0.

Ví dụ: Một nhóm TS làm hai ĐTN ngắn và thu được hai bộ điểm số

xi và yj ghi ở cột (2) và (3) của Bảng 2.2. Hệ số tương quan giữa hai bộ

điểm số được tính theo công thức (2.3) và Bảng 2.2 như sau:

r = (11892 10288)/ 2 2[11 1112-(102) ][11 856-(88) ]

= 836/1748 = 0,478.

2.2. CÁC THAM SỐ ĐẶC TRƯNG CHO MỘT CÂU HỎI TRẮC NGHIỆM

VÀ MỘT ĐỀ TRẮC NGHIỆM

Để nghiên cứu định lượng tỉ mỉ các CH hoặc ĐTN, người ta phải

đưa vào các tham số đặc trưng. Khi soạn thảo xong một CH hoặc một

ĐTN người soạn thảo chưa biết độ lớn của các tham số đó. Chúng chỉ

được xác định bằng phương pháp thống kê từ kết quả trả lời của các TS

đối với các CH. Chúng ta hãy xem xét các tham số sau đây của các CH

và các ĐTN theo lý thuyết trắc nghiệm cổ điển.

2.2.1. Độ khó của CH

Khái niệm đầu tiên cần lưu ý là độ khó của CH trắc nghiệm. Người

ta xác định độ khó dựa vào việc thử nghiệm CH trắc nghiệm trên các đối

tượng TS phù hợp, và định nghĩa độ khó p bằng tỷ số phần trăm TS làm

đúng CH trên tổng số TS tham gia làm CH đó:

Độ khó p của CH = (2.4)

Việc sử dụng trị số p để đo độ khó như trên cho ta biết mức khó dễ

của các CH chỉ dựa vào số liệu thống kê chứ không cần xem xét nội dung

của chúng thuộc các lĩnh vực khoa học khác nhau.

Các CH của một ĐTN thường có độ khó khác nhau. Theo công

thức tính độ khó như trên, rõ ràng giá trị p càng bé CH càng khó và

ngược lại (đáng lẽ gọi p là độ dễ, nhưng thế giới đã quen dùng là độ khó -

Tổng số TS làm đúng CH

Tổng số TS tham gia làm CH

60

difficulty nên chúng tôi vẫn giữ định nghĩa này). Thông thường độ khó

của một CH có thể chấp nhận được nằm trong khoảng 0,25 - 0,75; CH có

độ khó lớn hơn 0,75 là quá dễ, có độ khó nhỏ hơn 0,25 là quá khó.

Vậy p có giá trị như thế nào thì CH có thể được xem là có độ khó

trung bình? Muốn xác định được khái niệm này cần phải lưu ý đến xác

suất làm đúng CH bằng cách chọn hú họa. Như đã biết, giả sử một CH có

5 phương án chọn thì xác suất làm đúng CH do sự lựa chọn hú hoạ của

một TS không biết gì là 20%. Vậy độ khó trung bình của CH 5 phương

án chọn phải nằm giữa 20% và 100%, tức là 60%. Như vậy, nói chung độ

khó trung bình của một CH có n phương án chọn là (100% + 1/n)/2. Độ

khó trung bình của một CH đúng-sai là 75%. Đối với các CH loại trả lời

tự do, như loại câu điền khuyết, thì độ khó trung bình là 50%.

Khi chọn lựa các câu trắc nghiệm theo độ khó người ta thường phải

loại các câu quá khó (không ai làm đúng) hoặc quá dễ (ai cũng làm

đúng). Một ĐTN tốt thường là đề có nhiều CH ở độ khó trung bình.

- Để xét độ khó của cả một ĐTN, người ta có thể đối chiếu điểm số

trung bình của ĐTN và điểm trung bình lý tưởng của nó. Điểm trung bình

lý tưởng của một ĐTN là điểm số nằm giữa điểm tối đa mà người làm

đúng toàn bộ nhận được và điểm mà người không biết gì có thể đạt do

chọn hú hoạ. Giả sử có ĐTN 50 câu, mỗi câu có 5 phương án trả lời. Điểm

thô tối đa là 50, điểm có thể đạt được do chọn hú hoạ là 0,2 50 = 10,

điểm trung bình lý tưởng là (50 + 10)/2 = 30. Nếu điểm trung bình quan

sát được trên hay dưới 30 quá xa thì ĐTN ấy sẽ là quá dễ hay quá khó.

Nói chung, nếu điểm trung bình lý tưởng nằm ở khoảng giữa phân bố các

điểm quan sát được thì ĐTN là vừa sức đối với đối tượng TS, còn khi

điểm đó nằm ở phía trên hoặc phía dưới phân bố điểm quan sát được thì

ĐTN tương ứng là khó hơn hoặc dễ hơn so với đối tượng TS.

2.2.2. Độ phân biệt của CH

Khi ra một CH hoặc một ĐTN cho một nhóm TS nào đó, người ta

thường muốn phân biệt trong nhóm TS ấy những người có năng lực khác

nhau: giỏi, trung bình, kém... Khả năng của câu trắc nghiệm thực hiện

được sự phân biệt ấy được gọi là độ phân biệt. Muốn cho CH có độ phân

61

biệt, phản ứng của nhóm TS giỏi và nhóm TS kém lên CH đó hiển nhiên

phải khác nhau. Người ta thường thống kê các phản ứng khác nhau đó để

tính độ phân biệt.

Độ phân biệt của một CH hoặc một ĐTN liên quan đến độ khó.

Thật vậy, nếu một ĐTN dễ đến mức mọi TS đều làm tốt, các điểm số đạt

được chụm ở phần điểm cao, thì độ phân biệt của nó rất kém, vì mọi TS

đều có phản ứng như nhau đối với ĐTN đó. Cũng vậy, nếu một ĐTN khó

đến mức mọi TS đều làm không được, các điểm số đạt được chụm ở

phần điểm thấp, thì độ phân biệt của nó cũng rất kém. Từ các trường hợp

giới hạn nói trên có thể suy ra rằng một ĐTN muốn có độ phân biệt tốt

thì nó phải bao gồm nhiều CH có độ khó ở mức trung bình. Khi ấy điểm số

thu được của nhóm TS sẽ có phổ trải rộng.

- Trước hết chúng ta làm quen với phương pháp cổ điển đơn giản

để tính độ phân biệt. Dựa vào tổng điểm thô của từng TS người ta tách từ

đối tượng TS ra một nhóm giỏi bao gồm 27% TS đạt điểm cao từ trên

xuống, và nhóm kém bao gồm 27% TS đạt điểm kém từ dưới lên. Gọi C

là số TS làm đúng CH thuộc nhóm giỏi, T là số TS làm đúng CH thuộc

nhóm kém, S là số lượng TS của một trong hai nhóm nói trên (27% tổng

số), ta có biểu thức tính độ phân biệt D của CH hỏi như sau:

D = S

TC (2.5)

Phương pháp vừa nêu để tính độ phân biệt rất đơn giản, có thể tính

bằng tay.

- Người ta có thể tính độ phân biệt của một CH theo một định nghĩa

khái quát hơn: đó là hệ số tương quan giữa các điểm của CH đó với tổng

điểm của cả ĐTN xét trên mọi TS làm ĐTN. Hệ số tương quan có giá trị

dương lớn (gần bằng 1) khi một TS nào đó có điểm của CH cao thì điểm

của cả ĐTN cũng cao, và ngược lại. Hệ số tương quan có giá trị âm lớn

(gần bằng -1) khi một TS nào đó có điểm của CH cao thì điểm của cả ĐTN

lại thấp, và ngược lại. Hệ số tương quan bằng không nếu điểm của CH và

điểm của cả ĐTN không có mối liên hệ chặt chẽ và ổn định nào cả. Nói

cách khác, CH có độ phân biệt tốt “khi CH và cả ĐTN đều đo lường

cùng một thứ”.

62

Như vậy, để tính độ phân biệt, người ta có thể tính hệ số tương quan

Pearson giữa điểm của CH với tổng điểm của cả ĐTN. Thông thường trị số

độ phân biệt của CH có thể chấp nhận được phải lớn hơn 0,2.

Có hai đai lượng đặc trưng khác gắn với cả ĐTN chứ không phải

gắn với từng CH, rất quan trọng để đánh giá chất lượng của ĐTN: đó là

độ tin cậy và độ giá trị của ĐTN.

2.2.3. Độ tin cậy của ĐTN

Trắc nghiệm là một phép đo: dùng thước đo là ĐTN để đo lường

một năng lực nào đó của TS. Độ tin cậy của ĐTN chính là đại lượng biểu

thị mức độ chính xác của phép đo nhờ ĐTN.

Người ta có thể tính độ tin cậy của ĐTN bằng các cách sau đây:

- Phương pháp trắc nghiệm - trắc nghiệm lại, tức là dùng một ĐTN

cho một nhóm TS làm hai lần và tính hệ số tương quan giữa hai bộ điểm.

Phương pháp này có nhược điểm: một là các ứng đáp của TS trong lần

thứ hai không độc lập so với trong lần thứ nhất, hai là năng lực của TS

trong lần thứ hai có thể đã thay đổi.

- Phương pháp các ĐTN tương đương: cho một nhóm TS làm hai

ĐTN tương đương rồi tính độ tương quan giữa hai bộ điểm. Vấn đề là

phải tốn nhiều công sức để soạn các ĐTN thực sự tương đương.

- Phương pháp phân đôi ĐTN: thực chất là tạo 2 ĐTN tương

đương, mỗi đề là một nửa của ĐTN chung. Để hai nửa ĐTN có sự tương

đương cao, người ta sắp xếp từng cặp câu chẵn và lẻ tương đương nhau

để có 2 nửa ĐTN một gồm các câu chẵn và một gồm các câu lẻ. Độ tin

cậy của nửa ĐTN bằng hệ số tương quan giữa hai bộ điểm của hai nửa

ĐTN, còn độ tin cậy của toàn ĐTN có thể thu được khi hiệu chỉnh việc

tăng độ dài gấp đôi.

Sự phụ thuộc của độ tin cậy của ĐTN vào độ dài của nó được tính

theo công thức tổng quát Spearman-Brown:

11)r(n

nrr

S

Sn

, (2.6)

63

trong đó rS là độ tin cậy của ĐTN ngắn xuất phát, rn là độ tin cậy

của của ĐTN có độ dài gấp n lần. Rõ ràng để hiệu chỉnh cho trường hợp

ĐTN có độ dài gấp đôi, ta phải dùng công thức:

1r

2rr

S

S

. (2.7)

- Phương pháp Kuder-Richardson: Việc tính độ tin cậy theo phương

pháp Kuder-Richardson dựa trên ý tưởng xem mỗi câu trong ĐTN là một

ĐTN tương đương, tức là chúng có cùng điểm trung bình và cùng phương sai.

Dựa trên giả thiết đó có thể thu được công thức Kuder-Richardson-20

như sau để tính độ tin cậy của một ĐTN:

(11k

kr

2

1

k

i

ii qp

, (2.8)

trong đó: k - số CH của ĐTN;

pi – tỷ lệ trả lời đúng đối với CH thứ i;

qi = (1 pi) – tỷ lệ trả lời sai đối với CH thứ i;

2 - phương sai của tổng điểm mọi TS đối với cả ĐTN.

Công thức K-R20 hơi khó áp dụng, vì đòi hỏi phải biết độ khó p

của từng CH.

Trong trường hợp độ khó của các CH không khác nhau nhiều,

người ta có thể biến đổi công thức K-R20 thành một công thức dễ tính

toán hơn:

)k

MM(1

11k

kr , (2.9)

trong đó M là giá trị trung bình của điểm số của cả ĐTN. Đó là

công thức Kuder-Richardson 21.

Hệ số Alpha Cronbach: Bằng các lập luận tổng quát, Cronbach L.G.

đã đưa ra một biểu thức để ước lượng độ tin cậy của một đề kiểm tra tổng

64

hợp (có thể bao gồm nhiều ĐTN con nhị phân hoặc đa phân), được sử

dụng rộng rãi trong khoa học đo lường trong tâm lý và giáo dục, có tên là

hệ số Alpha Cronbach(*). Hệ số này xác định giới hạn dưới của độ tin cậy

của một đề kiểm tra tổng hợp bao gồm k đề kiểm tra con, được biểu diễn

như sau:

k2i

i

2c

kρ 1

k 1

, (2.10)

trong đó σi2, σC

2 tương ứng là phương sai của đề kiểm tra con thứ i và

phương sai của đề kiểm tra tổng hợp. Trong trường hợp riêng đối với

một ĐTN bao gồm nhiều CH dạng nhị phân thì σi2 là phương sai của

một CH trắc nghiệm nhị phân, có thể chứng minh có giá trị bằng piqi,

khi ấy công thức của hệ số Alpha Cronbach trở về công thức K-R20

theo biểu thức (2.8).

2.2.4. Độ giá trị của ĐTN

Yêu cầu quan trọng nhất của ĐTN với tư cách là một phép đo

lường trong giáo dục là phép đo ấy đo được cái cần đo. Nói cách khác,

phép đo ấy cần phải đạt được mục tiêu đề ra cho nó. Chẳng hạn, mục tiêu

đề ra cho tuyển sinh đại học là kiểm tra xem TS có nắm chắc những kiến

thức và kỹ năng cơ bản được trang bị qua chương trình phổ thông trung

học hay không để chọn vào học đại học. Phép đo bởi ĐTN đạt được mục

tiêu đó là phép đo có giá trị. Nói cách khác, độ giá trị của ĐTN là đại

lượng biểu thị mức độ đạt được mục tiêu đề ra cho phép đo nhờ ĐTN.

Để ĐTN có độ giá trị cao, cần phải xác định tỉ mỉ mục tiêu cần đo

qua ĐTN và bám sát mục tiêu đó trong quá trình xây dựng ngân hàng CH

(*) Cronbach L.G. lần đầu tiên công bố hệ số Alpha nói trên trong một bài báo vào năm 1951

khi xem xét sự tương đương của các cách khác nhau để xác định độ tin cậy. Đây là một

bài báo nổi tiếng vào bậc nhất trong và ngoài lĩnh vực tâm trắc học. Vào thập niên 1970,

Cronbach cũng là một trong những người đầu tiên đề đưa ra lý thuyết năng lực tổng

quát (generalizability theory).

65

trắc nghiệm cũng như khi tổ chức triển khai kỳ thi. Nếu thực hiện các quá

trình nói trên không đúng thì có khả năng kết quả của phép đo sẽ phản

ánh một cái gì khác chứ không phải cái mà ta muốn đo bằng ĐTN.

Có thể xét độ giá trị của một ĐTN dưới nhiều góc độ khác nhau, và

cũng có các cách đánh giá định lượng độ giá trị. Bạn đọc có thể tìm hiểu

thêm trong các sách chuyên khảo.

Qua định nghĩa về độ tin cậy và độ giá trị, chúng ta có thể thấy rõ

mối tương quan giữa chúng. Khi ĐTN không có độ tin cậy, tức là phép

đo nhờ ĐTN rất kém chính xác, thì chúng ta không thể nói đến độ giá trị

của nó. Nói cách khác, khi ĐTN không có độ tin cậy cao thì nó cũng không

thể có độ giá trị.

Như vậy, một ĐTN có độ tin cậy cao thì có nhất thiết sẽ có độ giá

trị cao hay không? Câu trả lời là: không nhất thiết. Thật vậy, đôi khi phép

đo nhờ ĐTN có thể đo chính xác, nhưng nó đo một cái gì khác chứ không

phải cái nó cần đo, trong trường hợp đó thì ĐTN có độ tin cậy cao nhưng

độ giá trị thấp.

Ví dụ một khẩu súng chuẩn xác được người bắn nhằm vào mục tiêu

là tấm bia ngắm, các viên đạn bắn ra đều trúng chụm lân cận tâm điểm

của bia ngắm. Khẩu súng như vậy là có độ tin cậy cao, và người bắn

nhắm đúng mục tiêu nên kết quả bắn cũng đạt độ giá trị cao. Tuy nhiên

cũng khẩu súng đó nếu rơi vào tay một người ngắm nhầm mục tiêu, kết

quả là các viên đạn vẫn chụm nhưng nằm lân cận một mục tiêu khác chứ

không đúng mục tiêu đặt ra, trong trường hợp này động tác ngắm bắn vẫn

có độ tin cậy cao nhưng việc bắn súng có độ giá trị thấp.

Có thể lấy ví dụ về kỳ thi tuyển sinh đại học. Mục tiêu của kỳ thi

tuyển sinh đại học là xác định những học sinh có năng lực học tập tốt để

lựa chọn vào học chương trình đại học. Tuy nhiên, nếu ra đề thi không

thích hợp thì sẽ không đảm bảo cho kỳ thi đạt được mục tiêu đó. Chẳng

hạn, nếu trong đề thi có nhiều bài tập lắt léo đến mức một học sinh phổ

thông trung học giỏi cũng không thể làm kịp trong một thời gian ngắn,

mà chỉ những TS qua nhiều lớp luyện thi quen các dạng bài tập đó mới

làm được, thì chỉ loại “thợ làm bài tập” này có khả năng đạt điểm cao và

66

được tuyển chọn. Rút cục chúng ta sẽ chọn được những anh thợ làm bài

tập giỏi, và loại bỏ một số học sinh nắm vững chương trình phổ thông

trung học mà không có điều kiện luyện thi, đặc biệt là những học sinh từ

nông thôn. Trong lúc đó kỹ năng làm bài tập của những anh "thợ làm bài

tập" chưa chắc đã cần thiết cho quá trình học đại học. Như vậy, có thể kỳ

thi của chúng ta đo chính xác, nhưng đo một kỹ năng khác chứ không

phải năng lực mà chúng ta cần đo. Trong trường hợp này kỳ thi có thể đạt

độ tin cậy cao nhưng có độ giá trị thấp. Để đánh giá khách quan độ tin

cậy của kỳ thi tuyển sinh đại học, chúng ta có thể khảo sát xem kết quả

học đại học của học sinh có hệ số tương quan cao với kết quả thi tuyển

sinh hay không.

2.3. ĐÁNH GIÁ MỘT ĐỀ TRẮC NGHIỆM

Đánh giá một ĐTN được bắt đầu bằng phân tích các CH trong đề.

2.3.1. Phân tích các CH trắc nghiệm

Như đã nói ở chương 1, để hoàn thiện các ĐTN người ta phải triển

khai các trắc nghiệm thử. Trắc nghiệm thử là một phép đo kép: dùng

ĐTN để đo năng lực các TS, đồng thời sử dụng nhóm TS như một thước

đo để đo chất lượng các CH và bản thân ĐTN. Phép đo kép này có thể

thực hiện được nhờ hiệu quả kỳ diệu của các quy luật thống kê.

Thật vậy, tuy chưa có các tham số của ĐTN, qua nhiều bước soạn

thảo ngân hàng CH theo quy trình như nêu ở cuối chương 1, chất lượng

ĐTN cũng đã tương đối đảm bảo để có thể phân loại TS: những TS làm

đúng nhiều CH tất thuộc nhóm giỏi, những TS làm đúng ít CH tất thuộc

nhóm kém. Đưa được TS về hai đầu giỏi và kém là chúng ta đã biến

nhóm TS thành một thước đo để đo chất lượng các CH và bản thân ĐTN.

Dưới đây bạn đọc trước hết sẽ làm quen với ví dụ về việc phân tích

CH trắc nghiệm qua giá trị độ khó, độ phân biệt của chúng, khảo sát vai

trò của phương án đúng và các phương án nhiễu; sau đó sẽ tính độ tin cậy

và xem xét độ giá trị của toàn bộ ĐTN.

Để phân tích ĐTN bằng tay, người ta thường lấy ra từ tổng số TS

làm ĐTN hai nhóm con, một nhóm bao gồm 27% số người đạt điểm cao

67

nhất và một nhóm khác bao gồm 27% số người đạt điểm thấp nhất. Cách

phân chia này cho phép tính độ phân biệt bằng tay theo công thức (2.5).

Còn khi sử dụng máy tính có thể dễ dàng tính các hệ số tương quan, do

đó không cần phân chia TS thành các nhóm con như trên.

Ví dụ: Hãy xem xét số liệu qua hai trường hợp sau đây để phân tích

CH trắc nghiệm.

1) Dựa vào kết quả trắc nghiệm thử và tách ra các nhóm có điểm cao

và điểm thấp trên một ĐTN người ta đưa ra các giá trị mô tả ở Bảng 2.3

đối với một CH với 5 phương án chọn (phương án đúng là B):

Bảng 2.3.

A B* C D E Cộng

Nhóm cao (27%) 0 3 10 3 4 20

Nhóm thấp (27%) 0 6 3 5 6 20

2) Khi phân tích số liệu trả lời một ĐTN nhờ phần mềm VITESTA [19]

người ta thu được kết quả biểu diễn ở Bảng 2.4 đối với một CH có 4

phương án chọn (phương án đúng là B):

Bảng 2.4.

A B* C D

Không

trả lời

Số TS chọn 9 43 32 19 1

Tương quan giữa điểm

CH và điểm của cả ĐTN -0,34 0,35 -0,13 -0,05

Các bảng số cho phép chúng ta phân tích các CH như sau:

- Độ khó của các CH: Đối với CH ở Bảng 2.3 ta chỉ có thể tính giá

trị gần đúng của độ khó, vì không có thông tin về trả lời của các TS ngoài

hai nhóm giỏi và kém. Ở đây có 9 TS trả lời đúng trên tổng số 40 TS, do

đó độ khó gần đúng bằng: (3+6)/40 = 0,225.

Đối với CH ở Bảng 2.4 độ khó bằng 43/(9+43+32+19+1) = 0,41.

68

- Độ phân biệt của các CH:

Đối với CH ở Bảng 2.3, công thức (2.5) cho phép tính độ phân biệt

của nó: (3 - 6)/20 = -0,15.

Đối với CH ở Bảng 2.4 độ phân biệt chính là hệ số tương quan của

điểm chọn phương án đúng của CH với điểm cả ĐTN, tức là 0,35.

- Các phương án nhiễu:

Đối với CH ở Bảng 2.3, cần phải xem lại phương án B có phải là

phương án đúng hay không, vì độ phân biệt ở đây là âm. Có thể có các

khả năng: hoặc B thực sự không phải là phương án đúng nhưng người ta

đã gán nhầm đáp án vào B, hoặc do CH được diễn đạt không rõ ràng nên

đa số TS của nhóm điểm cao không chọn phương án B. Nếu cả hai khả

năng trên đều không xảy ra thì hãy xem lại trong quá trình giảng dạy

giảng viên có tạo nên sự hiểu nhầm nào liên quan đến nội dung CH hay

không. Phương án nhiễu C là rất khả nghi, vì nó có cho hệ số tương quan

dương rất lớn, giống như là phương án đúng. Phải chăng đây mới thật sự

là phương án đúng? Nếu không, cần xem lại cách diễn đạt của CH hoặc

quá trình giảng dạy đã gây hiểu nhầm. Các phương án nhiễu và D, E cho

tương quan chấp nhận được. Còn phương án A là một phương án nhiễu

tồi vì không đánh lừa được ai, cả các TS ở nhóm điểm cao và ở nhóm

điểm thấp, cần thay bằng một phương án khác.

Đối với CH ở Bảng 2.4 độ phân biệt của phương án đúng là dương

và có giá trị lớn (0,35 > 0,2), rất tốt, còn hệ số tương quan ứng với các

phương án nhiễu là âm, cũng rất phù hợp.

Qua việc phân tích độ khó, độ phân biệt của các CH nêu ở Bảng 2.3,

Bảng 2.4 và các phương án chọn của chúng, chúng ta có thể kết luận: CH

được mô tả ở Bảng 2.3 là một CH hỏi kém, cần phải sửa chữa một cách

cơ bản nếu không loại bỏ; còn CH bảng 2.4 là một CH khá tốt.

2.3.2. Tính độ tin cậy của ĐTN

Mục 2.2.3 đã trình bày các cách tính độ tin cậy của ĐTN, trong đó

có thể sử dụng phương pháp phân đôi ĐTN hoặc các công thức K-R20

và K-R21.

69

Dưới đây sẽ nêu các ví dụ về hai cách tính vừa nêu.

Dùng phương pháp phân đôi đề trắc nghiệm: Để ví dụ, ta xem

Bảng 2.2 là kết quả làm hai ĐTN ngắn, mỗi đề 11 câu, bởi một nhóm TS.

Giả sử hai ĐTN ngắn đó là hai nửa của một ĐTN dài hơn, gồm 22 câu,

ĐTN xi bao gồm các câu chẵn, ĐTN yj bao gồm các câu lẻ.

Để tính độ tin cậy của ĐTN phân đôi, trước hết ta phải tính hệ số tương

quan của hai nửa ĐTN. Việc đó đã được thực hiện ở ví dụ tại mục 2.1:

r = 0,478

Tuy nhiên, đây mới chỉ là độ tin cậy của nửa ĐTN gồm 11CH. Để

tính độ tin cậy của ĐTN xuất phát với 22 CH, cần phải hiệu chỉnh độ tin

cậy theo công thức (2.7):

r = 2rS/(rS+1) = 2 0,478/ (0,478 + 1) = 0,647.

Sử dụng các công thức K-R 20 và K-R 21:

Như đã biết, công thức K-R21 thu được từ công thức K-R20 với giả

thiết là độ khó của các CH trong ĐTN xấp xỉ bằng nhau. Để tính toán,

chúng ta hãy sử dụng ví dụ có tính giáo khoa R. Ebel đưa ra và được nêu lại

trong tài liệu tham khảo [1] về 2 ĐTN, mỗi ĐTN gồm 100 CH, với phân bố

các độ khó, điểm trung bình, độ lệch tiêu chuẩn như nêu ở Bảng 2.5.

Theo công thức K-R20 (2.8): r = [k/(k-1)](1- pq/2),

- ĐTN A: cả 100 câu đều có độ khó 0,5 thì p=0,5; q=1-p =0,5 →

pq = 0,25 → pq = 100 0,25 = 25

Từ đó: r = (100/99) (1 - 25/152) 0,898

- ĐTN B: Tích pq của mỗi CH cách đều CH nằm giữa với p=0,5 là

như nhau, do đó:

pq = 0,9 0,1 10 2 + 0,8 0,2 10 2 + 0,7 0,3 10 2 +

0,6 0,4 10 2 + 0,5 0,5 10 = 16,5

Từ đó: r = (100/99) (1 - 16,5/82) 0,750

Theo công thức K-R21 (2.9): r = [k/(k-1)][1- M(1-M/k)/2];

70

- ĐTN A:

r = (100/99) [1 - 50 (1 - 50/100)/152] 0,898

- ĐTN B:

r = (100/99) [1 - 50 (1 - 50/100)/82] 0,615

Rõ ràng hai công thức K-R.20 và K-R.21 cho kết quả như nhau đối

với ĐTN A, một ĐTN mà mọi CH đều có độ khó như nhau, và kết quả

khác nhau nhiều đối với ĐTN B, một ĐTN mà độ khó của các nhóm CH

khác nhau đáng kể, đúng như điều kiện đặt ra khi sử dụng 2 công thức đó.

Bảng 2.5.

Số CH Giá trị độ khó

(tỷ lệ trả lời đúng) ĐTN A ĐTN B

5 1

10 0,9

10 0,8

10 0,7

10 0,6

100 10 0,5

10 0,4

10 0,3

10 0,2

10 0,1

5 0,0

50 50 Điểm trung bình M

15 8 Độ lệch tiêu chuẩn

2.3.3. Xem xét độ giá trị của ĐTN

Hai đại lượng quan trọng thường được dựa vào để đánh giá một

ĐTN là độ tin cậy và độ giá trị. Khi đánh giá độ tin cậy, phải xem xét các

hệ số tin cậy và sai số tiêu chuẩn của phép đo. Còn khi đánh giá độ giá trị

71

phải coi trọng sự phân tích nội dung hơn là các số liệu thống kê. Cũng cần

lưu ý rằng đây là các đại lượng có tính tổng hợp, không những gắn liền với

chất lượng ĐTN, mà còn với toàn bộ quá trình tổ chức kỳ thi, chấm thi.

Như đã nói ở phần trước, một ĐTN muốn có độ giá trị cao tất yếu

phải có độ tin cậy cao, tuy nhiên ĐTN có độ tin cậy cao chưa hẳn đã có

độ giá trị cao. Có thể làm tăng độ tin cậy của ĐTN khi tăng mức độ thuần

nhất về nội dung của nó, nhưng để tăng mức độ thuần nhất, chẳng hạn

loại bỏ bớt các CH khó, đôi khi phải hy sinh độ giá trị. Trong những

trường hợp đó nên coi trọng độ giá trị hơn là độ tin cậy.

2.4. CÁC LOẠI ĐIỂM TRẮC NGHIỆM

Để đo năng lực của một nhóm TS về một môn học hoặc một

chương trình học nào đó, ta thường cho họ làm một đề kiểm tra. Vì phân

bố tần suất của năng lực thường có dạng chuẩn nên phân bố tần suất điểm

kiểm tra của TS (nếu điểm phản ánh đúng năng lực) cũng thường theo

dạng chuẩn.

2.4.1. Điểm thô

Một ĐTN thường bao gồm nhiều CH, mỗi CH được gán một

điểm số, chẳng hạn CH nhị phân thường là điểm 1 nếu làm đúng,

điểm 0 nếu làm sai. Sau khi chấm bài trắc nghiệm và cộng các điểm

số của từng TS ta thu được các điểm số của các TS, được gọi là điểm

thô (raw score). Đối với đề TL người ta có thể gán một điểm nào đó

cho từng ý, từng nội dung mà TS trả lời được, và sau khi chấm xong

cộng điểm của mỗi TS lại người ta cũng được một điểm thô. Cách

cho điểm TL được dùng ở Việt Nam thường ngầm định trước một

khung điểm, chẳng hạn từ 0 đến 10, và chỉ được cho điểm trong

khung đó. Điểm thô thu được như vậy tính chất có khác với điểm thô

thu được từ một ĐTN.

Để có thể so sánh các điểm số thu được của ĐTN trên một phạm vi

rộng, người ta phải biến đổi các điểm đó theo hai cách: 1) so sánh với một

tiêu chuẩn (standard) tuyệt đối đã định trước (liên quan với độ khó về nội

dung); 2) so sánh với một nhóm TS nào đó dùng làm chuẩn (norm).

72

2.4.2. Điểm tiêu chuẩn tuyệt đối

Các điểm số loại này được xác định dựa trên việc so sánh điểm thô

của một TS với điểm tối đa có thể đạt được từ ĐTN, do đó nó hoàn toàn

không bị ảnh hưởng bởi điểm số của những người khác trong nhóm khảo

sát. Một cách cho điểm thường được ưa dùng thuộc loại này là điểm phần

trăm đúng. Điểm được tính theo tỷ lệ phần trăm số CH làm đúng trên

tổng số CH của ĐTN

x = Số câu đúng

(2.11) Tổng số câu

Nhiều giáo viên thích dùng điểm phần trăm đúng này vì cách biến

đổi đơn giản. Họ còn thường quy định trước tiêu chuẩn tối thiểu mà TS

phải làm được để đạt yêu cầu, chẳng hạn làm được 50% hay 60% CH của

ĐTN. Việc quy định trước tiêu chuẩn đó là hoàn toàn tuỳ tiện, không có

tính khách quan.

2.4.3. Các loại điểm tương đối dựa vào phân bố chuẩn

Một cách biến đổi điểm khác thường dùng là dựa vào một nhóm

chuẩn mực (norm group) để xác định các thang bậc và biến đổi điểm thô

thu được theo thang bậc đó.

Giả sử điểm thô thu được từ kết quả trắc nghiệm trên một nhóm

nào đó có phân bố tần suất gần với dạng phân bố chuẩn với giá trị trung

bình là tx và độ lệch tiêu chuẩn là t. Chúng ta muốn biến đổi các điểm

thô này sang một thang điểm với giá trị trung bình đặt ở Sx và độ lệch

tiêu chuẩn là S.

Để thực hiện được phép biển đổi này chúng ta phải co dãn đường

cong phân bố chuẩn ứng với thang điểm thô sao cho độ lệch tiêu chuẩn

của đường cong đạt giá trị S, sau đó dịch chuyển đường cong thu được

sao cho điểm gốc của nó dời đến vị trí giá trị trung bình Sx trên trục số.

Phép co dãn và dịch chuyển đó được thực hiện bằng hệ thức sau:

S

SS

t

tt xxxx

, (2.12)

73

từ đó:

Stt

t

SS xxxx )(

. (2.13)

Điểm Z

Một trong các điểm tiêu chuẩn quan trọng là điểm ứng với một

phân bố chuẩn đặc biệt có giá trị trung bình được đặt tại 0 và độ lệch tiêu

chuẩn được chọn bằng 1. Điểm tiêu chuẩn đặc biệt này được gọi tên là

điểm Z. Như vậy từ biểu thức (2.12), để biến đổi một thang điểm tiêu

chuẩn bất kỳ nào đó thành thang điểm Z có thể sử dụng hệ thức sau đây:

.xx

Z

(2.14)

Hình 2.4 biểu diễn đường cong phân bố chuẩn ứng với điểm Z và

tần suất xuất hiện các trường hợp nằm trong các khoảng giữa điểm trung

bình Z = 0 và các điểm Z bằng một số nguyên lần độ lệch tiêu chuẩn. Từ

hình vẽ có thể thấy rõ ứng với một phân bố chuẩn lý thuyết khoảng

[–3,+3] bao gồm 99,8% trường hợp của phân bố, tức là trên thực tế có

thể xem là bao gồm toàn bộ các trường hợp.

Điểm Z: -3 -2 -1 0 1 2 3

Hình 2.4. Điểm Z

Một số loại điểm chuẩn khác:

Điểm Z rất thích hợp trong nghiên cứu để so sánh các bộ điểm thô

thu được từ các ĐTN khác nhau thực hiện trên cùng một nhóm TS được

74

chọn làm chuẩn. Tuy nhiên, việc sử dụng điểm Z trong thực tế không

thuận lợi vì nó có giá trị âm và các khoảng nguyên quá rộng, nên để biểu

diễn các điểm cụ thể phải dùng các số thập phân. Do đó người ta thường

sử dụng các thang điểm chuẩn khác bằng cách gán giá trị trung bình và

độ lệch tiêu chuẩn của điểm thô các giá trị lựa chọn tuỳ ý nào đó. Sau

đây là ví dụ về một số thang điểm chuẩn thường gặp.

- Các điểm trắc nghiệm tiêu chuẩn hoá của ETS: “Dịch vụ Trắc

nghiệm Giáo dục” (Educational Testing Services - ETS) là một công ty tư

nhân lớn nhất Hoa Kỳ, sản xuất các đề thi và tổ chức các kỳ thi trắc nghiệm

tiêu chuẩn hoá. Trong số các dịch vụ thi trắc nghiệm nổi tiếng của công ty

này có thể kể: Trắc nghiệm Đánh giá Học vấn (Scholastic Assesment Tets -

SAT) để phục vụ tuyển sinh đại học; Kỳ thi Ghi nhận Sau đại học (Graduate

Record Examination - GRE) bao gồm đề thi đại cương và các đề thi theo

một số môn học xác định; Trắc nghiệm Tuyển sinh Sau đại học ngành Quản

lý (Graduate Management Admission Test – GMAT) để hỗ trợ tuyển sinh

sau đại học vào các ngành quản trị kinh doanh; Trắc nghiệm Ngoại ngữ

tiếng Anh (Test of English as a Foreign Language - TOEFL)... Các trắc

nghiệm nêu trên đều sử dụng cùng một loại thang điểm với giá trị trung bình

gán ở 500, và độ lệch tiêu chuẩn được chọn bằng 100 đơn vị nguyên.

Hình 2.5. So sánh một số loại điểm tiêu chuẩn

Với cách quy định như vậy khoảng [–3,+3] ứng với khoảng

điểm [200, 800]. Trong thực tế, để dễ hiểu người ta thường giải thích là

các thang điểm ETS trải trong khoảng 200 và 800.

75

- Điểm Trắc nghiệm Đại học Hoa Kỳ (American College Testing –

ACT): ACT là một công ty phi chính phủ khác của Hoa Kỳ tổ chức kỳ

thi trắc nghiệm phục vụ tuyển sinh đại học. Trắc nghiệm ACT sử dụng

thang điểm với giá trị trung bình gán vào điểm 20, độ lệch tiêu chuẩn

được chọn bằng 5 đơn vị nguyên. Với cách quy định như vậy khoảng

[-3,+3] ứng với khoảng điểm [5, 35].

- Điểm Trắc nghiệm Trí thông minh IQ (Intelligence Quotient):

Trắc nghiệm IQ sử dụng thang điểm với giá trị trung bình gán vào điểm

100, độ lệch tiêu chuẩn được chọn bằng 15 đơn vị nguyên. Với cách quy

định như vậy khoảng [-3,+3] ứng với khoảng điểm [55, 145].

2.4.4. Về các thang điểm được sử dụng ở nước ta

Vì khoa học về đo lường và đánh giá trong giáo dục ở nước ta chưa

phát triển nên các thang điểm được sử dụng trong các trường học phần

lớn do thói quen đã có từ trước, đôi khi được du nhập từ các hệ thống

giáo dục nước ngoài.

Thang điểm đang được sử dụng phổ biến ở nước ta hiện nay là điểm

bậc 10, đó là điểm tuyệt đối được cho dựa vào sự ấn định ngầm điểm tối đa

là 10, điểm tối thiểu là 0 và điểm trung bình nằm ở khoảng 5, chứ không

phải là điểm tiêu chuẩn dựa vào phân bố chuẩn và độ lệch tiêu chuẩn.

Để phục vụ việc tuyển chọn trong các kỳ thi với nhiều môn, người

ta còn ấn định hệ số cho các môn dựa vào mức độ quan trọng của các

môn đó đối với việc học tập trong tương lai và được ấn định hoàn toàn

theo phán xét chủ quan. Hơn nữa, trong các kỳ thi tuyển nhiều môn, việc

so sánh và cộng điểm của các môn lại để lấy điểm tổng cộng nhằm xét

tuyển cũng được thực hiện khá tuỳ tiện, không có căn cứ khoa học.

Chẳng hạn, đối với TS thi vào đại học theo khối A với 3 môn Toán, Lý,

Hoá người ta xét tuyển dựa vào tổng số điểm thô của 3 môn đó, tuy rằng

trên thực tế phân bố điểm của 3 môn thường là rất khác nhau, do đó giá trị

trung bình và độ lệch tiêu chuẩn cũng hoàn toàn khác nhau.

Chúng ta có thể thiết lập các thang điểm chuẩn gần giống với thang

điểm quen dùng. Chẳng hạn, trong kỳ thi Tú tài sử dụng TNKQ lần đầu

tiên ở miền Nam nước ta vào năm 1974, thang điểm tiêu chuẩn với điểm

76

trung bình bằng 10 và độ lệch tiêu chuẩn bằng 4 đã được sử dụng, rõ ràng

theo cách quy định như vậy khoảng [-2,5, +2,5] ứng với khoảng điểm

[0, 20], gần với thang điểm trên 20 được sử dụng phổ biến ở miền Nam

lúc bấy giờ.

Tương tự như vậy, chúng ta có thể thiết lập thang điểm tiêu chuẩn

với điểm trung bình bằng 5 và độ lệch tiêu chuẩn bằng 2, khi ấy khoảng

[-2,5,+ 2,5] sẽ ứng với khoảng điểm [0, 10], gần với thang điểm trên 10

đang sử dụng phổ biến ở nước ta hiện nay.

2.5. CÁC HẠN CHẾ CỦA LÝ THUYẾT TRẮC NGHIỆM CỔ ĐIỂN

VÀ KỲ VỌNG ĐỐI VỚI MỘT LÝ THUYẾT TRẮC NGHIỆM MỚI

Phát triển từ khoảng đầu thế kỷ XX cho đến thập niên 1970, lý

thuyết trắc nghiệm cổ điển (CTT) đạt được nhiều thành tựu, tạo cơ sở

khoa học để thiết kế các phép đo tương đối chính xác. Tuy nhiên lý

thuyết đó còn bị nhiều hạn chế.

- Có lẽ một trong các hạn chế cơ bản nhất của CTT là không tách

biệt được các đặc trưng của TS độc lập với các đặc trưng của ĐTN, đặc

trưng này chỉ có thể giải thích trong mối quan hệ với đặc trưng kia.

Một đặc trưng quan trọng mà ta quan tâm là năng lực của TS.

Trong khuôn khổ CTT, năng lực được diễn tả bởi điểm của TS mà một

ĐTN cụ thể đo được. Khi ĐTN “khó”, TS sẽ thể hiện năng lực thấp, khi

ĐTN “dễ”, TS sẽ thể hiện năng lực cao. Nhưng ĐTN thế nào là “khó”

hoặc “dễ”? Độ khó của một CH được định nghĩa là “tỷ số TS làm đúng

CH trên nhóm TS tham gia”, tức là độ khó CH tuỳ thuộc năng lực của

các TS được đo. Thật quá vòng vo! Độ phân biệt của CH cũng như độ tin

cậy và độ giá trị của ĐTN cũng được xác định phụ thuộc vào một nhóm

TS cụ thể được đo. Các đặc trưng của CH và ĐTN thay đổi khi tình trạng

TS thay đổi, và các đặc trưng của TS thay đổi khi tình trạng ĐTN thay

đổi. Kết quả là rất khó so sánh các TS khi họ làm các ĐTN khác nhau

cũng như rất khó so sánh các CH khi chúng được trả lời bởi các nhóm TS

khác nhau. Cuối cùng có thể nói: về nguyên tắc không thể thực hiện các

so sánh đó. Dù các chuyên gia đo lường cố gắng tìm cách xử lý khó khăn

đã nêu như thế nào nhưng vẫn không giải quyết được vấn đề từ bản chất.

77

Trước hết chúng ta hãy xem xét hậu quả thực tiễn của việc đặc

trưng CH phụ thuộc vào nhóm TS được đưa vào để xác định chúng. Sự

phụ thuộc đó hạn chế việc ứng dụng các ĐTN cho các nhóm TS khác với

nhóm mà đã dựa vào đó để thu các đặc trưng CH. Hạn chế đó ảnh hưởng

nhiều đến việc xây dựng NHCH, công cụ quan trọng để thiết kế ĐTN.

Thật vậy, việc mở rộng một NHCH sẽ gặp khó khăn nếu các đặc trưng

của nhóm CH bổ sung thu được nhờ một nhóm TS khác với nhóm TS đã

được dựa vào để xác định các đặc trưng của NHCH cũ. Bây giờ hãy xét

đến việc năng lực xác định được của TS phụ thuộc vào ĐTN. Rõ ràng là

khi ấy rất khó so sánh điểm biểu diễn năng lực của các TS làm các ĐTN

khác nhau: các điểm đó được đặt trên các thang khác nhau và không có

một mối quan hệ hàm số nào giữa các thang điểm. Thậm chí khi các

nhóm TS được cho làm các ĐTN tương đương vấn đề vẫn tồn tại, vì khi

các nhóm TS có năng lực khác nhau (tức là ĐTN là khó hơn đối với một

nhóm TS so với nhóm TS kia), thì các điểm thu được của họ từ các ĐTN

đó có sai số khác nhau.

- Một hạn chế khác của CTT nằm ở định nghĩa của độ tin cậy. Theo

CTT, độ tin cậy là “tương quan giữa các điểm của hai ĐTN tương

đương”. Trong thực tế không thể có các ĐTN thoả mãn tiêu chí tương

đương. Liên quan với độ tin cậy là sai số tiêu chuẩn của phép đo năng lực

TS: CTT quan niệm các sai số tiêu chuẩn ấy là như nhau, trong khi thực

tế độ chính xác của phép đo năng lực là khác nhau đối với các TS có

năng lực khác nhau.

- Thêm một hạn chế nữa của CTT là lý thuyết này xem xét việc ứng

đáp ở mức độ ĐTN chứ không phải ở mức độ CH trắc nghiệm. Khái

niệm điểm thực trong trắc nghiệm cổ điển không quan tâm tới việc TS

ứng đáp một CH như thế nào. Do đó không có cơ sở để xác định xem

một TS nào đó ứng đáp tốt ra sao đối với một CH đặt ra cho anh ta. Cụ

thể hơn, CTT không cho phép dự báo về một TS hoặc một nhóm TS nào

ứng đáp một CH đã cho ra sao. CH “xác suất để một TS ứng đáp đúng

một CH xác định là bao nhiêu?” là rất quan trọng trong nhiều ứng dụng

trắc nghiệm, thì không trả lời được trong khuôn khổ CTT.

Từ những giới hạn đã nêu trên đây, có thể thấy CTT không cho

phép giải quyết tốt một số vấn đề trong thực tiễn trắc nghiệm - như thiết

78

kế ĐTN, xác định các CH gây thiên lệch, trắc nghiệm thích ứng, so bằng

các điểm trắc nghiệm.

Do các nguyên nhân nêu trên, nhiều nhà tâm trắc học cố gắng tìm

một lý thuyết mới để thay thế CTT. Lý thuyết mới này kỳ vọng sẽ đạt

được các yêu cầu sau: 1) Các đặc trưng CH không phụ thuộc nhóm TS;

2) Các điểm mô tả năng lực TS không phụ thuộc vào ĐTN cụ thể mà TS

làm; 3) Mô hình xem xét ở cấp độ CH chứ không phải cấp độ ĐTN; 4)

Mô hình không đòi hỏi các ĐTN hoàn toàn tương đương để đánh giá độ

tin cậy; và 5) Mô hình cung cấp giá trị độ chính xác khác nhau của phép

đo ở từng mức năng lực của TS.

Chúng ta sẽ thấy từ phần sau đây của cuốn sách: Lý thuyết Ứng

đáp Câu hỏi (Item Response Theory) cho phép đạt các yêu cầu kỳ vọng

nêu trên.

79

CÂU HỎI TỰ KIỂM TRA

1. Nêu các khái niệm và định luật quan trọng trong lý thuyết xác suất

thống kê: xác suất, tần suất, luật số lớn, tổng thể, mẫu, phân bố,

tương quan, giá trị trung bình, độ lệch tiêu chuẩn, phương sai.

2. Mô tả phân bố chuẩn và các loại phân bố thường gặp.

3. Cách tính độ lệch tiêu chuẩn và phương sai. Thực hành trên một ví dụ

đơn giản.

4. Cách tính hệ số tương quan Pearson. Thực hành trên một ví dụ đơn giản.

5. Định nghĩa và cách tính độ khó, độ phân biệt trong lý thuyết trắc

nghiệm cổ điển.

6. Định nghĩa độ tin cậy, độ giá trị của một ĐTN. Các phương pháp đơn

giản để tính độ tin cậy.

7. Đối với một ĐTN cụ thể khả năng nào sau đây có thể xảy ra: 1) độ tin

cậy rất cao nhưng độ giá trị rất thấp; 2) độ tin cậy rất thấp nhưng độ

giá trị rất cao?

8. Vai trò của độ tin cậy và độ giá trị của một ĐTN cụ thể và cách đánh

giá tổng quát một ĐTN.

9. Mô tả các cách đánh giá các CH trắc nghiệm theo lý thuyết trắc

nghiệm cổ điển.

10. Nêu khái niệm điểm thô và cách tính điểm tiêu chuẩn tuyệt đối dựa

vào điểm thô.

11. Trình bày cách tính Điểm Z và các thang điểm tương đối khác. Các

tham số cơ bản xác định một thang điểm tương đối.

12. Nêu các hạn chế của lý thuyết trắc nghiệm cổ điển và kỳ vọng đối với

một lý thuyết trắc nghiệm mới.

80

BÀI TẬP

Bảng 2.6 cung cấp số liệu mô tả điểm của 30 TS đối với một CH

trắc nghiệm nhị phân và điểm của họ đối với toàn bộ ĐTN. TS được chia

thành 2 nhóm có năng lực thấp và năng lực cao. Tính độ khó và độ phân

biệt (định nghĩa theo CTT) của CH đối với từng nhóm TS và nhận xét về

tính độc lập của các giá trị đó trong CTT.

Bảng 2.6.

Nhóm TS năng lực thấp Nhóm TS năng lực cao

TS số Điểm ứng

đáp CH

Điểm từ

ĐTN TS số

Điểm ứng

đáp CH

Điểm từ

ĐTN

1 0 8 16 1 33

2 0 12 17 0 28

3 0 6 18 1 29

4 0 12 19 1 30

5 0 8 20 1 29

6 0 8 21 0 28

7 0 8 22 1 33

8 0 11 23 1 32

9 1 13 24 1 32

10 0 4 25 1 33

11 1 14 26 0 34

12 1 13 27 1 35

13 0 10 28 1 34

14 0 9 29 1 38

15 0 8 30 1 37

__________________

81

Phần II

TRẮC NGHIỆM HIỆN ĐẠI - LÝ THUYẾT

ỨNG ĐÁP CÂU HỎI

82

Chương 3

HÀM ĐẶC TRƯNG CÂU HỎI – TẾ BÀO CỦA LÝ THUYẾT ỨNG ĐÁP CÂU HỎI

Chương này dành để trình bày bước xuất phát trong tiến trình xây

dựng Lý thuyết Ứng đáp Câu hỏi (Item Response Theory - IRT). Trước hết,

quy trình thiết kế một phép đo lường nói chung được mô tả, từ bước xây

dựng thang đo, tạo thước đo, định cỡ thước đo và tiến hành đo. Để xây

dựng các thang đo khác nhau các con số được sử dụng với vai trò khác

nhau. Một yêu cầu chung nhằm tăng độ chính xác của phép đo sẽ được

xác định: đó là đảm bảo cho thước đo và đối tượng đo tách biệt độc lập

với nhau, yêu cầu đó được cụ thể hóa trong các phép đo trong tâm lý và

giáo dục. Sau khi xác định yêu cầu để thiết kế một phép đo nói chung,

quy trình thiết kế phép đo trong giáo dục được bắt đầu từ một cặp tương

tác nguyên tố “thí sinh - câu hỏi”, tế bào của IRT, và mô tả từng bước

cách xây dựng hàm đặc trưng CH theo mô hình Rasch đơn giản (tức là

mô hình đơn chiều, nhị phân, một tham số).

3.1. VỀ CÁC PHÉP ĐO LƯỜNG

3.1.1. Về quy trình xây dựng một phép đo lường

Để thực hiện một phép đo trong bất kỳ lĩnh vực khoa học kỹ thuật

nào cũng cần một thước đo tác động lên đối tượng đo, từ đó rút ra các số

đo đặc trưng cho đối tượng đó. Bất kỳ một phép đo nào cũng thu được số

đo với một độ chính xác nào đó, nghĩa là phép đo nào cũng có sai số.

Khi xây dựng một phép đo, người ta thường phải tạo một thang đo,

sau đó thiết kế thước đo, và cuối cùng áp thước đo vào đối tượng cần đo

83

để so sánh nhằm đưa ra những con số giá trị đo xác định. Để có thể hình

dung quá trình đó chúng ta hãy lấy một ví dụ cụ thể đơn giản về việc

thiết kế một phép đo nhiệt độ thông thường. Đầu tiên giả sử ta lấy nhiệt

độ của nước đá đang tan và nhiệt độ của nước sôi ở áp suất thường làm

mốc, gọi tương ứng là 00C và 1000C, và khắc độ chia đều khoảng nhiệt

độ thu được: bằng cách đó ta có một thang đo. Tiếp đến ta phải thiết kế

các thước đo nhằm đo đối tượng ở một khoảng nhiệt độ nào đó, chẳng

hạn đo thân nhiệt con người. Ta sử dụng hàng loạt ống thủy tinh có chứa

thủy ngân và rút hết không khí để làm thước đo. Các ống thủy tinh muốn

trở thành thước đo phải được khắc độ, hoặc định cỡ (calibration): giả sử

đặt chúng lên hai mẫu thử (sample) có nhiệt độ chính xác và ổn định, một

mẫu ở 350, mẫu kia ở 450, đỉnh cột thuỷ ngân trong các ống thuỷ tinh

nâng lên các mức tương ứng. Từ các mức đó ta đánh dấu các vạch 350 và

450 trên các ống thủy tinh và chia khoảng ấy ra từng độ và 1/10 độ: ta đã

biến các ống thuỷ tinh thành các thước đo (nhiệt kế). Cuối cùng ta có thể

sử dụng các thước đo đã được cùng định cỡ như vậy để đo thân nhiệt của

các bệnh nhân nào đó.

Trong quy trình đo lường theo ví dụ nêu trên muốn phép đo chính

xác phải đảm bảo hai điều. Một là quá trình định cỡ (khắc độ cho thước

đo) phải đủ tin cậy, đặc biệt là các mẫu thử khác nhau không được ảnh

hưởng lên kết quả định cỡ. Hai là, dù đo bằng một thước đo nào (trong

các thước đã được cùng định cỡ) thì kết quả đo phải như nhau (trong

phạm vi sai số chấp nhận được), tức là kết quả đo không phụ thuộc vào

một thước đo cụ thể. Yêu cầu nêu trên cũng là điều kiện để đảm bảo độ

chính xác chung cho nhiều phép đo khác nhau.

3.1.2. Các con số và các loại thang đo

Nhiều nhà nghiên cứu đưa ra những định nghĩa khác nhau về đo

lường, nhìn từ các góc độ khác nhau. Chúng ta hãy lưu ý đến hai định

nghĩa sau đây.

Theo Allen, M.J. và Yen, W.M. (1979) [7]: “Đo lường là gán các

con số vào các cá thể theo một quy tắc có hệ thống để biểu diễn các đặc

tính của các cá thể đó”.

84

Benjamin Wright (1979) [10] cho rằng: “Một số đo là một vị trí

trên một đường. Đo lường là quá trình cấu trúc các đường và định vị các

cá thể trên các đường đó”.

Hai định nghĩa đều có một ý chung là đo lường là gán các con số

vào các cá thể theo một nguyên tắc nào đó, nhưng định nghĩa đầu không

nêu rõ tính chất của các con số, còn định nghĩa sau xác định rõ đó là các

con số trên một đường liên tục, tức là các số trên trục số thực. Định nghĩa

đầu rộng hơn, tuy nhiên phản ánh phép đo có tính định lượng thấp hơn,

còn định nghĩa sau phản ánh phép đo có tính định lượng cao hơn. Hai

định nghĩa đó cũng thể hiện các cách sử dụng các con số theo các cấp độ

khác nhau.

Các con số có thể được sử dụng theo 4 cách sau: làm nhãn hiệu để

phân loại, tạo thang đo theo thứ tự, thang đo theo khoảng cách và thang đo

theo giá trị.

Làm nhãn hiệu, định danh (nominal) để phân loại: Chữ số in trên

áo cầu thủ chỉ có tác dụng như một nhãn hiệu. Khi phân chia các vật và

sự vật theo các tính chất xác định có thể sử dụng các con số để đánh dấu

phân loại. Trong hai ví dụ vừa nêu không thể làm phép tính số học nào cả

trên các con số đó.

Tạo thang đo theo thứ tự (ordinal): Các con số để chỉ thứ bậc trên

một thang đo, qua con số thứ bậc có thể biết cao thấp, hơn kém. Tuy

nhiên không thể tính toán độ lớn của một tính chất gán với một thứ bậc

nào đó và so sánh các độ lớn đó với nhau. Ví dụ một học sinh được xếp

hạng ở thứ 5 không phải giỏi gấp đôi học sinh được xếp hạng ở thứ 10.

Tạo thang đo theo khoảng cách (interval): Ví dụ thang nhiệt độ C

hay F. Khoảng cách ở đây có ý nghĩa xác định, có thể so sánh các khoảng

cách với nhau và áp dụng các phép tính số học cộng trừ nhân chia. Tuy

nhiên các thang chia theo khoảng cách không có một số không tuyệt đối.

Tạo thang đo theo tỷ lệ (ratio): Thang đo này có mọi đặc điểm như

thang đo theo khoảng cách, nhưng có thêm một tính chất quan trọng: có

tồn tại một số không tuyệt đối. Ví dụ về thang đo này là độ cao, khối

lượng, số tiền… Vì có số không tuyệt đối nên có thể tính tỷ lệ giữa hai số

85

đo, chẳng hạn khi so sánh một người có 10 đồng và một người có 2 đồng

có thể nói người thứ nhất có số tiền gấp 5 lần người thứ hai.

Có thể thấy trong sự sắp xếp 4 loại thang đo trên mức độ định

lượng tăng dần từ trên xuống dưới.

Đo lường thành quả học tập trong giáo dục có thể hiểu là đo lường

năng lực tiềm ẩn nào đó của đối tượng. Chúng ta cố gắng thiết kế phép

đo sao cho có tính định lượng cao nhất, tức là không chỉ đo được các thứ

hạng của cá thể (thang đo theo thứ tự), mà còn làm cho khoảng cách giữa

các năng lực của các cá thể cũng có ý nghĩa (thang đo theo khoảng cách).

Đối với năng lực tiềm ẩn nói chung không có một số không tuyệt đối, tức

là điểm ứng với năng lực tiềm ẩn bằng không.

3.1.3. Về các phép đo lường trong tâm lý và giáo dục

Từ lâu các chuyên gia về đo lường trong tâm lý và giáo dục đã bàn

về yêu cầu của các phép đo lường này. Chẳng hạn, Thurstone từ đầu thế

kỷ này (1904) [2] đã phát biểu: các số đo phải tuyến tính và có thể ứng

dụng các phép tính số học. Wright (1982) [10] có nêu bốn đặc trưng mà

đo lường phải có là: hướng (direction), thứ tự (order), độ lớn (magnitude)

và các đơn vị có thể tái tạo (replicable units).

Khi xÐt mét phÐp ®o l­êng cô thÓ trong t©m lý vµ gi¸o dôc, th­íc

®o cã thÓ lµ một hoặc một tập hợp các c©u hái hoặc cái gì đó được đưa ra

để thử phản ứng của người được đo, ®èi t­îng ®o lµ mét thuéc tÝnh nµo

®ã cña một người được đo, ch¼ng h¹n n¨ng lùc tiềm ẩn của người được

đo vÒ mét lÜnh vùc nµo ®ã. Để tiện trong diễn đạt, từ nay về sau ta quy

ước gọi cái được đưa ra để thử ứng đáp của người được đo (item) là câu

hỏi (CH) và đối tượng được đo nói chung là thí sinh (TS).

Cũng giống như các phép đo lường nói chung đã nêu ở 3.1.1, đối

với trắc nghiệm trong tâm lý và giáo dục, Thurstone cũng nêu ra những

đòi hỏi về phép đo lường trong giáo dục, ngụ ý rằng việc định cỡ CH

không được phụ thuộc vào mẫu TS dựng để định cỡ (sample-free) và kết

quả đo về thuộc tính của một TS nào đó cũng không được phụ thuộc vào

việc họ trả lời các CH nào (item-free). Đó là yêu cầu để đảm bảo tính

khách quan của phép đo.

86

Tuy những yêu cầu cơ bản về đo lường đã được các nhà tâm lý giáo

dục nhìn thấy từ lâu, nhưng chỉ đến những năm 60 - 70 của thế kỷ XX mới

có các công trình lý thuyết đặt nền tảng khoa học vững chắc để thỏa mãn các

yêu cầu cơ bản trên của khoa học về đo lường trong tâm lý và giáo dục.

3.2. VỀ ĐƯỜNG CONG ĐẶC TRƯNG CÂU HỎI

3.2.1. Các mối tương tác nguyên tố và tính đơn chiều

Giả sử chúng ta muốn đánh giá một loại năng lực tiềm ẩn nào đó,

chẳng hạn năng lực tiếng Anh, của 200 TS nhờ một đề trắc nghiệm có

100 CH. Trong trường hợp này ta có 200x100 = 20.000 mối tương tác

khác nhau giữa một TS và một CH trắc nghiệm. Mô hình toán về phép đo

lường trong tâm lý và giáo dục phải bắt đầu từ các mối tương tác đó giữa

TS và CH, có thể gọi là mối tương tác nguyên tố, một tế bào để xây dựng

Lý thuyết Ứng đáp Câu hỏi.

Trong tập sách này từ chương 1 đến chương 12 dành để giới thiệu

lý thuyết trắc nghiệm áp dụng để đo chỉ một loại năng lực của TS.

Khi xây dựng một mô hình toán nói chung, để đơn giản và khả thi,

bao giờ người ta cũng quan tâm đến những mối quan hệ bản chất nhất,

lược bỏ bớt những yếu tố phụ phức tạp nhưng không bản chất. Ở trường

hợp của chúng ta, để xây dựng mô hình toán phản ánh quan hệ các mối

tương tác nguyên tố TS-CH, trong đó đối với TS ta chỉ xét đến một loại

năng lực (hoặc một chiều nào đó của năng lực) được đo bởi các CH tạo nên

đề trắc nghiệm (ĐTN). Đó là giả định về tính đơn chiều (unidimensionality).

Trong thực tế thường có nhiều nhân tố ảnh hưởng lên việc làm trắc nghiệm

(động cơ, sự hồi hộp, khả năng làm nhanh, xu hướng đoán nhận, các kỹ

năng nhận thức…) ngoài năng lực chính được đo bởi ĐTN. Vậy, để đạt giả

định về tính đơn chiều cần xây dựng ĐTN sao cho khu biệt được thành

phần chính ảnh hưởng lên việc làm ĐTN. Thành phần đó được xem là

năng lực tiềm ẩn (latent trait) được đo bởi ĐTN.

Một khái niệm liên quan đến tính đơn chiều là tính độc lập địa

phương (local independent). Độc lập địa phương có nghĩa: khi giữ không

đổi năng lực tác động lên việc làm ĐTN, ứng đáp của TS đối với hai CH

nào đó là độc lập với nhau về mặt thống kê. Nói cách khác, không có

87

quan hệ giữa các ứng đáp của TS đối với các CH khác nhau. Như vậy,

năng lực được xác định bởi mô hình là yếu tố duy nhất ảnh hưởng lên

việc trả lời của TS đối với CH. Tập hợp các năng lực ấy biểu diễn một

không gian năng lực tiềm ẩn (latent trait) đầy đủ. Khi thỏa mãn tính đơn

chiều, một không gian năng lực tiềm ẩn đầy đủ chỉ chứa một năng lực.

Khi giả định về tính đơn chiều được thỏa mãn, cũng sẽ có tính độc

lập địa phương. Trên tinh thần đó hai khái niệm ấy là tương đương. Tuy

nhiên, có thể có tính độc lập địa phương ngay khi không có tính đơn

chiều, chỉ cần không gian năng lực tiềm ẩn đầy đủ được xác lập. Nếu

không gian ấy không được xác lập thì không có tính độc lập địa

phương. Chẳng hạn, các TS kiểm tra môn Toán đồng thời phải biết đọc

thạo tiếng Việt. Khi có TS không đọc thạo tiếng Việt thì năng lực tiếng

Việt sẽ ảnh hưởng đến việc làm kiểm tra Toán, và tính độc lập địa

phương sẽ không thỏa mãn. Khi mọi TS đều đọc thạo tiếng Việt thì sẽ

có tính độc lập địa phương.

Khi thỏa mãn tính đơn chiều, người ta giả định là có một Hàm đặc

trưng của câu hỏi (Hàm ĐTCH - Item Characteristic Function- ICF)

phản ánh mối quan hệ thực giữa các biến không quan sát được (năng lực

của TS) và các biến quan sát được (việc trả lời câu hỏi). Biểu diễn đồ thị

của hàm đặc trưng câu hỏi là Đường cong đặc trưng Câu hỏi (Đường

cong ĐTCH - Item Characteristic Curve – ICC). Chúng ta hãy tìm cách

xác định các đường cong ĐTCH đó.

3.2.2. Xây dựng thang đo để biểu diễn các tương tác

Trước khi xét mối tương tác nguyên tố TS - CH chúng ta cần xây

dựng một cái thang chung để biểu diễn các mối tương tác đó trên đó.

Trước hết ta giả định mỗi TS có một năng lực tiềm ẩn nào đó, và

giả thiết đây là năng lực một chiều, như đã nói ở 3.2.1. Giả sử ta có thể

biểu diễn năng lực tiềm ẩn này bằng một biến dọc theo một trục liên tục,

từ thấp đến cao, từ - đến +. Khi xét phân bố năng lực của một tập hợp

TS nào đó, ta chọn giá trị năng lực trung bình của phân bố năng lực của

tập hợp TS đó làm điểm không (0) cho thang đo năng lực, và độ lệch tiêu

chuẩn của phân bố năng lực làm đơn vị đo năng lực (=1).

88

Tiếp đến, mỗi CH có một loạt tính năng được biểu diễn bởi các

tham số xác định, như ta sẽ xem xét tiếp ở chương sau. Trong các tính

năng của CH, một tính năng quan trọng nhất là độ khó của CH. Cũng giả

thiết ta có thể biểu diễn độ khó của các CH bằng một biến dọc theo một

trục liên tục, từ thấp đến cao, từ - đến +. Khi xét phân bố độ khó của

một tập hợp CH nào đó, ta chọn giá trị độ khó trung bình của phân bố độ

khó tập hợp CH đó làm điểm không (0) cho thang đo năng lực, và độ

lệch tiêu chuẩn của phân bố độ khó CH làm đơn vị đo độ khó (=1).

Để thực hiện một phép đo bằng cách dùng một ĐTN gồm nhiều

CH nhằm đo các năng lực tiềm ẩn của từng TS trên thang đo năng lực

của tập hợp TS nói trên, ta cần làm một sự so sánh giữa năng lực của TS

và độ khó của CH. Thông thường hai đại lượng có thứ nguyên và ý nghĩa

hoàn toàn khác nhau như vậy, năng lực của TS và độ khó của CH, không

thể so sánh với nhau. Tuy nhiên như sẽ thấy ở mục sau, các biến năng lực

và độ khó sẽ được biểu diễn bằng các đại lượng tỷ đối không thứ nguyên

nên có thể so sánh chúng với nhau.

3.2.3. Ví dụ về mô hình đường cong đặc trưng câu hỏi đơn chiều, nhị

phân, một tham số (mô hình Rasch)

Để làm ví dụ, trước hết chúng tôi sẽ trình bày cách xây dựng một

đường cong ĐTCH nhị phân, một tham số. CH nhị phân là CH mà câu

trả lời chỉ có 2 mức: 0 và 1. Chúng tôi sẽ chọn cách trình bày lưu ý đến

tính logic và sư phạm nhiều hơn để bạn đọc dễ hiểu, không lưu ý đến lịch

sử của việc xây dựng các mô hình. Ở cuối chương 3, chúng ta sẽ theo dõi

lịch sử phát triển các mô hình.

IRT dựa trên hai giả thiết:

- Sự ứng đáp của một TS đối với một CH có thể được tiên đoán

bằng năng lực tiềm ẩn của TS;

- Quan hệ giữa sự ứng đáp CH của TS và năng lực tiềm ẩn làm cơ

sở cho sự đáp ứng đó có thể mô tả bằng một ICF đồng biến.

Để xây dựng một mô hình toán diễn tả một mối quan hệ phải xuất

phát từ một tiền đề nào đó. Nhµ to¸n häc Đan M¹ch, George Rasch, đã

89

xây dựng được một mô hình ICF đơn giản nhất nhưng cho đến nay cũng

được sử dụng nhiều nhất trong công nghệ trắc nghiệm. Để biểu diễn CH,

Rasch chỉ chọn một tham số: độ khó của CH. Chúng ta hãy theo dõi cách

lập luận của Rasch.

Phát biểu sau đây của Rasch có giá trị như một tiền đề làm cơ sở

cho mô hình của ông:

“Một người có năng lực cao hơn một người khác thì xác suất để

người đó trả lời đúng một câu hỏi bất kỳ phải lớn hơn xác suất của người

sau, cũng tương tự như vậy, một câu hỏi khó hơn một câu hỏi khác có

nghĩa là xác suất để một người bất kỳ trả lời đúng câu hỏi đó phải bé

hơn xác suất để trả lời đúng câu hỏi sau” (Rasch, 1960, tr. 117) [3].

Rõ ràng mô hình lý thuyết ứng đáp CH phải là một mô hình có tính

xác suất, không phải là mô hình tất định. Chúng ta có thể thấy rõ tính hợp

lý logic của tiền đề nêu trên. Với tiền đề đó, có thể đi đến kết luận: xác

xuất để một TS trả lời đúng một CH nào đó phụ thuộc vào tương quan

giữa năng lực của TS và độ khó của CH. Chúng ta sẽ chọn Θ để biểu diễn

năng lực của TS, và β để biểu diễn độ khó của CH. Tuy nhiên, để đảm

bảo khả năng so sánh năng lực và độ khó như đã nói ở mục 3.2.2, Θ và β

đều được biểu diễn dưới dạng một tỷ số (lấy giá trị trung bình của chúng

làm đơn vị). Tóm lại, với tiền đề Rasch, xác suất P để trả lời đúng CH

phụ thuộc vào tương quan giữa Θ và β, tức là ta có thể biểu diễn:

f (P) = Θ/β, (3.1)

trong đó f là một hàm nào đó của xác suất trả lời đúng.

Vấn đề là: chọn hàm f(P) như thế nào để có biểu diễn hợp lý nhất?

Trước hết, vì, mối quan hệ cộng trừ đơn giản hơn mối quan hệ nhân chia,

nên Rasch lấy logarit tự nhiên của (3.1):

ln f (P) = ln [Θ/β] = lnΘ - lnβ = θ - b (3.2)

Tiếp đến, để đơn giản, khi xét mô hình trắc nghiệm nhị phân

(dichotomous) Rasch chọn hàm f chính là [P/(1-P)], bằng biểu thức odds

(mức được thua) hoặc khả năng thực hiện đúng (likelyhood ratio), tức là

tỷ số của khả năng xảy ra sự kiện khẳng định so với khả năng xảy ra sự

kiện phủ định. Như vậy:

90

ln [P/(1-P)] = θ - b, (3.3)

ln [P/(1-P)] được gọi là logit (log odds unit).

Từ đó có thể viết:

P/(1-P) = e (θ - b)

Qua một vài biến đổi đơn giản, ta thu được:

]e[1

e)(θ P

b)(θ

(3.4)

Hàm có dạng như biểu thức (3.4) thuộc loại hàm logistic. Biểu thức

(3.4) chính là hàm đặc trưng của mô hình ứng đáp CH một tham số, hay

còn gọi là mô hình Rasch, có thể biểu diễn trên Hình 3.1 dưới đây (khi

cho b=0):

Hình 3.1. Đường cong ĐTCH một tham số

Trở lại ví dụ của chúng ta ở 3.2.1 về trường hợp 200 TS làm ĐTN

gồm 100 CH, chúng ta có 20.000 mối tương tác nguyên tố TS - CH. Từ

đó chúng ta sẽ có 20.000 giá trị xác suất trả lời đúng CH được biểu diễn

như sau:

]e[1

e)(θ P

)b(θ

jiij

ij

, (3.5)

91

trong đó, chỉ số i chạy từ 1 đến 200 đánh dấu 200 TS tham gia trắc

nghiệm, chỉ số j chạy từ 1 đến 100 đánh dấu 100 CH của ĐTN. Nếu biểu

diễn tất cả các đường cong ĐTCH trên cùng một thang với hoành độ θ thì

ta có một họ các đường cong như nhau được tịnh tiến trên trục θ, gốc của

mỗi đường cong được đặt tại hoành độ θ = bj, các đường cong không cắt

nhau. Tại gốc tọa độ của mỗi đường cong xác suất của TS thứ i trả lời

CH thứ j tương ứng là Pi = 0,5.

Hình 3.2. Họ các đường cong ĐTCH một tham số với các giá trị b khác nhau

CÂU HỎI TỰ KIỂM TRA

1) Nêu các bước cần tiến hành để xây dựng một phép đo nói chung.

Cần các điều kiện gì để có một phép đo chính xác?

2) Nêu các loại thang đo thường được sử dụng và đặc điểm của chúng.

3) Nêu các điều kiện cần thiết để đảm bảo chính xác cho phép đo bằng

đề trắc nghiệm.

4) Giải thích điều kiện đơn chiều để xây dựng mô hình Rasch.

5) Phát biểu tiền đề của Rasch.

6) Lập biểu thức hàm ĐTCH cho mô hình Rasch.

92

Chương 4

CÁC MÔ HÌNH ĐƯỜNG CONG ĐẶC TRƯNG CỦA CÂU HỎI NHỊ PHÂN

Tiếp tục mô hình đường cong ĐTCH một tham số (mô hình Rasch)

được xác định ở chương 3, chương này giới thiệu mô hình ĐTCH 2 tham

số bằng cách đưa vào thêm tham số biểu diễn độ phân biệt, và mô hình

ĐTCH 3 tham số bằng cách tiếp tục đưa vào thêm tham số mô tả hiệu

ứng đoán mò. Tính chất chung của các đường cong ĐTCH được khảo

sát. Ngoài các mô hình dựa vào hàm logistic, các đường cong ĐTCH

theo mô hình dạng đường cong tích lũy vòm chuẩn cũng được giới thiệu,

và mối quan hệ giữa chúng với các đường cong dạng hàm logistic được

xác lập. Cuối cùng, sự phát triển của mô hình Rasch trong lịch sử và các

quan điểm về việc sử dụng mô hình Rasch 1 tham số so với các mô hình

2, 3 tham số cũng được bàn đến.

4.1. BA MÔ HÌNH ĐƯỜNG CONG ĐẶC TRƯNG CỦA CÂU HỎI NHỊ

PHÂN DẠNG LOGISTIC

Chương 3 đã giới thiệu một mô hình đường cong ĐTCH đầu tiên là

mô hình Rasch. Đối với mô hình Rasch chỉ một tham số của CH được sử

dụng, đó là độ khó, nên mô hình Rasch được gọi là mô hình một tham số.

Tuy nhiên, như đã biết, trong trắc nghiệm cổ điển, người ta còn sử dụng

một tham số quan trọng thứ hai đặc trưng cho CH là độ phân biệt. Do đó

nhiều nhà tâm trắc học mong muốn đưa độ phân biệt vào mô hình đường

cong ĐTCH.

4.1.1. Mô hình đường cong đặc trưng của câu hỏi hai tham số

Từ khảo sát ở chương 3, chúng ta đã thấy các đường cong ĐTCH

một tham số có dạng như nhau, khi biểu diễn trên cùng một thang năng

93

lực θ theo hoành độ thì sẽ có một họ các đường cong hình dạng như nhau

tịnh tiến theo trục hoành, mỗi đường cong có gốc tọa độ tại điểm có θ =

bi, trong đó bi là độ khó của CH thứ i tương ứng. Chúng ta cũng thấy rõ

trong họ đường cong đã nêu độ dốc phần giữa của mọi đường cong là

như nhau, điều đó chính là do độ phân biệt là như nhau đối với mọi CH

trắc nghiệm.

Từ công thức (3.4)

θ b

(θ b)

eP (θ)

[1 e ]

(3.4)

chúng ta thấy rõ khi trục hoành biểu diễn theo logit, độ dốc phần

giữa đường cong được quyết định bởi hệ số ở số mũ của hàm e, mà ở

công thức (3.4) hệ số đó bằng 1.

Người ta có thể đưa thêm tham số a liên quan đến độ phân biệt của

CH vào hệ số ở số mũ của hàm e, kết quả sẽ có biểu thức:

a θ b

a(θ b)

eP (θ) .

[1 e ]

(4.1)

(4.1) chính là hàm ĐTCH hai tham số. Hệ số a biểu diễn độ dốc

của đường cong ĐTCH tại điểm có hoành độ θ = b và tung độ P(θ) = 0,5.

Có thể thấy rõ độ dốc của đường cong ĐTCH phản ánh độ phân

biệt của CH. Thật vậy, khi cho một biến đổi vi phân Δθ của năng lực thì

sẽ thu được một biến đổi vi phân ΔP của xác suất trả lời đúng, giá trị ΔP

này lớn hơn trên đường cong ĐTCH có độ dốc lớn so với trên đường

cong có độ dốc nhỏ. Nói cách khác, đối với CH đã cho một sự khác biệt

nhỏ về năng lực của TS cũng gây ra một độ chênh lớn về xác suất trả lời

đúng. Đó chính là ý nghĩa của độ phân biệt.

Dễ dàng xác định độ dốc của đường cong ĐTCH nhờ đạo hàm của P:

)(

2

)(1

1 ba

bae

ea

P

.

Khi = b, ∂P/∂ = a/4, đó là giá trị lớn nhất của độ dốc tại điểm

uốn của đường cong.

94

Hàm ĐTCH hai tham số trình bày trên đây và hàm ĐTCH theo mô

hình Rasch có cùng dạng thức, chỉ khác nhau ở giá trị tham số a (đối với

mô hình Rasch a=1). Như đã nói ở chương 3, các hàm có dạng như vậy

được gọi là hàm logistic, là loại hàm tạo rất nhiều thuận lợi trong nhiều

biến đổi toán học mà chúng ta sẽ xét sau này.

Trở lại ví dụ đã nêu ở mục 3.2.1 chương trước về trường hợp

200TS làm ĐTN 100 CH, chúng ta có 20.000 mối tương tác nguyên tố

TS-CH. Từ đó chúng ta cũng có 20.000 giá trị xác suất trả lời đúng CH

được biểu diễn như sau:

]e[1

e)(θ P

)b(θa

)b(θa

jiiji

iji

, (4.2)

trong đó chỉ số i chạy từ 1 đến 200 đánh dấu 200 TS tham gia trắc

nghiệm, chỉ số j chạy từ 1 đến 100 đánh dấu 100 CH của đề trắc

nhghiệm. Các đường cong ĐTCH trong họ các đường cong nói trên có độ

nghiêng khác nhau tùy theo giá trị ai tương ứng của mỗi đường cong.

Hình 4.1 biểu diễn các đường cong ĐTCH theo mô hình 2 tham số

với b=0, và a lần lượt bằng 0,5; 1,0; 1,5; 2,0; 3,0 nên độ dốc của các

đường cong ở đoạn giữa tăng dần.

Hình 4.1. Các đường cong ĐTCH hai tham số với các giá trị a khác nhau (b=0)

4.1.2. Mô hình đường cong đặc trưng của câu hỏi ba tham số

Lưu ý đến các hàm ĐTCH (3.4) và (4.1) chúng ta thấy tung độ tiệm

cận trái của chúng đều có giá trị bằng 0, điều đó có nghĩa là nếu TS có

95

năng lực rất thấp, tức Θ → 0 và θ = ln Θ → -, thì xác suất trả lời đúng CH

P(θ) cũng bằng 0.

Tuy nhiên trong thực tế triển khai trắc nghiệm chúng ta đều biết có

khi năng lực của TS rất thấp nhưng do đoán mò hoặc trả lời hú họa một

CH nên TS vẫn có một khả năng nào đó trả lời đúng CH. Trong trường

hợp đã nêu thì tung độ tiệm cận trái của đường cong không phải bằng 0

mà bằng một giá trị xác định c nào đó, với 0<c<1.

Từ thực tế nêu trên người ta có thể đưa thêm tham số c phản ánh

hiện tượng đoán mò vào hàm ĐTCH để thu được tung độ tiệm cận trái

của đường cong khác 0. Kết quả sẽ thu được biểu thức:

]e[1

ec)(1c(θθ P

bθa

bθa

, (4.3)

Rõ ràng khi θ → - hàm P(θ) → c. Trong trường hợp mô hình

đường cong ĐTCH 3 tham số khi θ = b ta có P(θ) = (c+1)/2.

Với ví dụ đã nêu ở mục 3.2.1 của chương trước về trường hợp 200

TS làm đề trắc nghiệm 100 CH, chúng ta cũng có 20.000 giá trị xác suất

trả lời đúng CH cho mô hình ba tham số ứng với 20.000 mối tương tác

nguyên tố TS - CH, biểu diễn như sau:

i j i

i j i

a θ b

i j i ia θ b

e P (θ ) c (1 c ) ,

[1 e ]

trong đó i chạy từ 1 đến 200 TS, j chạy từ 1 đến 100 CH.

Hình 4.2 biểu diễn các đường cong ĐTCH theo mô hình 3 tham số

với a=2 và các tham số c có giá trị bằng 0,1 và 0,2.

Mô hình đường cong ĐTCH 2 tham số và 3 tham số do Allan

Birnbaum (1968) [4] đề xuất đầu tiên, nên đôi khi được gọi là các mô

hình Birnbaum. Thực tế khi đưa tham số c vào, tính chất của hàm logistic

không còn nữa, tuy nhiên do thói quen có tính lịch sử người ta vẫn xếp

mô hình 3 tham số (4.3) vào loại mô hình logistic.

(4.4)

96

Hình 4.2. Các đường cong ĐTCH 3 tham số với a=2, c=0,1 và 0,2

4.2. MỘT VÀI LƯU Ý VỀ CÁC MÔ HÌNH KIỂU KHÁC VỀ ĐẶC TRƯNG

CỦA CÂU HỎI

Chúng tôi đã giới thiệu lý thuyết IRT xuất phát từ mô hình đơn

giản nhất – mô hình Rasch. Tuy nhiên trong lịch sử không phải mô hình

Rasch được đưa ra đầu tiên để xây dựng IRT.

Từ năm 1952 Lord F.M. đã đưa ra mô hình đường cong tích lũy

vòm chuẩn 2 tham số (4.5) để phân tích số liệu trắc nghiệm nhiều lựa

chọn. Sau đó vào năm 1957, Birnbaum A. [4] đã đề nghị đưa vào mô

hình logistic 2 và 3 tham số (4.1) và (4.3) dễ sử dụng hơn thay cho các

mô hình mô hình đường cong tích lũy vòm chuẩn. Tuy nhiên, cả Lord và

Birnbaum đều không quan tâm đến mô hình một tham số theo cả dạng

tích lũy vòm chuẩn cũng như dạng logistic, vì họ cho rằng mỗi CH cần ít

nhất 2 tham số mới đủ xác định mô hình, một liên quan đến độ khó và một

liên quan đến độ phân biệt, và mô hình một tham số chỉ là một trường hợp

riêng của các mô hình mà họ đề nghị. Vào năm 1960, Rasch G. [3] đã đề

nghị mô hình một tham số nhưng theo một cách tiếp cận khác hẳn so với

hai tác giả nêu trên. Nếu Lord và Birnbaum chỉ quan tâm đến việc tìm

các mô hình phù hợp với số liệu, thì Rasch muốn tìm mô hình phản ánh

được ứng đáp của TS đối với ĐTN. Rasch xuất phát từ một quan niệm

đơn giản: mức được thua (odds) của một TS khi trả lời một CH phụ thuộc

vào tích của năng lực TS và độ dễ của CH, như lập luận được trình bày ở

3.2.3. Độ phân biệt của CH không được lưu ý trong mô hình một tham số

của Rasch.

97

4.2.1. Mô hình đặc trưng của câu hỏi dạng đường cong tích lũy

vòm chuẩn

Vì phân bố chuẩn xác suất là nền tảng của lý thuyết thống kê, nên

từ lâu các nhà tâm trắc học đã dùng đường cong tích lũy vòm chuẩn

(normal ogive) làm mô hình để nghiên cứu việc trả lời CH (Muler 1904,

Urban 1910, Thomson 1919). Tính hợp lý của việc sử dụng đường cong

tích lũy vòm chuẩn làm đường cong ĐTCH được biện minh cả trên quan

điểm thực dụng lẫn lý thuyết (Lord, 1980 [5], Barker, 1992 [8]).

Biểu thức đường cong tích lũy vòm chuẩn đối với mô hình 2 tham

số có dạng:

P (θ) = 2

a(θ-b)

(-t 2)

1e dt

2π , (4.5)

và đối với mô hình 3 tham số như sau:

P (θ) = c + (1- c) dte2π

1 2)t(

b)a(θ2

. (4.6)

Biểu thức (4.5) và (4.6) cho thấy các hàm này là hàm xác suất tích

lũy tính theo mật độ xác suất của phân bố chuẩn. Đó là các hàm của biến

năng lực θ với các tham số a, b, c.

Khi khảo sát quan hệ định lượng giữa các mô hình ĐTCH có dạng

đường cong tích lũy vòm chuẩn và mô hình ĐTCH có dạng logistic,

Halley (1952) [9] đã cho biết rằng nếu nhân tham số biểu thị độ dốc a

của hàm logistic cho hệ số D=1,702 và sử dụng như ở biểu thức (4.1) thì

sự sai khác tuyệt đối giữa các xác suất biểu diễn bởi biểu thức hàm dạng

logistic (4.1) và biểu thức hàm dạng tích lũy vòm chuẩn (4.5) sẽ bé hơn

0,01 trên cả thang θ.

(nếu nhân hệ số a ở 4.1 với D=1,702 thì hai đường cong gần như

trùng nhau)

Như vậy, đối với mọi ứng dụng thực tiễn hai mô hình hàm ĐTCH

dạng logistic và dạng tích lũy vòm chuẩn là như nhau. Trong khi đó biểu

98

thức toán học của hàm logistic đơn giản hơn nhiều và tốc độ tính toán

thực tế đối với chúng giảm nhiều vì không phải tính tích phân, do đó

thậm chí có thể tính chúng trên các máy tính giản đơn. Vì lý do đó, trong

những năm gần đây người ta thiên về sử dụng mô hình các đường cong

logistic hơn là mô hình các đường cong tích lũy vòm chuẩn. Dù vậy

trong nhiều nghiên cứu lý thuyết, đặc biệt là những nghiên cứu về mối

quan hệ giữa lý CTT và IRT, người ta vẫn còn nhắc đến các mô hình hàm

tích lũy vòm chuẩn.

Hình 4.3. Các đường cong biểu diễn hàm (4.1) và (4.5)

4.2.2. Về mô hình Rasch và vai trò của nó

Chúng tôi đã chọn mô hình một tham số, mô hình Rasch, làm mô

hình trình bày đầu tiên trong các mô hình đường cong ĐTCH vì mô hình

này đơn giản nhất và phản ánh tường minh nhất mối quan hệ giữa TS và

CH. Tuy nhiên, như đã nói trên đây, trong tiến trình lịch sử hình thành

IRT không phải mô hình Rasch xuất hiện trước các mô hình khác. Nhà

toán học và tâm lý học người Đan Mạch, George Rasch, đã có ý tưởng

xây dựng "một mô hình cấu trúc cho các CH trong một ĐTN" từ thập

niên 1950, đề xuất mô hình xác suất logistic đó từ 1953, nhưng ở Mỹ

người ta biết đến công trình của ông từ khi ông công bố chính thức trong

99

một cuốn sách xuất bản năm 1960 [3]. Động cơ của Rasch muốn thể hiện

qua mô hình của mình là hạn chế việc dựa vào tổng thể TS khi phân tích

các ĐTN. Theo ông, phân tích trắc nghiệm chỉ đáng giá khi dựa vào từng

cá nhân TS, với các tham số của TS và CH được tách riêng. Để biện

minh cho quan điểm của mình, ông thường dẫn lời Skiner, người rất ghét

việc căn cứ vào thống kê dựa trên tổng thể để kết luận và thường triển

khai nghiên cứu thực nghiệm trên từng cá thể. Quan điểm của Rasch đã

đánh dấu sự chuyển tiếp từ CTT, dựa trên tổng thể với việc nhấn mạnh

đến biện pháp tiêu chuẩn hóa và ngẫu nhiên hóa, sang IRT với mô hình

xác suất tương tác giữa một CH và một TS. Sự tồn tại của các số liệu

thống kê đầy đủ của các tham số của CH trong mô hình Rasch có thể

được sử dụng vào việc điều chỉnh ước lượng các tham số năng lực theo

một cách thức đặc biệt.

Cùng trong khoảng thời gian công bố công trình của mình, Rasch

được mời sang cộng tác nghiên cứu 3 tháng tại Viện Đại học Chicago.

Tại đây, B. Wright [10] đã có rất nhiều đóng góp để nâng cao và phát

triển mô hình Rasch. Theo Wright, ý tưởng của Rasch về việc chọn mô

hình logistic với chỉ một tham số là độ khó đã giải phóng được bế tắc của

việc phát triển IRT trong nhiều thập niên, vì nhiều nhà tâm trắc học qua

các nghiên cứu của mình đã khẳng định rằng chỉ có độ khó là có thể ước

lượng được một cách ổn định và đầy đủ qua số liệu quan sát đối với loại

CH trắc nghiệm nhị phân. Do đó, hiện nay, tuy là mô hình ĐTCH đơn

giản nhất trong các mô hình IRT (và có lẽ cũng chính vì tính đơn giản

nhưng đầy đủ của nó), mô hình Rasch đã được sử dụng nhiều nhất trong

các nghiên cứu tâm lý và giáo dục. Cũng theo Wright [10], mô hình

Rasch là mô hình duy nhất thỏa mãn các yêu cầu để xây dựng các phép

đo lường khách quan trong khoa học xã hội nói chung, và Wright có ý

kiến khá cực đoan rằng không nên sử dụng các mô hình khác trong các

phép đo lường khách quan. Tuy nhiên một số nhà nghiên cứu khác cho

rằng về lý thuyết thì dạng toán học của mô hình Rasch có nhiều lợi thế,

nhưng khi nói đến mô hình toán học, tức là nói đến một sự giả định,

tiêu chuẩn để đánh giá hiệu quả của mô hình là sự phù hợp của chúng

với số liệu thực nghiệm chứ không chỉ thuần túy ở dạng toán học.

Người ta thường gọi quan điểm của Wright là quan điểm "dựa trên mô

100

hình" (model-based), còn quan điểm ngược lại là quan điểm "dựa trên

dữ liệu" (data-based).

CÂU HỎI TỰ KIỂM TRA

1) Dáng điệu của đường cong ĐTCH 2 tham số phụ thuộc tham số

a như thế nào? Tại sao tham số a đặc trưng cho độ phân biệt của câu hỏi?

2) Dáng điệu của đường cong ĐTCH 3 tham số phụ thuộc tham số

c như thế nào? Tại sao tham số c đặc trưng cho độ đoán mò của câu hỏi?

3) Ý nghĩa của hàm ĐTCH theo đường cong tích lũy vòm chuẩn.

Sự khác biệt trong thực tế của xác suất trả lời đúng CH tính toán theo các

hàm ĐTCH dạng tích lũy vòm chuẩn và dạng logistic.

4) So sánh các định nghĩa và các khoảng giá trị bằng số có thể có

của độ khó và độ phân biệt theo CTT và IRT.

5) Quan niệm của B. Wright về việc sử dụng các mô hình 1, 2, 3

tham số.

BÀI TẬP

Bảng 4.1 cho các tham số của 6 CH nhị phân.

Đối với mỗi CH hãy tính P(θ) tại θ = -3, -2, -1, 0, 1, 2 và 3. Vẽ các

đường cong ĐTCH.

CH nào dễ nhất?

CH nào có tham số độ phân biệt thấp nhất?

Một TS có năng lực θ = 0 sẽ ứng đáp đúng CH nào với xác suất cao

nhất? Xác xuất để TS ấy ứng đáp sai CH bằng bao nhiêu?

101

Bảng 4.1.

CH b a c

1 1,0 1,8 0,00

2 1,0 0,7 0,00

3 1,0 1,8 0,25

4 -0,5 1,2 0,20

5 0,5 1,2 0,00

6 0,0 0,5 0,10

Ứng đáp của 40 TS ở một mức năng lực đã cho đối với 2 CH được

cho ở Bảng 4.2. Lập một ma trận 2x2 về các ứng đáp đúng và sai đối với

2 CH nêu trên. Dùng kiểm nghiệm Chi-bình phương (χ2) về mức độ độc

lập để kiểm định tính độc lập địa phương của hai CH đó ở mức năng lực

đã cho.

Bảng 4.2.

CH Ứng đáp của các TS

1 0 0 0 0 0 1 1 0 0 0 0 0 0 1 1 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 1 1 0 0 1 1 0 1 0 1

2 0 1 1 0 0 0 0 0 1 1 1 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 1 1 0 0 1 1 1 1

__________________

102

Chương 5

ƯỚC LƯỢNG CÁC THAM SỐ CỦA CÂU HỎI TRẮC NGHIỆM

Chương này dành để mô tả một thao tác quan trọng trong IRT, đó

là quy trình ước lượng tham số của một CH trắc nghiệm dựa vào số liệu

thu được từ việc trả lời của các TS đối với một ĐTN. Quy trình ước

lượng được trình bày nặng về định tính để bạn đọc dễ dàng nắm được

bản chất của nó cùng với một hệ quả quan trọng của IRT là sự không phụ

thuộc của các tham số CH trắc nghiệm vào mẫu TS dùng để ước lượng

chúng, hoặc là tính bất biến của các tham số CH trắc nghiệm đối với các

phép đo lường.

5.1. QUY TRÌNH ƯỚC LƯỢNG CÁC THAM SỐ CỦA CÂU HỎI

Chương 3 và chương 4 đã trình bày các mô hình hàm ĐTCH với 1,

2 và 3 tham số. Tuy nhiên, khi xây dựng một ĐTN nào đó các tham số

của CH là chưa biết, do đó một trong các yêu cầu quan trọng để xây dựng

các ĐTN là ước lượng các tham số của các CH trắc nghiệm.

Trong các mô hình IRT, xác suất để trả lời đúng CH phụ thuộc vào

năng lực θ của TS và các tham số đặc trưng cho CH. Cả hai loại tham số,

năng lực của TS và đặc trưng của CH, đều không biết. Cái có thể biết

được là việc trả lời các CH của các TS. Vấn đề của việc ước lượng là xác

định các giá trị tham số năng lực θ của từng TS và các tham số a, b, c của

từng CH từ các kết quả ứng đáp CH. Để áp dụng IRT cho số liệu trắc

nghiệm, công việc đầu tiên và quan trọng nhất chính là ước lượng các

tham số đặc trưng cho mô hình ứng đáp CH đã chọn. Có thể nói thành

công của áp dụng IRT xoay quanh việc tạo ra được các quy trình thích

hợp để ước lượng các tham số của mô hình.

103

Để trình bày được đơn giản, trước hết chúng ta hãy xem xét việc

ước lượng các tham số đặc trưng cho CH trắc nghiệm. Khi ước lượng các

tham số đó, chúng ta giả thiết là đã biết các điểm năng lực của TS. Ở

chương 7 sẽ trình bày cách ước lượng năng lực TS và cả cách ước lượng

đồng thời tham số CH và năng lực TS.

Giả thiết chúng ta có một tập hợp gồm N TS làm một đề trắc

nghiệm có M CH. Các điểm năng lực của TS phân bố dọc theo một thang

đo năng lực. Xét một CHi xác định thứ i. Giả thiết rằng chúng ta có thể

chia tập hợp TS thành I nhóm trên thang đo năng lực, sao cho các TS

trong cùng một nhóm j nào đó có cùng một năng lực θj, cụ thể là có mj

TS trong nhóm j, với j=1,2,3,... I. Trong nhóm j có cùng điểm năng lực

xác định θj đó giả sử có rj TS trả lời đúng CHi thứ i đã cho. Như vậy, ở

mức năng lực θj, tỷ lệ trả lời đúng CHi quan sát được là pj(θj)= rj/mj, đó là

ước lượng xác suất trả lời đúng CHi ở mức năng lực đã cho. Từ đó có thể

thu được rj và tính được pj(θj) cho mỗi mức năng lực j dọc theo thang

năng lực đã cho. Có thể biểu diễn các tỷ lệ trả lời đúng đối với mỗi nhóm

năng lực như ở Hình 5.1. (xem cả ví dụ nêu ở Bảng 5.1 ở cuối chương).

Hình 5.1.

Nhiệm vụ được đặt ra là tìm một đường cong ĐTCH trùng khớp tốt

nhất với các tỷ số trả lời đúng CH quan sát được. Muốn vậy, trước hết ta

phải chọn một mô hình đường cong sao cho phù hợp. Quy trình sử dụng

để tìm đường cong trùng khớp được dựa trên thuật toán ước lượng theo

104

biến cố hợp lý cực đại (maximum likelyhood estimation). Ở chương này

sẽ mô tả định tính quy trình ước lượng đó để bạn đọc hiểu bản chất của

nó, trong chương 7 sẽ trình bày cách tiếp cận định lượng qua việc giới

thiệu dạng thức của hàm biến cố hợp lý.

Trước hết, người ta cho các giá trị tiên nghiệm (a priory) của các

tham số đường cong, chẳng hạn b=0,0 và a=1,0 đối với mô hình hàm

ĐTCH 2 tham số. Sử dụng các ước lượng đó để tính các giá trị P(θj) đối

với mọi nhóm năng lực nhờ công thức ứng với mô hình đường cong đã

chọn. Sau đó theo một thuật toán xác định như đã nêu trên người ta tìm

cách điều chỉnh các tham số ước lượng của đường cong ĐTCH sao cho

đạt được một sự trùng khớp tốt hơn giữa đường cong ĐTCH tính theo

các tham số ước lượng và các tỷ lệ trả lời đúng quan sát được. Quá trình

tính lặp để điều chỉnh như vậy sẽ tiếp tục cho đến khi sự điều chỉnh

không làm tăng mức trùng khớp một cách đáng kể. Lúc đó thì dừng

chương trình tính lặp và các giá trị a và b đạt được cuối cùng chính là giá

trị tham số của đường cong ĐTCH ước lượng được. Với các giá trị a và b

thu được ta có thể tính đường cong P(θ) theo mô hình đã chọn, đó là

đường cong trùng khớp tốt nhất với số liệu quan sát. Ví dụ trên Hình 5.2

biểu diễn đường cong ĐTCH hai tham số trùng khớp tốt nhất với số liệu

quan sát được ở Hình 5.1.

Hình 5.2.

105

Một câu hỏi quan trọng liên quan đến việc ước lượng tham số, đó là

khi nào thì có thể xem một đường cong ĐTCH cụ thể là trùng khớp với

số liệu trả lời một CH. Sự phù hợp giữa các tỷ số trả lời quan sát với các

số liệu tính toán từ đường cong ĐTCH có thể xem là trùng khớp được

đánh giá bằng chỉ số trùng khớp tốt Chi-bình phương (Chi-square

goodness-of-fit index). Chỉ số đó được xác định như sau:

))Q(θP(θ

)P(θ)p(θmχ

jj

2jj

I

1j

j2

, (5.1)

trong đó: I - số nhóm năng lực, θj - mức năng lực của nhóm thứ j,

mj - số TS có năng lực θj, p(θj) - tỷ số trả lời đúng quan sát được của

nhóm thứ j, P(θj) - xác suất trả lời đúng của nhóm thứ j theo tính toán từ

mô hình ĐTCH sử dụng để ước lượng tham số, Q(θj)= 1- P(θj).

Nếu giá trị của chỉ số thu được lớn hơn một giá trị tiêu chí quy định

nào đó thì đường cong ĐTCH được xác định bởi các giá trị đã ước lượng

của tham số CHi là không trùng khớp với số liệu quan sát. Sự không

trùng khớp này có thể do hai nguyên nhân. Thứ nhất, mô hình đường

cong ĐTCH được chọn không phù hợp. Thứ hai, các giá trị của tỷ số trả

lời đúng CHi rất phân tán nên không thể thu được sự trùng khớp tốt đối

với bất cứ mô hình đường cong ĐTCH nào. Thông thường khi phân tích

một ĐTN có một ít CH không trùng khớp do nguyên nhân thứ hai thì

người ta phải sửa chữa CH trắc nghiệm tương ứng hoặc loại bỏ nó khỏi

ĐTN. Còn nếu có rất nhiều CH cho số liệu tính toán không trùng khớp

với số liệu quan sát thì thường là do chọn mô hình đường cong ĐTCH

không phù hợp, trong trường hợp đó người ta có thể thử nghiệm chọn

một mô hình khác.

5.2. VỀ TÍNH BẤT BIẾN CỦA CÁC THAM SỐ CÂU HỎI

ĐỐI VỚI MẪU THÍ SINH

Một tính chất quan trọng của IRT là các tham số của CH ước lượng

được không phụ thuộc vào mức năng lực của các TS trả lời CH trắc

nghiệm. Từ đó có thể nói các tham số của CH là các giá trị bất biến đối

với mẫu TS trả lời. Có thể giải thích tính chất đó như sau:

106

Trước hết có thể hiểu tính bất biến đó là tính chất của mô hình hồi

quy tuyến tính. Trong mô hình hồi quy tuyến tính, đường cong hồi quy

để tiên đoán một biến Y từ một biến X thu được bằng cách nối các giá trị

trung bình của biến Y đối với mỗi giá trị của biến X. Khi mô hình hồi

quy được thỏa mãn, sẽ thu được cùng một đường hồi quy đối với bất kỳ

dãy giới hạn (một mẫu) nào của biến X. Bất kỳ một chỉ số nào rút ra từ

mô hình đó, chẳng hạn hệ số tương quan, cũng bất biến đối với mọi mẫu

con. Hiển nhiên mẫu con đó phải có tính đồng nhất.

Đối với hàm logistic ta có thể lập luận đơn giản như sau. Chẳng

hạn, một hàm ĐTCH một tham số có dạng:

i

i

θ b

i (θ b )

eP (θ ) .

[1 e ]

Từ đó, đối với CHi có độ khó bi xác định, ta có: P/(1-P) = e (θ-bi). Từ

đó trên đồ thị mối quan hệ f (θ) =ln [P/(1-P)] = θ-bi biểu diễn một đường

thẳng f(θ) cắt trục tung tại - bi. Như vậy nếu mô hình đường cong ĐTCH

đó được thỏa mãn, với mọi mẫu TS có các năng lực θj bất kỳ trong tổng

thể TS, giá trị bi thu được của CH đang xét là duy nhất. Đối với mô hình

một tham số, vì tính đối xứng của các biến -b và θ trong biểu thức, ta

cũng có thể thấy ngay là bằng lý luận tương tự có thể chứng minh tính

duy nhất của θj thu được từ các giá trị bi khác nhau, tức là tính bất biến

của năng lực đối với tập hợp các CH trắc nghiệm khác nhau. Chúng ta sẽ

quay lại tính bất biến của năng lực ở chương 7.

Để minh họa rõ hơn tính bất biến nói trên chúng ta hãy xét các ví

dụ cụ thể sau đây. Giả sử có hai mẫu TS được chọn từ một tổng thể TS

nào đó là đối tượng thiết kế của ĐTN. Nhóm thứ nhất có dải năng lực θ

khoảng từ -3 đến -1, với giá trị trung bình ở -2; nhóm thứ 2 có dải năng

lực θ khoảng từ +1 đến +3, với giá trị trung bình ở +2. Tỷ lệ trả lời

đúng một CH đã cho nào đó được tính từ số liệu quan sát cho mỗi mức

năng lực trong hai mẫu TS đã cho. Giả sử đối với mẫu thử thứ nhất ta

thu được đồ thị phân bố tỷ lệ trả lời đúng theo các nhóm năng lực biểu

diễn ở Hình 5.3.

(5.2)

107

Hình 5.3.

Quá trình ước lượng theo biến cố hợp lý cực đại được sử dụng đã

tìm được đường cong ĐTCH với các tham số a = 1,41, b = -0,76 trùng

khớp tốt với số liệu quan sát. Trên ví dụ ở Hình 5.4 có vẽ phần đường

cong ĐTCH tương ứng với dải năng lực của mẫu TS thứ nhất.

Hình 5.4.

108

Quá trình ước lượng nêu trên cũng được áp dụng đối với mẫu TS thứ

hai. Cũng như ở mẫu thử thứ nhất, ở mẫu thử thứ hai ta thu được đồ thị

phân bố tỷ lệ trả lời đúng theo các nhóm năng lực được biểu diễn ở Hình 5.5.

Việc ước lượng theo thuật toán biến cố hợp lý cực đại cho đường

cong ĐTCH với các tham số a(2) = 1,41, b(2) = -0,76 trùng khớp tốt với

số liệu quan sát. Trên Hình 5.6 có vẽ phần đường cong ĐTCH tương ứng

với dải năng lực của mẫu TS thứ hai.

Hình 5.5.

Hình 5.6.

109

Qua ví dụ tính toán trên đây có thể thấy đối với hai lần ước lượng

chúng ta thu được các tham số a và b như nhau có: a(1) = a(2); b(1) = b(2),

tức là việc ước lượng từ hai mẫu TS khác nhau cho cùng các giá trị tham

số của đường cong ĐTCH. Như vậy, tham số của CH là các bất biến đối

với mẫu TS. Kết quả dường như hơi bất ngờ này có thể dễ dàng giải thích

qua quá trình ước lượng tham số đường cong. Thật vậy, vì mẫu TS thứ

nhất có năng lực trung bình thấp (-2) nên mức năng lực bao trùm trong

mẫu TS thứ nhất sẽ chỉ liên quan phần đuôi bên trái của đường cong. Do

đó, các tỷ số trả lời đúng quan sát được sẽ trải từ các giá trị rất bé đến

trung bình. Khi làm cho đường cong trùng khớp với các số liệu đó, chỉ

phần đuôi thấp của đường cong là có liên quan. Đối với mẫu TS thứ hai,

vì chúng có năng lực trung bình cao (+2) nên các tỷ số trả lời đúng quan

sát trải từ trung bình cho đến rất gần +3. Khi làm cho đường cong trùng

khớp với các số liệu đó, chỉ phần đuôi cao của đường cong là có liên

quan. Như vậy, vì rằng cả hai mẫu TS trả lời cùng một CH nên quá trình

tìm đường cong trùng khớp liên quan đến cùng một đường cong ĐTCH.

Do đó các tham số của CH ứng với hai phép ước lượng dựa vào số liệu

của hai mẫu TS sẽ như nhau. Hình 5.2 biểu diễn kết hợp hai nhóm số liệu

quan sát của hai mẫu TS và một đường cong ĐTCH duy nhất trùng khớp

với hai nhóm số liệu.

Tính bất biến của các tham số CH đối với mẫu TS là một đặc tính

hết sức quan trọng của IRT. Tính bất biến này nói lên rằng các tham số

của CH là thuộc tính riêng của chính CH chứ không phải của mẫu TS trả

lời CH đó. Trong CTT tình trạng hoàn toàn ngược lại. Chúng ta đã biết

độ khó theo CTT được định nghĩa là tỷ lệ trả lời đúng CH trắc nghiệm

của một mẫu TS, do đó giá trị độ khó tính được sẽ phụ thuộc vào tỷ số

TS có năng lực cao trong mẫu thử. Chúng ta sẽ trở lại xem xét vấn đề này

qua ví dụ bằng số ở cuối chương.

Tính bất biến của các tham số đặc trưng cho CH và năng lực TS là

hòn đá tảng của IRT nên chúng tôi muốn trình bày để độc giả nắm vững

hơn nhờ một ví dụ bằng số có tính chất giáo khoa mượn của Hanbleton

[11], từ một kết quả của 90 TS ứng đáp một ĐTN gồm 40 CH. Kết quả

phân tích cho thấy số liệu phù hợp với mô hình ứng đáp CH hai tham số.

110

Bảng 5.1 trình bày các TS ở 9 mức năng lực j, mỗi năng lực có 10 TS,

ứng đáp đối với chỉ 1 CH của ĐTN, cùng với các tổng điểm của mỗi TS

thu được bởi ĐTN 40 CH. Hình 5.7 biểu diễn đường cong ĐTCH P().

Hình 5.7. Quan hệ giữa năng lực TS và xác suất trả lời đúng một CH

Chúng ta hãy xét 2 mẫu, mỗi mẫu gồm 30 TS, thuộc 2 nhóm năng

lực khác nhau: mẫu TS thứ nhất ở các khoảng năng lực có tâm điểm là

các giá trị = -1,716; -1,129 và -0,723; và mẫu TS thứ hai ở các khoảng

năng lực có tâm điểm là các giá trị = 0,523; 0,919 và 1,516. Trước hết,

từ Bảng 5.1 có thể tính các tham số độ khó và độ phân biệt cổ điển (theo

CTT) của CH. Độ khó được tính theo tỷ số trả lời đúng CH của hai mẫu

30 TS thứ nhất và thứ hai. Độ phân biệt được tính dựa vào hệ số tương

quan điểm nhị phân giữa điểm trả lời CH của mỗi nhóm 30 TS với điểm

tổng của các mẫu TS đó đối với toàn bộ ĐTN. Tính toán cho độ khó và

độ phân biệt tương ứng là (0,2; 0,56) đối với mẫu thứ nhất và (0,8; 0,47)

đối với mẫu thứ hai. Rõ ràng giá trị độ khó và độ phân biệt tính được

theo định nghĩa của CTT là khác nhau đối với hai mẫu TS.

111

Bây giờ chúng ta hãy tính các tham số b và a đặc trưng cho độ khó

và độ phân biệt theo IRT ứng với hai mẫu TS có các năng lực đã chọn

trên đây. Tương tự việc suy ra từ biểu thức (5.2) đối với mô hình Rasch

trên đây, từ biểu thức (4.1) đối với mô hình ứng đáp CH hai tham số

chúng ta có thể suy ra:

Pln =aθ-ab=aθ+β

1-P (5.3)

với =-ba. Hệ thức trên là biểu diễn một hàm tuyến tính của với

hai ẩn số a và (a là hệ số góc và là tung độ giao điểm của đường

thẳng với trục tung), các ẩn số đó có thể xác định chính xác nếu biết P và ở

hai điểm xác định.

Trước hết, chúng ta hãy chọn hai giá trị trên toàn bộ dải năng lực,

chẳng hạn ở đầu và cuối Bảng 5.1: =-1,716 và =1,516, và hai giá trị

tương ứng P=0,1 và P=0,9. Thay hai giá trị và P ở đầu bảng vào biểu thức

(5.3), ta có:

0,1ln =a(-1,716)+β

0,9 và 0,9

ln =a(1,516)+β0,1

,

Giải hai phương trình trên dễ dàng thu được: a = 1,36 và b = -0,1.

Bây giờ chúng ta hãy chọn hai giá trị ở mẫu năng lực thấp ở Bảng 5.1,

chẳng hạn: =-1,716 và =-0,723; và hai giá trị tương ứng P=0,1 và

P=0,3. Bằng cách tương tự như đã thực hiện trên đây chúng ta thu được

hai phương trình:

)716,1(9,0

1,0ln a và )723,0(

7,0

3,0ln a ,

Giải hai phương trình trên dễ dàng thu được: a = 1,359 và b = -0,1.

Cuối cùng, chúng ta chọn hai giá trị ở mẫu năng lực cao ở Bảng 5.1,

chẳng hạn: =0,523 và =1,516; và hai giá trị tương ứng P = 0,7 và

P=0,9. Bằng cách tương tự như đã thực hiện trên đây chúng ta thu được

hai phương trình:

112

)523,0(3,0

7,0ln a và )516,1(

1,0

9,0ln a ,

Giải hai phương trình trên dễ dàng thu được: a = 1,359 và b = -0,1.

Có thể giải thích các kết quả trên đây một cách đơn giản: là a và β

là độ dốc và tọa độ giao điểm với trục tung của đường thẳng biểu diễn

quan hệ giữa tỷ số odds (mức được thua) và . Ở bất kỳ dải năng lực nào

cũng có đường thẳng đó, và do đó có a và β (và do đó – b) như nhau.

Ví dụ trên chứng tỏ rằng khác với độ khó và độ phân biệt trong lý

thuyết trắc nghiệm cổ điển, các tham số a, b của mô hình ứng đáp CH là

bất biến đối với các mẫu TS.

Tuy nhiên chúng ta cần lưu ý vài đặc điểm của tính bất biến nói trên.

Trước hết, từ đồ thị ở Hình. 5.7 cũng như từ Bảng 5.1 ta thấy tồn

tại một mối quan hệ chính xác giữa xác suất P trả lời đúng một CH và

năng lực , điều đó có nghĩa là có sự trùng hợp tốt giữa mô hình và dữ

liệu trong cả tổng thể. Nếu không có sự trùng hợp tốt đó, hàm ln[P/(1-P)]

sẽ không chính xác là một hàm tuyến tính của , do đó sẽ không thu được

các giá trị a và b như nhau từ các mẫu TS khác nhau. Nói cách khác, tính

bất biến sẽ được tuân thủ chính xác khi có sự trùng khớp tốt của mô hình

và dữ liệu trong cả tổng thể. Cũng hoàn toàn đúng như vậy đối với sự hồi

quy tuyến tính đã nói trước đây, trong đó các hệ số hồi quy là bất biến chỉ

khi mô hình tuyến tính là trùng khớp với dữ liệu trong cả tổng thể.

Một điều rất cần lưu ý nữa là tính bất biến nói trên là tính chất của

tổng thể. Thật vậy, theo định nghĩa, đường cong ĐTCH là đường hồi quy

của xác suất trả lời CH đối với năng lực:

P= E(U|),

trong đó E là giá trị kỳ vọng, U lấy giá trị 1 nếu trả lời đúng và giá

trị 0 nếu trả lời sai của TS có năng lực . Như vậy P là giá trị trung bình

của mọi ứng đáp CH trong một mẫu con TS có năng lực xác định.

Trong các mẫu con TS năng lực thấp và năng lực cao nêu trên đây xác

suất trả lời đúng quan sát được ở mỗi giá trị chính xác bằng E(U|). Do

đó quan hệ tuyến tính giữa ln[P/(1-P)] và sẽ duy trì, nói cách khác tính

113

bất biến sẽ thể hiện. Tuy nhiên, trong một mẫu con TS khác rất khó có

khả năng giá trị trung bình của ứng đáp CH (tức xác suất trả lời đúng) sẽ

bằng E(U|) một cách chính xác. Thậm chí nếu ở một năng lực nào đó

mà P quan sát được đúng bằng E(U|) thì điều đó rất khó xảy ra ở mọi

năng lực khác. Do đó, trong các mẫu TS khác nhau rất khó tồn tại một

mối quan hệ tuyến tính chính xác giữa ln[P/(1-P)] và . Vì vậy chúng ta

không thể kỳ vọng quan sát được tính bất biến nghiêm chỉnh trong các

mẫu TS, thậm chí khi mô hình ứng đáp CH trùng khớp chính xác với số

liệu trong tổng thể mà từ đó lấy ra các mẫu. Vấn đề vi phạm tính bất biến

càng nghiêm trọng nếu có những sai số lớn khi ước lượng các tham số đặc

trưng cho TS và CH.

Việc xác định xem tính bất biến có được tuân thủ hay không là rất

quan trọng, vì mọi ứng dụng của IRT được dựa trên tính chất đó. Mặc dù

bất biến là một tính chất trong cả tổng thể và không bao giờ quan sát

được một cách tuyệt đối nghiêm chỉnh, nhưng chúng ta có thể đánh giá

"mức độ" tính chất đó được tuân thủ khi chúng ta sử dụng các mẫu số

liệu trắc nghiệm. Chẳng hạn, nếu hai mẫu TS có năng lực khác nhau

được lấy từ một tổng thể và các tham số được ước lượng trong mỗi mẫu,

thì sự phù hợp giữa hai bộ tham số ước lượng từ mỗi mẫu có thể xem

như một dấu hiệu của mức độ tuân thủ tính bất biến. Mức độ phù hợp có

thể được đánh giá bằng cách xét sự tương quan giữa hai bộ giá trị ước

lượng của mỗi tham số hoặc bằng cách nghiên cứu đồ thị phân tán. Minh

họa trên Hình 5.8 được tính toán dựa vào số liệu do Viện Khoa học Giáo

dục Việt Nam thực hiện vào năm 2007 theo một Dự án của Bộ Giáo dục

và Đào tạo [34]. Trên Hình.5.8, các giá trị tham số độ khó b của một

ĐTN thử nghiệm VIỆT1 gồm 40 CH trắc nghiệm nhị phân dùng trong

quá trình đánh giá môn tiếng Việt. Số liệu thử nghiệm thu được từ bài

làm của 535 TS lớp 5 ở 4 tỉnh/thành phố Hải Phòng, Hà Giang, Bình

Định, Hậu Giang. Số 535 TS được chia thành 2 mẫu ngẫu nhiên chọn

theo số báo danh chẵn và lẻ: mẫu 1 gồm 267 TS, mẫu 2 gồm 268 TS.

Tính toán được thực hiện nhờ phần mềm VITESTA [19]. Các điểm có

hoành độ và tung độ là độ khó b ứng với hai mẫu TS phân bố hai bên

đường thẳng phân giác, nên có thể kết luận rằng tính bất biến của các

tham số được tuân thủ tuy có sai số. Nếu trên đồ thị có mức độ phân tán

114

lớn thì điều đó chứng tỏ tính bất biến không được tuân thủ: có thể do

không có sự phù hợp giữa mô hình và số liệu, hoặc do có sai lệch lớn trong

ước lượng tham số.

Qua các phân tích trên đây cũng có thể nói tính bất biến và sự

trùng khớp của mô hình ứng đáp câu hỏi với số liệu là hai khái niệm

tương đương. Chúng ta sẽ trở lại bàn về việc đánh giá sự trùng khớp của mô

hình với số liệu trong chương 9.

Hình 5.8. Giá trị độ khó câu hỏi tính từ hai mẫu TS

trong một tổng thể

Ở ví dụ trên đây, chúng ta đã thấy rằng các tham số của CH là bất

biến đối với các mẫu TS khác nhau. Mặt khác, trong phương trình (5.3)

βaθabaθP1

Pln

ta có thể xem a, b là các biến, là tham số biểu thị độ dốc của

đường thẳng hồi quy theo biến a. Khi a thay đổi (xét các CH với độ phân

biệt khác nhau) thì độ dốc của đường thẳng hồi quy vẫn giữ nguyên độ

lớn, tức là dù với các CH nào thì năng lực cũng là bất biến.

Tính bất biến đã được minh họa đối với mô hình ứng đáp CH 2

tham số. Có thể lý luận tương tự đối với mô hình 1 và 3 tham số.

115

Bảng 5.1. Ứng đáp của 90 TS đối với một CH trắc nghiệm

và hàm ĐTCH P()

j (năng

lực chung

của các

TS trong

nhóm)

P()

Ứng đáp

điểm tổng

TS thứ i trong nhóm

i=1 2 3 4 5 6 7 8 9 10

-1,716 0,1

Trả lời CH 0 0 0 0 0 0 0 0 1 0

Điểm tổng 8 12 6 12 8 8 8 11 13 4

-1,129 0,2

Trả lời CH 0 1 0 0 0 0 1 0 0 0

Điểm tổng 10 14 9 8 10 11 13 12 7 7

-0,723 0,3

Trả lời CH 0 1 0 0 1 1 0 0 0 0

Điểm tổng 11 15 14 13 15 15 13 11 15 13

-0,398 0,4

Trả lời CH 0 0 1 0 1 0 1 0 0 1

Điểm tổng 13 12 18 12 17 10 16 15 12 19

-0,100 0,5

Trả lời CH 0 1 1 1 1 0 0 0 1 0

Điểm tổng 17 21 25 25 21 19 18 19 20 15

0,198 0,6

Trả lời CH 1 0 1 0 1 0 1 1 1 0

Điểm tổng 21 19 26 22 25 22 24 24 28 19

0,523 0,7

Trả lời CH 1 1 1 0 0 1 1 0 1 1

Điểm tổng 27 26 25 24 24 30 28 24 29 29

0,919 0,8

Trả lời CH 1 0 1 1 1 0 1 1 1 1

Điểm tổng 33 28 29 30 29 28 33 32 32 33

1,516 0,9

Trả lời CH 0 1 1 1 1 1 1 1 1 1

Điểm tổng 34 35 34 38 37 37 36 35 37 39

Tính bất biến của các tham số của CH và năng lực của TS là hết

sức quan trọng, đó là nền tảng của IRT, nhờ đó có thể áp dụng IRT vào

các công đoạn quan trọng sẽ xét đến sau này: so bằng (equating),

xây dựng NHCH (item banking), nghiên cứu độ lệch của CH (item bias)

và trắc nghiệm thích ứng (adaptive testing). Tuy tính bất biến của tham

116

số CH đối với các mẫu TS khác nhau là tính chất quan trọng của IRT,

nhưng đó là nguyên tắc có tính lý thuyết. Trong thực tế các tham số CH

được ước lượng nhờ thuật toán biến cố hợp lý cực đại đối với các nhóm

TS trả lời cùng các CH thường không hoàn toàn như nhau. Các trị số tính

được thường phụ thuộc vào kích thước của mẫu, cấu trúc của số liệu và

chỉ số trùng khớp tốt đối với đường cong. Nhưng dù sao các giá trị thu

được cũng "nằm trong cùng một rổ". Như vậy, trong một tình huống trắc

nghiệm thực tế, nguyên lý bất biến đối với mẫu được tuân theo, nhưng có

thể có một số biểu hiện sai khác trong việc ước lượng tham số đối với

cùng một số CH. Một điều quan trọng nữa là tính bất biến chỉ tồn tại khi

các CH được sử dụng để đo cùng một năng lực tiềm ẩn ở các mẫu TS. Và

các tham số CH cũng sẽ không duy trì tính bất biến đối với mẫu thử khi

có ảnh hưởng của các năng lực tiềm ẩn khác hoặc khi các mẫu TS không

được chọn thích hợp từ một tổng thể.

CÂU HỎI TỰ KIỂM TRA

1. Cách phân khoảng năng lực và xác định xác suất trả lời đúng

trung bình đối với một CH trong khoảng đó.

2. Giải thích tính bất biến của tham số CH ước lượng được từ các

mẫu TS khác nhau:

- Qua việc ước lượng từ các mẫu TS có năng lực khác nhau;

- Qua phương trình hồi quy tuyến tính thu được từ biến đổi hàm

ĐTCH của mô hình Rasch.

BÀI TẬP

Tính độ khó và độ phân biệt theo CTT của CH từ số liệu được mô

tả ở Bảng 5.1 khi xét hai nhóm TS, nhóm bao gồm 2 mức năng lực đầu

và nhóm bao gồm 2 mức năng lực cuối của bảng. Kết luận về sự độc lập

của các tham số đó của CH đối với các nhóm TS. So sánh với các tham

số độ khó và độ phân biệt tính theo IRT.

117

Chương 6

ĐIỂM THỰC - ĐƯỜNG CONG ĐẶC TRƯNG CỦA ĐỀ TRẮC NGHIỆM

Nếu mỗi CH trắc nghiệm ứng với một đường cong ĐTCH thì một

ĐTN, tập hợp của nhiều CH trắc nghiệm, cũng ứng với một đường cong

đặc trưng của ĐTN (còn được gọi là đường cong điểm thực). Chương này

trình bày cách tính các đường cong điểm thực của ĐTN; nêu các tính chất

của nó, so sánh điểm thực trong CTT và IRT; và nêu vài ứng dụng thực tế

của đường cong điểm thực. Cuối chương có giới thiệu một số phép chuyển

đổi phi tuyến và tuyến tính liên quan đến lý thuyết trắc nghiệm.

6.1. ĐIỂM THỰC VÀ ĐƯỜNG CONG ĐẶC TRƯNG

CỦA ĐỀ TRẮC NGHIỆM

Trắc nghiệm là một phép đo: dùng thước đo là ĐTN để đo một

năng lực nào đó của TS. Trong vật lý, để xác định chính xác giá trị được

đo và sai số của phép đo người ta thường thực hiện phép đo đó nhiều lần.

Trong trắc nghiệm, thực tế không làm được như vậy vì không thể cho TS

làm một ĐTN nào đó nhiều lần: những lần sau năng lực của TS đã biến

đổi do đã làm quen với ĐTN ở những lần trước. Tuy nhiên, về mặt hình

thức, chúng ta vẫn có thể quy ước là năng lực của TS không thay đổi sau

những lần đo để xác định khái niệm về giá trị được đo và sai số phép đo.

6.1.1. Quan niệm về điểm thực trong CTT

Theo quy ước đó chúng ta hãy định nghĩa về điểm trung bình của

một TS qua hàng loạt phép đo bằng một ĐTN. Điểm quan sát X của một

ĐTN qua hàng loạt phép đo được xem là một biến ngẫu nhiên với một

phân bố tần suất nào đó thường là không biết. Giá trị trung bình (kỳ vọng

118

toán học) của phân bố đó được gọi là điểm thực của TS. Gọi ε là sai số

của phép đo, chúng ta có thể biểu diễn quan hệ giữa điểm thực , các

điểm quan sát X và sai số ε như sau:

ε = X - . (6.1)

Điểm thực được định nghĩa trên đây theo CTT là một sự trừu tượng

toán học, không có quy trình nào để xác định. Cũng do đó sai số của

phép đo ε là một đại lượng có tính chất trung bình của phép đo nói chung

đối với toàn bộ dải năng lực của TS.

6.1.2. Xác định điểm thực theo IRT

Chúng ta hãy xét khái niệm điểm thực trong IRT. Ở các phần trước

đây chúng ta đã xét đặc trưng của từng CH trắc nghiệm và tương tác của

từng CH với từng TS, nhưng trong thực tế các CH trắc nghiệm thường

được tập hợp thành một ĐTN. Dưới đây chúng ta sẽ xét đến một ĐTN

bao gồm nhiều CH trắc nghiệm.

Giả sử CH trắc nghiệm chúng ta xét là CH nhị phân: trả lời đúng

được 1 điểm, trả lời sai được 0 điểm. Điểm thô của một TS sẽ thu được

bằng cách cộng các điểm của mọi CH trong ĐTN. Như vậy, điểm thô của

ĐTN đối với một TS thường là một số nguyên nằm giữa 0 và n, trong đó

n là số CH trong ĐTN. Giả sử một TS làm lại ĐTN (và khi làm lại người

đó không nhớ những gì đã làm những lần trước), người đó sẽ được một

điểm thô khác. Giả thiết là TS làm ĐTN nhiều lần và nhận được nhiều

điểm thô khác nhau, các điểm này phân bố quanh một giá trị trung bình

nào đó. Theo lý thuyết về đo lường, giá trị trung bình đó gần với một giá

trị được gọi là điểm thực, và định nghĩa của nó phụ thuộc vào một lý

thuyết đo lường xác định.

Chúng ta hãy tìm biểu thức của điểm thực. Có thể biểu diễn điểm

thô X tính theo số câu trả lời đúng bằng biểu thức:

n

j

j=1

X= U , (6.2)

trong đó U là vectơ ứng đáp, được biểu diễn như sau:

119

U = (U1, U2,..., Uj,...,Un), (6.3)

Trong đó Uj bằng 1 nếu trả lời đúng và bằng 0 nếu trả lời sai CH

thứ i. NÕu biÓu diÔn ®iÓm thùc lµ th× có thể tính điểm thực theo biểu

thức kỳ vọng toán học của X như sau:

)E(U)UE(E(X)τ

n

1j

j

n

1j

j

,

trong đó E là toán tử kỳ vọng toán học. V× tính chất tuyến tính của

phép tính kỳ vọng toán học nên trên đây chúng ta đã viết:

)E(U)UE(

n

1j

j

n

1j

j

.

Nếu một biến ngẫu nhiên Y lấy các giá trị y1 và y2 với các xác suất

tương ứng là P1 và P2 thì:

E(Y) = y1 P1 + y2 P2

Vì Uj có giá trị bằng 1 với xác suất Pj(θ) và giá trị bằng 0 với x¸c

suÊt Qj (θ) = [1- Pj(θ)] nªn:

))) (θP(θ0.Q(θ1.P)E(U jjjj .

Cuèi cïng ta có:

n

j

j 1

τ P (θ).

(6.4)

Tức là: điểm thực của một TS có năng lực là tổng của các xác suất

trả lời đúng của mọi CH của ĐTN tại giá trị hư vậy, đối với mọi giá

trị nếu chúng ta tiến hành cộng tất cả mọi đường cong ĐTCH trong ĐTN

chúng ta sẽ thu được đường cong đặc trưng của ĐTN, hoặc cũng gọi là

đường cong điểm thực. Đường cong đặc trưng của ĐTN là quan hệ hàm số

giữa điểm thực và thang năng lực: cho trước một mức năng lực bất kỳ có

thể tìm điểm thực tương ứng qua đường cong đặc trưng ĐTN.

120

Chúng ta hãy lấy một ví dụ minh họa có tính chất giáo khoa. Giả sử

có một ĐTN bao gồm 5 CH với các tham số cho ở Bảng 6.1.

Bảng 6.1. Các tham số của các câu hỏi trắc nghiệm

Tham số

CH số aj bj cj

1 2 -1 0,15

2 1,5 -0,5 0

3 1 0 0

4 1,5 0,5 0,1

5 2,5 1 0,2

Đồ thị 5 đường cong ĐTCH tương ứng được biểu diễn trên Hình 6.1.

Hình 6.1. 5 đường cong ĐTCH theo mô hình 3 tham số

Đường cong đặc trưng của ĐTN bao gồm 5 CH nói trên thu được

bằng cách cộng 5 đường cong ĐTCH biểu diễn trên Hình 6.2, trong đó 5

đường cong ĐTCH được vẽ lại theo một tỷ lệ xích trục tung nhỏ hơn.

121

Vì là chồng chất của các đường cong ĐTCH nên đường cong đặc

trưng ĐTN cũng có dạng một hàm đồng biến. Tiệm cận phải của đường

cong khi tiến đến + bằng điểm thực tối đa n, tức là bằng tổng số CH

trong ĐTN. Tung độ tiệm cận trái của đường cong khi tiến đến - bằng

0 đối với các mô hình 1 và 2 tham số, và bằng giá trị tổng cộng các tham

số đoán mò ci của toàn bộ n CH trong ĐTN đối với mô hình 3 tham số.

Hình 6.2. Đường cong đặc trưng của ĐTN gồm 5 CH và 5 đường cong ĐTCH tương ứng

Có thể mô tả các đặc điểm của đường cong đặc trưng ĐTN tương

tự như mô tả các đường cong ĐTCH. Đường cong đặc trưng ĐTN không

có biểu thức giải tích đơn giản nên không có các tham số đặc trưng. Độ

nghiêng của đường cong đặc trưng ĐTN cho biết điểm thực phụ thuộc

như thế nào vào năng lực, tức là liên quan đến độ phân biệt của ĐTN.

Trong một số trường hợp đường cong đặc trưng ĐTN có dạng gần đường

thẳng trong một khoảng năng lực nào đó, nhưng nói chung nó có dạng

một đường cong đồng biến. Mức năng lực ứng với trung điểm của thang

điểm thực (ứng với n/2) xác định vị trí của ĐTN trên thang năng lực.

Hoành độ của điểm đó xác định độ khó của ĐTN. Hai yếu tố độ dốc và

mức năng lực ở trung điểm thang điểm thực mô tả khá rõ đặc tính của

một ĐTN.

Giữa điểm thực và điểm năng lực có một quan hệ đơn trị, nói

cách khác điểm thực τ có thể xem là một chuyển đổi phi tuyến của . Vì

Pj () có giá trị giữa 0 và 1, nhận giá trị giữa 0 và n, do đó được biểu

122

diễn trên cùng thang đo với điểm thô nhưng có cả các giá trị không

nguyên. Để biểu diễn điểm thực dưới dạng thập phân, người ta chia

cho tổng số CH của ĐTN:

)(θPn

1

n

τπ

n

1j

j

.

Khi ở trong khoảng -∞ < < +∞ thì nằm giữa 0 và 1 (hoặc

0% và 100%). Đối với mô hình ứng đáp CH 3 tham số, giới hạn dưới của

là icn

1.

Hình 6.2 biểu diễn đường cong điểm thực qua một ví dụ có tính giáo

khoa về một ĐTN gồm 5 CH tính theo mô hình 3 tham số. Có thể xem

minh họa trên Hình 8.3 chương 8 một đường cong điểm thực của một

ĐTN thực tế - đó là ĐTN VIỆT1 đã được mô tả ở mục 5.2 chương 5.

Vì đường cong đặc trưng ĐTN là tổng của các đường cong ĐTCH

trong ĐTN nên khi mọi tham số của CH là bất biến thì các đường cong

ĐTCH sẽ bất biến, do đó các đường cong đặc trưng ĐTN cũng là bất biến,

tức là hình dạng của nó (được tính theo biểu thức 6.4) sẽ không phụ thuộc

vào phân bố tần số điểm năng lực của TS trên thang năng lực. Quan hệ

giữa điểm thô X và điểm thực τ có thể xem là quan hệ giữa quan sát trên

một mẫu với tham số của tổng thể. Ở đây cũng cần nhắc lại rằng tính bất

biến của các tham số của CH trắc nghiệm chỉ được tuân thủ khi có sự trùng

khớp cần thiết giữa mô hình IRT và số liệu thực tế, do đó tính bất biến của

dạng đường cong đặc trưng ĐTN đối với phân bố năng lực của các TS làm

trắc nghiệm cũng chỉ được tuân thủ trong điều kiện đó.

6.1.3. So sánh điểm thô, điểm thực và điểm năng lực

- Từ biểu thức điểm thô X tính theo số câu trả lời đúng đã đưa ra

trên đây:

n

j

j 1

X U

(6.5)

123

Chúng ta có thể sử dụng một số phép biến đổi để sử dụng chúng

trong việc đánh giá TS.

Phép chuyển đổi tuyến tính đơn giản nhất là chia X cho tổng số n các

CH trong ĐTN: chúng ta sẽ được điểm tỷ lệ trả lời đúng. Điểm tỷ lệ trả lời

đúng cũng có thể được sử dụng cả khi chia ĐTN ra các ĐTN con có số CH

khác nhau để đo các đối tượng khác nhau theo các mục đích khác nhau,

cách đó thường được sử dụng cho các trắc nghiệm theo tiêu chí.

Đối với trắc nghiệm theo chuẩn người ta có thể sử dụng các chuyển

đổi tuyến tính khác nhau dựa vào giá trị trung bình và độ lệch tiêu chuẩn

để thu được các điểm tiêu chuẩn như đã được mô tả ở chương 1. Ngoài

ra, khi cần so sánh các TS với nhau, điểm X có thể được chuyển đổi phi

tuyến để thu được các điểm thập phân, bách phân…

Các phép chuyển đổi nêu trên tuy làm cho việc sử dụng điểm thô

thuận lợi hơn, nhưng dù biến đổi thế nào, nhược điểm lớn của điểm thô X

vẫn tồn tại: điểm X không độc lập với số CH mà TS trả lời, và các điểm

chuyển đổi cũng không độc lập đối với nhóm TS liên quan. Ngược lại,

điểm năng lực θ có tính độc lập đó. Như đã nêu ở chương 5 và sẽ làm rõ

hơn ở chương 8, điểm năng lực của một TS độc lập với các ĐTN cụ thể

khác nhau mà TS làm và với mẫu bao gồm TS đang xét. Tính bất biến đó

là sự khác biệt cơ bản giữa điểm năng lực và điểm thô X. Vì có thể so

sánh các TS khác nhau làm các ĐTN khác nhau khi dùng điểm năng lực

nên thang điểm có thể được xem như là một thang điểm tuyệt đối liên

quan đến năng lực tiềm ẩn mà chúng ta muốn đo.

Bản chất của năng lực tiềm ẩn đó là gì? Rõ ràng đó là thuộc tính

mô tả điều mà các ĐTN đã đo. Một năng lực tiềm ẩn có thể được xác

định rất rộng, như là năng khiếu hoặc thành quả học tập, cũng có thể

được xác định rất hẹp, như khả năng thực hiện một phép tính cộng đơn

giản, hoặc nói lên đặc điểm của một cá nhân (ví dụ sự tự tin, động cơ).

Không nên hiểu năng lực tiềm ẩn là một cái gì đó bẩm sinh hoặc bất biến.

Thực ra thuật ngữ năng lực tiềm ẩn (ability hoặc trait) có thể được hiểu

không đúng là nó phản ánh một đặc trưng cố định của TS, nên một số

nhà nghiên cứu cho rằng sử dụng thuật ngữ mức độ thành thạo

(proficiency level) trong nhiều trường hợp sẽ phù hợp hơn.

124

- Ta hãy xem xét bản chất của thang điểm thô và của thang điểm

năng lực θ. Thang điểm thô X không phải là thang tỷ lệ, cũng không phải

là thang khoảng cách, mà đúng hơn hết có thể xem nó là một thang thứ

tự. Thang xác định biến năng lực cũng vậy. Tuy nhiên trong một số

trường hợp mà ta sẽ minh họa dưới đây (xem 6.2.2) có thể biến đổi thang

và giải thích như một thang tỷ lệ trong một ý nghĩa giới hạn.

- Một trong những ứng dụng quan trọng của đường cong đặc trưng

ĐTN là cung cấp phương tiện để chuyển điểm năng lực thành điểm thực.

Thang điểm năng lực có các giá trị âm dương trên trục số thực chỉ dùng

trong nghiên cứu, khó giải thích cho nhiều người hiểu. Do đó việc chuyển

đổi từ biến năng lực sang điểm thực có các tác dụng quan trọng sau: 1)

loại bỏ các giá trị âm; 2) tạo nên thang đo với các điểm từ 0 đến n (hoặc theo

tỷ lệ thập phân, bách phân…), dễ giải thích; 3) có thể xác định điểm cắt đối

với điểm thực , từ đó suy ngược lại điểm cắt trên thang ;

Một điều khá lý thú là, khi đó biết năng lực của một TS, nhờ

đường cong điểm thực của một ĐTN cụ thể có thể xác định được điểm

thực của TS đó thu được từ ĐTN đó cho mà không phải làm ĐTN. Từ đó

có thể tiên đoán điểm thực của thí sinh hoặc tình trạng đạt hay không đạt

đối với một ĐTN mới.

Cần nhấn mạnh thêm một ưu điểm của IRT là nó cho phép xác định

các sai số tiêu chuẩn của các giá trị ước lượng năng lực theo (6.1) của

mỗi TS, chứ không phải là một ước lượng sai số duy nhất cho mọi TS

như trong CTT, điều này sẽ được nói rõ hơn ở 7.2.2 chương 7.

6.2. MỘT SỐ PHÉP CHUYỂN ĐỔI

Trên đây chúng ta đã xét một phép chuyển đổi quan trọng từ thang

điểm thô sang thang điểm thực và thu được đường cong đặc trưng của

ĐTN. Dưới đây sẽ xét thêm một số phép chuyển đổi khác.

6.2.1. Vài phép chuyển đổi tuyến tính

1) Phép chuyển đổi tuyến tính đối với , b, a và tính bất định của

xác suất trả lời đúng

125

Ở chương 4 chúng ta đã thu được các biểu thức xác suất trả lời

đúng CH theo mô hình 2 và 3 tham số (4.2) và (4.3). Khi thực hiện phép

thay thế bởi * = + , b bởi b * = b + và a bởi a*= a/ trong các

biểu thức nói trên thì ta vẫn thu được:

P (*) = P (),

tức là có thể thực hiện phép chuyển đổi tuyến tính đối với , b và a

mà không làm thay đổi xác suất trả lời đúng CH. Đó là "tính bất định"

mà chúng ta sẽ thảo luận sau này. Điều đó có nghĩa là thang có thể

được chuyển đổi tuyến tính khi các tham số CH cũng được chuyển đổi

một cách tương ứng.

2) Phép chuyển đổi tuyến tính của Woodcook

Lưu ý rằng được xác định trong khoảng (-∞, ∞). Woodcook

(1978) khi tạo thang đo cho bộ công cụ trắc nghiệm tâm lý - giáo dục đã

sử dụng mô hình một tham số và thang đo:

w = 20.log9 (e) + 500 = 9,1. + 500,

(vì log9 e = 0,455). Vậy thang đo năng lực Woodcook w là một

thang tuyến tính.

Đối với độ khó cũng thực hiện biến đổi tương tự:

wb= 9,1.b + 500.

Thang w có tính chất đặc biệt là các độ chênh (w - wb) = 20; 10;

0; 10; 20 ứng với các xác suất trả lời đúng 0,90; 0,75; 0,5; 0,25; 0,1. Biến

đổi của thang trên đây là biến đổi tuyến tính.

6.2.2. Vài phép chuyển đổi phi tuyến

1) Phép chuyển đổi phi tuyến eD

Xét phép chuyển đổi biến năng lực * = eD và chuyển đổi tương

ứng của độ khó b* = eDb.

Đối với mô hình 1 tham số:

126

b)(θ

b)(θ

e1

eP(θ(

.

Qua chuyển đổi ấy xác suất trả lời đúng bằng:

**

*

DθDb

Dθ*

θb

θ

ee

e)P(θ

,

và xác suất trả lời sai bằng:

** *

* *

bQ(θ ) 1 P(θ ) .

b θ

Chúng ta hãy tính biểu thức tỷ số mức được thua O (odds):

Nếu thực hiện biến đổi này và chọn D=1,7 thì có thể chuyển đổi

cho hàm logistic gần trùng với hàm tích lũy vòm chuẩn (xem chương 3).

Nếu hai TS có năng lực *

1 và *

2 thì tỷ số mức được thua dẫn đến

thành công của họ là *1

*2

O=

O *

2

*

1

; chẳng hạn, nếu TS1 có năng lực gấp đôi

TS2 ( *

1 =2 *

2 ) thì tỷ số mức được thua trả lời đúng một CH có độ khó b*

xác định cũng gấp đôi. Từ góc độ đó, có thể xem thang là một thang tỷ

lệ (xem chương 1). Đối với CH cũng có tính chất tương tự như vậy: một

TS trả lời 2 CH có độ khó b1* và b2

* thì tỷ số mức được thua trả lời đúng

2 CH của TS là

* *1 2

* *2 1

O b=

O b; và nếu CH1 dễ hơn CH2 hai lần ( *

2b = 2 *

1b ) thì

tỷ số mức được thua trả lời đúng CH1 cũng gấp đôi CH2. Lưu ý rằng tính

chất của thang tỷ lệ nói trên của thang đo * và b*chỉ đúng với mô hình

một tham số. Đây là một trong những ưu việt của mô hình này mà chúng

ta sẽ phân tích sau này.

2) Phép chuyển đổi “log-odd”

Một chuyển đổi phi tuyến khác có ý nghĩa đối với mô hình một

tham số là chuyển đổi “log-odd”. Đối với hai TS trả lời cùng một CH thì:

*

*

*

*

) (

) (

b Q

P

O* =

127

21

2

1

*

2

*

1

2

1

ee

e

O

O

O

O

21

2

1ln O

O.

Khi năng lực khác biệt nhau 1 đơn vị thì:

1ln2

1 O

O và e

O

O

2

1

Cũng vậy nếu một TS trả lời hai CH có độ khó b1 và b2 thì:

12

2

1ln bbO

O .

Khi độ khó khác nhau 1 đơn vị thì chúng ta cũng có:

eO

O

2

1 .

Các đơn vị trên thang log-odds được gọi là logits (xem chương 3).

Các đơn vị logit có thể nhận được trực tiếp từ mô hình một tham số

như sau:

) (

) (

1 ) (

b

b

e

e P

và )(1

1)(

beQ

Từ đó:

) ( ) (

) ( b e Q

P

và do đó ln b

Q

P

)(

)(.

Đây chính là cách lập luận để thu được ICF của mô hình một tham

số ở chương 3.

Khi mô hình phù hợp với số liệu thực tế chúng ta sẽ thu được các

tham số mong muốn. Lúc đó ước lượng về năng lực của TS sẽ không phụ

128

thuộc ĐTN, và các chỉ số của CH sẽ không phụ thuộc vào mẫu thử

nghiệm. Nói cách khác: trong phạm vi sai số đo lường các giá trị ước

lượng về năng lực TS thu được từ nhiều ĐTN khác nhau sẽ như nhau,

cũng vậy, các giá trị ước lượng về tham số CH thu được từ các mẫu thử

nghiệm khác nhau cũng sẽ như nhau. Như vậy, theo IRT, các tham số của

CH và năng lực TS phải là bất biến (invariant).

Tính bất biến đó thu được bằng cách kết hợp thông tin về CH trong

quá trình ước lượng năng lực TS và bằng cách kết hợp thông tin về năng

lực TS trong quá trình ước lượng tham số của CH. Hình 5.1 có thể minh

hoạ đặc điểm đó: các TS có cùng năng lực, dù ở nhóm đánh giá 1 hay 2,

cũng có xác suất trả lời đúng CH như nhau, và cũng vậy, vì xác suất để

một TS với năng lực đã biết trả lời đúng CH được xác định bởi các tham

số của CH, nên các tham số của CH cũng phải như nhau trong 2 nhóm.

CÂU HỎI TỰ KIỂM TRA

1. Nêu quan niệm về điểm thực của một TS trong CTT.

2. Chứng minh biểu thức xác định điểm thực của một TS theo IRT.

3. Nêu các tính chất cơ bản của đường cong điểm thực và vài ứng

dụng của đường cong điểm thực.

4. Trình bày phép chuyển đổi “log-odd”.

BÀI TẬP

Giả sử năng lực θ ước lượng được của một nhóm TS nhờ một ĐTN

phân bố trong khoảng (-4, 4). Để chuyển thành thang điểm bách phân:

- Tìm một biến đổi tuyến tính thích hợp.

- Tìm một biến đổi phi tuyến thích hợp.

129

Chương 7

HÀM THÔNG TIN CỦA CÂU HỎI VÀ CỦA ĐỀ TRẮC NGHIỆM

Chương này dành để trình bày một công cụ quan trọng xác định

thông tin mà CH trắc nghiệm hoặc ĐTN cung cấp về năng lực của TS, đó

là hàm thông tin của CH trắc nghiệm và của ĐTN. Liên quan chặt chẽ

với hàm thông tin và có dáng điệu ngược với hàm thông tin là sai số tiêu

chuẩn của phép đo dùng ĐTN. Cuối chương cũng giới thiệu một công cụ

để so sánh hai ĐTN dựa trên các hàm thông tin là hàm hiệu suất tỷ đối.

7.1. HÀM THÔNG TIN CỦA CÂU HỎI TRẮC NGHIỆM

Khi nói chúng ta có thông tin về một sự vật nào đó thì có nghĩa là

chúng ta biết một điều gì đó về sự vật ấy. Trong thống kê và tâm trắc

học, thuật ngữ thông tin cũng có ý nghĩa tương tự, nhưng mang tính kỹ

thuật cao hơn. Chẳng hạn, thông tin được định nghĩa thường có quan hệ với

độ chính xác của việc ước lượng tham số.

Với quan niệm đó, từ các cách suy luận khác nhau, nhiều nhà nghiên

cứu đã đề xuất các cách tính hàm thông tin khác nhau [5]. Vì khuôn khổ

cuốn sách này chúng tôi sẽ không nhắc lại các lập luận đó, mà chỉ đưa ra

biểu thức hàm thông tin của một CH trắc nghiệm mà A. Birnbaum [4] đã

đề xuất và hiện đang được sử dụng rộng rãi nhất. Biểu thức hàm thông tin

của CH (item information function) được biểu diễn như sau:

2i

ii i

[P' (θ)]I (θ)= ,

P (θ)Q (θ)

trong đó Ii() là thông tin cung cấp bởi CH thứ i ở mức năng lực ,

các hàm Pi() và Qi() đã được định nghĩa ở các chương trước, Pi'() là

đạo hàm của Pi() theo .

(7.1)

130

Từ biểu thức (7.1) có thể suy ra các biểu thức hàm thông tin tương

ứng với các mô hình ứng đáp CH khác nhau. Đối với mô hình 3 tham số,

ta có:

2

2 i i ii i

i i

Q (θ) P (θ)-cI (θ)=a .

P (θ) 1-c

Đối với mô hình 2 tham số, khi đặt ci=0, ta có:

2

i i i iI (θ)=a P (θ)Q (θ).

Đối với mô hình Rasch 1 tham số, đặt ai=1, ta có:

i i iI (θ)=P (θ)Q (θ).

Trong các biểu thức hàm thông tin tương ứng với cả 3 mô hình đều

có chứa số hạng Pi()Qi(), tức là số hạng xuất hiện ở các biểu thức (8.8)

và (8.9) ở chương 8 trong quá trình ước lượng tham số của CH và năng

lực của TS.

Khi thay vào (7.2) biểu thức tường minh (4.4) của Pi() ứng với mô

hình ứng đáp CH logistic 3 tham số, ta được:

i i i i

2i i

i 1,7a (θ-b ) -1,7a (θ-b ) 2i

2,89a (1-c )I (θ)= ,

[c +e ][1+e ]

ở đây hệ số D=1,7 được nhân với tham số a để đưa số liệu tính nhờ

hàm dạng logistic về dạng hàm vòm chuẩn (xem mục 4.2.1 chương 4).

Từ biểu thức (7.5) có thể tính giá trị max ứng với vị trí cực đại của

hàm Ii ():

max i i

i

1θ =b + ln[0.5(1+ 1+8c )].

Da

Từ các biểu thức (7.5) và (7.6) có thể xác định được quy luật về

dáng điệu của hàm thông tin CH liên quan đến các tham số của CH như

sau. Thông tin càng cao khi: 1) giá trị b càng gần bằng ; 2) giá trị a càng

lớn; 3) giá trị c càng gần bằng 0. Nếu ci = 0 thì max= bi, còn khi ci>0 thì

(7.2)

(7.3)

(7.4)

(7.5)

(7.6)

131

thông tin mà CH cung cấp sẽ cực đại ở một mức năng lực lớn hơn độ

khó bi của CH một ít.

Để minh họa, chúng ta hãy tính các hàm thông tin của các CH có

các tham số đã được nêu ở Bảng 6.1 tại chương 6.

Bảng 6.1. Các tham số của 5 CH trắc nghiệm

Tham số

CH số aj bj cj

1 2 -1 0,15

2 1,5 -0,5 0

3 1 0 0

4 1,5 0,5 0,1

5 2,5 1 0,2

Kết quả tính toán cho phép vẽ đồ thị trên Hình 7.1.

Hình 7.1. Các đồ thị hàm thông tin của 5 CH trắc nghiệm

Các đồ thị của các hàm thông tin khẳng định các tính chất nêu trên

đây, cụ thể là:

- Hàm thông tin đạt giá trị cực đại ở vị trí i=bi khi ci=0, và ở vị trí

i lớn hơn bi một ít khi ci>0,

132

- Tham số độ phân biệt ai ảnh hưởng mạnh lên giá trị của thông tin

trong việc đánh giá năng lực mà một CH cung cấp (biên độ hàm thông tin

của CH2 với b=1,5 lớn hơn nhiều so với CH3 với b=1).

- Tham số đoán mò ci có giá trị càng lớn thì thông tin để đánh giá

năng lực càng giảm (CH2 và CH3 có giá trị ai như nhau nhưng ci của

CH4 khác 0 - bằng 0,1- nên biên độ hàm thông tin của CH4 thấp hơn

biên độ hàm thông tin của CH2).

- Tùy theo tham số của mỗi CH mà mức độ đóng góp của chúng

vào việc xác định năng lực trên thang đo năng lực sẽ khác nhau. Chẳng

hạn, CH1 và CH5 tuy cung cấp nhiều thông tin để đánh giá các phần cao

và thấp của dải năng lực, nhưng cung cấp ít thông tin để đánh giá phần

trung bình của dải năng lực, so với các CH2, CH3 và CH4.

Từ các nhận xét về dáng điệu của hàm thông tin chúng ta có thể

thấy hàm thông tin là công cụ để đánh giá sự đóng góp của từng CH trắc

nghiệm để xác định năng lực TS, dựa vào đó có thể tạo nên các ĐTN

thích hợp để đo các khoảng năng lực mong muốn. Các nhận xét cũng cho

thấy các CH ứng với mô hình 3 tham số (ci>0) có hiệu quả cung cấp

thông tin kém hơn các CH ứng với mô hình một và hai tham số. Tuy

nhiên điều cần lưu ý trước hết ở tầm quan trọng của sự phù hợp giữa mô

hình và số liệu khi chọn mô hình, vì những nhận xét trên đây chỉ đúng khi

đạt được sự trùng khớp tốt giữa mô hình và số liệu.

7.2. HÀM THÔNG TIN VÀ SAI SỐ TIÊU CHUẨN CỦA ĐỀ TRẮC NGHIỆM

7.2.1. Hàm thông tin của đề trắc nghiệm

Hàm thông tin của ĐTN (Test information Function) là tổng các

hàm thông tin của các CH có trong ĐTN:

n

i

i=1

I(θ)= I (θ)

Biểu thức trên cho thấy mọi CH đóng góp thông tin cho ĐTN để

đánh giá năng lực TS độc lập với các CH khác. Đó là điểm khác biệt của

IRT so với CTT, vì đối với CTT sự thay đổi của chỉ một CH cũng gây

(7.7)

133

ảnh hưởng lên các điểm số của bài trắc nghiệm, do đó cũng sẽ làm thay

đổi mọi chỉ số của ĐTN và CH trắc nghiệm.

Bằng cách cộng các hàm Ii() của các CH biểu diễn trên Hình 7.1

chúng ta sẽ thu được đường cong I() của ĐTN gồm 5 CH trong ví dụ có

tính chất giáo khoa trên đây. Ở Hình 7.2 đường cong nét đậm biểu diễn

hàm thông tin của ĐTN, còn các đường cong nét nhạt là các hàm thông

tin của các CH trắc nghiệm vẽ theo tỷ xích nhỏ hơn tỷ xích trên Hình 7.1.

Có thể xem minh họa trên Hình 8.4 chương 8 một đường cong hàm thông

tin và sai số tiêu chuẩn của một ĐTN thực tế - đó là ĐTN VIỆT1 đã được

mô tả ở mục 5.2 chương 5.

Hình 7.2. Các đồ thị hàm thông tin của 5 CH trắc nghiệm và của ĐTN do 5 CH đó hợp thành

Mức thông tin chung của ĐTN cao hơn nhiều so với mức thông tin

của từng CH riêng rẽ, tức là một ĐTN sẽ đo năng lực chính xác hơn

nhiều so với chỉ một CH trắc nghiệm. Từ định nghĩa hàm thông tin theo

công thức (7.7) chúng ta cũng thấy rõ: ĐTN càng có nhiều CH thì giá trị

134

của hàm thông tin càng cao, tức là một ĐTN dài thường đo năng lực

chính xác hơn một ĐTN ngắn.

Tùy theo tính chất của các CH tạo nên ĐTN mà hàm thông tin sẽ

có giá trị lớn (tức là đo chính xác) ở các khoảng năng lực xác định nào đó

và giá trị bé (tức là đo kém chính xác) ở các khoảng năng lực khác.

Do những đặc điểm nêu trên, hàm thông tin là một công cụ cực kỳ

quan trọng của IRT, nó giúp thiết kế các ĐTN cho các phép đo theo các

mục tiêu xác định. Hàm thông tin lý tưởng của một ĐTN là một đường

nằm ngang, tức là phép đo có độ chính xác như nhau ở mọi khoảng năng

lực. Tuy nhiên một ĐTN như vậy có thể không phải là tốt nhất đối với

các mục tiêu cụ thể. Chẳng hạn, nếu chúng ta muốn thiết kế một ĐTN để

cấp học bổng, hàm thông tin như vậy không phải là tối ưu. Trong trường

hợp đó cần một ĐTN đo rất chính xác trong một khoảng hẹp ở mức năng

lực là ranh giới của những TS được và không được học bổng, tức là hàm

thông tin có đỉnh cực đại ở điểm cắt (cut-off score), vì một sai số lớn

trong phép đo ở khoảng năng lực này có thể chuyển một TS từ loại được

sang loại không được học bổng hoặc ngược lại.

7.2.2. Sai số tiêu chuẩn của đề trắc nghiệm

Sai số tiêu chuẩn của việc ước lượng năng lực ở vị trí bằng:

1σ( θ)= ,

I(θ) (7.8)

Biểu thức (7.8) cho thấy hai đường cong hàm thông tin và sai số

tiêu chuẩn của một ĐTN có hình dạng đối nghịch nhau. Để hình dung

bạn đọc có thể xem đồ thị biểu diễn hai đường cong đó của ĐTN VIỆT 1

(đã được mô tả ở mục 5.2 chương 5) trên Hình 8.4 chương 8. Sự phụ

thuộc của sai số tiêu chuẩn σ vào tham số θ có một ý nghĩa quan trọng,

chỉ rõ một trong những khác biệt giữa CTT và IRT. Biểu thức (6.1) đã

nêu ở chương 6 cho thấy trong CTT sai số ε của phép đo là một đại lượng

không đổi chung cho ĐTN đối với mọi TS có năng lực khác nhau. Trong

khi đó, đối với IRT, sai số của phép đo bằng ĐTN thay đổi theo các mức

năng lực. Đây cũng là một biểu hiện của việc "cá thể hóa" phép đo lường

của IRT mà chúng ta đã đề cập khi bàn về mô hình Rasch ở chương 4.

135

Sai số tiêu chuẩn σ( θ )

của việc ước lượng năng lực ^

θ là độ lệch

tiêu chuẩn của phân bố gần chuẩn khi ước lượng giá trị năng lực theo

biến cố hợp lý cực đại ở một giá trị năng lực nào đó. Phân bố sẽ tiến

đến dạng chuẩn khi ĐTN đủ dài. Tuy nhiên, một số nghiên cứu cho thấy

rằng thậm chí các ĐTN ngắn cỡ 10 - 20 CH sự phân bố gần chuẩn cũng

thỏa mãn đối với một số mục đích.

Biên độ của sai số tiêu chuẩn nói chung phụ thuộc vào: 1) số CH

trong ĐTN (số CH càng lớn sai số tiêu chuẩn càng bé); 2) chất lượng các

CH của ĐTN (nói chung các CH càng có độ phân biệt cao và khả năng

đoán mò thấp sẽ tạo sai số tiêu chuẩn bé); 3) độ khó CH gần với giá trị

năng lực được đo (tức là ĐTN không quá khó và không quá dễ). Việc

tăng số CH trong ĐTN hoặc chọn các CH với giá trị hàm thông tin lớn sẽ

làm tăng giá trị thông tin của ĐTN và giảm sai số tiêu chuẩn, tuy nhiên

khi hàm thông tin vượt quá một giá trị nào đó thì sai số tiêu chuẩn sẽ trở

nên ổn định và sự tăng tiếp tục của hàm thông tin sẽ có tác động không

lớn lên giá trị của sai số tiêu chuẩn.

7.2.3. Hàm hiệu suất tỷ đối

Đôi khi các nhà thiết kế ĐTN muốn so sánh các hàm thông tin của

hai hoặc nhiều ĐTN khác nhau. Chẳng hạn, khi thiết kế một ĐTN cho

một kỳ thi quốc gia có thể người ta muốn so sánh các hàm thông tin của

các ĐTN được tạo bởi các CH khác nhau để chọn ĐTN nào cung cấp

thông tin nhiều nhất nhằm đo một khoảng năng lực nào đó. Tất nhiên

phải tính đến các yếu tố khác nữa khi lựa chọn một ĐTN, chẳng hạn độ

giá trị, giá thành, nội dung và độ dài của đề.

Việc so sánh hai hàm thông tin được thực hiện bằng cách tính hiệu

suất tỷ đối của một ĐTN so với một ĐTN khác:

A

B

I (θ)RE(θ)= ,

I (θ)

trong đó RE() là hiệu suất tỷ đối và IA(), IB() là các hàm thông tin

tương ứng của hai ĐTN A và B. Ví dụ tại một giá trị nào đó RE()= 1,25

thì điều đó có nghĩa là ĐTN A có tác dụng như là nó có độ dài hơn ĐTN B

25%. Như vậy cần tăng chiều dài ĐTN B thêm 25% bằng cách tăng thêm

(7.9)

136

các CH thích hợp. Ngược lại, có thể rút ngắn ĐTN A 25% mà vẫn ước

lượng được năng lực ở mức với độ chính xác như ước lượng của ĐTN B.

Kết luận trên liên quan đến việc kéo dài hay rút ngắn các ĐTN được dựa

trên giả định rằng các CH được thêm vào hoặc lược bỏ bớt là tương thích

về chất lượng thống kê đối với các CH khác trong ĐTN.

CÂU HỎI TỰ ĐÁNH GIÁ

1. Dáng điệu của hàm thông tin phụ thuộc như thế nào vào các

tham số a, b, c của hàm đặc trưng trong CH trắc nghiệm.

2. Nêu các ứng dụng của hàm thông tin của đề trắc nghiệm.

BÀI TẬP

Các tham số của CH trong một “ngân hàng” gồm 4 CH được trình

bày ở Bảng 6.2. Giả sử cần tạo ĐTN gồm 3 CH từ “ngân hàng” đó. Hãy

tính giá trị thông tin của ĐTN ở các điểm có θ bằng -2, -1, 0, 1, 2 cho

4 ĐTN có thể được tạo nên từ “ngân hàng” đó. Hãy vẽ 4 hàm thông tin

của các ĐTN. ĐTN nào nên được sử dụng cho một trắc nghiệm đo mức

đạt chuẩn với điểm cắt ở θ = 1?

CH a b c

1 1,25 -0,5 0,00

2 1,50 0,0 0,00

3 1,25 1,0 0,00

4 1,00 1,5 0,00

137

Chương 8

ƯỚC LƯỢNG NĂNG LỰC CỦA THÍ SINH VÀ ĐỊNH CỠ ĐỀ TRẮC NGHIỆM

Chương 5 đã nêu cách ước lượng các tham số của CH trắc nghiệm

dựa trên ứng đáp của TS, nhưng nặng về mô tả định tính. Chương này

được dành để trình bày vài phương pháp định lượng nhằm ước lượng giá

trị năng lực của TS, và sau đó đưa ra cách ước lượng đồng thời tham số

của các CH trắc nghiệm và giá trị năng lực của TS, tức là thực hiện thao

tác thường được gọi là định cỡ ĐTN. Tính bất biến của năng lực TS được

ước lượng bằng các CH trắc nghiệm khác nhau cũng được phân tích rõ.

Cuối chương, việc định cỡ một ĐTN nhờ phần mềm VITESTA được

trình bày tỉ mỉ như một ví dụ cụ thể từ thực tiễn bước đầu áp dụng IRT

trong hoạt động đánh giá ở nước ta.

Khi sử dụng IRT để triển khai một trắc nghiệm đối với một TS thì

mục đích quan trọng nhất là xác định được vị trí của TS đó trên thang đo

năng lực. Nếu thu được một số đo năng lực như vậy đối với mỗi TS làm

một ĐTN thì sẽ đạt hai mục tiêu: một là đánh giá được mức năng lực của

TS, hai là có thể so sánh năng lực của các TS với nhau để tuyển chọn họ

theo một tiêu chuẩn nào đó.

8.1. QUY TRÌNH ƯỚC LƯỢNG GIÁ TRỊ NĂNG LỰC CỦA THÍ SINH

Trong chương 5 khi xem xét quy trình ước lượng các tham số của

CH trắc nghiệm chúng ta giả thiết rằng đã biết giá trị tham số năng lực

của mỗi TS. Ngược lại, để ước lượng năng lực của TS chúng ta cũng giả

thiết rằng đã biết giá trị các tham số của các CH trắc nghiệm.

Chúng ta vẫn giả thiết là các ứng đáp của TS đối với mỗi CH thu

được dưới dạng nhị phân, tức là ứng đáp đúng được 1 điểm, ứng đáp sai

138

được 0 điểm. Từ đó, sau khi một TS làm một ĐTN, chúng ta sẽ thu được

một dãy các trả lời 0 hoặc 1 đối với N CH trong ĐTN, mỗi dãy đó được

gọi là một vectơ ứng đáp (các) CH của một TS. Như vậy nhiệm vụ được

đặt ra cho bài toán là sử dụng vectơ ứng đáp CH đó của TS và các tham

số CH đã biết để ước lượng tham số năng lực chưa biết của anh ta.

8.1.1. Các nguyên tắc chung của quy trình

Cũng giống như quá trình ước lượng các tham số của CH trình bày

ở chương 5, chúng ta sẽ sử dụng các quy trình biến cố hợp lý cực đại để

ước lượng năng lực của TS. Trước hết, ta gán một giá trị tiên nghiệm nào

đó cho năng lực của một TS và sử dụng các tham số đã biết của các CH

trong ĐTN để tính các xác suất ứng đáp đúng mỗi CH đối với TS đã

chọn. Sau đó sử dụng một sự điều chỉnh giá trị ước lượng năng lực để

làm tăng sự phù hợp của các xác suất ứng đáp CH tính được với vectơ

ứng đáp CH của TS. Quá trình điều chỉnh được lặp lại nhiều lần cho đến

khi có một bước điều chỉnh cho giá trị đủ bé, tức là không tạo một sự

thay đổi đáng kể của giá trị năng lực được ước lượng. Kết quả ước lượng

đó được xem là giá trị tham số năng lực của TS.

Ở mục 8.2 cuối chương này sẽ nêu quy trình ước lượng đồng thời

các giá trị năng lực của mọi TS, nhưng bước đầu này sẽ trình bày cách

ước lượng giá trị năng lực riêng rẽ của từng TS.

Giả sử một TS nào đó được chọn cách ngẫu nhiên có năng lực

ứng đáp một nhóm n CH nhị phân với kiểu ứng đáp được biểu diễn bởi

vectơ U sau đây:

U = (U1,U2,...,Uj,..., Un /),

trong đó Ui = ui =1 (ứng đáp đúng) hoặc Ui = ui = 0 (ứng đáp sai)

đối với CH thứ i. Với giả thiết về tính độc lập địa phương (tức là xác suất

trả lời đúng một CH nào đó không phụ thuộc vào các CH khác), có thể

biểu diễn xác suất ứng đáp nhóm CH của TS có năng lực đó là tích của

các xác suất trả lời từng CH:

P(U1,U2,...,Uj,..., Un|) = P(U1|). P(U2|)....P(Uj|)... P(Un|),

139

hoặc viết gọn hơn dưới dạng:

P(U|) = n

j

j=1

P(U θ) .

Vì Uj bằng 0 hoặc 1 nên có thể viết:

P(U|)= j jj j

n nU (1-U )U (1-U )

j j j j

j=1 j=1

P(U θ) [1-P(U θ)] = P Q , (8.1)

trong đó Pj = P(Uj|) và Qj = 1- P (Uj |).

Đẳng thức (8.1) biểu diễn xác suất của kiểu ứng đáp nhóm CH nói

trên. Khi kiểu ứng đáp nhóm CH đã quan sát được, tức đã có các giá trị

Uj = u j, thì sử dụng từ xác suất sẽ không thích hợp nữa, nên xác suất đó

được gọi là biến cố hợp lý (likelyhood) và được biểu diễn bởi hàm

L(u1,u2,...,uj,...,un|), trong đó uj là sự ứng đáp đối với CH thứ j, tức là:

L(u1,u2,...,uj,...,un/ ) = j j

nu (1-u )

j j

j=1

P Q . (8.2)

Vì Pj và Qj là các hàm của và các tham số của CH nên L cũng là

hàm của các tham số đó.

Việc tính toán sẽ đơn giản hơn nhiều nếu logarit hóa biểu thức

(8.2), ta được:

lnL(u|) = n

j j j j

j=1

[u lnP +(1-u )ln(1-P )] , (8.3)

trong đó u là vectơ các ứng đáp các CH của TS. Giá trị làm cho

hàm biến cố hợp lý (hoặc tương ứng, ln của hàm biến cố hợp lý) đối với

một TS đạt cực đại được định nghĩa là ước lượng của năng lực theo biến

cố hợp lý cực đại đối với TS đó.

Việc tìm giá trị cực đại của L hoặc lnL là một quá trình phức tạp

khi có nhiều TS và nhiều CH. Giá trị tạo cực đại của hàm có thể tìm

bằng quy trình "search" nhờ máy tính. Một trong các cách tìm có hiệu

140

quả là dựa vào tính chất đạo hàm bậc nhất của L hoặc lnL bằng 0 ở vị

trí cực đại. Người ta thiết lập được các phương trình từ tính chất đó và

giải giải bằng phương pháp giải tích trực tiếp hoặc phương pháp xấp

xỉ. Một trong các phương pháp xấp xỉ thường dùng là quy trình

Newton-Raphson mà bạn đọc có thể dễ dàng tìm hiểu từ các nguồn tư

liệu tương ứng, chẳng hạn từ Wikipedia(*).

Một khó khăn có thể gặp phải là đôi khi hàm L hoặc lnL không có

cực đại ở giá trị hữu hạn, hoặc TS trả lời mọi CH đều đúng hoặc đều

không đúng. Lúc đó hàm biến cố hợp lý sẽ có cực đại ở giá trị =+

hoặc = -. Đôi khi các mô hình ứng đáp dị thường có thể làm cho hàm

biến cố hợp lý không có cực đại tuyệt đối ở giá trị hữu hạn: điều này

thường xuất hiện đối với mô hình 3 tham số và ứng với trường hợp TS

trả lời đúng các CH khó nhưng trả lời sai các CH dễ. Đối với các trường

hợp mô hình trả lời dị thường hoặc trả lời mọi CH đều đúng và đều

không đúng người ta có thể khắc phục bằng quy trình ước lượng Bayes,

tuy nhiên việc mô tả quy trình đó vượt ra ngoài mục tiêu của tập sách

này. Bạn đọc quan tâm về kỹ thuật ước lượng tham số trong IRT có thể

tham khảo ở công trình [8].

8.1.2. Một ví dụ đơn giản về ước lượng nhờ đồ thị

Để minh họa cho quá trình ước lượng giá trị năng lực của TS,

chúng ta hãy theo dõi một ví dụ có tính giáo khoa sau đây. Hãy khảo

sát các ứng đáp của 4 TS đối với 5 CH trắc nghiệm xây dựng theo

mô hình 3 tham số đã được khảo sát ở chương 5 (Hình 5.1). Các

tham số của CH và vectơ ứng đáp của TS được mô tả ở Bảng 8.1.

Thực tế ở đây có hai trường hợp riêng của mô hình 3 tham số: CH3

là mô hình 1 tham số, CH4 là mô hình 2 tham số.

Hàm biến cố hợp lý đối với mỗi TS có thể xây dựng theo số liệu ở

Bảng 8.1.

(*) http: //en.wikipedia.org/wiki/Newton-Raphson.

141

Bảng 8.1. Các tham số của CH và các vectơ ứng đáp của TS

Các tham số của CH Các vectơ ứng đáp của thí sinh

Câu hỏi aj bj cj 1 2 3 4

1 2 -1 0,1 1 1 1 1

2 1,5 -0,5 0,2 0 0 1 1

3 1 0 0 0 1 0 0

4 0,5 0,5 0,00 0 0 1 1

5 4 1 0,15 0 0 0 1

Từ biểu thức (8.3) chúng ta tính được:

lnL1(u|1) = lnP1+ ln(1-P2)+ln(1-P3)+ ln(1-P4)+ln(1-P5),

lnL2(u|2) = lnP1+ ln(1-P2)+lnP3+ln(1-P4)+ln(1-P5),

lnL3(u|3) = lnP1+ lnP2+ln(1-P3)+lnP4+ln(1-P5),

lnL4(u|4) = lnP1+ lnP2+ln(1-P3)+lnP4+lnP5.

Hình 8.1. Các đường cong lnLj ứng với 4 vectơ ứng đáp CH

142

Vì các hàm Pj (và do đó Qj) là các hàm ứng đáp CH nên có thể tính

chúng khi biết các giá trị tham số của các CH đối với một giá trị xác định

cũng như với mọi giá trị của trên thang đo. Trên Hình 8.1 có vẽ riêng

từng đường cong lnLj với các tỷ xích khác nhau. Trên Hình 8.2. cả 4

đường cong lnLj được vẽ trên cùng một đồ thị với cùng một tỷ xích. Theo

các cực đại trên đường cong chúng ta có thể xác định các giá trị năng lực

j của TS.

Hình 8.2. Các đường cong lnLj vẽ trên cùng một đồ thị với cùng một tỷ xích

Minh họa trên đây với việc vẽ đồ thị theo hàm giải tích chỉ sử dụng

được khi số TS và số CH không quá lớn. Bây giờ chúng ta hãy xét

phương pháp tổng quát hơn sử dụng với ĐTN có nhiều CH và mẫu thử

nghiệm có đông TS.

8.1.3. Một ví dụ về việc sử dụng phương pháp tính lặp để tìm cực đại

Viết lại biểu thức (8.3) đối với ln của hàm biến cố hợp lý:

n

j j j j

j=1

Λ(θ)=lnL(u/θ)= [u lnP +(1-u )lnQ ]. (8.4)

Cực đại của biểu thức trên đạt được khi đạo hàm bậc nhất bằng không:

'

1 1

( ) 1 1( ) [ ] (1 )[ ]

n nj i

j jj jj i

P Qu u

P Q

= 0. (8.5)

143

Một cách tổng quát, có thể giải phương trình (8.4) bằng phương

pháp tính lặp Newton-Raphson. Đối với phương trình f(x)=0, ta có:

ss+1 s

s

f(x )x =x -

f (x ), (8.6)

trong đó )(xf là đạo hàm của f(x), s+1x là giá trị nghiệm của

phương trình ở bước lặp thứ (s+1) tính theo nghiệm của bước lặp thứ s

trước đó.

Ứng dụng vào trường hợp của hàm của phương trình (8.5), ta có:

s+1θ = sθ - s

s

Λ (θ )

Λ (θ )

, (8.7)

Trong đó Λ’ và Λ” biểu diễn các đạo hàm bậc 1 và bậc 2 của Λ đối

với . Từ biểu thức của P() đối với mô hình tổng quát của đường cong

ĐTCH 3 tham số và biểu thức (8.5) và (8.7) có thể tính được:

nj j j s j s j

jj sj=1

s+1 s s2n

j s j s j2j

jj sj-1

ˆ ˆa [u -P (θ )] [P (θ )-c ]

ˆ (1-c )P (θ )ˆ ˆ ˆθ =θ + =θ +Δθ

ˆ ˆQ (θ ) P (θ )-ca

ˆ (1-c )P (θ )

. (8.8)

Đối với mô hình ĐTCH 2 tham số, khi cj =0, ta có:

n

i i i s

i=1s+1 s sn

2i i s i s

i=1

a [u -P (θ )]

θ =θ + =θ +Δθ

ˆ ˆa P (θ )Q (θ )

. (8.9)

Quy trình tìm nghiệm theo phương pháp tính lặp có thể mô tả

như sau. Đầu tiên chọn một giá trị s nào đó cho biến số năng lực ở vế

phải. Tính trị số của các hàm Pi () đối với n CH ở giá trị s và thay vào

số hạng thứ hai ở vế phải, ta thu được một trị số điều chỉnh Δ. Cộng Δ

vào s sẽ thu được 1ˆs , và giá trị 1

ˆs này sẽ đóng vai trò s trong bước

lặp sau... Lưu ý rằng số hạng [ui - Pi( s )] là độ chênh giữa sự ứng đáp

CH của TS với xác suất trả lời đúng ở mức năng lực s . Vì ước lượng

năng lực trở nên gần hơn với năng lực thật của TS nên tổng các độ chênh

144

giữa ui và Pi( s ) sẽ trở nên nhỏ hơn. Mục đích của chúng ta là tìm được

một ước lượng năng lực tạo nên các giá trị Pi( s ) của mọi CH đồng thời

làm cực tiểu tổng số đó. Khi điều đó xảy ra, số hạng Δ sẽ trở nên càng

bé càng tốt và giá trị 1ˆs sẽ thay đổi không đáng kể sau các lần lặp. Giá

trị 1ˆs cuối cùng được dùng làm giá trị năng lực ước lượng của TS. Tùy

theo yêu cầu chúng ta có thể quy định cỡ giá trị của số gia Δ để ra lệnh

dừng quá trình tính toán.

Chúng ta hãy thử quy trình tìm nghiệm bằng phương pháp tính lặp

Newton-Raphson trên một ví dụ có tính chất giáo khoa đơn giản của một

ĐTN gồm 5 CH xây dựng theo mô hình hai tham số đối với một TS có

các ứng đáp mô tả ở Bảng 8.2. Ở bước 1 ta gán cho TS năng lực bằng

1 = 1, tính các Pj ( 1 ), Qj ( 1 ) và thay vào biểu thức Δ theo (8.9). Bước

tiếp theo lấy 2 1 + Δ và lặp lại tính toán như bước 1... Kết quả tính

toán theo các bước được mô tả ở Bảng 8.3.

Bảng 8.2. Các tham số của các CH và ứng đáp của một TS

CH

a

b

Ứng đáp của

một TS

1 1 -2 1

2 1,5 -1 1

3 1.2 0 1

4 0.8 1 0

5 2 2 1

Bảng 8.3. Kết quả của 5 bước tính lặp

Bước P1 P2 P3 P4 P5 Δ

1 1,0000 0,9526 0,9526 0,7685 0,5000 0,1192 1,7884

2 2,7884 0,9917 0,9966 0.9660 0.8070 0,8287 -0.3408

3 2,4476 0,9884 0,9944 0.9497 0,7610 0,7100 0,5007

4 2,4977 0.9890 0,9948 0,9524 0.7682 0,7302 0,0011

5 2,4988 0,9890 0.9948 0.9525 0,7684 0,7306 0,5177x10-6

145

Từ Bảng 8.3 có thể thấy với phép gán ban đầu 1 =1, chỉ sau

5 bước tính lặp ta đã xác định được giá trị năng lực của TS ứng đáp CH

theo vectơ u(1,1,1,0,1). Giá trị năng lực của TS xác định được là

=2,4988; với gia số Δ ở bước lặp thứ 5 cỡ một phần triệu.

8.1.4. Về sai số ước lượng giá trị năng lực

Cần lưu ý rằng chúng ta có thể ước lượng được năng lực đến mức

gia số ước lượng năng lực qua mỗi bước ước lượng là rất bé, tuy nhiên

chúng ta vẫn không biết được giá trị chính xác của năng lực thật. Dù sao

vẫn còn may mắn là chúng ta có thể thu được sai số tiêu chuẩn của năng

lực đã được ước lượng. Nguyên tắc cơ bản của việc ước lượng sai số là

giả thiết rằng TS có thể làm một ĐTN rất nhiều lần nhưng họ không hề

nhớ về việc làm trắc nghiệm của những lần trước. Năng lực θ có thể thu

được từ mỗi lần làm ĐTN đó. Sai số tiêu chuẩn là độ đo của sự biến thiên

các giá trị của θ xung quanh một giá trị tham số chưa biết. Khi ấy sai

số tiêu chuẩn có thể tính theo công thức như đã nêu (7.8): ^

n2j j j

j=1

1σ( θ )=

ˆ ˆa P (θ)Q (θ) (8.10)

Chú ý rằng biểu thức dưới dấu căn cũng chính là biểu thức ở mẫu

số của số gia Δ trong phương trình (8.6), do đó sai số tiêu chuẩn có thể

thu được trong quá trình ước lượng năng lực:

σ( θ ) = 9889742203,0 =0,994471830.

Như vậy ước lượng của không được chính xác cho lắm vì sai số

tiêu chuẩn rất lớn. Một trong các nguyên nhân của giá trị sai số tiêu

chuẩn lớn là do ĐTN chỉ bao gồm 5 CH.

Có hai trường hợp ứng đáp của TS không thể ước lượng được năng

lực là trường hợp ứng đáp đối với mọi CH đều đúng (giá trị năng lực

tương ứng là +) và ứng đáp đối với mọi CH đều sai (giá trị năng lực

tương ứng là -). Chương trình máy tính phải loại bỏ các trường hợp này

trước khi tính toán.

146

8.2. ĐỊNH CỠ ĐỀ TRẮC NGHIỆM: ƯỚC LƯỢNG ĐỒNG THỜI THAM SỐ

CỦA CÂU HỎI VÀ NĂNG LỰC CỦA THÍ SINH

8.2.1. Về việc ước lượng các tham số của câu hỏi

Trong chương 5 chỉ nêu khái quát một cách định tính quy trình ước

lượng các tham số của CH. Mục trên đây mô tả thuật toán thực hiện quy

trình ước lượng năng lực TS với giả thiết đã biết các tham số của CH trắc

nghiệm. Quy trình ước lượng các tham số của CH khi đã biết năng lực TS

cũng được thực hiện theo thuật toán tương tự: từ việc ứng đáp của N TS

đối với một CH chúng ta thu được hàm biến cố hợp lý cực đại có dạng:

L(u1,u2,...,uj,...,uN| ,a,b,c) =

N

j

u

j

u

jjj QP

1

)1(, (8.11)

trong đó a,b và c là các tham số của CH. Điểm khác biệt giữa hàm

biến cố hợp lý đối với một CH so với hàm đó đối với một TS là ở chỗ đối

với một CH giả định về tính độc lập địa phương không cần viện dẫn,

chúng ta chỉ cần giả định rằng các ứng đáp của N TS đối với một CH là

độc lập, một giả thiết tiêu chuẩn trong thống kê học. Khi các giá trị đã

biết, việc ước lượng các tham số CH là trực tiếp tương tự như quy trình

đã mô tả. Một khác biệt nữa là hàm biến cố hợp lý của một CH là đa

chiều, vì có 3 biến số. Do đó, để tìm biến cố hợp lý cực đại của các tham

số a, b và c chúng ta cần tìm các giá trị của a, b và c tương ứng với một

giá trị cực đại nào đó trên một mặt 3 chiều. Điều đó được thực hiện bằng

cách tìm đạo hàm bậc nhất của hàm biến cố hợp lý đối với từng tham số

a, b và c, đặt chúng bằng không và giải đồng thời các hệ phương trình phi

tuyến thu được theo 3 ẩn số (tất nhiên đối với mô hình 2 và 1 tham số thì

có tương ứng 2 và 1 ẩn số). Chúng ta lại sử dụng phương pháp Newton-

Raphson dưới dạng đa biến và giải theo phương pháp chung. Khi các giá

trị năng lực của TS đã biết, mỗi CH được xem xét độc lập. Như vậy quá

trình ước lượng có thể lặp lại n lần, mỗi lần đối với mỗi CH.

8.2.2. Ước lượng đồng thời tham số của câu hỏi và năng lực của thí sinh:

định cỡ đề trắc nghiệm

Hàm biến cố hợp lý với N TS ứng đáp n CH, khi thỏa mãn tính độc

lập địa phương, có thể viết:

147

L(u1, u2,..., uj,..., uN| , a, b, c) =

ij ij

N nu (1-u )

ij ij

i=1 j=1

P Q , (8.12)

trong đó ui là mô hình trả lời của i TS đối với n CH, là vectơ của

N tham số năng lực; a, b, c là các vectơ của các tham số CH trong một

ĐTN có n CH. Số tham số của CH là 3n, 2n và n tương ứng trong trường

hợp mô hình 3, 2 và 1 tham số. Tính độc lập địa phương phải được giả

thiết vì rằng các là chưa biết. Các tham số năng lực là N, và do đó đối

với mô hình 3 tham số tổng cộng có 3n+N tham số được ước lượng.

Kỹ thuật định cỡ một ĐTN đã được Birnbaum đưa ra năm 1968 [4]

và được áp dụng rộng rãi trong các phần mềm phân tích trắc nghiệm. Đó

là một quy trình tương tác, gồm 2 giai đoạn ước lượng biến cố hợp lý cực

đại. Giai đoạn đầu ước lượng các tham số của n CH, giai đoạn thứ hai

ước lượng các tham số năng lực của N TS. Hai giai đoạn được thực hiện

tương tác với nhau cho đến khi thu được một tập hợp ổn định các tham số

ước lượng được.

Trong giai đoạn đầu các ước lượng năng lực của mỗi TS được

xem như là đã được biểu diễn trên một thang đo với đơn vị đo thực của

năng lực tiềm ẩn. Sau đó các tham số của mỗi CH được ước lượng theo

quy trình ước lượng biến cố hợp lý cực đại như đã mô tả ở chương 5.

Quy trình được thực hiện theo từng CH một, vì đã có giả định các CH

là độc lập với nhau. Cuối cùng thu được một bộ các tham số của các CH

trong ĐTN.

Trong giai đoạn sau giả thiết rằng các giá trị tham số CH ước lượng

được ở giai đoạn trước là các giá trị thực của tham số. Sau đó năng lực

của mỗi TS được ước lượng theo quy trình ước lượng biến cố hợp lý cực

đại như đã mô tả ở đầu chương này. Vì giả định rằng các năng lực của

mọi TS là độc lập với nhau nên việc ước lượng năng lực được thực hiện

theo từng TS một.

Hai giai đoạn được lặp lại cho đến khi thỏa mãn một tiêu chí hội tụ

nào đó. Như vậy các tham số của n CH của ĐTN và các mức năng lực

của N TS được ước lượng đồng thời, tuy rằng chúng được thực hiện đối

với từng CH và TS một cách riêng biệt, vì đã có giả định là các CH và

148

các TS là độc lập với nhau. Cách tiệm cận thông minh đó làm cho một

bài toán ước lượng rất phức tạp có thể hạ xuống mức có thể giải trên một

máy tính.

Tuy nhiên trong quy trình ước lượng nói trên có một vấn đề cần

bàn đến, đó là tính bất định của quy trình ước lượng, sẽ được xét ở mục

tiếp theo.

8.2.3. Vấn đề metric

Trong hàm biến cố hợp lý nêu trên đây các tham số của CH và của

năng lực TS được xác định không đơn trị. Chẳng hạn trong hàm ứng đáp

CH 3 tham số [xem biểu thức (4.3) chương 4] nếu chúng ta thay thế

bằng *= +, b bằng b*= b+, và a bằng a*= a/ thì xác suất ứng

đáp đúng sẽ không thay đổi:

P()=P*(*).

Vì và là các hằng số bất kỳ của thang đo nên hàm biến cố hợp

lý sẽ không có một cực đại đơn trị. Bất kỳ quá trình tính toán bằng số nào

được sử dụng để tìm cực đại của hàm biến cố hợp lý cũng sẽ không đạt

kết quả vì tính bất định nói trên. Vấn đề này không được đặt ra trong hai

quá trình ước lượng tham số CH khi biết năng lực TS và ước lượng năng

lực TS khi biết tham số CH trên đây vì trong các tình huống đó không có

tính bất định.

Do tính bất định vừa nêu không thể đưa ra một metric duy nhất cho

thang đo năng lực. Theo thuật ngữ kỹ thuật có thể nói metric là duy nhất

qua một biến đổi tuyến tính. Như vậy cần phải "neo" metric lại bằng một

quy tắc tùy ý nào đó.

Có thể khử tính bất định bằng cách chọn một thang đo tùy ý cho

giá trị tham số năng lực hoặc tham số độ khó b. Cách mà nhiều người

thường dùng là đặt điểm gốc của thang đo tại một điểm nào đó và chọn

đơn vị trên thang đo bằng một giá trị nào đó. Thông thường người ta đặt

điểm gốc (điểm 0) của thang đo ở điểm trung bình của N giá trị năng lực

thu được, và khoảng đơn vị (=1) trên thang đo bằng độ lệch tiêu chuẩn

của N giá trị năng lực thu được. Một khi tính bất định bị khử, các giá trị

149

của năng lực TS và tham số CH làm cực đại hàm biến cố hợp lý có thể

xác định được.

Như vậy, metric xác định được thường phụ thuộc một nhóm TS cụ

thể làm trắc nghiệm và một tập hợp CH cụ thể trong một ĐTN. Một quá

trình ước lượng cụ thể không tạo nên một metric "thật" chung cho mọi

phép đo bằng mọi CH với mọi TS. Chúng ta sẽ xử lý vấn đề này qua quá

trình so bằng (equating) ĐTN được đề cập đến ở chương 12.

Kết quả quan trọng của quá trình định cỡ là đặt năng lực mỗi TS và

độ khó mỗi CH dọc trên một thang đo chung. Đó là một thế mạnh của

IRT. Tính chất đó cho phép người ta giải thích kết quả định cỡ một ĐTN

trong một cái khung đơn giản và cung cấp ý nghĩa cho các giá trị của các

ước lượng tham số thu được.

8.3. TÍNH BẤT BIẾN CỦA VIỆC ƯỚC LƯỢNG NĂNG LỰC THÍ SINH

ĐỐI VỚI CÁC ĐỀ TRẮC NGHIỆM

Một nguyên lý quan trọng khác của IRT là giá trị ước lượng năng

lực sẽ bất biến đối với các CH được dùng để xác định nó. Nguyên lý đó

dựa trên 2 điều kiện: 1) mọi CH đều đo cùng một năng lực tiềm ẩn; 2)

các giá trị của mọi tham số CH là ở trên một thang đo chung.

Để minh họa cho các nguyên tắc đó, chúng ta lấy ví dụ về một

TS có điểm năng lực bằng 0 được đặt ở điểm giữa của thang đo năng

lực. Trước hết ra một ĐTN gồm các CH có độ khó trung bình bằng - 2

cho TS đó làm, và kết quả ứng đáp các CH được sử dụng để ước lượng

năng lực của TS, từ đó xác định được điểm 1 của TS đối với ĐTN đã

cho. Sau đó ra một ĐTN thứ hai bao gồm các CH có độ khó trung bình

bằng +1 cũng cho TS đó làm, và kết quả ứng đáp các CH của ĐTN thứ

hai này cũng được sử dụng để ước lượng năng lực của TS, từ đó thu

được điểm 2 đối với ĐTN thứ hai. Theo nguyên lý bất biến đối các

mẫu CH thì phải có 1 = 2 , tức là hai ĐTN sẽ cho kết quả ước lượng

năng lực TS như nhau. Nguyên lý ấy đã phản ánh một sự kiện là

đường cong ĐTCH mở rộng ra toàn bộ thang đo năng lực. Nếu một

khoảng con của thang đo năng lực có thể sử dụng để ước lượng các

tham số của CH thì ngược lại, một nhóm con các đường cong ĐTCH

150

cũng có thể sử dụng để ước lượng năng lực của TS. Các CH với độ

khó trung bình cao sẽ có một điểm trên các đường cong ĐTCH của

chúng tương ứng với mức năng lực cao được quan tâm. Tương tự, các

CH với độ khó trung bình thấp cũng sẽ có một điểm trên các đường

cong ĐTCH của chúng tương ứng với mức năng lực thấp được quan

tâm. Do đó, một nhóm bất kỳ các CH nào đó cũng có thể sử dụng để

ước lượng năng lực của các TS ở điểm đã cho. Trong mỗi nhóm CH

chỉ có một phần nào đó của các đường cong ĐTCH được sử dụng,

nhưng điều đó hoàn toàn có thể chấp nhận.

Ý nghĩa thực tiễn của nguyên lý bất biến của các CH đối với việc

ước lượng năng lực TS là ở chỗ một ĐTN dù ứng với vị trí nào trên

thang đo năng lực cũng có thể dùng để ước lượng một năng lực của TS.

Chẳng hạn một TS có thể làm một ĐTN "dễ" hoặc một ĐTN "khó"

nhưng vẫn thu được một ước lượng năng lực như nhau. Đây là chỗ khác

biệt rõ rệt của IRT so với CTT, vì trong CTT, TS sẽ nhận được điểm

cao hơn khi làm một ĐTN dễ, sẽ nhận được điểm thấp hơn khi làm

ĐTN khó, và không có cách nào để biết chắc năng lực thực sự của TS.

Đối với IRT năng lực của TS là xác định và bất biến đối với các CH

được sử dụng để đo chúng. Từ "xác định" ở đây cần hiểu với ý nghĩa nó

là một giá trị riêng biệt cụ thể trong tình huống đã cho. Chẳng hạn, nếu

một TS làm một ĐTN nhiều lần và nếu có thể giả định là anh ta không

nhớ các CH hoặc cách trả lời ở các lần làm trước đây, thì năng lực của

anh ta sẽ là xác định. Tuy nhiên, nếu giữa các lần trắc nghiệm TS được

học thêm hoặc có thể rút kinh nghiệm từ các lần trắc nghiệm trước thì

năng lực của TS sẽ khác nhau ở mỗi lần trắc nghiệm. Vậy mức năng lực

của TS là bất biến trong những điều kiện đã cho, bất biến đối với phép

đo bằng các ĐTN xây dựng từ các ngân hàng CH đã được định cỡ như

nhau, nhưng không phải là cái không thể thay đổi.

8.4. VÍ DỤ VỀ ĐỊNH CỠ ĐỀ TRẮC NGHIỆM, TÍNH HÀM THÔNG TIN,

HÀM ĐẶC TRƯNG CỦA ĐỀ TRẮC NGHIỆM

Ví dụ được nêu trong phần này nhằm minh họa việc ứng dụng các

khái niệm và quy trình đã trình bày ở các chương trước và chương này

qua một bài toán cụ thể từ thực tiễn Việt Nam.

151

Số liệu phân tích cũng được mượn từ cuộc khảo sát kết quả học tập

của học sinh lớp 5 tiến hành bởi Viện Khoa học Giáo dục Việt Nam năm

2007 [34]. Ở đây sẽ định cỡ ĐTN thử môn tiếng Việt (ĐTN VIỆT1),

gồm 40 CH trắc nghiệm nhị phân, được thực hiện trên mẫu với 535 TS là

học sinh lớp 5, như đã được giới thiệu ở mục 5.2 chương 5. Công cụ tính

toán là phần mềm VITESTA [19].

Trước hết, để hình dung khái quát về ĐTN có thể xem bảng các

đường cong đặc trưng của từng CH trên Hình 8.3. Có thể nhìn thấy ngay

các CH 6, 29, 33, 35, 40 có độ dốc nhỏ, tức là tham số a bé (độ phân biệt

IRT thấp). Bảng 8.4 cho giá trị a, b của mọi CH trong ĐTN, trong đó

tham số a của các CH đã nêu đúng là có giá trị bé, thấp nhất là của

CH 33 (a=0,06749). Độ phân biệt cổ điển của các CH đó thể hiện trên

Bảng 8.5 cũng rất bé, thậm chí CH 33 có độ phân biệt âm (-0,02088248).

CH 33 và các CH tương tự phải được loại khỏi ĐTN chính thức.

Bảng các tham số của từng CH của ĐTN có giá trị sử dụng thực tế

rất cao khi phân tích sơ bộ chất lượng của từng CH và từng phương án

của CH trong ĐTN. Từ bảng trích 8.5 chẳng những chúng ta biết được

các tham số độ khó, độ phân biệt cổ điển của từng CH, mà còn biết số TS

chọn từng phương án trả lời của CH, phương án đúng cũng như phương

án nhiễu. Nếu đối với phương án đúng tương quan điểm nhị phân (chính

là độ phân biệt cổ điển) phải có giá trị dương và càng lớn càng tốt

(thường đòi hỏi cỡ >0,2), thì đối với các phương án nhiễu giá trị đó phải

âm và càng bé càng tốt. Từ các số liệu đó chúng ta có thể đánh giá chất

lượng của từng phương án chọn trong từng CH.

Cùng với bảng các đường cong đặc trưng của các CH, kết quả tính

toán cũng cho ta bảng các đường cong hàm thông tin của các CH. Để

minh họa, Hình 8.4 có biểu diễn cặp đường cong ĐTCH và hàm thông tin

của CH số 5.

Cũng như đối với từng CH, đối với toàn bộ ĐTN chúng ta cũng thu

được đường cong đặc trưng ĐTN (đường cong điểm thực) và đường cong

hàm thông tin của ĐTN. Các đường cong này được biểu diễn tương ứng

trên các Hình 8.5 và 8.6.

152

Hình 8.3. Bảng các đường cong ĐTCH của ĐTN VIỆT1 tính theo mô hình 2 tham số

153

Bảng 8.4. Các tham số a, b của các đường cong ĐTCH của ĐTN VIỆT1

+---+-----------+---------+----------|

|Câu¦ b | a | MSE |

+---+-----------+---------+----------|

¦ 1¦ -0.75829¦ 1.04830¦ 0.11392¦

¦ 2¦ -1.99097¦ 1.34161¦ 0.21798¦

¦ 3¦ -1.56526¦ 0.97956¦ 0.14154¦

¦ 4¦ -1.91935¦ 1.26318¦ 0.19878¦

¦ 5¦ -0.92946¦ 0.90974¦ 0.11292¦

¦ 6¦ 0.55030¦ 0.22657¦ 0.08847¦

¦ 7¦ 0.14565¦ 0.52787¦ 0.09383¦

¦ 8¦ 0.70154¦ 0.43199¦ 0.09401¦

¦ 9¦ -0.46461¦ 0.82219¦ 0.10265¦

¦ 10¦ 2.72380¦ 0.36628¦ 0.11822¦

¦ 11¦ 0.11510¦ 0.62417¦ 0.09613¦

¦ 12¦ -1.43655¦ 0.54562¦ 0.10720¦

¦ 13¦ -0.79394¦ 0.92599¦ 0.11052¦

¦ 14¦ -0.91405¦ 0.61333¦ 0.10138¦

¦ 15¦ -0.91320¦ 0.66784¦ 0.10338¦

¦ 16¦ -1.08248¦ 0.53193¦ 0.10055¦

¦ 17¦ 0.19373¦ 0.47343¦ 0.09268¦

¦ 18¦ 1.20518¦ 0.69869¦ 0.11319¦

¦ 19¦ -0.65378¦ 1.12469¦ 0.11426¦

¦ 20¦ -0.10064¦ 0.50456¦ 0.09308¦

¦ 21¦ -1.32392¦ 1.09650¦ 0.13596¦

¦ 22¦ -1.15269¦ 0.97690¦ 0.12240¦

¦ 23¦ -0.94972¦ 1.17745¦ 0.12375¦

¦ 24¦ -0.12999¦ 0.88086¦ 0.10261¦

¦ 25¦ -0.69608¦ 0.66428¦ 0.10034¦

¦ 26¦ -1.18279¦ 1.40695¦ 0.14395¦

¦ 27¦ -0.22323¦ 0.79100¦ 0.10038¦

¦ 28¦ -0.08077¦ 0.97647¦ 0.10524¦

¦ 29¦ 2.00720¦ 0.13027¦ 0.08908¦

¦ 30¦ -0.18945¦ 1.08015¦ 0.10826¦

¦ 31¦ 0.09852¦ 0.67260¦ 0.09733¦

¦ 32¦ -0.77120¦ 0.75519¦ 0.10428¦

¦ 33¦ 4.71609¦ 0.06749¦ 0.08977¦

¦ 34¦ -0.38175¦ 0.94010¦ 0.10531¦

¦ 35¦ 3.61823¦ 0.14436¦ 0.09550¦

¦ 36¦ 0.17917¦ 0.68336¦ 0.09791¦

¦ 37¦ 0.78273¦ 0.62917¦ 0.10175¦

¦ 38¦ 2.01173¦ 0.30128¦ 0.09955¦

¦ 39¦ 0.36695¦ 0.55641¦ 0.09545¦

¦ 40¦ 1.24440¦ 0.22300¦ 0.09023¦

|------------------------------------|

154

Bảng 8.5. Trích bảng các tham số của các CH trắc nghiệm ĐTN VIỆT1 ==============================================================================

Câu số: 1

Bỏ qua: 5

Độ phân biệt (cổ điển): 0.54026

Độ khó (cổ điển): 0.70943

Độ phân biệt IRT(a): 1.04830

Độ khó IRT(b): -0.75829

Độ phỏng đoán IRT(c): 0.00000

Các phương án: 1* 2 3 4

Số TS chọn: 376 38 68 48

Tỉ lệ TS chọn PA (%) 70.94 7.17 12.83 9.06

Tương quan điểm nhị phân: 0.54026 -0.27057 -0.22864 -0.25364

Giá trị t: 14.82210 -6.48871 -5.42213 -6.05372

Giá trị p: 0.00000 0.00000 0.00000 0.00000

==============================================================================

Câu số: 2

Bỏ qua: 1

Độ phân biệt (cổ điển): 0.36163

Độ khó (cổ điển): 0.94569

Độ phân biệt IRT(a): 1.34161

Độ khó IRT(b): -1.99097

Độ phỏng đoán IRT(c): 0.00000

Các phương án: 1 2* 3 4

Số TS chọn: 12 505 14 3

Tỉ lệ TS chọn PA (%) 2.25 94.57 2.62 0.56

Tương quan điểm nhị phân: -0.26006 0.36163 -0.21388 -0.06084

Giá trị t: -6.21778 8.95488 -5.05476 -1.40728

Giá trị p: 0.00000 0.00000 0.00000 0.07996

==============================================================================

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

==============================================================================

Câu số: 33

Bỏ qua: 4

Độ phân biệt (cổ điển): -0.02088

Độ khó (cổ điển): 0.35782

Độ phân biệt IRT(a): 0.06749

Độ khó IRT(b): 4.71609

Độ phỏng đoán IRT(c): 0.00000

Các phương án: 1 2* 3 4

Số TS chọn: 48 190 197 96

Tỉ lệ TS chọn PA (%) 9.04 35.78 37.10 18.08

Tương quan điểm nhị phân: -0.04769 -0.02088 0.02567 0.09077

Giá trị t: -1.10236 -0.48221 0.59276 2.10425

Giá trị p: 0.13540 0.31492 0.27680 0.01791

==============================================================================

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

==============================================================================

Câu số: 40

Bỏ qua: 9

Độ phân biệt (cổ điển): 0.22769

Độ khó (cổ điển): 0.39164

Độ phân biệt IRT(a): 0.22300

Độ khó IRT(b): 1.24440

Độ phỏng đoán IRT(c): 0.00000

Các phương án: 1 2 3 4*

Số TS chọn: 113 96 111 206

Tỉ lệ TS chọn PA (%) 21.48 18.25 21.10 39.16

Tương quan điểm nhị phân: 0.08209 -0.11144 -0.12559 0.22769

Giá trị t: 1.90167 -2.58886 -2.92255 5.39838

Giá trị p: 0.02888 0.00495 0.00181 0.00000

======================================================================

155

Hình 8.4. ĐTCH và hàm thông tin của CH số 5 ĐTN VIỆT1

Hình 8.5. Đường cong đặc trưng của ĐTN VIỆT1 (đường cong điểm thực)

Đường cong điểm thực là một công cụ rất tốt để xem xét sự tương

ứng giữa điểm thực (trùng với điểm thô) với điểm năng lực. Chẳng hạn,

dựa vào điểm thô người ta xác định một điểm chuẩn nào đó (thường được

gọi là điểm cắt – cut-off score), thì đường cong điểm thực cho biết giá trị

của điểm năng lực θ tương ứng với điểm cắt đã cho.

156

Hàm thông tin của ĐTN cũng là một công cụ quan trọng để đánh

giá và thiết kế ĐTN. Trước hết, từ đường cong hàm thông tin của ĐTN

VIET1 có thể thấy đề này có khả năng đo chính xác nhất khoảng năng

lực dưới trung bình một chút của mẫu thử nghiệm. Người ta có thể thiết

kế một ĐTN sao cho nó có khả năng đo chính xác nhất một khoảng năng

lực nào đó, tức là sao cho hàm thông tin ĐTN có cực đại ở khoảng năng

lực muốn đo. Điều này rất quan trọng khi chúng ta muốn từ kết quả trắc

nghiệm ra quyết định tuyển hay không tuyển TS, cấp hay không cấp học

bổng cho TS đạt điểm năng lực ở phía trên và phía dưới ngưỡng năng lực

đó. Đường biểu diễn nằm bên dưới đường cong hàm thông tin của ĐTN

phản ánh sai số tiêu chuẩn của phép đo năng lực: rõ ràng nơi nào giá trị

thông tin lớn thì sai số tiêu chuẩn của phép đo bé.

Hình 8.6. Đường cong hàm thông tin và sai số tiêu chuẩn phép đo năng lực bằng ĐTN VIỆT1

Một loại thông tin lý thú mà phần mềm VITESTA cung cấp cho

từng TS là sơ đồ bài làm của họ. Hình 8.7 có dẫn minh họa sơ đồ bài làm

của TS số 8. Biểu đồ cho thấy mức năng lực của TS này là θ= 1,89790,

tức là vào loại khá. Nửa mặt phẳng bên trái chỉ các CH mà TS làm sai,

nửa mặt phẳng bên phải chỉ các CH mà TS làm đúng, vị trí của mỗi CH

xác định độ khó của CH, tăng dần từ dưới lên theo trục thẳng đứng. Khi

có sơ đồ đó mỗi TS có thể xem xét lại kết quả học tập của mình theo các

chủ đề tri thức ứng với từng CH.

157

Thông tin quan trọng cuối cùng mà kết quả phân tích cho ta là phần

trích số liệu về năng lực của TS ở Bảng 8.6. Từ Bảng 8.6 có thể thấy

điểm thô của từng TS (tổng số CH làm đúng), ước lượng năng lực θ và

điểm quy đổi theo thang điểm 10 tính từ điểm thực. Một chi tiết cần lưu ý

là đối với mô hình 2 và 3 tham số, không có sự tương ứng một-một giữa

điểm thô và điểm năng lực, tức là có thể có 2 TS có điểm thô như nhau

nhưng điểm năng lực tương ứng của họ khác nhau, còn đối với mô hình

Rasch 1 tham số có sự tương ứng một-một giữa điểm thô và điểm thực.

Có thể nói vì tính bất biến các điểm năng lực θ nên điểm năng lực (và các

điểm thu được nhờ chuyển đổi tuyến tính từ chúng) là ước lượng chính

xác nhất năng lực của TS.

Hình 8.7. Ví dụ về sơ đồ bài làm của một TS (TS thứ 8)

Cuối cùng, biểu đồ trên Hình 8.8 cho cảm nhận về tương quan

chung giữa độ khó của ĐTN và năng lực của mẫu TS thử nghiệm: nửa

mặt phẳng trên cho thấy phân bố các CH trong ĐTN từ dễ đến khó, nửa

mặt phẳng dưới cho thấy phân bố năng lực của TS từ thấp đến cao (theo

chiều từ phải sang trái), giá trị trung bình của năng lực của TS thấp hơn

giá trị trung bình của độ khó CH (được đặt bằng không) một lượng không

đáng kể, chỉ bằng -0,001. Như vậy ĐTN VIET1 là tương đối vừa sức đối

với mẫu thử nghiệm.

158

Bảng 8.6. Bảng trích điểm thô, ước lượng năng lực θ của TS và thang điểm 10 của TS làm ĐTN VIỆT1

+----------------------------------------------------------+

¦ STT¦ SBD ¦ Năng lực ¦Sai số TC ¦Đúng/Tổng¦Điểm10¦

+-----+------------+-----------+-----------+--------+------|

¦ 1 ¦ 1030103201 ¦ 0.89404 ¦ 0.42278 ¦ 30/40 ¦ 7.51|

¦ 2 ¦ 1030103203 ¦ 2.78267 ¦ 0.61045 ¦ 38/40 ¦ 8.94|

¦ 3 ¦ 1030103205 ¦ 0.20338 ¦ 0.37424 ¦ 27/38 ¦ 6.41|

¦ 4 ¦ 1030103207 ¦ 0.22792 ¦ 0.37559 ¦ 25/39 ¦ 6.46|

¦ 5 ¦ 1030103209 ¦ 1.64722 ¦ 0.49206 ¦ 33/40 ¦ 8.28|

¦ 6 ¦ 1030103212 ¦ -0.47705 ¦ 0.35168 ¦ 20/40 ¦ 4.95|

¦ 7 ¦ 1030103214 ¦ 1.81747 ¦ 0.50918 ¦ 34/40 ¦ 8.42|

¦ 8 ¦ 1030103216 ¦ 1.89790 ¦ 0.51740 ¦ 34/40 ¦ 8.47|

¦ 9 ¦ 1030103218 ¦ 0.90688 ¦ 0.42385 ¦ 32/40 ¦ 7.52|

¦ 10 ¦ 1030103220 ¦ 0.80907 ¦ 0.41583 ¦ 30/40 ¦ 7.39|

¦ 11 ¦ 1030103222 ¦ 1.11364 ¦ 0.44166 ¦ 31/40 ¦ 7.77|

¦ 12 ¦ 1030103224 ¦ 1.18278 ¦ 0.44786 ¦ 31/40 ¦ 7.85|

¦ 13 ¦ 1030103226 ¦ 0.90424 ¦ 0.42363 ¦ 29/40 ¦ 7.52|

¦ 14 ¦ 1030103228 ¦ 0.64816 ¦ 0.40333 ¦ 30/39 ¦ 7.16|

¦ 15 ¦ 1030103230 ¦ 0.88959 ¦ 0.42241 ¦ 29/40 ¦ 7.50|

.....................................

.....................................

¦ 527 ¦ 8251703213 ¦ 0.26745 ¦ 0.37784 ¦ 25/39 ¦ 6.53|

¦ 528 ¦ 8251703215 ¦ -0.38576 ¦ 0.35285 ¦ 19/40 ¦ 5.16|

¦ 529 ¦ 8251703217 ¦ -0.74839 ¦ 0.35205 ¦ 16/40 ¦ 4.30|

¦ 530 ¦ 8251703219 ¦ -1.23353 ¦ 0.36880 ¦ 14/40 ¦ 3.15|

¦ 531 ¦ 8251703221 ¦ -0.17370 ¦ 0.35791 ¦ 24/40 ¦ 5.64|

¦ 532 ¦ 8251703223 ¦ -0.09295 ¦ 0.36065 ¦ 24/40 ¦ 5.81|

¦ 533 ¦ 8251703225 ¦ 0.26670 ¦ 0.37780 ¦ 25/40 ¦ 6.53|

¦ 534 ¦ 8251703227 ¦ -0.84373 ¦ 0.35363 ¦ 15/39 ¦ 4.06|

¦ 535 ¦ 8251703229 ¦ 0.03345 ¦ 0.36579 ¦ 25/40 ¦ 6.08|

+--------------------------------------------------------------------|

Hình 8.8. Biểu đồ tương quan giữa năng lực của TS và độ khó của ĐTN VIỆT1

159

CÂU HỎI TỰ KIỂM TRA

1. Xây dựng hàm biến cố hợp lý để ước lượng năng lực TS.

2. Trình bày phương pháp xấp xỉ giải phương trình f(x)=0 của

Newton-Raphson.

3. Mô tả một bước tính lặp để xác định giá trị năng lực .

4. Quy tắc ước lượng đồng thời năng lực TS và tham số các CH

trắc nghiệm.

5. Tính bất biến của năng lực TS đối với các CH dùng để ước lượng.

BÀI TẬP

1. Đối với ĐTN gồm 5 CH cho ở Bảng 8.1, vectơ trả lời của một

TS là (1,0,1,0,0):

Xác định hàm biến cố hợp lý ứng với TS đó. Nêu giả thiết cần tuân

theo để thiết lập được hàm đó.

Vẽ đồ thị biểu diễn hàm biến cố hợp lý cực đại lnL (có thể dùng

phần mềm tính toán, chẳng hạn, MAPLE). Dựa trên đồ thị xác định ước

lượng của θ khi hàm biến cố hợp lý đạt cực đại.

2. Các tham số của 4 CH thu được khi sử dụng mô hình 2 tham số

được cho ở Bảng 8.7. Giá trị ước lượng năng lực θ của một TS khi hàm

biến cố hợp lý đạt cực đại là 1,5.

Bảng 8.7.

CH b a

1 0,0 1,0

2 1,0 1,0

3 1,0 2,0

4 1,5 2,0

Hãy xác định sai số tiêu chuẩn của giá trị ước lượng được (lưu ý số

liệu được tính cần phù hợp với các biểu thức dạng tích lũy vòm chuẩn,

tức là a được nhân cho hệ số D – xem 4.2.1 chương 4).

160

Thiết lập khoảng tin cậy 95% đối với θ.

3. Có 3 TS với các giá trị năng lực là θ = -1, 0, 1. Ứng đáp của 3 TS

đó đối với một CH tương ứng là 0, 0, 1. Giả sử mô hình một tham số với

giá trị b (chưa biết) là phù hợp với CH.

a) Hãy lập hàm biến cố hợp lý liên quan với giá trị b chưa biết và

nêu giả thiết cần tuân theo.

b) Tính hàm biến cố hợp lý với giá trị b biến đổi từ 0 đến 1 với

bước là 0,1. Dựa trên bảng tính xác định ước lượng của b làm cho hàm

biến cố hợp lý đạt cực đại.

4. a) Đối với mô hình một tham số, hãy viết biểu thức hàm thông

tin và sai số tiêu chuẩn khi ước lượng độ khó của CH.

b) Tính sai số tiêu chuẩn của giá trị ước lượng độ khó cho số liệu cho ở

bài tập.

______________________________

161

Chương 9

ĐÁNH GIÁ SỰ PHÙ HỢP GIỮA SỐ LIỆU VÀ MÔ HÌNH

IRT là một lý thuyết có tác dụng lớn để giải quyết nhiều bài toán về

đánh giá trong giáo dục. Đặc trưng hết sức quan trọng của IRT là giải

thoát sự phụ thuộc của việc xác định tham số của CH vào mẫu thử và giải

thoát sự phụ thuộc của việc đo lường năng lực vào các ĐTN cụ thể, nói

cách khác, đối với IRT giá trị các tham số của CH và năng lực của TS là các

bất biến đối với phép đo.

Tuy nhiên chỉ riêng việc xử lý số liệu trắc nghiệm nhờ các phần

mềm xây dựng theo IRT chưa đảm bảo cho sự thành công của việc áp

dụng IRT. Tính ưu việt của IRT chỉ có thể thu được khi sự trùng khớp

giữa mô hình và số liệu trắc nghiệm được thỏa mãn. Nếu không thỏa mãn

sự trùng khớp đó thì tính bất biến của tham số CH và năng lực TS cũng

không tồn tại.

Chương này dành để trình bày một số phương pháp đánh giá sự

phù hợp giữa số liệu thu được qua trắc nghiệm và mô hình các đường

cong ĐTCH được chọn để phân tích số liệu.

9.1. CÁC PHƯƠNG PHÁP ĐÁNH GIÁ SỰ PHÙ HỢP GIỮA SỐ LIỆU VÀ

MÔ HÌNH

Có nhiều cách đánh giá sự phù hợp giữa số liệu và mô hình để chọn

mô hình IRT thích hợp. Hambleton và Swaminathan [11] đã có các đề

xuất tương đối tổng quát để thực hiện các đánh giá trên, dựa trên ba loại

chứng cứ sau đây:

162

1) Tính hiệu lực của các giả định về mô hình đối với số liệu trắc

nghiệm;

2) Mức độ đạt được các đặc tính quan trọng của mô hình (cụ thể là

tính bất biến của các tham số của CH và của năng lực);

3) Độ chính xác của mô hình dự báo so với số liệu trắc nghiệm.

9.1.1. Đảm bảo tính đơn chiều

Hai giả định chung quan trọng đối với tất cả các mô hình là tính

đơn chiều và yêu cầu trắc nghiệm không phải là trắc nghiệm tốc độ (tức

là phải đủ thời gian để TS làm trắc nghiệm). Người ta có thể chứng minh

rằng trắc nghiệm tốc độ sẽ dẫn đến tính đa chiều. Đối với mô hình hai

tham số phải chứng tỏ rằng khả năng đoán mò là không đáng kể. Còn đối

với mô hình một tham số phải đảm bảo chỉ số độ phân biệt sẽ như nhau

đối với mỗi CH. Khảo sát thống kê chi tiết về tính đơn chiều hơi phức tạp

nên sẽ không trình bày ở đây, tuy nhiên khi viết các CH trắc nghiệm phải

cố gắng đảm bảo tính chất này.

9.1.2. Kiểm tra tính bất biến

Tính bất biến của các tham số mô hình có thể đánh giá bằng các

phương pháp trực tiếp. Tính bất biến của tham số năng lực có thể nghiên

cứu bằng cách cho TS làm hai ĐTN, trong mỗi đề tham số độ khó của

các CH biến đổi trong một dải rộng. Các ĐTN được xây dựng từ một kho

CH chung mà nhờ đó năng lực TS được xác định. Người ta thường tiến

hành nghiên cứu bằng cách dùng hai ĐTN con từ một ĐTN. Với mỗi TS

một ĐTN con sẽ cho một giá trị năng lực, cặp giá trị năng lực đó được

biểu diễn trên cùng một đồ thị. Các điểm trên đồ thị ứng với tập hợp TS

sẽ xác định một đường thẳng với hệ số góc bằng 1 vì giá trị năng lực

mong đợi đối với mỗi TS không phụ thuộc vào việc chọn các CH trắc

nghiệm. Sẽ có một số điểm nằm phân tán ngoài đường thẳng vì sai số đo

lường. Khi không thu được một quan hệ tuyến tính với độ dốc bằng 1 và

điểm cắt bằng 0, hoặc khi sự phân tán vượt sai số tiêu chuẩn chờ đợi của

việc xác định năng lực thì một trong các giả định cơ bản của mô hình ứng

đáp CH có thể không được thỏa mãn.

163

9.1.3. Kiểm tra các dự đoán mô hình

Một trong các phương pháp để kiểm nghiệm mô hình dự đoán là

phương pháp thặng dư. Khi một mô hình ứng đáp CH đã được chọn, các

tham số của CH và năng lực được ước lượng, các giá trị kỳ vọng xác suất

ứng đáp đúng CH của các nhóm năng lực khác nhau được tính toán để

xem xét sự phù hợp của mô hình đã chọn. Sau đó kết quả kỳ vọng được

so sánh với kết quả thực tế.

Độ thặng dư rij là mức chênh giữa xác suất ứng đáp CH của nhóm

con TS và giá trị kỳ vọng của xác suất ứng đáp CH của nhóm TS đó:

rij = Pij - E(Pij), (9.1)

trong đó i là chỉ số của CH, j là chỉ số của nhóm con TS, Pij là tỷ lệ

ứng đáp đúng CHi của nhóm TS thứ j, còn E(Pij) là tỷ lệ kỳ vọng của ứng

đáp đúng CH thu được bằng cách dùng mô hình ứng đáp CH giả định

(xem chương 5). Các tham số của mô hình giả định được ước lượng, và

dùng các giá trị ước lượng đó để tính xác suất ứng đáp đúng CH, xác suất

đó được lấy xem như tỷ lệ trả lời đúng kỳ vọng của nhóm TS.

Trong thực tế thang năng lực thường được chia thành các khoảng

có độ rộng như nhau để tính thặng dư. Các khoảng phải đủ rộng sao cho

số lượng TS trong mỗi khoảng không quá bé để các số liệu thống kê ổn

định, đồng thời cũng phải đủ hẹp để số TS trong mỗi khoảng là đồng nhất

về năng lực. Người ta có thể lấy giá trị ở điểm giữa mỗi khoảng làm đại

diện để tính xác suất ứng đáp đúng CH và lấy giá trị đó là giá trị kỳ vọng,

hoặc tính xác suất ứng đáp đúng CH của mọi TS ở trong cùng nhóm năng

lực và lấy giá trị trung bình để làm giá trị kỳ vọng.

Một nhược điểm của độ thặng dư tính theo (9.1) là không xét đến

sai số lấy mẫu liên quan với tỷ lệ kỳ vọng của điểm ứng đáp đúng trong

một nhóm năng lực. Để khắc phục nhược điểm đó người ta sử dụng giá

trị thặng dư tiêu chuẩn hóa bằng cách chia vế phải của (9.1) với sai số tiêu

chuẩn của tỷ lệ ứng đáp đúng kỳ vọng:

ij ij

ij ij j

P -E(P ),

E(P ) 1-E(P ) /N

(9.2)

Zij =

164

trong đó Nj là số TS trong nhóm năng lực j.

Khi chọn một mô hình IRT việc nghiên cứu các giá trị thặng dư hoặc

thặng dư tiêu chuẩn hóa đối với một vài mô hình khác nhau sẽ rất có ích.

Các kiểm nghiệm Chi-bình phương (χ2) thông thường trong thống

kê cũng được sử dụng để xác định sự phù hợp của mô hình. Yen [14] đã

sử dụng một đặc trưng thống kê cải tiến từ Chi-bình phương là đặc trưng Q1

đối với CH thứ i như sau:

ij

2m

j ij

li

j=1 ij ij

N P -E(P )Q

E(P ) 1-E(P )

m

2ij

j=1

z , (9.3)

trong đó TS được chia thành m nhóm năng lực trên cơ sở ước lượng

năng lực của chúng, các ký hiệu khác tương tự như đã giải thích ở (9.1).

Q1 cũng có phân bố như Chi-bình phương với mức độ tự do bằng (m-k),

trong đó k là số tham số trong mô hình IRT. Nếu các giá trị quan sát

được vượt một giá trị tiêu chuẩn (thu được từ bảng χ2) thì giả thiết H0 về

đường cong ĐTCH phù hợp với số liệu thực nghiệm bị bác bỏ và cần phải

tìm một mô hình khác phù hợp tốt hơn.

9.2. VÍ DỤ VỀ ĐÁNH GIÁ SỰ PHÙ HỢP GIỮA SỐ LIỆU VÀ MÔ HÌNH

Để hình dung được mức độ phù hợp giữa số liệu với mô hình và

tính bất biến của tham số CH và năng lực TS, chúng ta sẽ tạm mượn ví

dụ trích từ [11] của Hambleton xét kết quả của một ĐTN 75 CH thực

hiện trên 2000 TS.

9.2.1. Kiểm tra tính bất biến của tham số CH đối với các mẫu TS

khác nhau

Trước hết ta thử nghiệm chia tổng thể TS thành 2 mẫu một cách

ngẫu nhiên, tức là 2 mẫu TS tương đương với nhau về phân bố năng lực.

Chọn hệ tọa độ có 2 trục đều chia độ theo thang logit để biểu diễn tham

số độ khó của CH. Mỗi một CH có 2 giá trị tham số độ khó b được ước

lượng bởi mẫu TS 1 và mẫu TS 2, giá trị b ước lượng theo mẫu TS 1

được biểu diễn theo trục hoành, giá trị b ước lượng theo mẫu TS 2 được

biểu diễn theo trục tung. Như vậy 2 giá trị b của mỗi CH xác định một

165

điểm trên mặt phẳng, và 75 CH cho 75 điểm trên biểu đồ. Biểu đồ thu

được trên Hình 9.1 cho thấy các điểm biểu diễn giá trị b nằm lân cận

đường phân giác của góc lập bởi trục tung và trục hoành với mức độ

phân tán thấp, điều đó chứng tỏ tính bất biến của tham số biểu diễn độ

khó b đối với hai mẫu TS đã chọn.

Tiếp đến ta thử nghiệm chia tổng thể TS thành 2 mẫu có phân bố

năng lực khác nhau, một mẫu gồm nửa số TS có năng lực thấp và một

mẫu gồm nửa số TS có năng lực cao. Lại ước lượng tham số độ khó b

theo từng mẫu, và biểu diễn tham số độ khó b được ước lượng bởi mẫu

TS năng lực cao theo trục hoành, tham số độ khó b được ước lượng bởi

mẫu TS năng lực thấp theo trục tung. Biểu đồ thu được trên Hình 9.2 cho

thấy đồ thị rải phân tán có hình như quả tạ tay: phần giữa trùng tốt với

đường phân giác nhưng hai phía ứng với giá trị độ khó cao và thấp mức

độ phân tán lớn hơn. Sự phân tán ở hai đầu có thể được giải thích như

sau: dùng mẫu TS năng lực thấp ước lượng tham số của CH có độ khó

lớn sẽ kém chính xác, và cũng như vậy khi dùng mẫu TS năng lực cao

ước lượng tham số của các CH có độ khó bé. Qua nhận xét trên có thể rút

ra kết luận là muốn ước lượng tham số CH chính xác mẫu TS phải có

phân bố năng lực rải đều từ thấp đến cao.

Hình 9.1. (vẽ lại H 5.8) Biểu đồ phân bố các điểm biểu diễn độ khó ước lượng theo hai mẫu TS có năng lực tương đương (chia mẫu ngẫu nhiên)

166

Hình 9.2 Biểu đồ phân bố các điểm biểu diễn độ khó ước lượng theo hai mẫu TS có năng lực cao và năng lực thấp

9.2.2. Kiểm tra tính bất biến của năng lực TS đối với các ĐTN khác nhau

Cũng có thể sử dụng số liệu trắc nghiệm nói trên để thử khảo sát

tính bất biến của năng lực TS được ước lượng bằng các ĐTN khác nhau.

Cách thứ nhất là chia ĐTN theo cách ngẫu nhiên thành 2 ĐTN

con có độ khó tương đương với nhau, chẳng hạn một đề gồm các câu lẻ,

đề kia gồm các câu chẵn. Dùng mỗi một trong 2 đề nói trên để ước

lượng năng lực của các TS. Chọn hệ tọa độ có 2 trục đều chia độ theo

thang logit để biểu diễn năng lực TS. Mỗi TS có 2 giá trị năng lực được

ước lượng tương ứng nhờ ĐTN1 và ĐTN2. Năng lực ước lượng theo

ĐTN1 được biểu diễn theo trục hoành, năng lực ước lượng theo ĐTN2

được biểu diễn theo trục tung, vậy mỗi TS được thể hiện bởi một điểm

trên mặt phẳng. Biểu đồ thu được trên Hình 9.3 cho thấy các điểm biểu

diễn năng lực TS nằm lân cận đường phân giác nhưng tập trung hơn ở

phần giữa và phân tán hơn ở hai đầu. Điều đó chứng tỏ việc ước lượng

năng lực sẽ chính xác hơn ở khoảng năng lực trong bình so với năng lực

cao và thấp.

Cách thứ hai là chia ĐTN thành 2 ĐTN con nhưng một đề gồm các

CH khó hơn và một đề gồm các CH dễ hơn. Một TS có 2 năng lực được

ước lượng tương ứng bằng ĐTN dễ hơn và ĐTN khó hơn, hai năng lực đó

cũng tạo thành một điểm trên mặt phẳng. Hình 9.4 cũng cho thấy các điểm

167

biểu diễn năng lực TS nằm lân cận đường phân giác nhưng tập trung hơn ở

phần giữa và phân tán hơn ở hai đầu. Điều đó cũng chứng tỏ việc ước

lượng năng lực sẽ chính xác hơn ở khoảng năng lực trung bình so với năng

lực cao và thấp, nhưng sai số ước lượng còn lớn hơn khi ước lượng năng

lực thấp bằng ĐTN khó và ước lượng năng lực cao bằng ĐTN dễ.

Hình 9.3. Biểu đồ phân bố các điểm biểu diễn năng lực θ ước lượng theo ĐTN có độ khó tương đương

Hình 9.4. Biểu đồ phân bố các điểm biểu diễn năng lực θ ước lượng theo hai ĐTN có độ khó khác nhau

168

Tóm lại, qua việc khảo sát tính bất biến của các tham số CH trắc

nghiệm đối với các mẫu TS và tính bất biến của tham số năng lực TS đối

với các ĐTN khác nhau có thể thấy rằng để tăng độ chính xác cho việc

định cỡ ĐTN cần có các ĐTN với các CH có độ khó rải đều và cần các

mẫu TS với sự phân bố năng lực theo dải rộng.

9.2.3. Đánh giá sự phù hợp giữa số liệu thực nghiệm và mô hình qua

giá trị thặng dư tiêu chuẩn hóa

Có thể sử dụng giá trị thặng dư tiêu chuẩn hóa tính theo biểu thức

(9.2) để đánh giá sự phù hợp giữa số liệu thực nghiệm và mô hình. Muốn

vậy, chia khoảng [-3, 3] logit ra làm 12 đoạn bằng nhau, mỗi đoạn chọn

điểm θ ở giữa làm điểm tựa để tính toán. Chọn một CH nào đó trong

ĐTN đã cho, chẳng hạn CH6, tính đường cong ĐTCH kỳ vọng theo mô

hình Rasch ứng với CH đó và biểu diễn giá trị trung bình của tỷ lệ ứng

đáp đúng CH lên đồ thị (Hình 9.5).

Liên quan với Hình 9.5 là các giá trị thặng dư chuẩn hóa dọc theo

đường cong ĐTCH biểu diễn trên Hình 9.6. Qua các đồ thị nêu trên có

thể thấy giữa số liệu và mô hình chưa có sự trùng khớp tốt.

Hình 9.5. Đường cong đặc trưng kỳ vọng P(θ) của CH6 và các giá trị trung bình thực nghiệm

169

Hình 9.6. Giá trị thặng dư chuẩn hóa của đường cong đặc trưng của CH6

CÂU HỎI TỰ KIỂM TRA

1. Quan hệ giữa sự trùng hợp giữa số liệu với mô hình và tính bất

biến của năng lực TS và tham số CH đối với các phép đo lường?

2. Cho vài ví dụ về sự vi phạm tính đơn chiều của CH trắc nghiệm.

3. Nêu cách xây dựng các biểu đồ trên các hình 9.1 – 9.4 và giải

thích các kết quả.

4. Nêu các điều kiện về số liệu mẫu TS và ĐTN để thu được kết

quả định cỡ ít sai lệch.

BÀI TẬP

1. Giả sử mô hình 3 tham số phù hợp với bộ dữ liệu trắc nghiệm. Giá

trị ước lượng cho một CH cụ thể là a =1,23; b = 0,76; c =0,25. Để đánh giá

sự phù hợp của mô hình đối với CH đã cho, người ta chia TS ra làm 5

nhóm năng lực dựa trên mức năng lực ước lượng được của chúng, mỗi

nhóm gồm 20 TS. Ứng đáp CH của các TS được trình bày ở Bảng 7.1.

170

a) Tính tỷ số TS trả lời đúng ở mỗi mức năng lực.

b) Tính xác suất trả lời đúng ở mỗi mức năng lực (dùng tham số

của đường cong ĐTCH ước lượng được).

c) Tính đặc trưng thống kê độ phù hợp Q1 đối với CH đó. Độ tự do

đối với kiểm nghiệm Chi-bình phương đối với trường hợp này là bao nhiêu?

d) Mô hình 3 tham số có phù hợp với số liệu của CH đã cho hay không?

Bảng 7.1.

Mức θ Các ứng đáp đối với CH

-2,0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 0 1 0 1

-1,0 0 1 0 1 0 0 1 0 0 0 0 1 0 0 0 1 0 0 0 0

0,0 1 0 0 0 1 1 0 0 0 0 1 0 0 1 0 0 1 0 1 1

1,0 1 1 1 1 1 1 1 0 1 1 1 0 1 1 0 1 0 1 0 1

2,0 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 0 1 1

2. Giả sử mô hình 2 và 3 tham số cũng phù hợp với số liệu. Giá trị

ước lượng các tham số CH như sau:

a. Đối với mô hình 1 tham số: b=0,17;

b. Đối với mô hình 2 tham số: b=0,18; a=0,56.

c. Tính đặc trưng thống kê độ phù hợp Q1 để đánh giá độ phù hợp

của mô hình 1 và 2 tham số (cũng theo các năng lực như ở Bảng 7.1);

d. Mô hình 1 và 2 tham số có phù hợp với số liệu không?

e. Mô hình nào là thích hợp nhất đối với số liệu đã cho?

171

Chương 10

THIẾT KẾ CÁC ĐỀ TRẮC NGHIỆM

Thiết kế ĐTN là yêu cầu thực tiễn quan trọng hàng đầu của mọi lý

thuyết trắc nghiệm. Chương này dành để mô tả các cách tiếp cận để thiết

kế ĐTN, xuất phát từ việc so sánh CTT và IRT trong bài toán này, tiếp

đến trình bày quy trình cơ bản để thiết kế ĐTN theo IRT. Các loại ĐTN

phổ biến và cách thiết kế chúng từ các CH trong một NHCH trắc nghiệm

cũng được nêu ra.

10.1. SO SÁNH CTT VÀ IRT TRONG VIỆC THIẾT KẾ CÁC ĐỀ TRẮC NGHIỆM

Đối với CTT, để thiết kế một ĐTN thành quả học tập hoặc năng

lực, người ta chọn các CH theo nội dung và các đặc trưng của chúng - độ

khó và độ phân biệt. Độ phân biệt thường càng cao càng tốt, còn độ khó

được chọn ở mức độ thích hợp tùy theo mục tiêu của ĐTN và phân bố

năng lực dự đoán của nhóm TS là đối tượng dự định trắc nghiệm.

Tuy nhiên, như đã biết, theo CTT, các tham số CH không phải là

các bất biến đối với tổng thể TS mà người ta muốn xác định năng lực. Do

đó kết quả của kỹ thuật lựa chọn cổ điển phụ thuộc vào mức độ tương

đồng của nhóm TS được dùng để xác định các tham số của CH so với

nhóm TS mà ĐTN muốn đánh giá. Khi mức tương đồng kém thì các

tham số thu được sẽ không phù hợp với nhóm TS dự định đánh giá.

Trong thực tế đôi khi nhóm TS mà từ đó nhận được các tham số của CH

khác rất xa với nhóm TS dự định đánh giá.

Nhược điểm về sự không bất biến của các tham số CH theo CTT

gây khó khăn cho việc xây dựng một NHCH có chất lượng, vì nhiều

tham số của CH không thể so sánh với nhau. Ngoài ra, một nhược điểm

172

khác của CTT là, ngay cả khi có một NHCH tốt, không thể chọn các CH

để sinh ra được một ĐTN đáp ứng các đặc trưng cố định liên quan đến độ

chính xác của phép đo. Đóng góp của một CH của ĐTN không phụ thuộc

vào riêng biệt các đặc trưng của CH đó, mà còn phụ thuộc vào mối quan

hệ giữa nó và các CH khác trong ĐTN.

IRT cung cấp một phương pháp có hiệu quả hơn nhiều để lựa chọn

CH so với CTT. Tính bất biến của các tham số của CH xác định theo IRT

khắc phục được nhược điểm của NHCH trong CTT đã nói trên đây. Hơn

nữa, độ khó của CH và năng lực của TS được biểu diễn trên cùng một

thang đo tạo khả năng lựa chọn các CH có tác dụng tốt nhất ở các vùng

xác định của thang năng lực, chẳng hạn ở vùng điểm-cắt (cut-off score)

để phân biệt TS đạt và không đạt tiêu chuẩn lựa chọn. Ưu thế quan trọng

nhất của IRT là nó cho phép lựa chọn các CH dựa trên lượng thông tin

mà các CH đóng góp vào khối lượng thông tin tổng cộng cần thiết của

ĐTN để đáp ứng các đặc trưng của ĐTN. Vì thông tin liên quan đến độ

chính xác của phép đo nên cần chọn các CH tạo nên một ĐTN cho độ

chính xác đo lường mong muốn ở mức năng lực xác định nào đó, chẳng

hạn ở vùng điểm cắt.

10.2. CÁCH TIẾP CẬN CƠ BẢN ĐỂ THIẾT KẾ ĐỀ TRẮC NGHIỆM

Hiện nay, khi đồng thời tồn tại cả CTT và IRT, đôi khi người ta

thiết kế ĐTN dựa vào các nguyên lý của CTT, nhưng lại phân tích kết

quả theo IRT. Cách thao tác như vậy làm hạn chế sức mạnh và ưu điểm

của IRT. Để phát huy hết ưu điểm của IRT, các ĐTN nên được thiết kế

và phân tích cùng dựa trên lý thuyết đó.

Để thực hiện được điều nói trên, trước hết cần có một bộ sưu tập

CH tốt để đo một loại năng lực nào đó. Trong phạm vi của IRT, có một

hệ thống quy trình cần được sử dụng để thiết lập và bảo trì bộ sưu tập CH

đó, được gọi là quy trình xây dựng NHCH trắc nghiệm (item banking).

Mục tiêu quan trọng của quy trình này là có được một NHCH trong đó

các giá trị của các tham số CH được biểu diễn trên một thang đo năng lực

đã biết. Khi đã có ngân hàng đó, có thể chọn các CH từ ngân hàng để

thiết kế một ĐTN và xác định được các đặc trưng kỹ thuật chính của ĐTN

173

trước khi cho một nhóm TS nào đó làm ĐTN. Nếu các đặc trưng của ĐTN

không đáp ứng các mục tiêu thiết kế, có thể thay các CH đã được chọn

bằng CH khác từ NHCH cho đến khi thu được các đặc trưng của ĐTN như

mong muốn. Cách thiết kế ĐTN như vậy tiết kiệm rất nhiều thời gian và

tiền bạc vì không phải triển khai trắc nghiệm thử nhiều lần.

Để xây dựng được một NHCH trước hết phải xác định các năng lực

tiềm ẩn cần đo, chế tác các CH để đo năng lực tiềm ẩn đó, thử nghiệm

các CH nhằm loại bỏ các CH chất lượng kém. Sau một thời gian sẽ thu

được một kho lớn các CH để đo năng lực tiềm ẩn đã định. Kho CH lớn

đó sẽ được trắc nghiệm trên các mẫu TS. Một mô hình đường cong

ĐTCH được chọn, số liệu ứng đáp CH của TS được phân tích theo mô

hình Birnbaum và các ĐTN được định cỡ. Thang năng lực sinh ra từ quá

trình định cỡ đó được xem là metric cơ sở của ngân hàng CH. Theo quan

điểm thiết kế ĐTN, kết quả quá trình mô tả trên đây cho chúng ta một

kho CH đã được định cỡ sẵn, tức là một NHCH trắc nghiệm.

Vì các CH trong NHCH đã định cỡ nhằm đo một năng lực tiềm ẩn

nào đó, ĐTN được thiết kế từ ngân hàng ấy cũng nhằm đo năng lực đó.

Từ NHCH người ta lựa chọn các CH trên cơ sở nội dung và các tham số

đặc trưng để đáp ứng các mục tiêu trắc nghiệm xác định. Ưu việt của

NHCH đã được định cỡ là từ các tham số đã biết của các CH trong ngân

hàng có thể tính đường cong đặc trưng của ĐTN và hàm thông tin trước

khi thực hiện trắc nghiệm. Có thể làm như vậy vì các đường cong này

không phụ thuộc vào phân bố năng lực của TS dọc theo thang đo năng

lực, và có thể tính được chúng ngay khi biết các tham số của các CH.

Nhờ vậy người thiết kế ĐTN có thể biết trước ĐTN sẽ được làm như thế

nào trước khi trao nó cho TS thực hiện. Hơn nữa, như sẽ thấy sau này,

sau khi ĐTN được thực hiện và định cỡ, quá trình so bằng ĐTN có thể

được dùng để biểu diễn các ước lượng năng lực của nhóm TS mới trên

metric của NHCH.

Lord [5] đã đề xuất một quy trình sử dụng các hàm thông tin để

thiết kế các ĐTN đáp ứng bất kỳ yêu cầu mong muốn nào của đặc trưng

ĐTN. Quy trình dựa trên việc khai thác một NHCH sẵn có các giá trị

tham số CH được ước lượng theo một mô hình IRT đã chọn.

174

Các bước của quy trình được đề nghị như sau:

1. Quyết định về hình dáng muốn có của hàm thông tin ĐTN. Lord

gọi đó là hàm thông tin mục tiêu.

2. Chọn các CH từ ngân hàng có các hàm thông tin CH sẽ phủ kín

các vùng năng lực của hàm thông tin mục tiêu.

3. Sau khi mỗi CH được đưa vào ĐTN, tính hàm thông tin của

ĐTN bao gồm các CH đã lựa chọn.

4. Tiếp tục thay thế và lựa chọn các CH để đưa vào ĐTN cho đến

khi hàm thông tin của ĐTN tiệm cận với hàm thông tin mục tiêu ở mức

độ chấp nhận được.

Các bước trên đây thường được thực hiện dựa vào khuôn khổ các

đặc trưng nội dung của ĐTN.

10.3. MỘT SỐ LOẠI ĐỀ TRẮC NGHIỆM VÀ CÁCH THIẾT KẾ

Thông thường có thể phân chia 3 loại ĐTN như sau:

1) ĐTN để sàng lọc: Các ĐTN để sàng lọc phải có khả năng phân

tách rõ rệt giữa các TS có năng lực thấp hơn một mức nào đó và các TS

có năng lực cao hơn mức ấy. Các trắc nghiệm loại này được sử dụng để

cấp học bổng hoặc để tuyển TS vào học một chương trình nào đó.

2) ĐTN dải rộng: Các ĐTN này được sử dụng để đo năng lực trên

một dải rộng của thang năng lực. Mục đích quan trọng của loại đề này là

có thể đưa ra một tuyên bố về năng lực của TS và so sánh giữa các TS

với nhau.

3) ĐTN (mà hàm thông tin) có đỉnh hẹp: Các ĐTN loại này được

thiết kế để đo chính xác năng lực ở một vùng nào đó của thang năng lực,

nơi tập trung phần lớn năng lực của TS, và không cần đo chính xác năng

lực ở ngoài vùng ấy.

Trong 3 loại trắc nghiệm nêu trên loại ĐTN để sàng lọc có dải đo

năng lực hẹp nhất, loại ĐTN dải rộng có dải đo năng lực rộng nhất, còn

loại ĐTN đỉnh hẹp có dải đo năng lực ở mức trung bình.

175

Việc thiết kế các loại ĐTN nêu trên cần các lưu ý như sau.

- Đối với loại ĐTN để sàng lọc: Cần đặt điểm nằm giữa thang điểm

thực của đường cong đặc trưng ĐTN mong muốn ứng với mức năng lực

của điểm cắt. Đường cong hàm thông tin ĐTN cần có đỉnh cực đại nhọn

nằm trên điểm cắt. Các giá trị tham số b của các đường cong ĐTCH nên

sắp xếp ở lân cận điểm cắt mong muốn. Các CH tối ưu là CH có độ khó

nằm đúng ở điểm cắt và có độ phân biệt đủ lớn.

- Đối với loại ĐTN dải rộng: Cần đặt điểm nằm giữa thang điểm

thực của đường cong đặc trưng ĐTN mong muốn ứng với khoảng giữa

của dải năng lực muốn đo, và đường đặc trưng ĐTN trên dải năng lực đó

có dạng gần đường thẳng. Đường cong hàm thông tin ĐTN cần có dạng

mở rộng, và giá trị thông tin càng cao càng tốt. Các giá trị tham số b của

các đường cong ĐTCH nên trải rộng khắp dải năng lực.

- Đối với loại ĐTN mà hàm thông tin có đỉnh hẹp: Cần đặt điểm

nằm giữa thang điểm thực của đường cong đặc trưng ĐTN mong muốn

ứng với điểm giữa của dải năng lực muốn đo, và đường cong đặc trưng

ĐTN có độ nghiêng vừa phải ở vùng đó. Vùng cực đại của đường cong

hàm thông tin ĐTN cũng cần đặt ở vùng năng lực đó và cần có dạng

cong đều đặn. Các giá trị tham số b của các đường cong ĐTCH nên phân

bố quanh điểm giữa của dải năng lực muốn đo nhưng không quá tập

trung như trường hợp ĐTN để sàng lọc. Các CH cần có các giá trị tham

số a phân bố rộng, CH nằm trong vùng năng lực quan tâm cần có giá trị a

lớn hơn các CH nằm ở ngoài vùng đó.

10.4. ẢNH HƯỞNG CỦA MÔ HÌNH ĐƯỜNG CONG ĐTCH

VÀ SỐ LƯỢNG CÂU HỎI LÊN ĐỀ TRẮC NGHIỆM

Đối với mô hình Rasch, vì a=1 nên giá trị cực đại của hàm thông

tin CH đều bằng 0,25 và cực đại của hàm thông tin của ĐTN bằng n/4

[vì khi P=0,5 thì PQ=0,25 trong biểu thức (7.4).

- Vì có tham số đoán mò c nên mô hình 3 tham số sẽ tạo nên đường

cong đặc trưng ĐTN có dạng tuyến tính hơn và hàm thông tin ĐTN có

giá trị thấp hơn so với các đường cong tương ứng tạo thành từ tập hợp

CH có b và a như nhau: hàm thông tin của mô hình 2 tham số là hình bao

176

bên dưới của hàm thông tin của mô hình 3 tham số. Để thu được các đặc

trưng ĐTN tốt nhiều người thích chọn mô hình hai tham số hơn các mô

hình khác.

- Việc tăng số lượng CH ảnh hưởng ít lên đường cong đặc trưng

ĐTN nhưng tác động mạnh lên biên độ hàm thông tin của ĐTN. Do đó

phương án tối ưu là ĐTN có nhiều CH với các giá trị a lớn và có phân bố

giá trị b phù hợp với mục tiêu trắc nghiệm.

- Việc xem xét đồng thời các tham số liên quan đến độ khó và độ

phân biệt là rất quan trọng. Chẳng hạn, chọn một CH có độ phân biệt a

lớn nhưng độ khó b không nằm trong vùng năng lực muốn đo thì chẳng

có lợi gì cho hàm thông tin và đường cong đặc trưng của ĐTN. Do đó,

người thiết kế ĐTN cần phải xem xét cả đường cong ĐTCH và đường

cong hàm thông tin CH để khẳng định được sự đóng góp của CH đó

nhằm tăng chất lượng của các đường cong đặc trưng và đường cong hàm

thông tin của ĐTN.

CÂU HỎI TỰ KIỂM TRA

1. Phân tích các nhược điểm của CTT khi thiết kế các ĐTN.

2. Nêu các bước của quy trình Lord dùng hàm thông tin để thiết kế

một ĐTN theo IRT.

3. Mô tả tính chất của các loại ĐTN chính.

4. Cách thiết kế từng loại ĐTN theo quy trình của Lord.

5. Ảnh hưởng của mô hình đường cong ĐTCH và số lượng CH lên ĐTN.

BÀI TẬP

Bảng 10.1 biểu diễn thông tin của 6 CH tại các giá trị năng lực θ

khác nhau. Sử dụng Bảng 10.1 để giải các bài tập sau đây:

Bài tập 1

a) Tính giá trị thông tin và sai số tiêu chuẩn tại điểm θ =1,0 của

một “ĐTN” gồm các CH 2, 3 và 6.

177

b) Cần bao nhiêu CH tương tự như CH 5 để thu được sai số tiêu

chuẩn bằng 0,40 ở điểm θ =-1,0.

Bài tập 2

Có 2 ĐTN được tạo từ “ngân hàng” CH ở Bảng 10.1. ĐTN 1 bao

gồm các CH 2 và 3; ĐTN 2 bao gồm các CH 1 và 6.

a) Tính giá trị thông tin mà các ĐTN đó cung cấp ở các điểm θ = 0,0;

1,0; 2,0.

b) Tính hiệu suất tỷ đối theo (7.9) của ĐTN 1 so với ĐTN 2 ở các

điểm θ = 0,0; 1,0; 2,0. Giải thích ý nghĩa của các giá trị đó.

c) Cần thêm bao nhiêu CH tương tự CH 5 vào ĐTN 1 để ĐTN 1 và

ĐTN 2 có giá trị thông tin gần như nhau ở điểm θ = 1,0?

Bảng 10.1.

CH θ

-3 -2 -1 0 1 2 3

1 0,02 0,06 0,10 0,20 0,15 0,08 0,04

2 0,00 0,00 0,05 0,10 1,10 0,25 0,10

3 0,00 0,03 0,10 0,25 0,50 0,40 0,15

4 0,15 1,25 1,45 0,10 0,02 0,00 0,00

5 0,00 0,10 0,60 0,70 0,20 0,05 0,00

6 0,00 0,00 0,02 0,40 2,20 0,40 0,15

Bài tập 3

Giả sử người ta muốn tạo nên một ĐTN theo tiêu chí sao cho có độ

phân biệt tối ưu ở điểm θ = -1,0.

a) Nếu ĐTN bao gồm 2 CH 4 và 5 thì sai số tiêu chuẩn ở điểm

θ = -1,0 là bao nhiêu?

b) Xác suất để một TS có năng lực θ = 0,0 bị loại bằng bao nhiêu

nếu điểm cắt (cut-off score) được đặt tại θ = -1,0?

178

Chương 11

SO BẰNG CÁC ĐIỂM TRẮC NGHIỆM

Khả năng so sánh các điểm trắc nghiệm của các ĐTN khác nhau đo

cùng một năng lực là một trong những vấn đề nhận được sự quan tâm

hàng đầu của các chuyên gia đo lường. Nếu có hai TS làm hai ĐTN khác

nhau thì làm sao có thể so sánh điểm của họ với nhau? Đó là một CH đặc

biệt quan trọng khi ra các quyết định cho việc đậu rớt, cấp văn bằng,

tuyển chọn… Vấn đề là phải làm sao cho việc sử dụng kết quả thu được

từ bất cứ ĐTN nào để ra quyết định cũng như nhau.

Chương này dành để trình bày các phương pháp so bằng

(equating), trước hết theo CTT, sau đó theo IRT, và nêu việc ứng dụng

IRT để so bằng qua một ví dụ cụ thể đã triển khai ở nước ta.

Để có thể so sánh các điểm thu được bởi ĐTN X và ĐTN Y, phải

thực hiện một quá trình so bằng các điểm của hai ĐTN. Qua quá trình đó

một sự tương ứng giữa hai bộ điểm của ĐTN X và ĐTN Y được xác lập,

và điểm của ĐTN X được chuyển đổi sang thang đo và đơn vị đo của

ĐTN Y. Như vậy, một TS thu được một điểm x đối với ĐTN X sẽ có một

điểm chuyển đổi y* đối với ĐTN Y; điểm đó có thể so sánh với điểm y

của một TS làm ĐTN Y. Khi ra các quyết định cấp văn bằng, tuyển chọn,

cho đậu rớt… điểm-cắt xc đối với ĐTN X có thể chuyển đổi thành

điểm-cắt y*c đối với ĐTN Y, và điểm-cắt chuyển đổi đó có thể sử dụng để

ra các quyết định thích hợp đối với các TS làm ĐTN Y.

11.1. CÁC PHƯƠNG PHÁP SO BẰNG TRONG CTT

Nói chung các phương pháp so bằng cổ điển có hai loại: so bằng

theo phần trăm và so bằng tuyến tính.

179

- So bằng theo phần trăm được thực hiện khi xem các điểm của

ĐTN X và ĐTN Y là tương đương nếu thứ hạng phần trăm tương ứng

của chúng trong một nhóm bất kỳ nào cũng bằng nhau. Nói một cách

nghiêm khắc, để so bằng các điểm đối với hai ĐTN, các ĐTN phải được

ra cho cùng một nhóm TS. Trong thực tế, các quá trình thường được thực

hiện bằng cách ra các ĐTN cho các nhóm TS tương đương theo phân

phối ngẫu nhiên.

- Trong so bằng tuyến tính người ta giả định rằng điểm x của

ĐTN X và điểm y của ĐTN Y đều tuân theo phân bố chuẩn; x và y có

quan hệ tuyến tính với nhau, tức là

y = ax + b.

Các hệ số a và b có thể được xác định theo hệ thức:

y = ax + b

σy = aσx,

trong đó x, y và σx, σy tương ứng là giá trị trung bình và độ lệch

tiêu chuẩn của các điểm đối với ĐTN X và ĐTN Y. Từ đó:

a =x

y

; b = y -

x

y

x

y = x

y

(x-x) + y.

Nhờ biểu thức trên có thể đặt một điểm x trên metric của ĐTN Y.

Biểu thức trên chính là biểu thức biến đổi các điểm tiêu chuẩn theo các

thang đo khác nhau đã nêu ở (2.12) chương 2:

x

xx

=

y

yy

.

180

Điều giả định trong phép so bằng tuyến tính này là hai phân bố

điểm trắc nghiệm đều là phân bố chuẩn, chỉ khác nhau về giá trị trung

bình và độ lệch chuẩn. Khi giả định đó được tuân thủ thì phép so bằng

tuyến tính trở thành một trường hợp đặc biệt của phép so bằng phần trăm

tương đương, nói cách khác có thể xem nó là một tiệm cận của phép so

bằng phần trăm tương đương.

Từ bản chất của khái niệm so bằng Lord [4] đã nêu các điều kiện

hết sức nghiêm khắc sau đây:

1. Các ĐTN đo các năng lực tiềm ẩn khác nhau không thể so bằng.

2. Các điểm thô của các ĐTN có độ tin cậy khác nhau không thể so

bằng (vì nếu vậy, một điểm từ một ĐTN kém tin cậy có thể tương đương

với một điểm từ một ĐTN tin cậy).

3. Các điểm thô của các ĐTN có độ khó khác nhau không thể so bằng

(vì ĐTN sẽ không có độ tin cậy như nhau ở các mức năng lực khác nhau).

4. Các điểm trên ĐTN X và Y không thể so bằng nếu các ĐTN

không thật sự tương đương.

5. Các ĐTN có độ tin cậy hoàn hảo có thể so bằng.

• Equating is a process of deriving a function mapping score on an alternate form of a test onto the scale of the reference (anchor) form, such that after equating, any given scale score has the same meaning regardless of which test form was administered.

• So bằng là qui trình tìm một hàm nào đó để chuyển

điểm của thí sinh thu được từ một đề khảo sát nào đó

sang một thang điểm của một đề quy ước làm gốc

(reference). Xem lại .ppt của Lực.

• 5 basic “requirements” to score equating (Dorans & Holland, 2000)

– Equal Constructs

– Equal reliability

– Symmetry

181

– Equity

– Population Invariance

(Luc)

Ngoài các đòi hỏi trên để có thể so bằng, còn cần bổ sung hai điều

kiện: tính đối xứng và tính bất biến. Điều kiện đối xứng chỉ ra rằng phép

so bằng sẽ không phụ thuộc vào việc ĐTN nào được dùng làm chuẩn để

so sánh. Chẳng hạn, nếu một quy trình hồi quy được sử dụng để xác định

các hằng số trong công thức so bằng tuyến tính thì điều kiện đối xứng sẽ

không thỏa mãn nếu hệ số hồi quy để chuyển đổi từ x sang y khác với hệ

số hồi quy để chuyển đổi từ y sang x. Điều kiện bất biến chỉ ra rằng quy

trình so bằng là không phụ thuộc vào mẫu.

Các điều kiện trên đây, đặc biệt là điều kiện để so bằng, thường

không được thỏa mãn khi sử dụng các phương pháp so bằng cổ điển. Về

mặt lý thuyết thì IRT khắc phục tất cả các vấn đề đó. Nếu các mô hình

ứng đáp CH là trùng khớp với số liệu thì việc so sánh trực tiếp các tham

số năng lực của hai TS làm hai ĐTN khác nhau có thể thực hiện do tính

chất bất biến. Như vậy, về nguyên tắc nhu cầu so bằng các điểm trắc

nghiệm được xóa bỏ trong khuôn khổ IRT. Tuy nhiên, điều cần đảm bảo

là các tham số của CH và năng lực TS đối với hai ĐTN được phân bố

trên một thang đo chung (common scale). Do đó, thực ra trong khuôn

khổ IRT cần xác lập thang đo (scaling) chứ không phải cần so bằng

(equating). Tuy nhiên do thói quen người ta thường dùng hai thuật ngữ

nói trên đồng thời hoặc thay thế cho nhau.

11.2. CÁC PHƯƠNG PHÁP SO BẰNG – KẾT NỐI – XÁC LẬP THANG ĐO

THEO IRT

182

Theo IRT, tham số năng lực của một TS là bất biến đối với các

ĐTN khác nhau. Điều đó có nghĩa là, không kể sai số đo lường, các giá

trị ước lượng năng lực sẽ bất biến đối với các ĐTN khác nhau. Do đó nếu

có 2 TS làm hai ĐTN khác nhau mà trong đề đã biết các tham số của CH

thì sẽ thu được các giá trị ước lượng năng lực của họ trên cùng một thang

đo, tức là không cần xác lập thang đo hoặc so bằng gì cả.

Tuy nhiên, vấn đề sẽ khác khi chưa biết các giá trị ước lượng của

CH và năng lực TS. Khi ấy, như đã nói ở 8.2.3, có thể thay thế bằng *

= + , b bằng b* = b + và a bằng a* =a/ mà không ảnh hưởng

đến xác suất ứng đáp đúng CH (Đối với mô hình một tham số vì a=1 nên

chỉ cần thay bằng * = + , b bằng b* = b + ). Tính bất biến đó của

hàm ứng đáp CH đối với các chuyển đổi tuyến tính đưa vào một sự bất

định trong thang đo, bất định đó phải được khử trước khi ước lượng các

tham số. Một trong các cách khử sự bất định đó là tùy ý cố định thang đo

(hoặc b). Đối với mô hình 2 và 3 tham số cách thường sử dụng nhất

trong thực tế là đặt giá trị trung bình và độ lệch tiêu chuẩn của (hoặc b)

tương ứng bằng 0 và 1. Đối với mô hình 1 tham số giá trị trung bình của

(hoặc b) được đặt bằng 0. Các phần mềm tính toán thường mặc định

thực hiện điều này.

11.2.1. Một số trường hợp thực hiện định cỡ và xác lập thang đo

Chúng ta hãy xét một số trường hợp sử dụng cách định cỡ và xác

lập thang đo.

1. Trường hợp có hai nhóm thí sinh hoặc hai đề trắc nghiệm –

thực hiện so bằng

Hai nhóm TS làm một ĐTN:

Liên quan đến việc áp dụng trắc nghiệm trong thực tiễn, người ta

thường đòi hỏi một CH trắc nghiệm phải đảm bảo tính “công bằng” đối

với mọi TS, chẳng hạn hai TS một thuộc dân tộc thiểu số và một thuộc dân

tộc đa số có năng lực như nhau phải ứng đáp như nhau đối với CH đó. Để

xem xét việc đảm bảo tiêu chí đó người ta thường khảo sát chứng cứ thực

nghiệm về sự thiên lệch (bias). Một khái niệm khác có liên quan đến sự

thiên lệch là hiện tượng hai nhóm TS làm một CH trắc nghiệm nào đó có

183

sắc thái ứng đáp CH khác nhau (differential item functioning – DIF). Một

định nghĩa thường dùng về DIF là: “một CH có DIF nếu các TS có cùng

năng lực nhưng từ các nhóm khác nhau không đạt xác suất trả lời đúng CH

như nhau”. Chúng ta sẽ nghiên cứu sâu về khái niệm này sau.

Bây giờ giả sử việc ước lượng tham số CH và năng lực TS được

thực hiện riêng biệt đối với hai nhóm TS A và B. Trong quá trình ước

lượng cần cố định thang đo. Có 2 cách cố định: chuẩn hóa độ khó, tức là

cố định các giá trị trung bình và độ lệch tiêu chuẩn của độ khó (đặt chúng

tương ứng bằng 0 và 1); và chuẩn hóa các giá trị năng lực.

Trước hết xét trường hợp chuẩn hóa độ khó. Vì 2 nhóm TS cùng

làm một ĐTN nên các giá trị ước lượng tham số phải như nhau (trừ thăng

giáng do chọn mẫu) nếu mô hình trùng khớp với dữ liệu. Do đó việc xác

lập thang đo đối với các giá trị độ khó sẽ đặt các giá trị ước lượng tham

số CH và năng lực TS trên cùng một thang đo.

Trong trường hợp việc xác lập thang đo được thực hiện đối với các

giá trị năng lực, vì các giá trị trung bình và độ lệch tiêu chuẩn của năng

lực đối với hai nhóm TS thường không như nhau, việc chuẩn hóa về năng

lực sẽ làm cho các tham số CH nằm trên các thang đo khác nhau. Tuy

nhiên các tham số CH sẽ có quan hệ tuyến tính:

bA = bB + ,

aA = aB/,

trong đó bA và aA là các ước lượng tham số độ khó và độ phân biệt

trong nhóm A, và bB và aB là các giá trị tương ứng trong nhóm B. Vì và

đã được xác định, nên các ước lượng tham số CH trong nhóm B có thể

được đặt trên cùng thang đo như các ước lượng tham số CH trong nhóm A.

Đáng lưu ý hơn là việc so sánh các tham số năng lực trong nhóm A

với các tham số ấy trong nhóm B. Sử dụng các mối quan hệ như đối với

các giá trị b trên đây, mọi ước lượng năng lực B trong nhóm B có thể

được đặt trên cùng thang đo như trong nhóm A khi sử dụng mối quan hệ

tuyến tính:

*A= B+ ,

184

trong đó *A là giá trị của tham số B trên thang đo của nhóm A.

Một nhóm TS làm hai ĐTN:

Khi một nhóm TS làm hai ĐTN X và Y, vì tham số năng lực của

các TS làm hai ĐTN phải như nhau, nếu đặt giá trị trung bình và độ lệch

tiêu chuẩn của tương ứng bằng 0 và 1 thì các tham số của CH đối vơi

hai ĐTN được đặt trên cùng một thang đo. Tuy nhiên, nếu đặt giá trị

trung bình và độ lệch tiêu chuẩn của các tham số độ khó đối với mỗi

ĐTN tương ứng là 0 và 1 thì các giá trị tham số năng lực trong hai ĐTN

sẽ khác nhau và liên hệ bởi một biến đổi tuyến tính:

Y= X+ .

Các tham số của CH đối với các ĐTN X và Y được đặt trên cùng

một thang đo khi dùng mối quan hệ sau đây:

bY = bX + ,

aY = aX/.

Các ví dụ đã cho chứng tỏ rằng nếu cần so sánh các TS làm hai

ĐTN hoặc nếu cần đặt các CH từ các ĐTN khác nhau trên cùng một

thang đo thì việc định cỡ cần được thiết kế rất cẩn thận.

2. Trường hợp có nhiều nhóm thí sinh hoặc nhiều đề trắc

nghiệm - thực hiện kết nối

Bây giờ chúng ta hãy xét các trường hợp có nhiều nhóm TS làm

nhiều ĐTN khác nhau. Lúc đó không thể so bằng, mà cần các thiết kế

kết nối (linking). Trong nhiều trường hợp cần đặt các tham số CH từ hai

hay nhiều ĐTN trên cùng một thang đo chung. Điều đó là cần thiết để

có thể so sánh các mức độ khó khác nhau của các ĐTN và tạo điều kiện

để phát triển NHCH. Có 4 cách thiết kế kết nối để tạo lập thang đo các

tham số CH:

Thiết kế đơn nhóm:

Hai ĐTN cần kết nối được ra cho cùng một nhóm TS. Thiết kế này

đơn giản nhưng ít được áp dụng vì thời gian trắc nghiệm sẽ rất dài. Hơn

185

nữa, nếu hai ĐTN được cho làm nối tiếp nhau thì hiệu ứng mệt mỏi khi

làm đề sau sẽ ảnh hưởng đến tham số ước lượng và do đó ảnh hưởng đến sự

kết nối.

Thiết kế các nhóm tương đương:

Hai ĐTN cần kết nối được ra cho các nhóm tương đương (gồm các

TS được lựa chọn ngẫu nhiên) làm. Thiết kế này dễ áp dụng hơn và tránh

được hiệu ứng mệt mỏi.

Thiết kế các ĐTN có các CH neo:

Các ĐTN cần kết nối được ra cho hai nhóm TS khác nhau làm. Hai

ĐTN có một nhóm CH chung, được gọi là các CH neo. Thiết kế này có tính

khả thi cao và hay được sử dụng, và nếu chọn các CH neo thích hợp thì

tránh được các yếu điểm của thiết kế nhóm đơn hoặc nhóm tương đương.

Thiết kế có các TS chung:

Hai ĐTN cần kết nối được ra cho hai nhóm TS làm, trong đó một

nhóm con TS có mặt trong cả hai nhóm cùng làm hai ĐTN. Vì thời gian

làm bài sẽ lâu đối với nhóm chung nên thiết kế này cũng có cùng nhược

điểm như thiết kế nhóm đơn.

Trong các thiết kế nhóm đơn hoặc nhóm tương đương, khi một

nhóm TS hoặc các nhóm TS tương đương làm 2 ĐTN thì các phương

pháp được mô tả trong mục trước đây có thể được sử dụng để đặt các CH

trên cùng một thang đo. Khi xác định các hằng số thiết lập thang đo trong

thiết kế nhóm tương đương, cần các cặp giá trị năng lực tương ứng với

nhau, điều đó làm nảy sinh vấn đề, vì các nhóm khác nhau bao gồm các

TS khác nhau. Có một cách để tạo các cặp TS tương ứng là sắp xếp các

TS trong hai nhóm theo thứ tự và xem các TS có cùng thứ hạng là tương

đương với nhau.

Trong các thiết kế ĐTN có các CH neo, các tham số, và do đó các

giá trị ước lượng của chúng (không kể sai số chọn mẫu) trong hai ĐTN

sẽ có quan hệ tuyến tính, đó là

bYc = bXc + ,

186

aYc = aXc/,

trong đó bXc và bYc là các độ khó của các CH neo tương ứng trong

các ĐTN X và Y. Một khi các hằng số và đã được xác định, các giá

trị ước lượng tham số đối với mọi CH trong ĐTN X có thể được đặt trên

cùng thang đo với ĐTN Y. Các giá trị ước lượng tham số CH đối với các

CH neo trong ĐTN X và trong ĐTN Y sẽ không như nhau (vì có sai số ước

lượng), do đó sẽ được lấy trung bình.

Trong các thiết kế được mô tả trên đây, thiết kế ĐTN có các CH

neo là khả thi nhất. Do đó việc xác định các hằng số thiết lập thang đo

được bàn đến sau đây sẽ liên quan đến thiết kế có các CH neo.

11.2.2. Xác định các hằng số thiết lập thang đo

Các phương pháp xác định các hằng số thiết lập thang đo và

(hoặc chỉ hằng số đối với mô hình một tham số) sau đây thường được

sử dụng:

1. Phương pháp hồi quy;

2. Phương pháp trung bình và sigma.

3. Phương pháp trung bình và sigma mạnh.

4. Phương pháp đường cong đặc trưng.

Phương pháp hồi quy: Một khi đã thu được các giá trị ước lượng

tham số CH trong 2 nhóm, một quy trình hồi quy có thể được dùng để

xác định đường thẳng trùng khớp tốt nhất đi qua các điểm:

bYc = bXc + +e.

Số hạng e biểu thị sai số trùng khớp của đường thẳng vì không phải

mọi điểm đều nằm đúng trên đường, còn bYc và bXc là các ước lượng tham

số độ khó của CH đối với các CH neo trong ĐTN Y và X. Nếu sử dụng

các TS chung thì:

Yc = Xc + +e,

187

trong đó Yc và Xc là các ước lượng năng lực của một TS làm

tương ứng ĐTN Y và X.

Các ước lượng và của các hệ số hồi quy là

Yc

Xc

sα=r

s và Yc Xc

ˆ ˆβ=b -αb ,

trong đó r là hệ số tương quan giữa các giá trị ước lượng các tham

số độ khó đối với các CH neo, Ycb và Xcb là các giá trị trung bình, còn sYc

và sXc là các độ lệch tiêu chuẩn tương ứng. Đối với thiết kế có TS chung

thì các giá trị đó trong các biểu thức được thay thế bằng các giá trị tương

ứng đối với ước lượng năng lực.

Có một vấn đề đối với phương pháp hồi quy là nó không đáp ứng

điều kiện đối xứng. Thật vậy, vì các hệ số để tiên đoán bYc từ bXc là khác

với các hệ số để tiên đoán bXc từ bYc và không thể thu được một cách đơn

giản bằng cách chuyển đổi phương trình tiên đoán

bYc = ˆbˆXc .

Có nghĩa là không thể từ đó rút ra

bXc = Ycˆb -β

α.

Do đó cách tiếp cận hồi quy không phải là một quy trình thích hợp

để xác định các hằng số thiết lập thang đo.

Phương pháp trung bình và sigma:

Vì rằng

bYc = bXc +

nên suy ra

Yc Xcb =αb +β

sYc = sXc .

Do đó

= sYc /sXc

188

= Yc Xcb -αb .

Hơn nữa, vì rằng

bYc = bXc +

nên biến đổi từ bYc sang bXc có thể thu được theo biểu thức

bXc = Ycb -β

α.

Như vậy, phương pháp trung bình và sigma thỏa mãn đòi hỏi về

tính đối xứng (Khi sử dụng thiết kế có TS chung, các giá trị trung bình và

độ lệch tiêu chuẩn ước lượng tương ứng theo được sử dụng để xác định

và ).

Một khi và đã được xác định, các ước lượng tham số CH theo

ĐTN X được đặt trên cùng thang đo với ĐTN Y khi sử dụng các hệ thức

b*Y = bX +

a*Y = aX/,

trong đó b*Y và a*

Y là các giá trị độ khó và độ phân biệt của các CH

trong ĐTN X được đặt trên thang đo của ĐTN Y. Các ước lượng tham số

của các CH neo là các giá trị trung bình vì rằng chúng không hoàn toàn

như nhau do sai số ước lượng.

Đối với mô hình một tham số, các giá trị ước lượng độ khó của CH

đối với các CH neo liên hệ với nhau theo hệ thức

bYc = bXc +

và rằng =1. Từ đó suy ra

Yc Xcb =b +

và do đó

= Yc Xcb -b .

Như vậy, các giá trị ước lượng độ khó CH của ĐTN X được

chuyển đổi bằng cách thêm vào lượng sai khác của độ khó trung bình của

các CH neo.

Phương pháp trung bình và sigma mạnh: Trong phương pháp trung

bình và sigma mô tả trên đây không xét đến việc các tham số của CH

189

được ước lượng với độ chính xác khác nhau (tức là, một vài ước lượng

độ khó có sai số tiêu chuẩn lớn hơn các ước lượng khác). Lin (15) đã đề

nghị một phương pháp trung bình và sigma mạnh có xét đến việc các ước

lượng tham số với sai số tiêu chuẩn khác nhau. Mỗi một cặp giá trị

(bYci,bXci) đối với CH neo thứ i trong các ĐTN Y và X được gán các trọng

số bằng nghịch đảo của giá trị phương sai lớn hơn của hai ước lượng.

Cặp có phương sai lớn sẽ có trọng số bé, cặp có phương sai bé sẽ có

trọng số lớn. Phương sai của các ước lượng tham số thu được bằng cách

đảo ma trận thông tin và lấy phần tử đường chéo thích hợp. Đối với mô

hình 3 tham số ma trận thông tin có các cạnh 3x3, trong khi đối với mô

hình 1 tham số ma trận có các cạnh 1x1, tức là có một phần tử.

Các bước để tiến hành phương pháp trung bình và sigma mạnh có

thể tóm tắt như sau:

1. Đối với mỗi cặp (bYci,bXci) xác định trọng số wi theo biểu thức:

wi= [maximum{v(bYci), v(bXci)}]-1,

trong đó v(bYci) và v(bXci) là các phương sai của các ước lượng của

các CH neo.

2. Tính các trọng số:

' ii k

j

j=1

wW

w

trong đó k là số các CH neo trong ĐTN X và Y.

3. Tính các ước lượng đã được gán trọng số:

b'Yci = w'i b Yci,

b'Xci = w'i b Xci.

4. Xác định các giá trị trung bình và độ lệch tiêu chuẩn của các ước

lượng tham số CH có trọng số.

5. Xác định và nhờ các giá trị trung bình và độ lệch tiêu chuẩn

của các giá trị ước lượng có trọng số.

190

Phương pháp đường cong đặc trưng: Phương pháp trung bình và

sigma (và phiên bản sigma mạnh của nó) coi trọng mối quan hệ tồn tại

giữa các tham số độ khó và bỏ qua mối quan hệ tồn tại giữa các tham số

độ phân biệt trong việc xác định các hằng số để thiết lập thang đo.

Haebara (1980) [16] và Stoking và Lord (1983) [7] đã đề nghị phương

pháp “đường cong đặc trưng”, có tính đến thông tin có trong các tham số

về cả độ khó lẫn độ phân biệt.

Điểm thực τXa của một TS với năng lực θa ứng với k CH neo của ĐTN

X là:

τXa = ),,,(1

XciXciXci

k

i

a cabP

.

Tương tự, điểm thực τYa của một TS với cùng năng lực θa ứng với k

CH neo của ĐTN Y là:

τYa = k

a Yci Yci Yci

i=1

P(θ ,b ,a ,c ) .

Đối với bộ CH neo,

bYci = bXci +

aYci = aXci /,

cYci = cXci.

Các hằng số α và được chọn bằng cách cực tiểu hóa hàm F sau đây

F = N

2Xa Ya

a=1

1(τ -τ )

N

,

với N là số lượng TS. Hàm F là một hàm của và và là một chỉ

thị về sự khác biệt giữa τXa và τYa. Quy trình xác định và là một quy

trình tương tác, bạn đọc quan tâm có thể tìm hiểu ở [16] và [17].

Trong việc sử dụng cách thiết kế ĐTN có các CH neo thì số lượng

CH neo, và quan trọng hơn, các đặc trưng của chúng đóng vai trò quan

trọng đối với chất lượng của việc kết nối. Chẳng hạn, nếu các CH neo là

quá dễ đối với ĐTN này và quá khó đối với ĐTN kia thì các giá trị ước

lượng tham số thu được trong hai ĐTN sẽ không ổn định và sự kết nối sẽ

không tốt. Do đó, một điều rất quan trọng là các CH neo đều nằm ở

191

khoảng độ khó có thể chấp nhận đối với cả hai nhóm. Kinh nghiệm cho

thấy là các kết quả tốt nhất sẽ thu được nếu các CH neo là đại diện của

các CH của hai ĐTN cần liên kết. Hơn nữa, một điều quan trọng là phải

đảm bảo sao cho hai nhóm TS có phân bố năng lực tương tự, ít nhất là

đối với các CH neo. Thông thường số CH neo bằng khoảng từ 20% đến

25% của số lượng CH trong các ĐTN.

11.3. VÍ DỤ VỀ SO BẰNG – KẾT NỐI – XÁC LẬP THANG ĐO THEO IRT

Để minh họa việc áp dụng IRT trong bài toán so bằng – kết nối –

xác lập thang đo chung, dưới đây cũng sẽ mượn số liệu từ một nghiên

cứu của Việt Nam đã được giới thiệu ở mục 5.2 chương 5 [34].

Ví dụ ở phần này sẽ tập trung vào việc so bằng hai ĐTN tiếng Việt

năm 2001 (VIỆT01) và năm 2007 (VIỆT07). Đề VIỆT07 chính là đề

chính thức thu được từ việc chỉnh sửa đề thử nghiệm VIỆT1 đã giới thiệu

ở phần định cỡ ĐTN chương 8.

ĐTN VIỆT01 gồm 56 CH, triển khai trên 72.645 TS, ĐTN VIỆT07

gồm 40 CH, triển khai trên 59.405 TS. Hai ĐTN có 12 CH chung, dùng

để neo khi kết nối hai ĐTN. Bài toán so bằng được thực hiện theo trình

tự như sau: Bước 1, định cỡ và phân tích hai ĐTN riêng rẽ; bước 2, từ

các tham số của các CH neo xác định các hệ số biến đổi tuyến tính liên

kết giữa chúng với nhau, dựa vào đó để thu một bộ tham số chung cho

các CH neo; bước 3, định cỡ chung ĐTN kết nối trên toàn bộ số TS của

hai năm 2001 và 2007. Quá trình so bằng giới thiệu ở đây được thực hiện

bởi phần mềm VITESTA [19], mô hình được lựa chọn là mô hình Rasch

1 tham số. Dưới đây là một số kết quả cụ thể.

Các CH neo được sắp xếp ở cuối ĐTN VIỆT01 (CH 45-56) và

đầu ĐTN VIỆT07 (CH 1-12). Bảng 11.1a,b cho tham số độ khó b thu

được từ hai ĐTN VIỆT01 và VIỆT07 khi định cỡ riêng rẽ. Bảng 11.2

cho các tham số độ khó b của 12 CH khi định cỡ riêng rẽ bởi mẫu TS

năm 2001 và 2007 cùng độ chênh lệch giữa chúng, từ đó có thể thấy

tham số độ khó b của cùng một CH thu được từ hai ĐTN là khác nhau,

vì tính bất định nêu ở chương 3 và vì các điều kiện không đồng nhất

khác của hai mẫu TS 2001 và 2007. Hiệu của hai giá trị trung bình của

192

tham số độ khó của các CH neo tính được theo 2 mẫu TS 2001 và 2007

chính là hằng số hiệu chỉnh β thu được nhờ phương pháp trung bình và

sigma ở mục 11.2 nêu trên đây, và giá trị của chúng sau khi hiệu chỉnh

(độ khó của các CH neo vẫn còn sai khác). Để cảm nhận tường minh sự

khác nhau của việc ứng đáp các CH neo sau khi điều chỉnh của hai mẫu

TS 2001 và 2007, trên Hình 11.1 có biểu diễn các đường cong ĐTCH

của 12 CH neo. Bảng 11.3a và 11.3b cho giá trị của độ khó b tương ứng

của ĐTN VIỆT01 và VIỆT07 sau khi so bằng. Khi so bằng 2 ĐTN và

tính điểm TS, giá trị điểm trung bình năng lực của TS làm ĐTN

VIỆT01 được đặt ở giá trị 500 và độ lệch tiêu chuẩn được đặt bằng 100

(kiểu thang điểm ETS và các khảo sát quốc tế thường dùng, xem

chương 2), ta thu được giá trị điểm trung bình năng lực của TS làm

ĐTN VIỆT07 là 528, như vậy có thể thấy về trung bình trình độ tiếng

Việt của học sinh cuối lớp 5 ở nước ta sau 6 năm có tăng lên, từ 500 lên

528, độ gia tăng này có ý nghĩa vì sai số tiêu chuẩn vào cỡ 20. Bảng

trích 11.4 cho biết điểm thô, giá trị năng lực tính theo thang logit và

điểm biến đổi theo thang điểm ETS của một số trong 132.029 học sinh

lớp 5 ở nước ta. Để minh họa, trên các Hình 11.2a,b và Hình 11.3a,b có

biểu diễn tương ứng các đồ thị hàm thông tin và biểu đồ tương quan

năng lực TS và độ khó CH của hai ĐTN VIỆT01 và VIỆT07. Các hàm

thông tin của 2 ĐTN có dạng tương tự, tuy nhiên cực đại của hàm thông

tin ĐTN VIỆT01 lớn hơn của hàm thông tin ĐTN VIỆT07, vì VIỆT01

có nhiều CH hơn VIỆT07. Các biểu đồ tương quan giữa năng lực TS và

độ khó CH của 2 ĐTN cũng có hình dáng và phân bố khá giống nhau,

do đó chúng là các công cụ tốt giúp xác định và so sánh năng lực tiếng

Việt của học sinh tiểu học ở nước ta sau 6 năm.

Bảng 11.1.

a) Tham số độ khó b của ĐTN VIỆT01 theo kết quả phân tích riêng năm 2001 |-----------------------------| ¦ Câu| b | MSE | |-------+----------+----------|

¦ 1¦ -0.40680¦ 0.00871¦ ¦ 2¦ -1.25874¦ 0.01111¦ ¦ 3¦ 0.15392¦ 0.00855¦ ¦ 4¦ -0.55287¦ 0.00892¦ ¦ 5¦ -1.11822¦ 0.01049¦

193

¦ 6¦ -1.05829¦ 0.01026¦ ¦ 7¦ -0.81332¦ 0.00948¦ ¦ 8¦ -0.43235¦ 0.00874¦ ¦ 9¦ -0.31563¦ 0.00862¦ ¦ 10¦ -1.00026¦ 0.01005¦ ¦ 11¦ -1.56957¦ 0.01290¦ ¦ 12¦ -0.55967¦ 0.00893¦ ¦ 13¦ -1.14782¦ 0.01061¦ ¦ 14¦ -1.15667¦ 0.01065¦ ¦ 15¦ -1.22060¦ 0.01093¦ ¦ 16¦ 0.47833¦ 0.00890¦ ¦ 17¦ -0.21927¦ 0.00855¦ ¦ 18¦ -0.79621¦ 0.00943¦ ¦ 19¦ -1.31552¦ 0.01139¦ ¦ 20¦ -0.77621¦ 0.00938¦ ¦ 21¦ 0.66139¦ 0.00926¦ ¦ 22¦ -0.73066¦ 0.00927¦ ¦ 23¦ -0.92284¦ 0.00979¦ ¦ 24¦ -1.63503¦ 0.01336¦ ¦ 25¦ 0.21404¦ 0.00859¦ ¦ 26¦ 0.23056¦ 0.00860¦ ¦ 27¦ -1.63702¦ 0.01337¦ ¦ 28¦ -1.42598¦ 0.01199¦ ¦ 29¦ -1.25093¦ 0.01107¦ ¦ 30¦ -0.44895¦ 0.00877¦ ¦ 31¦ -0.16937¦ 0.00852¦ ¦ 32¦ 0.34421¦ 0.00872¦ ¦ 33¦ -0.23103¦ 0.00856¦ ¦ 34¦ -1.30792¦ 0.01135¦ ¦ 35¦ -0.51992¦ 0.00887¦ ¦ 36¦ -1.40554¦ 0.01188¦ ¦ 37¦ -0.38699¦ 0.00869¦ ¦ 38¦ 0.79425¦ 0.00959¦ ¦ 39¦ 0.03301¦ 0.00850¦ ¦ 40¦ -1.03777¦ 0.01018¦ ¦ 41¦ -0.02055¦ 0.00850¦ ¦ 42¦ 0.67120¦ 0.00928¦ ¦ 43¦ -0.40105¦ 0.00871¦ ¦ 44¦ -0.00491¦ 0.00850¦ ¦ 45¦ 0.40680¦ 0.00880¦ ¦ 46¦ -0.55488¦ 0.00892¦ ¦ 47¦ -0.36740¦ 0.00867¦ ¦ 48¦ -0.24192¦ 0.00856¦ ¦ 49¦ -1.42691¦ 0.01200¦ ¦ 50¦ -1.01329¦ 0.01009¦ ¦ 51¦ -0.65383¦ 0.00911¦ ¦ 52¦ -0.26461¦ 0.00858¦ ¦ 53¦ -0.59477¦ 0.00899¦ ¦ 54¦ -1.20899¦ 0.01088¦ ¦ 55¦ -0.86062¦ 0.00961¦ ¦ 56¦ -0.00325¦ 0.00850¦ |-----------------------------|

b) Tham số độ khó b của ĐTN VIỆT07 theo kết quả phân tích riêng

năm 2007 |-----------------------------|

¦ Câu | b | MSE |

|-------+----------+----------|

¦ 1¦ -0.17269¦ 0.00943¦

¦ 2¦ -1.04980¦ 0.01136¦

¦ 3¦ -0.89541¦ 0.01078¦

194

¦ 4¦ -0.67575¦ 0.01015¦

¦ 5¦ -1.33248¦ 0.01275¦

¦ 6¦ -0.94850¦ 0.01097¦

¦ 7¦ -0.90206¦ 0.01081¦

¦ 8¦ -0.39180¦ 0.00963¦

¦ 9¦ -0.47171¦ 0.00975¦

¦ 10¦ -1.01864¦ 0.01123¦

¦ 11¦ -1.03522¦ 0.01130¦

¦ 12¦ -0.37199¦ 0.00961¦

¦ 13¦ -0.17557¦ 0.00943¦

¦ 14¦ -0.52462¦ 0.00984¦

¦ 15¦ 0.33107¦ 0.00958¦

¦ 16¦ -0.70335¦ 0.01022¦

¦ 17¦ -0.08015¦ 0.00939¦

¦ 18¦ 0.45291¦ 0.00975¦

¦ 19¦ 0.43537¦ 0.00973¦

¦ 20¦ -0.15795¦ 0.00942¦

¦ 21¦ -0.80858¦ 0.01051¦

¦ 22¦ -0.67539¦ 0.01015¦

¦ 23¦ -0.01612¦ 0.00938¦

¦ 24¦ -0.68603¦ 0.01018¦

¦ 25¦ -0.54303¦ 0.00987¦

¦ 26¦ -1.14496¦ 0.01178¦

¦ 27¦ -0.50227¦ 0.00980¦

¦ 28¦ -0.20098¦ 0.00945¦

¦ 29¦ -0.22443¦ 0.00946¦

¦ 30¦ -0.93792¦ 0.01093¦

¦ 31¦ -0.89692¦ 0.01079¦

¦ 32¦ -0.73789¦ 0.01031¦

¦ 33¦ 0.35977¦ 0.00962¦

¦ 34¦ -1.15998¦ 0.01185¦

¦ 35¦ -0.99764¦ 0.01115¦

¦ 36¦ 0.03601¦ 0.00939¦

¦ 37¦ -0.82247¦ 0.01055¦

¦ 38¦ -0.27659¦ 0.00950¦

¦ 39¦ -0.75063¦ 0.01035¦

¦ 40¦ 0.28991¦ 0.00954¦

|-----------------------------|

195

Bảng 11.2. Độ khó b của các CH neo của hai ĐTN VIỆT01 và VIỆT07

tính theo ứng đáp riêng rẽ của hai mẫu TS 2001 và 2007

a) Trước khi hiệu chỉnh | Đề VIỆT01 | Đề VIỆT07

-----------------------------------------------------------------

| Câu 45 | 0.4067979 | Câu 1 | -0.1726923 |

| Câu 46 | -0.5548833 | Câu 2 | -1.049797 |

| Câu 47 | -0.3673979 | Câu 3 | -0.8954135 |

| Câu 48 | -0.2419222 | Câu 4 | -0.6757485 |

| Câu 49 | -1.426911 | Câu 5 | -1.332482 |

| Câu 50 | -1.013286 | Câu 6 | -0.9484966 |

| Câu 51 | -0.6538253 | Câu 7 | -0.9020628 |

| Câu 52 | -0.2646112 | Câu 8 | -0.391803 |

| Câu 53 | -0.5947695 | Câu 9 | -0.4717063 |

| Câu 54 | -1.208988 | Câu 10 | -1.018644 |

| Câu 55 | -0.8606218 | Câu 11 | -1.035222 |

| Câu 56 | -0.003254782 | Câu 12 | -0.3719883 |

----------------------------------------------------------------

TRUNG BINH : -0.5653061 TRUNG BINH : -0.7721714

ĐÔ LỆCH CHUÂN : 0.5177267 ĐÔ LỆCH CHUÂN : 0.3500517

SAU KHI HIỆU CHINH ĐÊ 2 THEO ĐÊ 1

HỆ SÔ CHUYÊN ĐÔI: ANFA = 1; BETA = -0.2068653

b) Sau khi hiệu chỉnh

(Độ khó b của các CH của ĐTN VIỆT07 đã được trừ cho giá trị β) -----------------------------------------------------------------

|Đề VIỆT01| b |Đề VIỆT07| b | Chênh lệch |

-----------------------------------------------------------------

| Câu 45 | 0.4067979 | Câu 1 | 0.03417304 | 0.3726249 |

| Câu 46 | -0.5548833 | Câu 2 | -0.8429314 | 0.2880481 |

| Câu 47 | -0.3673979 | Câu 3 | -0.6885482 | 0.3211503 |

| Câu 48 | -0.2419222 | Câu 4 | -0.4688832 | 0.2269610 |

| Câu 49 | -1.426911 | Câu 5 | -1.125617 | -0.3012946 |

| Câu 50 | -1.013286 | Câu 6 | -0.7416313 | -0.2716544 |

| Câu 51 | -0.6538253 | Câu 7 | -0.6951975 | 0.04137218 |

| Câu 52 | -0.2646112 | Câu 8 | -0.1849377 |-0.07967347 |

| Câu 53 | -0.5947695 | Câu 9 | -0.264841 |-0.32992850 |

| Câu 54 | -1.208988 | Câu 10| -0.8117784 |-0.39721000 |

| Câu 55 | -0.8606218 | Câu 11| -0.8283571 |-0.03226471 |

| Câu 56 | -0.00325478| Câu 12| -0.165123 | 0.1618682 |

-----------------------------------------------------------------

196

Bảng 11.3.

Độ khó các CH sau khi so bằng(*)

a) Đề VIỆT01 |--------------------------|

¦ Câu | b | MSE | |-------+----___---+----------|

¦ 1¦ -0.40680¦ 0.00871¦ ¦ 2¦ -1.25874¦ 0.01111¦ ¦ 3¦ 0.15392¦ 0.00855¦ ¦ 4¦ -0.55287¦ 0.00892¦ ¦ 5¦ -1.11822¦ 0.01049¦ ¦ 6¦ -1.05829¦ 0.01026¦ ¦ 7¦ -0.81332¦ 0.00948¦ ¦ 8¦ -0.43235¦ 0.00874¦ ¦ 9¦ -0.31563¦ 0.00862¦ ¦ 10¦ -1.00026¦ 0.01005¦ ¦ 11¦ -1.56957¦ 0.01290¦ ¦ 12¦ -0.55967¦ 0.00893¦ ¦ 13¦ -1.14782¦ 0.01061¦ ¦ 14¦ -1.15667¦ 0.01065¦ ¦ 15¦ -1.22060¦ 0.01093¦ ¦ 16¦ 0.47833¦ 0.00890¦ ¦ 17¦ -0.21927¦ 0.00855¦ ¦ 18¦ -0.79621¦ 0.00943¦ ¦ 19¦ -1.31552¦ 0.01139¦ ¦ 20¦ -0.77621¦ 0.00938¦ ¦ 21¦ 0.66139¦ 0.00926¦ ¦ 22¦ -0.73066¦ 0.00927¦ ¦ 23¦ -0.92284¦ 0.00979¦ ¦ 24¦ -1.63503¦ 0.01336¦ ¦ 25¦ 0.21404¦ 0.00859¦ ¦ 26¦ 0.23056¦ 0.00860¦ ¦ 27¦ -1.63702¦ 0.01337¦ ¦ 28¦ -1.42598¦ 0.01199¦ ¦ 29¦ -1.25093¦ 0.01107¦ ¦ 30¦ -0.44895¦ 0.00877¦ ¦ 31¦ -0.16937¦ 0.00852¦ ¦ 32¦ 0.34421¦ 0.00872¦ ¦ 33¦ -0.23103¦ 0.00856¦ ¦ 34¦ -1.30792¦ 0.01135¦ ¦ 35¦ -0.51992¦ 0.00887¦ ¦ 36¦ -1.40554¦ 0.01188¦ ¦ 37¦ -0.38699¦ 0.00869¦ ¦ 38¦ 0.79425¦ 0.00959¦ ¦ 39¦ 0.03301¦ 0.00850¦ ¦ 40¦ -1.03777¦ 0.01018¦ ¦ 41¦ -0.02055¦ 0.00850¦ ¦ 42¦ 0.67120¦ 0.00928¦ ¦ 43¦ -0.40105¦ 0.00871¦ ¦ 44¦ -0.00491¦ 0.00850¦ ¦ 45¦ 0.22049¦ 0.00880¦ ¦ 46¦ -0.69891¦ 0.00892¦ ¦ 47¦ -0.52797¦ 0.00867¦ ¦ 48¦ -0.35540¦ 0.00856¦ ¦ 49¦ -1.27626¦ 0.01200¦ ¦ 50¦ -0.87746¦ 0.01009¦ ¦ 51¦ -0.67451¦ 0.00911¦ ¦ 52¦ -0.22477¦ 0.00858¦ ¦ 53¦ -0.42981¦ 0.00899¦ ¦ 54¦ -1.01038¦ 0.01088¦ ¦ 55¦ -0.84449¦ 0.00961¦ ¦ 56¦ -0.08419¦ 0.00850¦ |--------------------------|

197

b) Đề VIỆT07 ------------------------------|

¦ Câu | b | MSE |

|-----------------------------| ¦ 1¦ 0.22049¦ 0.00943¦

¦ 2¦ -0.69891¦ 0.01136¦

¦ 3¦ -0.52797¦ 0.01078¦

¦ 4¦ -0.35540¦ 0.01015¦

¦ 5¦ -1.27626¦ 0.01275¦

¦ 6¦ -0.87746¦ 0.01097¦

¦ 7¦ -0.67451¦ 0.01081¦

¦ 8¦ -0.22477¦ 0.00963¦

¦ 9¦ -0.42981¦ 0.00975¦

¦ 10¦ -1.01038¦ 0.01123¦

¦ 11¦ -0.84449¦ 0.01130¦

¦ 12¦ -0.08419¦ 0.00961¦

¦ 13¦ 0.03129¦ 0.00943¦

¦ 14¦ -0.31775¦ 0.00984¦

¦ 15¦ 0.53794¦ 0.00958¦

¦ 16¦ -0.49649¦ 0.01022¦

¦ 17¦ 0.12671¦ 0.00939¦

¦ 18¦ 0.65977¦ 0.00975¦

¦ 19¦ 0.64223¦ 0.00973¦

¦ 20¦ 0.04891¦ 0.00942¦

¦ 21¦ -0.60171¦ 0.01051¦

¦ 22¦ -0.46852¦ 0.01015¦

¦ 23¦ 0.19074¦ 0.00938¦

¦ 24¦ -0.47916¦ 0.01018¦

¦ 25¦ -0.33616¦ 0.00987¦

¦ 26¦ -0.93809¦ 0.01178¦

¦ 27¦ -0.29541¦ 0.00980¦

¦ 28¦ 0.00588¦ 0.00945¦

¦ 29¦ -0.01757¦ 0.00946¦

¦ 30¦ -0.73105¦ 0.01093¦

¦ 31¦ -0.69005¦ 0.01079¦

¦ 32¦ -0.53103¦ 0.01031¦

¦ 33¦ 0.56664¦ 0.00962¦

¦ 34¦ -0.95311¦ 0.01185¦

¦ 35¦ -0.79077¦ 0.01115¦

¦ 36¦ 0.24288¦ 0.00939¦

¦ 37¦ -0.61560¦ 0.01055¦

¦ 38¦ -0.06972¦ 0.00950¦

¦ 39¦ -0.54377¦ 0.01035¦

¦ 40¦ 0.49677¦ 0.00954¦

|-----------------------------|

*) Các giá trị độ khó b của các CH neo bằng trung bình của các giá trị

tương ứng của ĐTN VIỆT01 và VIỆT07 khi phân tích riêng rẽ (Bảng 11.2a,b)

198

Bảng 11.4. Trích điểm thô, điểm năng lực θ, và điểm thực quy đổi theo thang điểm ETS của các ĐTN VIỆT01 và VIỆT07 được đặt trên thang điểm

chung

STT SBD Năng lực

θ

Sai số

tiêu chuẩn Đúng/Tổng

Điểm kiểu

ETS

1 10101031011 2.10463 1.02190 55/56 782.50

2 10101031021 2.53838 1.44499 56/56 840.72

3 10101031031 2.53838 1.44499 56/56 840.72

4 10101031041 2.10463 1.02190 55/56 782.50

5 10101031051 2.10463 1.02190 55/56 782.50

6 10101031061 1.21130 0.54220 52/56 662.59

7 10101031071 1.21130 0.54220 52/56 662.59

8 10101031081 2.10463 1.02190 55/56 782.50

9 10101031091 1.67089 0.73768 54/56 724.28

10 10101031101 0.60513 0.39380 47/56 581.23

……………………………………………………………………….…

59375 82515152022 -0.03739 0.34716 24/39 494.98

59376 82515152052 0.73048 0.43875 33/40 598.05

59377 82515152082 0.52353 0.40250 31/40 570.27

59378 82515152122 0.03430 0.35117 25/40 504.60

59379 82515152142 -0.51703 0.34173 17/40 430.60

59380 82515152032 0.62256 0.41862 32/40 583.57

59381 82515152062 -1.22627 0.41101 8/40 335.40

59382 82515152092 0.10784 0.35617 26/40 514.48

59383 82515152132 0.10784 0.35617 26/40 514.48

59384 82515152152 -0.03739 0.34716 24/40 494.98

199

Hình 11.1. Sự ứng đáp khác biệt đối với các CH neo từ hai mẫu TS năm 2001 và 2007

200

Hình 11.2a. Đường cong hàm thông tin của ĐTN VIỆT01

Hình 11.2b. Đường cong hàm thông tin của ĐTN VIỆT07

Hình 11.3a. Biểu đồ tương quan giữa năng lực của TS và độ khó của ĐTN VIỆT01

201

Hình 11.3b. Biểu đồ tương quan giữa năng lực của TS và độ khó của ĐTN VIỆT07

Các phương pháp so bằng theo lý thuyết trắc nghiệm cổ điển có

nhiều nhược điểm, mà quan trọng nhất là chúng không thỏa mãn các điều

kiện để so bằng. Các phương pháp IRT loại trừ sự cần thiết phải so bằng

vì tính bất biến của các năng lực TS và tham số CH. Tuy nhiên, vì việc

thiết lập thang đo là cần thiết để hạn chế tính bất định trong các mô hình

ứng đáp CH, các tham số về năng lực TS và độ khó CH sẽ chỉ bất biến

với một phép biến đổi tuyến tính, có nghĩa là các tham số của CH và

năng lực TS của cùng các CH và cùng các TS sẽ có quan hệ tuyến tính

trong hai nhóm. Một khi các quan hệ tuyến tính được xác lập, các ước

lượng của tham số CH và ước lượng của năng lực TS có thể đặt trên cùng

một thang đo chung. Quy trình đó, thường gọi là kết nối (linking) và thiết

lập thang đo (scaling), có thể thực hiện nhờ một số thiết kế. Thiết kế

quan trọng nhất là thiết kế ĐTN có các CH neo, trong đó hai ĐTN có

chứa một nhóm CH chung được ra cho hai nhóm TS khác nhau làm. Khi

sử dụng các CH chung có thể xác định các hệ số biến đổi tuyến tính liên

quan đến các tham số của CH đối với hai ĐTN bằng một phương pháp

nào đó. Sau khi biết được dạng thức biến đổi tuyến tính các ước lượng

của năng lực TS và tham số CH có thể đặt trên một thang đo chung. Bạn

202

đọc quan tâm đến các phương pháp so bằng có thể tham khảo công trình

tổng hợp của M.J. Kolen và R.Brennan (2004) [18].

______________________

CÂU HỎI TỰ KIỂM TRA

1. Tầm quan trọng của việc so bằng điểm trắc nghiệm trong thực

tiễn? Mô tả tổng quát về quá trình so bằng.

2. Mô tả phép so bằng tuyến tính trong CTT. Điều kiện mặc định

của so bằng tuyến tính là gì? Nêu vài ví dụ về so bằng tuyến tính lấy từ

chương 2.

a. Quan niệm của Lord về điều kiện để so bằng.

b. Tại sao người ta nói về nguyên tắc trong IRT không cần so bằng?

c. Nêu các cách kết nối cơ bản để tạo lập thang đo chung trong IRT.

d. Mô tả quy trình kết nối và tạo lập thang đo chung trong thiết kế

các ĐTN có các CH neo.

BÀI TẬP

Hai ĐTN A và B có 10 CH chung bắc cầu được cho hai nhóm TS

làm, và mô hình 3 tham số phù hợp với số liệu. Giá trị trung bình và độ lệch

tiêu chuẩn của các giá trị b của các CH chung được cho ở bảng sau đây:

ĐTNA ĐTNB

Trung bình 4,2 3,5

Độ lệch chuẩn 2,2 1,8

Tham số độ khó và độ phân biệt của một CH trong ĐTN B tương

ứng là 1,4 và 0,9. Hãy đặt các giá trị đó trên cùng thang đo của ĐTN A.

203

Chương 12

TRẮC NGHIỆM NHỜ MÁY TÍNH

Trắc nghiệm có thể thực hiện trên giấy (paper-and-pencil - PAP),

cũng có thể thực hiện trên máy tính và mạng máy tính. Trắc nghiệm nhờ

máy tính (computer-based testing - CBT) được thực hiện trong những

điều kiện khác biệt với trắc nghiệm trên giấy nên cần được thiết kế cho

thích hợp. Với sự phổ biến của máy tính cá nhân và mạng máy tính,

mạng Internet, CBT được sử dụng ngày càng phổ biến. Hơn nữa, sự phát

triển của IRT cũng giúp nâng cao hiệu quả của CBT, đặc biệt giúp thiết

kế các phương pháp trắc nghiệm thích ứng nhờ máy tính (computerised

adaptive testing - CAT) có hiệu quả cao.

Chương này dành để trình bày phương pháp CBT phổ biến và sau

đó có đưa ra một ví dụ có tính giáo khoa về CAT.

12.1. ĐẶC ĐIỂM CỦA TRẮC NGHIỆM NHỜ MÁY TÍNH

VÀ CÁC HỆ THỐNG HỖ TRỢ

12.1.1. Một số đặc điểm của trắc nghiệm nhờ máy tính

So với trắc nghiệm trên giấy việc triển khai CBT đòi hỏi nhiều đầu

tư phức tạp hơn để đảm bảo chất lượng, và đôi khi giá thành đắt hơn. Do

đó để tăng tính khả thi và chất lượng CBT phải đảm bảo cung cấp các

thiết bị, phương tiện với các tính năng thích hợp (máy tính, hệ thống máy

tính, sự kết nối để truyền tín hiệu, dải thông và tốc độ đường truyền...),

đồng thời phải có các phần mềm tương ứng được sử dụng cho các loại

mô hình triển khai CBT khác nhau. Khi ấy cơ sở dữ liệu bao gồm nhiều

thông tin đa phương tiện (âm thanh, hình ảnh...) cần được truyền và xử lý

trong thời gian trắc nghiệm thực, và trắc nghiệm phải đồng thời được

triển khai cho số đông TS, ứng phó với tình trạng kẹt đường truyền.

204

CBT có thể thiết kế cho các kỳ thi không có giám thị hoặc các kỳ

thi có giám thị. Khi không có giám thị, vấn đề chống quay cóp phải được

tính đến. Trắc nghiệm trực tuyến qua Internet có thể triển khai khi TS

ngồi ở bất kỳ nơi nào có máy tính nối mạng, tuy nhiên vấn đề xác định

đúng người làm trắc nghiệm hiện nay vẫn đang còn là một khó khăn. Do

đó việc sử dụng trắc nghiệm trực tuyến tại các địa điểm định sẵn có giám

thị thường được sử dụng để đối phó với khó khăn này.

Các phần giới thiệu các loại CBT dưới đây được dựa vào công

trình tổng hợp của F. Drasgow, R.M. Luecht vaf R.E. Bennett trong [13].

12.1.2. Đòi hỏi đối với các phầm mềm hỗ trợ trắc nghiệm nhờ máy tính

Một phần mềm hỗ trợ cho trắc nghiệm nhờ máy tính thường phải

thực hiện các thao tác sau đây:

Giải mã và cấu trúc lại các tệp dữ liệu nguồn;

Tiếp nhận, kiểm tra và cho phép TS thực hiện;

Chọn các CH cho TS làm (theo một dãy xác định, ngẫu nhiên hoặc

theo cách nào đó, chẳng hạn dựa vào tính thích ứng...);

Hướng dẫn và theo dõi việc di chuyển của TS xuyên qua toàn bộ ĐTN;

Trình diễn các CH của ĐTN và đưa ra các câu trả lời để bổ sung

các kích hoạt, tương tác của các CH;

Ghi nhận và lưu giữ các câu trả lời;

Tiến hành kiểm tra thời gian (ví dụ buộc kết thúc một phần) và

cung cấp chỉ thị thời gian cho TS;

Cho điểm tức thời cho các câu trả lời – việc này có thể cần đối với

trắc nghiệm thích ứng cũng như đối với việc cho điểm kết thúc, nếu điểm

đó cần thông báo cho TS;

Ghi nhận kết quả và chuyển đến nơi lưu trữ.

Các phần mềm trắc nghiệm được thiết kế khác nhau để thực hiện

các thao tác nêu trên tùy theo các thể loại trắc nghiệm khác nhau.

Thường mỗi phần mềm hỗ trợ cho một hoặc vài mô hình cung cấp CBT.

205

Các mô hình CBT thường khác nhau ở mức độ thích ứng, độ lớn và dạng

của các đơn vị ĐTN, tốc độ và các giao diện được sử dụng.

- Một đặc trưng cơ bản đầu tiên của các mô hình CBT là mức độ

thích ứng mà ĐTN tạo nên. Cơ chế cơ bản đối với một trắc nghiệm thích

ứng rất đơn giản. Từ các chương trước có thể thấy rõ là một ĐTN có thể

đo chính xác nhất năng lực của một TS nếu độ khó của ĐTN tương ứng

với năng lực TS. Do đó một ĐTN duy nhất không thể đo lường năng lực

của mọi TS với độ chính xác như nhau. Vì vậy, tốt nhất là cung cấp cho

mỗi TS một ĐTN được thiết kế riêng “thích ứng” (“may đo” – tailored)

với năng lực của TS đó.

Trong lịch sử, trắc nghiệm thích ứng đầu tiên là trắc nghiệm trí tuệ

do Binet thiết kế từ năm 1908. Nhưng các nghiên cứu bài bản được triển

khai bởi F. Lord áp dụng cho ETS vào cuối thập niên 1960 để khắc phục

tình trạng độ chính xác của phép đo giảm nhiều đối với các TS có năng

lực rất cao và rất thấp. Lord thấy rằng có thể giảm độ dài của các ĐTN

nhiều mà không ảnh hưởng đến độ chính xác của phép đo nếu ĐTN được

thiết kế cung cấp thông tin cực đại về năng lực của TS. Trắc nghiệm

thích ứng chỉ khả thi khi được các máy tính tương đối mạnh hỗ trợ lưu

trữ nhiều thông tin của các CH, sinh đề, điều khiển ứng đáp, cho điểm …

trong quá trình thi, do đó nó bắt đầu phát triển mạnh vào cuối thập niên

1970. Hơn nữa, IRT đặc biệt thích hợp với CAT vì nó cho phép thu được

các ước lượng năng lực của TS không phụ thuộc vào tập hợp các CH tạo

nên ĐTN. Tuy mỗi TS được làm một ĐTN khác nhau về độ khó nhưng

đặc điểm nêu trên cung cấp một cái thang để so sánh các năng lực ước

lượng được của TS. Theo Hambleton [11], mô hình IRT thích hợp nhất

đối với CAT là mô hình 3 tham số, vì nó phù hợp tốt nhất với dữ liệu CH

NLC so với mô hình 1 và 2 tham số.

Một trắc nghiệm thích ứng thiết kế độ khó của các CH trong ĐTN

phù hợp với năng lực biểu hiện nào đó của mỗi TS. Mục tiêu của một

trắc nghiệm thích ứng thuần túy là cực đại hóa độ tin cậy của ĐTN (độ

chính xác của điểm số) đối với từng TS, dù TS đó có năng lực ở mức độ

nào. Các CH quá dễ hoặc quá khó đối với một TS không đóng góp bao

nhiêu vào việc tăng độ tin cậy của việc đo lường năng lực, tức là việc cho

206

điểm số đánh giá TS. Bằng cách thiết kế độ khó của các CH tương ứng

với năng lực của một TS xác định, có thể làm cho độ tin cậy của các

điểm trắc nghiệm đạt giá trị cực đại.

- Đặc trưng thứ hai của mô hình CBT là các đơn vị ĐTN được sử

dụng để triển khai trắc nghiệm. Trong trường hợp thông thường đơn vị ấy

bao gồm chỉ một CH duy nhất. Tuy nhiên người ta cũng sử dụng tập hợp

một nhóm CH để triển khai trắc nghiệm, gọi là “phân đề” (testlet). TS có

thể chọn phân đề theo nhiều cách: chọn ngẫu nhiên từ một tập hợp nhiều

phân đề, chọn theo trình tự từ một danh mục, hoặc là chọn theo một thuật

toán thích ứng.

- Tốc độ cũng là một đặc trưng của mô hình CBT. Ở các trung tâm

trắc nghiệm thương mại, thời gian trắc nghiệm thường được giới hạn vì

thông thường thời gian tỷ lệ với giá thành. Tuy nhiên cung cấp đủ thời gian

để TS trả lời là một điều kiện để đảm bảo tính đơn chiều của trắc nghiệm.

- Một đặc trưng khác của CBT là cách dịch chuyển. Có hai cách

dịch chuyển: hoặc theo một thiết kế xác định, hoặc theo kết quả ứng đáp

của bước trước đó. Một số phần mềm cho phép TS xem qua mọi CH của

ĐTN, trả lời và đánh dấu các CH còn phân vân để cuối cùng quay lại sửa

đổi. Chỉ khi nào TS thỏa mãn và “giao nộp” (submit) phân đề trắc nghiệm

thì sau đó TS mới bị cấm thay đổi.

12.2. MỘT SỐ MÔ HÌNH TRIỂN KHAI TRẮC NGHIỆM NHỜ MÁY TÍNH

Có nhiều mô hình triển khai trắc nghiệm nhờ máy tính, tuy nhiên

chúng ta sẽ chỉ xem xét các mô hình thông dụng sau đây: 1) Các trắc

nghiệm cố định nhờ máy tính; 2) Các trắc nghiệm di chuyển thẳng;

3) Các trắc nghiệm thích ứng dựa vào CH; 4) Các trắc nghiệm thích ứng

dựa vào phân đề; 5) Các trắc nghiệm thích ứng có cấu trúc đa giai đoạn.

12.2.1. Các trắc nghiệm cố định nhờ máy tính

Các trắc nghiệm cố định nhờ máy tính (Computerized Fixed Tests -

CFT) là một mô hình triển khai bao gồm rất nhiều ĐTN xây dựng trước

được máy tính cung cấp. Các TS khác nhau có thể tiếp xúc với các ĐTN

khác nhau về dạng thức và trình tự CH, tuy rằng ĐTN có mọi CH như

nhau. Khi sử dụng mô hình này một vài ĐTN được cung cấp để cho từng

207

TS lựa chọn theo một kiểu ngẫu nhiên. Các ĐTN khác nhau là tương

đương (parallel), tức là đồng nhất về nội dung và như nhau về độ khó.

Các ĐTN CFT là tương tự với các ĐTN trên giấy (PAP) có các CH cố

định. Biện pháp đảo thứ tự các CH và thứ tự các phương án chọn nhằm

mục đích đề phòng TS cóp bài của nhau. Tuy nhiên, nhiều nghiên cứu

cho thấy vị trí CH trong ĐTN có thể ảnh hưởng lên độ khó của CH, do

hiệu ứng mệt mỏi và nhiều lý do khác.

12.2.2. Các trắc nghiệm di chuyển thẳng nhờ máy tính

Các trắc nghiệm di chuyển thẳng nhờ máy tính (Linear-on-the-Fly

Tests - LOFT) là một loại hình CBT gần với CFT. Tuy nhiên, khác với

CFT, LOFT kết hợp với thuật toán tạo ĐTN tại chỗ (trong thời gian thực)

xem như một chức năng của phần mềm CBT tạo nên cho mỗi TS một

ĐTN duy nhất (nhưng không phải thích ứng). CTT hoặc IRT có thể sử

dụng để tạo ra các ĐTN ngẫu nhiên tương đương cho LOFT. Có hai cách

dùng mô hình LOFT: tạo sẵn ĐTN tự động từ trước, hoặc tạo ĐTN ngay

tại chỗ. Ưu điểm của việc tạo sẵn ĐTN từ trước là các chuyên gia trắc

nghiệm có thể duyệt trước các đề.

Ưu điểm quan trọng của mô hình LOFT là nhiều ĐTN có thể xây

dựng ngay tại chỗ từ cùng một kho CH. Hơn nữa, có một phần CH trùng

lặp giữa các ĐTN cho phép xem xét quan hệ giữa các ĐTN. Khi xây

dựng ĐTN ngay tại chỗ, thuật toán xây dựng ĐTN có thể hạn chế bớt

việc một số CH xuất hiện quá nhiều lần. Mô hình LOFT cũng có các ưu

điểm như mô hình CFT, nhưng hiệu quả sử dụng kho CH cao hơn.

12.2.3. Các trắc nghiệm thích ứng nhờ máy tính dựa vào câu hỏi

Các trắc nghiệm thích ứng nhờ máy tính dựa vào CH (Item-Level

Computer Adaptive Testing - CAT) là trắc nghiệm thích ứng, hoặc trắc

nghiệm “may đo”, tạo nên các độ khó của ĐTN thích hợp với từng TS,

theo từng CH. Ý tưởng sử dụng máy tính để làm cho độ khó của một CH

phù hợp với năng lực của một TS đã được Lord đề xuất trước đây [5].

Dưới dạng sơ khai nhất của CAT, quá trình “may đo” đó được sử dụng

bằng cách theo dõi việc ứng đáp của một TS đối với một CH của ĐTN rồi

sử dụng thông tin đó để chọn CH được đưa ra tiếp theo. Mô hình CAT do

đó được phát triển tiếp nối trong thời gian thực bằng các phần mềm trắc

208

nghiệm dùng cách lựa chọn CH đơn giản theo thuật toán thử nghiệm

(heuristic). Trong CAT, tiêu chuẩn trước hết để lựa chọn CH là cực đại hóa

hàm thông tin và do đó cực tiểu hóa sai số đo lường của điểm TS.

Trên Hình 12.1 có minh họa về quá trình có hai TS giả định ứng

đáp 50 CH. Thang thẳng đứng chỉ năng lực θ từ -3 đến 3 logit. Dãy 50

CH thích ứng được chỉ trên trục nằm ngang. Giả sử cả 2 TS bắt đầu từ

giá trị ước lượng năng lực ở mức 0. Sau khi đưa ra CH đầu tiên, các điểm

năng lực ước lượng được bắt đầu tách ra. Qua quá trình trả lời 50 CH, các

điểm năng lực của hai TS được tách ra một cách có hệ thống để TS A tiệm

cận dần giá trị +1,0 và TS B tiệm cận dần giá trị -1,0. Độ khó của 50 CH

được chọn lọc đối với mỗi ứng đáp thích hợp của TS sẽ tiến dọc theo các

điểm năng lực được ước lượng: các CH cho TS A sẽ khó hơn các CH cho

TS B. Hình 12.1 cũng biểu diễn các sai số ước lượng dựa theo CAT. Độ

rộng của mỗi khoảng sai số hai bên điểm năng lực giảm dần trong tiến

trình ứng đáp: từ phía mép trái khoảng sai số khá rộng, qua gần một nửa

tiến trình CAT khoảng sai số giảm nhanh. Sau khoảng chừng 20 CH

khoảng sai số bắt đầu ổn định, có giảm nhưng chậm hơn.

Hình 12.1. Ví dụ về quy trình CAT được thực hiện bởi hai thí sinh A và B

Có một số phương pháp để dừng tiến trình CAT: 1) Có thể sử dụng

các ĐTN có độ dài cố định, việc dừng tiến trình được thực hiện mà không

209

căn cứ vào sai số xác định điểm năng lực của TS; 2) Đưa ra một độ chính

xác đòi hỏi nào đó, khi đạt được độ chính xác đó thì dừng tiến trình.

Dựa vào tình huống trắc nghiệm người ta có thể chọn một trong hai

phương pháp nêu trên để dừng tiến trình. Đối với trắc nghiệm theo

chuẩn, trong đó các tiêu chuẩn thực hiện đã được xác định cho ĐTN, tiêu

chí về sai số tiêu chuẩn cực tiểu thường được sử dụng. Khi ấy trắc

nghiệm của một TS được dừng lại khi sai số đo đối với điểm năng lực

của TS đạt thấp hơn một ngưỡng nào đó. Đối với trắc nghiệm đánh giá

mức độ thành thạo, hoặc trắc nghiệm theo tiêu chí, ví dụ trắc nghiệm để

tuyển sinh, để cấp chứng chỉ, tiến trình được dừng lại khi biết rõ năng lực

của TS cao hơn hoặc thấp hơn một điểm ngưỡng nào đó, điểm chuẩn

hoặc điểm sàn.

Hình 12.2. So sánh sai số tiêu chuẩn đạt được nhờ CAT và đạt được nhờ trắc nghiệm chọn đề ngẫu nhiên

Ưu điểm nổi bật của CAT là tăng hiệu quả trắc nghiệm, tức là tăng

độ chính xác phép đo năng lực của TS khi sử dụng ít CH hơn so với các

loại trắc nghiệm không thích ứng. Hiệu quả đó đạt được bằng cách tránh

cho TS phải trả lời nhiều CH quá khó hoặc quá dễ so với năng lực của

anh ta. Do đó ĐTN CAT thường ngắn hơn nhiều so với một ĐTN tương

ứng trên giấy. Nói chung, để đạt một độ chính xác như nhau cho một

210

phép đo năng lực, một ĐTN CAT cần khoảng một nửa số CH so với một

ĐTN không thích ứng. Hình 12.2 mô tả hiệu quả thu được khi sử dụng

CAT so với khi sử dụng một trắc nghiệm lựa chọn CH ngẫu nhiên.

Đường liền cho thấy sai số tiêu chuẩn trung bình của ước lượng năng lực

qua 50 CH theo CAT, còn đường chấm chấm là giá trị tương ứng theo

cách chọn ngẫu nhiên. Theo CAT chỉ sau 20 CH có thể đạt độ chính xác

ước lượng tương đương với cách chọn ngẫu nhiên sau 50 CH.

12.2.4. Các trắc nghiệm thích ứng nhờ máy tính dựa vào phân đề

Trắc nghiệm thích ứng dựa vào phân đề (testlet) là trắc nghiệm dựa

vào các nhóm CH tạo thành các phân đề cho một TS chứ không phải dựa

vào chỉ một CH đơn lẻ. Như vậy, phần mềm cho trắc nghiệm này phải:

1) xem phân đề là đơn vị thích ứng; 2) chấm điểm các phân đề tức khắc

(trong thời gian thực); 3) chọn các phân đề tiếp theo để trắc nghiệm;

4) kết thúc trắc nghiệm khi phân đề cuối cùng được hoàn thành hoặc khi

đạt được một tiêu chí dừng máy nào đó.

Phân đề có thể là một nhóm CH liên quan đến một đoạn bài đọc,

liên quan đến một hình ảnh hoặc một nội dung nào đó. Sau khi TS hoàn

thành xong một phân đề, máy tính ghi điểm của phân đề đó và chọn phân

đề để làm tiếp. Như vậy, dạng trắc nghiệm này là thích ứng ở cấp độ

phân đề chứ không phải ở cấp độ CH. Cách tiếp cận này cho phép kiểm

soát nội dung kỳ thi và cho phép TS bỏ qua, xem lại và thay đổi câu trả

lời trong một nhóm CH. Nó cũng cho phép kiểm tra lại nội dung và tham

số đo lường của nhóm CH trước khi cho thi.

12.2.5. Các trắc nghiệm thích ứng nhờ máy tính cấu trúc đa giai đoạn

Các trắc nghiệm thích ứng nhờ máy tính cấu trúc đa giai đoạn

(Structured Computer Adaptive Multistage Tests – ca-MST) là các trắc

nghiệm thích ứng tự thực hiện có sử dụng phân đề. Loại trắc nghiệm này

được sử dụng nhiều trong những năm gần đây.

Về tính năng, ca-MST là một mô hình phân đề thích ứng đa giai

đoạn được tạo lập trước. Mô hình sử dụng một kỹ thuật thiết kế mạnh kết

hợp được các công nghệ thích ứng đa giai đoạn và tạo đề tự động theo

một kiểu cho phép người thiết kế ĐTN đảm bảo được một sự kiểm soát

cao hơn đối với chất lượng các ĐTN và dữ liệu.

211

Đơn vị cơ bản của ca-MST là các môđun hoặc phân đề, là các

nhóm CH được tạo lập sẵn có độ lớn từ vài ba cho đến hàng trăm CH.

Các môđun có thể bao gồm các CH rời rạc hoặc các CH ứng với cùng

một đoạn văn hoặc hình ảnh. Các môđun hoặc phân đề này thường có các

đặc trưng thống kê xác định (chẳng hạn có độ khó trung bình hoặc mức

chính xác xác định), và một cụm nội dung nào đó được đưa vào trong

một cấu trúc môđun. Tiếp đến, các môđun trắc nghiệm được tập hợp vào

một “bảng” (panel) và được gán cho một giai đoạn trắc nghiệm riêng biệt

trong bảng. Cách tiếp cận ghép các CH vào các môđun và ghép các

môđun vào các bảng làm cho việc trắc nghiệm thích ứng có thể thực hiện

được trong một mô hình ca-MST và sau đó cung cấp một cách cụ thể để

kiểm tra việc đưa ra các CH và/hoặc các môđun theo thời gian, thông qua

việc sử dụng lại và các quy tắc trùng lặp liên quan với các bảng.

Từ phía TS, mô hình ca-MST thể hiện như một trắc nghiệm đa giai

đoạn theo đường thẳng. Hình 12.3 biểu diễn một ca-MST 3 giai đoạn như

là một dãy gồm 3 môđun. Sau mỗi giai đoạn, chu trình trắc nghiệm và

cho điểm lại bắt đầu. Chu trình cho điểm và trắc nghiệm có thể bao gồm

cả việc thích ứng và ra quyết định, nhưng TS không nhìn thấy các quyết

định đó.

Hình 12.3. Ví dụ các trắc nghiệm thích ứng nhờ máy tính cấu trúc đa giai đoạn.

Cần lưu ý là việc tạo lập tự động ĐTN phải đảm bảo sao cho từng phân

đề được xây dựng trước đáp ứng được mọi đặc trưng thống kê và nội dung.

Như một phần của việc tạo lập tự động các ĐTN, mỗi phân đề xây

dựng trước được đưa vào các bảng, mỗi bảng chứa 4, 7 hoặc nhiều hơn

các phân đề, tuỳ theo việc thiết kế các bảng của những người xây dựng

ĐTN. Mỗi phân đề được gắn một cách tường minh vào một giai đoạn xác

định và một tuyến xác định trên bảng (dễ, trung bình hoặc khó) dựa trên

212

độ khó trung bình của phân đề. Nhiều bảng có thể được chuẩn bị với sự

trùng lặp CH được kiểm tra xuyên qua các bảng khác nhau. Hình 12.4

biểu diễn một thiết kế bảng đa giai đoạn 1-3-3. Một phân đề (A) được

gắn với giai đoạn 1. Ba phân đề (B,C,D) được gắn với giai đoạn 2, và 3

phân đề khác (E,F,G) được gắn với giai đoạn 3. Độ khó của mỗi phân đề

được kiểm tra thông qua việc tạo lập trắc nghiệm tự động, sử dụng hàm

thông tin của ĐTN theo IRT, hướng độ khó của mỗi phân đề vào một

vùng xác định của thang điểm liên quan. Như vậy có 7 hàm thông tin

ĐTN mục tiêu làm cơ sở cho thiết kế bảng 1-3-3.

Hình 12.4. Ví dụ về các trắc nghiệm thích ứng nhờ máy tính cấu trúc đa giai đoạn với các bảng chứa các phân đề

Một mô hình nhiều bảng được biểu diễn trên hình 12.4. Các bảng

đó sẽ được xây dựng đồng thời nhờ phương pháp tạo ĐTN tự động và

được phối hợp như là các dạng ĐTN trong một tệp dữ liệu nguồn của

phần mềm. Khi một TS ngồi vào để chuẩn bị làm trắc nghiệm, TS sẽ

chọn một bảng nào đó một cách ngẫu nhiên. Sáu mũi tên liền nét trên

Hình 12.4 là các lộ trình thích ứng được phép dịch chuyển trong bảng đó

giữa các bảng. Bốn mũi tên đứt nét biểu diễn các lộ trình thứ cấp. Các lộ

trình xác định thậm chí có thể được kích hoạt để tránh cho TS khỏi nhảy

qua các lộ trình khác. Các lộ trình từ giai đoạn 1 sang giai đoạn 2 chỉ dựa

213

trên kết quả của TS ở phân đề A. TS có kết quả thấp đi theo lộ trình đến

phân đề B, TS có kết quả trung bình - đến phân đề C, TS có kết quả cao

nhất - đến phân đề D. Các lộ trình đi đến giai đoạn 3 (các phân đề E, F và

G) được chỉ dẫn dựa vào kết quả tích luỹ qua mọi phân đề trước đó.

Có 7 con đường tồn tại xuyên qua mỗi bảng 1-3-3 được mô tả trên

Hình 12.4: A+B+E, A+B+F, A+C+E, A+C+F, A+C+G, A+D+F,

A+D+G. Mỗi bảng được cấu trúc tường minh sao cho mỗi một con

đường nêu trên cung cấp một trắc nghiệm cân bằng về nội dung, đáp ứng

mọi đặc trưng liên quan ở cấp độ ĐTN. Các dãy bảng được xây dựng

trước đồng thời để thực hiện trắc nghiệm, sử dụng cách tạo lập tự động

các trắc nghiệm. Bằng cách kết hợp và ghép các phân đề xuyên qua các

bảng, hàng trăm bảng có thể được xây dựng nếu kho CH đủ lớn.

Khi đã được xây dựng, mỗi bảng sau đó trở thành một đối tượng dữ

liệu hình thức để thực hiện trắc nghiệm. Như vậy, mỗi bảng sẽ “tự biết”

phải làm sao để thực hiện trắc nghiệm thích ứng. Việc tạo nên các bảng

như là các đối tượng dữ liệu chính thức làm cho hệ thống thao tác có

nhiều ưu điểm liên quan đến bảo mật, kiểm tra chất lượng và quản lý dữ

liệu. Các hội đồng trắc nghiệm có thể xem xét trước nội dung và chất

lượng của các ĐTN trong mỗi bảng. Hơn nữa, các triển khai thử nghiệm

có thể được thực hiện để đảm bảo rằng mọi bảng đều hoạt động tốt trước

khi kích hoạt ở nơi tổ chức thi. Về mặt bảo mật, các bảng có thể được

giao cho TS theo cách ngẫu nhiên, các CH có thể hoán đổi ngẫu nhiên

giữa các phân đề, và sự chồng gối lên nhau qua các bảng có thể được

kiểm tra tường minh qua hệ thống tạo đề tự động xem như một phương

tiện để kiểm tra sự rủi ro của việc xuất hiện CH. Cuối cùng, các bảng có

liên quan cụ thể với vấn đề trắc nghiệm lại, tức là, các bảng mà TS đã

thấy trước kia sẽ được sử dụng lại do được lựa chọn khi một TS được

trắc nghiệm lại.

Trong thời gian thực, việc chấm điểm và dẫn đường cho TS có thể

đơn giản hoá rất nhiều nhờ đưa vào một sơ đồ dẫn đường chấm điểm cho

mỗi bảng. Cơ chế dẫn đường chấm điểm dựa vào điểm trả lời đúng tích

luỹ và các điểm cắt (cut-offs) xác định trước phỏng theo tiêu chuẩn thông

tin cực đại được sử dụng trong CAT. Điểm cắt theo số CH trả lời đúng có

214

thể lưu lại như một phần của dữ liệu của bảng. Chẳng hạn, thiết kế 1-3-3

mô tả ở Hình 12.4 đòi hỏi chính xác 10 giá trị của điểm dẫn đường

(A→B, A→C, A→D, A+B→E, A+B→F, A+C→E, A+C→F, A+C→G,

A+D→F và A+D→G). Thao tác này làm đơn giản hoá chức năng dẫn

đường và cho điểm khi vận hành trắc nghiệm nhờ phần mềm (tức là giảm

bớt việc xử lý số liệu phức tạp và các bước tính toán - đặc biệt trong môi

trường trắc nghiệm nhờ Web).

Cần lưu ý là thiết kế 1-3-3 trên Hình 12.4 chỉ là một ví dụ về mô

hình một bảng ca-MST. Tuỳ tình huống và yêu cầu của trắc nghiệm mà

thiết kế mô hình cho thích hợp (số giai đoạn, số mức độ khó ở mỗi giai

đoạn, độ lớn của các phân đề,… ). Ví dụ về một số thiết kế đã được đề

nghị và sử dụng: 1-3; 1-2-2; 1-3-4; 1-3-4-5; 1-3-3-3. Chú ý là việc sử

dụng nhiều giai đoạn chứa các môđun ngắn hơn có thể làm cho sự thích

ứng mềm dẻo hơn.

Thực chất mô hình ca-MST là một giải pháp thoả hiệp, nhằm cố

gắng thoả mãn yêu cầu về sự thích ứng ở mức độ nào đó, đồng thời đảm

bảo tuân theo các đặc trưng nội dung cho mọi TS và tránh được việc sử

dụng quá nhiều CH. Mô hình đó có nhiều ưu điểm:

Cho phép TS xem xét nghiên cứu các CH trong phạm vi một phân đề;

Làm nổi lên nhiều hiệu quả đo lường của CAT, đặc biệt đối với các

trắc nghiệm dài và có nhiều đòi hỏi khắt khe;

Làm đơn giản hoá nhu cầu phải xây dựng thử nghiệm và áp dụng

các hệ thống phần mềm mới đắt tiền;

Sử dụng ở mức độ cao quá trình tạo đề tự động (ATA) như là một

quá trình ngoại vi, hạn chế nhu cầu sử dụng ATA trong phần mềm triển

khai trắc nghiệm thời gian thực.

Vì các bảng có thể xây dựng sẵn nên có thể xét duyệt kiểm tra

chúng trước để đảm bảo chất lượng của mỗi ĐTN. Nếu có nơi nào đó mà

con người không thể xét duyệt tốt thì có thể thiết kế cơ chế kiểm tra chất

lượng buộc phần mềm lưu ý đến các bảng có vấn đề.

215

Ưu điểm cuối cùng có liên quan đến vấn đề quản lý dữ liệu, vì khung

các bảng ca-MST tuân theo một sơ đồ thiết kế định hướng đối tượng, tạo

phương tiện để lưu trữ, xử lý, kiểm nghiệm chất lượng các ĐTN.

12.3. VÍ DỤ VỀ TRẮC NGHIỆM THÍCH ỨNG NHỜ MÁY TÍNH

Để nêu một ví dụ về CAT dưới đây sẽ mượn một trắc nghiệm do

Reshetar chuẩn bị, được trình bày lại ở [11]. “Ngân hàng” CH cho trắc

nghiệm ở ví dụ có tính giáo khoa này chỉ gồm 13 CH với các tham số cho

ở bảng dưới đây. Đối với một trắc nghiệm CAT thực sự ngân hàng CH

phải bao gồm hàng trăm CH.

Bảng 12.1.“Ngân hàng” CH cho ví dụ về CAT

Câu hỏi Các tham số

b a c

1 0,09 1,11 0,22

2 0,47 1.21 0,24

3 -0,55 1,78 0,22

4 1.01 1,39 0,08

5 -1,88 1,22 0,07

6 -0,82 1,52 0,09

7 1,77 1,49 0,02

8 1,92 0,71 0,19

9 0,69 1,41 0,13

10 -0,28 0,98 0,01

11 1,47 1,59 0,04

12 0,23 0,72 0,02

13 1,21 0,58 0,17

Các bước của quá trình thực hiện CAT diễn ra như sau:

1. Đầu tiên, CH 3 được chọn, đó là một CH có tham số độ khó b

trung bình và tham số độ phân biệt a cao. Giả sử TS trả lời đúng CH 3.

Việc ước lượng năng lực bằng quy trình biến cố hợp lý cực đại (MLE)

216

không thể thực hiện trước khi TS trả lời một CH đúng và một CH sai (vì

các ứng đáp hoàn toàn sai và hoàn toàn đúng ứng với ước lượng giá trị θ

tương ứng bằng -∞ và +∞).

2. Một CH khác, CH 12 được chọn vì tham số độ khó b của nó lớn

hơn CH mà TS làm trước đó. Giả sử TS trả lời đúng CH 12. Ước lượng

năng lực bằng MLE cũng chưa thể thực hiện được.

3. Tiếp theo, CH 7 được chọn, CH này khó hơn CH 3 và 12. Giả sử

TS trả lời sai CH 7. Vectơ ứng đáp 3 CH của TS có thể biểu diễn là

(1,1,0). Sử dụng quy trình MLE ước lượng được năng lực của TS là

=1,03. Hàm thông tin của ĐTN gồm 3 CH ở mức năng lực đó có giá

trị I( =1,03)=0,97 và sai số tiêu chuẩn tương ứng là σ( =1,03) = 1,02.

Bảng 12.2 mô tả diễn biến của quá trình ứng đáp CH.

Bảng 12.2. Năng lực theo MLE cho một thí sinh và sai số tiêu chuẩn ở cuối mỗi bước của CAT

Bước CH số Ứng đáp CH I( ) σ( )

1 3 1 - - -

2 12 1 - - -

3 7 0 1,03 0,97 1,02

4 4 1 1,46 2,35 0,65

5 11 0 1,13 3,55 0,55

6 9 1 1,24 4,61 0,47

7 2 1 1,29 5,05 0,45

8 1 1 1,31 5,27 0,44

9 8 0 1,25 5,47 0,43

4. Sau đó thông tin của mọi CH còn lại trong “ngân hàng” tại giá trị

năng lực =1,03 được tính và biểu diễn ở Bảng 12.3. CH 4 được chọn tiếp

theo vì nó cho thông tin lớn nhất ở mức năng lực =1,03. Giả sử TS trả lời

đúng CH 4, dùng quy trình MLE ước lượng năng lực TS theo vectơ ứng đáp

4 CH là (1,1,0,1). Năng lực mới ước lượng được là =1,46.

5. Lại tính thông tin của mọi CH còn lại ở mức năng lực mới

=1,46. Quá trình mô tả trên đây được tiếp tục khi chọn một CH mới,

ước lượng năng lực, xác định các thông tin được cung cấp bởi các CH

217

chưa sử dụng, rồi chọn một CH tiếp theo cho TS ứng đáp dựa trên giá trị

thông tin của CH đó… như đã mô tả trên đây. Để tiếp tục quy trình đã nêu,

CH 11 được chọn, tiếp đến là CH 9, CH2, CH 1 và cuối cùng là CH 8. Quá

trình được ngừng lại khi sai số tiêu chuẩn của năng lực TS không tiếp tục

giảm quá một giá trị bé xác định nào đó. Ở ví dụ đã trình bày ở Bảng

12.2 giá trị bé đó là 0,01. Ở thời điểm dừng tính toán giá trị năng lực TS

ước lượng được là =1,25.

Bảng 12.3. Giá trị thông tin do các CH chưa sử dụng cung cấp

ở mỗi bước CAT

Bước Giá trị thông tin cho bởi CH

1 2 3 4 5 6 7 8 9 10 11 12 13

4 1,03 0,034 0,547 - 1,192 0,010 0,051 - 0,143 1,008 0,251 1,101 - 0,166

5 1,46 0,179 0,319 - - 0,004 0,017 - 0,205 0,579 0,136 1,683 - 0,175

6 1,13 0,292 0,494 - - 0,008 0,039 - 0,159 0,917 0,219 - - 0,170

7 1,24 0,249 0,433 - - 0,006 0,029 - 0,175 - 0,187 - - 0,173

8 1,29 0,232 - - - 0,006 0,026 - 0,182 - 0,175 - - 0,174

9 1,31 - - - - 0,005 0,024 - 0,186 - 0,168 - - 0,174

10 1,25 - - - - 0,006 0,028 - - - 0,184 - - 0,173

____________________________

218

CÂU HỎI TỰ KIỂM TRA

1. Các tính năng cần có của một phần mềm hỗ trợ cho trắc nghiệm

nhờ máy tính?

2. Các đặc trưng cơ bản của một mô hình trắc nghiệm nhờ máy tính?

3. Nêu nội dung cơ bản của các mô hình trắc nghiệm nhờ máy tính

CFT, LOFT, các mô hình CAT dựa vào CH, dựa vào phân đề.

4. Mô tả tiến trình thực hiện mô hình trắc nghiệm thích ứng nhờ

máy tính cấu trúc đa giai đoạn (ca-MST) với thiết kế theo bảng và các ưu

nhược điểm của mô hình này.

BÀI TẬP

Trong ví dụ nêu ở chương 12, giả sử một TS thực hiện các CH 3,12

và 3 7 và ứng đáp theo vectơ (1, 1, 0). CH 4 được chọn để thực hiện tiếp

và TS ứng đáp sai. Năng lực được xác định theo MLE cho θ = 0,45. Hãy

tính hàm thông tin cho các CH còn lại ở điểm θ đó. TS sẽ phải thực hiện

CH nào ở bước tiếp theo?

219

Chương 13

CÁC MÔ HÌNH TRẮC NGHIỆM ĐA PHÂN

Cho đến nay chúng ta chỉ làm quen với IRT trong phạm vi rất hẹp,

đó là mô hình đối với trường hợp các CH có kiểu ứng đáp nhị phân

(dichotomous), tương ứng với hai mức điểm 0 và 1, để đo lường chỉ một

năng lực tiềm ẩn, hoặc nói cách khác, đo lường năng lực tiềm ẩn đơn

chiều (unidimentional).

Chương này sẽ giới thiệu việc đo lường năng lực tiềm ẩn đơn

chiều, nhưng bằng các CH với kiểu ứng đáp đa phân (polytomous), tức là

TS có thể ứng đáp không chỉ theo hai mức điểm 0 và 1, mà theo nhiều

mức điểm khác nhau. Trong các mô hình trắc nghiệm đa phân, mô hình

định giá từng phần (partial credit model - PCM) được đặc biệt chú ý vì

tính tổng quát và khả năng ứng dụng rộng rãi của nó. Trong phần ứng

dụng trắc nghiệm đa phân, các ví dụ về phân tích các đề TL được cho

điểm từng phần và phân tích các đề kết hợp TNKQ và TL được minh

họa, đồng thời các phần mềm phổ biến CONQUEST và PARSCALE

được kết hợp giới thiệu.

13.1. MỘT SỐ MÔ HÌNH TRẮC NGHIỆM ĐA PHÂN

Trong thập niên 1970, các nghiên cứu về trắc nghiệm chủ yếu tập

trung vào việc triển khai ứng dụng mô hình nhị phân. Các số liệu liên quan

đến tính đa phân được nhị phân hóa để phân tích. Tuy nhiên một số nhà

nghiên cứu cũng đã lưu ý đến mô hình trắc nghiệm đa phân từ cuối thập

niên 1960 và tập trung mạnh mẽ từ đầu thập niên 1980. Nhà nghiên cứu

quan tâm đến mô hình đa phân sớm nhất có lẽ là Samejima, F.[21], người

đầu tiên đã đưa vào mô hình ứng đáp đa cấp (graded response model).

220

Ở nước ta, trong nhiều cuộc điều tra để tìm hiểu phản ứng của

người được hỏi về một vấn đề nào đó các bảng hỏi (questionnaire) với

kiểu trả lời theo thang Likert: rất không đồng ý, không đồng ý, đồng ý,

rất đồng ý được sử dụng rất phổ biến. Loại bảng hỏi tương tự liên quan

đến mô hình thang đánh giá (rating scale model) của Anderrson E.B,

Andrich D. [23],[24]. Tiếp theo hàng loạt mô hình trắc nghiệm đa phân

được đề xuất: mô hình định giá từng phần của Master G.N. [25], mô hình

định giá từng phần hai tham số hoặc mô hình định giá từng phần tổng

quát (generalised partial credit model) của Yen W.M [29] và Muraki E.

[26]. Các mô hình trên phản ánh sự thực hiện của TS đối với các nhiệm

vụ đa phân theo thứ tự (ordered polytomous tasks), hoặc nói cách khác,

được áp dụng cho các số liệu có phân hạng theo thứ tự (ordered

categorical data).

Vài mô hình đa phân khác, mô hình phân loại theo định danh

(nominal categories model) của Bock R.D.[27] và mô hình ứng đáp (đầy

đủ) cho các CH NLC (response model for multiplechoice items) của

Thissen, D. và Steinberg, L.[28] được đề xuất để áp dụng cho số liệu

không có phân hạng theo thứ tự (unordered data) như là m phương án lựa

chọn cho một CH nhiều lựa chọn. Các mô hình này cho phép thu được

nhiều thông tin hơn về một mức năng lực của TS từ một CH so với điều

chỉ biết TS trả lời đúng hay không.

Các mô hình nêu trên khác nhau chủ yếu ở cách tạo mô hình số liệu

đa phân và số tham số trong mỗi mô hình. Một số mô hình khác nhau sử

dụng cho số liệu cụ thể có thể cho kết quả tương tự. Dưới đây chúng tôi

sẽ chỉ giới thiệu vài mô hình IRT đa phân được sử dụng rộng rãi nhất và

dễ dàng chuyển biến thành các mô hình gần gũi tương tự.

13.1.1. Mô hình định giá từng phần

1) Thiết lập biểu thức:

Để thiết lập mô hình định giá từng phần (partial credit model-

PCM) Masters xét CH có nhiều hạng (category) điểm để TS đạt được, và

giả định rằng xác suất để TS đạt hai hạng điểm kế tiếp nhau tuân theo

quy luật của mô hình Rasch nhị phân.

221

Do vậy, trước hết chúng ta hãy nhớ lại biểu thức (3.4) của mô hình

Rasch đơn giản nhất cho trường hợp CH nhị phân:

θ-b

(θ-b)

eP (θ)=

[1+e ] , (3.4)

hay có thể viết lại:

θ-δ

(θ-δ)

ePr (X=1)=

[1+e ] , (13.1b)

Ở đây, chúng ta hiểu hàm ĐTCH chính là hàm xác suất để đạt hạng

điểm 1 của một CH nhị phân có hai hạng điểm 0 và 1. Chúng ta cũng

thay ký hiệu độ khó bi của CH thứ i bằng ký hiệu δi cho thống nhất với

cách ký hiệu của nhiều sách nước ngoài khi mô tả trắc nghiệm đa phân.

Tương tự, xác suất để đạt hạng điểm 0 của CH nhị phân với hai

hạng điểm 0 và 1 chính là:

(θ-δ)

1Pr (X=0)=

[1+e ] . (13.1a)

Hoặc chúng ta biểu diễn (11.1) và (11.2) dưới dạng tường minh hơn:

1(θ -δ )

Pr(X=0) 1Pr(X=0/X=0 or X=1)= =

Pr(X=0)+Pr(X=1) 1+ e, (13.2a)

đó là xác suất để TS đạt hạng điểm 0 của CH trong điều kiện CH có

hai hạng điểm 0 và 1, và: .

1

1

(θ -δ )

(θ -δ )

Pr(X=1) ePr(X=1/X=0 or X=1)= =

Pr(X=0)+Pr(X=1) 1+e. (13.2b)

đó là xác suất để TS đạt hạng điểm 1 của CH trong điều kiện CH có

hai hạng điểm 0 và 1.

Tương tự, nếu CH nhị phân có 2 hạng điểm 1 và 2 thì chúng ta có

xác suất để TS đạt được hạng điểm 1 và 2 tương ứng là:

222

2

Pr(X=1) 1Pr(X=1/X=1orX=2)= =

Pr(X=1)+Pr(X=2) 1+exp(θ-δ ) , (13.3a)

2

2

exp(θ-δ )Pr(X=2)Pr(X=1/X=1orX=2)= =

Pr(X=1)+Pr(X=2) 1+exp(θ-δ ). (13.3b)

Bây giờ chúng ta hãy xét trường hợp đối với CH đa phân, chẳng

hạn CH có 3 hạng điểm 0,1 và 2. Xác suất để TS đạt được các hạng điểm

tương ứng 0,1,2 xét trong điều kiện CH có 3 hạng điểm tương ứng là:

1 1 2

Pr(X=0)Pr(X=0/X=0,X=1orX=2)= =

Pr(X=0)+Pr(X=1)+Pr(X=2)

1,

1+exp(θ-δ )+exp(2θ-(δ +δ ))

13.4a)

1

1 1 2

Pr(X=1)Pr(X=1/X=0,X=1 or X=2)=

Pr(X=0)+Pr(X=1)+Pr(X=2)

exp( - )==

1 + exp ( - ) + exp (2 -( + ))

(13.4b)

1 2

1 1 2

Pr(X=1)Pr(X=2/X=0,X=1 or X=2)=

Pr(X=0)+Pr(X=1)+Pr(X=2)

exp (2 -( + ))=

1 + exp ( - ) + exp (2 -( + ))

(13.4c)

Trong các biểu thức (13.4) trên đây có thể lưu ý là hệ số đứng trước

θ biểu diễn giá trị hạng điểm của CH đa phân.

Từ đó, tổng quát hơn, khi CH thứ i là đa phân với các hạng điểm

0,1,2,...,mi thì xác suất để TS n đạt điểm x của CH thứ i sẽ là:

i

x

n ik

k=0ni m h

n ik

h=0 k=0

exp (θ -δ )

Pr(X =x)=

exp (θ -δ )

, (13.5)

223

trong đó, để tiện trong việc ký hiệu, chúng ta quy định

1)(exp0

0

ik

k

n . Có thể thử kiểm tra khi CH chỉ có 2 hạng điểm (0,1)

thì (13.5) giản lược thành biểu thức của mô hình Rasch (3.4).

2) Một số lưu ý:

- Mô hình Rasch nhị phân là một trường hợp riêng của PCM. Do

đó các phần mềm tính toán cho PCM có thể sử dụng cho trường hợp nhị

phân mà không phải thực hiện một biến đổi đặc biệt nào, và các CH nhị

phân và CH PCM có thể trộn lẫn khi phân tích.

- Các hạng điểm của PCM là có thứ tự (ordered): Các hạng điểm

0,1,2,..., m của một CH PCM phải tăng theo thứ tự để phản ánh sự tăng dần

của một nămg lực tiềm ẩn nào đó. PCM giả định rằng các TS có năng lực

cao hơn sẽ có khả năng nhiều hơn để đạt các hạng điểm cao hơn của CH.

- Tuy nhiên, PCM không phải là mô hình có các bước tuần tự: Việc

xây dựng PCM chỉ xác định xác suất có điều kiện của hai hạng điểm kế

tiếp nhau. PCM không có đòi hỏi nào về việc phải có một quá trình tuần

tự theo các bước để đạt được các hạng điểm. Điều đó có nghĩa là PCM

không buộc TS phải làm được mọi nhiệm vụ với hạng điểm thấp hơn thì

mới làm được các nhiệm vụ với hạng điểm cao hơn. Điều lưu ý này rất

quan trọng khi giải thích các tham số δk của CH. Chẳng hạn, trong ví dụ

CH có 3 hạng điểm trên đây tham số δ2 không phản ánh độ khó của CH

đối với “bước” thứ 2 như là một bước độc lập.

3) Các đường cong đặc trưng câu hỏi theo PCM và ý nghĩa của δk:

Vì việc thiết lập PCM dựa vào mô hình Rasch nhị phân đối với

2 hạng điểm kế tiếp nhau nên thường gây hiểu nhầm rằng δk là độ khó của

bước thứ k khi bước thứ k được xem như một CH độc lập. Việc giải thích δk

sẽ được làm rõ sau này qua các đồ thị biểu diễn các đường cong ĐTCH.

Các đường cong ĐTCH theo PCM là đồ thị biểu diễn các xác suất

đạt được mỗi hạng điểm phụ thuộc vào năng lực θ.

224

Hình 13.1. Các đường cong ĐTCH trắc nghiệm nhị phân ứng với xác suất trả lời sai P(X=0) và xác suất trả lời đúng P(X=1)

Hình 13.2. Các đường cong ĐTCH của một CH PCM có 3 hạng điểm (với δ1 < δ2)

Đối với mô hình Rasch nhị phân, người ta ít quan tâm đến đường

cong biểu diễn xác suất đạt hạng điểm 0, vì xác suất đó đơn giản bằng [1-

P(θ)], và đường biểu diễn của nó chính là đường cong đối xứng với

225

đường P(θ) qua trục thẳng đứng đi qua điểm có hoành độ θ khi

P(θ) =0,5 (Hình 13.1). Các biểu thức (13.1a) và (13.1b) cho thấy hai

đường cong P(θ) và [1-P(θ)] cắt nhau khi θ=δ, và khi ấy P(θ) =0,5.

Hình 13.3. Các đường cong ĐTCH đối với một CH PCM có 3 hạng điểm (với δ1> δ2)

Hình 13.2 biểu diễn các đường cong ĐTCH lý thuyết của một CH

PCM với 3 hạng điểm 0, 1 và 2. Từ các biểu thức 13.4a, 13.4b và 13.4c

có thể thấy khi θ=δ1 thì P(X=0) = P(X=1), và khi θ=δ2 thì P(X=1) =

P(X=2), và các giá trị xác suất tương ứng bé hơn 0,5 vì các mẫu số lớn

hơn 2. Từ Hình 13.2 có thể thấy 2 giá trị δ1 và δ2 chia dải năng lực ra làm

3 vùng. Khi TS có năng lực nằm trong vùng từ -∞ đến δ1 thì xác suất đạt

được hạng điểm 0 là lớn nhất, khi TS có năng lực nằm trong vùng từ δ1

đến δ2 thì xác suất đạt được hạng điểm 1 là lớn nhất, khi TS có năng lực

nằm trong vùng từ δ2 đến +∞ thì xác suất đạt được hạng điểm 2 là lớn

nhất. Trong các khẳng định trên đây lưu ý là xác suất đạt được hạng điểm

tương ứng là lớn nhất so với riêng rẽ xác suất đạt các hạng điểm khác,

nhưng có thể bé hơn xác suất tổng hợp để đạt được các hạng điểm khác.

226

Chẳng hạn ở Hình 13.2 trong vùng từ δ1 đến δ2 thì xác suất tổng hợp để

đạt được hạng điểm 0 và 2 cao hơn xác suất đạt được hạng điểm 1. Từ

các nhận xét trên, nếu dùng tham số δ làm chỉ thị về ”độ khó của CH” thì

có thể nói rằng, chẳng hạn, δ1 là điểm mà bắt đầu từ đó xác suất đạt được

hạng điểm 1 cao hơn xác suất đạt được hạng điểm 0, và cũng tương tự, δ2

là điểm mà bắt đầu từ đó xác suất đạt được hạng điểm 2 cao hơn xác suất

đạt được hạng điểm 1.

Cần lưu ý là có một vấn đề đối với PCM khi giải thích tham số δ.

Đối với một số CH, giá trị của tham số δk có thể không diễn biến theo

“thứ tự”. Chẳng hạn, xét ví dụ một CH PCM 3 hạng điểm được biểu diễn

trên Hình 13.3. Trong vùng ứng với hạng điểm 1 ở giữa đường cong xác

suất có giá trị rất thấp, tức là rất ít TS đạt hạng điểm 1, hoặc hạng điểm 1

là hạng điểm không thật phổ biến. Trường hợp này làm cho việc giải

thích các đường cong ĐTCH gặp khó khăn: không có mức năng lực nào

của TS mà xác suất đạt được hạng điểm 1 cao nhất, và giá trị các tham số

δ1 và δ2 diễn biến không theo thứ tự (trường hợp này δ1 > δ2). Chính đây

là một nhược điểm khi dùng δ để giải thích việc trả lời CH liên quan đến

năng lực. Tuy nhiên, Masters [25] cho rằng tính không tăng theo thứ tự

giá trị tham số δ không nhất thiết chứng tỏ là CH l có vấn đề, vì khi thiết

lập PCM người ta đã không đòi hỏi nghiêm khắc rằng giá trị của δ phải

tăng theo thứ tự. Điều quan trọng được đòi hỏi khi xây dựng PCM là lúc

xem xét một TS ứng đáp CH có các hạng điểm (k-1) và k thì xác suất đạt

hạng điểm k phải tuân theo mô hình Rasch. Nếu CH chỉ có 2 hạng điểm

(k-1) và k thì có một xác suất bằng nhau để đạt hạng điểm (k-1) hoặc k,

xác suất đó là 0,5. Khi CH có nhiều hạng điểm hơn, như ở trường hợp

Hình 13.3, tham số δ vẫn là vị trí ứng với năng lực mà xác suất để đạt

2 hạng điểm tiếp giáp nhau là bằng nhau, tuy nhiên xác suất ở giao điểm

đó không còn bằng 0,5, vì còn có các xác suất để đạt các hạng điểm khác

với (k-1) và k. Ở Hình 13.3 xác suất để đạt hạng điểm 1 là rất bé trong

suốt cả dải rộng năng lực (có thể do hạng điểm 2 quá dễ đạt) cho nên

hoành độ giao điểm giữa các đường cong xác suất đạt hạng điểm 0 và 1

có giá trị lớn hơn các hoành độ giao điểm giữa các đường cong xác suất

đạt hạng điểm 1 và 2; 0 và 2. Khi áp dụng PCM cho các CH mà các hạng

điểm ứng với các bước tuần tự để giải các bài toán, hiện tượng giá trị δ

227

tăng không tuần tự rất dễ xảy ra. Ví dụ, một bài toán đòi hỏi bước 1 phải

thiết lập biểu thức nghiệm của bài toán, bước 2 là tính toán bằng số để có

nghiệm cụ thể, cho điểm 2 nếu làm được trọn vẹn, còn điểm 1 nếu tìm

được đúng biểu thức nhưng tính toán sai. Số TS đạt hạng điểm 0 và điểm

2 có thể nhiều, nhưng số TS đạt hạng điểm 1 có thể rất ít, kết quả ứng

đáp sẽ tương tự như CH được biểu diễn ở Hình 13.3.

4) Một vài tham số khác được sử dụng trong PCM

Từ các tham số chính δ của CH PCM nhiều tác giả đề nghị sử dụng

các dạng thức biến đổi khác của tham số để dễ giải thích kết quả hơn.

- Giá trị trung bình δ• của các δk: được tính theo công thức sau đây

và được biểu diễn bằng δ• (delta chấm):

m

• k

k=1

1δ = δ ,

m . (13.6)

trong đó m là số hạng điểm của CH.

- Khoảng cách τk từ các δk đến giá trị trung bình δ•:

τk = δ• - δk (13.7)

Có thể minh họa về các tham số δ• và τk nhờ Hình 13.4 biểu diễn

các đường cong của CH theo PCM với 5 hạng điểm, trên đó có vẽ vị trí

của δ• và các khoảng cách τk. Từ Hình 13.4 có thể giải thích các tham số

vừa nêu như sau: 1) δ• là giá trị độ khó trung bình của các CH theo PCM,

có thể sử dụng chỉ một độ khó trung bình đó cho toàn bộ CH PCM nếu

không muốn xét từng độ khó δk của từng hạng điểm riêng biệt. 2) Các

tham số τk được gọi là các ”tham số bước”, nó chỉ khoảng cách từ giá trị

độ khó trung bình đến các hạng điểm của đường đặc trưng PCM. Tham

số τk cũng phải chịu các vấn đề về tính không biến đổi tuần tự như tham

số δk..

Về toán học, δ• chính là hoành độ giao điểm của hai đường biểu

diễn xác suất ứng với hạng điểm đầu và hạng điểm cuối, chẳng hạn Pr(0)

và Pr(4) trên Hình 13.4. Đối với CH PCM 3 hạng điểm, hai đường cong

228

Pr(0) và Pr(2) đối xứng với nhau qua đường thẳng θ = δ•, còn đường

cong Pr(1) cũng có trục đối xứng là đường thẳng đó. Các tính chất trên

không được duy trì khi số hạng điểm lớn hơn 3.

Hình13.4. Ý nghĩa của các tham số δk. và k liên quan đến các đường cong ĐTCH theo mô hình PCM

5) Các đường cong xác suất tích lũy và các tham số ngưỡng

Thurstone γ:

Như đã nói trước đây, trong PCM, các tham số δ không phản ánh

độ khó để đạt các hạng điểm. Đối với các CH PCM, để đạt được hạng

điểm 2 nói chung TS cần thực hiện được nhiều nhiệm vụ hơn so với đạt

hạng điểm 1. Để phản ánh thành tựu tích lũy đó đôi khi người ta sử dụng

các ngưỡng Thurstone để chỉ “độ khó” của các mức điểm.

Ngưỡng Thurstone đối với một hạng điểm được xác định như là

năng lực để từ đó xác suất để có được hạng điểm đó hoặc cao hơn đạt giá

trị 0,5.

Từ đồ thị các đường cong xác suất để TS đạt các hạng điểm của

một CH PCM, chẳng hạn có 5 hạng điểm, có thể vẽ các đường cong xác

suất tích lũy. Ví dụ, đường cong xác suất tích lũy Pr (≥1) để TS đạt hạng

điểm 1 và cao hơn thu được bằng cách cộng Pr(1) + Pr(2) +...+ Pr(5),

229

đường cong xác suất tích lũy Pr(≥2) để TS đạt hạng điểm 2 và cao hơn

thu được bằng cách cộng Pr(2) + Pr(3) +...+ Pr(5),... Hình 13.4 biểu diễn

đồ thị các đường cong xác suất tích lũy nêu trên. Đường thẳng Pr(θ)=0,5

cắt các đường cong xác suất tích lũy lần lượt tại các điểm có hoành độ γ1,

γ2, γ3, γ4, các giá trị đó được gọi là các ngưỡng Thurstone.

Hình13.5. Các đường cong xác suất tích lũy và các tham số ngưỡng

Thurstone k của một CH theo mô hình PCM với 5 hạng điểm

Từ đồ thị Hình 13.5 có thể giải thích ý nghĩa của các ngưỡng

Thurstone nói trên. Khi năng lực TS dịch chuyển theo trục nằm ngang từ

-∞ đến γ1 thì xác suất đạt điểm 0 là lớn hơn 0,5; trong khi xác suất để đạt

được điểm ≥ 1 bé hơn 0,5; do đó có thể gọi khoảng -∞ đến γ1 là “vùng

điểm 0”. Khi năng lực tăng từ γ1 đến γ2 xác suất để đạt được điểm ≥ 1 là

lớn hơn 0,5; trong khi xác suất để đạt được điểm ≥ 2 là bé hơn 0,5; do đó

có thể gọi khoảng γ1 đến γ2 là “vùng điểm 1”. Bằng cách lập luận tương

tự chúng ta có các “vùng điểm 2”, “vùng điểm 3”, “vùng điểm 4”. Từ

quan điểm đó, có thể xem các ngưỡng Thurstone là các điểm cắt để chia

dải năng lực thành các “vùng điểm”. Đối chiếu với trường hợp CH nhị

phân thì đường cong tích lũy Pr(≥1) trên đây trùng với đường cong

ĐTCH của mô hình Rasch nhị phân, và độ khó b chính là hoành độ ứng

với điểm mà xác suất trả lời đúng CH bằng 0,5; tức là b trùng với γ1, như

vậy độ khó của CH trong trường hợp nhị phân cũng chính là điểm

230

ngưỡng, nó chia dải năng lực thành 2 vùng: “vùng điểm 0” và “vùng

điểm 1”, và độ khó b của CH ứng với điểm bắt đầu của “vùng điểm 1”.

Như vậy có thể xem γ1 là số đo độ khó ứng với hạng điểm 1, γ2 là số đo độ

khó ứng với hạng điểm 2,... Chẳng hạn, nếu các ngưỡng Thurstone của

một CH PCM 3 hạng điểm là -1,2 và 2,3 logit, thì điều đó có nghĩa là

tương đối dễ đạt điểm 1 nhưng rất khó đạt điểm 2, vì “vùng điểm 1” quá

rộng và “vùng điểm 2” ứng với năng lực quá cao.

Hình 13.6. Đường cong điểm kỳ vọng của một CH PCM với 3 hạng điểm

Chúng ta hãy tính điểm kỳ vọng của một CH xem như một hàm của

năng lực. Hãy giả thiết CH có 3 hạng điểm, xác suất để một TS đạt được

điểm 0, điểm 1 và điểm 2 được biểu diễn bởi các hệ thức (13.4a, b, c).

Điểm kỳ vọng E đối với CH đó xem như một hàm của θ với các tham số

δ1 và δ2 là:

E= 0 . Pr(X=0) + 1 . Pr(X=1) + 2 . Pr(X=2). (13.8)

Khi tính E như một hàm của θ ta có thể biểu diễn đường cong điểm

kỳ vọng, tương tự như đường cong ĐTCH. Ví dụ minh họa được biểu

diễn ở Hình 13.6. Từ hình vẽ có thể xác định E1 là hoành độ ứng với

điểm kỳ vọng 0,5; nằm giữa hạng điểm 0 và 1, E2 là hoành độ ứng với

điểm kỳ vọng 1,5; nằm giữa hạng điểm 1 và 2. Có thể xem vùng nằm

giữa E1 và E2 là “vùng điểm 1”, vùng nằm trước E1 là “vùng điểm 0”,

vùng nằm sau E2 là “vùng điểm 2”. Như vậy, có thể xem E1 là tham số độ

khó của CH đối với điểm 1, E2 là tham số độ khó của CH đối với điểm 2.

Cách biểu diễn này dễ hiểu hơn đối với những người không chuyên.

231

13.1.2. Mô hình định giá từng phần tổng quát

Việc lập luận để đưa ra mô hình PCM hoàn toàn xuất phát từ mô

hình Rasch cho CH nhị phân, tức là chỉ quan tâm đến độ khó của CH,

không xét đến độ phân biệt. Một số tác giả mong muốn xây dựng mô

hình đa phân có sử dụng cả độ phân biệt của CH. Yen, W.M. [29] và

Muraki, E. [26] đã đưa ra mô hình định giá toàn phần tổng quát, trong đó

ngoài tham số phản ánh độ khó của CH còn sử dụng cả tham số phản ánh

độ phân biệt. Biểu thức tổng quát về xác suất ứng đáp CH đa phân cho

mô hình định giá từng phần tổng quát (GPCM) có dạng như sau:

i

h

ik

k-1th m l

ik

l-1 k-1

exp Z (θ)

P (θ)= ,

exp Z (θ)

(13.8)

trong đó mi là số lượng hạng điểm của CH GPCM thứ i; Zik= aik(θ -

δi + γik), với ai đặc trưng cho độ phân biệt, được gọi là tham số độ dốc

(slope parameter), δi được gọi là tham số định vị CH (item location), còn

γik được gọi là tham số ngưỡng của hạng điểm (category threshold).

Hình 13.7. Các đường cong ĐTCH theo mô hình GPCM với các tham số a khác nhau

232

Khi sử dụng cả đặc trưng độ phân biệt, các đường cong ĐTCH

GPCM với các giá trị a khác nhau sẽ có độ dốc khác nhau. Hình 13.7

trích từ công trình [13] biểu diễn minh họa các hàm Pih (θ) ứng với một

CH GPCM với 3 hạng điểm, các đường P1h(θ) ứng với a1 = 1,0; b11=0,0;

b12=-1,5; các đường P2h(θ) ứng với b12=-0,5; a2 < a1 còn các tham số khác

giữ nguyên. Hình vẽ cho thấy độ dốc của các đường cong P2(θ) giảm so

với các đường cong P1(θ), giao điểm của các đường cong P11 (θ) và

P12(θ) có hoành độ bằng b12=-1,5; giao điểm của các đường cong P21 (θ)

và P22(θ) có hoành độ bằng b12=-0,5.

13.2. CÁC VÍ DỤ VỀ ỨNG DỤNG TRẮC NGHIỆM ĐA PHÂN

13.2.1. Phân tích các bài kiểm tra gồm các CH tự luận

nhờ phần mềm CONQUEST

Để minh họa việc áp dụng trắc nghiệm đa phân vào thực tiễn đánh

giá trong giáo dục ở nước ta, chúng tôi xin mượn số liệu khảo sát kết quả

học tập của học sinh lớp 6 vào năm 2009 do Viện Khoa học Giáo dục

Việt Nam thực hiện theo một Dự án của Bộ Giáo dục và Đào tạo. Khảo

sát được triển khai trên cơ sở đánh giá kết quả học tập 2 môn Toán và

Ngữ văn, thực hiện trên các mẫu đại diện của học sinh lớp 6 từ 250

trường trung học cơ sở thuộc 25 tỉnh/thành phố, đại diện cho 8 vùng

miền trên cả nước. Ở đây chúng tôi chỉ lấy số liệu để nêu ví dụ về kỹ

thuật phân tích, còn việc công bố các kết quả đánh giá cụ thể thuộc thẩm

quyền của các cơ quan quản lý giáo dục.

Các đề kiểm tra Ngữ văn có hai phần: TNKQ và TL. Phần

TNKQ bao gồm các CH nhị phân, mỗi câu có 2 mức điểm 1 và 0,

được chấm tự động. Phần TL được chia thành nhiều câu, mỗi câu có

một số phần, điểm tối đa của mỗi phần được quy định. Ở đây phần TL

sẽ được tách ra phân tích như một đề độc lập. Chúng ta sẽ quy ước ký

hiệu 4 CH của phần TL là VTL1 – VTL4. Các CH VTL1 – VTL3 là

các CH mở, trả lời ngắn. CH VTL4 là một bài viết dài hơn, được cho

điểm theo các ý theo 3 phần về nội dung, 2 phần về hình thức và 1

phần dành cho các ý có sáng tạo. Mỗi phần được xem như một CH con

có số điểm tối đa được mô tả ở Bảng 13.1.

233

Bảng 13.1. Điểm tối đa cho các phần con trong các CH TL Ngữ văn

Phần a Phần b Phần c

VTL1 1a: 2 1b: 3

VTL2 2a: 2 2b: 3

VTL3 5

VTL4 nd-a: 3 nd-b: 5 nd-c: 2

ht-a: 4 ht-b: 4 st: 2

Như vậy phần TL của đề Ngữ văn có thể xem là một đề bao gồm

các CH con kiểu PCM như sau: CH1 (VTL1a và VTL1b); CH2 (VTL2a

và VTL2b); CH3; CH4 (VTL4nd-a, VTL4nd-b, VTL4nd-c; VTL 4 ht-a,

VTL 4 ht-b; VTL 4 st). Tổng cộng phần TL có 11 CH con, với tổng điểm

tối đa là 35 điểm.

Bài kiểm tra được triển khai trên mẫu gồm 9844 TS là học sinh lớp 6.

Phần TL được một số giáo viên chấm theo thang điểm tối đa phân bố như

ở Bảng 13.1 trên đây, điểm do giáo viên chấm có thể xem là điểm thô của

các CH con thuộc phần TL, dùng làm số liệu đầu vào để phân tích.

Chúng ta sẽ sử dụng phần mềm CONQUEST [31] (của Australian

Council of Educational Research – ACER, do Margaret L. Wu, Raymond

J. Adams viết) để phân tích phần TL đề Ngữ văn. CONQUEST là phần

mềm được xây dựng theo IRT với mô hình Rasch đa chiều tổng quát

(generalised multidimentional Rasch Item Response model). Trong

trường hợp một chiều CONQUEST cho phép phân tích cả mô hình Rasch

đơn giản và mô hình PCM, trong đó mô hình trước là một trường hợp

riêng của mô hình sau.

Dưới đây sẽ dẫn một số kết quả phân tích.

Trước hết, Bảng 13.2 cho kết quả ước lượng các tham số độ khó

trung bình δ• (ESTIMATE) của các CH con và các tham số biểu thị độ

phù hợp giữa số liệu và mô hình. MNSQ là bình phương trung bình của

số thống kê phản ánh độ phù hợp (giá trị kỳ vọng bằng 1), CI là khoảng

tin cậy (confident interval), T là giá trị t-test (giá trị càng bé càng tốt,

nhưng giá trị tăng khi cỡ mẫu tăng).

234

Bảng 13.2. Độ khó trung bình δ• của các CH con

==============================================================================

ConQuest: Generalised Item Response Modelling Software Sat Jan 09 13:47 2010

TABLES OF RESPONSE MODEL PARAMETER ESTIMATES

==============================================================================

VARIABLES UNWEIGHTED FIT WEIGHTED FIT

--------------- ----------------------- ---------------------

item ESTIMATE ERROR^ MNSQ CI T MNSQ CI T

------------------------------------------------------------------------------

1 VTL1a -0.539 0.012 1.20 (0.97, 1.03) 13.3 1.09 (0.97, 1.03) 7.0

2 VTL1b -1.541 0.012 1.47 (0.97, 1.03) 28.6 1.19 (0.96, 1.04) 7.7

3 VTL2a -0.439 0.011 1.18 (0.97, 1.03) 11.7 1.15 (0.97, 1.03) 10.3

4 VTL2b -0.314 0.010 1.09 (0.97, 1.03) 6.3 1.08 (0.97, 1.03) 5.7

5 VTL3 0.435 0.008 1.37 (0.97, 1.03) 23.5 1.34 (0.97, 1.03) 21.7

6 VTL4nda -0.160 0.012 1.14 (0.97, 1.03) 9.4 1.09 (0.97, 1.03) 6.5

7 VTL4ndb 0.014 0.010 0.75 (0.97, 1.03)-19.0 0.75 (0.97, 1.03) -18.8

8 VTL4ndc 0.611 0.012 1.08 (0.97, 1.03) 5.5 1.08 (0.98, 1.02) 6.1

9 VTL4hta -0.124 0.011 0.76 (0.97, 1.03)-18.2 0.77 (0.97, 1.03) -17.4

10 VTL4htb 0.430 0.011 0.78 (0.97, 1.03)-16.3 0.79 (0.97, 1.03) -16.3

11 VTL4st 1.627* 0.035 0.84 (0.97, 1.03)-11.8 0.87 (0.97, 1.03) -9.5

------------------------------------------------------------------------------

An asterisk next to a parameter estimate indicates that it is constrained

Separation Reliability = 1.000

Chi-square test of parameter equality = 27038.85, df = 10, Sig Level = 0.000

^ Quyck standard errors have been used

==============================================================================

Bảng 13.3 cho ví dụ minh họa về ước lượng các tham số bước (τk= δk- δ0)

ứng với các hạng điểm của các CH con do CH3 và CH4 sinh ra và các sai số

tiêu chuẩn cũng như các tham số biểu thị độ phù hợp giữa số liệu và mô hình.

Bảng 13.3. Ví dụ về tham số bước τk(tau) ứng với các hạng điểm của các CH con

=========================================================================== VARIABLES UNWEIGHTED FIT WEIGHTED FIT

---------------- ----------------------- -------------

item step ESTIMATE ERROR^ MNSQ CI T MNSQ CI T

---------------------------------------------------------------------------

...........................................................................

3 VTL2a 0 1.17 (0.97, 1.03) 11.3 1.16 (0.97, 1.03) 10.9

3 VTL2a 1 1.442 0.039 1.00 (0.97, 1.03) 0.1 1.00 (0.94, 1.06) 0.1

3 VTL2a 2 -1.442* 1.15 (0.97, 1.03) 10.3 1.10 (0.98, 1.02) 7.9

4 VTL2b 0 1.34 (0.97, 1.03) 21.8 1.06 (0.97, 1.03) 3.6

4 VTL2b 1 -0.308 0.022 0.99 (0.97, 1.03) -0.9 1.01 (0.97, 1.03) 0.5

4 VTL2b 2 0.605 0.029 1.08 (0.97, 1.03) 5.5 1.01 (0.96, 1.04) 0.6

4 VTL2b 3 -0.296* 1.06 (0.97, 1.03) 4.2 1.00 (0.98, 1.02) -0.4

....................................................................

========================================================================

Hình 13.8 là biểu đồ tương quan giữa năng lực θ của TS và độ khó

trung bình δ• của các CH con đặt theo trục thẳng đứng theo thang logit,

hướng dương từ dưới lên, mức 0 của thang được xác định theo giá trị của ==================================================================

ConQuest: Generalised Item Response Modelling Software. Sat Jan 09 12:47 2010

235

MAP OF LATENT DISTRIBUTIONS AND RESPONSE MODEL PARAMETER ESTIMATES

==================================================================

Terms in the Model (excl Step terms) +item

------------------------------------------------------------------

3 | |

| |

| |

X| |

X| |

X| |

XX| |

2 X| |

XX| |

XX| |

XXXX|11 |

XXXX| |

XXXXX| |

XXXXXX| |

1 XXXXX| |

XXXXXX| |

XXXXXX| |

XXXXXXXX|8 |

XXXXXXXX|5 |

XXXXXXXXXX|10 |

XXXXXXXX| |

XXXXXXXXX| |

0 XXXXXXXX|7 |

XXXXXXXXX|6 9 |

XXXXXXXXX|4 |

XXXXXXXX|3 |

XXXXXXX|1 |

XXXXXXX| |

XXXX| |

-1 XXXX| |

XXXX| |

XXX| |

XX| |

XX|2 |

XX| |

X| |

-2 X| |

X| |

X| |

| |

| |

| |

| |

-3 | |

====================================================

Each 'X' represents 60.7 cases

====================================================

Hình 13.8. Biểu đồ tương quan giữa năng lực TS và độ khó trung bình của các CH con

ConQuest: Generalised Item Response Modelling Software Sat Jan 09 12:47 2010

MAP OF LATENT DISTRIBUTIONS AND THRESHOLDS

==================================================================

Generalised-Item Thresholds

------------------------------------------------------------------

236

|10.4

4 |

|

|

|

|

|7.5

|

3 |

|9.4

|11.2

X|

X|

X|

XX|

2 X|

XX|6.3

XX|5.5

XXXX|

XXXX|8.2

XXXXX|7.4

XXXXXX|

1 XXXXX|5.4 10.3

XXXXXX|

XXXXXX|

XXXXXXXX|

XXXXXXXX|5.3 11.1

XXXXXXXXXX|9.3

XXXXXXXX|4.3

XXXXXXXXX|

0 XXXXXXXX|5.2

XXXXXXXXX|1.2 4.2

XXXXXXXXX|3.2 7.3 8.1

XXXXXXXX|

XXXXXXX|3.1 6.2

XXXXXXX|

XXXX|1.1

-1 XXXX|2.3 4.1 10.2

XXXX|5.1

XXX|9.2

XX|

XX|

XX|2.2 7.2

X|6.1

-2 X|2.1

X|

X|

|9.1 10.1

|7.1

==================================================================

Each 'X' represents 60.7 cases

The labels for thresholds show the levels ofitem, and step, respectively

==================================================================

Hình 13.9. Biểu đồ tương quan giữa năng lực TS và các giá trị ngưỡng γk của các hạng điểm trong các CH con

độ khó. Hình 13.9 là biểu đồ tương tự về tương quan giữa năng lực θ của

TS và các giá trị ngưỡng Thurstone γk ứng với các hạng điểm của các CH

con, các con số trên biểu đồ, ví dụ như 6.3, thì chữ số đầu biểu diễn số

hiệu CH, chữ số thứ hai biểu diễn hạng điểm.

237

Ngoài các tham số được ước lượng trên đây, CONQUEST còn cung

cấp các đặc trưng liên quan đến từng CH con. Bảng 13.4 giới thiệu các

thông tin liên quan đến hai CH con VTL2a và VTL2b, đó là các giá trị độ

phân biệt (discrimination), các giá trị ngưỡng (thresholds) Thurstone γk, các

giá trị độ khó δk ứng với các hạng điểm cũng như sai số tiêu chuẩn và các

tham số thể hiện độ phù hợp của số liệu với mô hình.

Bảng 13.4. Ví dụ về thông tin liên quan đến các CH con VTL2a và VTL2b. ==========================================================================

..........................................................................

item:3 (VTL2a)

Cases for this item 9844 Discrimination 0.58

Item Threshold(s): -0.56 -0.32 Weighted MNSQ 1.15

Item Delta(s): 1.00 -1.88

--------------------------------------------------------------------------

Label Score Count % of tot Pt Bis t (p) PV1Avg:1 PV1 SD:1

--------------------------------------------------------------------------

0 0.00 2948 29.95 -0.54 -64.41(.000) -0.63 0.84

1 1.00 727 7.39 -0.10 -10.34(.000) -0.22 0.83

2 2.00 6168 62.66 0.57 69.20(.000) 0.58 0.90

9 0.00 1 0.01 -0.02 -2.11(.035) -1.42 0.00

==========================================================================

item:4 (VTL2b)

Cases for this item 9844 Discrimination 0.70

Item Threshold(s): -1.00 -0.16 0.28 Weighted MNSQ 1.08

Item Delta(s): -0.62 0.29 -0.61

--------------------------------------------------------------------------

Label Score Count % of tot Pt Bis t (p) PV1Avg:1 PV1 SD:1

--------------------------------------------------------------------------

0 0.00 1967 19.98 -0.53 -62.57(.000) -0.84 0.86

1 1.00 2020 20.52 -0.23 -23.59(.000) -0.29 0.71

2 2.00 1440 14.63 -0.02 -1.80(.073) 0.08 0.76

3 3.00 4416 44.86 0.63 80.48(.000) 0.83 0.82

9 0.00 1 0.01 -0.02 -2.11(.035) -1.42 0.00

==========================================================================

..........................................................................

CONQUEST cũng cho phép vẽ đồ thị của các loại hàm khác nhau

mô tả tính chất của các CH và của đề kiểm tra. Dưới đây sẽ lần lượt giới

thiệu các ví dụ minh họa.

Hình 13.10 nêu ví dụ về các đường cong đặc trưng của CH con

VTL2b với 4 hạng điểm 0,1,2,3. Dưới đồ thị có ghi các giá trị của δk ứng

với 3 hạng điểm, các giá trị này trùng hợp với các giá trị ở Bảng 13.4. Có

thể thấy các giá trị này ứng với hoành độ giao điểm của các đường cong

xác suất đạt được các hạng điểm của CH con, và các giá trị δk không tăng

tuần tự, như đã lưu ý ở 13.1.1, vì xác suất để đạt hạng điểm 2 quá bé.

Hình 13.11 nêu ví dụ về các đường cong xác suất tích lũy của CH

con VTL2b ứng với 3 hạng điểm 1,2,3. Dưới đồ thị có ghi các giá trị

238

ngưỡng Thurstone γk ứng với các 3 hạng điểm 1,2,3. Có thể thấy các giá

trị này ứng với hoành độ giao điểm của các đường đó với đường thẳng

song song với trục hoành đi có tung độ bằng 0,5. Hoành độ của các giao

điểm nói trên chia trục năng lực θ lần lượt thành các vùng điểm 0, 1, 2, 3.

Hình 13.10. Các đường cong đặc trưng của CH con VTL2b

với 4 hạng điểm

Hình 13.11. Các đường cong xác suất tích lũy của CH con VTL2b

ứng với 3 hạng điểm

Hình 13.12 nêu ví dụ về các đường cong điểm kỳ vọng của CH con

VTL2b. Đây là một đường cong đồng biến biểu diễn sự tăng xác suất đạt

các hạng điểm cao hơn khi tăng năng lực θ, và điểm kỳ vọng lớn nhất là

hạng điểm 3.

239

Hình 13.12. Đường cong điểm kỳ vọng của CH con VTL2b

Hình 13.13 nêu ví dụ về các đường cong hàm thông tin của CH con

VTL2b. Đường cong chứng tỏ CH đang xét cung cấp thông tin để đo chính

xác khoảng năng lực ở mức trung bình, thông tin cực đại ở giá trị θ ≈ 0.

Hình 13.13. Đường cong hàm thông tin của CH con VTL2b

Cuối cùng là các đồ thị mô tả các đặc trưng của toàn bộ đề kiểm tra

gồm 3 CH TL (bao gồm 11 CH con). Hình 13.14 biểu diễn đường cong

hàm thông tin tổng thể của đề kiểm tra. Hàm thông tin chứng tỏ đề kiểm

tra cung cấp thông tin để đo chính xác khoảng năng lực trung bình của TS.

Hình 13.15 biểu diễn đường cong đặc trưng của đề kiểm tra (đường cong

điểm thực). Đây là một đường cong đồng biến với năng lực θ, nhánh phải

tiệm cận với giá trị điểm cực đại của đề kiểm tra (35 điểm).

240

Cuối cùng, Bảng 13.5 trích giới thiệu các giá trị năng lực tiềm ẩn

của TS, các sai số tiêu chuẩn của ước lượng và điểm thô tương ứng của

TS. Từ ước lượng năng lực có thể xác định điểm thực của từng TS nhờ

quan hệ giữa năng lực θ và điểm thực τ theo công thức (6.4) ở chương 6

và thể hiện trên đường cong điểm thực vừa mô tả.

Hình 13.14. Đường cong hàm thông tin tổng thể của

đề kiểm tra tự luận môn Ngữ văn

Hình 13.15. Đường cong đặc trưng tổng thể (đường cong điểm thực)

của đề kiểm tra tự luận môn Ngữ văn

241

242

Bảng 13.5. Trích các giá trị năng lực tiềm ẩn và điểm thô tương ứng của TS

Thí sinh Điểm thô Điểm thô

tối đa Năng lực θ

Sai số tiêu chuẩn

1

2

3

4

5

6

7

8

9

10

............

9835

9836

9837

9838

9839

9840

9841

9842

9843

9844

29.00

29.00

29.00

29.00

28.00

23.00

21.00

31.00

27.00

26.00

...........

11.00

20.00

21.00

8.00

21.00

13.00

8.00

11.00

17.00

29.00

35.00

35.00

35.00

35.00

35.00

35.00

35.00

35.00

35.00

35.00

...........

35.00

35.00

35.00

35.00

35.00

35.00

35.00

35.00

35.00

35.00

1.92331

1.92331

1.92331

1.92331

1.64703

0.63957

0.32447

2.62205

1.40487

1.18843

...........

-1.09265

0.17624

0.32447

-1.55648

0.32447

-0.80292

-1.55648

-1.09265

-0.24699

1.92331

0.54413

0.54413

0.54413

0.54413

0.50415

0.40659

0.38795

0.64275

0.47617

0.45299

...........

0.38482

0.38178

0.38795

0.40454

0.38795

0.37725

0.40454

0.38482

0.37158

0.54413

Trên đây chúng tôi chỉ trình bày các kết quả chính mà CONQUEST

cung cấp. Bạn đọc muốn tìm hiểu kỹ hơn về phần mềm này có thể tham

khảo ở tài liệu [31] và trang web [30].

13.2.2. Phân tích các bài kiểm tra gồm hỗn hợp các CH trắc nghiệm

khách quan và tự luận nhờ phần mềm CONQUEST

243

Như đã thảo luận ở chương 1, TNKQ và TL có những ưu nhược

điểm khác nhau, và trong một đề kiểm tra nếu kết hợp được cả các CH

TNKQ và TL thì chúng ta có thể sử dụng được ưu điểm của hai loại.

Phân tích đề kiểm tra hỗn hợp TNKQ và TL có thể thực hiện được

nếu sử dụng các mô hình IRT đơn chiều kết hợp, chẳng hạn mô hình Rasch

nhị phân và PCM, hoặc mô hình IRT nhị phân 2, 3 tham số với GPCM.

Để minh họa, dưới đây chúng tôi sẽ giới thiệu một đề kiểm tra môn

Vật lý sử dụng cho kỳ khảo sát kết quả học tập của học sinh lớp 9 cũng

do Viện Khoa học Giáo dục Việt Nam triển khai năm 2009.

Đề kiểm tra Vật lý gồm 2 phần:

- Phần TNKQ gồm 30 CH theo kiểu NLC có 4 phương án trả lời,

chúng ta sẽ quy ước ghi nhãn các CH TNKQ theo thứ tự từ L1 đến L30.

Mỗi CH TNKQ trả lời đúng được tính 1 điểm, như vậy phần TNKQ của

đề Vật lý được tối đa 30 điểm.

- Phần TL gồm 3 CH, mỗi CH TL được chia thành các phần con

với mức điểm tối đa được quy định.

Có thể mô tả phân bố điểm của đề kiểm tra hỗn hợp môn Vật lý

nhờ Bảng 13.6.

Bảng 13.6. Điểm tối đa cho các phần của CH hỗn hợp TNKQ và TL môn Vật lý

Phần a Phần b Phần c Phần d

L1 1

L2 1

L30 1

LTL31 31a: 1 31b: 4

LTL32 32a: 1 32b: 2 32c: 1 32d: 1

LTL33 33a: 2 33b: 2 33c: 1

244

Như vậy, đề kiểm tra Vật lý lớp 9 là đề hỗn hợp gồm 30 CH TNKQ

nhị phân (từ L1 đến L30) và 3 CH TL được tách thành 9 CH con PCM như

sau: CH TL 31 (LTL31a, LTL31b); CH TL 32 (LTL32a, LTL32b, LTL32c,

LTL32d); CH TL 33 (LTL33a, LTL33b, LTL33c). Điểm tối đa của phần

TNKQ là 30, phần TL là 15, cả đề hỗn hợp tổng cộng là 45.

Bảng 13.7. Trích kết quả ước lượng các tham số độ khó δ của các CH TNKQ và các tham số độ khó trung bình δ• của các CH con PCM

=========================================================================

VARIABLES UNWEIGHTED FIT WEIGHTED FIT

---------------------------------------------------- ------------------

Item ESTIMATE MNSQ CI T MNSQ CI T

-------------------------------------------------------------------------

1 L01 -1.446 0.009 1.17 (0.99, 1.01) 21.4 1.10 (0.99, 1.01) 15.2

2 L02 -0.322 0.008 0.92 (0.99, 1.01)-11.5 0.93 (0.99, 1.01)-17.4

.....................................................

..... ...............................................

30 L30 -0.406 0.008 1.03 (0.99, 1.01) 3.9 1.02 (0.99, 1.01) 5.1

31 LTL31a 12.202 0.010 0.93 (0.99, 1.01) -9.9 0.99 (0.96, 1.04) -0.6

32 LTL31b1 3.250 0.010 1.25 (0.99, 1.01) 30.7 1.30 (0.96, 1.04) 15.3

33 LTL31b2 4.145 0.011 1.23 (0.99, 1.01) 28.3 1.73 (0.93, 1.07) 15.7

34 LTL31b3 4.463 0.011 1.13 (0.99, 1.01) 16.7 1.58 (0.91, 1.09) 10.9

35 LTL32a 2.091 0.009 1.04 (0.99, 1.01) 5.9 1.04 (0.98, 1.02) 4.6

36 LTL32b -0.103 0.006 1.25 (0.99, 1.01) 31.3 1.19 (0.99, 1.01) 29.6

37 LTL32c 2.170 0.008 1.08 (0.99, 1.01) 10.7 1.08 (0.99, 1.01) 13.7

38 LTL32d 0.227 0.008 1.05 (0.99, 1.01) 6.6 1.04 (0.99, 1.01) 8.9

39 LTL33a -0.433 0.007 1.13 (0.99, 1.01) 17.1 1.13 (0.99, 1.01) 19.6

40 LTL33b -0.824 0.007 1.06 (0.99, 1.01) 7.8 1.05 (0.99, 1.01) 8.1

41 LTL33c 2.770* 0.055 0.85 (0.99, 1.01)-20.4 0.89 (0.99, 1.01)-24.8

-------------------------------------------------------------------------

An asterisk next to a parameter estimate indicates that it is

constrained

Separation Reliability = 1.000

Chi-square test of parameter equality = 2590166.53, df = 40, Sig Level

= 0.000

^ Quyck standard errors have been used

=========================================================================

245

Bài kiểm tra được triển khai trên các mẫu gồm 35.579 TS là học

sinh lớp 9 nước ta trên 63 tỉnh/thành phố ở 8 vùng miền trong cả nước,

sau đó phần TNKQ được chấm điểm tự động, còn phần các CH TL được

một số giáo viên chấm theo các thang điểm phân bố như đã nêu ở bảng

trên đây. Các điểm thô thu được qua quá trình chấm nói trên được đưa

phân tích bằng phần mềm CONQUEST để ước lượng các tham số của 30

CH TNKQ nhị phân và 9 CH con PCM, trong đó các CH TNKQ nhị

phân là trường hợp riêng của CH PCM. Dưới đây sẽ dẫn một số kết quả

tính toán để minh họa, chủ yếu lưu ý nhiều đến các phần phản ánh sự

phối hợp của các CH TNKQ và TL.

Trước hết, ở Bảng 13.7 trích kết quả ước lượng các tham số độ khó

trung bình δ (ESTIMATE) của các CH TNKQ nhị phân và các tham số δ•

của các CH con PCM được tách từ các CH TL và các tham số biểu thị độ

phù hợp của số liệu với mô hình.

Bảng 13.8 trích kết quả ước lượng tham số bước (step parameter) τk

(= δ• - δk) đối với các hạng điểm của các CH con PCM đa phân và các độ

phù hợp của từng hạng điểm của mỗi CH con đối với mô hình.

Hình 13.16 là biểu đồ về tương quan giữa năng lực θ của TS và các

giá trị ngưỡng Thurstone γk ứng với các hạng điểm của các CH con, đặt

theo trục thẳng đứng hướng từ dưới lên, đo bằng logit, mức 0 của thang

được xác định theo giá trị của ngưỡng. Các con số trên biểu đồ, ví dụ 32.1,

thì chữ số đầu biểu diễn số hiệu CH, chữ số thứ hai biểu diễn hạng điểm.

Đối với các CH TNKQ nhị phân thì giá trị ngưỡng γ cũng trùng với giá

trị độ khó δ và được biểu diễn bởi chỉ một chữ số.

246

Bảng 13.8. Trích kết quả ước lượng tham số bước τk

đối với các hạng điểm của các CH con PCM đa phân

=========================================================================

VARIABLES UNWEIGHTED FIT WEIGHTED FIT

------------------- ----------------------- -----------------

item step ESTIMATE ERROR^ MNSQ CI T MNSQ CI T

------------------------------------------------------------------------------------

31 LTL31a 0 0.93 (0.99, 1.01)-10.2 0.99 (0.96, 1.04) -0.6

31 LTL31a 1 -15.677 0.023 0.93 (0.99, 1.01) -9.9 0.99 (0.96, 1.04) -0.6

31 LTL31a 2 15.677* _BIG_ (0.99, 1.01)_BIG_ _BIG_(0.00,_BIG_)_BIG_

------------------------------------------------------------------------------------

----------------------------------------------------------------------------------

40 LTL33b 0 1.05 (0.99, 1.01) 6.7 1.01 (0.99, 1.01) 1.0

40 LTL33b 1 -0.286 0.012 1.01 (0.99, 1.01) 1.4 1.01 (0.99, 1.01) 1.6

40 LTL33b 2 0.286* 1.08 (0.99, 1.01) 10.8 1.06 (0.99, 1.01) 11.8

41 LTL33c 0 0.87 (0.99, 1.01)-17.5 0.91 (0.99, 1.01)-22.4

41 LTL33c 1 -2.728 0.012 0.87 (0.99, 1.01)-17.9 0.90 (0.99, 1.01)-23.2

41 LTL33c 2 2.728* 0.03 (0.99, 1.01)_BIG_ 0.04 (0.81, 1.19)-20.0

------------------------------------------------------------------------------------

An asterisk next to a parameter estimate indicates that it is constrained

^ Quyck standard errors have been used

===================================================================================

247

=================================================================

MAP OF LATENT DISTRIBUTIONS AND THRESHOLDS -Fri Oct 30 16:09 2009

| Các ngưỡng γk của các CH con |31.2 32.2 33 34 35.2 37.2 41.2

|

|

3 |

|

|

|

|32.1

|

|

2 |

X|

X|

XX|

XX|

XX|

XX|15

XX|

1 XXXX|

XXXX|11

XXXXX|

XXXXXXX|13

XXXXXX|39.2

XXXXXX|36.2

XXXXXXX|

XXXXXXXX|38

0 XXXXXXXXX|41.1

XXXXXXXXXX|29

XXXXXXXX|40.2

XXXXXXXXX|2

XXXXXXXX|30

XXXXXXXX|12 19 36.1

XXXXXXXXX|4 7 10 18

XXXXXXXX|22

-1 XXXXXXX|

XXXXXXX|3

XXXXX|17 21 23 28 37.1

XXXXX|9 39.1

XXXXXX|1 6 40.1

XXXX|5 24

XXX|26

XXX|14 27 35.1

-2 XX|8 16

X|20 25

X|

X|

X|

|

|

-3 |

|

|31.1

==================================================

Each 'X' represents 204.5 cases. The labels for thresholds show the

levels of item, and step, respectively

Hình 13.16. Tương quan giữa năng lực θ của TS và các giá trị ngưỡng γk

248

Về các thông tin quan trọng đối với từng CH, Bảng 13.9 chỉ trích

giới thiệu 2 CH đại diện: CH L12 là TNKQ nhị phân, và CHTL33b là

CH con PCM với 3 hạng điểm. Các bảng con ở Bảng 13.9 có trình bày

các thông tin liên quan, đó là các giá trị độ phân biệt (discrimination), các

giá trị ngưỡng (thresholds) Thurstone γk và độ khó δk ứng với các hạng

điểm, cũng như sai số tiêu chuẩn và các tham số thể hiện độ phù hợp của

số liệu với mô hình. Trường hợp của CH TNKQ thì giá trị ngưỡng γ và

độ khó δ trùng nhau.

Bảng 13.9. Trích thông tin về các CH đại diện (trắc nghiệm khách quan nhị phân và PCM đa phân)

=========================================================================

GENERALISED ITEM ANALYSIS- Fri Oct 30 16:24 2009

=========================================================================

item:12 (L12)

Cases for this item 35560 Discrimination 0.48

Item Threshold(s): -0.53 Weighted MNSQ 0.95

Item Delta(s): -0.53

-------------------------------------------------------------------------

Label Score Count % of tot Pt Bis t (p) PV1Avg:1 PV1 SD:1

-------------------------------------------------------------------------

1 0.00 4188 11.78 -0.25 -48.80(.000) -0.88 0.79

2 1.00 19772 55.60 0.48 103.31(.000) 0.09 0.87

3 0.00 4059 11.41 -0.17 -32.27(.000) -0.69 0.88

4 0.00 7248 20.38 -0.24 -47.53(.000) -0.71 0.82

9 0.00 293 0.82 -0.07 -12.30(.000) -0.91 0.80

=========================================================================

-------------------------------------------------------------------------

-------------------------------------------------------------------------

item:40 (LTL33b)

Cases for this item 35579 Discrimination 0.55

Item Threshold(s): -1.45 -0.20 Weighted MNSQ 1.05

Item Delta(s): -1.11 -0.54

-------------------------------------------------------------------------

Label Score Count % of tot Pt Bis t (p) PV1Avg:1 PV1 SD:1

-------------------------------------------------------------------------

0 0.00 7658 21.52 -0.48 _BIG_ (.000) -1.07 0.79

1 1.00 11067 31.11 -0.08 -15.08(.000) -0.40 0.79

2 2.00 16659 46.82 0.47 101.10(.000) 0.16 0.84

9 0.00 195 0.55 -0.04 -7.72(.000) -0.79 0.77

=========================================================================

Đối với các đồ thị biểu diễn từng CH chúng ta cũng chỉ giơí thiệu các

đường cong đặc trưng của hai CH đại diện tương ứng nêu ở Bảng 13.9 trên

các Hình 13.17 và Hình 13.18. Cuối cùng là các đường cong gắn với tổng

thể đề kiểm tra Vật lý: hàm thông tin và hàm đặc trưng của đề kiểm tra.

249

Hàm thông tin của đề kiểm tra hỗn hợp trên Hình 13.19 chứng tỏ đề kiểm

tra cung cấp thông tin để đo chính xác nhất khoảng năng lực dưới trung

bình (θ ~ -1) của TS. Đường cong đặc trưng của đề kiểm tra hỗn hợp

(đường cong điểm thực) trên Hình 13.20 là một đường cong đồng biến

với năng lực θ, nhánh phải tiệm cận với giá trị điểm cực đại của đề kiểm

tra (45 điểm).

Hình 13.17. Ví dụ về đường cong đặc trưng của CH TNKQ nhị phân L12

Hình 13.18. Ví dụ về đường cong đặc trưng của CH PCM đa phân LTL-33b

250

Hình 13.19. Đường cong hàm thông tin của đề Vật lý lớp 9 (trắc nghiệm khách quan và tự luận)

Hình 13.20. Đường cong điểm thực của đề Vật lý lớp 9 (hỗn hợp trắc nghiệm khách quan và tự luận)

251

13.2.3. Phân tích các bài kiểm tra gồm hỗn hợp các CH trắc nghiệm

khách quan và tự luận nhờ phần mềm PARSCALE

Hai phần mềm cho các mô hình IRT đa phân được sử dụng phổ

biến ở Hoa Kỳ là MULTILOG và PARSCALE. MULTILOG do Thissen

xây dựng, áp dụng cho cả các trắc nghiệm với các hạng điểm nhị phân và

đa phân như mô hình ứng đáp đa cấp (graded response) của Samejima,

mô hình ứng đáp định danh (nominal responses – non-ordered) của

Bock, mô hình các CH NLC của Thissen và Steinberg. Các số liệu trắc

nghiệm ứng đáp nhị phân cũng được sử dụng như một trường hợp riêng

của trắc nghiệm đa phân. Phần mềm PARSCALE do Muraki và Bock

xây dựng, cũng áp dụng được cho hàng loạt mô hình như mô hình ứng

đáp đa cấp của Samejima, mô hình thang đánh giá (rating scale) của

Anderson, mô hình định giá từng phần tổng quát (generalised partial

credit) của Muraki. Phần mềm PARSCALE có thể áp dụng để giải quyết

các bài toán phức tạp như phân tích các bài kiểm tra hỗn hợp gồm nhiều

CH đa phân và nhị phân 2, 3 tham số; giúp khảo sát để điều chỉnh sự

thiên lệch do nhiều người khác nhau chấm điểm bài kiểm tra …

Dưới đây chúng ta sẽ làm quen với một trong hai phần mềm nói

trên, cụ thể là phần mềm PARSCALE, qua ví dụ phân tích một bài kiểm

tra tiếng Anh lớp 9 Trung học phổ thông cũng được Viện Khoa học Giáo

dục Việt Nam thực hiện vào năm 2009 theo một Dự án của Bộ Giáo dục

và Đào tạo.

Đề tiếng Anh lớp 9 (ký hiệu ANH9) có 20 CH trắc nghiệm nhị

phân và 5 CH TL ngắn. Mỗi CH trắc nghiệm nhị phân trả lời đúng được

1 điểm, trả lời sai 0 điểm; mỗi CH TL ngắn được cho theo 3 mức điểm

0,1,2. Như vậy tổng điểm của phần trắc nghiệm nhị phân là 20, của phần

TL là 10, của toàn bộ đề hỗn hợp ANH9 là 30.

Khi phân tích bằng phần mềm PARSCALE ta sẽ sử dụng mô hình

định giá từng phần tổng quát (GPCM) trong đó các CH TL có tham số

độ dốc a và các CH nhị phân có 3 tham số. Sau đây là một số kết quả

phân tích.

252

Bảng 13.10. Tham số của các CH theo IRT

+------+---------+-------+---------+--------+---------+--------+

| ITEM | SLOPE | S.E. |LOCATION | S.E. |GUESSING | S.E. |

|Câuhỏi| Độdốc a |Ssốchuẩn|Độ khó δ|Ssốchuẩn|TSđoánmò c|Ssốchuẩn|

+======+=========+========+========+========+========+========+

| 0001 | 1.290 | 0.052 | 0.222 | 0.029 | 0.504 | 0.009 |

+------+--------+--------+--------+--------+--------+--------+

| 0002 | 0.999 | 0.041 | 0.797 | 0.025 | 0.306 | 0.009 |

+------+--------+--------+--------+--------+--------+--------+

| 0003 | 1.192 | 0.046 | 0.246 | 0.029 | 0.426 | 0.010 |

+------+--------+--------+--------+--------+--------+--------+

| 0004 | 0.771 | 0.041 | -0.547 | 0.107 | 0.528 | 0.027 |

+------+--------+--------+--------+--------+--------+--------+

| 0005 | 0.649 | 0.046 | -1.271 | 0.246 | 0.661 | 0.045 |

+------+--------+--------+--------+--------+--------+--------+

| 0006 | 1.443 | 0.056 | 1.186 | 0.016 | 0.246 | 0.004 |

+------+--------+--------+--------+--------+--------+--------+

| 0007 | 0.812 | 0.031 | -0.792 | 0.082 | 0.289 | 0.033 |

+------+--------+--------+--------+--------+--------+--------+

| 0008 | 1.048 | 0.032 | 0.785 | 0.016 | 0.133 | 0.006 |

+------+--------+--------+--------+--------+--------+--------+

| 0009 | 0.980 | 0.030 | -0.036 | 0.032 | 0.211 | 0.013 |

+------+--------+--------+--------+--------+--------+--------+

| 0010 | 0.923 | 0.044 | 1.022 | 0.026 | 0.372 | 0.008 |

+------+--------+--------+--------+--------+--------+--------+

| 0011 | 1.088 | 0.035 | -0.058 | 0.031 | 0.313 | 0.012 |

+------+--------+--------+--------+--------+--------+--------+

| 0012 | 1.075 | 0.028 | -0.599 | 0.036 | 0.108 | 0.020 |

+------+--------+--------+--------+--------+--------+--------+

| 0013 | 0.833 | 0.024 | 0.022 | 0.032 | 0.094 | 0.014 |

+------+--------+--------+--------+--------+--------+--------+

| 0014 | 0.964 | 0.032 | 0.040 | 0.034 | 0.298 | 0.013 |

+------+--------+--------+--------+--------+--------+--------+

| 0015 | 1.092 | 0.033 | 0.231 | 0.024 | 0.248 | 0.010 |

+------+--------+--------+--------+--------+--------+--------+

| 0016 | 0.794 | 0.036 | 1.316 | 0.025 | 0.199 | 0.007 |

+------+--------+--------+--------+--------+--------+--------+

| 0017 | 1.105 | 0.028 | -0.665 | 0.036 | 0.107 | 0.020 |

+------+--------+--------+--------+--------+--------+--------+

| 0018 | 0.987 | 0.023 | -0.129 | 0.024 | 0.053 | 0.011 |

+------+--------+--------+--------+--------+--------+--------+

| 0019 | 1.296 | 0.043 | 0.005 | 0.026 | 0.395 | 0.010 |

+------+--------+--------+--------+--------+--------+--------+

| 0020 | 0.802 | 0.023 | 0.520 | 0.023 | 0.078 | 0.009 |

+------+--------+--------+--------+--------+--------+--------+

| 0021 | 0.917 | 0.009 | 0.265 | 0.008 | 0.000 | 0.000 |

+------+--------+--------+--------+--------+--------+--------+

| 0022 | 1.051 | 0.011 | 0.449 | 0.008 | 0.000 | 0.000 |

+------+--------+--------+--------+--------+--------+--------+

| 0023 | 0.983 | 0.013 | 0.488 | 0.009 | 0.000 | 0.000 |

+------+--------+--------+--------+--------+--------+--------+

| 0024 | 0.727 | 0.006 | 0.154 | 0.009 | 0.000 | 0.000 |

+------+--------+--------+--------+--------+--------+--------+

| 0025 | 0.990 | 0.011 | 1.331 | 0.010 | 0.000 | 0.000 |

+------+--------+--------+--------+--------+--------+--------+

253

Bảng 13.11. Trích ước lượng năng lực θ của thí sinh

IDENTIFICATION ABILITY S.E. (Mã thí sinh) (Năng lực θ)(Saisốtiêuchuẩn)

---------------------------------------------

1010010101 | -0.1562 0.3258

--------------------------------------------

1010010104 -1.5611 0.5529

--------------------------------------------

1010010106 -1.3682 0.5726

--------------------------------------------

1010010110 -0.5506 0.3541

--------------------------------------------

1010010113 0.2857 0.2983

--------------------------------------------

1010010116 -0.1677 0.3699

--------------------------------------------

.............................................

............................................

--------------------------------------------

8969710802 | -0.5973 0.3952

--------------------------------------------

8969710803 | -0.1066 0.2914

--------------------------------------------

8969710806 | 1.0381 0.3212

--------------------------------------------

8969710809 | 0.5810 0.2833

--------------------------------------------

8969710812 | 0.2195 0.2762

--------------------------------------------

8969710818 | -0.2513 0.3173

--------------------------------------------

8969710823 | -1.6395 0.5755

---------------------------------------------

Bảng 13.10 cho kết quả ước lượng các tham số của từng CH và các

sai số tiêu chuẩn kèm theo. Đối với các CH trắc nghiệm nhị phân 1-20:

slope chính là giá trị độ dốc a, location chính là độ khó δ, guessing chính

là tham số đoán mò. Bảng 13.11 trích kết quả ước lượng năng lực θ của

từng TS và sai số tiêu chuẩn kèm theo.

Ngoài các bảng số, PARSCALE còn cho các biểu đồ. Hình 13.21

biểu diễn bảng các đường cong ĐTCH của mọi CH trong đề kiểm tra. 20

CH trắc nghiệm nhị phân được tính theo mô hình 3 tham số, các đường

cong thể hiện các độ dốc và các tung độ tiệm cận trái khác nhau. 5 CH

TL ngắn được phân tích theo mô hình GPCM, mỗi CH cho 3 đường cong

254

diễn tả xác suất ứng đáp của 3 hạng điểm, từ các đường cong đó chúng ta

có thể có các ý niệm khái quát về các vùng năng lực và xác suất ứng đáp

từng hạng điểm: chẳng hạn CH PCM25 thể hiện hạng điểm 1 ở giữa có

nhiều TS ứng đáp đúng hơn các CH khác, nhưng năng lực để ứng đáp các

hạng điểm 1 và 2 là khá cao. Hình 13.22 giới thiệu biểu đồ hàm thông tin

và sai số tiêu chuẩn của đề hỗn hợp ANH9: đề cho thông tin để đo

khoảng năng lực trên trung bình chính xác hơn, sai số tiêu chuẩn của

phép đo ở vùng đó bé hơn.

Hình 13.21. Bảng các đường cong ĐTCH của

đề kiểm tra ANH9

Hình 13.22. Biểu đồ hàm thông tin và sai số tiêu chuẩn

của đề kiểm tra ANH9

255

CÂU HỎI TỰ KIỂM TRA

1. Khác biệt giữa mô hình thang đánh giá (rating scale model) và

mô hình định giá từng phần (PCM).

2. Nêu giả thiết cơ bản để xây dựng PCM. Quan hệ giữa PCM và

trắc nghiệm nhị phân.

3. Ý nghĩa của các tham số δk δ•, τk, γk và quan hệ giữa chúng với

giá trị độ khó b trong trắc nghiệm nhị phân.

4. Mô tả các đường cong ĐTCH theo hạng điểm, đường cong xác

suất tích lũy, đường cong điểm kỳ vọng trong trường hợp trắc nghiệm đa

phân và trường hợp riêng của chúng trong mô hình trắc nghiệm nhị phân.

5. Mô tả mô hình PCM tổng quát (GPCM).

6. Nêu những điểm cần lưu ý khi kết hợp phân tích trắc nghiệm nhị

phân với trắc nghiệm đa phân, phân tích số liệu TNKQ với TL.

________________________

256

Chương 14

KHÁI NIỆM VỀ TRẮC NGHIỆM ĐA CHIỀU

Khi xây dựng các mô hình ứng đáp CH ở chương 3, để đơn giản

hóa chúng ta đã đặt điều kiện về tính đơn chiều (unidimentionality) của

CH, tức là CH chỉ đo một thứ năng lực tiềm ẩn, hoặc chỉ đo một chiều

(dimension) của năng lực tiềm ẩn đa chiều (multidimentionality). Tuy

nhiên, trong thực tế, để thực hiện một ứng đáp nào đó TS thường phải có

các chiều khác nhau của năng lực, chẳng hạn để giải một bài toán TS cần

cả kỹ năng đọc hiểu đề toán và các kỹ năng toán học. Nhiều nghiên cứu

cũng khẳng định rằng đôi khi việc định cỡ các CH theo mô hình đơn chiều

cho thấy có biểu hiện ứng đáp CH khác biệt (differential item functioning)

là do các năng lực ứng đáp CH của mẫu TS là đa chiều.

Lord, F.M. & Novick [6], McDonald R.P [20] và Sanejima, F.[21]

là trong số những người đầu tiên nghiên cứu các mô hình IRT đa chiều.

Nhưng đến khoảng thập niên 1990 các nhà nghiên cứu mới phát triển các

mô hình đa chiều cùng với các phần mềm ước lượng các tham số.

Chương này sẽ chỉ giới thiệu một số mô hình IRT đa chiều tiêu

biểu với các cách mở rộng từ mô hình một chiều không quá phức tạp đối

với mục đích giáo khoa.

14.1. MỘT SỐ MÔ HÌNH TRẮC NGHIỆM ĐA CHIỀU

14.1.1. Mô hình trắc nghiệm đa chiều nhờ các hàm logistic tuyến tính

theo số liệu từ các CH nhị phân

Reskase, M.D. đã mở rộng mô hình đơn chiều logistic tuyến tính ra

mô hình đa chiều bằng các lập luận như sau. Các TS sử dụng nhiều năng

lực tri thức để ứng đáp trắc nghiệm, nhưng có một số năng lực liên quan

257

đến nhiệm vụ trắc nghiệm, và một số năng lực không liên quan. Hơn nữa,

một số nhiệm vụ của đề trắc nghiệm nhạy cảm với các năng lực nào đó,

một số nhiệm vụ khác thì không. Số chiều của năng lực cần cho mô hình

phân tích một dữ liệu phụ thuộc cả vào số chiều và mức độ năng lực của

các TS cũng như số chiều nhận thức mà đề kiểm tra thể hiện sự nhạy cảm

với chúng.

Mô hình của Reskase M. D. (xem trong [12]) dựa vào trắc nghiệm

nhị phân (0,1) với dữ liệu của mô hình được chứa trong ma trận có N

dòng biểu hiện TS và n cột biểu hiện CH hoặc nhiệm vụ phải thực hiện.

Reskase nêu các giả định về dữ liệu như sau: 1) Xác suất trả lời đúng CH

đồng biến với năng lực của TS; 2) Hàm xác suất theo năng lực là trơn

(khả vi); 3) Xác suất của tổng hợp các ứng đáp bằng tích các xác suất

riêng biệt (giả thiết về tính độc lập địa phương, xem 8.1.1).

1. Công thức của mô hình

Công thức cơ bản của mô hình được khái quát hóa từ công thức

ứng với mô hình logistic ba chiều nhị phân (4.4):

ij j i

a θ +dij j i

a θ +d

i ij i i i j i i

e P (U =1/a ,d ,c ,θ )=c +(1-c )

[1+e ] , (14.1)

trong đó:

P(Uij= 1/ai, di, ci, θj) là xác suất ứng đáp đúng (đạt điểm 1) của TSj

đối với CH i;

Uij là ứng đáp của TSj đối với CHi;

ai là vectơ của các tham số liên quan đến độ phân biệt của CH (tốc

độ tăng xác suất ứng đáp đúng CH so với sự tăng năng lực của TS);

di là tham số liên quan đến độ khó của CH;

ci là xác suất ứng đáp đúng CH khi các năng lực ứng đáp CH rất thấp

(→ - ∞) (đối với trường hợp nhị phân thường gọi là tham số đoán mò);

θj là vectơ năng lực của TSj.

258

Các khái niệm nêu trên sẽ được giải thích rõ hơn dưới đây.

2. Đồ thị biểu diễn mô hình

Công thức của mô hình xác định một mặt cong cho biết xác suất

ứng đáp đúng CH phụ thuộc vào vị trí của TS trong không gian năng lực

được xác định bởi vectơ θ. Các thành phần của vectơ là các chiều của

năng lực tiềm ẩn của TS. Khi chỉ tồn tại hai chiều thì có thể biểu diễn

công thức xác suất bằng đồ thị 3 chiều. Hình 14.1a biểu diễn mặt xác suất

của CH với a1 =0,8; a2 =1,4; d= -2,0; c=0,2. Có thể thấy tính chất đồng

biến của mặt xác suất theo θ1 và θ2, và thấy mặt tiệm cận nằm ngang ở

các giá trị θ thấp. Hình 14.1b biểu diễn hình chiếu của các đường đồng

mức xác suất ứng đáp đúng CH: đó là các đường thẳng, vì logarit của

hàm mũ trong công thức mô hình có dạng tuyến tính.

3. Ý nghĩa của các tham số của mô hình

Công thức biểu diễn mô hình chứa các tham số của cả TS và CH.

- Các tham số năng lực của TS: Các tham số năng lực của TS là các

thành phần θj. Nhiều nghiên cứu chứng tỏ xác định quá nhiều hoặc quá ít

số chiều của năng lực cũng không tốt. Tất nhiên số chiều được sử dụng

phụ thuộc vào mục đích của việc phân tích. Không có đòi hỏi nào buộc

phải biểu diễn các chiều thẳng góc với nhau.

- Độ phân biệt của CH: Các tham số độ phân biệt của mô hình

được xác định bởi các thành phần của vectơ a, cũng có thể được giải

thích tương tự như tham số a trong mô hình nhị phân (mục 4.1.1). Một

thành phần nào đó của vectơ a liên quan đến độ dốc của mặt xác suất

ứng đáp đúng theo hướng tương ứng với trục θ. Nếu hướng ta quan

tâm song song với mặt xác suất thì độ dốc sẽ bằng 0 và CH không có

độ phân biệt. Người ta đưa vào độ phân biệt tổng hợp của CH được

xác định như sau:

259

(a)

(b)

Hình 14.1. Mặt ĐTCH với 2 chiều năng lực θ1, θ2 (a) và hình chiếu các đường đồng mức xuống mặt phẳng (θ1,θ2) (b)

260

MDISCi = p

2ik

k=1

a , (14.2)

trong đó p là số chiều trong không gian năng lực θ, aik là các thành

phần của vectơ ai.

- Độ khó của CH: Tham số di của mô hình liên quan đến độ khó của

CH. Tuy nhiên d không giống b trong mô hình nhị phân, vì d ở (14.1)

đóng vai trò –b trong (4.4). Giá trị tương đương với b là độ khó đa chiều

được xác định bởi:

MDIFFi = i

i

-d

MDISC , (14.3)

Giá trị MDIFFi cho biết khoảng cách từ gốc của không gian năng

lực θ đến điểm có độ dốc lớn nhất theo hướng đi từ gốc. Hướng có độ

dốc lớn nhất tính từ gốc tọa độ được xác định bởi công thức:

αik = arccos ik

i

a

MDISC , (14.4)

trong đó αik là góc hợp giữa đường thẳng vẽ từ gốc tọa độ đến điểm

có độ dốc lớn nhất với trục tọa độ thứ k của CH thứ i.

- Tiệm cận thấp: là mặt phẳng xác định bởi tham số Ci, tương tự

như tham số ci trong biểu thức (4.4).

4. Hàm đặc trưng của đề trắc nghiệm và hàm thông tin của câu hỏi

Hàm đặc trưng (hàm điểm thực) và hàm thông tin của đề trắc

nghiệm ứng với mô hình nhị phân đa chiều cũng có thể khái quát từ các

biểu thức tương ứng (6.4) và (7.7) của mô hình nhị phân đơn chiều. Hàm

điểm thực được biểu diễn bởi:

τ (θ) =n

i

i=1

1P (θ)

n , (14.5)

trong đó τ (θ) là giá trị điểm kỳ vọng của TS có năng lực θ, còn

Pi(θ) là xác suất trả lời đúng CHi.

261

Hàm thông tin của CH được biểu diễn bởi:

Iiα (θ) =

2

α i

i i

P (θ)

P (θ) 1-P (θ)

, (14.6)

trong đó Iiα (θ) là thông tin mà CHi cung cấp theo hướng α của

không gian năng lực và α là toán tử xác định đạo hàm theo hướng α.

Mặt thông tin của đề trắc nghiệm thu được bằng cách cộng các mặt thông

tin của các CH trong đề tính theo cùng hướng.

5. Ước lượng tham số:

Các tham số của mô hình được ước lượng nhờ quy trình biến cố

hợp lý cực đại tương tự như quy trình được mô tả ở mục 8.1. Mục tiêu

của quy trình là tìm bộ tham số CH và TS làm cực đại biến cố hợp lý của

các ứng đáp CH quan sát được. Công thức cơ bản của phương trình biến

cố hợp lý:

L = N n

ij i i i j

j=1 i=1

P(u /a ,d ,c ,θ ) , (14.7)

trong đó u ij là ứng đáp đối với CHi của TSj (0 hoặc 1). Tìm cực đại

của hàm L nhờ phương pháp Newton-Raphson, trước hết cho cố định

tham số CH và ước lượng tham số TS, sau đó cố định tham số TS và ước

lượng tham số CH, tương tự quy trình đã mô tả ở (8.2.2).

6. Độ trùng khớp tốt (goodness of fit)

Mục tiêu của mô hình là giải thích chính xác sự tương tác giữa TS

và CH. Tùy theo mức độ đạt được mục tiêu ấy mà mô hình sẽ có ích

trong các ứng dụng cụ thể. Vì mọi mô hình đều phải đơn giản hóa các

mối tương tác giữa TS và CH nên các mô hình đều bị phủ định khi mẫu

quá lớn. Cho nên không thể đặt vấn đề mô hình có phù hợp với số liệu

hay không, mà chỉ có thể đặt vấn đề mức độ phù hợp của mô hình có đủ

để áp dụng hay không.

Một trong các cách tiếp cận được đề nghị ở đây là xem xét cẩn thận

ma trận hiệp biến thặng dư (residual covariance matrix) giữa các CH để

262

xác định chứng cứ có thể hay không thể sử dụng mô hình. Các số hạng

của ma trận nxn yếu tố được tính theo công thức:

covik =

N

ij i j kj k j

j=1

(u -P (θ ))(u -P (θ ))

N

, i, k=1,2…,n;

trong đó i và k biểu diễn các CH trong đề trắc nghiệm. Giá trị thặng

dư lớn có thể cho thấy quy trình ước lượng không hội tụ, số chiều xác

định còn quá ít hoặc mô hình không phù hợp. Đánh giá các giá trị thặng

dư này là quá trình khá công phu, đòi hỏi nhiều kinh nghiệm.

14.1.2. Một cách tiếp cận xây dựng mô hình tổng quát cho trắc

nghiệm nhị phân, đa phân, đơn chiều, đa chiều

Wu, M.L. và Adams, R.J. [31] tại Cơ quan Nghiên cứu Giáo dục

Úc (Australian Council for Educational Reseach – ACER) đã đề xuất một

cách tiếp cận tổng quát để xây dựng chương trình CONQUEST dựa trên

mô hình Rasch mở rộng cho trắc nghiệm nhị phân, đa phân, đơn chiều,

đa chiều. Chương trình CONQUEST được sử dụng rộng rãi ở Úc cho

một số chương trình khảo sát giáo dục quốc tế lớn, đặc biệt là PISA

(Programme for International Student Assessment). Vào những năm gần

đây CONQUEST được mở rộng cho mô hình nhiều tham số chứ không

chỉ mô hình Rasch.

Dưới đây sẽ mô tả tổng quát cách tiếp cận nói trên.

Các tác giả xét hai thành phần của mô hình: mô hình ứng đáp CH

và mô hình tổng thể TS. Mô hình ứng đáp CH là mô hình Rasch đa chiều

tổng quát, cho phép áp dụng cho hàng loạt mô hình liên quan. Việc kết

hợp mô hình ứng đáp CH với mô hình tổng thể TS cho phép sử dụng

CONQUEST cho phép hồi quy tiềm ẩn [31].

1) Mô hình logistic nhị phân và đa phân đơn chiều

- Giả sử có I CH (i=1,...,I) mỗi CH có Ki +1 phương án trả lời

(k=0,1,...,Ki). Dùng biến vectơ ngẫu nhiên Xi = (Xi1,..., XiKi), trong đó:

1 nếu ứng đáp CHi ở hạng điểm j

0 đối với các trường hợp khác (14.8) Xij =

263

Ứng đáp ở hạng điểm 0 được ký hiệu bởi vectơ có mọi thành phần

bằng 0.

Để thiết kế tổng quát cho hàng loạt mô hình Rasch nhị phân trong công

trình [31] đã dùng thủ thuật đưa vào các vecst[ và ma trận. trước hết, các CH

được mô hình hóa qua vectơ ξ = (ξ1,..., ξp) của P tham số. Một vectơ thiết kế aik

với (i=1,...,I; k=0,1,...,Ki) có độ dài P được đưa vào để kết nối mỗi hạng điểm trả

lời CH với các thành phần của ξ. Chẳng hạn, aik = (1,0,1,0,0,...,0) thì aikξ = ξ1+ ξ3,

tức là aikξ là tổ hợp tuyến tính của các thành phần của ξ ứng với một hạng điểm ứng

đáp CH nhất định. Có thể tập hợp aik trong một ma trận thiết kế

1 210 11 12 1 20 21 22 2 0 1 2, , , ... , , , , ... , ..., , , , ...

IK K I I I IKA a a a a a a a a a a a a có P cột, và có số

hàng bằng tổng mọi hạng điểm của mọi CH.

Ngoài ra, mỗi hạng điểm có một điểm hoặc giá trị trọng số xác

định. Gọi bik là điểm của hạng k của CH i. Thiết lập một vectơ điểm:

1 210 11 12 1 20 21 22 2 0 1 2, , , ..., , , , , ..., , ..., , , , ...,

IK K I I I IKb b b b b b b b b b b b b , (14.9)

và quy ước như thường lệ hạng ứng đáp 0 có điểm 0 đối với mọi

CH, tức là b10=b20=…=bI0=0.

Với tất cả các định nghĩa trên đây, gọi năng lực tiềm ẩn là θ, có thể

biểu diễn xác suất ứng đáp một CH như sau:

i

ij i

ik K

ik ij

j=0

exp b θ+a ξPr X =1;A,b,ξ/θ =

exp b θ+a ξ

, (14.10)

trong đó tổng ở mẫu số được thực hiện trên mọi hạng điểm của CH

thứ i.

Có thể xét một vài trường hợp riêng. Nếu chọn:

0 0 0 0 ... 0

1 0 0 0 ... 0

A= 0 0 0 0 ... 0

0 1 0 0 ... 0

... ... ... ... ... ...

,

0

1

= 0

0

...

b

, 1 2ξ= ξ ξ ... ...

264

thì biểu thức (14.10) trở thành:

i

i1

i

exp θ+ξPr X =1;A,b,ξ/θ =

1+exp θ+ξ,

Tức là mô hình Rasch nhị phân đơn giản.

Đối với PCM 3 hạng điểm 0,1,2 có thể xác định ma trận A và vectơ b

như sau:

0 0 0 0 ... 0

1 0 0 0 ... 0

A= 1 1 0 0 ... 0

0 0 0 0 ... 0

... ... ... ... ... ...

,

0

1

b= 2

0

...

, 1 2ξ= ξ ξ ... ... ,

khi ấy:

1 1 2

1Pr hang 0;A,b,ξ/θ =

1+exp θ+ξ +exp 2θ+ξ +ξ, (14.11a)

1

1 1 2

exp θ+ξPr hang1;A,b,ξ/θ =

1+exp θ+ξ +exp 2θ+ξ +ξ, (14.11b)

1 2

1 1 2

exp 2θ+ξ +ξPr hang2;A,b,ξ/θ =

1+exp θ+ξ +exp 2θ+ξ +ξ. (14.11c)

Rõ ràng các biểu thức (14) trùng với các biểu thức (13) của chương 13

đối với PCM (ở đây đã sử dụng ξ thay cho -δ).

2) Mô hình logistic nhị phân và đa phân đa chiều

Từ mô hình logistic nhị phân và đa phân đơn chiều trên đây có thể

mở rộng thành mô hình đa chiều bằng cách thay thế đại lượng vô hướng

θ biểu diễn năng lực bằng vectơ năng lực D ,..., 21θ với D chiều

năng lực. Khi ấy mô hình ứng đáp CH trở thành:

265

i

ik ij

ik K

ik ij

j=0

exp b θ+a ξPr X =1;A,b,ξ/θ =

exp b θ+a ξ

. (14.12)

Lưu ý rằng trong biểu thức (14.12) không chỉ thay thế biến vô

hướng θ bằng biến vectơ θ, mà còn thay thế hàm điểm bik bằng vectơ bik,

tức là đối với mỗi hạng ứng đáp có một điểm hoặc trọng số cho một

chiều năng lực. Chẳng hạn, đối với một CH nhị phân i xác suất ứng đáp

đúng của năng lực 2 chiều sẽ là:

1 2 i

i1

1 2 i

exp 2θ +θ +ξPr X =1;A,b,ξ/θ =

1+exp 2θ +θ +ξ

Biểu thức trên cho thấy năng lực để ứng đáp CH là hàm tuyến tính

của hai năng lực tiềm ẩn, và năng lực thứ nhất cần nhiều hơn năng lực

thứ hai vì có trọng số 2.

14.1.3. Về các cách biểu hiện tính đa chiều: giữa các CH và

trong từng CH

Hình 14.2. Hai kiểu biểu hiện tính đa chiều của các CH trắc nghiệm

266

Nhiều nhà nghiên cứu đưa vào khái niệm tính đa chiều giữa các

CH và trong từng CH. Một bài trắc nghiệm là đa chiều giữa các CH nếu

nó bao gồm nhiều bài trắc nghiệm con đơn chiều. Một bài trắc nghiệm là

đa chiều trong từng CH nếu mỗi CH đòi hỏi nhiều chiều năng lực tiềm ẩn

để trả lời. Hai kiểu đa chiều của bài trắc nghiệm được minh họa ở Hình

14.2. Ở nửa bên trái Hình 14.2 mô tả bài trắc nghiệm 3 chiều gồm 9 CH

theo kiểu đa chiều giữa các CH, mỗi chiều được đánh giá riêng biệt bởi 3

CH. Nửa bên phải của Hình 14 mô tả bài trắc nghiệm 3 chiều gồm 9 CH

với cả 2 kiểu đa chiều giữa các CH và đa chiều trong từng CH, trong đó

4 CH 1, 5, 8, 9 chỉ đo một chiều năng lực, còn các CH khác đo đồng thời

2 hoặc 3 chiều năng lực.

14.2. VÀI VÍ DỤ VỀ ÁP DỤNG TRẮC NGHIỆM ĐA CHIỀU

14.2.1. Phân tích bài kiểm tra gồm các CH nhị phân và đa phân

đo lường 3 chiều năng lực biểu hiện ở riêng từng CH

Để minh họa việc áp dụng IRT trong việc phân tích số liệu trắc

nghiệm bao gồm cả các CH nhị phân và đa phân đo nhiều chiều năng lực,

chúng ta sẽ phân tích một bài kiểm tra Toán lớp 6 Trung học phổ thông

cũng được Viện Khoa học Giáo dục Việt Nam thực hiện vào năm 2009

theo một Dự án của Bộ Giáo dục và Đào tạo.

Bảng 14.1. Điểm tối đa cho các phần của CH hỗn hợp TNKQ và TL môn Toán

Điểm tối đa

T1 1

T2 1

T30 1

T31 3

T32 32a: 4 32b: 2 32c: 2

T33 6

T34 6

T35 7

267

Đề kiểm tra Toán lớp 6 (ký hiệu TOAN6) có 2 loại CH: 30 CH

TNKQ nhị phân, 5 CH TL đa phân. Điểm tối đa của các CH hoặc thành

phần của chúng được biểu diễn ở Bảng 14.1. Trong các CH TL chỉ có

CH TL 32 chia thành 3 CH con. Đề TOÁN6 kiểm tra 3 lĩnh vực nội

dung: số tự nhiên, số nguyên và đoạn thẳng, Bảng 14.2 cho biết phân bố

của các CH TNKQ và TL theo các nội dung nêu trên.

Bảng 14.2. Bảng phân bố các CH theo 3 lĩnh vực nội dung của Đề Toán 6 hỗn hợp TNKQ và TL

Số tự nhiên Số nguyên Đoạn thẳng

TNKQ 1-5; 7-13; 21-23 6, 15-20, 24,25 26-30

TL 32a, 32b, 32c,34 31,33 35

Đề kiểm tra được thực hiện trên 9.846 học sinh lớp 6 từ 25 tỉnh/thành

phố trong cả nước như đã trình bày ở mục 13.2.1. Ở ví dụ này chúng ta tạm

quan niệm 3 lĩnh vực nội dung mà đề kiểm tra muốn đo như 3 chiều năng

lực và phân tích bài toán đa phân, đa chiều bằng phần mềm CONQUEST.

Bảng 14.2 cho thấy mỗi CH được chế tác để đo một năng lực xác định, nên

theo mô tả ở phía trái Hình 14.2 đây là bài toán đa chiều giữa các CH.

Sau đây là một vài kết quả phân tích.

Bảng 14.3 là ma trận tương quan và hiệp biến cho các hệ số tương

quan giữa các chiều của năng lực. Hình 14.3 trình bày các biểu đồ cho

thấy mối quan hệ giữa các mức năng lực của TS ứng với 3 chiều năng lực

và giá trị độ khó của các CH (hoặc độ khó trung bình của các CH con).

Hình 14.4 trình bày các biểu đồ biểu hiện quan hệ giữa các mức năng lực

của TS ứng với 3 chiều năng lực và giá trị ngưỡng γk của các hạng điểm

của các CH con.

268

Bảng 14.3. Ma trận các giá trị tương quan và hiệp biến

giữa 3 chiều năng lực =================================================

COVARIANCE/CORRELATION MATRIX

--------------------------------------------------------------------------------------

Dimension 1 2 3

Dimension 1 0.958 0.614

Dimension 2 0.948 0.547

Dimension 3 0.936 0.924

--------------------------------------------------------------------------------------

Variance 1.118 (0.016) 0.913 (0.013) 0.385 (0.005)

==================================================

14.2.2. Phân tích bài kiểm tra gồm các CH nhị phân đo lường 3 chiều

năng lực biểu hiện hỗn hợp trong mỗi CH

Ví dụ này được mượn từ một minh họa trình bày trong Cẩm nang

giới thiệu phần mềm CONQUEST [31]. Các tác giả đã sử dụng số liệu

mô phỏng ứng đáp của 2.000 TS đối với một đề trắc nghiệm gồm 9 CH

nhị phân. Các CH được giả định đánh giá 3 chiều năng lực, trong đó các

CH và các chiều năng lực có mối tương quan như phần bên phải của

Hình 14.2 (đa chiều trong từng CH). Các giá trị trung bình của mỗi chiều

năng lực tiềm ẩn bằng 0, còn các giá trị hiệp biến giữa các chiều năng lực

được biểu diễn bởi ma trận dưới đây:

100 0 00 058

0 00 100 058

058 058 100

. . .

. . .

. . .

Các tham số độ khó được xác định bằng -0,5 đối với các CH 1, 4

và 7; bằng 0,0 đối với các CH 2,5 và 8; bằng 0,5 đối với các CH 3,6 và 9.

Dùng phần mềm CONQUEST phân tích với điều kiện hội tụ là 0,0001,

chương trình tính lặp 345 lần. Kết quả được trình bày ở các Bảng 14.4 và

14.5. Ước lượng ở Bảng 14.4. chứng tỏ số liệu mô phỏng phù hợp tốt với

mô hình (các độ khó ước lượng của các CH gần với các giá trị mô phỏng

nêu trên đây; bình phương trung bình của số thống kê phản ánh độ phù

269

========================================================================

ConQuest: Generalised Item Response Modelling Software Fri Feb 26

10:23 2010

MAP OF LATENT DISTRIBUTIONS AND RESPONSE MODEL PARAMETER ESTIMATES

========================================================================

Dimension Terms in the Model (excl Step terms)

------------------------------------------------------------

Dimension1 Dimension2 Dimension3 +item

------------------------------------------------------------------------

| | | |

3 | | | |

| | | |

| X| | |

X| X| | |

X| X| | |

X| XX| | |

X| XX| | |

2 X| XX| | |

XX| XXX| | |

XX| XXX| | |

XX| XXXX| | |

XX| XXXX| | |

XXX| XXXXX| X|14 |

XXX| XXXXXX| X|23 34 |

1 XXXX| XXXX| XX|33 |

XXXX| XXXXXX| XXX|13 |

XXXXX| XXXXXX| XXXX|21 27 28 36 |

XXXXX| XXXXXX| XXXX|16 30 31 35 |

XXXXX| XXXXXX| XXXXXX| |

XXXXX| XXXXXXX| XXXXXXX|11 32 |

XXXXXX| XXXXX| XXXXXXXX| |

0 XXXXX| XXXXX| XXXXXXXX|6 7 18 19 37 |

XXXXX| XXXXXXXXXXXXXX|25 |

XXXX| XXXX|XXXXXXXXX|15 20 |

XXXXX| XXX| XXXXXXXX| |

XXXX| XX| XXXXXXX|1 10 12 22 24 |

XXXX| XX| XXXXXX|4 9 17 |

XXXX| XX| XXXX|2 |

-1 XXX| XX| XXXX|8 26 |

XXX| X| XX|5 29 |

XXX| X| X| |

XX| | X|3 |

X| | | |

X| | | |

X| | | |

-2 | | | |

X| | | |

| | | |

| | | |

| | | |

| | | |

| | | |

-3 | | | |

========================================================================

Hình 14.3. Biểu đồ tương quan giữa năng lực TS ở 3 chiều năng lực và các giá trị độ khó của CH hoặc độ khó trung bình của các CH con

270

========================================================================

ConQuest: Generalised Item Response Modelling Software Fri Feb 26

10:23 2010

MAP OF LATENT DISTRIBUTIONS AND THRESHOLDS

========================================================================

Dimension Generalised-Item Thresholds

------------------------------------------------------------------

1 2 3

------------------------------------------------------------------

| | |

3 | | |

| | |

| X| |

X| X| |

X| X| |

X| XX| |

X| XX| |

2 X| XX| |

XX| XXX| |

XX| XXX| |

XX| XXXX| |

XX| XXXX| |

XXX| XXXXX| X|14 34.2

XXX| XXXXXX| X|23 31.3 33.2 34.1 36.6

1 XXXX| XXXX| XX|35.4 35.5 35.6 36.5 37.7

XXXX| XXXXXX| XXX|13 33.1

XXXXX| XXXXXX| XXXX|21 27 28 32.3 32.4 36.3 36.4

XXXXX| XXXXXX| XXXX|16 30 37.6

XXXXX| XXXXXX| XXXXXX|35.3 36.1 36.2

XXXXX| XXXXXXX| XXXXXXX|11 31.2 37.5

XXXXXX| XXXXX| XXXXXXXX|31.1 35.1 35.2

0 XXXXX| XXXXX| XXXXXXXX|6 7 18 19 37.4

XXXXX| XXXXXXXXXXXXXX|25 32.1 32.2

XXXX| XXXX|XXXXXXXXX|15 20

XXXXX| XXX| XXXXXXXX|

XXXX| XX| XXXXXXX|1 10 12 22 24 37.3

XXXX| XX| XXXXXX|4 9 17

XXXX| XX| XXXX|2 37.1 37.2

-1 XXX| XX| XXXX|8 26

XXX| X| XX|5 29

XXX| X| X|

XX| | X|3

X| | |

X| | |

X| | |

-2 | | |

X| | |

| | |

| | |

| | |

| | |

| | |

-3 | | |

| | |

========================================================================

Each 'X' represents 100.0 cases

The labels for thresholds show the levels of item, and category,

respectively

Hình 14.4. Biểu đồ tương quan giữa năng lực của TS ở 3 chiều năng lực và các giá trị ngưỡng γk của các hạng điểm trong các CH con

271

Bảng 14.4: Độ khó ước lượng δ (hoặc b) của các CH và các giá trị thống kê phản ánh độ phù hợp giữa số liệu và mô hình

====================================================================================

ConQuest: Generalised Item Response Modelling Software Tue Mar 02 18:12 2010

TABLES OF RESPONSE MODEL PARAMETER ESTIMATES

====================================================================================

TERM 1: items

------------------------------------------------------------------------------------

VARIABLES UNWEIGHTED FIT WEIGHTED FIT

--------------- ----------------------- ---------------------------

item ESTIMATE ERROR^ MNSQ CI T MNSQ CI T

---------------------------------------------------------------------------------

1 1 -0.380 0.049 0.99 (0.94, 1.06) -0.2 1.00 (0.96, 1.04) -0.2

2 2 -0.009 0.026 1.04 (0.94, 1.06) 1.2 1.02 (0.95, 1.05) 0.9

3 3 0.496 0.029 1.03 (0.94, 1.06) 1.0 1.03 (0.95, 1.05) 1.0

4 4 -0.529 0.028 1.01 (0.94, 1.06) 0.2 1.01 (0.94, 1.06) 0.4

5 5 0.028 0.049 1.00 (0.94, 1.06) -0.0 1.00 (0.96, 1.04) -0.0

6 6 0.402 0.050 1.00 (0.94, 1.06) 0.1 1.00 (0.96, 1.04) -0.0

7 7 -0.510 0.022 1.03 (0.94, 1.06) 0.9 1.00 (0.93, 1.07) 0.1

8 8 0.085 0.049 1.01 (0.94, 1.06) 0.2 1.00 (0.96, 1.04) 0.3

9 9 0.528 0.050 1.02 (0.94, 1.06) 0.5 1.01 (0.96, 1.04) 0.4

-----------------------------------------------------------------------------------

An asterisk next to a parameter estimate indicates that it is constrained

Separation Reliability = 0.990

Chi-square test of parameter equality = 1435.26, df = 9, Sig Level = 0.000

^ Quyck standard errors have been used

====================================================================================

hợp gần bằng giá trị kỳ vọng (1,0), giá trị t-test T gần bằng 0). Bảng 14.5

cho các giá trị hiệp biến ước lượng cũng gần với giá trị mô phỏng (0 và

0,58), giá trị phương sai ước lượng cũng vậy (~1,0).

=========================================================================

COVARIANCE/CORRELATION MATRIX

Dimension

----------------------------------------------------

Dimension 1 2 3

Dimension 1 0.098 0.642

Dimension 2 0.100 0.580

Dimension 3 0.667 0.550

-------------------------------------------------------------------------

Variance 0.897 (0.028) 1.077 (0.034) 1.033 (0.033)

-------------------------------------------------------------------------

An asterisk next to a parameter estimate indicates that it is constrained

Values below the diagonal are correlations and values above are

covariances

=========================================================================

Bảng 14.5. Ma trận các giá trị tương quan và hiệp biến giữa 3 chiều năng lực

Các hình 14.5a, 14.5b,14.5c là các biểu đồ thể hiện quan hệ giữa các

mức năng lực ứng với từng chiều năng lực của TS và các giá trị độ khó

của CH. Qua các biểu đồ có thể thấy rõ một số CH tham gia đo đồng thời

272

==============================================================

ConQuest: Generalised Item Response Modelling Software

Tue Mar 02 18:12 2010

MAP OF LATENT DISTRIBUTIONS AND RESPONSE MODEL PARAMETER ESTIMATES

=============================================================

Dimension 1 +items

------------------------------------------------------------

3 | |

| |

| |

| |

X| |

X| |

X| |

2 | |

X| |

XX| |

XXX| |

XXX| |

XXXXX| |

XXXXXX| |

1 XXXXXXX| |

XXXXXXXXX| |

XXXXXXX| |

XXXXXXXXXXX| |

XXXXXXXXXXX|3 |

XXXXXXXXXXXX| |

XXXXXXXXXXX| |

XXXXXXXXXXXX| |

0 XXXXXXXXXXX|2 |

XXXXXXXXXXX| |

XXXXXXXXXXX|1 |

XXXXXXXXX|4 7 |

XXXXXXXXXX| |

XXXXXXXXXX| |

XXXXXXX| |

-1 XXXXXX| |

XXX| |

XXXX| |

XXXXX| |

XXX| |

XX| |

XX| |

-2 X| |

X| |

X| |

X| |

| |

X| |

| |

-3 | |

============================================================

Each 'X' represents 9.8 cases

============================================================

Hình 14.5a. Biểu đồ tương quan giữa chiều thứ 1 của năng lực TS và các giá trị độ khó của CH

273

============================================================

Dimension 2 +items

------------------------------------------------------------

| |

X| |

| |

3 | |

| |

X| |

| |

X| |

X| |

XX| |

2 XXX| |

X| |

XX| |

XX| |

XXXXX| |

XXXXXX| |

XXXXXX| |

1 XXXXX| |

XXXXXXX| |

XXXXXXX| |

XXXXXXXXX| |

XXXXXXXXXXXX| |

XXXXXXXXXXX|6 |

XXXXXXXXX| |

XXXXXXXXXXXX|5 |

0 XXXXXXXXXXX|2 |

XXXXXXXXXX| |

XXXXXXXXX| |

XXXXXXXXXXX|4 7 |

XXXXXXXXXXX| |

XXXXXXX| |

XXXXXXX| |

-1 XXXXXX| |

XXXXX| |

XXXX| |

XXXX| |

XXXX| |

XXX| |

XX| |

-2 XX| |

XX| |

X| |

X| |

| |

| |

| |

-3 | |

| |

============================================================

Each 'X' represents 9.8 cases

Hình 14.5b. Biểu đồ tương quan giữa chiều thứ 2 của năng lực TS và các giá trị độ khó của CH

274

============================================================

Dimension 3 +items

------------------------------------------------------------

3 | |

| |

| |

X| |

X| |

X| |

X| |

2 XX| |

XX| |

XXX| |

XXX| |

XXX| |

XXXXX| |

XXXXX| |

1 XXXXXX| |

XXXXXXXX| |

XXXXXXXX| |

XXXXXXXXX| |

XXXXXXXXX|3 9 |

XXXXXXXXXXXX| |

XXXXXXXXXX| |

XXXXXXXXXX|8 |

0 XXXXXXXXXXX| |

XXXXXXXXXX| |

XXXXXXXXXXXXX| |

XXXXXXXXXX|7 |

XXXXXXXXX| |

XXXXXXXX| |

XXXXXXX| |

-1 XXXXXXX| |

XXXXX| |

XXXXX| |

XXX| |

XXXX| |

XXXX| |

XX| |

-2 XX| |

X| |

X| |

X| |

X| |

| |

| |

-3 | |

| |

============================================================

Each 'X' represents 9.8 cases

============================================================

Hình 14.5c. Biểu đồ tương quan giữa chiều thứ 3 của năng lực TS và các giá trị độ khó của CH

275

=================================================================

ConQuest: Generalised Item Response Modelling Software Tue Mar

02 18:12 2010

MAP OF LATENT DISTRIBUTIONS AND RESPONSE MODEL PARAMETER ESTIMATES

=================================================================

Dimension 1 Dimension 2 Dimension 3

+items

------------------------------------------------------------------

| X| |

| | |

3 | | |

| | |

| X| |

| | X|

X| X| X|

X| X| X|

X| XX| X|

2 | XXX| XX|

X| X| XX|

XX| XX| XXX|

XXX| XX| XXX|

XXX| XXXXX| XXX|

XXXXX| XXXXXX| XXXXX|

XXXXXX| XXXXXX| XXXXX|

1 XXXXXXX| XXXXX| XXXXXX|

XXXXXXXXX| XXXXXXX| XXXXXXXX|

XXXXXXX| XXXXXXX| XXXXXXXX|

XXXXXXXXXXX| XXXXXXXXX| XXXXXXXXX|

XXXXXXXXXXX|XXXXXXXXXXXX| XXXXXXXXX|3 9

XXXXXXXXXXXX| XXXXXXXXXXX|XXXXXXXXXXXX|6

XXXXXXXXXXX| XXXXXXXXX| XXXXXXXXXX|

XXXXXXXXXXXX|XXXXXXXXXXXX| XXXXXXXXXX|5 8

0 XXXXXXXXXXX| XXXXXXXXXXX| XXXXXXXXXXX|2

XXXXXXXXXXX| XXXXXXXXXX| XXXXXXXXXX|

XXXXXXXXXXX| XXXXXXXXXXXXXXXXXXXXXX|1

XXXXXXXXX| XXXXXXXXXXX| XXXXXXXXXX|4 7

XXXXXXXXXX| XXXXXXXXXXX| XXXXXXXXX|

XXXXXXXXXX| XXXXXXX| XXXXXXXX|

XXXXXXX| XXXXXXX| XXXXXXX|

-1 XXXXXX| XXXXXX| XXXXXXX|

XXX| XXXXX| XXXXX|

XXXX| XXXX| XXXXX|

XXXXX| XXXX| XXX|

XXX| XXXX| XXXX|

XX| XXX| XXXX|

XX| XX| XX|

-2 X| XX| XX|

X| XX| X|

X| X| X|

X| X| X|

| | X|

X| | |

| | |

-3 | | |

==================================================================

Each 'X' represents 9.8 cases

==================================================================

Hình 14.6. Biểu đồ tổng hợp tương quan giữa 3 chiều năng lực TS và các giá trị độ khó của CH

276

hai chiều năng lực, như các CH2 và CH4 đo đồng thời 2 chiều năng lực 1

và 2; CH3 đo đồng thời 2 chiều năng lực 1 và 3; riêng CH7 tham gia đo

đồng thời 3 chiều năng lực 1, 2, 3. Hình 14.6 là biểu đồ tổng hợp biểu

hiện tương quan giữa 3 chiều năng lực TS và các giá trị độ khó của CH.

________________________

CÂU HỎI TỰ KIỂM TRA

1. Mô tả mô hình trắc nghiệm đa chiều logistic tuyến tính với số

liệu trắc nghiệm nhị phân của Reskase.

2. Mô tả cách tiếp cận xây dựng mô hình tổng quát cho trắc nghiệm

nhị phân, đa phân, một chiều, đa chiều của Wu và Adams.

3. Trình bày khái niệm về tính đa chiều giữa các CH và trong từng

CH trong trắc nghiệm đa chiều.

4. Cách sử dụng các phần mềm CONQUEST và PARSCALE để

phân tích các trắc nghiệm đa chiều.

277

TRẢ LỜI BÀI TẬP

(Một số bài tập trong tập sách này được trích từ tài liệu tham khảo [11])

Chương 2

Bài tập:

Độ khó theo CTT: đối với nhóm TS năng lực thấp p=3/15=0,20;

đối với nhóm TS năng lực cao p=12/15= 0,8.

Độ phân biệt theo CTT (có thể tính theo Exel các hệ số tương quan

giữa 2 vectơ “điểm ứng đáp CH” và “điểm từ ĐTN”): đối với nhóm TS

năng lực thấp r=0,68; đối với nhóm TS năng lực cao r=0,39.

Qua các kết quả tính toán rõ ràng các tham số tính được phụ thuộc

rất mạnh vào mẫu TS.

Chương 4

Bài tập 1:

Theo các giá trị a, b, c cho ở Bảng 4.1 có thể tính các giá trị P(θ)

của 6 CH tại các giá trị θ đã cho. Kết quả được trình bày ở Bảng 1:

Bảng 1.

θ

CH

-3 -2 -1 0 1 2 3

1 0,000 0,000 0,002 0,045 0,500 0,955 0,998

2 0,008 0,027 0,085 0,233 0,500 0,767 0,915

3 0,250 0,250 0,252 0,284 0,625 0,966 0,998

4 0,205 0,236 0,412 0,788 0,964 0,995 0,999

5 0,000 0,006 0,045 0,265 0,735 0,955 0,994

6 0,165 0,239 0,369 0,550 0,731 0,861 0,935

278

CH4 dễ nhất vì từ mức θ = -1,0 trở đi xác suất ứng đáp đúng đều

cao hơn các CH khác.

CH6 có độ phân biệt thấp nhất và các giá trị P(θ) tăng chậm theo θ.

TS với năng lực θ =0 có xác suất ứng đáp đúng CH 4 cao nhất là

0,788; và xác suất ứng đáp sai là 1-P(θ)=1-0,788=0,212.

Bài tập 2:

Ma trận 2x2 về các ứng đáp đúng và sai đối với 2 CH đã cho có

dạng ở Bảng 2:

Bảng 2.

CH 2

CH1

Sai

Đúng

Sai Đúng

28

12

40

8(A) 20(B)

8(C) 4(D)

16 24

Để kiểm nghiệm về tính độc lập của 2 CH, từ bảng trên có thể tính

tham số thống kê χ2 :

χ2 = N(AD-BC)2 / (A+B)(B+D)(D+C)(C+A)= 40(8.4 – 20.8)2

/(8+20)(20+4)(4+8)(8+8)=5,08.

Đối chiếu với giá trị χ2 từ bảng: khi độ tự do bằng 2-1=1, mức ý

nghĩa α=0,5 thì χ2=3,843. Như vậy giá trị χ2 tính được lớn lơn giá trị cho

ở bảng, do đó có thể phủ định giả thiết về sự độc lập của 2 CH với mức ý

nghĩa 0,05. Kết luận là số liệu không phù hợp với mô hình đơn chiều.

Chương 5

Bài tập:

Độ khó cổ điển của CH tính theo mẫu TS gồm 2 dòng đầu Bảng 5.1

chương 5 là p=3/20=0,15; theo mẫu TS gồm 2 dòng cuối bảng là

p = 17/20=0,85. Độ phân biệt cổ điển (tính theo Exel) của CH tính theo

mẫu TS gồm 2 dòng đầu là r= 0,612; theo mẫu TS gồm 2 dòng cuối là

r= 0,44.

279

Tính b và a theo IRT dựa vào biểu thức (5.3):

Từ mẫu TS gồm 2 dòng đầu lập được 2 phương trình ứng với điểm đầu và điểm

cuối: ln(0,1/0,9) = a(-1,716) - ab và ln (0,2/0,8) = a(-1,129) - ab, chúng

cho các nghiệm a= 1,381 và b=-0,126; Từ mẫu TS gồm 2 dòng cuối lập

được 2 phương trình ứng với điểm đầu và điểm cuối: ln(0,8/0,2)=a(0,919)-ab

và ln(0,9/0,1)=a(1,1516)-ab, chúng cho các nghiệm a=1,358 và b= -

0,102.

Rõ ràng các tham số độ khó độ phân biệt cổ điển phụ thuộc mạnh

vào mẫu TS, còn các tham số b và a theo IRT ít biến đổi (tuy các mẫu

thử để tính rất nhỏ).

Chương 6

Bài tập:

Các giá trị θ trong khoảng (-4,4) có thể chuyển đổi thành thang

bách phân, chẳng hạn:

tuyến tính: y=100(4+θ).

phi tuyến:

n

i

iPn

y1

)(100

.

Chương 7

Bài tập:

Dựa vào biểu thức (7.4) và (7.7) ở chương 7 có thể tính các giá trị

hàm thông tin của các ĐTN gồm 3 CH, trình bày ở Bảng 3:

Bảng 3.

θ ĐTN(1,2,3) ĐTN(1,2,4) ĐTN(1,3,4) ĐTN(2,3,4)

-2 0,219 0,219 0,187 0,054

-1 1,361 1,339 0,965 0,540

0 2,918 2,681 1,486 2,250

1 1,738 1,215 1,907 2,172

2 0,492 0,667 1,059 1,076

280

Từ các giá trị thông tin của các ĐTN cho ở Bảng 3 có thể thấy ở

khoảng năng lực θ=1,0 ĐTN gồm các CH 2,3 và 4 cho giá trị thông tin

lớn nhất, do đó nó là ĐTN tốt nhất để đo mức đạt chuẩn ở điểm chuẩn

θ=1,0.

Chương 8:

Bài tập 1:

Hàm biến cố hợp lý cực đại đối với TS có vectơ ứng đáp

(1,0,1,0,0) là L(u|)= P1 Q 2 P3 Q 4Q5,

hoặc dưới dạng logarit:

lnL(u|) = LnP1+ ln(1-P2)+lnP3+ln(1-P4)+ln(1-P5).

Để xác định được các biểu thức trên, các CH phải tuân theo giả

thiết độc lập địa phương.

Đồ thị biểu diễn hàm lnL có dạng được vẽ ở Hình 1:

Hình 1.

Hàm lnL đạt cực đại tại giá trị bằng cỡ -0,65, vậy đó là giá trị ước

lượng của θ theo biến cố hợp lý cực đại.

Bài tập 2:

281

a) )()( 22

iiQPaDI , trong đó D2 = 1,72 = 2,89. Theo các giá trị

b và a của 4 CH cho ở Bảng 8.4, có thể tính được giá trị I tại θ= 1,5: I

(θ= 1,5) = 5,19. Từ đó: 19,5

1)5,1( =0,44.

b) Khoảng tin cậy 95% của giá trị θ:

θ= 1,5 ± 1,96*0,44 = 1,5 ± 0,86 = (0,64, 2,36).

Bài tập 3:

Giả thiết ứng đáp của 3 TS với năng lực θ1, θ2, θ3 là độc lập với nhau,

khi ấy:

P(U1, U2, U3 / θ1, θ2, θ3) = P(U1/ θ1)P(U2/ θ2)P(U3/ θ3).

Từ đó có thể lập hàm biến cố hợp lý khi ứng đáp của 3 TS là (0,0,1):

L= Q1 Q2P3 =

)1(7,1

)1(7,1

)0(7,1)1(7,1 11

1

1

1b

b

bb e

e

ee

Từ đó có thể tính L theo các giá trị của b, kết quả được trình bày ở

Bảng 4 dưới đây:

Bảng 4.

b 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0

L 0,357 0,386 0,411 0,432 0,447 0,455 0,458 0,454 0,444 0,429 0,409

Theo Bảng 4, giá trị hàm L cực đại ở khoảng b~0,6, đó là ước

lượng của b theo biến cố hợp lý cực đại.

Bài tập 4:

a) Với mô hình 1 tham số, a=1, khi ước lượng giá trị độ khó b, hàm

thông tin và sai số tiêu chuẩn có thể viết như sau:

2i iI(b)=D P(θ )Q(θ ) và

1σ(b)=

I(b).

b) Với các giá trị θ và b ở bài tập 3, ta tính được:

I(b) = 2,89(0,062.0,938 + 0,265.0,735 + 0,644.0,336) = 1,376.

282

σ(b) = 0,85.

Chương 9:

Bài tập 1:

Độ khó cổ điển ở các mức năng lực:

θ=-2: p=0,20; θ=-1: p=0,25; θ=0: p=0,40; θ=1: p=0,75; θ=2:

p=0,90.

Xác suất trả lời đúng ở các mức năng lực:

P(θ=-2)=0,25; P(θ=-1)=0,27; P(θ=0)=0,38; P(θ=1)=0,72; P(θ=2)=0,95.

Hàm đặc trưng thống kê cải tiến:

2m

j j j

1

j=1 j j

N P -E(P )Q =

E(P ) 1-E(P )

=220(0,20-0,25)

0,25 . 0,75+

220(0,25-0,27)

0,27 . 0,73+

220(0,40-0,38)

0,38 . 0,62

+ 220(0,75-0,72)

0,72 . 0,28+

220(0,90-0,95)

0,95 . 0,05= 1,48;

Mức độ tự do là m-k=5-3=2.

χ 22;0,5 (ở độ tự do 2 và mức ý nghĩa 5%) = 5,99 (từ bảng χ 2). Vì giá

trị tính toán không vượt quá giá trị tương ứng ở bảng, có thể kết luận

rằng mô hình 3 tham số là phù hợp với số liệu đối với CH này.

Bài tập 2:

a)

2m

j j j

1

j=1 j j

N P -E(P )Q =

E(P ) 1-E(P )

- Đối với mô hình 1 tham số:

1=

220(0,20-0,02)

0,02 . 0,98 +

220(0,25-0,12)

0,12 . 0,88 +

220(0,40-0,43)

0,43 . 0,57 +

220(0,75-0,80)

0,80 . 0,20 +

220(0,90-0,96)

0,96 . 0,04= 38,52;

Mức độ tự do là m-k=5-1=4.

283

- Đối với mô hình 2 tham số:

Q1=

220(0,20-0,11)

0,11. 0,89+

220(0,25-0,25)

0,25. 0,75+

220(0,40-0,46)

0,46. 0,54+

220(0,75-0,69)

0,69. 0,31

+220(0,90-0,85)

0,85. 0,15= 2,67;

Mức độ tự do là m-2=5-1=3.

Đối chiếu với số liệu ở Bảng χ 2 ta có: đối với mô hình 1 tham số

χ 24;0,5= 9,488; đối với mô hình 2 tham số χ 2

3;0,5= 7,815. Như vậy

mô hình 1 tham số không phù hợp với số liệu, còn mô hình 2 tham số

phù hợp với số liệu.

Trong 3 mô hình, mô hình 3 tham số phù hợp với số liệu tốt nhất,

mô hình 2 tham số cũng phù hợp khá, còn mô hình 1 tham số không phù

hợp. Trong trường hợp này, xét đến các mặt tiện lợi khác, chọn mô hình

2 tham số có lẽ là thích hợp nhất.

Chương 10:

Bài tập 1:

Giá trị thông tin của “ĐTN” gồm 3 CH tại năng lực θ=1,0:

I(θ=1,0) =1,10+0,50+2,20 =3,8; Từ đó σ(θ=1,0) = 8,3

1=0,51.

Khi σ(θ=-1,0)=0,40 thì sẽ có I(θ=-1,0) ~ 6,25. Muốn có giá trị hàm

thông tin như vậy ở điểm θ=-1,0 cần (6,25/0,6) ~11 CH cho giá trị thông tin ở

điểm θ=-1,0 giống như CH5.

Bài tập 2:

Các giá trị thông tin của 2 “ĐTN” 1 và 2 tại 3 vị trí θ được tính và

trình bày ở Bảng 5 dưới đây:

Bảng 5. Giá trị thông tin của 2 “ĐTN”

“ĐTN”

θ

0,0 1,0 2,0

1 (CH2, CH3) 0,35 1,6 0,65

2 (CH1, CH6) 0,6 2,35 0,48

284

b) Hiệu suất tỷ đối của “ĐTN1” so với “ĐTN2” ở 3 mức năng lực

đã cho được trình bày ở Bảng 6:

Bảng 6. Hiệu suất tỷ đối

θ

0,0 1,0 2,0

Hiệu suất tỷ đối

RE(θ)=I1(θ)/ I2(θ)

0,58

0,68

1,35

“ĐTN1” có hiệu suất thấp hơn “ĐTN2” ở các mức năng lực

θ=0,0 và θ=1,0 (hiệu suất tỷ đối RE(θ) tương ứng là cỡ 0,58 và 0,68);

nhưng có hiệu suất cao hơn ở mức năng lực θ = 2,0 (hiệu suất tỷ đối

RE(θ) = 1,35).

Khi σ(θ=-1,0)=0,40 thì sẽ có I(θ=-1,0) ~ 6,25. Muốn đạt giá trị hàm

thông tin như vậy ở điểm θ=-1,0 cần (6,25/0,6) ~11 CH cho giá trị thông tin ở

điểm θ=-1,0 giống như CH5.

Ở mức năng lực θ=1,0 “ĐTN2” cho giá trị thông tin cao hơn

“ĐTN1” một lượng bằng (2,35-1,60 = 0,75), do đó cần thêm vào

“ĐTN1” một số CH cho thông tin tương tự như CH5 bằng (0,75/0,2) ~ 4.

Bài tập 3:

Đối với “ĐTN” gồm 2 CH 4 và 5 ta có:

I(θ=-1,0) = 1,45+0,60 = 2,05; do đó σ(θ=-1,0)~0,70.

Chương 11:

Bài tập: Theo bài tập, chúng ta có 2 ĐTN, giữa 2 ĐTN có một số

CH chung bắc cầu, gọi ĐTN A là Xc và ĐTN B là Yc. Cho mỗi nhóm TS

làm một ĐTN và quá trình xác định tham số độ khó b nhờ Xc và Yc cho

các giá trị trung bình tương ứng là MX =4,2; MY=3,5 và độ lệch chuẩn

tương ứng là sX =2,2 và sY=1,8. Theo phương pháp trung bình và sigma

có thể tính các hằng số chuyển thang đo:

α = sY/sX=1,8/2,2= 0,82; β = MY - α MX= 3,5 – 0,82.4,2 = 0,06.

Từ đó các giá trị b và a trên thang của Y có thể chuyển về thang X:

b*= 0,82.(-1,4) + 0,06 = -1,09; a*= 0,9/0,82=1,1.

285

Chương 12:

Bài tập: Theo bài tập, TS đã ứng đáp 3 CH 3, 12, 7 (theo Bảng

12.l) với vectơ ứng đáp tương ứng (1, 1, 0). Sau đó CH 4 được chọn để

ứng đáp tiếp theo, và TS ứng đáp sai, khi ấy năng lực ước lượng được là

θ=0,45. Có thể tính các giá trị hàm thông tin của các CH còn lại ở mức

năng lực θ đó, biểu diễn ở Bảng 7.

Bảng 7.

CH 1 2 5 6 8 9 10 11 13

I(θ=0,45) 0,50 0,66 0,03 0,19 0,18 1,06 0,48 0,45 0,16

CH cho giá trị thông tin lớn nhất ở mức θ=0,45 là CH 9, do đó nó

sẽ được chọn cho bước ứng đáp kế tiếp.

_______________

286

BẢNG ĐỐI CHIẾU MỘT SỐ THUẬT NGỮ ANH VIỆT

Affective domain Lĩnh vực cảm xúc, thái độ

Automatic Test Asembly - ATA Tạo đề tự động

Calibration Định cỡ

Chi-square goodness-of-fit index Chỉ số trùng khớp tốt Chi-bình phương

Classical Test Theory - CTT Lý thuyết trắc nghiệm cổ điển

Cognitive domain Lĩnh vực nhận thức

Computer Adaptive Test – CAT Trăc nghiệm thích ứng nhờ máy tính

Computer-based-testing - CBT Trắc nghiệm nhờ máy tính

Computerized Fixed Tests - CFT Các trắc nghiệm cố định nhờ máy tính

Criterion-referenced Đánh giá theo tiêu chí

Dichotomous Nhị phân

Differential item functioning - DIF Ứng đáp câu hỏi khác biệt

Difficuilty Độ khó

Dimension Chiều

Discrimination Độ phân biệt

Equating So bằng

Essay test Trắc nghiệm tự luận

Formative assessement Đánh giá trong tiến trình

Generalised partial credit model -GPCM Mô hình định giá từng phần tổng quát

Invariant Tính bất biến

Item banking Xây dựng ngân hàng CH

Item Characteristic Curve - ICC Đường cong đặc trưng của câu hỏi

287

Item Characteristic Function - ICF Hàm đặc trưng của câu hỏi

Item information function Hàm thông tin của câu hỏi

Item-free Không phụ thuộc vào câu hỏi

Item Response Theory - IRT Lý thuyết Ứng đáp Câu hỏi

Linear-on-the-Fly Test - LOFT Trắc nghiệm di chuyển thẳng nhờ

máy tính

Linking Kết nối

Local independent Độc lập địa phương

Matching item Câu ghép đôi

Maximum likelyhood estimation - MLE Ước lượng theo biến cố hợp lý cực đại

Multidimentionality Đa chiều

Multiple choise question- MCQ Câu nhiều lựa chọn

Norm-referenced Đánh giá theo chuẩn

Objective test Trắc nghiệm khách quan

Paper-and-pencil test - PAP Trắc nghiệm trên giấy

Partial credit model - PCM Mô hình định giá từng phần

Polytomous Đa phân

Psychomotor domain Lĩnh vực tâm lý vận động (kỹ năng)

Questionnaire Bảng hỏi

Rating scale model Mô hình thang đánh giá

Raw score Điểm thô

Sample-free Không phụ thuộc vào mẫu

Scaling Xác lập thang đo

Short answer item Câu trả lời ngắn

Student-produced response Thí sinh tự tạo ứng đáp

288

Summative assessment Đánh giá tổng kết

Supply item Câu điền khuyết

Structured Computer Adaptive

Multistage Tests

Trắc nghiệm thích ứng nhờ máy tính

cấu trúc đa giai đoạn

Test information function Hàm thông tin của đề trắc nghiệm

Testlet Phân đề

True score Điểm thực

Unidimentionality, unidimentional Đơn chiều, tính đơn chiều

Yes/no question Câu đúng sai

289

CÁC TÀI LIỆU DẪN VÀ THAM KHẢO CHÍNH

1. Dương Thiệu Tống. Trắc nghiệm và đo lường thành quả học tập

(phương pháp thực hành). Nhà xuất bản Khoa học Xã hội, 2005.

2. Thurstone, L.L. A method of scaling psychological and

educational tests. Journal of Educational Psychology, 16(7), 1925.

3. Rasch, G. Probablistic Models for Some Intelligence and

Attainment Tests. Copenhagen, Denmark: Danish Institute for

Educational Research, 1960.

4. Birnbaum, A. Some latent trade models and their use in inferring

an examinee's ability. Trong F.M. Lord and M.R. Novick (Eds),

Statistical Theories of Mental Test Scores. Reading, M.A: Addison-

Wesley, 1968.

5. Lord, F.M. Applications of Item Response Theory to Practical

Testing Problems. Lawrence Erbaum Associates, Publishers, 1980.

6. Lord, F.M.; Novick, M.R. Statistical Theories of mental test

scores. Reading, MA: Addison-Wesley, 1968.

7. Allen, M. J.; Yen, W. M. Introduction to Measurement Theory.

Monterey, California: Brooks/Cole Publishing Company, 1979.

8. Barker, F.B. Item Response Theory - Parameter Estimation

Techniques, Marcel Dekker, Inc, 1992.

9. Haley, D.C. Estimation of the dosage mortality relationship when

the dose is subject to error, (Technical Report N0 15). Stanford,

C.A: Stanford Univerrsity, Applied Mathematics and Statistics

Labolatory, 1952.

10. Wright, B. D.; Mark H.S. Best Test Design, University of

Chicago, MESA PRESS, 1979.

290

11. Hambleton, R.K.; Swaminathan, H.; Jane Roges, H.. Fundamentals

of Item Response Theoty. SAGE Publications, 1991.

12. Van der Linden, W. J.; Hambleton, R.K. (editors). Handbook of

Modern Item Response Theory. Springer, 1997.

13. Brenman, R. L. Educational Measurement, 4th edition,

ACE/PRAEGER series on Higher Education, 2006.

14. Yen, M.W. Using simulation results to choose latent trait model.

Applied Psychological Measurement, 5, 1981.

15. Linn R.L.; Harnisch D.L. Interactions betweem item content and group

membership on achievement test items. Journal of Educational

Measurement, 18. 1981.

16. Haebara, T. Equating logistic ability scales by weighted least

squares method. Japanese Psychological Research, 22, 1980.

17. Stocking M.L.; Lord, F.M. Developing a common metric in item

response theory, Applied Psychological Measurement, 7, 1983

18. Kolen, M.J.; Brennan, L. (editors). Test Equating, Scaling and Linking,

Spinger, 2004.

19. Lâm Quang Thiệp, Lâm Ngọc Minh, Lê Mạnh Tấn, Vũ Đình Bổng -

Phần mềm VITESTA và việc phân tích số liệu trắc nghiệm. Tạp chí Giáo dục,

số 176, 11/2007.

20. McDonald, R.P. Non-linear factor analysis. Psychometric Monograph,

No 15, 1967.

21. Samejima, F. Estimation of latent ability using response pattern of

graded scores. Psychometric Monograph, No 17, 1969.

22. Samejima, F. Normal ogive model on the continious response level

in the multidimentional latent space. Psychometrika 39, 1974.

23. Andersen, E. B. Sufficient statistics and latent trait models. Psychometrica

42, 1977.

24. Andrich, D. A rating formulation for ordered response categories.

Psychometrica 43, 1978.

291

25. Master, G.N. A Rasch model for partial credit scoring. Psychometrica

47, 1982.

26. Muraki, E. A generalised partial credit model: Application of an

EM algorithm. Psychometrica 16, 1992.

27. Bock, R.D. Estimating item parameters and latent ability when

responses are scored in two or more nominal categories.

Psychometrika 37, 1972.

28. Thissen D.;Steinberg L. A response model for multiple choice

items. Psychometrica 49, 1984.

29. Yen, W.M. Scaling performance assessment: Strategies for

managing local item dependence. Journal of Educational

Measurement, 30(3), 1993.

30. http://assess.com/xcart/product.php?productid=220&cat=1&page=1

31. Wu, M.L.; Adams, R. J., Wilson, M. R.; Handane, S A.. “ACER

CONQUEST, Version 2.0”, ACER Press, 2007.

32. Bloom, B.S. and Krathwohl, D. R. (1956) “Taxonomy of Educational

Objectives”: The Classification of Educational Goals, by a

committee of college and university examiners. Handbook I:

Cognitive Domain. NY, NY: Longmans, Green.

33. Anderson, L. W. and Krathwohl, D.R. (Eds.) “A Taxonomy for

Learning, Teaching, and Assessing: A Revision of Bloom's

Taxonomy of Educational Objectives”. Allyn & Bacon. Boston,

MA (Pearson Education Group), 2001

34. Bộ Giáo dục và Đào tạo. “Báo cáo khảo sát kết quả học tập môn

Toán và tiếng Việt của học sinh lớp 5 năm học 2006 - 2007”.