hương 11 - vi.vnp.edu.vn

16
1 Chương 11 Các mô hình hồi quy biến phụ thuộc giới hạn (Gujarati: Econometrics by example, 2011) 1 . Người dịch và diễn giải: Phùng Thanh Bình http://vnp.edu.vn/ C Trong các mô hình logit và probit chúng ta đã thảo luận trước đây, biến phụ thuộc được giả định có các giá trị 0 và 1, 0 đại diện cho không có một thuộc tính và 1 đại diện cho có thuộc tính đó, chẳng hạn như hút thuốc và không hút thuốc, hoặc sở hữu nhà hay không sở hữu nhà, hoặc thuộc hoặc không thuộc công đoàn. Như đã lưu ý, mô hình logit sử dụng phân phối xác suất logistic và mô hình probit sử dụng phân phối chuẩn. Chúng ta đã biết trong chương 8 các ước lượng và giải thích các mô hình đó như thế nào, thông qua ví dụ minh họa về hành vi hút thuốc lá. Nhưng bây giờ hãy xem xét vấn đề này: một người hút bao nhiêu gói thuốc, khi cho trước các biến về kinh tế - xã hội của người ấy? Bây giờ câu hỏi này chỉ có ý nghĩa nếu một người hút thuốc; một người không hút thuốc có thể không quan tâm đến câu hỏi này. Trong ví dụ về người hút thuốc của chúng ta được thảo luận ở chương 8, chúng ta có một mẫu gồm 1.196 người, trong đó khoảng 38% hút và 62% không hút. Vì thế chúng ta có thể thu thập thông tin về số gói thuốc được hút chỉ cho 38% số người trong mẫu. Giả sử chúng ta chỉ xem xét mẫu gồm những người hút thuốc và cố gắng ước lượng một hàm cầu về số gói thuốc được hút một ngày dựa trên các thông tin kinh tế - xã hội chỉ của những người hút thuốc. Hàm cầu này sẽ tin cậy như thế nào nếu chúng ta bỏ qua 62% những người trong mẫu 1.196 người? Như bạn có thể hoài nghi, hàm cầu như thế có lẽ không thể tin cậy. Vấn đề ở đây là chúng ta có một mẫu kiểm duyệt (censored sample), một mẫu trong đó thông tin về biến phụ thuộc sẵn có chỉ cho một số quan sát nhưng không sẵn có cho tất cả các quan sát, mặc dù chúng ta có thể có thông tin về các biến giải thích cho tất cả các đơn vị trong mẫu. Có lẽ cần lưu ý rằng biến phụ thuộc có có thể bị kiểm duyệt phía trái (left-censored) [nghĩa là nó không thể nhận một giá trị dưới một ngưỡng nhất định, điển hình, nhưng không phải luôn luôn, là bằng 0] hoặc có thể bị kiểm duyệt phía phải (right-censored) [nghĩa là nó không thể nhận một giá trị trên một ngưỡng nhất định, ví dụ người ta kiếm được hơn một triệu đôla thu nhập], hoặc nó có thể bị kiểm duyệt cả hai phía trái và phía phải. Một mô hình có quan hệ rất gần nhưng hơi khác một chút so với mô hình có mẫu kiểm duyệt là mô hình mẫu bị xén (truncated sample model), trong đó thông tin về cả biến 1 Hiện nay đã có ấn bản mới (lần 2, năm 2015). Dữ liệu của phiên bản 2011: https://www.macmillanihe.com/companion/Gujarati-Econometrics-By-Example/student-zone/

Transcript of hương 11 - vi.vnp.edu.vn

Page 1: hương 11 - vi.vnp.edu.vn

1

Chương 11

Các mô hình hồi quy biến phụ thuộc giới hạn (Gujarati: Econometrics by example, 2011)1.

Người dịch và diễn giải: Phùng Thanh Bình

http://vnp.edu.vn/

C Trong các mô hình logit và probit chúng ta đã thảo luận trước đây, biến phụ thuộc được giả định có các giá trị 0 và 1, 0 đại diện cho không có một thuộc tính và 1 đại diện cho có thuộc tính đó, chẳng hạn như hút thuốc và không hút thuốc, hoặc sở hữu nhà hay không sở hữu nhà, hoặc thuộc hoặc không thuộc công đoàn. Như đã lưu ý, mô hình logit sử dụng phân phối xác suất logistic và mô hình probit sử dụng phân phối chuẩn. Chúng ta đã biết trong chương 8 các ước lượng và giải thích các mô hình đó như thế nào, thông qua ví dụ minh họa về hành vi hút thuốc lá.

Nhưng bây giờ hãy xem xét vấn đề này: một người hút bao nhiêu gói thuốc, khi cho trước các biến về kinh tế - xã hội của người ấy? Bây giờ câu hỏi này chỉ có ý nghĩa nếu một người hút thuốc; một người không hút thuốc có thể không quan tâm đến câu hỏi này. Trong ví dụ về người hút thuốc của chúng ta được thảo luận ở chương 8, chúng ta có một mẫu gồm 1.196 người, trong đó khoảng 38% hút và 62% không hút. Vì thế chúng ta có thể thu thập thông tin về số gói thuốc được hút chỉ cho 38% số người trong mẫu.

Giả sử chúng ta chỉ xem xét mẫu gồm những người hút thuốc và cố gắng ước lượng một hàm cầu về số gói thuốc được hút một ngày dựa trên các thông tin kinh tế - xã hội chỉ của những người hút thuốc. Hàm cầu này sẽ tin cậy như thế nào nếu chúng ta bỏ qua 62% những người trong mẫu 1.196 người? Như bạn có thể hoài nghi, hàm cầu như thế có lẽ không thể tin cậy.

Vấn đề ở đây là chúng ta có một mẫu kiểm duyệt (censored sample), một mẫu trong đó thông tin về biến phụ thuộc sẵn có chỉ cho một số quan sát nhưng không sẵn có cho tất cả các quan sát, mặc dù chúng ta có thể có thông tin về các biến giải thích cho tất cả các đơn vị trong mẫu. Có lẽ cần lưu ý rằng biến phụ thuộc có có thể bị kiểm duyệt phía trái (left-censored) [nghĩa là nó không thể nhận một giá trị dưới một ngưỡng nhất định, điển hình, nhưng không phải luôn luôn, là bằng 0] hoặc có thể bị kiểm duyệt phía phải (right-censored) [nghĩa là nó không thể nhận một giá trị trên một ngưỡng nhất định, ví dụ người ta kiếm được hơn một triệu đôla thu nhập], hoặc nó có thể bị kiểm duyệt cả hai phía trái và phía phải.

Một mô hình có quan hệ rất gần nhưng hơi khác một chút so với mô hình có mẫu kiểm duyệt là mô hình mẫu bị xén (truncated sample model), trong đó thông tin về cả biến

1 Hiện nay đã có ấn bản mới (lần 2, năm 2015). Dữ liệu của phiên bản 2011: https://www.macmillanihe.com/companion/Gujarati-Econometrics-By-Example/student-zone/

Page 2: hương 11 - vi.vnp.edu.vn

2

phụ thuộc và các biến giải thích đều không có sẵn cho một số quan sát. Điều này có thể do thiết kế, như trong thí nghiệm về thuế thu nhập âm ở New Jersey ở đó dữ liệu của những người với thu nhập cao hơn 1.5 lần mức thu nhập ngưỡng nghèo đói năm 1967 không được đưa vào reong mẫu2.

Rồi chúng ta ước lượng các mô hình ấy như thế nào, các mô hình này cũng được gọi là các mô hình hồi quy biến phụ thuộc giới hạn (limited dependent variable regression models) bởi vì sự giới hạn gán lên các giá trị nhận được bởi biến phụ thuộc? Trước hết chúng ta sẽ thảo luận mô hình hồi quy kiểm duyệt (censored regression model) và sau đó thảo luận ngắn gọn mô hình hồi quy bị xén (truncated regression model). Cũng như nhiều mô hình khác nhau trong cuốn sách này, trọng tâm của chúng ta sẽ là các áp dụng thực tế.

11.1 Các mô hình hồi quy kiểm duyệt

Một mô hình được sử dụng phổ biến trong những tình huống này là mô hình Tobit (Tobit model), được phát triển đầu tiên bởi James Tobin, một nhà kinh tế nhận giải Nobel3. Trước khi thảo luận mô hình Tobit, trước hết chúng ta hãy thảo luận OLS được áp dụng cho một mẫu kiểm duyệt. Xem Table 11.1, có sẵn trên trang web đồng hành cùng cuốn sách này.

Ước lượng OLS cho dữ liệu kiểm duyệt

Với mục đích này, chúng ta sử dụng dữ liệu được thu thập bởi Mroz4. Mẫu của ông ta cung cấp dữ liệu của 753 phụ nữ có gia đình, trong đó có 428 người đi làm bên ngoài và 325 người không đi làm bên ngoài, và vì thế mà số giờ làm việc của họ bằng 0.

Một số biến kinh tế - xã hội có ảnh hưởng đến quyết định đi làm được xem xét bởi Mroz là tuổi, giáo dục, kinh nghiệm, kinh nghiệm bình phương, thu nhập gia đình, số con dưới 6 tuổi, và tiền lương của chồng. Table 11.1 cũng cung cấp dữ liệu về các biến khác được xem xét bởi Mroz.

Áp dụng OLS về số giờ làm việc trong mối quan hệ với các biến kinh tế xã hội của tất cả các quan sát, chúng ta có các kết quả trong Bảng 11.2.

Các kết quả trong bảng này được giải thích theo khuôn khổ mô hình hồi quy tuyến tính chuẩn. Như bạn biết, trong mô hình hồi quy tuyến tính mỗi hệ số dốc cho biết ảnh hưởng biên của biến đó lên giá trị trung bình của biến phụ thuộc, khi tất cả các biến khác trong mô hình được giữ nguyên không đổi. Ví dụ, nếu tiền lương của chồng tăng thêm một đôla, thì số giờ làm việc trung bình của phụ nữ có gia đình giảm khoảng 71 giờ, khi tất cả các biến khác được giữ nguyên không đổi. Ngoại trừ hệ số của biến giáo

2 Xem J. A. Hausman and D. A. Wise, Social Experimentation, NBER Economic Research Conference Report, University of Chicago Press, Chicago, 1985. 3 James Tobin (1958) Estimation of Relationship for Limited Dependent Variables, Econometrica, vol. 26, pp. 24 – 36. 4 Xem T. A. Mroz, (1987) The sensitivity of an empirical model of married women’s hours of work to economic and statistical assumptions, Econometrica, vol. 55, pp. 765 – 99. Nhớ lại rằng chúng ta sử dụng các dữ liệu này trong chương 4 khi thảo luận về đa cộng tuyến.

Page 3: hương 11 - vi.vnp.edu.vn

3

dục, tất cả các hệ số khác dường như có ý nghĩa thống kê cao. Nhưng hãy cẩn thận với các kết quả này, vì trong mẫu có 325 người có giờ làm việc bằng 0.

Bảng 11.2: Ước lượng OLS hàm số giờ làm việc.

Giả sử, thay vì sử dụng tất cả các quan sát trong mẫu, chúng ta chỉ sử dụng dữ liệu của 428 phụ nữ đi làm. Kết quả OLS dựa vào mẫu (kiểm soát) này được cho trong Bảng 11.3.

Nếu bạn so sánh các kết quả trong Bảng 11.2 và 11.3, thì bạn sẽ thấy một số khác biệt rõ rệt giữa hai kết quả này5. Biến giáo dục bây giờ dường như có ý nghĩa cao, mặc dù nó lại có dấu âm. Nhưng chúng ta cũng nên cẩn thận về các kết quả này.

5 Trong mô hình hồi quy truyền thống, giá trị trung bình của hạng nhiễu ui được giả định bằng 0, nhưng không có gì đảm bảo rằng điều này sẽ đúng nếu chúng ta chỉ sử dụng một tập con của các giá trị mẫu, như trong ví dụ này.

Page 4: hương 11 - vi.vnp.edu.vn

4

Bảng 11.3: Ước lượng OLS hàm số giờ làm việc chỉ những phụ nữ đi làm.

Điều này là bởi vì các giá trị ước lượng OLS của các mô hình hồi quy kiểm duyệt, dù chúng ta có bao gồm toàn bộ mẫu (Hình 11.1) hay một tập con của mẫu (Hình 11.2), bị chệch và cũng không nhất quán – nghĩa là, cho dù cỡ mẫu lớn bao nhiêu, thì các tham số ước lượng sẽ không hội tụ về các giá trị trung bình của chúng6. Lý do của điều này là sự thật rằng trong các mô hình hồi quy kiểm duyệt cũng như các mô hình hồi quy bị xén, trung bình có điều kiện của hạng nhiễu, ui, là không bằng 0 và hạng nhiễu có tương quan với các biến giải thích. Như chúng ta biết, nếu hạng nhiễu và các biến giải thích có tương quan, thì các ước lượng OLS bị chệch và không nhất quán [Xem chương 19].

6 Một chứng minh chặt chẽ, xem Jeffrey M. Wooldridge, Introductory Econometrics: A Modern Approach, South-Western, USA, 4th edn, 2006, Ch.17. Cũng nên xem Christaan Heij, Paul de Boer, Philip Hans Franses, Teun Kloek, and Herman K. van Dijk, Econometric Methods with Applications in Business and Economics, Oxford University Press, Oxford, UK, 2004, Ch. 6.

Page 5: hương 11 - vi.vnp.edu.vn

5

Hình 11.1: Số giờ làm việc và thu nhập, mẫu đầy đủ. [

Để hiểu sơ qua về lý do tại sao các giá trị ước lượng OLS có thể bị chệch và cũng không nhất quán, chúng ta vẽ đồ thị số giờ làm việc theo thu nhập gia đình trong Hình 11.1 và số giờ làm việc và thu nhập gia đình chỉ cho các phụ nữ đi làm trong Hình 11.2.

Hình 11.2: Số giờ làm việc và thu nhập cho các phụ nữ đi làm.

Trong Hình 11.1, có nhiều quan sát (thực sự là 325 quan sát) nằm trên trục hoành bởi vì các quan sát này có số giờ làm việc bằng 0.

Trong Hình 11.2, không có quan sát nào nằm trên trục hoành, vì các quan sát này cho 428 phụ nữ đang đi làm. Các hệ số dốc của các đường hồi quy trong hai đồ thị dĩ nhiên sẽ khác nhau.

Một phương pháp được sử dụng phổ biến để giải quyết các mẫu kiểm duyệt là mô hình Tobit, bây giờ chúng ta thảo luận mô hình này.

Page 6: hương 11 - vi.vnp.edu.vn

6

11.2 Ước lượng ML của mô hình hồi quy kiểm duyệt: mô hình Tobit

Một trong số những mô hình hồi quy mẫu kiểm duyệt được sử dụng phổ biến là mô hình Tobit. Có nhiều biến thể của mô hình Tobit, nhưng ở đây chúng ta xem xét mô hình đơn giản nhất, được gọi là mô hình Tobit chuẩn (standard Tobit model)7. Chúng ta sẽ tiếp tục với dữ liệu của Mroz.

Để biết các quan sát kiểm duyệt được xử lý như thế nào, chúng ta thực hiện như sau: Cho

Trong đó, Yi* là số giờ làm việc mong muốn (desired hours of work). Bây giờ

Trong đó, ui ~ N(0, 2) và Yi là số giờ làm việc thực tế8. Các biến giải thích lần lượt là tuổi tính theo năm, giáo dục tính theo số năm đi học, kinh nghiệm làm việc tính theo năm, số con dưới 6 tuổi, thu nhập gia đình tính theo ngàn đôla, và tiền lương theo giờ của chồng tính theo ngàn đôla.

Biến Yi* được gọi là một biến tiềm ẩn (latent variable), là biến được quan tâm chính. Dĩ

nhiên, chúng ta thực sự không quan sát được biến này cho tất cả các quan sát. Chúng ta chỉ quan sát nó đối với những quan sát có số giờ làm việc dương bởi vì sự kiểm duyệt. Nhớ lại rằng chúng ta đã thảo luận khái niệm các biến tiềm ẩn trong chương trước9.

Lưu ý rằng chúng ta đang giả định rằng hạng nhiễu theo phân phối chuẩn với trung bình bằng 0 và phương sai cố định (phương sai không đổi). Chúng ta sẽ phải nói nhiều hơn về giả định này sau.

Trước khi đi tiếp, điều hữu ích cần lưu ý sự khác biệt giữa mô hình probit và mô hình Tobit. Trong mô hình probit, Yi = 1 nếu Yi

* lớn hơn 0, và nó bằng 0 nếu biến tiềm ẩm bằng 0. Trong mô hình Tobit, Yi có thể nhận bất kỳ các giá trị nào miễn là biến tiềm ẩn lớn hơn 0. Đó là lý do tại sao mô hình Tobit cũng được gọi là probit của Tobin.

Để ước lượng một mô hình mà ở đó một số quan sát về biến phụ thuộc bị kiểm duyệt (bởi vì chúng không được quan sát), mô hình Tobit sử dụng phương pháp hợp lý tối đa

7 Một thảo luận chi tiết, nhưng hơi nâng cao có thể tìm thấy trong A. Colin Cameron and Pravin K. Trivedi, Microeconometrics: Methods and Applications, Cambridge University Press, New York, 2005, Chapter 16. 8 Bạn có thể sử dụng phân phối xác suất giá trị cực đại hoặc logistic thay vì phân phối chuẩn. 9 Trong ngữ cảnh hiện tại, chúng ta có thể giải thích biến tiềm ẩn như khuynh hướng hoặc mong muốn đi làm của một phụ nữ có gia đình.

Page 7: hương 11 - vi.vnp.edu.vn

7

(ML), mà chúng ta đã gặp trong nhiều trường hợp10. Các cơ chế thực sự của phương pháp ML cho mô hình Tobit thì khá phức tạp, nhưng Stata, Eviews và các phần mềm khác có thể ước lượng một hình này rất dễ dàng11.

Sử dụng Eviews 6, chúng ta có được các kết quả trong Bảng 11.4 cho ví dụ của chúng ta về số giờ làm việc của phụ nữ có gia đình.

Giải thích các giá trị ước lượng của mô hình Tobit

Chúng ta giải thích các kết quả này như thế nào? Nếu bạn chỉ xem xét các dấu của các biến giải thích khác nhau, thì bạn sẽ thấy chúng giống trong các Bảng 11.2 và 11.3. Và về mặc định tính, chúng có ý nghĩa. Ví dụ, nếu tiền lương của chồng tăng lên, thì trung bình, một phụ nữ sẽ làm việc ít hơn trong thị trường lao động, khi tất cả các yếu tố khác được giữ nguyên không đổi. Biến giáo dục không có ý nghĩa thống kê trong Bảng 11.2, nhưng nó có ý nghĩa trong Bảng 11.3, mặc dù có dấu âm. Trong Bảng 11.4, nó có ý nghĩa thống kê và có dấu dương, điều này có ý nghĩa.

Các hệ số dốc của các biến giải thích khác nhau trong Bảng 11.4 cho biết tác động biên của biến đó lên giá trị trung bình của biến tiềm ẩn Yi

*, nhưng trong thực tế chúng ta quan tâm đến tác động biên của một biến giải thích lên giá trị trung bình của Yi, tức các giá trị thực được quan sát trong mẫu.

Bảng 11.4: Ước lượng ML của mô hình hồi quy kiểm duyệt.

10 Có một số phương pháp thay thế ước lượng ML, một số trong đó có thể được tìm thấy trong sách của Greene, op cit. 11 Chi tiết về phương pháp ML của Tobin có thể tìm thấy trong Christiaan Heij, op cit.

Page 8: hương 11 - vi.vnp.edu.vn

8

Không may, không giống các giá trị ước lượng OLS trong Bảng 11.2, chúng ta không thể giải thích hệ số của Tobit của một biến giải thích như tác động biên của biến giải thích đó lên giá trị trung bình của biến phụ thuộc được quan sát. Điều này là bởi vì trong các mô hình hồi quy kiểm duyệt loại Tobit, thì một sự thay đổi đơn vị trong giá trị của một biến giải thích có hai ảnh hưởng: (1) ảnh hưởng lên giá trị trung bình của biến phụ thuộc được quan sát, và (2) ảnh hưởng lên xác suất mà Yi

* thực sự được quan sát12.

Ví dụ, lấy tác động của biến tuổi. Hệ số của biến tuổi là khoảng -54 trong Bảng 11.4 có nghĩa rằng, khi các biến khác được giữ nguyên không đổi, nếu tuổi tăng thêm một năm, thì tác động trực tiếp của nó lên số giờ làm việc một năm sẽ giảm khoảng 54 giờ một năm và xác suất mà một người phụ nữ tham gia lực lượng lao động cũng sẽ giảm. Vì thế, chúng ta phải nhân -54 với xác suất mà điều này xảy ra. Trừ khi chúng ta biết được xác suất này, chúng ta sẽ không thể tính được tác động tổng gộp của tăng thêm một tuổi lên số giờ làm việc. Và việc tính toán xác suất này phụ thuộc vào tất cả các biến giải thích trong mô hình và các hệ số của chúng.

Thật thú vị, hệ số dốc cho biết tác động biên một cách trực tiếp của một biến giải thích lên biến tiềm ẩn, Yi

*, như đã được lưu ý trước đây. Vì thế, hệ số của biến tuổi là -54 có nghĩa là nếu tuổi tăng lên một năm, thì số giờ làm việc mong muốn sẽ giảm 54 giờ, khi các yếu tố khác được giữ nguyên không đổi. Dĩ nhiên, chúng ta thực sự không quan sát được số giờ làm việc mong muốn, vì nó là một cấu trúc trừu tượng (abstract contruct).

Trong ví dụ của chúng ta, chúng ta có 753 quan sát. Đó là một công việc mất thời gian để tính toán tác động biên của mỗi biến giải thích cho tất cả 753 quan sát. Trong thực tế, chúng ta có thể tính toán tác động biên tại giá trị trung bình của mỗi biến giải thích.

Vì xác suất của Y* phải nằm giữa 0 và 1, nên tích của mỗi hệ số dốc nhân với xác suất này sẽ nhỏ hơn (theo giá trị tuyệt đối) chính bản thân hệ số dốc. Vì thế, tác động biên của một biến giải thích lên giá trị trung bình của biến phụ thuộc được quan sát sẽ nhỏ hơn (theo giá trị tuyệt đối) giá trị của hệ số dốc được chỉ ra trong Bảng 11.4. Dấu của tác động biên phụ thuộc vào dấu của hệ số dốc, vì xác suất để quan sát được Yi

* là luôn luôn dương. Các phần mềm như Stata và Eviews có thể tính toán tác động biên của mỗi biến giải thích.

Ý nghĩa thống kê của các hệ số ước lượng

Bảng 11.4 trình bày các sai số chuẩn, các thống kê Z (các giá trị phân phối chuẩn hóa) và các giá trị xác suất p của mỗi hệ số ước lượng13. Như bảng kết quả hồi quy cho thấy tất cả các hệ số đều có ý nghĩa thống kê ở mức ý nghĩa 10% hoặc thấp hơn.

Với mô hình Tobit, không có thước đo thông thường của R2. Điều này là bởi vì mô hình hồi quy tuyến tính chuẩn ước lượng các tham số bằng cách tối thiểu hóa tổng bình phương phần dư (RSS), trong khi mô hình Tobit tối đa hóa hàm hợp lý (likelihood function). Nhưng nếu bạn muốn tính một R2 tương đương với R2 thông thường, thì bạn

12 Nghĩa là, [Y | Xi]/Xi = Bi*Pr(0 < Yi

* < ) và xác suất này phụ thuộc vào tất cả các biến giải thích trong mô hình và các hệ số của chúng. 13 Bởi vì cỡ mẫu lớn, nên chúng ta sử dụng phân phốn chuẩn hơn là phân phối t.

Page 9: hương 11 - vi.vnp.edu.vn

9

có thể làm bằng cách bình phương hệ số tương quan giữa các giá trị Y thực tế và các giá trị Y được ước lượng từ mô hình Tobit.

Kiểm định các biến bị bỏ sót hoặc các biến thừa có thể được thực hiện trong khuôn khổ của các kiểm định với mẫu lớn thông thường, chẳng hạn như tỷ số hợp lý (LR), Wald, hoặc nhân tử Lagrange (L). Thử điều này bằng cách đưa thêm biến kinh nghiệm bình phương vào mô hình hoặc biến giáo dục của cha và biến giáo dục của mẹ vào mô hình.

Những cảnh báo trước

Trong mô hình Tobit, chúng ta giả định rằng hạng nhiễu theo phân phối chuẩn với trung bình bằng 0 và phương sai cố định (tức phương sai không đổi).

Sự không chuẩn của hạng nhiễu

Trong các mô hình hồi quy kiểm duyệt dưới phân phối không chuẩn của hạng nhiễu thì các ước lượng không nhất quán. Một lần nữa, một vài phương pháp khắc phục được đề xuất trong lý thuyết. Một cách khắc phục là thay đổi giả định về phân phối của hạng nhiễu. Ví dụ, Eviews có thể ước lượng các mô hình như thế dưới các giả định phân phối xác suất khác cho hạng nhiễu (chẳng hạn như logistic hoặc extreme value). Một thảo luận chi tiết, bạn có thể xem các sách của Maddala và Wooldridge14.

Phương sai thay đổi

Trong mô hình hồi quy tuyến tính thông thường, nếu hạng nhiễu có phương sai thay đổi, thì các ước lượng OLS vẫn nhất quán mặc dù không hiệu quả. Tuy nhiên, trong các mô hình kiểu Tobit, thì các ước lượng không nhất quán và cũng không hiệu quả. Có một vài phương pháp để xử lý vấn đề này, nhưng một thảo luận chi tiết có thể sẽ đưa chúng ta đi quá xa15. Tuy nhiên, các phần mềm thống kê như Stata và Eviews có thể tính toán các sai số chuẩn cải thiện (robust standard errors), như được trình bày trong Bảng 11.5.

Như bạn có thể thấy, không có những khác biệt lớn trong các sai số chuẩn ước lượng trong hai bảng, nhưng điều này không phải luôn luôn đúng như vậy.

14 Một thảo luận chi tiết nhưng hơi nâng cao, xem G. S. Maddala, Limited Dependent and Qualitative Variables in Econometrics, Cambridge University Press, Cambridge, UK, 1983; và Wooldridge, J. M., Econometric Analysis of Cross and Panel Data, MIT Press, Cambridge, MA, 2002. 15 Một thảo luận nâng cao, xem Maddala và Wooldridge, op cit.

Page 10: hương 11 - vi.vnp.edu.vn

10

Bảng 11.5: Ước lượng các sai số chuẩn cải thiện của mô hình Tobit.

[11.3 Các mô hình hồi quy mẫu bị xén

Trước đây chúng ta đã thảo luận khác biệt giữa các mô hình hồi quy mẫu kiểm duyệt và mẫu bị xén. Sau khi đã thảo luận mô hình hồi quy mẫu kiểm duyệt, bây giờ chúng ta tập trung vào các mô hình hồi quy mẫu bị xén.

Trong các mẫu bị xén nếu chúng ta không có thông tin về biến phụ thuộc, thì chúng ta không thu thập thông tin về các biến giải thích mà các biến đó có thể có quan hệ với biến phụ thuộc. Trong ví dụ minh họa của chúng ta, chúng ta không có dữ liệu về số giờ làm việc của 325 phụ nữ. Vì thế, chúng ta có thể không xem xét đến các thông tin về các biến kinh tế - xã hội của những quan sát này, mặc dù chúng ta có thông tin về các biến này trong ví dụ hiện tại.

Page 11: hương 11 - vi.vnp.edu.vn

11

Bảng 11.6: Ước lượng ML của mô hình hồi quy bị xén.

Thì tại sao không ước lượng hàm số giờ làm việc cho tập con của mẫu chỉ gồm 428 phụ nữ đang làm việc bằng phương pháp OLS? Sự thật là chúng ta đã làm như thế trong Bảng 11.2. Tuy nhiên, các ước lượng OLS không nhất quán trong trường hợp này. Vì mẫu bị xén, nên giả định rằng hạng nhiễu trong mô hình này theo phân phối chuẩn với trung

bình và phương sai 2 không thể được thỏa mãn. Vì thế, chúng ta phải sử dụng phân phối chuẩn bị xén (truncated normal distribution). Trong trường hợp đó, chúng ta phải sử dụng một phương pháp ước lượng phi tuyến, chẳng hạn như phương pháp ML.

Sử dụng ML, chúng ta có được các kết quả trong Bảng 11.6. Nếu bạn so sánh các kết quả này với các kết quả OLS được cho trong Bảng 11.2, thì bạn sẽ thấy những khác biệt rõ ràng, mặc dù dấu của các hệ số là giống nhau.

Nếu bạn so sánh các kết quả của hồi quy kiểm duyệt được cho trong Bảng 11.5 với hồi quy bị xén được cho trong Bảng 11.6, thì một lần nữa bạn sẽ thấy những khác biệt trong độ lớn và ý nghĩa của các hệ số. Đặc biệt lưu ý rằng hệ số của biến giáo dục là dương trong mô hình hồi quy kiểm duyệt, nhưng âm trong mô hình hồi quy bị xén.

Page 12: hương 11 - vi.vnp.edu.vn

12

Giải thích các hệ số hồi quy bị xén

Như trong mô hình Tobit, một hệ số hồi quy riêng lẻ đo lường ảnh hưởng biên của biến đó lên giá trị trung bình của biến phụ thuộc cho tất cả các quan sát – nghĩa là, bao gồm cả những quan sát không được đưa vào. Nhưng nếu chúng ta chỉ xem xét các quan sát trong mẫu (bị xén), thì hệ số hồi quy (riêng) thích hợp phải được nhân với một thừa số nhỏ hơn 1. Vì thế, ảnh hưởng biên trong mẫu (within-sample) của một biến giải thích nhỏ hơn (theo giá trị tuyệt đối) giá trị của hệ số của biến đó, như trong trường hợp của mô hình Tobit.

Mô hình hồi quy Tobit với mô hình hồi quy bị xén

Bây giờ, giữa các mô hình hồi quy kiểm duyệt và bị xén, mô hình nào tốt hơn? Vì mô hình hồi quy Tobit sử dụng nhiều thông tin (753 quan sát) hơn mô hìnhhồi quy bị xén (428 quan sát), nên các giá trị ước lượng có được từ mô hình Tobit được kỳ vọng hiệu quả hơn16.

11.4 Tóm tắt và kết luận

Trong chương này chúng ta đã thảo luận bản chất của các mô hình hồi quy kiểm duyệt. Mấu chốt ở đây là khái niệm biến tiềm ẩn, là một biến mà, mặc dù về thực chất là quan trọng, có lẽ không thể luôn luôn quan sát được. Điều này dẫn đến một mẫu kiểm duyệt trong đó dữ liệu về biến phụ thuộc không có sẵn cho nhiều quan sát, mặc dù dữ liệu về các biến giải thích có sẵn cho tất cả các quan sát.

Trong nhiều trường hợp như thế này, thì các ước lượng OLS bị chệch và cũng không nhất quán. Giả định rằng hạng nhiễu theo phân phối chuẩn với trung bình bằng 0 và phương sai không đổi, chúng ta có thể ước lượng các mô hình hồi quy kiểm duyệt theo phương pháp ML. Vì thế các ước lượng thu được là nhất quán.

Các hệ số dốc được ước lượng bằng ML cần phải được giải thích một cách cẩn thận. Mặc dù chúng ta có thể giải thích hệ số dốc như là tác động biên của một biến lên giá trị trung bình của biến tiềm ẩn, khi giữ nguyên các biến khác không đổi, nhưng chúng ta không thể giải thích nó như vậy theo giá trị quan sát của biến tiềm ẩn. Ở đây chúng ta phải nhân hệ số dốc với xác suất quan sát biến tiềm ẩn. Và xác suất này phụ thuộc vào tất cả các biến giải thích và các hệ số của chúng. Tuy nhiên, các phần mềm thống kê hiện đại có thể làm điều này một cách tương đối dễ dàng.

Một cảnh báo quan trọng là các ước lượng ML chỉ nhất quán nếu các giả định về hạng nhiễu là thích hợp. Trong các trường hợp phương sai thay đổi và hạng nhiễu không theo phân phối chuẩn, thì các ước lượng ML không nhất quán. Các phương pháp thay thế cần được tham khảo trong các trường hợp như thế. Vài giải pháp sẵn có trong lý thuyết. Tuy nhiên, chúng ta có thể tính các sai số chuẩn cải thiện, như được minh họa trong một ví dụ cụ thể.

16 Về mặt kỹ thuật, đây là kết quả từ sự thật rằng hàm hợp lý của Tobit là tổng của các hàm hợp lý của mô hình hồi quy bị xén và hàm hợp lý của probit.

Page 13: hương 11 - vi.vnp.edu.vn

13

Mô hình hồi quy bị xén khác mô hình hồi quy kiểm duyệt ở điểm là trong mô hình hồi quy bị xén chúng ta quan sát các giá trị của các biến giải thích chỉ nếu chúng ta có dữ liệu về biến phụ thuộc. Trong mô hình hồi quy kiểm duyệt, chúng ta có dữ liệu về các biến giải thích cho tất cả các giá trị của biến phụ thuộc kể cả những giá trị của biến phụ thuộc không quan sát được hoặc bị gán bằng 0 hoặc bằng một giới hạn nào đó.

Trong thực tế, các mô hình hồi quy kiểm duyệt có thể ưa thích hơn các mô hình hồi quy bị xén bởi vì trong các mô hình hồi quy kiểm duyệt chúng ta sử dụng tất cả các quan sát trong mẫu, trong khi đó trong các mô hình hồi quy bị xén chúng ta chỉ sử dụng các quan sát trong mẫu bị xén.

Cuối cùng, sự thật rằng chúng ta có phần mềm để ước lượng các mô hình hồi quy kiểm duyệt không có nghĩa là các mô hình loại Tobit là phù hợp trong tất cả các tình huống. Một số tình huống trong đó nhiều mô hình như thế là không thể áp dụng đã được thảo luận trong các tài liệu tham khảo trong chương này./.

Hướng dẫn Stata ( )

. use "D:\My Blog\Econometrics by example\Table11_1.dta", clear

Page 14: hương 11 - vi.vnp.edu.vn

14

Page 15: hương 11 - vi.vnp.edu.vn

15

. tobit hours age educ exper expersq faminc kidsl6 hwage, ll(0) robust

. marginsplot

. quietly truncreg hours age educ exper expersq faminc kidsl6 hwage, ll(0) robust

. margins, dydx(age) predict(e(0, 4950)) at(age=(20 30 40 50))

-60

-50

-40

-30

-20

Effe

cts

on

E(H

our

s*|0

<H

ours

<4

950)

20 30 40 50Wife's age

Average Marginal Effects of age with 95% CIs

Page 16: hương 11 - vi.vnp.edu.vn

16

. marginsplot

-30

-20

-10

0

Effect

s o

n E

(Ho

urs

|0<

Ho

urs

<49

50

)

20 30 40 50Wife's age

Average Marginal Effects of age with 95% CIs