DMCA.com Protection Status

MÔ HÌNH HỒI QUY ĐƠN

Mô hình hồi quy đơn là mô hình hồi quy đơn giản nhất và dùng biểu diễn sự phụ thuộc của biến phụ thuộc đối với biến độc lập duy nhất.

1. Mô hình hồi quy đơn tổng quát

Có hai biến X và Y, trong đó Y phụ thuộc tuyến tính vào X. Với một giá trị Xi nào đó của biến X, giá trị tương ứng Yi của biến Y được tính bằng công thức.

Yiβ0 + β1Xiεi

Trong đó,

β0: Tung độ gốc, là giao điểm của đường hồi quy với trục tung;

β1: Hệ số góc, là độ dốc của đường hồi quy.

Hệ số β0 thể hiện giá trị ước lượng của Y khi giá trị của biến X bằng không. β1 thể hiện mức thay đổi của Y khi X thay đổi 1 đơn vị. εi là sai số phần dư biểu diễn ảnh hưởng của các yếu tố khác (các yếu tố không được nghiên cứu) đến Y. Một mô hình hồi quy có ý nghĩa thống kê khi εi biến thiên ngẫu nhiên, phân phối chuẩn với trung bình bằng không, phương sai không thay đổi theo các giá trị của X và độc lập tuyến tính (không tự tương quan với nhau). εi là sai lệch giữa giá trị ước lượng với giá trị thực.

Mô hình hồi quy tổng thể thể hiện mối liên hệ tuyến tính giữa X và Y được biểu diễn như sau.

Y = β0 + β1X + ε

Trong thực tế không thể định trị chính xác cho các tham số β0β1 mà chỉ có thể ước lượng chúng từ dữ liệu của mẫu thu thập được. Mô hình hồi quy tuyến tính cho mẫu được biểu diễn như sau.

Y = b0 + b1X

Trong đó, b0 và b1: Hệ số hồi quy cho mẫu.

2. Phương pháp bình phương cực tiểu (OLS – Ordinary Least Squares)

Có các mẫu (Y1, X1), (Y2, X2), …, (Yn, Xn) từ n quan sát. Tìm các giá trị b0 và b1 để ước lượng cho các tham số β0  β1. Thường thì các điểm quan sát không nằm trên cùng một đường thẳng. Tuy nhiên, phương pháp bình phương cực tiểu sẽ vẽ đường thẳng đi giữa các điểm quan sát sao cho sai lệch phần dư εi là cực tiểu. Trong thực tế người ta sử dụng tham số sai lệch phần dư bình phương để tránh trường hợp tổng sai lệch phần dư bằng 0.

Cao độ của một quan sát: Yi = b0 + b1Xiεi (Hình 1).

[Nguồn: nghiencuukhoahoc.edu.vn, 2017]

Hình 1. Biểu đồ mô tả điểm quan sát Yi, hàm hồi quy Y và sai lệch εi

Tức là: εi = Yi - (b0 + b1Xi)

Tổng sai lệch phần dư bình phương:

Đạo hàm từng phần phương trình tổng sai lệch phần dư bình phương theo b0 và b1, sau đó gán biểu thức này bằng 0 được hệ 2 phương trình:

Giải hệ 2 phương trình nêu trên được công thức tính b0 và b1.

Hệ số góc b1:

Tung độ gốc b0:

Trong đó,

: Trung bình của biến độc lập;

: Trung bình của biến phụ thuộc.  

3. Đánh giá mô hình

Sau khi xác định được giá trị các hệ số hồi quy, cần đánh giá mức độ phù hợp của mô hình dựa vào giá trị hệ số xác định R2 và phương sai của phép hồi quy. Quan sát Hình 2 có thể nhận thấy một điểm quan sát bất kỳ nào cũng có thể mô tả bằng biểu thức sau.

Một cách tổng quát, sai số tổng SST: SST = SSR + SSE

SST: Sai số tổng, bình phương sai lệch của trị Yi quanh trị trung bình Y trung bình.

hay

SSR: Sai số hồi quy, bình phương sai lệch giữa giá trị hồi quy Y mũ so với Y trung bình.

SSE: Sai số ước lượng, bình phương sai lệch giữa Yi và Y mũ.

[Nguồn: nghiencuukhoahoc.edu.vn, 2017]

Hình 2. Sai số (phần dư) trong hồi quy

4. Hệ số xác định

Ký hiệu: R2. Là tỷ lệ giữa SSR và SST:

 hay 

Người ta đánh giá sai số của một mô hình hồi quy dựa trên giá trị của hệ số xác định R2.

Khi R2 = 1: Mô hình hồi quy không tồn tại sai số, có tương quan hoàn hảo giữa X và Y, và mô hình hồi quy mô tả 100% sự biến đổi của dữ liệu (Hình 3).

[Nguồn: nghiencuukhoahoc.edu.vn, 2017]

Hình 3. Tương quan giữa điểm quan sát Yi với giá trị ước lượng hồi quy Y mũ khi R2 = 1

Khi 0 < R2 < 1: Có tương quan giữa X và Y, mô hình hồi quy tồn tại sai số ở mức độ phụ thuộc vào giá trị của R2. Càng tiến về 1 sai số càng thấp (Hình 4). Ví dụ R2 = 0.80 thì sai số là 20% và mô hình hồi quy giải thích được 80% sự biến đổi của dữ liệu. Người ta thường yêu cầu giá trị hệ số xác định của một mô hình hồi quy tối thiểu là 0.50 hay R2 ³ 0.50 hay 50%.

[Nguồn: nghiencuukhoahoc.edu.vn, 2017]

Hình 4. Tương quan giữa điểm quan sát Yi với giá trị ước lượng hồi quy Y mũ khi 0 < R2 < 1

Khi R2 = 0: Không có mối liên hệ giữa biến X và Y. Biến Y không phụ thuộc biến X tức mô hình hồi quy không mô tả được chuyển vận của dữ liệu (Hình 5). Và dĩ nhiên, không thể sử dụng mô hình hồi quy có hệ số xác định R2 = 0 để mô tả dữ liệu.

[Nguồn: nghiencuukhoahoc.edu.vn, 2017]

Hình 5. Tương quan giữa điểm quan sát Yi với giá trị ước lượng hồi qui Y mũ khi R2 = 0

Dựa vào giá trị của hệ số xác định R2 để:

- Đánh giá sai số của mô hình hồi quy;

- Đo mức độ giải thích (hữu ích) của biến độc lập đối với mô hình.

Phương sai ước lượng Se2 (hiệu chỉnh): Giả sử biến phụ thuộc Y phân phối chuẩn, tức là các tham số ước lượng b0, b1 cũng phân phối chuẩn thì phương sai ước lượng Se2 được tính bằng công thức sau.

Trong đó;

ei: Sai số (phần dư) của điểm quan sát thứ i;

SSE: Sai số ước lượng;

n: Kích thước mẫu, công thức này chia cho n – 2 thay vì n – 1 bởi vì mô hình hồi quy tuyến tính đơn có 2 cột dữ liệu đó là X và Y.

Độ lệch chuẩn ước lượng Se:

Độ lệch chuẩn ước lượng Se thể hiện mức độ sai lệch trung bình của trị quan sát Yi so với đường hồi quy Y mũ (xem đường hồi quy là đường trung bình).

Như được mô tả ở Hình 6, độ lệch chuẩn ước lượng Se càng lớn, sai số trung bình của mô hình hồi quy càng tăng. Không bị giới hạn trong khoảng (0.00; 1.00) như hệ số xác định R2; sai số ước lượng mang giá trị tuyệt đối. Như vậy, tuy khác biệt về giá trị so với hệ số xác định R2, nhưng vai trò chứng minh sự phù hợp của mô hình hồi quy của tham số Se thì tương đồng với R2.​​​​

[Nguồn: nghiencuukhoahoc.edu.vn, 2017]

Hình 6. Ảnh hưởng của độ lệch chuẩn ước lượng Se đối với mức độ phân tán dữ liệu quanh đường hồi quy Y mũ

Hình 7 mô tả ảnh hưởng của độ lệch chuẩn Sb1 đến mức độ biến động độ dốc, mô hình hồi quy có mức độ biến động độ dốc tăng khi giá trị Sb1 tăng.

[Nguồn: nghiencuukhoahoc.edu.vn, 2017]

Hình 7. Ảnh hưởng của độ lệch chuẩn hệ số hồi quy b1 – Sb1 đến độ dốc của mô hình hồi quy

5. Kiểm định mô hình

Người ta sử dụng dữ liệu mẫu để xác định các tham số của mô hình hồi quy. Vì vậy cần kiểm định thống kê để đánh giá mức độ phù hợp của mô hình hồi quy (tổng thể). Một mô hình hồi quy chỉ được sử dụng nếu từng tham số và toàn bộ mô hình này có ý nghĩa thống kê.

Mô hình hồi quy cho tổng thể: Y = β0 + β1X

Kiểm định quan trọng đầu tiên là kiểm định hệ số góc b1. Hệ số góc không có ý nghĩa thống kê thể hiện rằng không có mối quan hệ giữa biến X với biến Y. Nếu giá trị hệ số góc bằng 0 thì đường hồi quy sẽ nằm ngang (Hình 5), kết luận biến X và Y độc lập tuyến tính. Thực hiện kiểm định mô hình theo quy trình sau đây.

1. Giả thuyết

H0: bj = 0 (Không liên hệ);

H1: bj ¹ 0 (Có liên hệ tuyến tính).

2. Trị thống kê

Ví dụ: Giả sử kích thước mẫu n = 19 < 30 nên sẽ chọn tra bảng Student để kiểm định b1 trong trường hợp chỉ có tham số Sb1 mà chưa có s.

tdf;a/2 = t17;0.025 = 2.1098

Trong đó, Bậc tự do df. = n - 2 = 17; Mức ý nghĩa a = 5%

Mức ý nghĩa a = 5% được sử dụng tương đối phổ biến; Số lượng biến của mô hình hồi quy tuyến tính đơn luôn bằng 2 nên bậc tự do df. = n - 2.

3. Trị thống kê

Giá trị thống kê t cho b1 được tính bởi công thức sau.

Trong đó,

b1: Hệ số góc mẫu;

β1: Hệ số góc tổng thể;

Sb1: Độ lệch chuẩn hệ số góc mẫu.

Giá trị thống kê t tương ứng cho Ví dụ trên là:

4. Kết luận

Như được trình bày ở biểu đồ phân bố trên, do trị thống kê t (mẫu) nằm ở vùng bác bỏ H0 nên kết luận hệ số góc b1 có ý nghĩa thống kê.

Không như b1, người ta ít kiểm định thống kê cho tung độ gốc b0 do sự khác biệt về chức năng của hai hệ số này. Trong khi hệ số b1 thể hiện mối tương quan giữa X và Y thì b0 lại đại diện cho lượng dữ liệu chưa giải thích được bởi mô hình hồi quy. Trong thực tế, người ta thường xem xét giá trị của hệ số b0 thay cho việc kiểm định. Giá trị quá lớn của hệ số b0 thể hiện rằng mô hình hồi quy ít giải thích được mức biến đổi của dữ liệu. Ví dụ, với phương trình hồi quy Y = 1000 + (1×X) thì khi X tăng từ 1 đến 2 (tỉ lệ tăng lên 100%) thì Y tăng từ 1001 lên 1002 (chỉ tăng 0,1%), dù hệ số góc biểu thị mối tương quan giữa X và Y là 1 đơn vị.

Kiểm định sử dụng p-value: Phương pháp kiểm định này chuyển trị thống kê Z hoặc t sang trị xác suất dựa trên kích thước mẫu được giá trị p-value. Sau đó, so sánh trực tiếp p-value với mức ý nghĩa a. Vậy p-value thể hiện mức độ ủng hộ giả thuyết H0 của mẫu nên nếu P-value > a thì không bác H0, ngược lại nếu p-value £ a thì bác H0.

Giả thuyết:

H0: bj = 0;

H1: bj ¹ 0 (Ít nhất một hệ số góc khác 0).

Tính p-value cho Ví dụ trên với giá trị thống kê t = 14.2995 ~ 14.3, df. = 17. Tra bảng Student tương ứng với hàng df. = 17; giá trị gần với số 14.3 nhất là số 2.8982. Gióng lên được giá trị p-value/2 = 0.005 nên p-value = 0.005 x 2 = 0.01. Do p-value = 0.01 < a = 0.05 nên bác H0; và kết luận hệ số góc b1 có ý nghĩa thống kê.

6. Kiểm định Fisher (cho toàn bộ mô hình)

Qui trình kiểm định

1. Giả thuyết

H0: bj = 0 (Tất cả các hệ số góc bằng 0);

H1: bj ¹ 0.

2. Trị tới hạn

Sử dụng bảng Fisher để tra tìm giá trị tới hạn Fdf1; df2; a.

df1 = k, k: Tổng số biến độc lập của mô hình hồi quy, k = 1 ứng với mô hình hồi quy tuyến tính đơn.

df2 = n – k – 1, bậc tự do của mô hình, n: Kích thước mẫu.

a: Mức ý nghĩa, thường chọn a = 0.05 và a không bị chia đôi đối với kiểm định Fisher.

Tra trị tới hạn để kiểm định Fisher (F) cho mô hình hồi quy của Ví dụ trên.

df1 = 1 (cột số 1)

df2 = 19 – 2 = 17 (hàng thứ 17)

a = 0.05 (chọn bởi nhà nghiên cứu).

Tra được giá trị tới hạn F1;17;0.05 = 4.4513

3. Trị thống kê F

Với:

Trong đó,

SSR: Sai số hồi quy;

SSE: Sai số ước lượng.

Giá trị thống kê F cho Ví dụ trên như sau:

4. Kết luận

Do trị thống kê F rơi vào vùng bác H0 nên kết luận tất cả các hệ số bj của mô hình hồi quy có ý nghĩa thống kê. Kết luận, toàn bộ mô hình có ý nghĩa thống kê.

Lưu ý:

- Sử dụng kiểm định bj (chuẩn/Student) để kiểm tra ý nghĩa thống kê của từng hệ số bj của mô hình hồi quy đơn. 

- Kiểm định Fisher (F) để kiểm tra ý nghĩa thống kê của toàn bộ mô hình hồi quy.

7. Hiện tượng tự tương quan

Phân tích hồi quy cho dữ liệu thường gặp hiện tượng tự tương quan (Autocorrelations). Tự tương quan là sự tương quan phần dư ei của chuỗi các quan sát theo thứ tự tăng của X. Hình 8 mô tả một số kiểu tự tương quan phần dư thường gặp.

[Nguồn: nghiencuukhoahoc.edu.vn, 2017]

Hình 8. Một số dạng tương quan phần dư ei khi phân tích hồi quy

[Nguồn: nghiencuukhoahoc.edu.vn, 2017]

Hình 9. Phần dư ei phân bố ngẫu nhiên (chuẩn)

Để phân tích hồi quy, ban đầu, người ta giả sử giá trị của biến độc lập phụ thuộc Xi, Yi phân bố chuẩn, dẫn đến giá trị các hệ số b0, b1, phần dư ei (Hình 8) cũng phân phối chuẩn. Từ giả sử ban đầu này, người ta xây dựng công thức tính giá trị các hệ số, đánh giá, kiểm định mô hình hồi quy. Vậy nên nếu xảy ra tự tương quan phần dư thì những hệ số, đánh giá, kiểm định đã được thực hiện cho mô hình có thể sai lệch. Ví dụ, xảy ra tự tương quan thì giá trị tính toán độ lệch chuẩn của hệ số hồi quy Sb1 bé hơn giá trị thực của nó. Tự tương quan tức là phân bố không chuẩn và phân bố này “mập hơn”, và công thức để tính độ lệch chuẩn cho trường hợp này phải điều chỉnh tăng giá trị. Vậy nên nếu tính độ lệch chuẩn Sb1 theo giả sử ban đầu đó là phân bố chuẩn, sẽ dẫn đến giá trị tính được bé hơn giá trị thực của nó. Sb1 giảm nên thống kê t tăng giá trị; điều này làm tăng khả năng bác H0. Tức là tự tương quan làm tăng nguy cơ chấp thuận các hệ số hồi quy không có ý nghĩa thống kê. Tự tương quan cũng khiến cho hệ số xác định R2, độ lệch chuẩn ước lượng Se, kiểm định t, kiểm định F không còn tin cậy.

Kiểm định tự tương quan

Sử dụng kiểm định Durbin-Watson, tiến hành theo quy trình 4 bước.

1. Giả thuyết

H0: Không tự tương quan (Corr(It,It-1) = 0);

H1: Tự tương quan.

2. Trị tới hạn

Tra trị tới hạn dL và dUbảng Durbin-Watson dựa vào số lượng biến độc lập k, kích thước mẫu n, và mức ý nghĩa a.

3. Trị thống kê

Trong đó,

ei: sai lệch phần dư thời điểm i;

ei-1: sai lệch ei trượt 1 thời đoạn.

Giá trị thống kê DW nằm trong khoảng [0.00; 4.00].

4. Kết luận

- Nếu dU < DW < 4 – dU, không bác H0, tức không có tự tương quan (Hình 10).

- Nếu DW < 2 thì xét tự tương quan dương, bác H0 khi nếu DW < dL.

- Nếu DW > 2 thì xét tự tương quan âm, bác H0 nếu DW > 4 – dL.

[Nguồn: nghiencuukhoahoc.edu.vn, 2017]

Hình 10. Giá trị tới hạn khi kiểm định Durbin-Watson

Lưu ý:

- Kiểm định Durbin-Watson chỉ đúng với tự tương quan phần dư bậc 1, tức trượt phần dư ei đi 1 thời đoạn.

- Kết quả kiểm định tin cậy khi cỡ mẫu lớn.

8. Phương sai thay đổi

Ngoài yêu cầu phần dư ei không tự tương quan, người ta còn yêu cầu phương sai của nó không thay đổi tại các giá trị khác nhau của biến độc lập hoặc phụ thuộc. Thỏa yêu cầu này được gọi là phương sai không đổi (homoscedasticity), nếu không thỏa thì không thể sử dụng mô hình hồi quy tương ứng.

[Nguồn: nghiencuukhoahoc.edu.vn, 2017]

Hình 11. Phân bố trị trung bình và phương sai phần dư ei

Có thể sử dụng kiểm định Jarque-Bera để kiểm định phương sai thay đổi. Tuy nhiên, trong thực tế nghiên cứu để đơn giản, nhà nghiên cứu có thể khảo sát hình dáng biểu đồ tương quan phần dư ei để kiểm tra phương sai thay đổi. Mô hình hồi quy Hình 11 (a, b) có phương sai phần dư ei thay đổi theo biến độc lập X, còn Hình 11 (c, d) không thay đổi.

Giảm hoặc loại phương sai thay đổi bằng cách logarit hóa biến độc lập, lấy căn bậc hai cho biến độc lập, hoặc áp dụng một phương pháp hồi quy khác.

 

Kết thúc.


Để có thể thấy rõ cách sử dụng mô hình hồi quy đơn cùng với những đánh giá liên quan, Chương 5 của cuốn sách NGHIÊN CỨU KHOA HỌC TRONG KINH TẾ - XÃ HỘI & Hướng dẫn viết luận văn/luận án 2023 sẽ là phần bạn không thể bỏ qua. Tham khảo nội dung sách sau đây.

MUA SÁCH TẠI ĐÂY


Tin tức liên quan

PHƯƠNG PHÁP LẤY MẪU
PHƯƠNG PHÁP LẤY MẪU

Có hai phương pháp lấy mẫu thường được sử dụng, đó là mẫu phi xác suất và mẫu xác suất, trong đó, mỗi phương pháp thành phần loại có ưu, nhược điểm riêng.

Phương pháp sai lệch bình phương cực tiểu OLS
Phương pháp sai lệch bình phương cực tiểu OLS

Phương pháp sai lệch bình phương cực tiểu OLS được vận dụng để giải quyết bài toán hồi quy với mong muốn cực tiểu sai lệch của phần dư.

QUY TRÌNH THIẾT KẾ BẢNG CÂU HỎI
QUY TRÌNH THIẾT KẾ BẢNG CÂU HỎI

Bảng câu hỏi hay phiếu khảo sát là công cụ để thu thập dữ liệu nhanh chóng với chi phí thấp mà vẫn đảm bảo tính khách quan, bao quát tổng thể dữ liệu. Để có được bảng câu hỏi chính thức, cần xây dựng từ bảng câu hỏi nháp và sơ bộ.


Bình luận
  • Đánh giá của bạn
Đã thêm vào giỏ hàng