R² và R² hiệu chỉnh (Adjusted R²) đều là những chỉ số quan trọng để đánh giá chất lượng của mô hình hồi quy. Thế nhưng, có một sự thật thú vị là R² hiệu chỉnh hầu như luôn thấp hơn R². Vậy đã bao giờ bạn thắc mắc rằng vì sao R² hiệu chỉnh thường thấp hơn R² chưa? Trong bài viết này, Marketing Du Ký sẽ giúp bạn tìm ra câu trả lời nhé.
1. R² và R² hiệu chỉnh là gì?
R² (Hệ số xác định): Cho biết mô hình hồi quy của bạn giải thích được bao nhiêu phần trăm sự biến thiên của biến phụ thuộc. Giá trị R² nằm trong khoảng từ 0 đến 1, càng gần 1, mô hình càng “khớp” với dữ liệu.
Ví dụ: Nếu R² = 0.7, nghĩa là 70% sự thay đổi của biến phụ thuộc được giải thích bởi các biến độc lập.
R² hiệu chỉnh: Cũng giống R² nhưng được “điều chỉnh” để tính đến số lượng biến độc lập trong mô hình và kích thước mẫu. Điều này giúp R² hiệu chỉnh phản ánh chính xác hơn mức độ phù hợp của mô hình, đặc biệt khi bạn thêm nhiều biến độc lập vào.
Vậy vì sao R² hiệu chỉnh lại thường thấp hơn R²? Để trả lời cho câu hỏi này, mời bạn hãy cùng với Marketing Du Ký tìm hiểu thêm nhé.
2. Vì sao R² hiệu chỉnh thường thấp hơn R²?
2.1. R² luôn tăng khi thêm biến
Một đặc điểm thú vị của R² là chỉ số này luôn tăng khi bạn thêm biến độc lập vào mô hình, dù biến đó có thật sự quan trọng hay không. Tại sao vậy? Vì R² đo lường mức độ “khớp” của mô hình với dữ liệu hiện tại, và việc thêm biến sẽ giúp mô hình giải thích thêm một chút phương sai, dù chỉ là ngẫu nhiên.
Ví dụ: Giả sử bạn dự đoán điểm thi của học sinh dựa trên thời gian học. Mô hình ban đầu có R² = 0.6. Sau đó, bạn thêm biến “màu sắc áo yêu thích” (một yếu tố không liên quan) và R² tăng lên 0.62. Dù sự gia tăng này rất nhỏ, tuy nhiên nó vẫn xảy ra vì mô hình đã cố gắng “nhồi nhét” thêm dữ liệu.
2.2. R² hiệu chỉnh “phạt” khi thêm biến "tào lao"
Không giống với R², R² hiệu chỉnh được thiết kế để khắc phục nhược điểm này. Nó sẽ “trừng phạt” mô hình nếu bạn thêm những biến không mang lại giá trị thật sự bằng cách điều chỉnh dựa trên số lượng biến độc lập và kích thước mẫu. Công thức của R² hiệu chỉnh có thêm yếu tố “độ tự do” (degrees of freedom), khiến nó nhạy hơn với việc thêm các biến thừa.
Ví dụ: Bạn xây dựng mô hình dự đoán doanh số bán hàng dựa trên chi phí quảng cáo (R² = 0.75, R² hiệu chỉnh = 0.73). Sau đó, bạn thêm biến “nhiệt độ ngoài trời” (một yếu tố không liên quan lắm) và R² tăng lên 0.76, nhưng R² hiệu chỉnh giảm xuống 0.72. Điều này cho thấy biến mới không thực sự giúp mô hình tốt hơn mà còn làm giảm khả năng áp dụng thực tế.
Tóm lại, khi bạn thêm một biến không cải thiện đáng kể khả năng giải thích của mô hình, R² hiệu chỉnh sẽ giảm hoặc giữ nguyên, thay vì tăng như R². Vì thế, R² hiệu chỉnh thường thấp hơn R².
3. Vậy khi nào R² hiệu chỉnh không thấp hơn R²?
Dù rất hiếm khi xảy ra, tuy nhiên cũng có trường hợp R² hiệu chỉnh không thấp hơn R², hoặc thậm chí bằng nhau. Điều này xảy ra khi:
Mô hình chỉ có 1 biến độc lập: Khi k = 1, công thức của R² hiệu chỉnh gần giống R², nên sự khác biệt là rất nhỏ.
Tất cả các biến đều có ý nghĩa thống kê cao: Nếu mỗi biến bạn thêm vào đều đóng góp đáng kể vào việc giải thích phương sai, R² hiệu chỉnh có thể tăng cùng với R².
Tuy nhiên trên thực tế, các mô hình thường có nhiều biến, và không phải biến nào cũng “hoàn hảo” như nhau, do đó R² hiệu chỉnh hầu như luôn thấp hơn R².
Tóm lại, R² hiệu chỉnh thường thấp hơn R² vì chỉ số này “thành thật” hơn. Trong khi R² có thể tăng một cách “hào nhoáng” khi bạn thêm biến thì R² hiệu chỉnh sẽ giữ bạn tỉnh táo bằng cách giảm xuống nếu biến đó không mang lại giá trị thực sự. Hy vọng bạn đã tìm ra lời giải đáp thông qua bài viết này của Marketing Du Ký.