Đa cộng tuyến là gì? Nguyên nhân, hậu quả và cách phát hiện, khắc phục

Trong bài viết này, Luận Văn 2S sẽ đi sâu vào tìm hiểu vấn đề đa cộng tuyến là gì, làm thế nào để xác định đa cộng tuyến, tại sao đa cộng tuyến chính là một vấn đề và bạn có thể làm gì để khắc phục nó. Cùng bắt đầu nhé!

Đa cộng tuyến là gì ?

Đa cộng tuyến (Multicollinearity) là hiện tượng thường xảy ra khi mối tương quan cao giữa hai hay nhiều biến độc lập trong mô hình hồi quy. Nói cách khác, một biến độc lập có thể sử dụng để dự đoán một biến độc lập khác. Khi biến độc lập A tặng thì biến độc lập B tăng và ngược lại A giảm thì B cũng giảm. Điều này sẽ dẫn đến việc tạo ra các thông tin dư thừa, làm sai lệch kết quả của mô hình hồi quy đa biến. Hiện tượng đa cộng tuyến vi phạm giả định của mô hình hồi quy tuyến tính là các biến độc lập không có mối quan hệ tuyến tính với nhau.

Một số ví dụ về cặp biến độc lập có sự đối sánh tương quan như : Chiều cao và cân nặng của một người, tuổi và giá cả của một chiếc xe, số năm kinh nghiệm tay nghề và thu nhập hàng năm của người lao động …

hien_tuong_da_cong_tuyen_luanvan2s
Khái niệm về đa cộng tuyến

Nguyên nhân xảy ra hiện tượng kỳ lạ đa cộng tuyến ?

  • Đa cộng tuyến xảy ra do dữ liệu: gây ra bởi các thử nghiệm được thiết kế kém, 100% là dữ liệu quan sát hoặc phương pháp thu thập dữ liệu không thể thao tác được. Trong một số trường hợp, các biến có thể có mối tương quan cao (thường là do thu thập dữ liệu từ các nghiên cứu quan sát thuần túy) và không có lỗi về phía nhà nghiên cứu. Vì lý do này, bạn nên tiến hành nghiên cứu thử nghiệm và thiết lập mức độ của các biến độc lập trước.

  • Dữ liệu không đầy đủ.

  • Do cách chọn biến độc lập của nhà nghiên cứu (chọn biến độc lập có độ biến thiên nhỏ, biến độc lập có mối quan hệ nhân quả, các biến độc lập đồng thời phụ thuộc vào một điều kiện khác…).

  • Biến giả có thể được sử dụng không chính xác. Ví dụ, nhà nghiên cứu có thể không loại trừ một danh mục hoặc thêm một biến giả cho mọi danh mục (ví dụ: mùa xuân, mùa hè, mùa thu, mùa đông).

  • Một biến trong mô hình hồi quy thực chất là sự kết hợp của hai biến khác. Ví dụ, biến mang tên “tổng thu nhập đầu tư” nhưng trong đó, tổng thu nhập đầu tư = tổng thu nhập từ cổ phiếu và trái phiếu + thu nhập từ lãi tiết kiệm.

  • Hai biến giống nhau (hoặc gần như giống hệt nhau). Ví dụ: trọng lượng tính bằng pound và trọng lượng tính bằng kilôgam, thu nhập đầu tư và thu nhập tiết kiệm/trái phiếu…

  • Các yếu tố lạm phát kinh tế phương sai .

Hậu quả của hiện tượng kỳ lạ đa cộng tuyến

Mục đích chính của phân tích hồi quy là xác định mối quan hệ tương quan giữa từng biến độc lập và biến phụ thuộc. Giải thích hệ số hồi quy là đại diện cho sự thay đổi trung bình của biến phụ thuộc cho mỗi một đơn vị thay đổi trong một biến độc lập khi bạn giữ tất cả các biến độc lập khác không đổi. Tuy nhiên, khi các biến độc lập có sự tương tương quan, các biến độc lập có xu hướng thay đổi đồng nhất. Sự thay đổi trong một biến sẽ liên kết làm thay đổi một biến khác. Mối tương quan càng mạnh thì càng khó thay đổi một biến mà không thay đổi một biến khác. Mô hình trở nên khó khăn trong việc ước tính mối quan hệ giữa từng biến độc lập và biến phụ thuộc một cách độc lập: Gia tăng sai số chuẩn của các hệ số, khoảng tin cậy lớn và kiểm định t ít ý nghĩa. Các ước lượng trong phân tích hồi quy không thật chính xác.

Tín hiệu phân biệt hiện tượng kỳ lạ đa cộng tuyến

Tín hiệu 1 : Kiểm định đa cộng tuyến trong SPSS dựa vào thông số phóng đại phương sai VIF

Để nhận biết hiện tượng đa cộng tuyến, ta có thể áp dụng một thử nghiệm rất đơn giản đó chính là dựa vào hệ số phóng đại phương sai VIF (Variance inflation factor) để xác định mối tương quan giữa các biến độc lập và sức mạnh của mối tương quan đó.

Giá trị VIF bắt đầu từ 1 và không có giới hạn trên. Giá trị VIF trong khoảng từ 1-2 chỉ ra rằng không có mối tương quan giữa biến độc lập này và bất kỳ biến nào khác. VIF giữa 2 và 5 cho thấy rằng có một mối tương quan vừa phải, nhưng nó không đủ nghiêm trọng để người nghiên cứu phải tìm biện pháp khắc phục. VIF lớn hơn 5 đại diện cho mối tương quan cao, hệ số được ước tính kém và các giá trị p – values là đáng nghi ngờ. VIF > 10 thì chắc chắn có đa cộng tuyến.

Xem thêm: RFQ là gì? Ưu nhược điểm của việc sử dụng yêu cầu báo giá

Hầu hết các phần mềm thống kê có thể hiển thị kết quả kiểm định VIF cho bạn. Đánh giá VIF đặc biệt quan trọng đối với các nghiên cứu quan sát vì những nghiên cứu này dễ bị đa hình. Dưới đây sẽ là các bước thực hiện kiểm định đa cộng tuyến trong SPSS dựa vào hệ số phóng đại phương sai VIF:

Khi thực hiện hồi quy đa biến, ta nhấn chọn nút Statistics > check vào ô Collinearity diagnostics.

da_cong_tuyen_luanvan2s
Kiểm định hệ số phóng đại phương sai VFI trong SPSS

Sau khi thực hiện xong các thao tác phân tích hồi quy trong SPSS, ta sẽ được bảng Coefficients. Tại bảng này, chúng ta chú ý đến các giá trị trong cột VIF. 

kiem_dinh_da_cong_tuyen_trong_spss_luanvan2s
Kết quả bảng Coefficients

Tín hiệu 2 : Kiểm định đa cộng tuyến trong SPSS dựa vào thông số đối sánh tương quan

Trong kết quả phân tích hồi quy, nhìn vào bảng Model Summary, nếu Hệ số tương quan (R2 hay R Square) cao (trên 0.8) và thống kê t trong bảng Coefficients thấp. Tuy nhiên, thông thường phương pháp này ít được sử dụng vì nó mang phán đoán chủ quan hơn là công thức khoa học.

Tín hiệu 3 : Sử dụng Heat Maps ( Bản đồ nhiệt )

Bạn hoàn toàn có thể kiến thiết xây dựng ma trận đối sánh tương quan với nền màu gradient và xem cách tài liệu đối sánh tương quan với nhau. Thang đo này sẽ từ 0-1 và biểu lộ sự đối sánh tương quan hoàn hảo nhất .

Giải pháp khắc phục hiện tượng kỳ lạ đa cộng tuyến

Khi dữ liệu của bạn xảy ra đa cộng tuyến, bạn có thể thử áp dụng một số phương pháp dưới đây. Nhưng hãy lưu ý rằng, mỗi phương pháp đều có một số nhược điểm nhất định. Bạn sẽ cần sử dụng kiến ​​thức và các yếu tố trong mục tiêu của nghiên cứu để phỏng đoán đúng nguyên nhân và chọn giải pháp tốt nhất. Các giải pháp tiềm năng bao gồm:

  • Loại bỏ một số biến độc lập có tương quan cao.

  • Bổ sung dữ liệu hoặc tìm thêm những dữ liệu mới, tăng cỡ mẫu, tìm mẫu dữ liệu khác. Tuy nhiên nếu mẫu lớn hơn mà vẫn còn đa cộng tuyến thì vẫn có giá trị vì mẫu lớn hơn sẽ làm cho phương sai nhỏ hơn và hệ số ước lượng chính xác hơn so với mẫu nhỏ.

  • Thực hiện thiết kế phân tích các biến có tương quan cao.

  • Thay đổi dạng quy mô. Thay đổi dạng quy mô cũng có nghĩa là tái cấu trúc quy mô. Điều này thật sự là điều không mong ước, lúc đó bạn phải biến hóa quy mô nghiên cứu và điều tra .

Trên đây, Luận Văn 2S đã nên ra cho bạn đọc hiểu rõ về khái niệm đa cộng tuyến, nguyên nhân, hậu quả và một số biện pháp phát hiện, khắc phục. Tuy nhiên, không thể phủ nhận rằng, đây là một tình huống này thực sự rất khó để giải quyết. Trong quá trình xử lý, nếu như bạn cần đến sự tư vấn, giúp đỡ hãy liên hệ với dịch vụ phân tích định lượng, hỗ trợ SPSS của chúng tôi nhé!

Source: https://mindovermetal.org
Category: Wiki là gì

Rate this post
Subscribe
Notify of
guest
0 Comments
Inline Feedbacks
View all comments