•   پرداخت هزينه تحليل آماري با درگاه بانک ملت
  •   پرداخت هزينه تحليل آماري با درگاه بانک سامان
  • داراي تاييديه صلاحيت از مرکز آمار ايران مي باشيم. کليک نماييد
logo-samandehi

وجود همخطی (هم راستایی) چندگانه و آثار آن در يک مدل رگرسيون


مقدمه:

تفسیر و و استفاده از یک مدل رگرسیون چندگانه اغلب به برآوردهای تک تک ضرایب رگرسیونی بستگی دارد. پاره ای از کاربردهای مدل رگرسیون عبارتند از:
1) شناسایی اثرات نسبی متغیرهای وابسته،
2) پیشگویی و یا برآورد کردن و
3) گزینش مجموعه ی مناسبی از متغیرها برای ساخت مدل.
اگر بین متغیرهای مستقل در رگرسیون چندگانه رابطه خطی وجود داشته باشد، گفته می شود که نامتعامد هستند.
وقتی متغیرهای مستقل متعامد باشند، نتیجه گیری های فوق را به آسانی می توان انجام داد. اما در اکثر موارد متغیرهای مستقل متعامد نیستند. گاهی این امر مشکلاتی را فراهم نمی آورد. اما در برخی موارد متغیرهای مستقل همبستگی دارند و نتیجه گیری برمبنای مدل رگرسیون می تواند گمراه کننده باشد. در مواردی که بین متغیرهای مستقل وابستگی خطی مشاهده می‎شود، گفته می‎شود که هم‎خطی(هم‎راستایی) چندگانه وجود دارد. مثال هایی از هم‎خطی چندگانه عبارتند از:
1. ارتباط بین مصرف سرانه(Y) با درآمد(X1) و آموزش(X2)، درآمد و آموزش معمولا رابطه معنی داری دارند.
2. ارتباط بین مقدار فروش (Y) با در آمد سرانه (X1)، قیمت(X2) و اشتغال (3X) با استفاده از داده هایی که در یک دوره زمانی جمع آوری شده اند.

انواع همخطی :

انواع همخطی را می توان در دو دسته همخطی کامل و همخطی ناقص در نظر گرفت. همخطی کامل زمانی اتفاق می افتد که یک رابطه دقیق بین دو یا چند متغیر مستقل وجود داشته باشد. یعنی

همخطی (هم راستایی) چندگانه در مدل رگرسيون

در این حالت ضرایب مدل رگرسیون قابل برآورد نخواهند بود. زیرا برای برآورد ضرایب رگرسیون باید ماتریس ((XX)) ́ معکوس پذیر باشد. اما در اینجا چون مرتبه ماتریس ضرایب کمتر از p است، ماتریس مورد نظر معکوس پذیر نمی شود. همخطی کامل عملا هیچگاه اتفاق نمی افتد و در بیشتر موارد با همخطی ناقص مواجه می شویم. در این حالت یک رابطه خطی غیردقیق بین دو یا چند متغیر مستقل برقرار است و داریم :

همخطی چندگانه در مدل رگرسيون

وجود متغیر vi نشان دهنده ی غیردقیق بودن این رابطه است. در این حالت هرچند ماتریس ((XX)) ́ وارون پذیر است، اما برآورد ضرایب بیش از حد بزرگ می شود. به عبارت دیگربا بیش برازش ضرایب مواجه می شویم.

روش های تعین وجود همخطی چندگانه:

با توجه به نکات زیرمی توان در مورد وجود همخطی در مدل اظهار نظرکرد.
1. تغییرات زیاد در برآورد ضرایب وقتی که یک متغیر به مدل اضافه شده یا از آن حذف می شود.
2. تغیرات زیاد در ضرایب وقتی که یک یا چند نقطه از داده ها تغییر کنند یا از آن حذف شوند.
وقتی که نمودار پراکنش مانده ها نشان دهنده ی مناسب بودن مدل باشد، موارد زیر نیز نشان دهنده ی همخطی چندگانه خواهند بود.
3. علامتهای جبری ضرایب برآورد شده برخلاف انتظار باشند.
4. خطای معیار ضرایب رگرسیون متغیرها زیاد باشد.
5. بررسی بزرگی ضرایب همبستگی بین متغیرهای مستقل. ضریب همبستگی بزرگ بین یک جفت متغیر مستقل، نشان از رابطه قوی میان آن ها و وجود همخطی دارد.
6. استفاده از عامل تورم واریانس (VIF) : یکی دیگر از روش های تشخیص همخطی استفاده از معیار VIF می باشد. ماتریس C=((XX)) ́^(-1) را در نظر بگیرید. می توان نشان داد که اعضای روی قطر اصلی این ماتریس قطری برابر است با C_jj=1/(1-R_j^2 ) ، که در آن R_j^2 برابر است با ضریب تبیین چندگانه حاصل از رگرسیون X_j (به عوان متغیر وابسته) بر سایر متغیرهای مستقل. اگر همخطی چندگانه وجود داشته باشد، R_j^2 به 1 نزدیک خواهدشد. از آنجایی که واریانس b_j (ضریب رگرسیون متغیر j ام) برابر است با V(b_j )=C_jj σ^2 ، وجود همخطی چندگانه بدین معنا است که واریانس ضرایب رگرسیون نیز بزرگ خواهند شد. چون σ^2 تحت تأثیر همخطی قرار نمی گیرد، بنابراین عامل تورم واریانس به صورت زیر تعریف می شود :
〖VIF〗_j=C_jj=〖(1-R_j^2)〗^(-1) معمولا مقادیر بزرگتر از 10 برای این معیار نشان دهنده ی وجود همخطی است.

تصحیح همخطی چندگانه:

متأسفانه راه حل ساده و روشنی برای برطرف نمودن همخطی چندگانه وجود ندارد. اما پاره ای از توصیه ها عبارتند از:
1) دقت در انتخاب متغیرها. اگر بدانیم که چند متغیر الزاما عامل مشابهی را اندازه گیری می کنند، در آن صورت نباید بیش از یکی از آن ها را مورد استفاده قرار داد مگر آن که دلیل موجهی وجود داشته باشد
2) گاهی تبیل ها یا ترکیب های جدید مفید هستند. برای مثال ممکن است X و X2 ولی (X-X ̅) و 〖(X-X ̅)〗^2 چنین نباشند. 3) در برخی موارد تئوری یا سایر ملاحظات، ممکن است لزوم وارد ساختن متغیرهای همبسته در مدل را ایجاب نماید. در چنین مواردی روشهای برآورد اریب دار ضرایب رگرسیون، نظیر رگرسیون ریج، می تواند قابل قبول باشد.
رگرسیون ریج :
رگرسیون ریج روشی است برای برآورد ضرایب رگرسیون در مورد داده هایی که غیرمتعامد هستند. ضرایب برآورد شده در این روش اریب هستند، ولی در مقایسه با برآوردهای کمترین مربعات به روش معمول، میانگین مربعات خطای کوچکتری دارند. برآوردهای کمترین مربعات ریج پایدار بوده، تحت تأثیر تغییرات جزئی در داده ها واقع نمی شوند. از آنجا که میانگین مربعات خطا در روش ریج کوچکتر است، مقادیر برآورد شده با این روش در مقایسه با روش معمول به مقادیر واقعی ضرایب رگرسیون نزدیک تر هستند. میزان برتری این روش در مقایسه با روش معمول در برآورد ضرایب، به مقادیر حقیقی این ضرایب در مدل بستگی دارد. چون مقادیر حقیقی مجهول هستند، استفاده از این روش در مواقعی که همخطی چندگانه وجود دارد، می تواند مفید باشد.

منبع : مقدمه ای بر تحلیل رگرسیون کاربردی/ نوشته : دکتر عبدالمجید رضایی و مهندس افشین سلطانی/ انتشارات دانشگاه صنعتی اصفهان.

براي مشاهده ساير مقاله هاي تحليل آماري اين وب سايت بر لينک زير کليک نماييد: صفحه مقاله هاي تحليل آماري


برای سفارش انجام تحلیل مدل رگرسیوني با spss و یا سایر نرم افزارهای آماری, می توانید با ما تماس بگیرید.



ساير منابع مرتبط با نکات تحليلي آماري :

در خصوص موضوعات مختلف تحليل آماري مي توانيد از مطالب وب سايت ديگر اين گروه نيز استفاده نماييد: مقاله و موضوعات تحليل آماري