بررسی فرض هاي زيربنايي هر رگرسيون، مناسب بودن الگو

پیش فرض های رگرسیون

مقدمه

آنچه که در ابتدا برای انجام هر رگرسیون بایستی در نظر گرفته شود فرض های زیربنایی است که تحلیل ها براساس آن ها انجام می پذیرد. اين نکته اي بسيار مهم است که متاسفانه اکثرا در تحليلها مورد غفلت قرار مي گيرد و نتايج آنرا دچار خدشه مي سازد. فرض های زیربنایی برای یک الگوی رگرسیون به صورت زیر است :

  • 1)     جمله ی خطا ε دارای میانگین صفر است .
  • 2)     جمله ی خطا ε دارای واریانس ثابت است .
  • 3)     جمله ی خطا ε ناهمبسته اند .
  • 4)     جمله ی خطا ε دارای توزیع نرمال است .

اگر الگوی برازش داده شده مناسب باشد باید مانده ها ، فرض های بیان شده ی فوق را تایید کنند .

مانده ها که به آن پسماندها یا جملات خطا نیز می گویند، عبارت است از اختلاف بین مقدار مشاهده شده و مقدار برازش شده بوسیله ی الگو، یعنی 

 به عبارت دیگر مانده، اندازه ای از تغییر پذیری متغیر پاسخ است که بوسیله ی الگوی رگرسیون بیان نمی شود.

مانده ها را می توان نماینده ی خطاهای الگو در نظر گرفت و از این روی هر انحراف از فرض های چهارگانه ی رگرسیون در مورد خطاها باید در مانده ها دیده شود .

یک راه مناسب برای این که ببینیم الگوی رگرسیون تا چه اندازه برای برازش به داده ها خوب است ، رسم نمودار مانده ها می باشد .

نمودار مانده ها در مقابل مقادیر  برازش شده

رسم نمودار مانده ها (جملات خطا) ei در مقابل مقادیر برازش شده ی متناظر یعنی  Ŷi ها در پی بردن به انواع متداول مناسب نبودن الگو مفید است.

اگر مدل برازش شده مناسب باشد این نمودار بایستی نسبت به نقطه ی  ei = 0 متقارن بوده و نقاط حول این نقطه به طور یکنواخت پراکنده شده باشند . این وضعیت ثابت بودن واریانس خطاها را نشان می دهد .این نمودار به طور معمول در سه شکل زیر دیده می شود :

نمودار (الف) وضعیت مطلوبی است که در آن واریانس خطاها ثابت است . در نمودار (ب) نقاط به صورت قیفی شکل پراکنده شده اند و ثابت نبودن واریانس خطاها را نتیجه می دهد . در این حالت انجام آزمون ها و تشکیل فواصل اطمینان مقدور نبوده و همچنین برآورد پارامترها به روش کمترین مربعات امکان پذیر نیست و بایستی ضرایب را با کمک روش دیگری برآورد کرد . در چنین وضعیتی اگر متوجه ثابت نبودن واریانس جمله ی خطا نشویم و یا به آن اعتنا نکنیم ، با دو مشکل زیر مواجه می شویم :

  • الف) فرمول های رگرسیونی معمول واریانس های مربوط به پارامترها را کمتر از آنچه که واقعا هست نشان می دهند .
  • ب) فواصل اطمینانی که محاسبه می کنیم دارای ضرایب اطمینان کمتری از آنچه تصور می کردیم خواهد بود .

برای ثابت شدن واریانس ها بنا به نظر تحلیلگر آمار از تبدیلات تثبیت کننده ی واریانس و یا روش کمترین توان دوم وزنی می توان استفاده نمود .

آخرین حالت یعنی نمودار غیر خطی (ج) نشان می دهد که باید تبدیلی مانند تبدیلات لگاریتم یا توان دوم و… روی متغیر پیشگو صورت گیرد و یا متغیری به الگو اضافه شود .

نمودار مانده ها در برابر مقادیر متغیر های پیشگو

رسم مانده ها در مقابل متغیر پیشگو نیز می تواند مفید باشد. در این نمودار یک طرح قیفی شکل عدم ثبات واریانس ها را نشان می دهد. در صورتی که نقاط به صورت یکنواخت پراکنده شده باشند، می توان ثابت بودن واریانس ها را نتیجه گرفت .

نمودار مانده ها در برابر ترتیب زمان

در صورتی که دنباله ی زمانی که در آن داده ها جمع آوری شده اند معلوم باشد، رسم نمودار مانده ها در برابر ترتیب زمان می تواند مفید باشد . اگر این نمودار طرح خاصی نداشته باشد مبین فرض وجود استقلال است.

در صورتی که مانده ها در برابر زمان سیر افزایشی داشته باشند، نشان دهنده ی آن است که واریانس ها ثابت نبوده و به مرور زمان افزایش می یابد. مانند شکل (ب) . 

وجود یک روند غیرخطی در نمودار مانده ها بیانگر آن است که الگوی برازش داده شده نمی تواند مناسب باشد در این صورت دو امکان وجود دارد :

  • 1)     نیاز به یک یا چند جمله ی اضافی در الگو احساس می شود .
  • 2)     الگو نیاز به یک تبدیل مناسب مانند تبدیل لگاریم یا توان دوم و…روی متغیر(های) پیشگو دارد .

نمودار احتمال نرمال

از آنجایی که در محاسبه ی آماره های t وF برای آزمون های رگرسیون و همچنین در محاسبه ی فواصل اطمینان، از فرض نرمال بودن خطاها استفاده می کنیم، لذا انحراف های بزرگ از توزیع نرمال می تواند روی صحت و اعتبار نتایج بدست آمده تاثیر زیادی بگذارد. علاوه بر این در صورتی که خطاها از توزیع های با دنباله های باریک تر یا پهن تر از توزیع نرمال پیروی کنند ، ممکن است برازش کمترین توان های دوم نسبت به تغییر کوچکی در داده ها حساس باشد .

یک روش ساده برای بررسی فرض نرمال بودن رسم نمودار احتمال نرمال مانده ها است. اگر 

 را به صورت صعودی مرتب کرده و 

 ها را در مقابل احتمال تجمعی 

رسم کنیم ، نقاط باید روی یک خط راست قرار گیرند. 

این نمودار به نمودار Q-Q پلات معروف است که توسط نرم افزار SPSS نیز ترسیم می گردد.

وجود یک یا چند مانده ی بزرگ در این نمودار می تواند نشانه ای از وجود نقاط دور افتاده باشد که بایستی در مورد این نقاط تفحص بیشتری انجام شود .

منبع : تحلیل رگرسیون خطی ابزاری برای تحقیق، نوشته ی دکترحسینعلی نیرومند . انتشارات دانشگاه فردوسی مشهد.

برای کسب اطلاعات کامل در خصوص اینکه “نرمال بودن” به چه معنایی است و چطور می توان با انواع نرم افزارهای آماری از جمله با SPSS، نرمال بودن یا نرمال نبودن باقیمانده ها و داده ها را آزمون کرد، این بسته آموزش ویدئویی را دریافت نمایید:

11 روش برای بررسی نرمال بودن داده ها + مفهوم نرمالیتی {به صورت ویدئویی}

3.7/5 - (3 امتیاز)

مشاهده دیدگاه ها (2)

  • سلام ، خدا قوت جناب فرشچی
    یه سوال :
    آیا تعداد مدل های رگرسیون ارائه شده و تعداد فرضیات در پایان نامه باید برابر باشند ؤ لطفا توضیح بفرمایید . ممنون

    • سلام. نه لزوما. یک مدل رگرسیون می تواند چندین فرضیه را اثبات یا رد کند.

مطالب مرتبط