کلیات رگرسیون خطی ساده (فرمولها)

فرمولهای رگرسیون ساده

مدل رگرسیونی

یکی از پرکاربردترین روش های آماری در علوم مختلف، اجرای انواع روش های رگرسیون برای تعیین رابطه ی بین یک متغیر وابسته با یک یا چند متغیر مستقل می باشد . متغیر وابسته ، پاسخ و متغیرهای مستقل ، متغیرهای توضیحی نیز نامیده می شوند.

اجرای یک مدل رگرسیونی با تعریف مدل رگرسیون امکان پذیر است. مدل رگرسیون ساده با متغیر وابسته یY وp-1  متغیر مستقل X1,X2,…,Xp-1 به صورت زیر تعریف می شود ،

به عنوان مثال فرض کنید یک محقق قصد دارد اثر دو متغیر سن و وزن را بر فشارخون اندازه گیری نماید. برای این مطالعه مقادیر سن و وزن برای n=500 نفر اندازه گیری می شود. در این مطالعه سن و وزن متغیرهای مستقل یا پیشگو و متغیر فشارخون متغیر وابسته می باشد.

معادله ی (1) را می توان به فرم ماتریسی زیر نیز تعریف کرد: 

ماتریس X مقادیر مشاهده شده ی p-1  متغیر را برای n نفر نشان می دهد. بردار Y نیز مقادیر مشاهده  شده ی متغیر وابسته برای نمونه ای به حجم n می باشد. در یک مدل رگرسیونی Βj ها پارامترهای مدل بوده و به کمک روش های مختلفی مانند روش حداقل مربعات و روش درستنمایی ماکزیمم برآورد می شوند. εi ها نیز جملات خطا نامیده می شوند و دارای توزیع نرمال با میانگین صفر و واریانس σ2 هستند. 

معادله ی رگرسیون با تعریف ماتریس متغیرهای توضیحی و بردارهای متغیر پاسخ ، پارامترهای مدل و جملات خطا به صورت زیر تعریف می شود :

برآورد ضرایب رگرسیون

به کمک روش حداقل مربعات مقادیر بردار βp*1 با می نیمم کردن معادله 

حاصل می شود. برآورد بردار  βp*1  را با  bp*1 نشان داده و با توجه به فرم ماتریسی تعریف شده در معادله (2) به صورت زیر محاسبه می شود

مقادیر برازش شده و خطاها

با برآورد پارامترهای مدل ، برآورد بردارYبا استفاده از رابطه ی

حاصل می شود. به  Ŷ  مقادیر برازش شده گفته می شود.

تفاوت بین مقادیر واقعی و مقادیر برازش شده مانده های رگرسیون نامیده می شوند؛

مجموع و میانگین مربعات

 برای تهیه ی جدول آنالیز واریانس و بررسی معنی داری مدل برازش داده شده  به معرفی مقادیر مجموع مربعات خطا و میانگین مربعات خطا می پردازیم.

مجموع مربعات کل 

این مقدار مجموع توان دوم تفاضل هریک از اعضای بردار Y از میانگین این بردار حاصل می شود. مجموع مربعات کل با SSTO نمایش داده شده و به صورت زیر تعریف می شود .

SSTO دارای n-1 درجه آزادی است .

J  ماتریسی n*n است که تمام اعضای آن 1 هستند.

مجموع مربعات رگرسیون 

این مقدار میزان  تغییراتی از متغیر پاسخ را که توسط مدل برازش شده تبیین می شود، نشان می دهد. مجموع مربعات رگرسیون دارای p-1 درجه آزادی می باشد:

مجموع مربعات خطا 

میزان تغییراتی از متغیر پاسخ که توسط مدل رگرسیون بیان نمی شود ، در مجموع مربعات خطا قرار می گیرد. این عبارت دارای n-p درجه ی آزادی است. 

ماتریس H به شکل زير تعریف می شود :

با توجه به تعاریف ارائه شده ذکر این نکته لازم به نظر می رسد که مجموع تغییرات متغیر پاسخ به وسیله ی دو جزء مجموع مربعات رگرسیون و مجموع مربعات خطا قابل بیان می باشد.

SSTO = SSR + SSE 

به این ترتیب میانگین مربعات رگرسیون و میانگین مربعات خطا از تقسیم SSR وSSE بر درجه آزادی هریک حاصل می شوند و داریم :    

منبع : کتاب مقدمه ای بر مدل های خطی آماری . نوشته ی مایکل کاتنر (Michael H.Kutner) و جان نتر (John Neter).

3.4/5 - (5 امتیاز)

مشاهده دیدگاه ها (2)

  • با سلام
    ممنون از مطالب خوبی که در سایت قرار دادید
    بنده دانشجوی رشته الکترونیک بوده و در حوزه بررسی کیفیت چای با استفاده از بینی الکترونیکی تحقیق می کنم
    چند نمونه چای تهیه کردم و با استفاده از بینی الکترونیکی سیگنال بوی هر چای رو استخراج نمودم و یک سری ویژگی آماری استخراج و با استفاده از تحلیل های lda و pca تونستم برند این چای ها رو از هم تفکیک کنم اما چالش جدیدم اینه: این چای ها توسط تستر ها ارزیابی شده اند و برای هر کدام نمره ای بین 10 تا 20 در نظر گرفته شده حالا من با استفاده از ویژگی هایی که استخراج کردم (مثلا 4 ویژگی ) می خوام مدل پیش گویی طراحی کنم که نمونه چای جدید رو سطح کیفی نمونه چای جدید رو پیش بینی کنه آیا از روش های رگرسیون می تونم استفاده کنم اگر امکان داره تا جایی که مقدور باشه راهنمایی بفرمایید.

    • سلام. فکر نکنم
      ببینید شما چون آزمایشات از قبل طراحی شده ای دارید، روش رگرسیون احتمالا کارایی زیادی نخواهد داشت.
      شما بر روی آنالیز واریانس و آزمون های مقایسات میانگین بررسی داشته باشید. معمولا در آزمایشات از روش آماری آنالیز وایانس استفاده می شود.

مطالب مرتبط