در تحلیل رگرسیون، یکی از اساسیترین مفاهیمی که به موفقیت مدل و اعتبار نتایج کمک میکند، فروض کلاسیک رگرسیون است. این فروض مجموعهای از شرایط هستند که اگر رعایت شوند، مدل رگرسیون به درستی عمل کرده و نتایج حاصل از آن معتبر و قابل اتکا خواهد بود. در صورت نقض این فروض، ممکن است تخمینها نادرست باشند یا تحلیلهای آماری دچار انحراف شوند. در این آموزش از گروه داده پردازی ایران آمار به بررسی مهمترین فروض کلاسیک رگرسیون و نحوه ارزیابی آنها پرداخته شده است.
برای بررسی فروض کلاسیک رگرسیون، ابتدا باید با مفهوم رگرسیون آشنایی داشت. در صفحهی رگرسیون چیست؟ این مفهوم بررسی شده است. برای برقراری ارتباط با گروه داده پردازی ایران آمار از طریق لینکهای زیر اقدام نمایید.
معرفی فروض کلاسیک رگرسیون
فروض کلاسیک رگرسیون به مجموعهای از شرایط اشاره دارد که برای اعتبار و کارایی مدل رگرسیون باید رعایت شوند. این فروض به تحلیلگران کمک میکنند تا مدل رگرسیون به شکلی صحیح عمل کرده و نتایج قابل اتکایی ارائه دهد. در صورتی که هر یک از این فروض نقض شوند، مدل میتواند به طور نامناسبی دادهها را تحلیل کند و نتایج نادرستی به دست آید.
فروض کلاسیک رگرسیون شامل موارد مختلفی از جمله نرمال بودن باقیماندهها، همسانی واریانس خطاها، استقلال خطاها و عدم وجود همخطی چندگانه است. این فروض در تحلیلهای آماری به ویژه برای رگرسیون خطی معمولاً به کار گرفته میشوند تا اطمینان حاصل شود که تخمینهای پارامترهای مدل دقیق و معتبر هستند. رعایت این فروض به محققین و تحلیلگران کمک میکند تا نتایج بهتری از تحلیل دادههای خود کسب کنند.
هر کدام از این فروض کلاسیک رگرسیون به دلایل مختلفی از جمله ساختار دادهها و ماهیت متغیرهای مورد مطالعه ممکن است نقض شوند. در چنین شرایطی، تحلیلگران آماری باید از روشهای جایگزین برای مدلسازی استفاده کنند تا دقت و صحت نتایج تضمین شود. درک دقیق از این فروض و نحوه ارزیابی و اصلاح آنها بخش مهمی از تحلیل رگرسیون موفقیتآمیز است.
اهمیت بررسی فروض کلاسیک رگرسیون
رعایت فروض کلاسیک رگرسیون از اهمیت ویژهای در تحلیلهای آماری برخوردار است، زیرا صحت و دقت نتایج به این فروض وابسته است. در صورتی که این فروض رعایت نشوند، مدل رگرسیون ممکن است به نتایج نادرست و تحلیلهای انحرافی منجر شود. به عنوان مثال، نقض فرض نرمال بودن خطاها میتواند باعث شود که آزمونهای آماری مانند t-test و F-test نتایج غیرقابل اتکایی ارائه دهند. علاوه بر این، نقض فرض همسانی واریانس میتواند دقت تخمینهای پارامترهای مدل را کاهش داده و به ایجاد خطاهای سیستماتیک در پیشبینیها منجر شود.
علاوه بر این، فرض استقلال خطاها و عدم همخطی چندگانه بین متغیرهای مستقل نیز نقش مهمی در کارایی مدل دارند. اگر خطاها مستقل نباشند یا همخطی چندگانه بین متغیرهای مستقل وجود داشته باشد، نتایج مدل ممکن است بیاعتبار شده و تحلیلهای انجامشده از واقعیت فاصله بگیرند. به همین دلیل، رعایت فروض کلاسیک رگرسیون تضمینکننده اعتبار و صحت تحلیلهای آماری است و عدم رعایت آنها میتواند منجر به تصمیمگیریهای نادرست و پیشبینیهای غیرقابل اعتماد شود.
معرفی مدل جهت بررسی فروض کلاسیک رگرسیون
بعد از آشنایی با رگرسیون، مدل مدل رگرسیون خطی چندگانه که به صورت زیر نوشته شده است، یکی از پرکاربردترین مدلهای آماری برای پیشبینی یک متغیر وابسته بر اساس چندین متغیر مستقل است. در ادامه اجزای مختلف این معادله توضیح داده شده است:
Y=α0+ α1X1+ α2X2+ … +ε
متغیر Y متغیری است که قصد بر این است که مقدار آن با استفاده از متغیرهای مستقل پیشبینی شود. این متغیر به نتیجهی پدیدهای که بررسی میشود مربوط است و معمولاً مقداری عددی یا کمی دارد. α₀ نشاندهندهی مقدار ثابت مدل است که به آن عرض از مبدأ نیز میگویند. این مقدار زمانی که همه متغیرهای مستقل (X₁, X₂, …) برابر با صفر باشند، نشان میدهد که مقدار Y چه خواهد بود. به عبارت دیگر، α₀ مقدار پیشبینیشدهی Y را زمانی که تأثیر هیچ یک از متغیرهای مستقل وجود ندارد، نشان میدهد.
α₁، α₂ و .. ضرایب نشاندهنده تأثیر متغیرهای مستقل X₁، X₂ و … بر متغیر وابسته Y هستند. هر کدام از این ضرایب نشان میدهد که با افزایش یک واحد در متغیر مستقل مربوطه، با فرض ثابت ماندن سایر متغیرهای مستقل مقدار Y به چه میزان تغییر خواهد کرد.
X₁، X₂ و سایر متغیرهای مستقل، فاکتورهایی هستند که تصور میشود بر متغیر وابسته Y تأثیر میگذارند. این متغیرها میتوانند عوامل قابل سنجش مختلفی مانند سن، درآمد، دما، نرخ بهره و غیره باشند که اثرات آنها بر Y اندازهگیری میشود. ε یا اصطلاحاً خطا (باقیمانده)، نشاندهنده اختلاف بین مقدار واقعی Y و مقدار پیشبینیشده Y است. این بخش از مدل نشان میدهد که متغیرهای دیگری وجود دارند که ممکن است بر Y تأثیر بگذارند ولی در مدل گنجانده نشدهاند، یا اینکه مدل به دلیل تغییرات تصادفی نمیتواند تمام نوسانات Y را توضیح دهد.
برای اینکه ضرایب متغیرهای توضیحی و باقیماندههای تخمین قابل اتکا و صحیح باشند، فرضهایی باید رعایت شود، تا نتیجه برآورد مشکلی نداشته باشد. در این آموزش مفهوم هر فرض بیان و جامعترین آموزش برای برقراری فروض کلاسیک رگرسیون ارائه شده است.
در آموزش بعدی بررسی فروض کلاسیک در نرم افزار ایویوز بیان شده است.
5 فرض از فروض کلاسیک رگرسیون
- میانگین جملات خطا برابر با صفر است.
- واریانس جملات خطا ثابت است.
- کوواریانس (همبستگی) جملات خطا باهم صفر است.
- کواریانس (همبستگی) جملات خطا با متغیرهای مستقل برابر صفر است.
- توزیع جملات خطا نرمال است.
این فروض کلاسیک رگرسیون در دادهها و مدلهای مختلف باید بررسی گردند.
صفر بودن میانگین خطاها از فروض کلاسیک رگرسیون
بعد از تخمین و بدست آوردن ضرایب معنادار در مدل جملات خطا تشکیل میشوند. این فرض بیان میکند که میانگین جملات باقی مانده مدل باید برابر صفر باشد. معمولا این فرض در بسیاری از مدلها بعد از برآورد صادق است و معمولا در صورتی که در مدل عرض از مبدا وجود (C) نداشته باشد این فرض برقرار نمیشود. عدم وجود عرض از مبدا برای تخمین مدل باعث ایجاد بایاس(بایاس تورش و نارایبی هر اتفاقی که باعث شود مدل خوب برآورد نشود) در ضرایب مدل و ضریب تعیین منفی در مدل میشود. این موضوع باعث نتیجهگیری اشتباه در برآورد و ضرایب تخمینی مدل میشود.
بررسی صفر بودن میانگین خطاها
برای بررسی صفر بودن میانگین خطاها در مدلهای رگرسیونی، معمولاً از روشهای آماری مختلفی استفاده میشود. پس از برازش مدل رگرسیون، باید باقیماندهها (خطاها) محاسبه شوند. باقیماندهها به صورت تفاوت بین مقادیر واقعی و مقادیر پیشبینیشده محاسبه میشوند. سپس میتوان میانگین این باقیماندهها را محاسبه کرد.
فرض نرمال بودن خطاها از فروض کلاسیک رگرسیون
یکی از مهمترین فروض کلاسیک رگرسیون این است که باقیماندهها (یا خطاهای مدل) باید نرمال توزیع شده باشند. این فرض به خصوص در زمانی که قصد دارید آزمونهای آماری نظیر t-test یا F-test انجام دهید، اهمیت زیادی پیدا میکند. نرمال بودن خطاها تضمین میکند که نتایج آزمونهای آماری صحیح هستند و تخمین پارامترها دقیق است.
بررسی فرض نرمال بودن خطاها
بررسی توزیع و چگونگی پخش باقیماندهها میتواند به شناسایی مشکلات نرمال بودن کمک کند. برای بررسی نرمال بودن خطاها، میتوان از نمودارهای احتمال نرمال (Normal Probability Plot) یا آزمونهای آماری مانند آزمون جارکبرا استفاده کرد. اگر این فرض نقض شود، ممکن است به روشهای تغییر متغیر یا استفاده از رگرسیونهای مقاوم نیاز باشد.
فرض همسانی واریانس از فروض کلاسیک رگرسیون
دومین فرض از فروض کلاسیک رگرسیون برابری واریانس خطاهاست. بعد از تخمین مدل و بدست آوردن باقی ماندههای مدل باید واریانس نمونههای مختلف از جملات خطا با هم برابر باشند. برابری واریانس جملات خطا همسانی واریانسها(Homoscedasticity) نامیده میشود و اگر آزمونهای مربوط به بررسی همسانی واریانس رد شوند مدل با مشکل ناهمسانی واریانس جملات اخلال روبرو است.
روبرو شدن با مشکل ناهمسانی واریانس باعث میشود که ضرایب مدل رگرسیونی حداقل واریانس را نداشته باشند. هنگامی که ضرایب مدل حداقل واریانس را نداشته باشند انحراف استاندارد اشتباه و درنتیجه آمارهی تی استیودنت اشتباه محاسبه شود. ناهمسانی واریانس معمولا در داده های مقطعی بیشتر مشاهده میشود.
به عبارت سادهتر، این فرض بیان میکند که واریانس خطاها در طول متغیرهای مستقل یکسان باقی میماند. نقض این فرض به معنای وجود ناهمسانی واریانس (Heteroscedasticity) است که میتواند به نتایج نادرست در تخمینها منجر شود.
بررسی همسانی واریانس
برای بررسی این فرض، معمولاً از آزمونهای آماری مانند آزمون بروش-پاگان (Breusch-Pagan Test) و نمودارهای پراکنش خطاها استفاده میشود. در صورتی که ناهمسانی واریانس وجود داشته باشد، میتوان از تکنیکهایی مانند رگرسیون وزندار یا تبدیل دادهها استفاده کرد.
فرض استقلال خطاها از فروض کلاسیک رگرسیون
این فرض هم مانند دو فرض قبل به باقیماندهها میپردازد. در فروض کلاسیک رگرسیون باقیماندهها نباید با هم همبستگی معناداری داشته باشند. همبستگی در دادههای مقطعی، همبستگی خوشهای و در دادههای سریزمانی همبستگی سریالی نامیده میشوند.
در صورت وجود خودهمبستگی بین جملات خطا ضرایب برآورد شدهی مدل کارا نیستند و واریانس باقیمانده مدل کمتر از مقدار واقعی در جامعه آماری است. این امر سبب ضریب تعیین کاذب بیشتری است. رد شدن این فرض بیشتر در دادههای سری زمانی دیده میشود.
بررسی استقلال خطاها برای شناسایی وابستگی بین خطاها، میتوان از آزمون دوربین-واتسون (Durbin-Watson Test) استفاده کرد. در صورتی که خودهمبستگی در دادهها وجود داشته باشد، استفاده از رگرسیونهای خودهمبسته (Auto-regressive Models) پیشنهاد میشود.
فرض عدم همخطی چندگانه از فروض کلاسیک رگرسیون
در این فرض از فروض کلاسیک رگرسیون به دلیل اینکه دادههای متغیرهای مستقل یا توضیحی از جامعهی بیرونی جمع آوری میشود (برونزا) و باقیماندههای مدل از نتایج تغییرات داخلی دادهها (درونزا) بوجود میآید، این فرض معمولا برقرار است. اگر فرض اول برقرار نباشد احتمال رد این فرض هم وجود دارد. همخطی چندگانه زمانی رخ میدهد که بین دو یا چند متغیر مستقل رابطهای قوی وجود داشته باشد که باعث میشود مدل نتواند به درستی تأثیر هر متغیر را تخمین بزند.
بررسی عدم همخطی چندگانه
برای شناسایی همخطی چندگانه، میتوان از شاخصهایی مانند فاکتور تورم واریانس (VIF) استفاده کرد. در صورت وجود همخطی چندگانه، یکی از راهحلها حذف یا ترکیب متغیرهای همبسته است.
رعایت فروض کلاسیک رگرسیون نقش کلیدی در دقت و اعتبار نتایج مدلهای رگرسیون ایفا میکند. نادیده گرفتن هر یک از این فروض میتواند به تحلیلهای نادرست و تصمیمگیریهای اشتباه منجر شود. به همین دلیل، در هر تحلیل رگرسیون، بررسی و اطمینان از صحت این فروض ضروری است.
در نهایت، اگر هر کدام از فروض کلاسیک نقض شود، باید با استفاده از تکنیکهای آماری مناسب به اصلاح مدل پرداخت تا نتایج بهینه و معتبر به دست آید. رعایت دقیق این فروض تضمینی برای اجرای یک مدل رگرسیون قوی و دقیق است.
با لینک زیر میتوانید به صفحهی آموزش نرم افزار ایویوز EViews ارائه شده به صورت رایگان، جامع و گام به گام توسط گروه داده پردازی ایران آمار بروید.
جهت سفارش پروژه با نرم افزار ایویوز از طریق صفحهی زیر با ما در ارتباط باشید
جهت سفارش پروژه با نرم افزار استتا از طریق صفحهی زیر با ما در ارتباط باشید
جهت سفارش پروژه با نرم افزار R از طریق صفحهی زیر با ما در ارتباط باشید
اشتراک ها: ✔️کاملترین توضیحات مراحل انجام فصل چهار پایان نامه✔️