وارد کردن داده در استتا

وارد کردن داده در استتا (stata)

دوره آموزشی نرم‌افزار استتا (Stata) در سایت ایران آمار برای آشنایی بنیادی پژوهشگران با تحلیل‌های آماری طراحی شده است. جلسه دوم با عنوان وارد کردن داده در استتا (Stata) است و هدف از این آموزش این است که پژوهشگر بتواند داده‌های خام پژوهش را با فرمت‌های متفاوت به محیط نرم‌افزار منتقل کند و مبنای تحلیل‌های بعدی را فراهم سازد.

برای برقراری ارتباط با گروه داده پردازی ایران آمار از طریق لینک‌های زیر اقدام نمایید.

آموزش وارد کردن داده در استتا

در هر پروژه آماری و اقتصادسنجی، نخستین گام پس از شناخت متغیرها نحوه ورود داده به سیستم تحلیلی است. در این بخش از آموزش، مفهوم وارد کردن داده در استتا از دیدگاه ساختاری بررسی می‌شود تا کاربر بتواند تفاوت میان داده‌های ترتیبی، اسمی و عددی را تشخیص دهد و در هنگام ورود فایل‌های اکسل، متنی یا CSV ساختار آن‌ها را حفظ کند.

نرم‌افزار استتا با فرمان‌های مشخصی همچون import excel یا insheet داده‌ها را از مبادی مختلف فراخوانی می‌کند و آن‌ها را در حافظه کاری می‌نشاند تا تحلیل‌ها بدون خطای تبدیل یا ناسازگاری انجام گیرند.

آموزش استتا

آشنایی با فرمت‌های داده در وارد کردن داده در استتا

در این آموزش کاربران با فرمت‌های قابل شناسایی توسط استتا آشنا می‌شوند. فایل‌های اکسل (.xlsx)، متنی (.txt، .csv) و داده‌های نرم‌افزارهای مشابه مانند SPSS و SAS از طریق دستور import شامل گزینه‌های متنوعی است که پژوهشگر را قادر می‌سازد ساختار مورد نظر خود را دقیق اعمال کند.

آشنایی با فرمت‌ها بسیار با اهمیت است زیرا نحوه نمایش متغیرها در حافظه استتا مستقیماً بر نتیجه تحلیل‌های آماری اثر می‌گذارد.

انواع داده‌ها در وارد کردن داده در استتا

پیش از وارد کردن داده در استتا، باید با انواع داده‌های موجود جهت تحلیل در نرم‌ استا آشنا شوید. 3 نوع داده مهم معمولا برای تحلیل وارد نرم افزار می‌شوند. در گروه ایران آمار، بخش آموزش نرم افزار ایویوز به تفسیر انواع داده های اقتصادسنجی بررسی شده است.

در اقتصادسنجی، داده‌ها بر اساس نحوه‌ی گردآوری و ویژگی‌های زمانی و مقطعی‌شان در سه مدل اصلی مورد استفاده قرار می‌گیرند. این سه مدل داده بنای تحلیل‌های اقتصادی را تشکیل می‌دهند و هر یک، منطق آماری و کاربرد خاص خود را دارند. به صورت خلاصه 3 مدل داده‌ی مقطعی، سری زمانی و داده‌های ترکیبی (پانل دیتا) وجود دارد.

داده‌های مقطعی (Cross-section data) در یک مقطع زمانی خاص گردآوری می‌شود اما میان چند واحد آماری مثل افراد، شرکت‌ها یا کشورها تفاوت دارد. یعنی هر مشاهده نماینده‌ی یک واحد در همان زمان واحد است.

فرض در مدل مقطعی آن است که تمام متغیرهای مشاهده‌شده در یک زمان خاص هستند و بنابراین تغییرات طی زمان، در این نوع داده‌ها لحاظ نمی‌شود. برای مثال اگر در سال ۱۴۰۲ داده‌های ۱۰۰ شرکت بورسی، برای متغیرهایی مانند بازده سهام، ارزش بازار و سود نقدی ثبت گردد، یک داده‌ی مقطعی جمع آوری شده است.

داده‌های سری زمانی (Time-series data) متمرکز بر تغییرات یک مقطع در طول زمان است. این نوع داده برای یک مقطع (یک کشور یا یک شرکت) در دوره‌ی زمانی جمع‌آوری می‌شود. داده‌های نرخ تورم ایران از سال ۱۳۶۰ تا ۱۴۰۲ یک سری زمانی محسوب می‌شود. در مدل اقتصادسنجی سری زمانی، وابستگی موجود در بازه جمع آوری شده باعث ایجاد و شکل‌گیری مفاهیمی چون خودهمبستگی، ایستایی (مانایی)، هم‌جمعی و … می‌شود.

داده‌های پانل یا ترکیبی (Panel data) تلفیقی از دو نوع داده‌های مقطعی و داده‌های سری زمانی بوده و دربرگیرنده‌ی مشاهدات چند واحد در طول چند دوره زمانی است. برای هر واحد (مثلاً  شرکت یا کشور) در چند سال متوالی داده‌ها ثبت می‌گردد. داده‌های پانل یا ترکیبی هم تفاوت‌های مقطعی و هم پویایی‌های زمانی را به‌صورت هم‌زمان در مدل لحاظ می‌کنند.

برتری داده‌های پانل این است که با ترکیب بعد زمانی و بعد مقطعی، قدرت آماری مدل را افزایش داده، مشکلات تورش در تخمین را کاهش می‌دهند و امکان کنترل ناهمگنی‌های واحدی را فراهم می‌کنند.

انواع پسوند برای وارد کردن داده در استتا

برای وارد کردن داده در استتا می‌توان فایل‌ها با پسوندهای

  • فایل‌های اکسل Excel spreadsheet(*.xls; .xlsx)
  • فایل‌های متنی  Text data (delimited, .csv, …)
  • فایل‌های نرم‌افزار SPSS data (*.sav)
  • فرمت دادهٔ نرم‌افزار  SAS data (*.sas7bdat)
  • فایل‌های متنی ثابت Text data in fixed format
  • پایگاه داده اقتصادی بین‌المللی Haver Analytics database
  • اتصال از طریق رابط استاندارد پایگاه داده‌ها ODBC data source
  • فرمت‌های قدیمی داده dBase (*.dbf)

از منوی بالای نرم افزار بخش File  و بخش Import اقدام کرد.

وارد کردن داده در استتا به صورت دستی

در آموزش قبلی گروه داده پردازی ایران آمار، با محیط Data Editor  آشنا شده و پس از آموزش انواع داده در استتا، وارد نرم افزار استتا شده و از نوی بالای نرم افزار بخش Data و سپس کلیک کردن بر Data Editor صفحه جدیدی باز می‌شود که داده ها در این برگه باید وارد شوند.

اگر در محیط اکسل داده‌ها ثبت شده‌اند می‌توان داده‌ها را به طور کامل کپی کرد و در اولین سلول از سطر اول و ستون اول وارد کردن داده در استتا جایگذاری کرد. به این صورت که در فایل اکسل تمام داده ها را با زدن دکمه ترکیبی  Ctrl+C بر روی کیبورد کپی کرده و بر رو ی سلول اول نرم افزار استتا کلیلک کرده و داده ها را با زدن دکمه‌های ترکیبی Ctrl+V جایگذاری کرد.

بعد از زدن دکمه‌‌های ترکیبی Ctrl+V، اخطاری در نرم افزار استتا ظاهر می‌شوددر این مرحله از وارد کردن داده در استتا با متن

The first row on the Clipboard contains values that can be used as valid variable names.
Do you want to treat the first row as variable names or data?

نرم افزار در این متن اخطار می‌دهد که “آیا ردیف اول داده‌های کپی‌شده باید به عنوان نام متغیرها (Variable names) در نظر گرفته شود، یا به عنوان بخشی از خود داده‌ها (Data) وارد گردد.” اگر در فایل اکسل نام متغیرها (نماد) در سطر اول کپی شده اند در این اخطار گزینه‌ی  Variable names را زده تا نام متغیرها هم از اکسل به همراه داده ها وارد نرم افزار استتا گردد.

وارد کردن داده در استتا

تنظیم متغیرها پس از وارد کردن داده در استتا

پس از وارد کردن داده در استتا، مرحله تنظیم و تصحیح نوع متغیرها آغاز می‌شود. مطابق تصویر زیر از محیط Data Editor بعد از وارد کردن متغیرها و کلیلک بر روی متغیر مورد نظر ویژگی های متغیر از بخش Properties نرم‌افزار Stata قابل ویرایش است. نام متغیر در قسمت Name است و برچسب نمایشی آن در بخش Label قابل تعریف است.

وارد کردن داده در استتا STATA

در بخش Type نوع داده را نرم افزار تشخیص می‌دهد. در منوی کشویی Type انواع داده‌های عددی قابل استفاده در Stata نمایش داده می‌شوند:

byte برای مقادیر کوچک و عدد صحیح (از منفی 127 تا 100).

int داده‌های عددی بزرگ‌تر و صحیح

long بازه وسیع‌تری از اعداد صحیح

float مقادیر اعشاری با دقت متوسط

double دقت محاسباتی بالا و زمانی انتخاب می‌شود که متغیر شامل مقادیر اعشاری بسیار دقیق یا مقیاس‌های بزرگ (مثلاً نرخ‌ها یا نسبت‌های مالی) باشد.

در آموزش وارد کردن داده در استتا، نوع متغیرها را با دستورهای destring یا encode قابل تنظیم توسط کاربر است و این دستور داده‌های متنی را به عددی تبدیل کند تا در برآورد مدل‌ها از خطای نوع و ناسازگاری جلوگیری شود. تنظیم برچسب‌های متغیرها نیز با دستور label variable یا label define قابل تنظیم و مقدار دهی هستند.

وارد کردن داده در استتا سری زمانی

در داده‌های سری زمانی بعد از وارد کردن داده در استتا (Stata) باید متغیر زمان را به نرم افزار معرفی کرد. این متغیر می‌تواند تواترهای مختلفی سالانه، ماهانه، روزانه و … داشته باشد.

به طور مثال اگر در فایل داده‌ها نماد متغیر زمان  date باشد، دستور زیر را در بخش command باید نرم افزار استتا وارد کرد:

tsset date

در این دستور، date نام متغیری است که نمایانگر زمان در داده‌های پژوهش است. مثلاً اگر داده سالانه باشد و متغیر زمان نمادش year باشد، کد به صورت زیر است:

tsset year

وارد کردن داده در استتا ترکیبی (پانل دیتا)

در داده‌های پانل بعد از وارد کردن داده در استتا (Stata) باید متغیر زمان و مقاطع (شرکت، کشور، استان و …) را به نرم‌افزار معرفی کرد. متغیر زمان مانند تمام سری‌های زمانی می‌تواند تواترهای مختلفی سالانه، ماهانه، روزانه و … داشته باشد و مقاطع باید متغیر عددی داشته باشند که مثلا برای شرکت ایران خودرو عدد یک و برای شرکت بعدی پژوهش البرز دارو مقدار 2 و … برای تمام دوره‌ی زمانی پژوهش در نظر گرفته شود.

به طور مثال اگر در فایل داده‌ها نماد متغیر زمان  date باشد و اعداد مرتبط با شرکت‌ها با نماد id وارد نرم افزار استتا شده باشند دستور زیر را در بخش command باید نرم افزار استتا وارد کرد:

xtsset id year

در این حالت Stata می‌فهمد که داده‌ها به‌صورت پانل دیتا (Panle data) هستند. اگر فاصله زمانی منظم نباشد، نرم افزار استاتا هشدار یا پیام “repeated time values”  می‌دهد که باید مقادیر زمان با دستورات fillmissing یا tsfill بررسی شوند.

 

جمع‌بندی درباره وارد کردن داده در استتا

فرایند وارد کردن داده در استتا بنای اصلی شروع تحلیل‌های آماری است. این مرحله باید با دقت در ساختار فایل‌ها، تعیین نوع متغیرها و بررسی صحت داده تکمیل شود تا مسیر تحلیل‌های رگرسیونی، پانل و توصیفی را هموار گردد.

تسلط بر فرمان‌های ورود، تنظیم و تبدیل داده موجب می‌شود پژوهشگر در مراحل بعدی دوره با آسودگی مدل‌ها را بر داده‌های تمیز و استاندارد اجرا کند.

انجام پژوهش آماری

جهت سفارش پژوهش آماری از طریق لینک‌های زیر با ما در ارتباط باشید

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *