دوره آموزشی نرمافزار استتا (Stata) در سایت ایران آمار برای آشنایی بنیادی پژوهشگران با تحلیلهای آماری طراحی شده است. جلسه دوم با عنوان وارد کردن داده در استتا (Stata) است و هدف از این آموزش این است که پژوهشگر بتواند دادههای خام پژوهش را با فرمتهای متفاوت به محیط نرمافزار منتقل کند و مبنای تحلیلهای بعدی را فراهم سازد.
آموزش وارد کردن داده در استتا
در هر پروژه آماری و اقتصادسنجی، نخستین گام پس از شناخت متغیرها نحوه ورود داده به سیستم تحلیلی است. در این بخش از آموزش، مفهوم وارد کردن داده در استتا از دیدگاه ساختاری بررسی میشود تا کاربر بتواند تفاوت میان دادههای ترتیبی، اسمی و عددی را تشخیص دهد و در هنگام ورود فایلهای اکسل، متنی یا CSV ساختار آنها را حفظ کند.
نرمافزار استتا با فرمانهای مشخصی همچون import excel یا insheet دادهها را از مبادی مختلف فراخوانی میکند و آنها را در حافظه کاری مینشاند تا تحلیلها بدون خطای تبدیل یا ناسازگاری انجام گیرند.
آشنایی با فرمتهای داده در وارد کردن داده در استتا
در این آموزش کاربران با فرمتهای قابل شناسایی توسط استتا آشنا میشوند. فایلهای اکسل (.xlsx)، متنی (.txt، .csv) و دادههای نرمافزارهای مشابه مانند SPSS و SAS از طریق دستور import شامل گزینههای متنوعی است که پژوهشگر را قادر میسازد ساختار مورد نظر خود را دقیق اعمال کند.
آشنایی با فرمتها بسیار با اهمیت است زیرا نحوه نمایش متغیرها در حافظه استتا مستقیماً بر نتیجه تحلیلهای آماری اثر میگذارد.
انواع دادهها در وارد کردن داده در استتا
پیش از وارد کردن داده در استتا، باید با انواع دادههای موجود جهت تحلیل در نرم استا آشنا شوید. 3 نوع داده مهم معمولا برای تحلیل وارد نرم افزار میشوند. در گروه ایران آمار، بخش آموزش نرم افزار ایویوز به تفسیر انواع داده های اقتصادسنجی بررسی شده است.
در اقتصادسنجی، دادهها بر اساس نحوهی گردآوری و ویژگیهای زمانی و مقطعیشان در سه مدل اصلی مورد استفاده قرار میگیرند. این سه مدل داده بنای تحلیلهای اقتصادی را تشکیل میدهند و هر یک، منطق آماری و کاربرد خاص خود را دارند. به صورت خلاصه 3 مدل دادهی مقطعی، سری زمانی و دادههای ترکیبی (پانل دیتا) وجود دارد.
دادههای مقطعی (Cross-section data) در یک مقطع زمانی خاص گردآوری میشود اما میان چند واحد آماری مثل افراد، شرکتها یا کشورها تفاوت دارد. یعنی هر مشاهده نمایندهی یک واحد در همان زمان واحد است.
فرض در مدل مقطعی آن است که تمام متغیرهای مشاهدهشده در یک زمان خاص هستند و بنابراین تغییرات طی زمان، در این نوع دادهها لحاظ نمیشود. برای مثال اگر در سال ۱۴۰۲ دادههای ۱۰۰ شرکت بورسی، برای متغیرهایی مانند بازده سهام، ارزش بازار و سود نقدی ثبت گردد، یک دادهی مقطعی جمع آوری شده است.
دادههای سری زمانی (Time-series data) متمرکز بر تغییرات یک مقطع در طول زمان است. این نوع داده برای یک مقطع (یک کشور یا یک شرکت) در دورهی زمانی جمعآوری میشود. دادههای نرخ تورم ایران از سال ۱۳۶۰ تا ۱۴۰۲ یک سری زمانی محسوب میشود. در مدل اقتصادسنجی سری زمانی، وابستگی موجود در بازه جمع آوری شده باعث ایجاد و شکلگیری مفاهیمی چون خودهمبستگی، ایستایی (مانایی)، همجمعی و … میشود.
دادههای پانل یا ترکیبی (Panel data) تلفیقی از دو نوع دادههای مقطعی و دادههای سری زمانی بوده و دربرگیرندهی مشاهدات چند واحد در طول چند دوره زمانی است. برای هر واحد (مثلاً شرکت یا کشور) در چند سال متوالی دادهها ثبت میگردد. دادههای پانل یا ترکیبی هم تفاوتهای مقطعی و هم پویاییهای زمانی را بهصورت همزمان در مدل لحاظ میکنند.
برتری دادههای پانل این است که با ترکیب بعد زمانی و بعد مقطعی، قدرت آماری مدل را افزایش داده، مشکلات تورش در تخمین را کاهش میدهند و امکان کنترل ناهمگنیهای واحدی را فراهم میکنند.
انواع پسوند برای وارد کردن داده در استتا
برای وارد کردن داده در استتا میتوان فایلها با پسوندهای
- فایلهای اکسل Excel spreadsheet(*.xls; .xlsx)
- فایلهای متنی Text data (delimited, .csv, …)
- فایلهای نرمافزار SPSS data (*.sav)
- فرمت دادهٔ نرمافزار SAS data (*.sas7bdat)
- فایلهای متنی ثابت Text data in fixed format
- پایگاه داده اقتصادی بینالمللی Haver Analytics database
- اتصال از طریق رابط استاندارد پایگاه دادهها ODBC data source
- فرمتهای قدیمی داده dBase (*.dbf)
از منوی بالای نرم افزار بخش File و بخش Import اقدام کرد.
وارد کردن داده در استتا به صورت دستی
در آموزش قبلی گروه داده پردازی ایران آمار، با محیط Data Editor آشنا شده و پس از آموزش انواع داده در استتا، وارد نرم افزار استتا شده و از نوی بالای نرم افزار بخش Data و سپس کلیک کردن بر Data Editor صفحه جدیدی باز میشود که داده ها در این برگه باید وارد شوند.
اگر در محیط اکسل دادهها ثبت شدهاند میتوان دادهها را به طور کامل کپی کرد و در اولین سلول از سطر اول و ستون اول وارد کردن داده در استتا جایگذاری کرد. به این صورت که در فایل اکسل تمام داده ها را با زدن دکمه ترکیبی Ctrl+C بر روی کیبورد کپی کرده و بر رو ی سلول اول نرم افزار استتا کلیلک کرده و داده ها را با زدن دکمههای ترکیبی Ctrl+V جایگذاری کرد.
بعد از زدن دکمههای ترکیبی Ctrl+V، اخطاری در نرم افزار استتا ظاهر میشوددر این مرحله از وارد کردن داده در استتا با متن
The first row on the Clipboard contains values that can be used as valid variable names.
Do you want to treat the first row as variable names or data?
نرم افزار در این متن اخطار میدهد که “آیا ردیف اول دادههای کپیشده باید به عنوان نام متغیرها (Variable names) در نظر گرفته شود، یا به عنوان بخشی از خود دادهها (Data) وارد گردد.” اگر در فایل اکسل نام متغیرها (نماد) در سطر اول کپی شده اند در این اخطار گزینهی Variable names را زده تا نام متغیرها هم از اکسل به همراه داده ها وارد نرم افزار استتا گردد.

تنظیم متغیرها پس از وارد کردن داده در استتا
پس از وارد کردن داده در استتا، مرحله تنظیم و تصحیح نوع متغیرها آغاز میشود. مطابق تصویر زیر از محیط Data Editor بعد از وارد کردن متغیرها و کلیلک بر روی متغیر مورد نظر ویژگی های متغیر از بخش Properties نرمافزار Stata قابل ویرایش است. نام متغیر در قسمت Name است و برچسب نمایشی آن در بخش Label قابل تعریف است.

در بخش Type نوع داده را نرم افزار تشخیص میدهد. در منوی کشویی Type انواع دادههای عددی قابل استفاده در Stata نمایش داده میشوند:
byte برای مقادیر کوچک و عدد صحیح (از منفی 127 تا 100).
int دادههای عددی بزرگتر و صحیح
long بازه وسیعتری از اعداد صحیح
float مقادیر اعشاری با دقت متوسط
double دقت محاسباتی بالا و زمانی انتخاب میشود که متغیر شامل مقادیر اعشاری بسیار دقیق یا مقیاسهای بزرگ (مثلاً نرخها یا نسبتهای مالی) باشد.
در آموزش وارد کردن داده در استتا، نوع متغیرها را با دستورهای destring یا encode قابل تنظیم توسط کاربر است و این دستور دادههای متنی را به عددی تبدیل کند تا در برآورد مدلها از خطای نوع و ناسازگاری جلوگیری شود. تنظیم برچسبهای متغیرها نیز با دستور label variable یا label define قابل تنظیم و مقدار دهی هستند.
وارد کردن داده در استتا سری زمانی
در دادههای سری زمانی بعد از وارد کردن داده در استتا (Stata) باید متغیر زمان را به نرم افزار معرفی کرد. این متغیر میتواند تواترهای مختلفی سالانه، ماهانه، روزانه و … داشته باشد.
به طور مثال اگر در فایل دادهها نماد متغیر زمان date باشد، دستور زیر را در بخش command باید نرم افزار استتا وارد کرد:
tsset date
در این دستور، date نام متغیری است که نمایانگر زمان در دادههای پژوهش است. مثلاً اگر داده سالانه باشد و متغیر زمان نمادش year باشد، کد به صورت زیر است:
tsset year
وارد کردن داده در استتا ترکیبی (پانل دیتا)
در دادههای پانل بعد از وارد کردن داده در استتا (Stata) باید متغیر زمان و مقاطع (شرکت، کشور، استان و …) را به نرمافزار معرفی کرد. متغیر زمان مانند تمام سریهای زمانی میتواند تواترهای مختلفی سالانه، ماهانه، روزانه و … داشته باشد و مقاطع باید متغیر عددی داشته باشند که مثلا برای شرکت ایران خودرو عدد یک و برای شرکت بعدی پژوهش البرز دارو مقدار 2 و … برای تمام دورهی زمانی پژوهش در نظر گرفته شود.
به طور مثال اگر در فایل دادهها نماد متغیر زمان date باشد و اعداد مرتبط با شرکتها با نماد id وارد نرم افزار استتا شده باشند دستور زیر را در بخش command باید نرم افزار استتا وارد کرد:
xtsset id year
در این حالت Stata میفهمد که دادهها بهصورت پانل دیتا (Panle data) هستند. اگر فاصله زمانی منظم نباشد، نرم افزار استاتا هشدار یا پیام “repeated time values” میدهد که باید مقادیر زمان با دستورات fillmissing یا tsfill بررسی شوند.
جمعبندی درباره وارد کردن داده در استتا
فرایند وارد کردن داده در استتا بنای اصلی شروع تحلیلهای آماری است. این مرحله باید با دقت در ساختار فایلها، تعیین نوع متغیرها و بررسی صحت داده تکمیل شود تا مسیر تحلیلهای رگرسیونی، پانل و توصیفی را هموار گردد.
تسلط بر فرمانهای ورود، تنظیم و تبدیل داده موجب میشود پژوهشگر در مراحل بعدی دوره با آسودگی مدلها را بر دادههای تمیز و استاندارد اجرا کند.
انجام پژوهش آماری
جهت سفارش پژوهش آماری از طریق لینکهای زیر با ما در ارتباط باشید


