
ربابه حسین پورصمیم ممقانی
براوردگر انقباضی به شیوه بیزی در مدلهای خطی تعمیم یافته بالا بعد
- دانشجو
- ربابه حسین پورصمیم ممقانی
- استاد راهنما
- فرزاد اسکندری
- استاد مشاور
- وحید رضایی تبار
- استاد داور
- نادر نعمت الهی, رضا پورطاهری
- رشته تحصیلی
- آمار
- مقطع تحصیلی
- دکتری تخصصی PhD
- تاریخ دفاع
- ۲۹ شهریور ۱۴۰۲
- ساعت دفاع
- چکیده
-
یکی از مسائل اساسی در تجزیه و تحلیل داده های فوق بالابعد، برازش مدل بهینه و براورد پارامترهای نامعلوم آن به گونه ای است که بتواند ساختار داده های مورد بررسی را به درستی تفسیر کند. در آمار کاربردی استفاده از روش های درست نمایی تاوانیده در مدل گزینی بهینه و براورد اثرات متغیرهای مهم در وضعیت های بالا بعد بسیار رایج هستند اما از لحاظ محاسباتی، وقت و هزینه زیادی را در استنباط مدل ها ایجاد می کنند. پژوهش های اخیر نشان می دهد هنگامی که اندازه ی نمونه بزرگ است اغلب شیوه های بیزی، در پیش بینی مدل کاراتر از شیوه های درست نمایی تاوانیده است. در این رساله به منظور کاهش بیش برازشی ناشی از حالت بالابعد، در گزینش متغیر به روش های انقباضی بیزی برای مدل های خطی تعمیم یافته فوق بالابعد، با استفاده از دو ابرپیشین ناموضعی: گشتاور ضربی و گشتاور وارون ضربی، به تعیین مدل بهینه همزمان با براورد پارامترهای مدل و بررسی ویژگی بهینه ی احتمال پسین با فرض ابرپیشین ناموضعی گشتاور وارون ضربی در مدل گزینی می پردازیم. به منظور محاسبه احتمال های پسین، از روش تقریب لاپلاس و جهت مدل گزینی بهینه در فضای متراکم احتمال های پسین، از الگوریتم تکراری جستجوی تصادفی تفنگی ساده شده همراه با غربال گری استفاده شده است. در انتها از طریق مطالعه شبیه سازی و تحلیل داده های واقعی مربوط به بیماری سرطان خون و داده های مربوط به بررسی کارایی موتورهای تولید شده توسط گروه صنعتی برنز تولیدکننده موتورهای خودرو، کارایی روش های انقباضی بیزی پیش نهادی با روش های درست نمایی تاوانیده ی اسکاد و لاسو مورد ارزیابی قرار گرفته است. واژگان کلیدی: پیشین ناموضعی، درست نمایی تاوانیده، غربال گری قطعی اسکاد، غربال گری قطعی لاسو، غربال گری مستقل قطعی، فوق بالابعدی، گزینش متغیر
- Abstract
-
One of the basic problems in Ultrahigh-dimensional data analysis is fitting the optimal model and estimating its unknown parameters in such a way that it can correctly interpret the struc[۱]ture of the investigated data. In applied statistics, the use of penalized likelihood methods in optimal model selection and estimating the effects of important variables in high-dimensional situations are very common, but in terms of computation, they create a lot of time and cost to inferencing models. Recent studies show that when the sample size is large, most of the Bayesian methods are more efficient than the penalized likelihood methods in predicting the model. In this thesis, in order to reduce the overfitting caused by the ultrahigh-dimensional variables, in Bayesian shirinkage variable selection methods for generalized linear models, we use two nonlocal hyper priors: product moment and product inverse moment. We determine the optimal model at the same time as estimating the parameters of the model and studying the optimal properties of the posterior probability with the product inverse moment prior. In order to calculate the posterior probabilities, the Laplace approximation method is used, and for the optimal model selection in the condensed space of posterior probabilities, the simplified shotgun stochastic search algorithm with screening (S۵) for GLMs is applied. Fi[۱]nally, through the simulation study and real data analysis related to leukemia disease and data related to checking the efficiency of engines produced by Bronze Industrial Group, which manufactures car engines, the efficiency of the proposed Bayesian shirinkage methods and the ISIS-LASSO and ISIS-SCAD penalized likelihood methods have been evaluated.
Keywords: ISIS-LASSO, ISIS-SCAD, Nonlocal Prior, Penalized likelihood, Sure Indepen[۱]dence Screening, Ultrahigh Dimensional, Variable