مقایسه روش  رده بندی تقویتی کت بوست و بیزی

زهرا احمدیان

عنوان پایان‌نامه

مقایسه روش رده بندی تقویتی کت بوست و بیزی

دانشجو زهرا احمدیان در تاریخ ۱۹ شهریور ۱۴۰۲ ساعت ، به راهنمایی فرزاد اسکندری ، پایان نامه با عنوان "مقایسه روش رده بندی تقویتی کت بوست و بیزی" را دفاع نموده است.

دانشجو: زهرا احمدیان

استاد راهنما: فرزاد اسکندری

استاد مشاور: محمدرضا صالحی راد

استاد داور: وحید رضایی تبار

رشته تحصیلی: علم داده ها

مقطع تحصیلی: کارشناسی ارشد

تاریخ دفاع: ۱۹ شهریور ۱۴۰۲

ساعت دفاع

چکیده

با توجه به آن ‌که رشد تولید داده‌ها در زندگی امروزی بشر بیش از پیش سرعت یافته است لذا، روش‌های متفاوتی نیز در این راستا جهت مطالعه داده‌ها، استخراج بینش و اطلاعات ارزشمند ارائه گردیده است. داده‌ها یکی از بزرگ‌ترین سرمایه‌های هر شرکت، نهاد، پژوهشگرها وغیره محسوب می‌گردند که تجزیه و تحلیل آن‌ها به فرایند تصمیم‌گیری و پیش‌بینی مساعدت می‌کند. یکی از روش‌های بنیادی که برای تحلیل داده‌ها به کار گرفته می‌شود رده‌بندی داد‌ه‌ها است که زیر مجموعه یادگیری با ناظر است. منظور از رده‌بندی این است که داده‌ها زیر نظر افراد خبره برچسب گذاری شده‌اند و سعی بر آن است تا با استفاده از مجموعه آموزشی رابطه بین صفت‌های خاص ورودی با یک یا چند صفت خاص هدف کشف شود و مدلی برای پیش‌بینی برچسب داده‌های جدید ساخته شود که هدف از آن ایجاد یک مدلی جهت مرتب کردن داده‌ها در رده‌های از قبل تعریف شده می‌باشد به طوری که تعداد رده‌ها از قبل مشخص شده‌اند. روش‌ها و الگوریتم‌های متفاوتی در زمینه رده‌بندی کلاسیک از گذشته تاکنون توسط پژوهشگران مختلف به وجود آمده است. \\\\ دراین پایان نامه قصد داریم که روش رده‌بند تقویتی با استفاده از الگوریتم کت‌بوست را علاوه بر مقایسه کردن با روش‌های رده‌بندی کلاسیک مانند ماشین بردار پشتیبان، رگرسیون لوژستیک و $-k$ نزدیک‌‌ترین همسایه با روش‌های بیزی نیز مانند ماشین بردار پشتیبان بیزی، ترکیب $-k$ نزدیکترین همسایه با بیزساده، بیزساده و رگرسیون لوژستیک بیزی نیز مورد مقایسه قرار دهیم.

Abstract

Due to the fact that the growth of data production in today's human life has already accelerated, therefore, different methods have been expressed in this direction in order to study data, extract valuable insights and information. Data is considered one of the biggest assets of any company, institution, researchers, etc., whose analysis helps the process of making important decisions and forecasting. One of the basic methods used for data analysis is data classification, which is a subset of supervised learning. The meaning of classification is that the data is labeled under the eyes of news people, and try to use the set of training relationships between the input special attributes with one or more special attributes to discover and build a model for predicting new labels. It is the purpose of it. A model is created to sort the data into predefined classifications so that the number of classifications is determined in advance. Different methods and algorithms in the field of classical classification have been created by different researchers since the past. In this thesis, we intend to compare the boosting classification method using CatBoost algorithm with classical classification methods such as support vector machine, logistic regression,$k-$ nearest neighbor with Bayesian methods such as Bayesian support vector machine,combinition of $k-$ nearest neighbor with Naive Bayes and Bayesian logistic regression.