
احمدرضا آهنگریان
بررسی اثرکاهش دقت ذخیره سازی بردار بازنمای برکیفیت میزان طبقه بندی اسنادمتنی
- دانشجو
- احمدرضا آهنگریان
- استاد راهنما
- محمدرضا اصغری اسکوئی
- استاد مشاور
- محمد بحرانی
- استاد داور
- حسین تیموری فعال
- مقطع تحصیلی
- کارشناسی ارشد
- تاریخ دفاع
- ۳۱ شهریور ۱۴۰۲
- ساعت دفاع
- چکیده
-
این پژوهش تحلیل تاثیر کاهش پهنای بیت و همچنین کاهش بُعد را بر کیفیت طبقهبندی متن را ارائه میکند. کاهش پهنای بیت برای ذخیره سازی بردارهایی که دادهها را نشان میدهند به عنوان مثال نمایش TF-IDF باعث کاهش زمان محاسبات و فضای اشغال شده در حافظه میشود. علاوه بر کاهش پهنای بیت، کاهش بُعد را نیز در این پژوهش بررسی کردیم. روشهای انتخاب شده برای کاهش بُعد بر اساس دو رویکرد کلی صورت گرفته است روشی که بر اساس استخراج ویژگیها عمل میکند و روشی که بر اساس انتخاب ویژگیها عمل میکند و بردارهای ویژگی را میسازد. در رویکرد استخراج ویژگی از روشهایی شامل روش نمایهسازی معنایی پنهان (LSI) که روشی مبتنی بر جبرخطی است، روش Doc۲Vec که بر اساس شبکههای عصبی است، روش شبکههای بازگشتی گیتی (LSTM) که بر اساس شبکهها بازگشتی است و در رویکردی که بر اساس انتخاب ویژگی است، مدل جنگل تصادفی را انتخاب کردهایم. تاثیر کاهش پهنای بیت و همچنین کاهش بُعد بر کیفیت طبقهبندی بر روی ۳ پیکره متنی انگلیسی با نامهای ۲۰ng، R۸ و R۵۲ با استفاده از ۶ طبقهبند k-نزدیکترین همسایه با مقادیر ۱ و ۵ برای k، ماشین بردار پشتیبان، رگرسیون لجستیک، درخت تصمیم و جنگل تصادفی انجام شد. نتایج نشان میدهد که در رویکرد کاهش پهنای بیت از ۶۴ به ۸ و یا حتی ۶ و کاهش بُعد به میزان ۱۲۸ نتایج را دچار اُفت شدیدی نمیکند.
- Abstract
-
This research presents the analysis of the impact of reducing the bit width and also reducing the dimension on the quality of text classification. Reducing the bit width for storing the vectors that represent the data, for example TF-IDF representation, reduces the calculation time and the space occupied in the memory. In addition to the reduction of the bit width, we also investigated the reduction of the dimension in this research. The selected methods for dimensionality reduction are based on two general approaches: the method based on feature extraction and the method based on feature selection and feature vectors. In the feature extraction approach, methods include the Latent Semantic Indexing (LSI) method, which is a method based on linear algebra, the Doc۲Vec method, which is based on neural networks, the recurrent gate network method (LSTM), which is based on recursive networks, and in the approach based on selection feature, we have chosen the random forest model. The effect of bit width reduction and dimension reduction on classification quality on ۳ English text corpus named ۲۰ng, R۸ and R۵۲ using ۶ k-nearest neighbor classifiers with values ۱ and ۵ for k, support vector machine, logistic regression, decision tree and the random forest was done. The results show that in the approach of reducing the bit width from ۶۴ to ۸ or even ۶ and reducing the dimension to ۱۲۸, the results do not suffer a severe decline.