بررسی اثرکاهش دقت ذخیره سازی بردار بازنمای برکیفیت میزان طبقه بندی اسنادمتنی

احمدرضا آهنگریان

عنوان پایان‌نامه

بررسی اثرکاهش دقت ذخیره سازی بردار بازنمای برکیفیت میزان طبقه بندی اسنادمتنی

دانشجو احمدرضا آهنگریان در تاریخ ۳۱ شهریور ۱۴۰۲ ساعت ، به راهنمایی محمدرضا اصغری اسکوئی ، پایان نامه با عنوان "بررسی اثرکاهش دقت ذخیره سازی بردار بازنمای برکیفیت میزان طبقه بندی اسنادمتنی" را دفاع نموده است.

دانشجو: احمدرضا آهنگریان

استاد راهنما: محمدرضا اصغری اسکوئی

استاد مشاور: محمد بحرانی

استاد داور: حسین تیموری فعال

رشته تحصیلی

مقطع تحصیلی: کارشناسی ارشد

تاریخ دفاع: ۳۱ شهریور ۱۴۰۲

ساعت دفاع

چکیده

این پژوهش تحلیل تاثیر کاهش پهنای بیت و همچنین کاهش بُعد را بر کیفیت طبقه‌بندی متن را ارائه می‌کند. کاهش پهنای بیت برای ذخیره سازی بردار‌هایی که داده‌ها را نشان می‌دهند به عنوان مثال نمایش TF-IDF باعث کاهش زمان محاسبات و فضای اشغال شده در حافظه می‌شود. علاوه بر کاهش پهنای بیت، کاهش بُعد را نیز در این پژوهش بررسی کردیم. روش‌های انتخاب شده برای کاهش بُعد بر اساس دو رویکرد کلی صورت گرفته است روشی که بر اساس استخراج ویژگی‌ها عمل می‌کند و روشی که بر اساس انتخاب ویژگی‌ها عمل می‌کند و بردار‌های ویژگی را می‌سازد. در رویکرد استخراج ویژگی از روش‌هایی شامل روش نمایه‌سازی معنایی پنهان (LSI) که روشی مبتنی بر جبرخطی است، روش Doc۲Vec که بر اساس شبکه‌های عصبی است، روش شبکه‌های بازگشتی گیتی (LSTM) که بر اساس شبکه‌ها بازگشتی است و در رویکردی که بر اساس انتخاب ویژگی‌ است، مدل جنگل تصادفی را انتخاب کرده‌ایم. تاثیر کاهش پهنای بیت و همچنین کاهش بُعد بر کیفیت طبقه‌بندی بر روی ۳ پیکره متنی انگلیسی با نام‌های ۲۰ng، R۸ و R۵۲ با استفاده از ۶ طبقه‌بند k-نزدیک‌ترین همسایه با مقادیر ۱ و ۵ برای k، ماشین بردار پشتیبان، رگرسیون لجستیک، درخت تصمیم و جنگل تصادفی انجام شد. نتایج نشان می‌دهد که در رویکرد کاهش پهنای بیت از ۶۴ به ۸ و یا حتی ۶ و کاهش بُعد به میزان ۱۲۸ نتایج را دچار اُفت شدیدی نمی‌کند.

Abstract

This research presents the analysis of the impact of reducing the bit width and also reducing the dimension on the quality of text classification. Reducing the bit width for storing the vectors that represent the data, for example TF-IDF representation, reduces the calculation time and the space occupied in the memory. In addition to the reduction of the bit width, we also investigated the reduction of the dimension in this research. The selected methods for dimensionality reduction are based on two general approaches: the method based on feature extraction and the method based on feature selection and feature vectors. In the feature extraction approach, methods include the Latent Semantic Indexing (LSI) method, which is a method based on linear algebra, the Doc۲Vec method, which is based on neural networks, the recurrent gate network method (LSTM), which is based on recursive networks, and in the approach based on selection feature, we have chosen the random forest model. The effect of bit width reduction and dimension reduction on classification quality on ۳ English text corpus named ۲۰ng, R۸ and R۵۲ using ۶ k-nearest neighbor classifiers with values ۱ and ۵ for k, support vector machine, logistic regression, decision tree and the random forest was done. The results show that in the approach of reducing the bit width from ۶۴ to ۸ or even ۶ and reducing the dimension to ۱۲۸, the results do not suffer a severe decline.