
شیرین امینی
تشخیص طعنه با استفاده از روش های یادگیری ماشین و یادگیری انتقالی
- دانشجو
- شیرین امینی
- استاد راهنما
- فرزام متین فر
- استاد مشاور
- محمد بحرانی
- استاد داور
- محمدرضا اصغری اسکوئی
- مقطع تحصیلی
- کارشناسی ارشد
- تاریخ دفاع
- ۲۸ شهریور ۱۴۰۲
- ساعت دفاع
- چکیده
-
امروزه با محبوبیت پلتفرمهای رسانههای اجتماعی، مردم هنگام بیان نظرات خود در مورد موضوعات، محصولات و خدمات مختلف از جمله رویدادهای سیاسی، بازیهای ورزشی و فعالیتهای روزمره و پستهای مختلف، از طعنه استفاده میکنند. طعنه نوعی کنایه است و زمانی اتفاق میافتد که بین معنای تحت اللفظی و معنای مورد نظر یک گفته اختلاف وجود داشته باشد. طعنه در متن رسانههای اجتماعی همه جا وجود دارد و میتواند سیستمهایی را که از این دادهها برای تجزیه و تحلیل احساسات و احساسات استفاده میکنند مختل کند. هدف این تحقیق تشخیص طعنه با الگوریتم برت و مقایسه آن با سایر مدلها میباشد. تشخیص طعنه روش پیشنهادی پایان نامه شامل دو مرحله است: در مرحله اول به پیشپردازش متون پرداخته شده است. در مرحله دوم با رویکردهای یادگیری ماشین و یادگیری عمیق به تشخیص طعنه پرداخته شده است. در مدلهای یادگیری ماشین کلاسیک از روش فراوانی اصطلاح-معکوس فراوانی برای بازنمایی متن استفاده شده است. و در مدل برت از تعبیه برت و در سایر مدلها از تعبیه مناسب با هر مدل استفاده شده است. کار پیشنهادی روی سه مجموعه داده که شامل تیترهای خبری و توییتها هستند، ارزیابی شده است. مجموعه داده تیتر جدید شامل تیترهای خبری، مجموعه Isarcasm و مجموعه داده توییتر شامل توییتها هستند. نتایج نشان میدهد که، الگوریتم برت به ترتیب با دقتهای ۹۳% و ۸۶% روی مجموعه تیترهای جدید و Isarcasm و مدل روبرتا با دقت ۹۳% روی مجموعه توییتر بهترین دقت را نسبت به سایر مدلها به دست آوردهاند.
- Abstract
-
Today, with the popularity of social media platforms, people use sarcasm when expressing their opinions on various topics, products, and services, including political events, sports games, and daily activities and posts. Sarcasm is a form of irony and occurs when there is a discrepancy between the literal meaning and the intended meaning of a statement. Sarcasm is ubiquitous in social media context and can disrupt systems that use this data to analyze sentiment and sentiment. The purpose of this research is to detect sarcasm with Burt's algorithm and compare it with other models. Detecting sarcasm, the proposed method of the thesis consists of two stages: in the first stage, pre-processing of the texts is done. In the second stage, sarcasm is detected with machine learning and deep learning approaches. In classical machine learning models, term frequency-inverse frequency (TF_IDF) method is used for text representation. And in the Brett model, the Brett embedding is used, and in other models, the embedding suitable for each model is used. The proposed work is evaluated on three datasets that include news headlines and tweets. The new headline dataset includes news headlines, the Isarcasm dataset, and the Twitter dataset includes tweets. The results show that Burt's algorithm with ۹۳% and ۸۶% accuracies respectively on the set of new headlines and Isarcasm and Roberta's model with ۹۳% accuracy on the Twitter set have obtained the best accuracy compared to other models.