
شیرین دهقانی محمدابادی
توسعه ومقایسه مدل های مختلف یادگیری ماشین برای مسئله تشخیص موضوع درمحتوای تولیدشده توسط کاربران فارسی زبان تویتر
- دانشجو
- شیرین دهقانی محمدابادی
- استاد راهنما
- محمدرضا اصغری اسکوئی
- استاد مشاور
- محمد بحرانی
- استاد داور
- فرزام متین فر
- مقطع تحصیلی
- کارشناسی ارشد
- تاریخ دفاع
- ۱۵ بهمن ۱۴۰۲
- ساعت دفاع
- چکیده
-
با گسترش شبکههای اجتماعی نظیر فیسبوک، اینستاگرام و توییتر روزانه حجم عظیمی از اطلاعات تولید و تکثیر شده که میتوانند حاوی محتواهای مشکوک و نادرست باشند. این محتواها با اهدافی نظیر جلب مخاطب، تأثیر گذاری بر عقاید و تصمیمات افراد، افزایش درآمد حاصل از کلیک و تأثیرگذاری بر رویدادهای مهم مانند انتخابات سیاسی تولید میشوند. شناسایی این اخبار به روش ستنی و دستی معمولاً کاری بسیار زمانبر، پرهزینه و طاقت فرسا است و در نتیجه ضرورت وجود کشف اخبار جعلی به یک ضرورت اساسی بدل شده تا مردم از سردرگمیهای ایجاد شده توسط این محتواهای مشکوک و نادرست رها شوند. شناسایی مقالات خبری جعلی با درک آنچه سایر پایگاههای خبری در مورد همان موضوع گزارش میدهند، میتواند اولین قدم ارزشمند باشد. این مرحله به عنوان تشخیص موضع شناخته میشود.
در این پژوهش در ابتدا با توجه به ادبیات موضوع، موضوعات مهمی که در ایران و در بازه زمانی ?? آبان ???? الی ?? بهمن ???? در شبکه اجتماعی توییتر بسیار مورد بحث بوده شناسایی شده، و سپس برای هر موضوع یک مجموعه داده برچسب خورده ارائه میشود و در گام بعدی با استفاده از ترکیب یادگیری ماشین و تبدیل XLM-t که یک مدل زبانی مبتنی بر برت است و از آن به عنوان بردار جانشانی کلمات استفاده میشود، مسئله تشخیص موضع در توییتر فارسی حل شده است و نتایج حاصل از آن با مدل fasttext مقایسه شده و بهبود آن شرح داده شده است. همچنین با توجه به آنکه یکی از چالشهای اصلی این حوزه، عدم وجود دادگان با کیفیت فارسی میباشد، از تکنیکهای افزونه سازی داده جهت بهبود نتایج استفاده شده است. پس از پیاده سازی و مقایسه نتایج در هر موضوع، تعبیهسازهای مبتنی بر XLM-t عملکرد بهتری داشتند. نتایج بهترین امتیازهای f۱ به ترتیب برای موضوعات انتصابات دولت و شهرداری ???.?، برجام ???.?، طرح صیانت ???.?، واکسن کرونا ???.?، بورس ???.?، سربازی ???.? و حجاب اجباری ???.? میباشد.
- Abstract
-
With the proliferation of social networks such as Facebook, Instagram, and Twitter, a vast amount of information is generated and disseminated daily, which may contain suspicious and false content. This content is created for purposes such as attracting audiences, influencing people's beliefs and decisions, increasing revenue through clicks, and influencing significant events, such as political elections. Identifying this fake news through manual and heuristic methods is often time-consuming, costly, and exhausting. Consequently, the necessity of detecting fake news has become a fundamental requirement to help people navigate the confusion caused by this dubious and false content. Identifying fake news articles by understanding what other news sources report on the same subject can be the first valuable step, known as stance detection. In this research, initially, significant topics discussed on Twitter in Iran during the period from November ۱۵, ۲۰۲۲, to February ۱۳, ۲۰۲۳, have been identified, considering the literature of the subject. Subsequently, for each topic, a labeled dataset is presented. In the next step, utilizing a combination of machine learning and the XLM-t transformer, which is a BERT-based language model used as the embedding vector for words, the Stance Detection problem in Persian tweets has been addressed. The results are compared with the fasttext model, and the improvements are explained. Given that one of the main challenges in this domain is the lack of high-quality Persian datasets, data augmentation techniques have been employed to enhance the results. After implementing and comparing the results for each topic, XLM-t-based architectures demonstrated better performance. The best F۱ scores are ۷۸.۱% for government appointments, ۷۱.۷% for the Barjam (JCPOA), ۷۶.۱% for the Preservation Plan, ۸۸.۱% for the Coronavirus vaccine, ۷۳.۶% for the stock market, ۷۱.۴% for military service, and ۸۲.۲% for compulsory hijab.