توسعه ومقایسه مدل های مختلف یادگیری ماشین  برای مسئله تشخیص موضوع  درمحتوای تولیدشده توسط کاربران فارسی زبان تویتر

شیرین دهقانی محمدابادی

عنوان پایان‌نامه

توسعه ومقایسه مدل های مختلف یادگیری ماشین برای مسئله تشخیص موضوع درمحتوای تولیدشده توسط کاربران فارسی زبان تویتر

دانشجو شیرین دهقانی محمدابادی در تاریخ ۱۵ بهمن ۱۴۰۲ ساعت ، به راهنمایی محمدرضا اصغری اسکوئی ، پایان نامه با عنوان "توسعه ومقایسه مدل های مختلف یادگیری ماشین برای مسئله تشخیص موضوع درمحتوای تولیدشده توسط کاربران فارسی زبان تویتر" را دفاع نموده است.

دانشجو: شیرین دهقانی محمدابادی

استاد راهنما: محمدرضا اصغری اسکوئی

استاد مشاور: محمد بحرانی

استاد داور: فرزام متین فر

رشته تحصیلی

مقطع تحصیلی: کارشناسی ارشد

تاریخ دفاع: ۱۵ بهمن ۱۴۰۲

ساعت دفاع

چکیده

با گسترش شبکه‌های اجتماعی نظیر فیس‌بوک، اینستاگرام و توییتر روزانه حجم عظیمی از اطلاعات تولید و تکثیر شده که می‌توانند حاوی محتواهای مشکوک و نادرست باشند. این محتواها با اهدافی نظیر جلب مخاطب، تأثیر گذاری بر عقاید و تصمیمات افراد، افزایش درآمد حاصل از کلیک و تأثیرگذاری بر رویدادهای مهم مانند انتخابات سیاسی تولید می‌شوند. شناسایی این اخبار به روش ستنی و دستی معمولاً کاری بسیار زمان‌بر، پرهزینه و طاقت فرسا است و در نتیجه ضرورت وجود کشف اخبار جعلی به یک ضرورت اساسی بدل شده تا مردم از سردرگمی‌های ایجاد شده توسط این محتواهای مشکوک و نادرست رها شوند. شناسایی مقالات خبری جعلی با درک آنچه سایر پایگاه‌های خبری در مورد همان موضوع گزارش می‌دهند، می‌تواند اولین قدم ارزشمند باشد. این مرحله به عنوان تشخیص موضع شناخته می‌شود.

در این پژوهش در ابتدا با توجه به ادبیات موضوع، موضوعات مهمی که در ایران و در بازه زمانی ?? آبان ???? الی ?? بهمن ???? در شبکه اجتماعی توییتر بسیار مورد بحث بوده شناسایی شده، و سپس برای هر موضوع یک مجموعه داده برچسب خورده ارائه می‌شود و در گام بعدی با استفاده از ترکیب یادگیری ماشین و تبدیل XLM-t که یک مدل زبانی مبتنی بر برت است و از آن به عنوان بردار جانشانی کلمات استفاده می‌شود،‌ مسئله تشخیص موضع در توییتر فارسی حل شده است و نتایج حاصل از آن با مدل fasttext مقایسه شده و بهبود آن شرح داده شده است. همچنین با توجه به آن‌که یکی از چالش‌های اصلی این حوزه، عدم وجود دادگان با کیفیت فارسی می‌باشد، از تکنیک‌های افزونه سازی داده جهت بهبود نتایج استفاده شده است. پس از پیاده سازی و مقایسه نتایج در هر موضوع، تعبیه‌سازهای مبتنی بر XLM-t عملکرد بهتری داشتند. نتایج بهترین امتیازهای f۱ به ترتیب برای موضوعات انتصابات دولت و شهرداری ???.?، برجام ???.?، طرح صیانت ???.?، واکسن کرونا ???.?، بورس ???.?، سربازی ???.? و حجاب اجباری ???.? می‌باشد.

Abstract

With the proliferation of social networks such as Facebook, Instagram, and Twitter, a vast amount of information is generated and disseminated daily, which may contain suspicious and false content. This content is created for purposes such as attracting audiences, influencing people's beliefs and decisions, increasing revenue through clicks, and influencing significant events, such as political elections. Identifying this fake news through manual and heuristic methods is often time-consuming, costly, and exhausting. Consequently, the necessity of detecting fake news has become a fundamental requirement to help people navigate the confusion caused by this dubious and false content. Identifying fake news articles by understanding what other news sources report on the same subject can be the first valuable step, known as stance detection. In this research, initially, significant topics discussed on Twitter in Iran during the period from November ۱۵, ۲۰۲۲, to February ۱۳, ۲۰۲۳, have been identified, considering the literature of the subject. Subsequently, for each topic, a labeled dataset is presented. In the next step, utilizing a combination of machine learning and the XLM-t transformer, which is a BERT-based language model used as the embedding vector for words, the Stance Detection problem in Persian tweets has been addressed. The results are compared with the fasttext model, and the improvements are explained. Given that one of the main challenges in this domain is the lack of high-quality Persian datasets, data augmentation techniques have been employed to enhance the results. After implementing and comparing the results for each topic, XLM-t-based architectures demonstrated better performance. The best F۱ scores are ۷۸.۱% for government appointments, ۷۱.۷% for the Barjam (JCPOA), ۷۶.۱% for the Preservation Plan, ۸۸.۱% for the Coronavirus vaccine, ۷۳.۶% for the stock market, ۷۱.۴% for military service, and ۸۲.۲% for compulsory hijab.