
ملیکا جوانی
سیستم پرسش وپاسخ به زبان فارسی برپایه ی درک مطلب ماشینی باقابلیت پیش بینی وجود پاسخ
- دانشجو
- ملیکا جوانی
- استاد راهنما
- محمد بحرانی
- استاد مشاور
- فرزام متین فر
- استاد داور
- لطیفه پورمحمدباقر اصفهانی
- مقطع تحصیلی
- کارشناسی ارشد
- تاریخ دفاع
- ۳۰ بهمن ۱۴۰۲
- ساعت دفاع
- چکیده
-
ابتدا یک مجموعه داده از سوالات واقعی به زبان فارسی جمعآوری شده و سپس این سیستم پرسش و پاسخ با استفاده از سه واحد اصلی پیادهسازی شده است. واحد اول، با استفاده از جدیدترین الگوریتمها و مدلهای تعبیهساز بازیابیِ شبیهترین متن به سوال را انجام میدهد و متن مرتبط با سوال را از مجموعه مستندات موجود بازیابی میکند. واحد دوم، با استفاده از روشهای دستهبندی باینری متن، ترکیبی از متن بازیابی شده و سوال را گرفته و مشخص میکند که پاسخِ سوال ورودی در متن موجود است یا خیر. این واحد با دقت ??? توانسته است سوالات قابل پاسخ را از سوالات بدون پاسخ تشخیص دهد. در نهایت تنها سوالاتی که از واحد قبلی، تایید وجود پاسخ خورده بودند، به ورودی واحد سوم یعنی خواننده فرستاده خواهند شد که وظیفهی پیدا کردن محدوده پاسخ در متن بازیابی شده را دارد که با دقت ?? درصد موفق به استخراج پاسخهای صحیح از متن شده است. هر چند نتایج ارزیابی سر به سر به دلیل ضعف عملکرد واحد بازیابی به شدت جالب نشد، اما دقت بالای واحدهای دیگر نشاندهنده عملکرد موفقیتآمیز در تشخیص سوالات قابل پاسخ و استخراج پاسخهای صحیح است. این پروژه نهتنها با ارتقاء فهم ما از مسائل پرسش و پاسخ در زبان فارسی سهم بزرگی داشته است بلکه با ارائه مجموعه دادههای جدید و اختصاصی و رویکرد نوین در سیستم پرسش و پاسخ، گامی مهم به سوی نوآوری در این حوزه برداشته است.
واژههای کلیدی: سیستم پرسش و پاسخ دامنهبسته، تعبیهسازی کلمات، بازیابی اطلاعات، دستهبندی متن، درک مطلب ماشینی، پیشبینی محدوده پاسخ
- Abstract
-
In this project, a question-answering system for the Persian language with the capability of detecting unanswered questions is developed. Initially, a dataset of real questions in Persian is collected, and then the question-answering system is implemented using three main units. The first unit employs state-of-the-art embedding models and algorithms for text retrieval to find the most similar text to the question from existing documents. The second unit, utilizing binary text ۱px; margin-bottom: ۰in; background: tra arent; font-size: medium; text-indent: ۰px; white-space-collapse: collapse;">Keywords: Closed-Domain Question Answering System, Word Embeddings, Information Retrieval, Text ۱px; margin-bottom: ۰in; background: tra arent; font-size: medium; text-indent: ۰px; white-space-collapse: collapse;">