ملیکا جوانی

ملیکا جوانی

عنوان پایان‌نامه

سیستم پرسش وپاسخ به زبان فارسی برپایه ی درک مطلب ماشینی باقابلیت پیش بینی وجود پاسخ



    دانشجو ملیکا جوانی در تاریخ ۳۰ بهمن ۱۴۰۲ ساعت ، به راهنمایی محمد بحرانی ، پایان نامه با عنوان "سیستم پرسش وپاسخ به زبان فارسی برپایه ی درک مطلب ماشینی باقابلیت پیش بینی وجود پاسخ" را دفاع نموده است.


    دانشجو
    ملیکا جوانی
    استاد راهنما
    محمد بحرانی
    استاد مشاور
    فرزام متین فر
    رشته تحصیلی
    مقطع تحصیلی
    کارشناسی ارشد
    تاریخ دفاع
    ۳۰ بهمن ۱۴۰۲
    ساعت دفاع

    چکیده

    ابتدا یک مجموعه داده از سوالات واقعی به زبان فارسی جمع‌آوری شده و سپس این سیستم پرسش و پاسخ با استفاده از سه واحد اصلی پیاده‌سازی شده است. واحد اول، با استفاده از جدیدترین الگوریتم‌ها و مدل‌های تعبیه‌ساز بازیابیِ شبیه‌ترین متن به سوال را انجام می‌دهد و متن مرتبط با سوال را از مجموعه مستندات موجود بازیابی می‌کند. واحد دوم، با استفاده از روش‌های ‌دسته‌بندی باینری متن، ترکیبی از متن بازیابی شده و سوال را گرفته و مشخص می‌کند که پاسخِ سوال ورودی در متن موجود است یا خیر. این واحد با دقت ??? توانسته است سوالات قابل پاسخ را از سوالات بدون پاسخ تشخیص دهد. در نهایت تنها سوالاتی که از واحد قبلی، تایید وجود پاسخ خورده بودند، به ورودی واحد سوم یعنی خواننده فرستاده خواهند شد که وظیفه‌ی پیدا کردن محدوده پاسخ در متن بازیابی شده را دارد که با دقت ?? درصد موفق به استخراج پاسخ‌های صحیح از متن شده است. هر چند نتایج ارزیابی سر به سر به دلیل ضعف عملکرد واحد بازیابی به شدت جالب نشد، اما دقت بالای واحدهای دیگر نشان‌دهنده عملکرد موفقیت‌آمیز در تشخیص سوالات قابل پاسخ و استخراج پاسخ‌های صحیح است. این پروژه نه‌تنها با ارتقاء فهم ما از مسائل پرسش و پاسخ در زبان فارسی سهم بزرگی داشته است بلکه با ارائه مجموعه داده‌های جدید و اختصاصی و رویکرد نوین در سیستم پرسش و پاسخ، گامی مهم به سوی نوآوری در این حوزه برداشته است.

    واژه‌های کلیدی: سیستم پرسش و پاسخ دامنه‌بسته، تعبیه‌سازی کلمات، بازیابی اطلاعات، دسته‌بندی متن، درک مطلب ماشینی، پیش‌بینی محدوده پاسخ



    Abstract

    In this project, a question-answering system for the Persian language with the capability of detecting unanswered questions is developed. Initially, a dataset of real questions in Persian is collected, and then the question-answering system is implemented using three main units. The first unit employs state-of-the-art embedding models and algorithms for text retrieval to find the most similar text to the question from existing documents. The second unit, utilizing binary text ۱px; margin-bottom: ۰in; background: tra  arent; font-size: medium; text-indent: ۰px; white-space-collapse: collapse;">Keywords: Closed-Domain Question Answering System, Word Embeddings, Information Retrieval, Text ۱px; margin-bottom: ۰in; background: tra  arent; font-size: medium; text-indent: ۰px; white-space-collapse: collapse;">