سارا حاجی آقاجانی

سارا حاجی آقاجانی

عنوان پایان‌نامه

سامانه پرسش-پاسخ دامنه باز فارسی مبتنی بر مدل بازیابی متراکم متن



    دانشجو سارا حاجی آقاجانی در تاریخ ۱۵ بهمن ۱۴۰۲ ساعت ، به راهنمایی محمد بحرانی ، پایان نامه با عنوان "سامانه پرسش-پاسخ دامنه باز فارسی مبتنی بر مدل بازیابی متراکم متن" را دفاع نموده است.


    رشته تحصیلی
    مقطع تحصیلی
    کارشناسی ارشد
    تاریخ دفاع
    ۱۵ بهمن ۱۴۰۲
    ساعت دفاع

    چکیده

    سامانه‌های پرسش‌-‌پاسخ، ابزارهای قدرتمندی در حوزه هوش مصنوعی هستند که می‌توانند به‌طور خودکار پاسخ‌های روشن‌تری به پرسش‌های کاربر به زبان طبیعی ارائه دهند. این تحقیق به توسعه یک سامانه پرسش-پاسخ پیشرفته برای زبان فارسی می‌پردازد که می‌تواند پاسخ‌های دقیق و جامعی را برای طیف گسترده‌ای از سؤالات و موضوعات ارائه دهد. این سامانه از دو بخش اصلی بازیابی متن و استخراج پاسخ تشکیل شده است. در بخش بازیابی متن، از یک روش جدید بازیابی متراکم متن استفاده شده است که یک رویکرد پیشگامانه در حوزه زبان فارسی محسوب می‌شود. این روش که بر اساس مدل‌ زبانی \\lr{BERT} پیاده‌سازی شده است،   در شناسایی متن‌های مرتبط حاوی پاسخ به سؤال کاربر، نسبت به روش‌های مرسوم مانند \\lr{BM۲۵} کارایی بهتری دارد. روش بازیابی متراکم متن، به طور مؤثر با بهره‌گیری از \\lr{BERT}، از اطلاعات معنایی و متنی برای تعیین مرتبط‌ترین متن‌ها استفاده می‌کند و اطمینان می‌دهد که سامانه متن‌های بسیار مرتبط را برای پردازش بازیابی می‌کند. بخش استخراج پاسخ با استفاده از مدل های زبانی پیشرفته مانند \\lr{BERT}   و \\lr{RoBERTa} پاسخ را از متن‌های بازیابی شده استخراج می کند.  با تنظیم دقیق این مدل‌ها بر روی داده‌های زبان فارسی، ابزاری قوی ایجاد شده است که می‌تواند جزئیات متن فارسی را درک کند و مرتبط‌ترین و معنادارترین اطلاعات را استخراج کند. این سامانه پرسش-پاسخ با استفاده از ترکیب بازیابی متراکم متن و مدل‌های زبانی پیشرفته، قادر به ارائه پاسخ‌های دقیق و جامع به طیف گسترده‌ای از سؤالات، از جمله پرسش‌های باز و واقعی است. توانایی این سامانه در درک نکات ظریف زبان فارسی و استخراج اطلاعات متنی، تضمین می‌کند که پاسخ‌های آن با هدف کاربر و متن‌های ارائه‌شده مطابقت کامل داشته باشد. این سامانه نوآورانه با تلفیق بازیابی متراکم متن و مدل‌های زبانی پیشرفته، پتانسیل بالایی برای بهبود عملکرد وظایف مختلف پردازش زبان طبیعی دارد. این سامانه، عصر جدیدی از پاسخگویی هوشمندانه به پرسش‌ها به زبان فارسی را هموار می‌کند و تعامل بین انسان و ماشین را تسهیل می‌نماید. همچنین، به کاربران کمک می‌کند تا به اطلاعات مورد نیاز خود با سهولت و کارایی بیشتر دسترسی پیدا کنند.

      

    Abstract

    Question-Answering Systems are powerful tools in the field of artificial intelligence that can automatically provide clearer answers to users' natural language questions. This research is concerned with the development of an advanced question-answering system for the Persian language that can provide accurate and comprehensive answers to a wide range of questions and topics. This system is composed of two main passage retrieval and reader components. In the passage retrieval part, a new dense passage retrieval method is used which is a pioneering approach in the field of Persian language. This method, which is implemented based on the BERT language model, outperforms traditional methods such as BM۲۵ in identifying relevant passages containing the answer to the user's question. The dense passage retrieval method effectively uses semantic and textual information to determine the most relevant passages, using BERT to ensure that the system retrieves very relevant passages for processing. The reader part extracts the answer from the retrieved passages using advanced language models such as BERT and RoBERTa. By fine-tuning these models on Persian language data, a powerful tool has been created that can understand the details of Persian passages and extract the most relevant and meaningful information. This question-answering system, using a combination of dense passage retrieval and advanced language models, is capable of providing accurate and comprehensive answers to a wide range of questions, including open and factual questions. The system's ability to understand the nuances of the Persian language and extract text information ensures that its responses are fully aligned with the user's intent and the provided passages. This innovative system, by combining dense passage retrieval and advanced language models, has the potential to improve the performance of a variety of natural language processing tasks. This system paves the way for a new era of intelligent question-answering in Persian and facilitates human-machine interaction. It also helps users to access the information they need more easily and efficiently.