محمدجواد نوری

محمدجواد نوری

عنوان پایان‌نامه

ذخیره سازی وبازیابی داده های کلان برای شبکه های عصبی گرافی مجهز به مکانیزم توجه در پایگاه داده گرافی



    دانشجو محمدجواد نوری در تاریخ ۳۰ بهمن ۱۴۰۱ ساعت ، به راهنمایی فرشته آزادی پرند ، پایان نامه با عنوان "ذخیره سازی وبازیابی داده های کلان برای شبکه های عصبی گرافی مجهز به مکانیزم توجه در پایگاه داده گرافی" را دفاع نموده است.


    استاد راهنما
    فرشته آزادی پرند
    استاد داور
    حسن رشیدی
    رشته تحصیلی
    مقطع تحصیلی
    کارشناسی ارشد
    تاریخ دفاع
    ۳۰ بهمن ۱۴۰۱
    ساعت دفاع

    چکیده
    چکیده

    داده ها در عصر اطلاعات در حجم کلان در حال تولید، تغییر، البته بدون نظم و در رابطه‌های درهم پیچیده با یکدیگر و در حال رشد هستند. ذخیره‌سازی، دسته‌بندی و نمایش این داده ها چالشی کلیدی است. از طرفی یک پایگاه داده که قابلیت پاسخدهی، پرس و جو و به روز رسانی داده در زمان مناسب داشته باشد نیاز حیاتی محسوب می‌گردد. از طرفی دیگر دسته بندی این داده‌ها با دقت بالا و پیچیدگی زمانی کم برای هر نوع تحلیل یک لازمه اصلی است. جهت انجام دو امر ذخیره سازی و دسته‌بندی، رویکرد گرافی قابلیت تعمیم پذیری شگفت انگیزی بدست می‌دهد که می‌توان آنرا برای هر نوع کلان داده‌ای بکار برد.

    هدف از این تحقیق استفاده از پایگاه داده گرافی جهت نگاه‌داری در زمان دسته بندی کلان داده (گراف) با استفاده از شبکه عصبی گرافی مجهز به مکانیزم توجه است. پایگاه داده گرافی جهت نگاه داری، فراخوانی، ویرایش، پاکسازی داده های کلان گرافی بدلیل پیچیدگی زمانی و فضایی بسیار کمتر مورد استفاده گرفته است. شبکه عصبی گرافی مورد استفاده در این کار به مکانیزم توجه (در هر لایه) مجهز شده است تا دقت و پیچیدگی زمانی کمتری در عمل دسته بندی داشته باشیم. تحقیق مورد نظر در مقایسه با تحقیقات دیگر بسیار نزدیک به مدل های عملی در صنایع امروزی خواهد بود. در نهایت به مدلی قابل اعتماد برای حفظ، ایجاد، فراخوانی داده کلان (که می‌تواند به صورت گرافی بیان گردد) جهت دسته بندی خواهیم رسید که قابلیت پیاده سازی بر روی هر نوع داده کلان را درعمل و در سیستم های نرم افزاری خواهد داشت.

    فرایند کلی این تحقیق بدین گونه می‌باشد که در ابتدا فراخوانی داده های کلان گرافی مجموعه داده مورد نظر از پایگاه داده گرافی صورت گرفته و در مرحله بعد این داده به شبکه عصبی مذکور خوراک دهی می‌گردد، و بعد شبکه عصبی پس از یادگیری (با استفاده از عمل عبور پیام )، گره‌های بدون برچسب را برچسب گذاری می‌کند. در مرحله آخر گره ها با برچسب پیش‌بینی شده بر روی پایگاه داده گرافی بازنشانی می‌گردند.

    در این تحقیق از ۴ مجموعه داده Cora، Citeseer، Pubmed و PPI نیز جهت ارزیابی مدل استفاده شده است. مجموعه دادگان شبکه ارجاعات محک استانداردی برای اندازه‌گیری دقت دسته‌بندی گره های گراف هستند. دستاورد این تحقیق که ترکیب مکانیزم توجه با شبکه عصبی گرافی با استفاده از پایگاه داده گرافی است، رسیدن به دقت ۸۳ درصد در مجموعه داده Cora، از ۸۱.۴% در مدل GCN-۶۴ است. مجموعه داده Cora شامل ۲۷۰۸ گره ، ۵۴۲۹ پیوند، ۷ دسته و ۱۴۳۳ ویژگی برای هر گره است. که هر گره بیانگر یک مقاله علمی در حوزه علوم کامپیوتر بوده و تمامی گره‌های یاد شده در ۷ دسته موضوعات کلی علوم کامپیوتر (همچون یادگیری تقویتی، شبکه های عصبی، یادگیری قوانین، روشهای احتمالی، الگوریتم ژنتیک، موارد پایه، تئوری) دسته بندی شده اند. و دقت هایی بالاتر در ۳ مجموعه داده دیگر که ذکر خواهند شد در این تحقیق حاصل می‌گردند. در نهایت میزان دقت دسته بندی با روش این تحقیق به ۸۳% می‌رسد. دقت در دسته بندی در سه مجموعه داده دیگر هم بالاتر از مدل های پیشین بوده است که در ادامه پایان‌نامه به صورت کامل تشریح خواهند گردید.

    کلمات کلیدی: دسته بندی گراف، پایگاه داده گرافی، شبکه عصبی گرافی، مکانیزم توجه

    Abstract
    Abstract

    In recent years, colossal amount of information is being produced with huge amount of change in a
    large volume, without order and also growing in relation to each other. Because of nature like of these data and the relation among the entities, this will be much easier to have a graph approach. So, in order to categorize these data, it is necessary for all subsystems to have a graphical approach to data processing. In this research, a graph database is being used to store, recall, edit graph data easily and with much less space and time complexity, so that the research is much closer to practical models in today's industries. In addition, in this research, by using the attention mechanism in each layer of the graph neural network, we will see an increase in accuracy in graph classification. Finally, we will achieve to a reliable model for maintaining, creating, and recalling graph data for classification, which will have the ability to be implemented on any type of graph data in practice and in software systems.

    Reference network datasets have been used as a standard benchmark for measuring the accuracy of graph node classification. The achievement of this research, which is the combination of the attention mechanism with the graph neural network using the graph database, is to achieve ۸۳% of accuracy in node classification in the Cora dataset.

    Keywords: graph classification, graph database, neural graph network, attention mechanism