A Neural Network for Factoid Question Answering over Paragraphs

سؤالات کسب حقایق1 نوعی پرسش هستند که با wh شروع می‌شوند، پاسخ آن‌ها یک حقیقت یا واقعیت است که در متن به آن اشاره شده است (پرسش‌های هستان‌شناسی).روش‌های طبقه‌بندی متن برای پاسخ به سؤالات کسب حقایق از روش‌های مبتنی بر قوانین دستی مشخص شده، یا بازنمایی‌2 های سبد واژگان 3 استفاده می‌کنند. این روش‌ها در برخی موارد ناکارآمد است، از جمله زمانی که در متن سؤالات واژه‌های خاصی وجود دارند که نشان‌دهنده پاسخ هستند. در این مقاله روش جدیدی بنام QANTA به منظور پاسخ‌گویی به سؤالات کسب حقایق ارائه شده است. این روش ورودی‌های که متن آنها حاوی واژه‌های خاص باشد را با مدل‌سازی ترکیب‌بندی متنی تحلیل می‌کند.

۱. مقدمه

هر هفته صدها دانش‌آموز و دانشجو در یک تورنومنت به نام quiz bowl در دبیرستان و دانشگاه‌های ایالت متحده آمریکا شرکت می‌کنند.در این رقابت سؤالات در مورد حقایق جالب ولی غیرمهم است که شرکت‌کنندگان در آن باید متون خام را به موجودیت‌های شناخته شده نگاشت کنند. سؤالات quiz bowl شامل 4 تا 6 جمله است و با پاسخ‌های کسب حقایق مرتبط است. هر جمله در متن سؤال حاوی سرنخ‌هایی است که حتی بدون جملات قبلی هم پاسخ منحصر به فرد مشخص می‌کند. سؤالات quiz bowl دارای ویژگی هرمی4 هستند، به این معنی که جملات هر سؤال ابتدا حاوی سرنخ‌های سخت‌تر و مبهم‌تر هستند درحالی‌که جملات بعدی به صورت "giveaways" هستند. گاهی اوقات جمله اول شامل موجودیت‌5های بدون نام است و پاسخ به این سؤال مستلزم درک واقعی از جمله است اما به تدریج جمله‌های بعدی ترم‌های شناخته شده و منحصر به فرد بیشتری را مشخص می‌کنند. بازیکنان باید سریع‌تر از حریف پاسخ دهند و برای پاسخ‌های صحیح پاداش دریافت می‌کنند. در واقع این رقابت به گونه‌ای طراحی شده که به بازیکنان با دانش عمیق از یک موضوع خاص پاداش داده می‌شود..
رویکردهای خودکار پاسخ به سؤالات quiz bowl که براساس تکنیک‌های موجود پردازش زبان‌های طبیعی از جمله سبد واژگان عمل می‌کنند، در مورد جملاتی مانند جملات اول که حاوی سرنخ‌های سخت و مبهم هستند، محکوم به شکست‌اند. شبکه‎‌های عصبی بازگشتی (RNN) در مقایسه با مدل‌های مشابه جنبه‌های ترکیبی چنین جملاتی را می‌گیرند[1].
شبکه‌های عصبی rnn باید آموزش ببینند تا بتوانند نمایش‌های معنی‌دار را یادبگیرند و این در حالی است که در quiz bowl برای چندین سؤال به یک پاسخ مشابه نیاز است.در طول هر سال تحصیلی نمونه‌های بسیار زیادی سؤال در مورد هر موجودیت طراحی می‌شود بنابراین در این مورد نه تنها افزونگی وجود داردبلکه تنوع درونی هم هست، زیرا سرنخ‌های کلیدی نمی‌توانند در هر سؤال ظاهر شوند. تنها محدودیت تعداد موجودیت‎‌‌های موردنظر است

۲. کارهای مرتبط

کارهایی که در رابطه با این موضوع انجام شده در دو زمینه وجود دارد:
شبکه عصبی بازگشتی برای NLP
اصل ترکیب معنایی بیان می کند که معنای عبارت ممکن است از معنای کلمات موجود در آن و نحوه قرار گرفتن آن کلمات کنار هم، مشتق شود. بسیاری از مدل های محاسباتی ترکیبی بر یادگیری فضا برداری تمرکز دارند [3][4][5]. رویکردهای اخیر برای مدل‌سازی فضای برداری ترکیب شده با شبکه های عصبی موفق بوده‌اند، گرچه برای عبارات کوتاه تابع ساده‌تر پیشنهاد شده است .
شبکه‌های عصبی بازگشتی توانسته‌اند به بهترین عملکرد در تحلیل و تجزیه احساسات دست یابند[1][6][8]. rnnها قبلا برای یادگیری فضای ویژگی‌ها مورد استفاده قرار نگرفته‌اند، گرچه شبکه‌های تکرارپذیر بازگشتی برای تکمیل پایگاه دانش مورد استفاده قرار گرفتند و نتیجه موفقیت‌آمیز نبوده است[7].کارهای مرتبط در این زمینه مدل تحلیل گفتمان [9] و مدل برداری پاراگراف [10] است که هر دو مدل قادرند بازنمایی توزیع پاراگراف را تولید کنند. در این مستند یک رویکرد ساده‌تر ارائه شده است که در آن یک مدل واحد قادر است بازنمایی جملات پیچیده را یاد بگیرد و متوسط آن‌ها را در میان پاراگراف‌ها بسنجند.
پرسش و پاسخ کسب حقایق
پرسش و پاسخ کسب حقایق از لحاظ عملکرد معادل بازیابی اطلاعات است. با توجه به پایگاه دانش و یک پرسش، هدف بدست آوردن پاسخ آن سوال است. بسیاری از رویکردهای این مسئله به تطبیق الگوی دست ساز و طبقه بندی نوع پاسخ بستگی دارد تا فضای جستجو را محدود کند [11]. بیشتر سیستم‌های پرسش و پاسخ کسب حقایق اخیر، وب و رسانه‌های اجتماعی را در سیستم‌های بازیابی خود قرار داده‌اند.

۳. شبکه عصبی بازگشتی

این شبکه ها برای پردازش سیگنال های دنباله دار به وجود آمدند. در واقع دارای یک نوع حافظه هستند که اطلاعاتی تا کنون دیده شده است را ضبط می کند. فرض کنید ما مدل زبانی‌ای ساخته‌ایم که تلاش می‌کند کلمه بعدی را با توجه به کلمات قبلی‌ای که در اختیارش قرار دادیم پیش‌بینی کند.

شبکه‌های عصبی بازگشتی

در شکل بالا X ورودی در گام زمانی t است.S حالت پنهان در گام زمانی t است. این قسمت همان جایی است که حافظه شبکه در آن قرار گرفته است. S بر اساس حالت پنهان قبلی و ورودی که در زمان جاری به آن داده میشود تغییر میکند.حلقه باعث می‌شود که اطلاعات از یک مرحله به مرحله بعد ارسال شوند.که به شکل زیر است:
s(t)=f(Ux(t)+W(s(t-1))

تابع f معمولا یک تابع غیر خطی مثل tanh یا ReLU است.O خروجی در گام زمانی t است.به عنوان مثال در محاسبه کلمه بعدی در یک جمله این خروجی میتواند یک بردار از احتمالات در واژگان ما باشد.
حالت پنهان شبکه S در واقع جایی است که حافظه شبکه در آن قرار گرفته است . S اطلاعاتی در باره اینکه تا کنون در شبکه چه رخ داده است را ضبط میکند. خروجی S با توجه به حالات قبلی محاسبه میشود اما همانطور که بیان شد S نمیتواند اطلاعات موجود در گام های زمانی (به عنوان مثال 10 گام قبل) را ضبط کند.
برخلاف شبکه های معمولی که از پارامتر های متفاوتی در هر لایه استفاده میکند، یک شبکه RNN پارامتر های مشابهی را بین همه گام های زمانی به اشتراک میگذارد .(U,V,W) این بدین معنی است که ما در هر گام زمانی عملیات مشابهی را انجام میدهیم فقط ورودی ها متفاوت هستند. با این تکنیک تعداد کلی پارامتر ها یی که شبکه بایستی یاد بگیرد به شدت کاهش پید