A Neural Network for Factoid Question Answering over Paragraphs

تغییرات پروژه از تاریخ 1396/09/06 تا تاریخ 1396/10/09
سؤالات factoid نوعی پرسش هستند که با wh شروع می‌شوند، پاسخ آن‌ها یک یک حقیقت یا واقعیت است که در متن به آن اشاره شده است (پرسش‌های هستان‌شناسی).روش‌های طبقه‌بندی متن برای پاسخ به سؤالات factoid  از روش‌های مبتنی بر قوانین دستی مشخص شده، یا bag of words representations استفاده می‌کنند. این روش‌ها در برخی موارد ناکارآمد است، از جمله زمانی که در متن سؤالات واژه‌های خاصی  وجود دارند که نشان‌دهنده پاسخ هستند. در این مقاله روش جدیدی بنام QANTA به منظور پاسخ‌گویی به سؤالات factoid ارائه شده است. این روش ورودی‌های که متن آنها حاوی واژه‌های خاص باشد را با مدل‌سازی ترکیب‌بندی متنی تحلیل می‌کند.

# مقدمه
هر هفته صدها دانش‌آموز و دانشجو در یک تورنومنت به نام quiz bowl در دبیرستان و دانشگاه‌های ایالت متحده آمریکا شرکت می‌کنند.در این رقابت سؤالات در مورد حقایق جالب ولی غیرمهم است که شرکت‌کنندگان در آن باید متون خام را به موجودیت‌های شناخته شده نگاشت کنند. سؤالات quiz bowl شامل 4 تا 6 جمله است و با پاسخ‌های factoid مرتبط است. هر جمله در متن سؤال حاوی سرنخ‌هایی است که حتی بدون جملات قبلی هم  پاسخ منحصر به فرد مشخص می‌کند. سؤالات quiz bowl دارای ویژگی pyramidality هستند، به این معنی که جملات هر سؤال ابتدا حاوی سرنخ‌های سخت‌تر و مبهم‌تر هستند درحالی‌که جملات بعدی به صورت "giveaways" هستند. گاهی اوقات جمله اول شامل موجودیت‌های بدون نام 	است و پاسخ به این سؤال مستلزم درک واقعی از جمله است اما به تدریج جمله‌های بعدی ترم‌های شناخته شده و منحصر به فرد بیشتری را مشخص می‌کنند. بازیکنان باید سریع‌تر از حریف پاسخ دهند و برای پاسخ‌های صحیح پاداش دریافت می‌کنند. در واقع این رقابت به گونه‌ای طراحی شده که به بازیکنان با دانش عمیق از یک موضوع خاص پاداش داده می‌شود..
رویکردهای خودکار پاسخ به سؤالات quiz bowl که براساس تکنیک‌های موجود پردازش زبان‌های طبیعی از جمله bag of words عمل می‌کنند، در مورد جملاتی مانند جملات اول که حاوی سرنخ‌های سخت و مبهم هستند، محکوم به شکست‌اند. شبکه‎‌های عصبی بازگشتی (rnn) در مقایسه با مدل‌های مشابه جنبه‌های ترکیبی چنین جملاتی را می‌گیرند[1].
شبکه‌های عصبی rnn باید آموزش ببینند تا بتوانند نمایش‌های معنی‌دار را یادبگیرند و این در حالی است که در quiz bowl برای چندین سؤال به یک پاسخ مشابه نیاز است.در طول هر سال تحصیلی نمونه‌های بسیار زیادی سؤال در مورد هر موجودیت طراحی می‌شود بنابراین در این مورد نه تنها افزونگی وجود داردبلکه تنوع درونی هم هست، زیرا سرنخ‌های کلیدی نمی‌توانند در هر سؤال ظاهر شوند. تنها محدودیت تعداد موجودیت‎‌‌های موردنظر است

# کارهای مرتبط
کارهایی که در رابطه با این موضوع انجام شده در دو زمینه وجود دارد:
**شبکه عصبی بازگشتی برای NLP**
اصل ترکیب معنایی بیان می کند که معنای عبارت ممکن است از معنای کلمات موجود در آن و  نحوه قرار گرفتن آن کلمات کنار هم، مشتق شود. بسیاری از مدل های محاسباتی ترکیبی بر یادگیری فضا برداری تمرکز دارند [3][4][5]. رویکردهای اخیر برای مدل‌سازی فضای برداری ترکیب شده با شبکه های عصبی موفق بوده‌اند، گرچه برای عبارات کوتاه تابع ساده‌تر  پیشنهاد شده است .
شبکه‌های عصبی بازگشتی توانسته‌اند به بهترین عملکرد در تحلیل و تجزیه احساسات دست یابند[1][6][8]. rnnها قبلا برای یادگیری فضای ویژگی‌ها مورد استفاده قرار نگرفته‌اند، گرچه شبکه‌های تکرارپذیر بازگشتی برای تکمیل پایگاه دانش مورد استفاده قرار گرفتند و نتیجه موفقیت‌آمیز نبوده است[7].کارهای مرتبط در این زمینه مدل تحلیل گفتمان [9] و مدل برداری پاراگراف [10] است که هر دو مدل قادرند بازنمایی توزیع پاراگراف را تولید کنند. در این مستند یک رویکرد ساده‌تر ارائه شده است که در آن یک مدل واحد قادر است بازنمایی جملات پیچیده را یاد بگیرد  و متوسط آن‌ها را در میان پاراگراف‌ها بسنجند.
**پرسش و پاسخ factoid**
پرسش و پاسخ factoid از لحاظ عملکرد معادل بازیابی اطلاعات است. با توجه به پایگاه دانش و یک پرسش، هدف بدست آوردن پاسخ آن سوال است. بسیاری از رویکردهای این مسئله به تطبیق الگوی دست ساز  و طبقه بندی نوع پاسخ بستگی دارد تا فضای جستجو را محدود کند [11]. بیشتر سیستم‌های پرسش و پاسخ factoid اخیر، وب و رسانه‌های اجتماعی را در سیستم‌های بازیابی خود قرار داده‌اند.

# آزمایش‌ها
برای ارزیابی عملکرد مدل QANTA، عملکرد آن با رویکردهای   BOW، BOW-DT، IR-QB روی دو دیتاست مقایسه شده است. 
**دیتاست**
برای ارزیابی عملکرد مدل QANTA، این الگوریتم را روی پیکره ای با بیش از 100000 جفت سوال-جواب از دو منبع مختلف اعمال کردند. منبع اصلی دیتاست   این ارزیابی مجموعه داده استفاده شده توسط Boyd-Garber و همکارانش [2] است که حاوی 46824 سوال در 14 کلاس است. این دیتاست با 65212 سوال از مجموعه سوالاتی که توسط NAQT از سال 1993-2013 در دسترس عموم قرار گرفت، تکمیل شده است .(NAQT یک سازمان برگزار کننده رقابت quiz bowl است). برخی کلاس‌های این دیتاست در ارزیابی مورد استفاده قرار نگرفتند زیرا حاوی تعداد کمی داده بودند(به عنوان مثال کلاس نجوم که تنها دارای 331 سوال است). بنابراین از کل این دیتاست فقط سوالات کلاس تاریخ شامل 21041 سوال و کلاس ادبیات شامل 22956 سوال استفاده شده است.
**رویکردها**
عملکرد QANTA با دو نوع رویکرد اصلی مقایسه می‌شود:bag of words به عنوان یک مبنای اصلی NLP است و مدل‌های بازیابی اطلاعات که امکان مقایسه مدل با تکنیک‌های سنتی پرسش و پاسخ را فراهم می‌کند.
رویکرد BOW یک طبقه‌بند رگرسیون لجستیک است که روی شاخص‌های unigram باینری آموزش یافته است. این مدل متمایزکننده ساده بهبودیافته نسبت به مدل مولد پرسش و پاسخ برای quiz bowl ارائه شده توسط Boyd-Graber و همکارانش است[2].
رویکرد BOW-DT همانند BOW است با این تفاوت که در اینجا مجموعه ویژگی با شاخص‌های وابستگی اضافه می‌شود. در این مدل از این رویکرد برای جدا کردن ساختار درخت وابستگی از مدل ترکیبی QANTA استفاده شده است.
رویکرد IR-QB با استفاده از موتور Whoosh IR سوالات را بر پاسخ‌ها نگاشت می‌کند.پایگاه دانش IR-QB متشکل از  صفحاتی است که با هر پاسخ مرتبط است، در واقع هر صفحه متشکل از متن سوال آموزشی برای پاسخ آن است.
مدلIR-WIKI مشابه مدل IR-QB است با این تفاوت که هر صفحه پایگاه دانش آن شامل تمام متن مقاله ویکی‌پدیا مرتبط با پاسخ است.به دلیل اینکه تمام مدل‌ها و مدل‌های dt-rnn فقط بر روی متن سوال عمل می‌کنند، این یک مقایسه معتبر نیست.هدف در اینجا که نشان دهیم با استفاده از مدل QANTA می‌توان آن‌را بهبود داد.
# نتایج
جدول زیر دقت مدل‌های مختلف را برای تاریخ و ادبیات در دو موقعیت جمله اول از هر سؤال و تمام سؤال را نشان می‌دهد.در قسمت بالای جدول مدل‌های آموزش دیده روی سؤالات را مقایسه شده است ولی در قسمت پایین جدول مدل IR به ویکی‌پدیا هم دسترسی دارد. QANTA از تمام مدل‌هایی که فقط به داده‌های پرسشی محدود هستند، بهتر عمل می‎‌کند. در QANTA باید جمله ورودی یک موجودیت را بدون اشاره به آن موجودیت توصیف شود اما این محدودیت در جملات ویکی‌پدیا رعایت نمی‌شود. روش IR روی داده‌های ویکی بدون هیچ مشکلی عمل می‌کند و QANTA تنها روی مجموعه‌ای از جفت‌های پرسش و پاسخ آموزش دیده است، بنابراین می‌تواند عملکرد مدلIR را با دسترسی به ویکی‌پدیا به طور قابل توجهی بهبود دهد. ![دقت مدل‌های مختلف](https://boute.s3.amazonaws.com/292-2.PNG)
نمودار زیر مقایسه QANTA+IR-WIKI با شرکت کنندگان رقابت quiz bowl را نشان می‌دهد. هر میله نشان دهنده یک بازیکن است و ارتفاع میله مربوط به تفاوت بین نمره مدل و نمره انسانی است. میله‌ها با مهارت انسانی مرتب شده‌اند. میله های قرمز نشان می دهد که انسان برنده است، در حالی که میله های آبی نشان می دهد که مدل برنده است. QANTA+IR-WIKI  از بیشتر بازیکنان در سوالات تاریخی بهتر می‌کند اما به طور متوسط نمی‌تواند آن‌ها را در سؤالات  ادبیات را شکست دهد.![مقایسه عملکرد QANTA+IR-WIKI با انسان](https://boute.s3.amazonaws.com/292-1.PNG)
کسب حقایق[^factoid]  نوعی پرسش هستند که با wh شروع می‌شوند، پاسخ آن‌ها یک حقیقت یا واقعیت است که در متن به آن اشاره شده است (پرسش‌های هستان‌شناسی).روش‌های طبقه‌بندی متن برای پاسخ به سؤالات کسب حقایق از روش‌های مبتنی بر قوانین دستی مشخص شده، یا بازنمایی‌[^representaion] های سبد واژگان [^bag of words]  استفاده می‌کنند. این روش‌ها در برخی موارد ناکارآمد است، از جمله زمانی که در متن سؤالات واژه‌های خاصی  وجود دارند که نشان‌دهنده پاسخ هستند. در این مقاله روش جدیدی بنام QANTA به منظور پاسخ‌گویی به سؤالات کسب حقایق ارائه شده است. این روش ورودی‌های که متن آنها حاوی واژه‌های خاص باشد را با مدل‌سازی ترکیب‌بندی متنی تحلیل می‌کند.

# مقدمه
هر هفته صدها دانش‌آموز و دانشجو در یک تورنومنت به نام quiz bowl در دبیرستان و دانشگاه‌های ایالت متحده آمریکا شرکت می‌کنند.در این رقابت سؤالات در مورد حقایق جالب ولی غیرمهم است که شرکت‌کنندگان در آن باید متون خام را به موجودیت‌های شناخته شده نگاشت کنند. سؤالات quiz bowl شامل 4 تا 6 جمله است و با پاسخ‌های کسب حقایق مرتبط است. هر جمله در متن سؤال حاوی سرنخ‌هایی است که حتی بدون جملات قبلی هم  پاسخ منحصر به فرد مشخص می‌کند. سؤالات quiz bowl دارای ویژگی هرمی[^pyramidality]  هستند، به این معنی که جملات هر سؤال ابتدا حاوی سرنخ‌های سخت‌تر و مبهم‌تر هستند درحالی‌که جملات بعدی به صورت "giveaways" هستند. گاهی اوقات جمله اول شامل موجودیت‌[^entity]های بدون نام است و پاسخ به این سؤال مستلزم درک واقعی از جمله است اما به تدریج جمله‌های بعدی ترم‌های شناخته شده و منحصر به فرد بیشتری را مشخص می‌کنند. بازیکنان باید سریع‌تر از حریف پاسخ دهند و برای پاسخ‌های صحیح پاداش دریافت می‌کنند. در واقع این رقابت به گونه‌ای طراحی شده که به بازیکنان با دانش عمیق از یک موضوع خاص پاداش داده می‌شود..
رویکردهای خودکار پاسخ به سؤالات quiz bowl که براساس تکنیک‌های موجود پردازش زبان‌های طبیعی از جمله سبد واژگان عمل می‌کنند، در مورد جملاتی مانند جملات اول که حاوی سرنخ‌های سخت و مبهم هستند، محکوم به شکست‌اند. شبکه‎‌های عصبی بازگشتی (RNN) در مقایسه با مدل‌های مشابه جنبه‌های ترکیبی چنین جملاتی را می‌گیرند[1].
شبکه‌های عصبی rnn باید آموزش ببینند تا بتوانند نمایش‌های معنی‌دار را یادبگیرند و این در حالی است که در quiz bowl برای چندین سؤال به یک پاسخ مشابه نیاز است.در طول هر سال تحصیلی نمونه‌های بسیار زیادی سؤال در مورد هر موجودیت طراحی می‌شود بنابراین در این مورد نه تنها افزونگی وجود داردبلکه تنوع درونی هم هست، زیرا سرنخ‌های کلیدی نمی‌توانند در هر سؤال ظاهر شوند. تنها محدودیت تعداد موجودیت‎‌‌های موردنظر است

# کارهای مرتبط
کارهایی که در رابطه با این موضوع انجام شده در دو زمینه وجود دارد:
**شبکه عصبی بازگشتی برای NLP**
اصل ترکیب معنایی بیان می کند که معنای عبارت ممکن است از معنای کلمات موجود در آن و  نحوه قرار گرفتن آن کلمات کنار هم، مشتق شود. بسیاری از مدل های محاسباتی ترکیبی بر یادگیری فضا برداری تمرکز دارند [3][4][5]. رویکردهای اخیر برای مدل‌سازی فضای برداری ترکیب شده با شبکه های عصبی موفق بوده‌اند، گرچه برای عبارات کوتاه تابع ساده‌تر  پیشنهاد شده است .
شبکه‌های عصبی بازگشتی توانسته‌اند به بهترین عملکرد در تحلیل و تجزیه احساسات دست یابند[1][6][8]. rnnها قبلا برای یادگیری فضای ویژگی‌ها مورد استفاده قرار نگرفته‌اند، گرچه شبکه‌های تکرارپذیر بازگشتی برای تکمیل پایگاه دانش مورد استفاده قرار گرفتند و نتیجه موفقیت‌آمیز نبوده است[7].کارهای مرتبط در این زمینه مدل تحلیل گفتمان [9] و مدل برداری پاراگراف [10] است که هر دو مدل قادرند بازنمایی توزیع پاراگراف را تولید کنند. در این مستند یک رویکرد ساده‌تر ارائه شده است که در آن یک مدل واحد قادر است بازنمایی جملات پیچیده را یاد بگیرد  و متوسط آن‌ها را در میان پاراگراف‌ها بسنجند.
**پرسش و پاسخ کسب حقایق**
پرسش و پاسخ کسب حقایق از لحاظ عملکرد معادل بازیابی اطلاعات است. با توجه به پایگاه دانش و یک پرسش، هدف بدست آوردن پاسخ آن سوال است. بسیاری از رویکردهای این مسئله به تطبیق الگوی دست ساز  و طبقه بندی نوع پاسخ بستگی دارد تا فضای جستجو را محدود کند [11]. بیشتر سیستم‌های پرسش و پاسخ کسب حقایق اخیر، وب و رسانه‌های اجتماعی را در سیستم‌های بازیابی خود قرار داده‌اند.

# شبکه عصبی بازگشتی
این شبکه ها برای پردازش سیگنال های دنباله دار به وجود آمدند. در واقع دارای یک نوع حافظه هستند که اطلاعاتی تا کنون دیده شده است را ضبط می کند. فرض کنید ما مدل زبانی‌ای ساخته‌ایم که تلاش می‌کند کلمه بعدی را با توجه به کلمات قبلی‌ای که در اختیارش قرار دادیم پیش‌بینی کند. 
![شبکه‌های عصبی بازگشتی ](https://boute.s3.amazonaws.com/292-4.PNG)
در شکل بالا X ورودی در گام زمانی t است.S حالت پنهان در گام زمانی t است. این قسمت همان جایی است که حافظه شبکه در آن قرار گرفته است. S بر اساس حالت پنهان قبلی و ورودی که در زمان جاری به آن داده میشود تغییر میکند.حلقه باعث می‌شود که اطلاعات از یک مرحله به مرحله بعد ارسال شوند.که به شکل زیر است:
$$ s(t)=f(Ux(t)+W(s(t-1)) $$
تابع f معمولا یک تابع غیر خطی مثل tanh یا ReLU است.O خروجی در گام زمانی t است.به عنوان مثال در محاسبه کلمه بعدی در یک جمله این خروجی میتواند یک بردار از احتمالات در واژگان ما باشد.
حالت پنهان شبکه S در واقع جایی است که حافظه شبکه در آن قرار گرفته است . S اطلاعاتی در باره اینکه تا کنون در شبکه چه رخ داده است را ضبط میکند. خروجی S با توجه به حالات قبلی محاسبه میشود اما همانطور که بیان شد S نمیتواند اطلاعات موجود در گام های زمانی (به عنوان مثال 10 گام قبل) را ضبط کند.
برخلاف شبکه های معمولی که از پارامتر های متفاوتی در هر لایه استفاده میکند، یک شبکه RNN پارامتر های مشابهی را بین همه گام های زمانی به اشتراک میگذارد .(U,V,W) این بدین معنی است که ما در هر گام زمانی عملیات مشابهی را انجام میدهیم فقط ورودی ها متفاوت هستند. با این تکنیک تعداد کلی پارامتر ها یی که شبکه بایستی یاد بگیرد به شدت کاهش پیدا میکند.
اصلی ترین ویژگی RNN حالت پنهان آن است که اطلاعاتی یک توالی را ذخیره میکند. همچنین حتما نیاز نیست ما در هر گام زمانی یک خروجی و یا حتما یک ورودی داشته باشیم. بر اساس کار مورد نظر این دیاگرام میتواند تغییر کند.
شبکه های RNNs به این علت بازگشتی نامیده میشوند که خروجی هر لایه به محاسبات لایه های ماقبل آن وابسته است. به عبارتی دیگر این شبکه ها دارای حافظه هستند که اطلاعات مربوط به داده های دیده شده را ذخیره میکند. در نگاه اول شاید کمی عجیب به نظر برسد اما این شبکه ها در واقع کپی های متعدی از شبکه های عصبی معمولی هستند که کنار هم چیده شده اند و هر کدام پیغامی را به دیگری انتقال میدهند.

# شبکه عصبی بازگشتی درخت وابستگی
در اینجا جهت  تعیین بازنمایی‌های توزیع شده برای هر جمله در سوالات quiz bowl از شبکه عصبی بازگشتی درخت وابستگی استفاده شده است. در نهایت این نماینده ها با هم جمع می‌شوند و به عنوان ورودی به یک طبقه‌بند رگرسیون لجستیک چندجمله‌ای داده می‌شود تا برچسب کلاس پاسخ‌های هر یک از سوالات مشخص شود.
شبکه های عصبی بازگشتی درخت وابستگی در برابر جملات مشابه از نظر معنایی با نحو متفاوت قدرتمند عمل می‌کنند که این مسئله در پاسخگویی به سوالات quiz bowl  بسیار اهمیت دارد زیرا پاسخ‌ها دارای اینگونه جملات هستند.
مدل qanta برای بهبود مدل dt-rnn بجای یادگیری جداگانه بازنمایی‌های سوالات و پاسخ‌ها آنها را در یک فضای برداری یکسان به صورت مشترک یاد می‌گیرد.
در این مدل درخت تجزیه وابستگی جملات سوالات به عنوان ورودی مدل است و پاسخ متناظر آنها به عنوان خروجی حاصل می‌شود. به این منظور به هر کلمه w از مجموعه واژگان، یک بردار $x_w\in \Re^d$  نسبت داده می‌شود که به صورت ستونی در ماتریس d×v بعدی[^v، اندازه مجموعه واژگان ] کلمه تعبیه $W_e$ ذخیره می‌شود. همچنین به هر کلمه از یک جمله خاص یک گره از درخت تجزیه آن جمله اختصاص می‌یابد. به هر گره n  یک بردار پنهان  [^در گره‌های داخلی بازنمایی یک عبارت و در گره‌های برگ نگاشت بردار کلمه به فضای برداری پنهان است. ]$h_n\in \Re^d$ مرتبط می‌شود. برخلاف درخت costituency که همه کلمه‌ها در گره‌های برگ قرار دارند، در این مدل گره‌های داخلی هم مربوط به کلمات هستند.
یک ماتریس d×d برای روابط وابستگی r در دادگان تعریف می‌شود $W_r$ و آن را در طول آموزش یاد می‌دهند[^در دادگان quiz bowl تعداد روابط وابستگی یکتا 46 عدد است. ] . همچنین یک ماتریس d×d برای ترکیب بردار کلمه و بردار گره تعریف می‌شود $W_v$.
![درخت تجزیه مربوط به جمله‌ای از سوالی درباره Sparta](https://boute.s3.amazonaws.com/292-Capture.PNG)
حال با در نظر گرفتن درخت تجزیه بالا بازنمایی پنهان برگ‌ها با استفاده از تابع f [^تابع فعالسازی غیرخطی Tanh ]محاسبه می‌شود. به عنوان مثال برای گره "helots" داریم:
$$h_{helots}=f(W_v. x_{helots} + b) $$
این فرآیند برای تمامی گره‌های برگ تکرار می‌شود، سپس بازنمایی گره‌های داخلی که در واقع والد گره‌های برگ هستندمحاسبه می‌گردد. برای مثال بازنمایی گره "called" والد گره "helots" به شکل زیر محاسبه می‌شود:
$$h_{called}=f(W_{DOBJ}. h_{helots}+W_v. x_{called} + b) $$
این روند تا گره ریشه ادامه می‌یابد. برای گره ریشه داریم:
$$h_{depended}=f(W_{NSUBJ}. h_{economy} + W_{PREP}. h_{on} + W_v. x_{called} + b) $$
برای ترکیب بردار گره n (با فرزندان K(n )) و بردار کلمه$x_w$ نیز از معادله زیر استفاده می‌شود:
$$h_{n}=f(W_v. x_w + b + \sum_{k\in K(n)} W_{R(n,k)} . h_k) $$
مسئله پاسخگویی به سوالات،برای هر سوال چند پاسخ احتمالی  وجود دارد.بنابراین این مسئله مانند یک مسئله طبقه‌بندی چندکلاسه در نظر گرفته می‌شود. در (socher) بر روی هر گره درخت وابستگی یم لایه softmax وجود دارد که پاسخ سوالات را پیش‌بینی می‌کند. مشکل این روش این است که پاسخ‌ها را مستقل از هم می‌داند در حالی که پاسخ‌های سوالات برگرفته از کلمات همان سوالات هستند، بنابراین می توان بردارهای کلمه پاسخ‌ها را در فضای برداری یکسان از متن سوالات آموزش داد که در اینصورت روابط بین پاسخ‌ها مدل می‌شود. برای بهره‌مندی از این مزیت در این روش سوالات و پاسخ‌ آن‌ها را در یک مدل واحد آموزش می‌دهند.
هدف در اینجا این است که بردارهای جملات سوال‌ها به بردار پاسخ‌های درست نزدیک شوند و از پاسخ‌های نادرست دور شوند. برای اینکار از یک تابع هدف حداکثر حاشیه مناسب[^contrastive max-margin] استفاده می‌کنند. 
یک جمله از متن سوال و پاسخ درست آن c در نظر بگیرید، حال به طور تصادفی j پاسخ نادرست از مجموعه پاسخ‌های نادرست انتخاب می‌شود و این زیرمجموعه را Z نامیده می‌شود. c بخشی از واژگان است پس بردار آن $x_c \in W_e$ است، به همین ترتیب پاسخ نادرست $z \in Z$ بردار $x_z \in W_e$ دارد. S مجموعه تمام گره‌های درخت وابستگی است که هر گره $ s \in S$ بردار پنهان  $h_s$ را دارد. با این مقدمات خطا برای هر جمله به صورت زیر تعریف می‌شود:
$$C(S, \theta)=\sum_{s \in S} \sum_{z \in Z} L(rank(c,s,Z))max (0,1-x_c . h_s + x_z . h_s)$$
که در آن تابع رتبه (c,s,z) رتبه پاسخ درست c را با توجه به پاسخ‌های نادرست Z نشان می‌دهد. در اینجا برای بهینه سازی بالای لیست رتبه‌بندی این تابع رتبه را به تابع فقدان تبدیل کردند که افزودن این تابع هدف علاوه بر افزایش عملکرد مدل سرعت همگرایی را نیز افزایش می‌دهد.
$$L(r)=\sum_{i=1}^{r}1/i$$
به دلیل پرهزینه بودن محاسبه تابع رتبه آن را با نمونه‌برداری تصادفی K پاسخ نادرست تا رسیدن به تناقض$ (x_c . h_s < 1 + x_z . h_s)$ تقریب می‌زنند و قرار می‌دهند:
$$rank(c,s,Z) = (|Z|-1)/K$$ 
این مدل مجموع خطاها روی تمام جملات T که با تعداد گره‌ها (N)در مجموعه آموزشی استاندارد شده‌اند، کاهش می‌دهد.
$$J(\theta)= \frac {1} {N} \sum_{t \in T}C(t , \theta)$$
پارامترهای$ \theta = (W_{r \in R} , W_v , W_e , b)$  که در آن R نشان‌دهنده تمام روابط وابستگی در داده‌هاست، با AdaGrad بهینه‌سازی می‌شوند. گرادیان تابع هدف به صورت زیر محاسبه می‌شود.
$$ \frac {\partial C} {\partial \theta} =  \frac {1} {N} \sum_{t \in T}  \frac {\partial J(t)} {\partial \theta}$$
جملات سوالات مشابهی که قبلا شنیده شده‌اند دارای اطلاعات مفید است، از این رو مدل بهتر است آنها را نادیده نگیرد. 
ترکیب بازنمایی‌های سطح جمله برای تولید بازنمایی در سطح پاراگراف می‌تواند مفید باشد. ساده‌ترین و بهترین روش برای این منظور میانگین‌گیری از بازنمایی‌های جملاتی از یک سوال که تاکنون دیده شده است.مدل QANTA هم از این روش بهره می‌برد.  
در مدل dt-rnn ابعاد بردار d و تعداد پاسخ‌های غلط برا ی هر گره j ، 100 در نظر گرفته شده است.  تابع غیر خطی فعال‌ساز f با تابع tanh نرمال می‌شود. 
$$f(v)= \frac {tanh(v)} {||tanh(v)||}$$
مدل qanta برای پیش‌بینی پاسخ نهایی ابتدا یک بازنمایی ویژگی برای هر جمله از سوال تولید می‌کند که در واقع با میانگین‌گیری روی کلمات تعبیه و بازنمایی‌های پنهان روی تمام گره‌های درخت و بردار پنهان ریشه، محاسبه می‌شود. سپس میانگین تمام ویژگی‌های جمله به یک طبقه‌بند رگرسیون لجستیک داده می‌شود تا پاسخ پیش‌بینی شود.
 
# آزمایش‌ها
برای ارزیابی عملکرد مدل QANTA، عملکرد آن با رویکردهای   BOW[^Bag Of Words] ، BOW-DT[^Bag Of Words-DependencyTree ] ، [^Information Retrieval ] IR-QB روی دو دادگان مقایسه شده است. 

**دادگان**
برای ارزیابی عملکرد مدل QANTA، این الگوریتم را روی پیکره ای با بیش از 100000 جفت سوال-جواب از دو منبع مختلف اعمال کردند. منبع اصلی دادگان این ارزیابی مجموعه داده استفاده شده توسط Boyd-Garber و همکارانش [2] است که حاوی 46824 سوال در 14 کلاس است. این دادگان با 65212 سوال از مجموعه سوالاتی که توسط NAQT از سال 1993-2013 در دسترس عموم قرار گرفت، تکمیل شده است .(NAQT یک سازمان برگزار کننده رقابت quiz bowl است). برخی کلاس‌های این دادگان در ارزیابی مورد استفاده قرار نگرفتند زیرا حاوی تعداد کمی داده بودند(به عنوان مثال کلاس نجوم که تنها دارای 331 سوال است). بنابراین از کل این دادگان فقط سوالات کلاس تاریخ شامل 21041 سوال و کلاس ادبیات شامل 22956 سوال استفاده شده است. از بین پاسخ ها هم یک مجموعه محدود از متداول‌ترین پاسخ‌ها در نظر گرفته شده است.
قبل از اینکه سوالات غیرمتداول را فیلتر کنند برای رفع مشکل افزونگی و قالب‌بندی سوالات به یک مجموعه استاندارد نگاشت می‌شوند. در اینجا از کتابخانه whoosh [^کتابخانه بازیابی اطلاعات در زبان پایتون. https://pypi.python.org/pypi/whoosh] برای تولید ویژگی‌های یک طبقه‌بند یادگیری فعال استفاده می‌شود تا آن طبقه‌بند رشته‌های پاسخ‌ها را با عناوین ویکی‌پدیا تطبیق دهد. اگر در این مرحله پاسخی با ضریب اطمینان به اندازه کافی به عنوانی منطبق نشد، سوال آن از دیتاست حذف می‌شود.پس از استانداردسازی و بررسی دستی خروجی، از عناوین ویکی‌پدیا به عنوان برچسب در آموزش مدل‌های dt-rnn و baseline ها استفاده می‌شود.

**رویکردها**
عملکرد QANTA با دو نوع رویکرد اصلی مقایسه می‌شود:سبد واژگان به عنوان یک مبنای اصلی NLP است و مدل‌های بازیابی اطلاعات که امکان مقایسه مدل با تکنیک‌های سنتی پرسش و پاسخ را فراهم می‌کند.
رویکرد BOW یک طبقه‌بند رگرسیون لجستیک است که روی شاخص‌های unigram باینری آموزش یافته است. این مدل متمایزکننده ساده بهبودیافته نسبت به مدل مولد پرسش و پاسخ برای quiz bowl ارائه شده توسط Boyd-Graber و همکارانش است[2].
رویکرد BOW-DT همانند BOW است با این تفاوت که در اینجا مجموعه ویژگی با شاخص‌های وابستگی اضافه می‌شود. در این مدل از این رویکرد برای جدا کردن ساختار درخت وابستگی از مدل ترکیبی QANTA استفاده شده است.
رویکرد IR-QB با استفاده از موتور Whoosh IR سوالات را بر پاسخ‌ها نگاشت می‌کند.پایگاه دانش IR-QB متشکل از  صفحاتی است که با هر پاسخ مرتبط است، در واقع هر صفحه متشکل از متن سوال آموزشی برای پاسخ آن است.
مدلIR-WIKI مشابه مدل IR-QB است با این تفاوت که هر صفحه پایگاه دانش آن شامل تمام متن مقاله ویکی‌پدیا مرتبط با پاسخ است.به دلیل اینکه تمام مدل‌ها و مدل‌های dt-rnn فقط بر روی متن سوال عمل می‌کنند، این یک مقایسه معتبر نیست.هدف در اینجا که نشان دهیم با استفاده از مدل QANTA می‌توان آن‌را بهبود داد.
برای مقایسه مدل با عملکرد انسانی از رکوردهای انسانی برای 1201 حدس تاریخی و 1715 حدس ادبی از 22 شرکت‌کننده quiz bowl که سوالات بیشتری پاسخ دادند، استفاده کردند. سیستم امتیازدهی quiz bowl  به این صورت است که برای هر حدس صحیح 10 امتیاز و برای هر حدس نادرست 5 امتیاز تعلق می‌گیرد. بنابراین برای محاسبه نمره مدل از این معیار که برای محاسبه نمره کل هر انسان استفاده می‌شود، بهره می‌برند و مدل را مجبور می‌کنند سیاست حدس زدن انسان را تقلید کند.
مدل qanta  به اطلاعات کمتری نسبت به انسان برای پیش‌بینی نیاز دارد پس پیش‌بینی مدل بعد از جمله اول با پیش‌بینی انسان مقایسه می‌شود.

# نتایج آزمایش‌ها
نتایج به دست آمده که در جدول نشان داده شده است حاکی از آن است که عملکرد روش‌های بازیابی اطلاعات و سبد واژگان زمانیکه محدود به داده‌های سوال می‌شوند، در جملات اولیه نسبت به Qanta بسیار نامناسب است. تفاوت عملکرد ir-qb و ir-wiki نشان می‌دهد روش‌های بازیابی اطلاعات برای عملکرد بهتر در تمام موقعیت‌های جمله به اطلاعات و داده‌های خارجی نیاز دارند. دلیل عمکرد بهتر ir-wiki این است که ویکی‌پدیا نسبت به مجموعه آموزشی، حاوی جملات فراوانی برای تطبیق با کلمات و عبارات سرنخ‌های اولیه است. پس روش‌های بازیابی اطلاعات در مورد داده‌هایی که محدودیت‌های سوالات quiz bowl را ندارند و qanta نمی‌تواند آن‌ها را اداره کند، بخوبی عمل می‌کنند. از جمله محدودیت‌های سوالات quiz bowl این است که هر جمله به طور منحصر به فرد پاسخ را تعریف می‌کنند در حالی که پاسخ‌ها در سوالات مربوط به آنها ظاهر نمی‌شوند. همچنین  از نتایج عملکرد مدل BOW-DT  می‌توان به سادگی فهمید که علاوه بر ساختار درخت وابستگی، یادگیری بازنمایی‌های توزیع شده ترکیبی و آموزش پاسخ‌ها به عنوان بخشی از واژگان برای بهبود عملکرد Qanta بسیار کمک می‌کند.
با ترکیب مدل Qanta و ir-wiki توانستند به پایگاه اطلاعاتی بزرگ ویکی‌پدیا و بازنمایی‌های ترکیبی عمیق دسترسی پیدا کنند که بسیار بهتر از هر دو مدل به صورت جداگانه عمل می‌کند.
جدول زیر دقت مدل‌های مختلف را برای تاریخ و ادبیات در دو موقعیت جمله اول از هر سؤال و تمام سؤال را نشان می‌دهد.در قسمت بالای جدول مدل‌های آموزش دیده روی سؤالات را مقایسه شده است ولی در قسمت پایین جدول مدل IR به ویکی‌پدیا هم دسترسی دارد. QANTA از تمام مدل‌هایی که فقط به داده‌های پرسشی محدود هستند، بهتر عمل می‎‌کند. در QANTA باید جمله ورودی یک موجودیت را بدون اشاره به آن موجودیت توصیف شود اما این محدودیت در جملات ویکی‌پدیا رعایت نمی‌شود. روش IR روی داده‌های ویکی بدون هیچ مشکلی عمل می‌کند و QANTA تنها روی مجموعه‌ای از جفت‌های پرسش و پاسخ آموزش دیده است، بنابراین می‌تواند عملکرد مدلIR را با دسترسی به ویکی‌پدیا به طور قابل توجهی بهبود دهد. ![دقت مدل‌های مختلف](https://boute.s3.amazonaws.com/292-12132144.PNG)
نمودار زیر مقایسه QANTA+IR-WIKI با شرکت کنندگان رقابت quiz bowl را نشان می‌دهد. هر میله نشان دهنده یک بازیکن است و ارتفاع میله مربوط به تفاوت بین نمره مدل و نمره انسانی است. میله‌ها با مهارت انسانی مرتب شده‌اند. میله های قرمز نشان می دهد که انسان برنده است، در حالی که میله های آبی نشان می دهد که مدل برنده است. QANTA+IR-WIKI  از بیشتر بازیکنان در سوالات تاریخی بهتر می‌کند (تساوی یا شکست 16 بازیکن از 22 بازیکن) اما به طور متوسط نمی‌تواند آن‌ها را در سؤالات  ادبیات را شکست دهد(تساوی یا شکست تنها 8 بازیکن).این نشان می‌دهد که سوالات ادبی برای مدل سخت‌تر از سوالات تاریخی است.![مقایسه عملکرد QANTA+IR-WIKI با انسان](https://boute.s3.amazonaws.com/292-sdfrjyuki.PNG)
در اینجا دو مثال برای تفهیم بهتر موضوع آوردیم:
جمله اول از یک سوال ادبی که درباره یک نویسنده بنام "Thomas Mann" است:
He left unfinished a novel whose title character forges his father’s signature to get out of school and avoids the draft by feigning desire to join
تمام مدل‌ها، از جمله ir-wiki نمی‌توانندبا در نظر گرفتن تنها یک جمله  پیش‌بینی درستی برای پاسخ این سوال بدهند درحالی‌که Qanta با کمک طرح توصیفی پاسخ را درست پیش‌بینی کرده است. دلیل آن هم این است که جمله شامل موجودیت‌های بدون نام است که کار را برای روش‌ سبد واژگان و الگوریتم تطبیق رشته، سخت می‌کند. در شکل زیر 5 پاسخ با بالاترین امتیاز از نظر معیار QANTA را نشان می‌دهد. با توجه به درخت وابستگی جمله، گره "رمان" نشان‌دهنده پاسخ است. هر سلول در نقشه حراراتی امتیاز جمله[^ حاصلضرب داخلی گره درخت تجزیه و پاسخ داده شده] را نشان می‌دهد.![یک سوال درباره رمان‌نویس آلمانی Thomas Mann و 5 پاسخ برتر از نظر امتیازدهی Qanta](https://boute.s3.amazonaws.com/292-dkuyduy.PNG)
مثال بعدی جمله اول یک سوال راجع به John Quincy Adams است که تنها مدل Qanta پاسخ صحیح به آن داده است. مدل سبد واژگان Henry Clay را حدس زده است که در قرن نوزدهم وزیر امور خارجه بود و در یک معامله فاسد به John Quincy Adams کمک کرد تا به عنوان رئیس جمهور انتخاب شود. مدل Qanta تشخیص می‌دهد که اگرچه Henry Clay در آن زمان فعال بود و در مسائل سیاسی همان دوره درگیر بود اما نماینده بردگان Amistade نبود و درباره پیمان Ghent مذاکره نکرد. در جدول زیر جمله اول 5 سوال و 3 پاسخ برتر هر یک نشان داده شده است. پاسخ‌های صحیح با رنگ آبی و پاسخ‌های نادرست با رنگ قرمز مشخص شده اند. در سه سوال اول تنها qanta پاسخ صحیح می‌دهد، دو سوال آخر هم برای تمام مدل‌ها سخت است زیرا نیاز به اطلاعات خارجی و استدلال‌های زمانی دارد. ![جمله اول 5 سوال به همراه 3 پاسخ برتر از نظر امتیازدهی Qanta هریک](https://boute.s3.amazonaws.com/292-33.PNG)
سوالات quiz bowl بخصوص در جملات اول طوری بیان می‌شوند تا شرکت‌کنندگان برای پاسخ دادن به آن‌ها تلاش کنند. بنابراین بهتر است بفهمیم چه چیزی یک سوال را سخت می‌کن تا آن را به مدل یاد بدهیم. برای مثال در زیر جمله اول سوالی در مورد محقق ایتالیایی John Cabot آمده است:
As  a  young  man,  this native of Genoa disguised himself as a Muslim to make a pilgrimage to Mecca
هر کسی پس از خواندن این جمله به سادگی تشخیص می‌دهد که فرد مذکور واقعا مسلمان نیست درحالی که مدل Qanta برای رسیدن به این حقیقت باید فعل "disguised" را مدل کند. شکل زیر نقشه حرارتی و درخت وابستگی این جمله را نشان می‌دهد. مدل با دیدن کلمات مکه و مسلمان به اشتباه به سمت 3 امپراطور مغول هدایت می‌شود که در 5 حدس نادرست Qanta  وجود دارد.![یک نمونه سوال گمراه‌کننده برای مدل‌های کامپیوتری](https://boute.s3.amazonaws.com/292-ddhd.PNG)
# پیاده‌سازی
مدل QANTA توسط خود نویسنده مقاله[^Mohit Iyyer] پیاده‌سازی شده است. کد آموزش و ارزیابی آن همراه با مجموعه داده‌های مورد استفاده برای آموزش شبکه در  [پیوند](https://cs.umd.edu/~miyyer/qblearn/)دسترس است.
 همچنین مجموعه سوالات مورد استفاده در این مقاله و سوالات دیگر موضوعات نیز در لینک [پیوند](https://code.google.com/p/protobowl/downloads/detail?name=shuffled.json) برای عموم قابل دسترسی است. کد پیاده‌سازی این مدل به زبان پایتون انجام شده است. برای استفاده از آن به (Python ( 2.7.7), numpy ( 1.8.1), scikit-learn ( 0.14.1), nltk ( 2.0.4 نیاز است.
# نتیجه گیری
مدل qanta  یک شبکه عصبی بازگشتی درخت وابستگی برای پاسخ به سوالات کسب حقیقت ارائه شده است و عملکردی بهتر از سایر مدل‌ها از جمله سبد واژگان و روش‌های بازیابی اطلاعات دارد. در این مدل بردارهای پاسخ با استفاده از تابع هدف حداکثر حاشیه مناسب در طول آموزش بروزرسانی می‌شوند. در نهایت نتیجه می‌شود بازنمایی‌های سطح جمله می‌توانند برای تولید بازنمایی‌های سطح پاراگراف با هم ترکیب شوند و این قدرت پیش‌بینی را در مقایسه با بازنمایی‌های تولید شده از یک جمله افزایش می‌دهد.
# مراجع
[1] K. M. Hermann and P. Blunsom, “The Role of Syntax in Vector Space Models of Compositional Semantics.,” _Acl_, pp. 894–904, 2013.
[2] J. Boyd-Graber and B. Satinoff, “Besting the quiz master: crowdsourcing incremental classification games,” _Emnlp_, no. July, pp. 1290–1301, 2012.
[3] K. Erk, “Vector Space Models of Word Meaning and Phrase Meaning: A Survey,” _Linguist. Lang. Compass_, vol. 6, no. 10, pp. 635–653, 2012.
[4] A. Yessenalina and C. Cardie, “Compositional Matrix-Space Models for Sentiment Analysis,” _Comput. Linguist._, pp. 172–182, 2011.
[5] E. Grefenstette, G. Dinu, Y.-Z. Zhang, M. Sadrzadeh, and M. Baroni, “Multi-Step Regression Learning for Compositional Distributional Semantics,” no. 2010, 2013.
[6] R. Socher, J. Bauer, C. D. Manning, and A. Y. Ng, “Parsing with compositional vector grammars,” _ACL 2013 - 51st Annu. Meet. Assoc. Comput. Linguist. Proc. Conf._, vol. 1, pp. 455–465, 2013.
[7] R. Socher, D. Chen, C. Manning, D. Chen, and A. Ng, “Reasoning With Neural Tensor Networks for Knowledge Base Completion,” _Neural Inf. Process. Syst._, pp. 926–934, 2013.
[8] R. Socher, A. Perelygin, and J. Wu, “Recursive deep models for semantic compositionality over a sentiment treebank,” _Proc. …_, no. October, pp. 1631–1642, 2013.
[9] N. Kalchbrenner and P. Blunsom, “Recurrent Continuous Translation Models,” _Emnlp_, no. October, pp. 1700–1709, 2013.
[10] Q. V. Le and T. Mikolov, “Distributed Representations of Sentences and Documents,” vol. 32, 2014.
[11] M. Wang, “A survey of answer extraction techniques in factoid question answering,” _Comput. Linguist._, 2006.