در دنیای وب با سایت‌های بسیار زیادی در زمینه‌های مختلف مواجه هستیم که تنها به مسئله پرسش و پاسخ می‌پردازند. در واقع این سایت‌ها دو کار مهم را انجام می دهند. اولا سوال‌هایی را که کاربران در آن‌ها مطرح می‌کنند را به کسانی که ممکن است بتوانند جواب خوبی به آن بدهند نشان می‌دهند. و دوم این که به کاربران این اجازه را می‌دهند که در آرشیو بسیار بزرگ پرسش و پاسخ‌های این سایت جستجو کنند تا اگر پرسش مد نظر آن‌ها قبلا توسط یک کاربر دیگر پرسیده شده، از تجربه پرسش و پاسخ آن کاربر استفاده کنند. از نمونه‌های بسیار موفق این نوع سایت‌ها stack overflow می‌باشد.

با توفیقی که این نوع سایت‌های پرسش و پاسخ در کار خود پیدا کردند و استقبال بسیار زیاد از آن‌ها، این سایت‌ها پس از گذشت زمان تبدیل به منبع بسیار بزرگی از مجموعه پرسش‌ها و پاسخ‌ها شده‌اند. حالا چالش اصلی این است که یک کاربر چگونه می‌تواند پاسخ مربوط به پرسش خود را از بین این مجموعه عظیم از پرسش و پاسخ‌ها پیدا کند.

در واقع بازیابی پاسخ همان مسئله بازیابی اطلاعات است که می خواهد با توجه به این که اطلاعات ما به صورت پرسش و پاسخ‌هاست و معمولا کاربر هم به عنوان کوئری یک پرسش را مطرح می‌کند، بازیابی بهتری را به نسبت روش‌های کلی بازیابی اطلاعات ارائه دهد.

پس اجمالا این پژوهش به بررسی روش های بازیابی پاسخ مناسب یک پرسش در مجموعه عظیمی از پرسش و پاسخ‌ها می‌پردازد.

۱. مقدمه

در این پروژه قرار است محتویات تعدادی زیادی پرسش و پاسخ بررسی شود و کلمات را بر اساس قواعدی توکنایز میکنیم مثلا ریشه کلمات را بدست می آوریم و که در مراحل بعدی در ذخیره کلمات با مشکل مواجه نشویم و بر اساس پرسشی که کاربر انجام داده پاسخ پرسشی که در سیستم وجود دارد و مشابه پرسش انجام گرفته شده است به کاربر ارائه میشود.

۲. کارهای مرتبط

میتوانیم برای ذخیره داده ها از inverted index استفاده کنیم و به کلمات وزن خاصی نسبت دهیم تا با مقایسه میانگین وزن هر پرسش موجود در سیستم ،با وزن پرسش مطرح شده ،بهترین پاسخ را مرتبط با سوال انجام گرفته ارائه دهیم.

۳. روش‌ها و ارزیابی نتایج

میتوانیم از دو روش cos و انحراف معیار(روش پیشنهادی) استفاده کنیم و نتایج را مقایسه کنیم.و همچنین میتوان داده ها را بر اساس روش single link یا complete link خوشه بندی کنیم و بر این اساس بهترین پاسخ را استخراج کنیم.

۴. کارهای آینده

تمام کارهایی که میخواهم انجام دهم بر اساس فصول 5و6و7و8و9 کتاب Introduction To Information Retrieval میباشد.
با تشکر

۵. مراجع

  • Jeon, Jiwoon. Searching question and answer archives. ProQuest, 2007.

  • Xue, Xiaobing, Jiwoon Jeon, and W. Bruce Croft. "Retrieval models for question and answer archives." Proceedings of the 31st annual international ACM SIGIR conference on Research and development in information retrieval. ACM, 2008.

  • Rodrigo, Álvaro, et al. "A Question Answering System based on Information Retrieval and Validation." CLEF (Notebook Papers/LABs/Workshops). 2010.

۶. لینک‌های مفید

Introduction To Information Retrieval

محسن ایمانی

شما برای فاز اول لازم بود که چند مقاله در این حوزه (حداقل مقالاتی که در ارجاعات برای نمونه قرار داده شده بود) مطالعه می‌کردید و یک کار مرتبط را به طور کامل معرفی می‌نمودید که کار مرتبط شما بسیار سطحی و ناقص بود و مقالات دیگری را هم مطالعه نکردید.

همچنین قرار بود که مقالاتی را هم در این زمینه به مراجع اضافه کنید که این کار را هم انجام ندادید.