استفاده از متد یادگیری عمیق برای تشخیص عبارات چند کلمه ای در متن

۱. مقدمه

عبارات چند کلمه ای (MWE)، آیتم هایی هستند که میتوانند به اجزای تشکیل شونده تجزیه شوند، اما این عبارات خصوصیاتی دارند که نمیتوان اجزاء آن ها را به سادگی تشخیص داد[1] به عنوان مثال در جمله staff leaves a lot to be desired عبارت leave to یک عبارت چند کلمه ای است ولی در بین اجزای تشکیل دهنده آن کلمات دیگری هم آمده است.
در این مقاله برای اولین بار مدل یادگیری عمیق برای تشخیص MWE پیشنهاد شده است و از یک شبکه بازخورد لایه ای، یک شبکه عصبی مکرر و شبکه های عصبی کانولوشن برای آموزش و تست استفاده شده است، در آزمایش ها به این نتیجه دست یافتند که شبکه های عصبی کانولوشن با سه لایه پنهان بهترین عملکرد را دارد.
عبارات چند کلمه ای شامل طیف گسترده ای از عبارات مانند ترکیبات اسمی مثل speed limit، جملات چندبخشی مثل clean up، اصطلاحات مثل hit the roof، نام ها مثل Prime Minister Justin Trudeau و ضرب المثل ها مثل two wrongs don't make a right هستند.
چالش هایی که توسط MWE مطرح می شود باعث می شود که آن را به عنوان "درد گردن" برای NLP نام گذاری کنند.[2] با این وجود در صورت این که MWE ها را در متن تشخیص دهیم باعث می شود کارایی کارهایی مانند ترجمه ماشینی[3]، بازیابی اطلاعات[4] و ... بهبود یابد.

۲. کارهای مرتبط

این کار برخلاف کارهای قبلی که بر روی طیف خاصی از MWE ها تمرکز داشتند، برای طیف گسترده ای از MWE ها قابل استفاده است.
یادگیری عمیق اخیرا در کارهای مختلفی مانند ترجمه ماشین و ... استفاده شده است و نتایج دلگرم کننده ای را هم داشته است ولی با این حال برای تشخیص طیف گسترده ای از MWE ها استفاده نشده است.
در این مقاله برای اولین بار مدل یادگیری عمیق برای شناسایی طیف گسترده MWE ها ارائه داده شده است، در این مقاله پیشنهاد استفاده از یک شبکه بازخورد لایه ای، یک شبکه عصبی مرکزی و دو شبکه عصبی کانولوشن داده شده. اگر این مدل را با مدل های سنتی یادگیری ماشینی نظارتی گذشته مقایسه کنیم، درمی یابیم که با توجه به اندازه نسبتا کوچک دیتاست، یادگیری عمیق میتواند به خوبی یاد بگیرد و براساس مقایسه میزان دقت، بهتر از مدل های قبلی عمل کند.

۳. توضیح مدل ها

تقریبا 320 هزار ویژگی برای اموزش و تست استخراج شده است.

مدل Layered FeedForward Network
اگرچه LFN ها برای طیف گسترده ای از مسائل طبقه بندی و رگرسیون مورد استفاده قرار گرفته اند، اما نشان داده شده است که آن ها برای مسائلی مانند کلاس بندی تصاویر و ترجمه ماشینی مناسب نیستند، بنابراین LFN به عنوان یک معیار برای مقایسه عملکرد معماری های دیگر استفاده شده است.

مدل Recurrent Neural Network
مدل های RNN بخاطر توانایی ذاتی توالی بودن برای خیلی از مسائل NLP استفاده میشوند، در این جا از RNN1 برای شناسایی طیف گسترده MWE ها استفاده شده است.

مدل Convolutional Neural Network
مدل های CNN به عنوان طبقه بندی قدرتمند شناخته میشوند و از آنجا که شناسایی MWE ها میتواند به عنوان یک وظیفه طبقه بندی مطرح شود، CNN ها توانایی انجام آن را دارند.
برای ارزیابی از معماری CNN با دو و سه لایه پنهان استفاده شده چون براساس ارزیابی که انجام شده، CNN با دو و سه لایه پنهان خوب کار میکند و اگر لایه بیشتری اضافه کنیم، overfit می شود. به طور مشابه اضافه کردن لایه بیشتر به CFN و RNN باعث overfit شدن می شود.

۴. معرفی دیتاست

از داده های DIMSUM برای آموزش و ارزیابی مدل ها استفاده شده است و در این جا تنها بر روی کار شناسایی MWE ها تمرکز شده است و استفاده از داده های DIMSUM باعث شده است که بتوان نتایجی که به دست آمده است را با نتایج تحقیقات قبلی مقایسه کرد.
همچنین نیاز به validation data است، برای این کار دیتا به 5 قسمت تقسیم شده است، که در آن هر بار 20 درصد برای اعتبارسنجی و 80 درصد برای آموزش به کار می رود.
متون DIMSUM از رسانه های اجتماعی استخراج شده اند و شرح آن در جدول زیر آمده است.

توصیف آماری ترکیب مجموعه داده های DIMSUM

۵. برچسب زدن نشانه ها

برچسب زنی نشانه ها بر اساس کنوانسیون BIO است، B نشانه دهنده آغاز MWE است، I نشان دهنده ادامه MWE است و O نشان دهنده این است که نشانه بخشی از MWE نیست.

۶. مروری بر ادبیات

دیتاست: از دو بخش training set و test set تشکیل شده است.
مجموعه training: معمولا بخش بزرگی از داده های موجود را برای مرحله یادگیری به وسیله ماشین اختصاص می دهیم.
مجموعه test: معمولا بخش کوچکی از داده های موجود را برای مرحله تست به وسیله ماشین اختصاص می دهیم.
یادگیری بیش از حد (over fiting): اگر در هنگام یادگیری مثلا از تعداد خیلی زیادی از ویژگی ها استفاده کنیم باعث over fit شدن می شود.

۷. مراجع

Timothy Baldwin and Su Nam Kim. 2010. Handbook of natural language processing. In Nitin Indurkhya and Fred J. Damerau, editors, Handbook of Natural Language Processing , CRC Press, Boca Raton, USA. 2nd edition.
Ivan A. Sag, Timothy Baldwin, Francis Bond, Ann Copestake, and Dan Flickinger. 2002. Multiword expressions: A pain in the neck for NLP. In Proceedings of the Third International Conference on Intelligent Text Processing and Computational Linguistics (CICLING 2002) . pages 1–15.
Marine Carpuat and Mona Diab. 2010. Task-based evaluation of multiword expressions: a pilot study in statistical machine translation. In Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics . Los Angeles, California, pages 242–245.
David Newman, Nagendra Koilada, Jey Han Lau, and Timothy Baldwin. 2012. Bayesian text segmentation for index term identification and keyphrase extraction. In Proceedings of COLING 2012 . Mumbai, India, pages 2077–2092.