تشخیص واحد های اسمی، مسئله ی یافتن و دسته بندی کردن واحدهای اسمی مانند نام های افراد، مکان ها، مناسبات ، سازمان ها و ... است که به عنوان زیر شاخه ای از پردازش زبان های طبیعی و همچنین استخراج اطلاعات (داده کاوی) شناخته می شود. جدیدترین دست آورد های مربوط به سیستم های تشخیص واحد های اسمی، برای یادگیری از روی یک مجموعه داده های یادگیریِ کوچک به شدت وابسته به ویژگی هایی است که به صورت دستی استخراج شده اند و همچنین وابستگی زیادی به دانش حوزه مربوطه دارد. این مقاله تلاش نموده که با ارائه ی مدل ها و بهبود برخی الگوریتم ها این مشکلات را رفع کند. برای این کار دو معماری جدید از شبکه های عصبی را معرفی کرده که یکی بر پایه ی LSTM های دوسویه (bidirectional) و میدان تصادفی شرطی است و دیگری از روشی الهام گرفته که از پارسر های shift-reduce استفاده می کند و با استفاده از روش های transition-based بخش ها را تولید و برچسب گذاری می کند.

مدل های به کار رفته در مقاله وابسته به دو منبع از اطلاعات در مورد کلمات هستند:

  1. نمایش کلمات به صورت حرف محور (character-based) که از روی مجموعه داده های نظارت شده (supervised) یادگرفته شده اند.

  2. نمایش کلمات به صورت نظارت نشده (unsupervised) که از روی داده های علامت گذاری نشده یادگرفته شده اند.

این مدل ها به بهترین کارایی در زمان خود دست پیدا کرده اند .برای شناسایی واحد های اسمی، بدون استفاده از دانشِ وابسته به زبانی خاص یا
استفاده از منابعی مانند gazetteers بر روی چهار زبان مختلف آزمایش شده، بهترین نتایج را نشان داده اند.

مقدمه

مسئله ی تشخیص واحد های اسمی یا به طور مختصر NER یک مسئله ی چالش برانگیز در حوزه ی یادگیری به شمار می رود. وجود تعداد بسیار کم داده های یادگیریِ نظارت شده از یک جهت و قواعد و محدودیت های بسیار اندک بر روی کلماتی که می توانند اسم باشند از جهتی دیگر، تعمیم دانشِ موجود در این نمونه های کوچک را سخت کرده اند. نتیجتا یکسری ویژگی های املائی ساختاریافته و منابع اطلاعاتیِ مختص زبان برای پوشش این مشکلات تولید شده اند. متاسفانه از آنجایی که تولید این منابع برای هر زبان باید تکرار شود و این فرایند هزینه بر است، تولید NER به یک چالش تبدیل شده است. استفاده از یادگیریِ نظارت نشده استراتژی دیگری است که می تواند نتایج بهتری را با استفاده از داده هایی که دستی ایجاد شده اند، تولید کند. هرچند سیستم هایی که با این روش درست شده اند،به جای اینکه ویژگی های با دست تولید شده و منابع اطلاعاتی مختص زبانی را جایگزین کنند، از این تکنیک برای بهبود روش های پیشین استفاده کرده اند.

معماری شبکه عصبی معرفی شده در این مقاله، از هیچگونه منابع اطلاعاتی وابسته به زبان بجز یک مجموعه داده های یادگیریِ نظارت شده و یک مجمع داده گان نظارت نشده استفاده نمی کند. مدل های ارائه شده به گونه ای طراحی شده اند که دو مفهوم را شناسایی کنند. اول اینکه چون اسم ها اغلب از چند کلمه تشکیل شده اند، نتیجه گیری به صورت اشتراکی روی تگ ها حائز اهمیت است. دوم اینکه در احتمال پیش آمد اینکه یک کلمه اسم باشد هم شکل املایی کلمه و هم نحوه ی توزیع واحد های اسمی در متن، دخیل هستند. تکنیک های به کار رفته در ساختار مدل های ارائه شده این اطلاعات را استخراج کرده و یاد می گیرند.

مجموعه داده گان

در این مقاله مدل های ارائه شده بر روی مجموعه داده گان مختص NER آزمایش شده اند. برای نمایش توانایی مدل های ارائه شده نتایج آزمایش بر روی دو مجمع داده گان ارائه شده است، یکی CoNLL_2002 و دیگری CoNLL_2003 که شامل برچسب های واحد های اسمی مستقل ازهم برای زبان های انگلیسی، اسپانیایی، آلمانی و هلندی می باشند.همه ی این مجموعه داده ها شامل چهار نوع مختلف دسته بندی برای واحدهای اسمی هستند: اماکن، افراد، سازما ن ها و متفرقه.
در متد ارائه شده هیچگونه پیش پردازشی روی مجموعه داده گان صورت نمی گیرد، تنها برای زبان انگلیسی اعداد موجود در متن به صفر تبدیل می شوند.