تشخیص موجودیت‌های نامدار

موجودیت‌های نام‌دار در زبان به مجموعه‌ای از اسامی مانند نام افراد، سازمان‌ها، مکان‌ها، و... می‌باشد. شناسایی موجودیت‌های نام‌دار در متن مسئله پیدا کردن این موجودیت‌ها از متن خام و همچنین شناسایی نوع موجودیت است.

برای مثال:
آدولف بورن، طراح، کاریکاتوریست و نقاش در شهر بودجویس از جمهوری چک به دنیا آمد.

آدولف B-PERSON
بورن I-PERSON
،
کاریکاتوریست
و
نقاش
در
شهر
بودجویس B-LOCATION
از
جمهوری B-LOCATION
چک I-LOCATION
به
دنیا
آمد
.

در این پژوهش روش‌های تضحیص خودکار موجودیت‌های نام‌دار در متن معرفی شده و یکی از آن‌ها برای زبان فارسی پیاده‌سازی و آزمایش خواهد شد.

  • این پروژه توسط یک بنگاه تجاری تعریف شده است و اگر به خوبی انجام شود، مورد حمایت قرار می‌گیرد.

مقدمه

موجودیتهای نامدار در متن به عباراتی گفته می شود که حاوی اسامی اشخاص، سازمانها و یا مکانها باشند[1].در سامانه های تشخیص موجودیتهای اسمی عمومی بیشتر به سمت پیدا نمودن اسامی اشخاص، مکانها و سازمانهایی که در یک متن معمولی خبری ذکر شده است، تمرکز می شود.اولین مرحله در اغلب کاربردهای استخراج اطلاعات از متن 1، تشخیص و دسته بندی موجودیتهای نامدار در یک متن است. به این عملیات تشخیص موجودیتهای نامدار 2 اطلاق میشود[2].
در واقع مساله تشخیص موجودیت های نامدار در متن عموما به دو زیر مساله تشخیص و دسته بندی موجودیت ها تقسیم می شود :
1.اسامی خاصی که تشخیص داده می شوند.
2.قالبی که برای دسته بندی آنها به کار میرود که وابسته به نوع کاربرد آن خواهد بود.

نیاز به شناسایی موجودیتهای نامدار، در دنیای امروز که عصر ارتباطات و اطلاعات است رو به رشد میباشد. شناسایی موجودیتهای نامدار برای جستجوهای معنادار، ترجمه ی خودکار، استخراج خودکار مفاهیم متن، کشف ارجاعات درمتن و بسیاری دیگر از زمینه های مربوط به پردازش زبان های طبیعی3 کاربرد دارد[3].کاربردهای دیگری برای تشخیص موجودیت های نامدار تعریف گردیده است:

  • طبقه بندی متون 4 : یک سیستم طبقه بندی کننده می تواند به جای اینکه ویژگی های خود را از کل متن استخراج کند ابتدا توسط NER اسامی را از متن استخراج کرده و سپس طبقه بندی را بر اساس این اسامی انجام دهد.استفاده از NER دقت طبقه بندی را تا حد قابل توجیهی افزایش می دهد.

  • سیستم پرسش و پاسخ 5 : پاسخ بسیاری از سوالات یک متن مانند کی؟ کجا؟چه زمانی؟ چه مقدار ؟ و ... در اسامی حاضر در متن قرار دارد که می توان آنها را توسط یک سیستم NER از متن استخراج کرد.

  • خلاصه سازی متون6 :داده های به دست آمده از یک سیستم NER شامل اطلاعات کلی از یک متن می باشد که در خلاصه سازی متون بسیار مفید است.

  • بهینه کردن جستجو: زمانی که ما یک کلمه را جستجو می کنیم با توجه به فرم و نقش آن نتایج متفاوتی به دست می آید .به طور مثال اگر "استاد یوسفی " را جستجو کنیم منظورمان اسم شخص است و نتایجی مانند "خیابان استاد یوسفی" که اسم مکان است غیرمفید هستند.[11]

کارهای مرتبط

در سال های اخیر سیستم های تشخیص واستخراج خودکار واحدهای اسمی به یکی از محدوده های پر طرفدار تحقیقاتی تبدیل شده است. این سیستم ها را می توان به سه دسته تقسیم بندی کرد:
1-روش های مبتنی بر قوانین که به صورت دستی مشخص شده اند 7
2- سیستم ها ی مبتنی بر یادگیری ماشینی8
3- سیستم های که ترکیبی از دو روش قبل هستند.[10]

سیستمهای توسعه یافته بر پایه یادگیری برای NERC به سه دسته تقسیم میشوند :
1.یادگیری با نظارت9 : یادگیری با نظارت، نیاز به حجم زیادی از متون حاشیه نویسی شده است و از تکنیک هایی نظیر درخت تصمیم گیری و مدل استفاده می کند. این روش مناسب برای مدل مخفی مارکوف10 و سیستمهای وابسته به دامنه است.
2.یادگیری نیمه نظارت11 : در یادگیری نیمه نظارت از مجموعهای از کلمات نمونه برای یادگیری استفاده میشود (مثل مجموعهای از نام کتابها). این روش ها ابتدا سعی در یافتن موجودیتهای نمونه در متون کرده و سپس با توجه به ساختار متن در بر دارنده کلمات، بدنبال سایر موجودیتهایی از آن نوع میگردد.
3.یادگیری بی نظارت12 :یادگیری بدون نظارت، با استفاده از منابع لغوی و الگوهای لغوی و محاسبات آماری به شناسایی میپردازد. به عبارتی تکنیک معمول برای یادگیری بدون نظارت بر پایه دسته بندی موجودیتها است.[3]

روش مبتنی بر قوانین
رهیافت های مبتنی بر قوانین، روی استخراج نام با استفاده از تعداد زیادی از مجموعه قوانین ساخته شده به صورت دستی تمرکز نموده اند . به طور کلی این سیستم ها مجموعه ای از الگوها هستند که از مشخصه ها ی گرامری (مانند ادات سخن) ،نحوی ( مانند تقدم کلمات) و املایی ( مانند بزرگ و کوچک بودن حروف ) در کنار ترکیبی از لغت نامه استفاده می کنند.
این نوع از مدل ها برای دامنه های خاص نتایج بهتری را حاصل کرده اند و توانایی تشخیص واحدهای پیچیده ای را دارند که روش های مبتنی بر یادگیری ماشین به سختی می توانند آنها را تشخیص دهند .
به هر حال روش های مبتنی بر قوانین مشکل غیر قابل حمل بودن و نیز کمبود قابلیت اطمینان را دارند. علاوه بر آن هزینه های بالای ایجاد قوانین نیز به مشکلات این روش اضافه می شود حتی اگر تغییر کوچکی در داده های ما ایجاد شود این هزینه افزایش می یابد . این نوع رهیافت اغلب منحصر به زبان یا حوزه خاص می شوند و نمی توانند به طرز مناسبی با زبان و حوزه ها ی جدید منطبق شوند.[6]
روشهای اولیه ای که برای کشف موجودیتهای نامدار پیشنهاد می شد بیشتر مبتنی بر قانون بود، در حالی که امروزه اکثر کارها به سمت استفاده از روشهای یادگیری پیش میرود.
در زبان فارسی با توجه به عدم وجود پیکره های برچسب خورده با برچسب های معنایی یا طبقات نامدار و همچنین دردسترس نبودن واژگان های کاملی چون وردنت 13به ناچار باید تمرکز بیشتر بر روش های مبتنی بر قاعده باشد. چون در زبان فارسی همچون زبان انگلیسی امکان درک موجودیت نامدار با توجه به بزرگی حرف اول کلمات وجود ندارد،پس بجای آن برای بهبود سیستم از برچسبگذاریهای نحوی و مجموعهای از اسامی خاص مانند مجموعه اسامی مناطق، افراد، روزهای هفته، واحدهای پولی، عناوین و... استفاده میشود.[3]

معماری سیستم مبتنی بر قوانین
سیستم NER معرفی شده در این قسمت از سه بخش اصلی : پیش پردازش، تشخیص و برچسب زنی و پالایش تولید نتیجه تشکیل شده است.
آپلود عکس | آپلود | سایت آپلود عکس | اپلود عکس

در این سیستم پس از دریافت متن، با ورودی مورد پذیرش سیستم تطبیق داده میشود، واحدهای خاص شناسایی شده و برچسب POS زده میشود. بعد از این سپس بر روی آن برچسب گذاری نحوی، با توجه به ترکیبهای اعداد، کلمات و علامات به شناسایی اولیه اعداد و برچسب گذاریهای معنایی پرداخته می شود و برچسب گذاری ثانویهای از نامهای خاص مکمل این مرحله است. در انتهای مرحله پیش پردازش، با استفاده از ساختار واژگانی اسامی خاص، سعی در شناخت این واژگان مستقل از متن میشود.
در مرحله ی شناسایی، با توجه به نحوهی چیدمان واژگان درمتن و الگوهای موجود برای هر مقوله، موجودیتهای نامدار شناخته شده و مرز آنها با توجه به تکرارها و برچسب نحوی و معنایی کلمات مشخص میشود. در انتها با حذف خطاها و تکرارهای شناخته شده، هر موجودیت در مقوله ی مناسب خود دسته بندی شده و خروجی با برچسب گذاری معنایی موجودیتهای نامدار با عنوان مقوله ای که در آن قرار می گیرند تولید می شود.[3]

مقوله بندی برچسب های معنایی
موجودیتهای نامدار در مقوله های مختلفی دسته بندی میشوند. این مقوله ها میتوانند بسته به هدف سیستم تشخیص اسامی نامدار، در طیفی از زمینه های تخصصی چون تشخیص و ... تا زمین های عامی چون نام «DNA» اسامی بیماریها و افراد یا سازمانها رده بندی شوند. در این طبقه بندی هر مقوله ی کلی هم میتواند به زیر مقوله های جزئی تر تقسیم شود. یک موجودیت نامدار میتواند در هر رده از سلسله مراتب بالا قرار گیرد. هر چه در عمق پایینتر، برچسب معنایی آن دقیقتر است.[3]
آپلود عکس | آپلود | سایت آپلود عکس | اپلود عکس

  • مرحله پیش پردازش

پس از دریافت متن ورودی و پیش از انجام هر گونه عملیاتی شناسایی بر روی متن، ابتدا واحدهای خاص چون URL شناسایی می شوند و سپس پردازشهای اولیه مورد نیاز برروی متن، اجرا می شوند. این پردازش ها شامل قطعه بندی و تحلیل ساختواژی احتمالی جهت آماده سازی متن برای ورود به پیمانه برچسب زن مقوله نحوی ارتقاء یافته است. همچنین برچسبهای معنایی اولیه، برای اعداد و ترکیب آنها با علامات اطراف و نیز ساخت شناسی کلمات خاص، در این مرحله زده میشود تا در مرحله تشخیص، اصلاح و تکمیل شوند.همچنین این قسمت شامل مراحل زیر است :
1- استخراج واحدهای خاص
برخی از واحدهای متنی لازم است به همان شکل وارد شده در متن و بدون هیچ پردازش یا تغییر شکلی استخراج شوند. از جمله این واحدها می توان به آدرس صفحات وب URL یا آدرس نامه های الکترونیکی اشاره نمود چون ایجاد فاصله در این موارد امکان تشخیص را پایین می آورد.
2- قطعه بندی و برچسب گذاری مقوله نحوی ارتقاء یافته
پس از استخراج واحدهای خاص برای عمل قطعه بندی، کلیه عملیات لازم اعم از جدا کردن کلمات چسبیده، برداشتن فاصله ها و نیم فاصله های اضافه، چسباندن کلمات جدا را سیستم انجام میدهد.
بعد از این پردازشهای اولیه، متن حاصل به برچسب زن مقوله نحوی می شو دکه متن را بر اساس مجموعهای از نوع برچسب14برچسب گذاری می کند.
3- برچسب زنی اعداد
در سیستم شناسایی موجودیت های نامدار، علاوه بر برچسب زنی معمول نیاز به برچسب های پیشرفته تری نیز هست که بر اساس ترکیب برچسب های قبلی بدست می آیند. در جدول زیر برچسبهای بکار رفته در این مرحله آورده شده است.[3]
آپلود عکس | آپلود | سایت آپلود عکس | اپلود عکس

مرحله شناسایی موجودیت و برچسب معنایی آن
پس از مرحله پیش پردازش نوبت به شناسایی موجودیت های نامدار با استفاده از متن برچسب گذاری شده میرسد. در این مرحله ابتدا موجودیت های اسمی ها با استفاده از روشهای بکار برده شده که در ادامه مطرح شده اند حدس زده می شوند، سپس صحت موجودیت های اسمی و نوعشان که حدس زده شده بررسی می شود و نهایتًا مشخص میشود.
برای تشخیص یک کلمه در متنش، می توان از الگو استفاده کرد. در این سیستم نیز توجه به الگویی که هر کلمه در آن قرار گرفته به عنوان مبنای تشخیص بکار میرود. الگوها به صورت مجموعهای از کلمات و برچسبهایی هستند که در متن بدنبال هم میآیند.
الگوها به طور عام به صورت << دسته >> و یا << دسته >> ظاهر می شوند. در الگوی اول یک موجودیت یک کلمه ای و در الگوی دوم جایگاه یک موجودیت چند کلمه ایست.
مثلا «دولت » برای برای نام کشور و« نهاد* » نام یک نهاد بکار و میرود. در اینصورت عباراتی مثل "...دولت ایران.." و یا "...نهاد نمایندگی مقام معظم رهبری در دانشگاه ها..." با این الگوها مطابقت خواهند کرد.
مجموعًا در این سیستم، جستجو برای تشخیص موجودیت نامدار با کمک الگوها به این صورت انجام میگیرد که برای تک- تک عناصر برچسب گذاری شده در متن (با در نظر داشتن ضمایر چسبیده به کلمات و نیز ادات جمع)، هم برای خود کلمه وهم برای برچسب آن بررسی میشود که آیا در هیچ یک از الگوها صدق میکنند یا نه و به این ترتیب مجموعهای از اسامی خاص و نوع آنها (که عنوان مقوله هر الگو است) مشخص می شود.[3]

مرحله پالایش و تولید خروجی نهایی
پس از کشف موجودیتها و اعمال برچسب معنایی به آنها، سیستم وارد مرحله پردازش نهایی میشود. در این مرحله با توجه به ساختار سلسله مراتبی سیستم، موجودیتهای نامدار تکرار شده در یک مقوله و یا در مقوله های سطح پایینتر (گره فرزند) کشف شده و حذف میشوند. همچنین موجودیتهایی که درون موجودیتی دیگر قرار گرفته اند با توجه به مکان آنها در متن شناسایی و حذف میگردند. مثلا « انجمن شرکتهای بازرگانان نمونه » ممکن است « بازرگانان نمونه » را از مقوله شرکت ببیند ، در حالی که « شرکت بازرگانان نمونه>> از مقوله انجمن ، موجودیت خاص مورد نظر است. پس سیستم با مشاهده چنین شرایطی موجودیت نامدار تکرار شده در موجودیت نامدار دیگر را حذف میکند. نهایتًا مجموعه موجودیتهای شناسایی شده در مقوله مناسبشان دسته بندی شده و خروجی با برچسبهای معنایی تولید میشود.
این سیستم قابل استفاده به عنوان مکملی برای کاربردهایی از قبیل برچسبگذاریهای نحوی، استخراج اطلاعات و درک مطلب و خلاصه سازی ماشین میباشد.[3]

روش های مبتنی بر یادگیری ماشین
در سیستم های مبتنی بر یادگیری ماشینی ،هدف از رهیافت تشخیص واحدهای اسمی تبدیل مساله تشخیص به مساله دسته بندی است و از یک مدل آماری دسته بندی برای حل این مساله استفاده می شود.در این روش مدل به دنبال تشخیص الگوها و یافتن رابطه ی آنها با متن و ساختن یک مدل آماری و الگوریتم یادگیری ماشین است.
این سیستم ها نام ها را یافته و آن ها را بر اساس مدل به دست آمده با استفاده از روش های یادگیری ماشین به کلاس های از پیش تعیین شده مانند اشخاص ، مکان ها ، زمان ها و ... تقسیم می کند.
این مدل یادگیری، یادگیری با ناظر است یعنی سیستم با استفاده از یک مجموعه از مثال های برچسب گذاری شده ،دسته بندی را یاد می گیرد.
در این روش ابتدا سامانه به وسیله ی پیکره ای از داده های آموزشی که به صورت دستی و به وسیله ی انسان برچسب گذاری15 شده اند آموزش دیده، با یادگیری از طریق این داده ها به تشخیص خودکار اسامی خاص در متن می پردازد، که در بخش ویژگی های سندی اشاره شد.
برای برچسب زنی داده ی آموزشی از روش برچسبزنی شروع-داخل- خارج 16 استفاده میشود. در این روش، برای تشخیص موجودیتهای اسمی، کلمات متن را تک تک برچسب زنی می نماییم[1].
روش های با ناظر به داده های برچسب گذاری شده برای ساخت یک مدل آماری نیاز دارند. برخلاف رهیافت های مبتنی بر قوانین ، روش های یادگیری ماشین به راحتی به حوزه ها و زبان های دیگر منتقل می شوند. [6]

معماری سیستم تشخیص موجودیت های نامدار مبتنی بر یادگیری ماشین
شکل زیر معماری این سیستم را نشان می دهد :
آپلود عکس | آپلود | سایت آپلود عکس | اپلود عکس

مراحل شناسایی و طبقه بندی اسامی یک متن عبارتند از :
1 – یک متن با ورودی به سیستم ارائه می شود مانند جمله ی " حسن شنبه به تهران می رود."
2 – با استفاده از یک نشان گذار کلمات در متن ورودی از یکدیگر جدا می شوند.(حسن/شنبه/به/تهران/می رود)
3-با استفاده از برچسب زن دستوری نقش دستوری هر کلمه مشخص می شود(حسن/اسم | شنبه/اسم | به/حرف | تهران/اسم | می رود/فعل)
4 – با استفاده از برچسب دستوری کلمات ، اسامی شناسایی شده و از بقیه کلمات متن جدا می شوند.(حسن/شنبه/تهران)
5 –برای هر یک از اسامی بردار ویژگی لازم استخراج می شود.
6 – با استفاده از یک طبقه بند آماری ، اسامی در طبقات مربوطه طبقه بندی می شوند.

مراحل یک تا چهار مانند روش با قاعده است که توضیح داده شد.در اینجا مراحل استخراج ویژگی و طبقه بندی را توضیح می دهیم.
در مرحله استخراج برای هر یک از اسامی بردار ویژگی لازم استخراج می شود که این ویژگی ها شامل ویژگی های نویسه ای و ویژگی های دیگری که از کل متون آموزشی بدست آمده استفاده می شود.
سپس این بردارهای ویژگی به طبقه بند آماری داده می شود تا اسامی مکان و افراد از اسامی عمومی استخراج گردند.
برای آموزش سیستم خود هر اسم را به عنوان یک داده ی ورودی در نظر گرفته وبرای هر اسم با توجه به برچسب هایی که در این مجموعه داده برای آن در نظر گرفته شده یک سری ویژگی هایی را مشخص می کنیم.بعضی از ویژگی ها را هم که مربوط به خود کلمه است،می توان با استفاده از یک سری از الگوریتم های پردازش زبان بدست آورد.
برای هر اسم می توان ویژگی هایی از قبیل :
1.نقش دستوری کلمه قبل
2.نقش دستوری کلمه بعد
3.طول کلمه
4.جمع یا مفرد بودن
5.وجود پسوندهایی که باعث تولید اسم مکان می شوند مثل گاه ،خانه،آبادو..
6.وجود پسوندهایی که در اغلب موارد باعث تولید اسم خاص می شوند مثل پور،زاده،نژاد و...
7.وجود "ی" نسبی در آخر کلمه
8.درصد حضور کلمه در کل متون آموزشی به صورت اسم مکان
9.درصد حضور کلمه در کل متون آموزشی به صورت اسم خاص افراد[7]
طبقه بندی اسامی
پس از اینکه ویژگی های لازم برای آموزش سیستم استخراج شد در این مرحله با استفاده از طبقه بندی کننده ،داده های خود را طبقه بندی می کنیم.
ماشین بردار پشتیبان 17
هدف تشخیص واحدهای اسمی این است که مساله ی شناسایی را به مساله ی دسته بندی یا کلاس بندی تبدیل کند و یک مدل آماری کلاس بندی را برای حل آن به کار گیرد. رهیافت استفاده از ماشین پشتیبان برای بهتر کردن این کلاس بندی استفاده می شود.
ماشین بردار پشتیبان یکی از روش های یادگیری ماشین با ناظر معروف برای کلاس بندی دو تایی در طیف وسیعی از مجموعه داده ها است.ماشین بردار پشتیبان بهترین پاسخ را در مواقعی که مجموعه داده ها پراکنده هستند و یا هنگامی که مجموعه آموزشی کوچک است تولید می کند و با استفاده از توسعه های مختلف از این الگوریتم می توان برای مسائل با چند کلاس نیز به کار رود.
برای حل یک مسئله کلاس بندی با استفاده از یک الگوریتم با ناظر ، همواره ماشین با استفاده از یک مجموعه آموزشی که در آن کلاس هر مورد مشخص است آموزش می بیند. برای هر ماشین بردار پشتیبان ، دو مجموعه داده وجود دارد که در آن ماشین با استفاده از مجموعه داده ی آموزشی این داده ها را بر اساس خصیصه هایشان کلاس بندی می کند.
با توجه به شکل زیر یک ماشین بردار پشتیبان می آموزد که چگونه یک ابر صفحه را برای جداسازی دو کلاس مختلف با بیشترین حاشیه بیابد.
آپلود عکس | آپلود | سایت آپلود عکس | اپلود عکس
در روش استفاده از ماشین بردار پشتیبان ،ابتدا داده های موجود به دو قسمت داده های آموزشی و داده های آزمون تقسیم می شوند. در قدم بعدی ،مجموعه خصیصه ها انتخاب می شوند.در انتخاب مجموعه خصیصه یا ویژگی ، اغلب ویژگی هایی انتخاب می شوند که مختص آن زبان هستند مثل :اطلاعات لغوی وابسته به فرهنگ لغت ،حروف پسوند و پیشوند ،اطلاعات واحد اسمی که در گذشته آمده اند، کلاس های واحد اسمی ممکن و...
در بعضی موارد هم می توان از خصیصه های مستقل از زبان مانند : کلمه ی اول جمله بودن،شامل رقم بودن،حاوی رقم و ویرگول بودن و ...
در روش استفاده از ماشین بردار پشتیبان ، بعد از انتخاب ویژگی ها ، کلمات را در یک فضای n بعدی که n تعداد ویژگی ها است قرار می دهند و سپس فضا را تقسیم بندی می کنند. البته لزومی ندارد که تقسیم کننده ی فضا لزوما یک ابرصفحه باشد و با استفاده از ماشین هسته ای18به جای ماشین بردار پشتیبان می توان از یک تقسیم کننده ی غیر خطی استفاده نمود.
از این روش بر روی زبان هندی که به یک سری از ویژگی های زبان فارسی نزدیک است انجام شد که نتایج قابل قبولی داشت.[6]

مدل مخفی مارکوف
مدل مخفی مارکوف در اواخر دهه 1960 میلادی معرفی گردید و در حال حاظر به سرعت در حال گسترش دامنه کاربرد ها می باشد.دو دلیل مهم برای این مسئله وجود دارد ; اول اینکه این مدل از لحاظ ساخنار ریاضی بسیار قدرتمند است و به همین دلیل مبانی بسیاری از کاربردها را شکل داده است.
در مدل مارکف معمولی، هر حالت متناظر با یک رویداد قابل مشاهده است اما در مدل مخفی مارکف مشاهدات توابع احتمالاتی از حالت ها هستند.در این صورت مدل حاصل یک مدل تصادفی با یک فرایند تصادفی است و تنها توسط مجموعه ای از فرآیندهای تصادفی که دنباله مشاهدات را تولید می کند قابل مشاهده است.اطلاق کلمه ی مخفی به این دلیل است که درباره مسائلی صحبت می کنیم که طریقه انجام آن ها از دید ما پنهان است و البته ماهیت ماهیت آماری دارد.
در شکل زیر معماری مدل مخفی مارکف نشان داده شده است.هر شکل بیضی بیانگر یک مقدار متغیر تصادفی است.x_t مقدار تصادفی است که مقدار تغییر پذیرش در واحد زمان مخفی است و y_t مقدار تصادفی است که مقدار پذیرش در زمان t قابل مشاهده است.
آپلود عکس | آپلود | سایت آپلود عکس | اپلود عکس
مدل مخفی مارکف با پارامترهای زیر تعریف می شود:
N : (تعداد حالات (متناهی
M : تعداد خروجی های ممکن
A : ماتریس گذار حالت
B : توزیع های احتمالاتی برای خروجی های ممکن در حالت
P : توزیع احتمالاتی حالات اولیه.
مدل مخفی مارکف مانند روش های دیگر یادگیری ماشین در تشخیص واحدهای اسمی به کار می رود.یکی از کاربرد های اصلی مدل مخفی مارکف تشخیص محتمل ترین دنباله از حالت های مخفی با استفاده از الگوریتم ویتربای19 است.
از لحاظ ساختار داخلی ، مدل مخفی مارکف سعی دارد با محاسبه ی پارامترهای داخلی یک توالی( برای مساله ما جملات)را برچسب گذاری کند.
با در نظر گرفتن برچسب ها به عنوان حالت های مدل مارکف می توانیم این موقعیت را با استفاده از الگوریتم ویتربای تخمین بزنیم و مشکل کلیدی این است که چگونه مدل مخفی را با استفاده از داده های آموزشی بسازیم.در استفاده از این روش فرض می شود داده های آموزشی کافی هستند و ما به تعدادی از گذارهای بین برچسسب های ادات سخن دست یافته ایم تا مدل (X,Y,A,B,P ) را بسازیم که در آن X وy به ترتیب کلمات و برچسب ها هستند.
آپلود عکس | آپلود | سایت آپلود عکس | اپلود عکس
استفاده از مدل مخفی مارکف در بسیاری موارد به نتایج خوب و قابل قبولی منجر شده است.[6]

آزمایش‌ها

برای پیاده سازی این پژوهش از نرم افزار pythone استفاده شده است که برای پردازش متن کاربرد مناسبی دارد.خروجی این مسئله به این صورت است که شما هر جمله یا عبارتی را که به برنامه می دهید اسامی خاص رو مشخص می کند و همچنین خروجی را به صورت BOI برچسب میزنیم. برچسب زنی BIO به این شکل است که هر کلمه در متن دارای برچسبیست . برچسب B به معنای شروع حوزه ی مورد نظر شماست ، I یعنی کلمه داخل حوزه مورد نظر قرار دارد وO یعنی کلمه داخل حوزه مورد نظر نیست. مانند نمونه ی زیر :

آدولف B-PERSON
بورن I-PERSON
کاریکاتوریست
و O
نقاش O
درO
شهرO
بودجویس B-LOCATION
ازO
جمهوری B-LOCATION
چک I-LOCATION
بهO
دنیاO
آمدO
برای انجام ای پروژه در phython باید ار کتابخانه NLTK استفاده شود. این کتابخانه خودش شامل یکسری برچسب زن است . ما در ابتدا برای کار خود ازSequential Taggerهای این کتابخانه استفاده کردیم . ما توابع Ngram این برچسب زن را توسط داده های فارسی که به صورت دستی برچسب خورده بودند آموزش دادیم.دیتای این پروژه شامل تعداد زیادی از جملات به همراه برچسب های آن است که مقداری را برای آموزش برچسب زن و مقداری را برای تست کارایی آن به کار میبریم.
برچسب زن ساخته شده، از سه برچسب زن UnigramTagger , BigramTagger, TrigramTagger به صورت ترکیبی استفاده می کند . نحوه ی کار یک NgramTagger به این صورت است که در وقت آموزش دیدن هر توکن را به همراه n-1 برچسب قبلیش نگهداری می کند سپس در هنگام برچسب زدن برای هر توکن با بررسی برچسب های قبلیش برچسب مناسب را به آن اختصاص می دهد. بدیهیست UnigramTagger تنها توکن را نگهداری می کند وهنگام برچسب زدن اگر توکنی دید که در هنگام آموزش دیده بود ، همان برچسب را به آن اختصاص می دهد. وگرنه برچسب NONE را به آن می دهد.
تابع برجسب زنی که ساختیم ابتدا متن را توسط DefaultTagger برچسب می زند سپس از UnigramTagger استفاده می کند و سپس نتایج را به ترتیب توسط BigramTagger و TrigramTagger بهبود می بخشد.
برنامه فایل داده های فارسی را دریافت می کند ، داده های آزمایشی و آموزشی را جدا می کند ،مثلا در شکل زیر دیتاست ما در یک فایل متنی قرار دارد که با اجرای برنامه، داده ی آموزشی آن به صورت زیر جدا می شود:(چون دیتاست اصلی خیلی بزرگ است از یک دیتا ست کوچک در این شکل استفاده شده است تا روند اجرای برنامه مشاهده شود.)
آپلود عکس
در شکل بالا یک دیتاست کوچک رو مشاهده می کنید که داده های آموزشی آن به صورت زیر بدست می آیند:
آپلود عکس

برچسب زن ها توسط دا ده های آموزشی آموزش می بینند و سپس هر متنی که به آن داده شود را برچسب زنی می کنند و در فایل دیگری می نویسند.که در آخر متن ورودی به همان شکل ذکر شده برچسب زنی می شود.

برای ارزیابی کار از تابع خود evaluate خود nltk استفاده شد. نحوه کار این تابع به این صورت است که یک متن برچسب خورده را دریافت می کند ، برچسبهای آن را حذف می کند و خودش دوباره آن را توسط برچسب زن خودمان برچسب می زند سپس با مقایسه این دو(متن ورودی و متن برچسب خورده) ، امتیاز دقت برچسب زن به دست می آید.که درباره راه حل پیاده سازی شده 91% بود .
نحوه ی اجرای این کد به این صورت است که ابتدا داده ها را از دیتاست می خواند و سپس داده های آموزشی و تست را در قالب دو فایل متنی دخیره می کند.
سپس به کمک داده های آموزشی برچسب زن را آموزش می دهد. پس از آموزش برچسب زن، داده های تست به ادامه ی برنامه داده می شود که برای اندازه گیری دقت ابتدا برچسب های داده های تست از آن جدا می شود و در یک فایل دیگر قرار می گیرد سپس داده های خام را به برچسب زن می دهیم تا آن ها را برچسب بزند و در نهایت این برچسب ها را با برچسب های اولیه مقایسه می کنیم و دقت را بدست می آوریم.
کد این پروژه را از اینجا می توانید مشاهده کنید:کد

بهبود
تابع برچسب زنی که ساختیم ابتدا متن را توسط DefaultTagger برچسب می زند سپس از UnigramTagger استفاده می کند و سپس نتایج را به ترتیب توسط BigramTagger و TrigramTagger بهبود می بخشد.برای بهبود ترتیب های این سه Tagger اجرا شد که حداکثر دقت% 92.1 شد. سپس از یک Tagger دیگر به نام RegExpTagger استفاده شد.در اینجا بر اساس دستور بان فارسی یک سری قوانین تعریف می کنیم که در شناسایی نوع کلمات به ما کمک می کند .این قوانین بر اساس قوانین پیشوندی و پسوندی در زبان فارسی است که با توجه به شناخت زبان فاسی این قوانین رو تعریف می کنیم.مثلا در قانون (r'.*آباد$', 'B-LOC'), هر کلمه ای که درای پسوند "آباد" باشد به عنوان اسم مکان تعریف می شود.در شکل زیر چند نمونه از این قوانین رو مشاهده می کنید :
آپلود عکس

اما در استفاده از این Tagger یک سری مشکل وجود دارد که به دستور زبان فارسی بر می گردد.زبان فارسی عموما ساختاریافته نیست در نتیجه تعریف الگوهایی بر اساس پسوند ها کار مشکلی است.ترکیب های مختلفی از این Tagger و قبلی ها استفاده شد که بهترین حالت بعد از defaultTagger بود که دقت در نهایت به %92.6 رسید. لینک کد:کد
لینک داده:مجموعه داده

کارهای آینده

به کمک قواعد مشخص در زبان فارسی و افزایش قوانین پیشوندی و پسوندی می توان نتیجه را بهبود داد.فقط جمع آوری این قواعد در زبان فارسی وقت زیادی صرف می کند و همچنین به دلیل اینکه کلمات زبان فارس عموما ساختار یافته و قانون مند نیستند( برخلاف زبان انگلیسی که در آن اکثر کلمات از ریشه شان طبق یک سری قوانین واحد ساخته می شوند) پیدا کردن تمامی قواعد کار مشکلی است که امیدواریم که این قواعد جمع آوری شود.

مراجع

[1] Erik, F., Tjong, K. S., & Fien, D. M. (2003). Introduction to the CoNLL-2003 Shared Task: Language-
Independent Named Entity Recognition. CoNLL-2003 (p. 6). CNTS - Language Technology Group University of Antwerp.
[2] Jurafsky, Daniel, and James H. Martin. 2009. Speech and Language Processing: An Introduction to Natural Language Processing, Speech Recognition, and Computational Linguistics. 2nd edition. Prentice-Hall.
[3] پونه سادات مرتضوی، مهرنوش شمس فرد، "شناسایی موجودیت های نام دار در متون فارسی"، پانزدهمین کنفرانس بین المللی سالانه انجمن کامپیوتر ایران، 1388
[4] Nadeau, David, and Satoshi Sekine. "A survey of named entity recognition and classification." Lingvisticae Investigationes 30.1 (2007): 3-26.

[5] محمدمهدی حاجی،مدل سازی آماری زبان فارسی ،بهار 1384
[6]مجید عسگری بیدهندی،ساخت چهارچوبی برای استخراج خودکار نام از متن،پایان نامه مقطع کارشناسی ارشد،شهریور1390
[7]سیدعبدالحمید اصفهانی،سیدراحتی قوچانی،نادر جهانگیری ،سیستم شناسایی و طبقه بندی اسامی در متون فارسی،1389

پیوندهای مفید


  1. Information Extraction

  2. Named – Entity Recognition(NER)

  3. Natural Language Processing

  4. Text categorization

  5. Question Answering

  6. Text Summarization

  7. Hand-made Rule-based approaches

  8. Machine Learning -base approaches

  9. Supervised Learning

  10. Hidden Markov Model

  11. Semi-supervised Learning

  12. Unsupervised Learning

  13. WordNet

  14. Tagset

  15. labelling

  16. BIO tagging

  17. support vector machine

  18. kernel machine

  19. Viterbi algotithm

ارزیابی آشنایی با مساله 1393/08/17
محسن ایمانی

شما بخش زیادی از متن پژوهش‌نامه خود را از چند پژوهش دیگر عینا کپی کرده‌اید بدون این که به آن‌ها ارجاع بدهید. به همین جهت نقد و امتیازدهی تنها به بخش مراجع شما محدود خواهد شد.
مراجع شماره یک و هفت شما ویرایش‌های متفاوت از یک کتاب هستند که لزومی به آوردن هر دو به عنوان مرجع وجود نداشت.
همچنین مرجع شماره ۵ شما هیچ ارجاعی در متن ندارد و اگر می‌خواهید آن را به عنوان یکی از مراجعی که در آینده مطالعه خواهید نمود معرفی کنید، بهتر بود آن را در انتهای مراجع مورد استفاده بیاورید.
مراجع شما (غیر از مرجع شماره ۵ که استفاده نشده) تقریبا همگی قدیمی هستند و انتظار می‌رود با توجه به پژوهش‌های قبلی انجام شده در این زمینه که در دسترس شما هم قرار دارند. تلاش شما معطوف به روش‌های جدیدتر و بهبود کارهای قبلی باشد و این امر نیازمند بررسی مقالات به روز تر از آن‌چه که هم اکنون در مراجع شما وجود دارد، می‌باشد.

حتما در فازهای بعدی این نکته را در نظر داشته باشید که با توجه به پژوهش‌های انجام شده در این زمینه در ترم‌های گذشته که متن و کد آن‌ها نیز در دسترس شما قرار دارد. انتظار ما برای این پروژه بهبود و پیشرفت کارهای قبلی می‌باشد و طبیعتا تکرار کارهای قبلی امتیازی زیادی برای شما در بر نخواهد داشت.

ارزیابی مطالعه کارهای مرتبط 1393/09/15
رد شده

با سلام
ارزیابی این پروژه به خوبی انجام گرفته و نقاط قوت این متن (تصاویر،توضیح روشها،foot note،...)نشانگر برسی و مطالعه در این زمینه می باشد.
اگر شما منابع بیشتری را ذکر می کردید باعث برجسته شدن تحقیقات شما می شد
موفق باشید.

محسن ایمانی

کار شما از نظر ساختاری و استفاده از نمودار و شکل، و همچنین ارجاع مناسب به مراجع مناسب و قابل قبول بود.
اما در این فاز هدف شرح و بررسی روش‌های مرتبط برای حل مسئله بود و شما در این فاز به طور کامل این هدف را محقق ننمودید. لازم بود مقالات و کارهای بیشتری را در این حوزه مطالعه کرده و شرح می‌دادید. در واقع شما نتوانسته‌اید به طور کامل انواع روش‌های مرتبط با مسئله خود را بیان و شرح کنید. در زیر برخی از مواردی که جایشان در این فاز خالی می‌باشد بیان می‌گردد:

  • دسته‌ای از روش‌ها که به روش‌های بر مبنای واژه‌نامه و فرهنگ لغات معروف هستند را مطرح ننمودید.

  • شما در این بخش به روش‌های یادگیری نیمه‌نظارتی و همچنین روش‌های یادگیری بی‌ناظر اشاره کرده‌اید، اما هیچ نمونه‌ای از این نوع روش‌ها را بیان نکردید.

  • همچنین در روش‌های با ناظر هم مدل‌های دیگری غیر از مدل پنهان مارکوف، نظیر مدل‌های بی‌نظمی بیشینیه (Maximum Entropy) و یا مدل‌های فیلدهای تصادفی شرطی (CRF) وجود دارند که به بررسی آن‌ها نپرداخته‌اید.

ارزیابی گزارش نتایج آزمایش 1393/10/13

با سلام
مجموعه داده ای که استفاده کرده اید مشخص نیست بهتر بود در مورد آن توضیح بیشتری می دادید و لینک آن را نیز در اینجا قرار می دادید.
برخی از قسمت های متن به صورت محاوره ای نوشته شده.

محسن ایمانی

شما در این فاز تقریبا همان آزمایش‌های ترم قبل این پروژه را تکرار کرده‌اید. این کار هر چند برای این فاز بد نیست، اما عالی هم قلمداد نمی‌شود و با توجه به این که بر این مبنا کار اضافه‌ای هم نکرده‌اید، نمی‌توان نمره کامل را به آن داد.

اما برای فاز آینده حتما نیازمند پیاده‌سازی آزمایشات جدیدتر (مثلا ساخت مدل‌هایی مثل Maximum Entropy و یا CRF و یا هر مدل آماری دیگر) خواهید بود تا امتیاز مناسبی را دریافت کنید.

تایید شده

با سلام، متاسفانه به نظر میرسد برای نوشتن گزارش فاز آخر فرصت کافی در اختیار نداشته اید و آنچه که برای بهبود نتایج انجام داده اید به خوبی در گزارش خود تشریح نکرده اید. هرچند پیشنهادی برای بهبود نتایج مطرح کرده اید ولی مستندسازی لازم برای این فاز صورت نگرفته است.
البته گزارش شما در فازهای پیشین مفید و کامل نوشته شده و خواننده را به خوبی در جریان کار قرار داده، ولی نمره ای که باید برای شما در نظر بگیرم به ناچار مربوط به فاز آخر است.
با آرزوی موفقیت برای شما

رد شده

با سلام
در بخش مقدمه بهتر بود در مورد پروژه بیشتر مطالب قرار داده می شد تا خوانند با پروژه بهتر آشنا شود و همچنین باید از چالشهای موجود در این زمینه به چند مورد اشاره میشد.
در بخش کارهای مرتبط بیشتر به تشریح الگوریتم ها و روشهای موجود پرداخته شده است تا معرفی کارهای صورت گرفته.
در بخش آزمایشات بهتر بود مراحل آموزس و تست جدا گانه و با توضیحات بیشتری آورده میشد.
با تشکر

تایید شده

سلام ضمن خسته نباشید،

  • در بخش کارهای مرتبط خوب کار شده بود و جامعیت خوبی داشت فقط در بخش دسته بند ها باید بیشتر به کار دسته بند ها درباره ی این پروژه توضیح داده می شد که این توضیحات کم بود.

  • در این بخش بهتر بود ا ز مراجع بیشتری استفاده می شد و به مقایسه و مشکلات آنها پرداخته میشد.بعلاوه ارجاع به منبع به طور معمول باید درست بعد از اشاره به آن در مطلب ذکر شود و نه در انتها(غیراستاندارد).

  • در بخش آزمایش توضیحات کد خوب بود اما نحوه ی اجرای کد توضیح داده نشده بود .

  • اگر مثالی از کلماتی که اشتباه تشخیص داده میشه رو مطرح میکردید و علتش رو هم بررسی میکردید، بهتر می بود و شاید به فاز بهبود هم میتونست کمک کنه.

  • در بخش بهبود، دقت کمی بهبود یافته بود که می توانست بیشتر هم شود و وقت بیشتری بهش اختصاص بدهید.

در انتها با توجه به زحماتی که در تمامی فازها کشیده شده فکر میکنم نمره 4 منطقی باشه .

تایید شده

با سلام و خسته نباشید
مطالب دارای انسجام و ساختار خوبی است، اما تعداد منابعی که استفاده کردین می تونست بیشتر باشه، قسمت آزمایش رو خوب توضیح دادین اما بهتر بود خروجی پیاده سازی رو نشون می دادین. برای بهبود هم خروجی رو نشون ندادین، در مورد کارهای آینده هم می تونستین توضیحات بیشتری بدین

تایید شده

بخش مقدمه و کارهای مرتبط به خوبی توضیح داده شده است.اما در فاز آزمایش توضیحات کافی به نظر نمی رسد.همچنین برای قسمت بهبود بنده نتوانستم کد ارائه شده را اجرا کنم.در مجموع برای میزان زحمتی که کشیده اید می توان نمره قابل قبولی را در نظر گرفت

محسن ایمانی

شما در این فاز زحمت بسیار کمی برای بهبود کشیدید و در واقع همان کار ترم گذشته را عینا تکرار کردید.
همچنین پیشنهادهای شما برای کارهای آینده کاملا کلی و غیر شفاف است و کمک زیادی به مخاطب برای ادامه مسیر نمی‌کند.
همان‌طور که در ارزیابی فاز قبل هم عرض شده بود، از شما انتظار می‌رفت در این فاز به سراغ رده‌بند‌های دیگر رفته و برای بهبود نتایج به آزمایش و ارزیابی با آن‌ها بپردازید.