یکی از خصوصیاتی که به عنوان ورودی در اکثر وظایف پردازش زبان طبیعی استفاده می‌شود، برچسب اجزای سخن است. برای این منظور یک مجموعه تگ (tagset) مانند شکل زیر انتخاب می‌شود و به هر واژه در متن یک برچسب اختصاص داده خواهد شد.

نمونه ای از مجموعه برچسب گذاری روی یک متن که همراه با علامت و نماد هر برچسب ارائه شده است. در این نمونه که مربوط به تعیین نقش دستوری هر واژه در پیکره است هر دستور با یک نماد جداگانه مشخص شده است که مخفف واژه انگلیسی آن دستور است.

کاربرد اصلی و ریشه ای این مسئله در تعیین نقش دستوری واژه ها در متن ورودی ("پیکره") و نسبت دادن برچسب های واژگانی به واژه ها و نشانه های به کار رفته در یک متن است.

۱. مقدمه

با نسبت دادن برچسب های کالمات به واژه های تن ورودی نرم افزار های مربوطه میتوانیم نقش دستوری هر واژه را مشخص کنیم.
به این متن ورودی در این علم "پیکره" گفته میشود.
از کاربرد های برچسب گذاری میتوان به پیشبینی واژه های بعدی در جملات ناقص یا در حال کامل شدن اشاره کرد.
همینطور تشخیص گفتار، تشخیص دست خط، ارتباط تقویتی برای معلولان زبانی، کشف خطاهای املایی، ترجمه خودکار، تجزیه و تحلیل نحوی و بازیابی اطلاعات از کاربرد های این سیستم هستند.
از دیگر کابرد های مهم این سیستم که در این روز ها بسیار از آن صحبت شده است و میتواند مفید واقع شود تبدیل نوع نوشتاری "انگلیسی-فارسی" به "فارسی" است. یعنی جملات فارسی که با حروف انگلیسی نوشته میشود را میتوان با برچسب گذاری دقیق به جملات فارسی تبدیل کرد.

در این سیستم، بحث "تعیین احتمال رخداد دنباله ای از لغات" نیز مطرح می شود که به منظور تعیین احتمال استفاده یک واژه به عنوان واژه بعدی در یک متن ناقص است. در اینجا موضوع "احتمال" بسیار حائز اهمیت است. این احتمال از "پیکره" استخراج میشود.
یعنی سیستم با آنالیز و بررسی پیکره های مختلف و معتبر این احتمال را به دست می آورد.

تعریفی که برای پیکره در [1] ارائه شده به این صورت است:
"حجم زیادی از داده های زبانی که بر اساس معیار های مشخص برای هدف معینی جمع آوری و ذخیره شده اند به صورتی که نماینده و با گویش مورد مطالعه باشند."
برچسب گذاری به عنوان یکی از مراحل میانی کاربرد های ذکر شده است.
میزان دقت برچسب گذاری به دقیق بودن نتیجه نهایی کمک میکند و تاثیر گذار است.

چندین روش مختلف برای برچسب گذاری مطرح میشود:
1- روش مبتنی بر قواعد
2- روش آماری محض
3- روش مبتنی بر گذار

در برچسب گذاری رده بندی هایی برای کلمات صورت می گیرد. و برچسب های مختلف در گروه هایی دسته بندی میشوند. برای مثال انواع فعل در یک گروه قرار میگیرند. به این رده بندی برچسب گذاری ها، "مجموعه برچسب" گفته میشود.
روش های رده بندی را میتوان به دو دسته تقسیم بندی کرد:
1- روشی که ابتدا رده بندی برای کلمات در برچسب گذاری انجام شده است و بعد از آن به سراغ ابهام زدایی این رده بندی ها میرویم.
2- روشی که در حین رده بندی ابهام زدایی نیز صورت میگیرد.

ورودی سیستم های برچسب گذاری شامل مجموعه ای از برچسب های ممکن و همینطور رشته ای است که میخواهیم برچسب گذاری کنیم.
در اینجا منظور از برچسب های ممکن مجموعه ای است که سیستم در آغاز دریافت میکند و براساس آن برچسب گذاری را انجام میدهد و در واقع میتوانیم از آن به عنوان قانون برچسب گذاری در آن سیستم یاد کنیم.
و خروجی آن نیز رشته ای است که به خوبی برچسب گذاری شده. در اینجا هر چه برچسب گذاری به حالت ایده آل نزدیک تر باشد و دقیق تر انجام شده باشد "خوب" تر است.

۲. کارهای مرتبط

سیستم های پیاده سازی شده توسط الگوریتم hidden marcov model. این سیستم در نرم افزار تبدیل نوشته به صدا "پارس گویان" مورد استفاده قرار گرفته است. 1
این مقاله نیز از دیگر مقالات در زمینه الگوریتم marcov model است. 2

یک الگوریتم ترکیبی از الگوریتم های احتمالی و قانون محور است که در مقایسه با دیگر الگوریتم های بچسب گذاری از این جهت برتری دارد که نیازی به جمع آوری اطلاعات و دانش از قبل ندارد. این الگوریتم نیازی به دامنه ندارد و مستقل از دامنه است زیرا از قوانین مورفولوژیک استفاده میکند. 3

سیستم برچسب گذاری HunPos که با دقت 96.9 درصد انجام میشود. 4

بررسی و آنالیز انواع سیستم های برچسب گذاری در زبان فارسی 5
بررسی و آنالیز انواع سیستم های برچسب گذاری در زبان فارسی 6.pdf)

۳. آزمایش‌ها

۴. کارهای آینده

۵. مراجع

۶. پیوندهای مفید

با سلام
توضیح و شرح مسئله بسیار خوب صورت گرفه شده بود و خواننده پس از خواندن ابتدای مقاله درک خوبی از چیستی مسئله خواهد داشت.
برای بهبود کیفیت مقاله جا داشت بعضی قسمت ها کمی کامل تر بیان شود. مثلا در قسمت روش های مختلف برچسب گذاری می شد توضیح مختصری در رابطه با هر روش بیان شود. یا در قسمت کار های مختلف خوب بود علاوه بر نام بردن و پیوند دادن به مقالات مختلف، شرح مختصری از هرکدام نوشته می شد که هم به درک خودتان و هم خواننده از کار های مرتبطی که در این مسئله انجام گرفته بود کمک می کرد.
در آخر هم باید به خوب بودن پیوند های معرفی شده و درک درستتان از مسئله اشاره کنم که نقطه ی قوت مقاله تان بود.
با آرزوی موفقیت

تایید شده

درست است که پروژه ی شما تحقیقاتی است اما بهتر بود در بخش آزمایش ها الگوریتم هایی که در مقاله ها خواندید و در بخش مراجع آوردید را مفصل تر توضیح می دادید.

سلام خسته نباشید
کارهای مرتبطی که به آن ها اشاره کردید بسیار خوب بودند اما اگر درباره ی آنها توضیحات بیشتری میدادید بهتر میشد

تایید شده

با سلام
باتوجه به تحقیقاتی بودن پروژه، بسیار توضیحات کوتاه بودند و هنگام معرفی الگوریتم ها تقریبا به اسم الگوریتم بسنده شده بود درحالی که میتوانست الگوریتم بصورت کامل توضیح داده شود، همچنین روش های مختلف برای برچسب گذاری بسیار کلی گفته شده بودند و توضیحی نداشتند ارئه یک مثال برای فهم بهتر بسیار تاثیر گذار میتوانست باشد.

محمد عبدوس

توضیحات مربوطه به هرکدام از بخشها به صورت ناقص است و نیازمند توضیحات با تفصیل بیشتر است.
جملات مقدمه پیوستگی لازم را ندارند و منقطع نوشته شده اند. بهتر است مقدمه مثلا شامل سه یا چهار پاراگراف باشد نه اینکه هر جمله یک پاراگراف باشد
کارهای مرتبط به صورت ناقص شرح داده شده است.
تغییرات محسوسی نسبت به مرحله قبل مشاهده نشد