یکی از خصوصیاتی که به عنوان ورودی در اکثر وظایف پردازش زبان طبیعی استفاده می‌شود، برچسب اجزای سخن است. برای این منظور یک مجموعه تگ (tagset) مانند شکل زیر انتخاب می‌شود و به هر واژه در متن یک برچسب اختصاص داده خواهد شد.

alt sample tagset

۱. مقدمه

یکی از کارهای اساسی در پردازش زبان طبیعی ، برچسب زنی اجزای گفتار می باشد . برچسب زنی ، تعیین مقوله های دستوری برای هر نماد در متن می باشد .

در برچسب زنی دو حوزه ساختواژه و نحو زبان برای تعیین مقوله های دستوری با یکدیگر تعمل دارند . تحلیل های ساخنواژی ، یکی از مسائل اصلی در تحلیل های رایانه ای متون فارسی است و پردازش متون رایانه ای فارسی را با مشکلاتی روبرو کرده است ، از جمله این مشکلات ، شناسایی واژه های ناشناخته در متن و مشکلات خط فارسی می باشد .

در این مقاله سعی بر این شده با بررسی تاریخی این عملیات در علم کامپیوتر ، انواع روشهای آن را به صورت اجمالی مورد بحث قرار داده و در انتها یکی از این روشهارا بر روی زبان فارسی پیاده سازی کنیم .

یادگیری ماشین برروی ترکیب های زبان انسان برای ابهام زدایی در شناخت کلمات یکی از زمینه های مورد علاقه ی کار محققان علوم کامپیوتر و هوش مصنوعی بوده که نظر آنها را بسیار به خود جلب کرده است ، یکی از کاربردها «جدا سازی خودکار اجزای سخن» است ؛

امیدوارم با بررسی روش های مرتبط و مقایسه آنها توانسته باشم مطلب را به خوبی در این مقاله انتقال بدهم .

۲. کارهای مرتبط

از جداسازکننده های موفق برای برچسب گذاری می توان به موارد زیر اشاره کرد :

  • MX-POST بر مبنای Maximum entropy

  • MBT جدا ساز حافظه محور

  • Brill's بر پایه یادگیری مبتنی بر تحول "Transformation-based Learning"

  • TBL

  • Trigram-Tagger یا همان TNT بر مبنای مدلهای پنهان مارکوف

  • Maximum LikeLihood Estimation (MLE)

تا امروز روشهای زیادی طراحی و پیاده سازی شده اند و بسیاری از آنها برای زبان انگلیسی و دیگر زبانها با سربلندی امتحان شده اند ، ولی تعداد زیادی برای زبان فارسی مورد آزمایش قرار نگرفته اند .

با این حال روش هایی مثل MLE , MBT امتحان شده اند که نتایجی با کیفیت کافی نداشته اند .
یکی از روش هایی که بر روی زبان فارسی موفق بوده روش HunPOS است که بر اساس پیاده سازی دوباره روش TNT ساخته شده و قابلیت تنظیمات مختلف برای زبانهای مختلف را به کاربر می دهد و برای زبان فارسی 96.9 % درست عمل می کند که بهترین نتیجه ی گذارش شده برای زبان فارسی تا به امروز است .

این برنامه به TNT بسیار شبیه است با این تفاوت که این روش احتمالات را بر اساس تگ حاضر و تگ قبلی براورد می کند .

یکی از توانایی هایی قوی که از روش TNT به ارث برده است این است که با توجه پسوند و پیشوند می تواند نقش کلمات را حدس بزند که برای کلماتی که دیده نشده اند کاربرد دارد .

پیکره بیژن خوان :

این پیکره مجموع ای از کلمات از قبل برچسب گذاری شده است که از 2.6 میلیون کلمه ی فارسی تگ شده تشکیل شده و در روش های برچسب گذاری بر اساس حافظه از آن استفاده بهینه ای می توان کرد .

۳. آزمایش‌ها

۴. کارهای آینده

۵. مراجع

۶. پیوندهای مفید

نیما همتی

با سلام و خسته نباشید

انتظاری که از شما در این فاز می‌رفت، چیزی فراتر از نوشتن مقدمه و کلیات مربوط به موضوع بوده است. در واقع شما در این فاز باید یکی از روش‌هایی که مدنظر داشتید پیاده‌سازی کنید را به صورت کاملا شفاف و واضح توضیح می‌دادید. این در حالی است که شما در متن خود به کلیات بسنده کرده‌اید. انشالله در فازهای آتی جبران گردد.

با تشکر