۱. مقدمه

در بسیاری از کاربردهای پردازش طبیعی زبان 1برچسب زنی اجزای سخن نیاز است . برچسب زنی تعیین برچسب دستوری برای یک کلمه در یک متن است . ورودی این سیستم متن است و خروجی آن کلمه ها با تگ های مناسب است [7].

alt sample tagset

بسیاری از برچسب زن ها با روش های مختلفی طراحی می شوند تا با دقت و عملکرد بالاتری برسند . این برچسب زن ها از روابط بین کلمه ای 2و واژه نامه 3استفاده می کنند [1] . بر چسب زنی نقش بسیار مهمی در بسیاری از سیستم های NLP ایفا میکند مانند ساده سازی برنامه های پیچیده . اگر چه هر برچسب زن در بسیاری از زبان ها قابل استفاده است ولی در هر زبان خصوصیاتی هست که برچسب زن باید با توجه به آن ها طراحی شود . [1] بر چسب ها شامل اطلاعات دستوری بسیار زیادی مانند : کمیت ، شخص ، جنسیت و ... در مورد کلمه و همسایه های آن هستند .[2]
روش ها و مدل های زیادی برای برچسب زنی ارائه شده است که به دو قسمت کلی تقسیم می شوند :روش اول از بررسی و تفسیر آماری پیروی می کند و روش دوم از دانسته های انسانی و یادگیری ماشین4 استفاده می کند .
در زبان فارسی دو مجموعه متنی شناخته شده وجود دارد : پایگاه داده زبان شناسی فارسی (Assi, 1997) و پیکره متنی زبان فارسی (Bijankhan, 2002; Mohseni, 2008) . مورد دوم در دوقسمت دسته بندی شده است : کلمات تفسیر شده و تفسیر نشده . قسمت تفسیر شده که حدود 10% را در بر می گیرد به صورت دستی برچسب زده شده است . هدف ما بر چسب زنی برای قسمت تفسیر نشده (حدود 90% مجموعه) است تا یک مجموعه ی 100 میلیونی از کلمات بر چسب زده شده ایجاد شود.

۲. کارهای مرتبط

اولین کاری که برروی برچسب زنی در زبان فارسی توسط (Assi & Abdolhoseini, 2000) بر پایه روشی که توسط (Schuetze, 1995) پیشنهاد شده ، انجام شده است . ایده ی این است که تمامی همسایه های کلمه در دو آرایه ی کلمات راست و کلمات چپ جمع آوری شود . کلمات با تکرار کم حذف می شوند ، چون دیده شده است که کلمات نادر آرایه های خالی دارند .نوع کلمات به شباهت توزیع شده بستگی دارد و هر دسته به صورت دستی برچسب گذاری می شود . این مجموعه 45 برچسب دارد . دقت گذارش شده به این صورت است : دقت در اعداد ، دسته های مختلف افعال و اسم ها بین 69 تا 83 % می باشد و در حالت کلی ، دقت قسمت خودکار سیستم 57.5% می باشد . در هر حال نویسنده اقرار می کند در حالی که برچسب های فارسی به کلمات مبهم بر می گردد ، سیستم پیشنهادی قادربه ابهام زدایی از کلماتی مانند کلمات با تکرار کم نیست . در ضمن دقت سیستم برای دسته هایی مانند صفت ها و قید ها بسیار کم است .
تحقیق دیگری برروی برچسب زن های فارسی توسط (Megerdoomian, 2004) انجام شده است . از نتایج آزمایشات گزارشی در دست نیست . نویسنده تنها به چالش هایی که برای برنامه نویسی برچسب زن زبان فارسی ایجاد می شود اشاره کرده است .
در (Mohseni, 2008) یک سیستم برچسب زنی برپایه ی مدل Markov مرتبه ی اول برروی مدل قدیمی پیکره اجرا شده است . در این مقاله برخی جنبه های ریخت شناسی فارسی و بعضی مشکلات در گسترش یک سیستم برچسب زنی ارائه شده است . [3]

روش عملکرد در [3]

در (Mojgan Seraji) یک برچسب زن آماری برای یک زبان فارسی ارائه شده است . نتایج آزمایش نشان می دهد که دقتی در حدود 96.9% دارد که بهترین نتیجه گزارش شده برای زبان فارسی است . پایه ی این روش بر Hidden Markov Models می باشد که به کاربر اجازه می دهد تا برچسب زنی با ویژگی های متفاوت داشته باشد . این برچسب زن بر اساس حدس زدن برچسب مناسب با توجه به برچسب های قبلی و فعلی عمل می کند . نکته ی مثبت در مورد این الگوریتم برچسب زنی برای کلماتی است که تا بحال دیده نشده است . برروی کلمات یک آنالیز زبان شناسی انجام می شود تا لیست برچسب های قابل استفاده برای این کلمه را کم کند که نه تهنا باعث افزایش سرعت عملکرد سیستم می شود بلکه به شدت دقت را افزایش می دهد . به عبارت دیگر انالیزور زبان شناسی برچسب های ممکن را تولید می کند ، تا بر اساس الگوریتم های حدس زنی وزن دهی شود . [10]

در مورد نحوه ی دقیق عملکرد و مدل های موجود در آینده بررسی خواهد شد و مدل با دقت بیشتر به خصوص برای کلمات مشاهده نشده برای ادامه ی کار انتخاب خواهد شد .

۳. آزمایش‌ها

۴. کارهای آینده

۵.

۶. مراجع

  1. Mehrnoush Shamsfard , Hakimeh Fadaee A Hybrid Morphology-Based POS Tagger for Persian NLP Research Laboratory , Faculty of Electrical & Computer Engineering, Shahid Beheshti University, Tehran, Iran.

  2. Jurafsky D. and Martin J. H. (1999). Speech and language Processing. Prentice Hall, September 28.

  3. Mahdi Mohseni, Behrouz Minaei-bidgoli , A Persian Part-Of-Speech Tagger Based on Morphological Analysis , Iran University of Science and Technology.

  4. Assi, S. M. (1997). Farsi Linguistic Database (FLDB). International Journal of Lexicography, Vol. 10, No. 3,
    EURALEX Newsletter p. 5.

  5. Assi, S. M., and Abdolhoseini, M. H. 2000. Grammatical ,Tagging of a Persian Corpus. International Journal of
    Corpus Linguistics, Volume 5, Number 1, pp.

  6. Bijankhan, M. (2002). The Persian Language Modeling ,Plan. Stage Two. Linguistics Lab, Faculty of Literature & Human Science, University of Tehran.

  7. Ali Azimizadeh, Mohammad Mehdi Arab, Saeid Rahati Quchani, Persian part of speech tagger based on Hidden Markov Model , ,Islamic Azad University of Mashhad, Iran.

  8. Mohseni, M. (2008). Automatic Part-Of-Speech Tagging and Disambiguation System for The Textual Corpus of the Persian Language. MSc. Dissertation. University of Science and Technology: Department of Computer Science. Iran.

  9. Megerdoomian, K. (2004). Developing a Persian part-of-speech tagger. In Proceedings of First
    Workshop on Persian Language and Computers. Iran.

  10. Mojgan Seraji, A Statistical Part-of-Speech Tagger for Persian ,Department of Linguistics and Philology Uppsala University, Sweden


  1. Natural Language Processing (NLP)

  2. inter-word relation

  3. lexicon

  4. Machine Learning

محمد عبدوس

با عرض سلام و آرزوی توفیق روز افزون. از زحماتی که در این فاز پروژه انجام داده اید تشکر میکنم. نکاتی را که باید در این فاز رعایت میکردید در زیر آورده شده است:
1-در کارهای مرتبط حتما ارجاع به مرجع را قرار دهید تا خواننده بداند در این قسمت از متن از کدام مرجع استفاده کرده اید.ارجاعی از مرجعهای 4 و5 و6 و8 و 9 در متن دیده نشده است.
2- خوب بود چالشهایی را که در مراجع دیده بودید را در گزارش میاوردید و به ذکر این جمله که "نویسنده تنها به چالش هایی که برای برنامه نویسی برچسب زن زبان فارسی ایجاد می شود اشاره کرده است " اکتفا نمیکردید.
3- در مورد مدل مخفی مارکف هیچ توضیحی داده نشده بود.
4- هیچ توضیحی در مورد عکس هایی که در متن گزارش آورده بودید، مشاهده نشد.
5- مقالات زیادی مطالعه شده بود و این از نکات مثبت است اما توضیحاتی را که برای هر مقاله آورده بودید کافی نبود.
از توجهتون ممنونم