طبقه‌بندی ارقام دست‌نویس

--------------------------------------بسم الله الرحمن الرحیم--------------------------------------

هدف این پروژه در ابتدا دسته بندی انواع مختلف اعداد دست نویس فارسی بر اساس شکل ظاهری و سپس طبقه‌بندی ارقام دستنویس ورودی به مشابه ترین گروه به منظور تشخیص رقم مربوطه است. برای دسته بندی ها از مجموعه ارقام دست نویس فارسی تهیه شده تا کنون بهره برده می شود و برای تشخیص شباهت عدد ورودی به هر کدام از دسته ها می‌توان از هریک از روش‌های طبقه‌بندی استفاده کرد. در این پروژه چند روش برای طبقه‌بندی ارقام که به نظر مناسب‌تر هستند بررسی و مقایسه شوند.

مقدمه

حوزه ی تبدیل مکانیکی یا الکترونیکی نوشته های دست نویس و یا چاپ شده و تبدیل آن به کاراکترهای ورودی برای کامپیوتر(Optical character recognition) به دلیل راحتی استفاده و افزایش سرعتی که به عملیات ورود اطلاعات به سیستم می دهد سالهاست که مورد توجه محققان علم ریاضی و کامپیوتر بوده است. تلاش های اولیه برای این کار با هدف توسعه تلگراف و ساخت ماشین های خوانش برای نابینایان انجام گردیده. اولین تلاشی که در این مورد انجام گرفته مربوط به سال ۱۹۱۴ است, امانویل گولدبرگ ماشینی طراحی کرد که کاراکترها را می خواند و آن ها را به کدهای استاندارد مورس تبدیل می کرد.[1]
برای ocr کاربرد های فراوانی می توان یافت از جمله:

  • وارد کردن اطلاعات اسناد اداری از جمله چک ها و فرم های پر شده

  • شناسایی اتوماتیک شماره پلاک برای سیستم کنترل ترافیک

  • شناسایی کاراکترهای نوشته شده بر روی صفحات لمسی

  • کنترل سیستم به وسیله رسم اشکال

  • شکستن کپچا

  • طراحی تکنولوژی های یاری دهنده نابینایان و افراد با ضعف بینایی

امروزه با توسعه کامپیوتر های قابل حمل و همه گیر شدن این وسایل کاربردهای بسیار خلاقانه دیگری هم در این حوزه به وجود آمده است یکی ازاین موارد ترجمه هم زمان تابلوهای با زبان بیگانه با استفاده از واقعیت افزوده و ocr است.
با وجود پیشرفت های فراوانی که در این حوزه انجام گردیده و وجود نرم افزارهای قدرتمندی مانند Readiris ساخت شرکت I.R.I.S. که این کار را برای کاراکترها و اعداد لاتین به خوبی انجام می دهند اما متاسفانه در مورد کاراکترها و اعداد فارسی/عربی کیفیت کار آنها بسیار پایین است.
نکته بسیار مهمی که در طبقه بندی ارقام دست نویس باید به آن بسیار توجه شود اختلاف فراوان در شیوه نگارش اعداد است. همچنین افراد با توجه به سطح سواد و مناطق جغرافیایی اعداد را به صورت های متفاوتی می نویسند.
علاوه بر تفاوت های شیوه نگارش اعداد صفر ُ چهار و شش هر کدام به دو صورت متفاوت در بین فارسی نویسان رواج دارند به این ترتیب باید اعداد را در ۱۳ دسته متفاوت طبقه بندی کرد و پس از بررسی عدد وارد شده آن را به شبیه ترین دسته از بین این ۱۳ دسته نسبت داد.

| نام پایگاه داده | dpi | نمونه های آموزشی |نمونه های آزمونی | مجموعه نمونه ها | |:----------|:------------------:|:------------------:|:------------------:|:------------------:|
| هدی | 200 | 6000 از هرکلاس |2000 از هرکلاس |۱۰۲۳۵۲ |
| CENPARMI ا| 166 | 4000 |2000 |60000 |
| CEDAR ا| 300 | 18468 |2711 |21179 |
| MNIST ا|Normalized intoا 20*20 | 7291 |2007 |9298 |
جدول۱ - مشخصات تعدادی از پایگاه داده های موجود

اکثر روش های طبقه بندی اعداد وابسته به وجود یک پایگاه داده شامل انواع مختلف و فراوان اعداد دست نوشته نرمال سازی شده است. در این مورد برای اعداد دست نویس فارسی کارهایی انجام شده است

کارهای مرتبط

پایگاه های داده مجموعه ارقام دست نویس فارسی:

  1. مجموعه ارقام دستنویس هدی
    مشتمل بر ۱۰۲۳۵۳ نمونه دستنوشته سیاه سفید است. این مجموعه طی انجام یک پروژه‏ی کارشناسی ارشد درباره بازشناسی فرمهای دستنویس تهیه شده است. داده های این مجموعه از حدود ۱۲۰۰۰ فرم ثبت نام آزمون سراسری کارشناسی ارشد سال ۱۳۸۴ و آزمون کاردانی پیوسته‏ی دانشگاه جامع علمی کاربردی سال ۱۳۸۳ گرفته شده است.
    مشخصات این مجموعه داده عبارتست از:
    درجه تفکیک نمونه‏‌ها: ۲۰۰ نقطه بر اینچ تعداد کل نمونه‏‌ها: ۱۰۲۳۵۲ نمونه تعداد نمونه‏‌های آموزش: ۶۰۰۰ نمونه از هر کلاس تعداد نمونه‏‌های آزمایش: ۲۰۰۰ نمونه از هر کلاس سایر نمونه‏‌ها: ۲۲۳۵۲ نمونه

مجموعه داده ای هدی

تصویر ۱: نمونه ای از انواع داده های موجود در مجموعه داده ای هدی

سایر پایگاه های داده ارقام دست نویس:

  1. مجموعه داده ای اعداد دست نویس لاتین Semeion

مشخصات مجموعه داده ای semeion

تصویر ۲: مشخصات مجموعه داده ای semeion

مجموعه داده ای توسط Tactile Srl, Brescia در سال ۱۹۹۴ با هدف تحقیقات یادگیری ماشین ایجاد شد.[3]
تعداد ۱۵۹۳ رقم دست نویس هر کدام دارای ۲۵۶ مشخصه متعلق به تقریبا ۸۰ نفر جمع آوری شده و به صورت مربع ۱۶*۱۶ با رنگ بندی مقیاس خاکستری( gray scale ) با ۲۵۶ مقدار نرمال سازی شده است. سپس هر پیکسل از هر تصویر با یک محدوده مشخص به مقدار ۰ یا ۱ نگاشت شده است به این صورت که تمام پیکسل هایی که مقدارشان کمتر از ۱۲۷ بود مقدار ۰ گرفته وبه پیکسل هایی که ۱۲۷ و بالاتر بود مقدار ۱داده شده است در نهاین تصویر باینری به یک مربع ۱۶در۱۶ مقیاس دهی شده است(۲۵۶ مشخصه نهایی) . هر شخص تمام اعداد را از ۰ تا ۹ بر روی کاغذ دو بار نوشته است ٍ یک بار با دقت و شبیه ارقام چاپی و یک بار بدون دقت و با سرعت زیاد. بهترین پروتکل اعتبار سنجی برای این مجموعه داده ای 5x2CV با ۵۰٪ آموزش و آزمایش و ۵۰٪ اعتبار سنجی کاملا کور است.

2.پایگاه داده ارقام دست نویس MNIST

دیتابیس اعداد دست نویس MNIST شامل یک مجموعه آموزشی با ۶۰۰۰۰ نمونه و یک مجموعه آزمایشی ۱۰۰۰۰ نمونه ای است. اعداد از نظر اندازه نرمال سازی شده اند به این معنی که با حفظ نسبت تصویر در وسط یک مربع ۲۰در۲۰ قرار گرفته اند و با استفاده از تکنیک های از بین بردن لبه ناصاف(anti-aliasing) تصاویر به حالت خاکستری درآمده اند[4] .

3.مجموعه داده ای ارقام دست نویسSklearn
این مجموعه اعداد دست نویس شامل تصاویر ۸در۸ از ارقام دست نویس است. اعداد در کل به ۱۰ کلاس تقسیم شده اند(0 تا 9) و از هر کلاس تقریبا ۱۸۰نمونه موجود است که تعداد کل نمونه ها را به ۱۷۹۷ عدد رسانده است. هر پیکسل با توجه به رنگ خود یک از اعداد بازه ۰ تا ۱۶ را به خود اختصاص داده است[5].

توضیح تصویر

تصویر ۳: نمونه ای از مثال های آموزشی در مجموعه داده ای sklearn

الگوریتم های طبقه بندی:

  1. روش شبکه های عصبی(ٔNeural Networks)
    در فازهای بعدی تکمیل خواهد شد

2.روش SVM

3.روش نیمه نظارتی شبکه های عصبی +PL+DAE

  1. روش MTC

روش های بهینه سازی و افزایش سرعت عملکرد:

آزمایش‌ها

بهبود نتایج آزمایشات

مراجع

[1] Optical character recognition page in English wikipedia as cited in 2015: (http://en.wikipedia.org/wiki/Optical_character_recognition)
[2] H. Khosravi and E. Kabir, "Introducing a very large dataset of handwritten Farsi digits and a study on their varieties," Pattern Recognition Letters, vol. 28, pp. 1133-1141, 2007
[3] Semeion Handwritten Digit Data Setas cited in 2015:(http://archive.ics.uci.edu/ml/datasets/Semeion+Handwritten+Digit)
[4] The MNIST database of handwritten digits as cited in 2015:(http://yann.lecun.com/exdb/mnist)
[5] Sklearn handwritten image database as cited in 2015:(http://scikit-learn.org)

پیوندهای مفید

سید ابوالفضل مهدی زاده

با سلام و خسته نباشید خدمت شما و تشکر بابت تحقیقی که انجام داده‌اید. نکاتی پس از مطالعه کار شما به نظرم رسیده که در راستای بهبود کارتان ذکر می‌کنم. امیدوارم با تاثیر دادن این نکات در فازهای بعدی کیفیت کارتان افزایش یابد.
1- ایرادات زبانی موجود در متن شما بسیار کم است. پیشنهاد می‌کنم پس از نوشتن متن یک بار آن را مطالعه کنید تا این ایرادات برطرف شوند.
2- جدول به درستی نمایش داده نمی‌شود. به نظرم مشکل از عدم بررسی دوباره متن پس از نگارش آن است. به نظرم بهتر است مشکل نمایش جدول را نیز برطرف کنید.
3- مقدمه بسیار مختصر و مفید است. با این حال مطلب را به خوبی تشریح کرده‌اید و تقریبا خواننده با اهمیت موضوع و کاربردهای آن آشنا شده است. می‌توانستید مطالب دیگری مانند سایر چالش‌های مطرح در خواندن ارقام را نیز ذکر کنید. در هر صورت مقدمه مناسب است.
4- لیست مراجع شما بسیار کم و به فراخور آن ارجاعات شما نیز بسیار کم است. مثلا عکس استفاده شده شماره ارجاع ندارد. بخش‌هایی از متن هم که به نظر از منابع دیگری گرفته شده‌اند ارجاع ندارند. به طور مشخص الگوریتم‌های بیان شده در بخش کارهای مرتبط.
5- بخش کارهای مرتبط شما بسیار کم است. به نظر من در آینده حتما باید این بخش را تکمیل و جزئیات بیشتری را به آن بیفزایید. می‌توانید چند مقاله پیدا کرده و ذکر کنید هر کدام از آن‌ها از چه روشی برای تشخیص اعداد استفاده کردند. می‌توانید مجموعه دادگان مورد استفاده توسط آن‌ها را نیز بنویسید و دقت کار گزارش شده توسط آن‌ها را نیز ذکر کنید.
در کل من سطح کار شما را متوسط ارزیابی کردم. امیدوارم با تلاش بیشتر در فازهای بعدی کیفیت کارتان را ارتقا دهید.

سید ابوالفضل مهدی زاده

با سلام. تغییر خاصی نسبت به فاز قبل ایجاد نکردید. امیدوارم در فاز بعدی کارتان را تکمیل کنید.

با سلام
به نظرم توضیحات در مورد پایگاه داده ها و جزئیاتشون و همین طور کاربردهایی که این موضوع داره خیلی خوب بیان شده. البته چون ظاهرا تصمیم دارید که الگوریتم ها رو در فازهای بعدی بیان کنید در این مورد خیلی نمیشه نظری داد. اما خب فکر می کنم اگر در کارهای مرتبط همون طور که در مورد پایگاه داده ها توضیحات خوبی ارائه شده مواردی رو هم در مورد روش های پیاده سازی به صورت کلی (نه به صورت کد ، صرفا توضیحات) بیان می کردید حالت عملی تر و پربار تری می داشت.
ضمنا اضافه کردن بسم الله الرحمن الرحیم هم به نظرم یک نکته خیلی خوبی بود که خود بنده و پروژه های دیگران که در موردشون نظر دادم در اون ها به چشم نمی خورد و به نظرم اومد باید به عنوان نکته مثبت بیان کنم.