در سامانه‌های پیدا کردن متن در تصویر، هدف آن است که مکان متن موجود در تصویر را مشخص کنیم. برای مثال به تصاویر زیر توجه کنید که چگونه مکان متون موجود در آن‌ها مشخص شده است:

کاربرد اصلی این مسئله به عنوان یک پیش پردازش قبل از تبدیل تصویر به نوشتار یا همان OCR است.

۱. مقدمه

امروزه به دلیل گسترش چشم‌گیر تکنولوژی و در نتیجه دوربین های عکاسی، عکس‌هایی با کیفیت‌های متنوع موجودند که حجم زیادی از داده‌های تصویری را به وجود آورده‌اند.موفقیت بزرگ تلفن‌های هوشمند و خواسته‌های بزرگ در جستجو و درک تصویر مبتنی بر محتوا، تشخیص متن را یک وظیفه حیاتی در تعامل کامپیوتری انسان ساخته‌است. بنابراین استفاده از این تصاویر و پردازش آن‌ها می تواند به ما اطلاعات مفیدی در موارد مختلف بدهد. به همین دلیل پردازش تصاویر در حال حاضر بسیار مفید بوده و توجه بسیاری را به خود جلب کرده‌است. یک نوع از این پردازش‌ها، استخراج متن از تصویر است که برای آن لازم است ابتدا متن موجود در تصاویر تشخیص داده‌شده و سپس تبدیل به نوشتار صورت بگیرد.
در این مقاله هدف پرداختن به تشخیص متن در تصاویر است و در آن به مرحله استخراج متن از تصویر پرداخته‌ نمی شود.
در روش‌های قدیمی برای استخراج متن از تصاویر صفحات پویش¹شده مورد بررسی قرار می گرفتند. تصاویر مورد استفاده در این روش باید دارای پس‌زمینه سفید بوده و متن موجود در آنها می بایست به صورت افقی قرار می گرفت تا متون آنها قابل تشخیص باشند. ولی در حال حاضر نیاز است عکس‌ها با پیچیدگی های مختلف مورد بررسی قرار بگیرند و امکان استخراج متن از آن‌ها وجود داشته باشد.

از جمله مشکلات و پیچیدگی های استخراج متن از این تصاویر، عبارت است از :
1- پیچیدگی پس زمینه تصویر² : وجود پس‌زمینۀ پیچیده از دو جهت می‌تواند ایجاد مشکل نماید. اول آنکه برخی از اشیا که دارای ساختار منظم و یا بافت خاصی هستند (مانند درها، پنجره‌ها، خطوط خیابان، برگ درختان و غیره ) به اشتباه متن شناسایی می‌گردند. دوم آنکه زمانی‌که پس‌زمینۀ متن تصویری پیچیده‌است نمی‌توان لبه‌های³ متن را به درستی مشخص نمود.

2- سطوح غیر هم سطح ⁴ : ممکن است متن موجود در تصویر، قسمتی در یک سطح و قسمتی در سطح دیگر داشته باشد و یا دارای عمق و بعد بوده باشد. تشخیص این متون مشکل است.

3- جهت متن :متن موجود در تصویر ممکن است دارای زاویه بوده و جهت آن به صورت افقی محض نباشد.

4-روشنایی کنترل نشده [^uneven lightening]: در برخی از تصاویر روشنایی و نورپردازی به صورت ناهموار است به طوری که قسمتی دارای وضوح و روشنایی بیشتر و قسمتی از آن تاریک است.

5- کیفیت پایین : به دلیل استفاده از دوربین‌های معمولی ،کیفیت پایین تصاویر ، یکی از اصلی‌ترین مشکلاتی است که برای پیدا کردن متن در تصویر با آن مواجه هستیم.

6- مشخص نبودن مرز متن و پس زمینه: ممکن است متن موجود هم‌رنگ با پس‌زمینه خود بوده و تشخیص لبه آن به سختی صورت بگیرد.

7- تنوع در رسم‌الخط‌ :

[1]
موارد ذکر شده در بالا مشکلات اصلی برای پیدا کردن متن در تصاویر است. مشکلات دیگری مانند فونت، رنگ و اندازه متون نیز وجود دارد.
حال به بررسی اهمیت پیدا کردن و تشخیص متن در تصویر می‌پردازیم. این کار می‌تواند سببب بهبود روش‌های مورد استفاده در ابزارهای نویسه‌خوان نوری⁵ شود. با استفاده از بهبود روش‌ها می‌توان عکس‌های تهیه شده با دوربین‌های معمولی را نیز به نوشته‌های مناسب تبدیل نمود.
دلیل دیگر این کار استفاده از متن تصویر برای نمایه‌⁶کردن آن است. یعنی با توجه به متن تصویر متوجه شویم که تصویر نمایانگر چه محلی می باشد.

۲. کارهای مرتبط

در سال های اخیر پیشرفت قابل توجهی در تشخیص متن در تصاویر صحنه صورت گرفته است. به طور مختصر به چند کار انجام شده در این حوزه اشاره می کنیم :

کیم و همکارانش [2] روشی را که تر کیبی از SVM و CAMSHIFT را پیشنهاد دادند. SVM برای تحلیل خواص بافت متون مورد استفاده قرار می گیرد. ویژگی‌های بافت ، با شدت پیکسل های خام که به طور مستقیم به SVM تغذیه می شوند، محاسبه می‌گردند و مناطق متن با استفاده از الگوریتم CAMSHIFT به وسیله نتایج تجزیه و تحلیل بافت، شناسایی می شوند.

پان و همکارانش روشی ترکیبی را ارائه کرده‌اند. این روش دارای سه مرحله اصلی پیش‌پردازش، تحلیل مولفه همبند و گروه‌بندی متن است. در ابتدا یک آشکارساز منطقه ای برای تشخیص مناطق متن، در هر لایه هرم تصویر، طراحی شده است. سپس مقیاس سازگاری محدوده محلی، برای تولید مولفه های متن کاندید، استفاده می شود. یک فیلد تصادفی شرطی (CRF) برای فیلتر کردن اجزای غیر متن استفاده می گردد. در نهایت، قطعات متن به خطوط متن یا کلمات، با روش بهینه سازی یادگیری، گروه بندی می شوند. این روش برای متون متراکم در تصاویر با شدت کم کار می کند.

ناصریما موراتی و کومااراسویمی از روش تبدیل ویولت گسسته هارر ⁷و خوشه بندی⁸ استفاده می کردند.در این روش برای استخراج متن از تصویر و برای طبقه بندی دقیق تر قسمت های متنی و غیر متنی، عملیات مورفولوژیکی گنجانده شده است. معمولا بیشتر الگوریتم‌ها تصویر را در مقیاس خاکستری به عنوان ورودی می گیرند، اما در این روش رنگی از رنگ RGB به عنوان ورودی استفاده می شود. لبه‌های برجسته با استفاده از تبدیل موجک Harr شناسایی می شوند.
در این روش ، ویژگی‌های آماری از جمله : میانگین، انحراف استاندارد و انرژی برآورد شده است. خوشه بندی به این منظور استفاده می شود که مجموعه داده ها با توجه به فاصله‌ها، تقسیم بندی شوند. سپس مناطق غیر متن با استفاده از عملیات مورفولوژیکی حذف می گردند. روش پیشنهادی می تواند نتایج خوشه بندی متن را برای تصویر با پس زمینه یکنواخت به دست آورد، اما وقتی که پس‌زمینه غیر یکنواخت است، نمی‌‌تواند متن را پیدا کند. الگوریتم پیشنهادی به جابه‌جایی و جهت قرار دادن متن حساس است.

جانگ و همکارانش[3]‌ معماری کلی برای سامانه‌های استخراج اطلاعات متن⁹ به اختصار TIE ارائه کرده‌اند. که دومین مرحله این معماری پیدا کردن مکان متن¹⁰ می باشد.
رویکردهای موجود برای تشخیص متن می تواند تقریبا به سه دسته تقسیم شود: روش های مبتنی بر بافت¹¹، روش های مبتنی بر منطقه ¹²و روش های ترکیبی.

+روش های مبتنی بر بافت : متون متنی متون را به عنوان یک نوع خاص بافت اداره می کنند و از خواص آنها مانند تنش های محلی، پاسخ های فیلتر و ضرایب موجک استفاده می کنند. این روش ها محاسبه ای است که خواستار آن هستیم زیرا تمام مکان ها و مقیاس ها به طور کامل اسکن می شوند. علاوه بر این، این الگوریتم ها عمدتا متون افقی را تشخیص می دهند.

+روش های مبتنی بر منطقه : روش های مبتنی بر منطقه ابتدا مناطق متن کاندید را از طریق تشخیص لبه یا خوشه بندی مشخص کرده و سپس مناطق غیر متنی را با استفاده از قوانین اکتشافی مختلف حذف می کند.

+دسته سوم، روش های ترکیبی و مخلوطی از روش های مبتنی بر بافت و مبتنی بر منطقه است.[4]

۳. آزمایش‌ها

۴. کارهای آینده

۵. مراجع

[1]L. Agnihotri and N. Dimitrova, “Text detection for video analysis,” in Proceedings of IEEE International Workshop on Content-Based Access of Image and Video Libraries, pp. 109–113, June 1999.
[2]YF. Pan, X. Hou, CL. Liu, "A Hybrid Approach to Detect and Localize Texts in Natural Scene Images," IEEE Transactions on Image Processing, vol. 20, no. 3, pp. 800-813, 2011.
[3] K. Jung, K. I. Kim, A. K. Jain, "Text Information Extraction in Images and Video: a Survey," Pattern Recognition, Elsevier, vol. 37, no.5, pp. 977–997, 2004.
[4]Cong Yao, Xiang Bai, Wenyu Liu, Yi Ma, Zhuowen Tu, "Detecting Texts of Arbitrary Orientations in Natural Images"

۶. پیوندهای مفید

scan
complex backgrounds
edges
nonplaner surfaces
optical character recognition
index
Harr discrete wavelet transform
clustering
text information extraction
text localization
texture-based
region-based

سید ابوالفضل مهدی زاده

با عرض سلام و خسته نباشید
شرح نوشته شده از مسئله در مقدمه مناسب است. خواننده تقریبا با مسئله و چالش‌های آن آشنا می‌شود. می‌توانستید مطالب دیگری هم به این بخش اضافه کنید. برای مثال کاربردهای این مسئله را بیشتر شرح می‌دادید.
در متن شما تاثیر ترجمه در بخشی از نوشته‌ها قابل تشخیص است. هر چیزی که خودتان متوجه شدید را بنویسید. متن دارای ایرادات ویرایشی است. برای مثال یک‌جا پاورقی را به درستی وارد نکرده‌اید. ارجاعات با دقت صورت نگرفته است. در کارهای مرتبط ارجاعات را برای تمامی قسمت‌ها ذکر کنید.
در قسمت کارهای مرتبط توضیحات شما بسیار کم و مختصر است. به نظرم می‌توانستید کارهای بیشتری را بررسی کنید. موضوع انتخابی شما در حوزه پردازش تصاویر قرار دارد. قطعا کارهای مرتبطی که ذکر کرده‌اید دارای تصاویر، فلوچارت و نمودارهای خوبی در متن مقاله هستند. بهتر است آن‌ها را ذکر کنید. استفاده از تصاویر، نمودار و فلوچارت برای نمایش مراحل الگوریتم‌ها بسیار مفید است. این کار باعث فهم بهتر خواننده خواهد شد. نتایج ذکر شده در مقالات را هم ذکر کنید. قطعا در مقالات مجموعه داده‌ای را انتخاب و عملکرد روش خود را گزارش کرده‌اند. روش‌های گزارش دهی از عملکرد الگوریتم پیشنهادی را هم مشخص کنید و در صورت نیاز آن‌ها را نیز توضیح دهید.
امیدوارم موارد ذکر شده را رعایت کرده و کیفیت کار و گزارش خود را در مراحل بعد بالا ببرید.
با احترام