در دسته‌بندی کنش¹ در ویدئو هدف تشخیص وجود یا عدم وجود یک کنش خاص در ویدئو است. کاربردهای بسیار زیادی برای این مسئله می‌توان در نظر گرفت. موارد ساده‌ای از این کنش‌ها را می‌توانید در تصویر زیر مشاهده کنید:

۱. مقدمه

مبحث تشخیص و بازشناسی کنش² یکی از پرکاربردترین مباحث در زمینه هوش مصنوعی است. از جمله کاربردهای آن می توان به مبحث بازشناسی رفتار ³اشاره نمود.
هدف در بازشناسی کنش این است که با مشاهده ی یک سری اعمال عامل و شرایط محیط تشخیص دهیم که عامل چه کاری را انجام می دهد، مثلا در حال دویدن ، راه رفتن و یا آشپزی است. این مبحث به دلیل کمکی که می تواند در زمینه های روانشناسی و جامعه شناسی، پزشکی و ارتباط بین انسان و رایانه کند از دهه 1980 توجه بسیاری را به خود جلب کرده است.
برای درک بهتر از کاربرد بازشناسی کنش به مثال زیر توجه کنید:
مرد مسنی را در نظر بگیرید که به تنهایی زندگی می کند . او صبح از خواب بیدار شده ، اجاق خود را برای درست کردن چای روشن کرده، تستر را نیز روشن کرده و مقداری نان هم از قفسه بر میدارد. پس از اینکه داروی صبحگاهی خود را مصرف کرد یک سیستم هوشمند به او یادآور می شود که اجاق را خاموش کند. شب همان روز دختر او از طریق یک سایت امن (که هر کسی نتواند به آن دسترسی داشته باشد) یک لیست چک را که توسط یک شبکه هوشمند در آپارتمان پدرش ایجاد شده است یررسی می کند تا متوجه شود که پدرش غذایش را به خوبی می خورد، داروهایش را به موقع مصرف می کند و مشکلی ندارد.
انواع بازشناسی کنش :

بر مبنای سنسور،تک کاربره
مثالی برای این مورد می تواند گوشی های هوشمند و سنسورهای موجود در آن ها باشند که می توانند مثلا تعداد گام های روزانه او را اندازه گیری کرده و بازشناسی کنش فیزیکی ⁴ انجام داده تا به تخمین انرژی مصرفی روزانه او بپردازد.
بر مبنای سنسور، چند کاربره
در این بخش از مجموعه از سنسور ها برای بازشناسی کنش چند نفر استفاده می شود.
بر مبنای سنسور بازشناسی کنش گروهی
بازشناسی کنش در این مورد با دو مورد قبل تفاوت دارد، از این منظر که به کنش از دید گروه به عنوان کل افراد نگاه می کند که به مراتب از موارد قبلی سخت تر است، چرا که علاوه بر پیچیدگی دو مورد قبلی باید به عواملی مانند ارتباط و کنش بین افراد در همکاری با هم نیز توجه شود.
بر مبنای تصویر
در این مورد بررسی کنش و رفتار عامل با استفاده از ویدئو هایی که توسط دوربینهای مختلف ضبط می شوند انجام می شود. در این زمینه تحقیقات گسترده ای با استفاده از متودهایی همچون جریان نوری⁵،فیلترینگ کالمن⁶،مدل مخفی مارکف⁷ انجام شده است. تحقیقات اخیر از دوربین های RGBD مانند Kinect مایکروسافت برای ردیابی کنش های انسان استفاده کرده اند.
دوربین های دو بعدی در شناسایی عمق عاجز بودند حال آنکه این مهم با استفاده از دوربین های عمق ⁸انجام شده است. اطلاعات سنسوری دریافتی از این دوربین ها برای بازسازی زمان واقع⁹ از اسکلت بدن انسان در حالات مختلف استفاده می شود. این داده های اسکلت اطلاعات مهمی را در اختیار محققان قرار می دهد و به آن ها در بازشناسی کنش های نا آشنا در آینده کمک می کند.
این پروژه نیز شامل دریافت اطلاعات از ویدئو و بازشناسی کنش از طریق آن است.
در پردازش ویدئو علاوه بر مشکلات قدیمی پردازش تصویر ،مشکلات دیگری نیز وجود دارد که در ذیل به اختصار چند مورد از آن ها بیان شده است :
1. مقیاس متفاوت ¹⁰ : افراد مختلف امکان دارد در ویدئو های مختلف دارای مقیاس های متفاوتی باشند حال آنکه کار یکسانی را انجام می دهند.
2. حرکت دوربین : امکان دارد دوربین فیلم برداری دوربین دستی همراه با لرزش باشد و یا دوربینی که بر روی پایه ی متحرک نصب شده است.
3. حرکت با دوربین : این امکان نیز وجود دارد که عامل مورد مطالعه در حال انجام عملی مانند اسکیت کردن باشد و در نتیجه همراه با دوربین و با سرعت یکسان با دوربین حرکت کند.
4. گرفتگی¹¹ در این حالت ممکن است عمل انجام شده به خوبی قابل تشخیص نباشد . به شکل زیر توجه کنید :
  
  توضیح تصویر
5. در هم ریختگی پس زمینه [^Background Clutter ]: حاصل از بقیه اشیاء و یا انسان های موجود در ویدئو
6. انسان ها در اندازه ها و شکل های مختلفی هستند ¹²
7. انسان ها ممکن است عمل یکسانی را به اشکال مختلفی انجام دهند . ¹³
  روش های بازشناسی کنش :
  چهار مورد از روش های بازشناسی در ذیل آمده است. روش استدلال احتمالی که در این پروژه استفاده می شود توضیح بیشتری داده شده است :
از طریق منطق و استدلال¹⁴
باز شناسی کنش مبتنی بر wif
بازشناسی کنش مبتنی بر داده کاوی
از طریق استدلال احتمالاتی¹⁵
مدل گرافیکی یک مدل احتمالاتی است که وابستگی های شرطی بین متغیر های تصادفی در آن توسط گراف نمایش داده می شوند. مدل های گرافیکی یک چهارچوب منعطف برای مدلسازی مسائلی با تعداد زیاد متغیر و ارتباطات پیچیده بین آن ها فراهم می سازد. از جمله این مدل ها می توان به مدل مخفی مارکف و بیزین اشاره کرد.آقایان چارنیاک و گلدمن در سال نیز1993 در مقاله ای بیان کردند مدلی که شامل تئوری عدم قطعیت نباشد نمی تواند کامل باشد.
نمونه های ساده ای از مدل های گرافیکی را همانند آنچه در شکل زیر آمده است ، تا به حال زیاد دیده ایم :

توضیح تصویر

نمونه هایی از مدل های گرافیکی مسائل واقعی را در شکل زیر مشاهده می کنید :

شکل سمت چپ مربوط به مدل گرافیکی بیزین CPCS ،طراحی شده در دانشگاه استنفورد در تشخیص پزشکی بیماری داخلی با 480 گره و بیش از 900 یال است. شکل سمت راست نیز مثالی واقعی از مدل مارکف استفاده شده در بخش بندی تصویر ¹⁶ است.
امروزه مدل های گرافیکی احتمالاتی از مهم ترین ابزار های مدلسازی و حل مسائل هوش مصنوعی هستند.
[برای اطلاعات بیشتر می توانید به درس PGM(Probabilistic Graphical Models) دانشگاه استنفورد مراجعه کنید]
در این پروژه نیز با کمک مدل های گرافیکی احتمالاتی به مدلسازی و بازشناسی کنش انجام شده توسط عامل هوشمند پرداخته می شود.

۲. کارهای مرتبط

در این پروژه به کمک مدل های گرافیکی احتمالاتی باید ابتدا مساله مدل شده، کار آموزش پارامتر ها ¹⁷ انجام شده و در نهایت استنتاج ¹⁸انجام شود. در مدل پیشنهادی باید پارامتر های مورد نظر از میان زنجیره فریم ها استخراج می شوندتا در نهایت عمل انجام شده از آن ها استنتاج شوند.
کارهای کمابیش زیادی در این حوزه انجام شده است که به چند مورد از آن ها اشاره می شود .در حوزه اشارات و حرکات ¹⁹ مدل های تولیدی ²⁰ مانند مدل مخفی مارکف برای حالات بازو استفاده شده است [12].همچنین Kapoor و Picard مدل مبتنی بر HMM , به صورت زمان واقع برای ردیابی حرکات سر ارائه داده اند[13]. همچنین در [18] بر اساس مشاهدات دو بعدی 2D و مدل HMM به مدلسازی حرکت انسان پرداخته است.
در [`19]بر اساس مشاهدات سه بعدی 3D مدلسازی حرکت انسان انجام شده است.
جدای مدلهای تولیدی، مدل های تمایزی ²¹ نیز برای حل مساله برچسب گذاری توالی ²² استفاده می شود. مثلا در [14] از مدل ماکزیمم آنتروپی مارکف ²³برای استخراج اطلاعات²⁴ و قطعه بندی ²⁵استفاده شده است.مزیت استفاده از مدل MEMM این است که میتواند مساله همپوشانی جزئیاتی که در زنجیره مشاهده وجود دارند را مدل کند. تفاوت بین این مدل ها در آن است که در مدلهای Generative مقدار احتمال توام محاسبه میشود اما در مدلهای Descriminative مقدار احتمال شرطی به شرط داشتن داده حساب می شود.
مدلهای میدان تصادفی شرطی²⁶ اولین بار توسط [Lafferty et al. [15 معرفی شد. اخیرا استفاده از این مدل ها در بینایی ماشین²⁷ نیز زیاد شده است. برای مثال[ Sminchisescu [16 از این مدل برای دسته بندی فعالیت های حرکتی مانند راه رفتن،پریدن و ... استفاده کرده است. مدل معرفی شده در این مقاله میتواند علاوه بر مساله همپوشانی جزئیاتی که در زنجیره مشاهده است ،وابستگی هایی که بین مشاهدات در بازه های زمانی مختلف²⁸ نیز وجود دارد را مدل کند .مدل CRF مورد استفاده آن ها در این مقاله همچنین توانایی تمیز دادن بین راه رفتن معمولی و پرسه زدن²⁹ را دارد.
مدل های مخفی CRF نیز توسط [Quattoni [17 در بازشناسی شی برای مدل کردن وابستگی های فاصله ای ³⁰ در تصاویر Unsegmented Cluttered استفاده شده است.

۳. آزمایش‌ها

۴. کارهای آینده

۵. مراجع

[1] Laptev, Ivan. "On space-time interest points." International Journal of Computer Vision 64.2-3 (2005): 107-123. لینک
[2] Laptev, Ivan, et al. "Learning realistic human actions from movies." Computer Vision and Pattern Recognition, 2008. CVPR 2008. IEEE Conference on. IEEE, 2008. لینک
[3] Marszalek, Marcin, Ivan Laptev, and Cordelia Schmid. "Actions in context." Computer Vision and Pattern Recognition, 2009. CVPR 2009. IEEE Conference on. IEEE, 2009. لینک
[4] Ghazvininejad Marjan, Rabiee Hamid R., Pourdamghani Nima, Khanipour Parisa. "HMM Based Semi-Supervised Learning for Activity Recognition.
[5] Schuldt Christian, Laptev Ivan, Caputo Barbara , "Recognizing Human Actions: A Local SVM Approach"
[6] Aggarwal, J.K. Ryoo, M.S., "Human activity analysis", 2011,ACM Computing Surveys,2011
[7] Jhuang Hueihan, Zuffi Silvia ,Schmid Cordelia, Black, Michael J, "Towards understanding action recognition", 2013, ICCV, 2013
[8] Liu Jingen, Kuipers Benjamin, Savarese Silvio, "Recognizing Human Actions by Attributes"
[9] Maji Subhransu, Bourdev Lubomir, Malik Jitendra, "Action Recognition from a Distributed Representation of Pose and Appearance"
[10] Planck Max, Dhillon Paramveer S, Nowozin Sebastian, Lampert Christoph H, "Combining Appearance and Motion for Human Action Classification in Videos", 2008
[11] Weinland Daniel,Ronfard Remi,Boyer Edmond, "A Survey of Vision-Based Methods for Action Representation , Segmentation and Recognition", 2010
[12] L. R. Rabiner. A tutorial on hidden markov models and selected applications in speech recognition. In Proc. of the
IEEE, volume 77, pages 257–286, 2002.
[13] A. Kapoor and R. Picard. A real-time head nod and shake detector. In Proceedings from the Workshop on Perspective
User Interfaces, November 2001.
[14] A. McCallum, D. Freitag, and F. Pereira. Maximum entropymarkov models for information extraction and segmentation.
In ICML, 2000.
[15] J. Lafferty, A. McCallum, and F. Pereira. Conditional random ﬁelds: probabilistic models for segmenting and la-
belling sequence data. In ICML, 2001.
[16] C. Sminchisescu, A. Kanaujia, Z. Li, and D. Metaxas. Conditional models for contextual human motion recognition. In
Int’l Conf. on Computer Vision, 2005.
[17] A. Quattoni, M. Collins, and T. Darrell. Conditional random ﬁelds for object recognition. In NIPS, 2004.
[18] M. Brand, N. Oliver, and A. Pentland. Coupled HiddedMarkov models for complex action recognition. In CVPR, 1996
[19] D. Ramanan and D. Forsyth. Automatic annotation of everyday movements. In NIPS, 2003.

۶. پیوندهای مفید

Action
Activity Recognition
Behavior Recognition
physical activity recognition
optical flow
Kalman filtering
Hidden Markov
Depth Camera
Real Time
Different Scaling
Occulusion
Human Variation
Action Variation
logic and reasoning
probabilistic reasoning
Image Segmentation
Parameter Learning
Inference
Gesture
Generative
Discriminative
Sequence Labling
MEMM
Information Extraction
Segmentation
Conditional Random Field
Computer Vision
Different Timesteps
Normal Walk & Wander Walk
Spatial Dependencies

تایید شده

سلام
تعداد کارهای مرتبط قرار داده شده و تنوع روشهای انتخاب شده در این پروژه مناسب بوده اما برای کارها قرار داده شده توضیحات بیش از حد خلاصه بوده که درک روش را برای خواننده سخت میکند.

در ابتدا به نظرم نوشته شما نیاز به مطالعه دوباره دارد تا مشکلات زبانی آن برطرف شود. مثلا به جای متودها می توانید از روش ها استفاده کنید. در بخش مقدمه منابع در متن ذکر نشده اند. مقدمه بسیار مناسب و قابل فهم و دارای ساختار مناسبی است. مشکل به شکل مناسب تشریح شده و چالش های آن ذکر شده اند. در نگارش بخش کارهای مرتبط دقت کافی صورت نگرفته است و بیشتر ترجمه مطالب را ذکر کرده اید.
به نظر من حاصل کار شما مناسب است و می توان به آن نمره بالایی اختصاص داد.

یاسر سوری

با سلام

به نظرم بیش از حد خلاصه کارهای مرتبط را مطرح کرده‌اید. همچنین کارهای مرتبط خیلی محدودی را بررسی کرده‌اید. جا داشت که به غیر از روش‌هایی که از مدل گرافیکی استفاده کرده‌اند خلاصه‌ای از روش‌های دیگر نیز بیاورید. همچنین می‌توانستید با مقایسه این روش‌های دلیل انتخاب خود را توضیح دهید که چرا به سراغ مدل‌های گرافیکی رفته‌اید، مزیت آن‌ها چیست؟ آیا از نظر دقت بهتر هستند؟ آیا سریع‌تر هستند؟ آیا قابل فهم‌تر هستند؟ و اما چند نکته‌ی دیگر:

به پاراگراف بندی گزارش خود دقت کنید. برخی پاراگراف‌ها خیلی کوتاه هستند (در حد یک جمله) و به نظر می‌آید که به اشتباه از پاراگراف بعدی جدا شده‌اند.
ایرادهای نگارشی (فاصله بعد از ویرگول و نقطه) و املایی (نیم‌فاصله) در متن شما دیده می‌شود.
به نظرم وقت آن رسیده که قسمت مربوط به تعریف پروژه را از مقدمه حذف کنید.

با تشکر و آرزوی موفقیت

در بخش مقدمه به خوبی به تشریح مسئله و چالش های مرتبط با آن پرداخته شده است.
بهتر بود در بخش کارهای مرتبط کمی مفصل تر و روان تر در مورد مدل های گرافیکی توضیح می دادید. و از معادل فارسی کلمات استفاده می کردید.همچنین در بخش کارهای مرتبط کلمات دوبعدی و 2D و همچنین 3Dو سه بعدی را کنار هم آورده اید که مترادف هستند.
پیشنهادها:
درس PGM خانم Koller که معرفی کردید به خوبی مباحث مدل های گرافیکی را پوشش داده ولی برای تسلط بیشتر و آشنایی با جزییات می توانید به کتاب مدل های گرافیکی ایشان مراجعه کنید.
به نظر من توضیحاتی که در مورد تفاوت مدل های تولیدی و تمایزی که در قسمت کارهای مرتبط دادید را می توانید دربخش آخر مقدمه که مدل های گرافیکی را معرفی کرده اید بیاورید و در مورد هر کدام توضیح دهید، ولی بقیه موارد که مربوط به کاربرد است در کارهای مرتبط باقی بماند.
در کل متن مناسب و جامعی نوشته شده و از منابع کافی و معتبر استفاده شده.

دسته‌بندی کنش در ویدئو