هر اقدام یا کنش یک انسان با استفاده از حرکت دادن مفصل‌هایش انجام می‌گیرد. بنابراین بین انجام یک کنش و نحوه حرکات مفصل‌ها رابطه وجود دارد. هدف از این پروژه تشخیص کنش‌های انسان با استفاده از مسیر حرکت سه‌بعدی مفصل‌ها است. به عبارت دیگر با داشتن اطلاعات مکان مفصل‌های یک فرد در یک بازه زمانی، کنشی که این فرد انجام داده است باید تشخیص داده شود.

۱. مقدمه

تشخیص کنش‌های انسان یکی از بخش‌های مهم در بینایی ماشین است و بسیاری از سامانه‌های مختلف (مانند سامانه خلاصه سازی ویدئو، تشخیص خودکار حرکات ورزشی، نظارت خودکار در مکان‌های عمومی، تعامل انسان با کامپیوتر بدون استفاده از صفحه کلید و موشواره و ... ) نیاز به تشخیص کنش انسان دارند. بعضی از سامانه‌ها کنش‌های جدیدی برای خود تعریف می‌کنند مثلا در بسیاری از برنامه‌های ارتباط با کامپیوتر یک حرکت خاص با دست، چشم یا سر باعث عملکرد خاصی در برنامه می‌شود. در مقابل این گروه سامانه‌های دیگری هستند که حرکات طبیعی انسان را شناسایی و تحلیل می‌کنند مثلا سامانه نظارت خودکار، نیاز به فهمیدن کنش‌های طبیعی انسان مانند دویدن، توقف، راه رفتن و .. دارد.
یک راه حل برای تشخیص کنش، استفاده از پردازش تصاویر دو بعدی در ویدئو است [9][7][6][4]. اما با پیشرفت فناوری بسیاری از ابزارهای اندازه‌گیری عمق در دسترس قرار گرفتند (مانند کینکت1) و همچنین استفاده از چند دوربین نیز ممکن شد. روش دیگر استفاده از این اطلاعات سه بعدی برای تشخیص کنش است [17][10][8][5][1]. برای محاسبه اطلاعات سه بعدی می‌توان اطلاعات عمق را به صورت مستقیم اندازه‌گیری کرد [5] یا با استفاده از چند دوربین این اطلاعات را به دست آورد.
قسمت اول تشخیص کنش‌های انسان پیدا کردن قسمت‌های مختلف بدن انسان و ردیابی آنها در اطلاعات و ویدئو‌های ورودی است که در این پروژه فرض شده این قسمت انجام شده است. این کار یا با استفاده از چند دوربین و محاسبه ارتباط بین آنها یا با استفاده از حسگرهای اندازه گیری مکان یا با هر روش دیگری ممکن است انجام شده باشد. حتی اگر این اطلاعات به صورت کاملا دقیق محاسبه شوند هنوز تشخیص کنش‌های انسان پیچیده و دشواره خواهد بود. یکی از دلایل آن ابعاد زیاد اطلاعات بدست آمده است که باعث افزایش محاسبات و خطا در تشخیص کنش می‌شود.
ورودی این پروژه اطلاعات محاسبه شده سه‌بعدی مکان مفصل‌های یک انسان در یک بازه زمانی هستند و با استفاده از این اطلاعات، کنش مرتبط تشخیص داده خواهد شد. کنش‌های مورد نظر، کنش‌های طبیعی انسان مانند راه رفتن، نشستن، دویدن و ... هستند.

۲. کارهای مرتبط

اگر رده‌بندی مثل SVM و شبکه بیز 2 فقط با مکان مفاصل بدن کنش‌ها را تشخیص دهد، نمی‌تواند به خوبی عمل کند. زیرا کنش‌های متفاوتی هستند که این الگو برای آنها یکسان است. فنگجان [1] برای یادگیری کنش‌ها، یک مدل فضایی زمانی 3 جدید ارائه می‌دهد و در ادامه برای پیدا کردن یک کنش جدید، آن را با مدل‌های قبلی مقایسه می‌کند. در مدل آنها برای اندازه‌گیری فاصله ابتدا برای هر مفصل فاصله تا مدل محاسبه می‌شود و سپس مجموع وزن‌دار فاصله‌های اندازه‌گیری شده به عنوان فاصله‌ی نهایی در نظر گرفته می‌شود. در نهایت مدل با کمترین فاصله به عنوان نتیجه نهایی اعلام می‌شود.
ایلماز [20] روشی برای استفاده از حجم تصویر یک شی در طول زمان 4 (STV) برای تشخیص کنش‌های مختلف ارائه کرده‌ است. تصویر یک شی را در نظر بگیرید. این تصویر در طول زمان به صورت یک حجم است. آنها ویژگی‌های مختلف هندسی از STV‌‌‌‌ استخراج کردند. در اینجا مسئله رده‌بندی کنش به مسئله پیدا کردن یک شی سه بعدی صلب 5 تبدیل می‌شود. برای تعیین شباهت بین دو شی، که از دو کنش استخراج شده‌اند، دوران و انتقالی را پیدا می‌کنند که فاصله اقلیدسی بین دو شی را حداقل کند.

شکل 1- تصویر کنش‌های حرکت پروانه، راه رفتن و دویدن در طول زمان[22]

گورلیک هم از حجم تصویر شی در طول زمان استفاه کرده است[22]. چند نمونه از STV در شکل بالا نشان داده شده است. دراین روش پس زمینه حذف شده است و سپس حبابهای6 استخراج شده برای تشکیل حجم شی بر روی هم قرار گرفته‌اند. برای هر کنش دو نوع ویژگی محلی 7 و کلی 8 در نظر می‌گیرند. حل معادله پواسون 9 را برای استخراج ویژگی‌های محلی به کار می‌برند. برای استخراج ویژگی کلی STV از ممان وزن‌دار ،که از رابطه 1 محاسبه می‌شود، استفاده می‌کنند. در این رابطه x,y,t نشان‌دهنده مکان،‌w یک تابع وزن و g اندازه تصویر را نشان می‌دهند. در نهایت این ویژگی‌ها را برای رده‌بندی کنش‌ها به کار می‌برند.
رابطه 1)
m_{pqr}=\int_{-\infty}^{\infty}{\int_{-\infty}^{\infty}{\int_{-\infty}^{\infty}{w(x,y,t) g(x,y,t) x^p y^q t^r dxdydt}}}

در روشی که چیا ارائه کرده است [5] ابتدا برای حذف خطا از فیلتر گوسی 10 در حوضه مکان استفاده کرده است. سپس برای استخراج نقاط ویژگی11 فیلتر گابور 12 را در حوضه زمان به کار برده است. الگوریتم ارائه شده توسط آنها نقاط ویژگی وابسته به مکان و زمان 13 را استخراج می‌کند و یک مدل محلی سه بعدی می‌سازد.
لی از شار نوری 14 به عنوان ویژگی استفاده کرده است[21]. آنها شار نوری را از قسمت‌های مختلف تصویر در فضای رنگی rgb استخراج کرده‌اند. لی همچنین برای کاهش ابعاد PCA را به کار برده و پس از آن برای نشان دادن هر کنش در هر دید از مدل مخفی مارکف 15 کمک گرفته است.

محیط سیاه‌نمای استخراج شده و سیگنال ویژگی یک بعدی [19]

در روشی که ونگ ارائه کرده است [19] برای تشخیص کنش‌ها ابتدا سیاه‌نمای 16 تصویر استخراج می‌شود. سپس محیط سیاه‌نمای استخراج شده با فاصله‌های ثابت نمونه برداری می‌شود. درادامه فاصله این نقاط تا مرکز ثقل 17‌ شی به عنوان ویژگی‌ها محاسبه می‌شوند. این ویژگی برای مستقل بودن از بزرگنمایی نسبت به اندازه و تعداد نرمال‌سازی می‌شوند. مطابق شکل بالا ویژگی‌های استخراج شده یک سیگنال یک بعدی را تشکیل می‌دهند. تعداد این نقاط زیاد هست و اطلاعات آنها همپوشانی دارد بنابراین از PCA برای کاهش این نقاط استفاده‌ می‌کنند. در اینجا برای رده‌بندی کنش‌ها از روش نزدیکترین همسایه18 استفاده شده است. آنها مجموع فاصله اقلیدسی نقاط ویژگی متناظر را به عنوان معیار فاصله به کار برده‌اند. همچنین معیار فاصله دیگری که بررسی کرده‌اند فاصله اقلیدسی نرمال شده است.
شلاپا [8]یک مدل مستقل از دید19 برای شناسایی کنش‌ها طراحی کرده است. در مدل آنها هر کنش یک دنباله از مکان‌های بدن هست. در اینجا فرض شده است که مسیر حرکت یکی از نقاط کلیدی بدن در یک صفحه در فضای سه بعدی هست. مثلا در کنش راه رفتن محل سر، شانه‌ها و پا در یک تناوب در یک صفحه قرار دارند. آنها با این فرض یک ویژگی مستقل از دید ارائه داده‌اند.
گراف وزن‌دار مدل کننده یک کنش

برندل[6] مدلی را ارائه داده‌است که می‌تواند کنش‌های یک ویدئو را تشخیص دهد. روش ارائه شده می‌تواند یک کنش را با استفاده از قطعه‌بندی‌کردن20 یک ویدئو، به صورت یک گراف وزن‌‌دار مدل کند. آنها فرض کرده‌اند قسمت‌های مختلف در یک کنش دارای رابطه ثابتی هستند. آنها ابتدا ویدئو ورودی را قطعه‌بندی میکنند و سپس در مدل ساخته شده، هر بخش را با یک گره و رابطه بین بخش‌های مختلف را با یال‌ها نشان می‌دهد. یک نمونه از گراف ساخته شده در شکل بالا نشان داده شده است.
جمالی‌فر [17]برای رده‌بندی کنش‌ها از مکان سه‌بعدی مفصل‌ها در یک بازه زمانی استفاده می‌کند. آنها ویژگی جدیدی برای تشخیص کنش‌ها ارائه داده‌اند. برای محاسبه ویژگی از پارامترهای مدل پویای فرآیند گوسی 21 استفاده می‌کنند. در روش ارائه شده، با استفاده از پارامترهای به دست آمده توسط این مدل برای هر نمونه داده،‌ ویژگی‌های مناسب استخراج می‌شود و از این ویژگی‌ها برای رده‌بندی استفاده می‌کنند. آنها برای رده‌بندی کنش‌ها با استفاده از ویژگی جدید خود از رده‌بند SVM استفاده کرده‌اند. دلیل استفاده از این رده‌بند، بردن بردار ویژگی‌ها به فضاهای بالاتر است. همچنین روش KNN را برای این کار مناسب دانسته‌اند.

۳. آزمایش‌ها

۴. کارهای آینده

۵. مراجع

[1] Lv, Fengjun, Ramakant Nevatia, and Mun Wai Lee. "3D human action recognition sing spatio-temporal motion templates." In Computer Vision in Human-Computer Interaction, pp. 120-130., 2005
[2] Bulling, Andreas, Ulf Blanke, and Bernt Schiele. "A tutorial on human activity recognition using body-worn inertial sensors." In ACM Computing Surveys (CSUR) 46, 2014
[3] Golparvar-Fard, Mani, Arsalan Heydarian, and Juan Carlos Niebles. "Vision-based action recognition of earthmoving equipment using spatio-temporal features and support vector machine classifiers." In Advanced Engineering Informatics 27,
pp. 652-663, 2013
[4] Zhu, Yuke, Tian Lan, Yijian Yang, Steven N. Robinovitch, and Greg Mori. "Latent Spatio-temporal Models for Action Localization and Recognition in Nursing Home Surveillance Video." In IAPR Conference on Machine Vision Applications (MVA). 2013.
[5] Xia, Lu, and J. K. Aggarwal. "Spatio-temporal depth cuboid similarity feature for activity recognition using depth camera." In Computer Vision and Pattern Recognition (CVPR), IEEE Conference, pp. 2834-2841, 2013.
[6] Brendel, William, and Sinisa Todorovic. "Learning spatiotemporal graphs of human activities." In Computer Vision (ICCV), IEEE International Conference, pp. 778-785, 2011
[7] A. Oikonomopoulos, I. Patras and M. Pantic. “Spatiotemporal saliency for human action recognition.” In Proc. Of IEEE Int’l Conf. on Multimedia and Expo (ICME’05), 2005.
[8] V. Parameswaran and R. Chellappa. “View invariants for human action recognition.” In Proc. of CVPR, pp. 613-619, 2003.
[9] A. Shokoufandeh, S.J. Dickinson, C. Jonsson, L. Bretzner and T. “Lindeberg. On the representation and matching of qualitative shape at multiple scales.” In Proc. of ECCV, pp. 759-775, 2002.
[10] L. Campbell and A. Bobick. “Recognition of human body motion using phase space constraints.” In Proc. of ICCV, pp. 624-630, 1995.
[11] C. Rao, A. Yilmaz and M. Shah. “View-Invariant Representation and Recognition of Actions.” In Int’l Journal of Computer Vision 50(2), Nov. 2002, pp. 203-226.
[12] D Weinland, R Ronfard, and E Boyer, "Free viewpoint action recognition using motion history volumes," In Computer Vision and Image Understanding, pp. 249-257, 2006.
[13] J. K. Aggarwal and M. S. Ryoo, "Human activity analysis: A review," In ACM Computing Surveys, 2011.
[14] J. Davis and A. Bobick. “The Representation and Recognition of Action Using Temporal Templates.” In Proc. Of CVPR, pp. 928-934, 1997.
[15] Aaron F. Bobick and James W. Davis, "The recognition of human movement using temporal templates," In Pattern Analysis and Machine Intelligence, IEEE Transactions , pp. 257-267, 2001.
[16] Weinland, Daniel, Remi Ronfard, and Edmond Boyer. "A survey of vision-based methods for action representation, segmentation and recognition." In Computer Vision and Image Understanding 115, pp. 224-241, 2011.
[17] Jamalifar, Hamed, Vahid Ghadakchi, and Shohreh Kasaei. "3D human action recognition using Gaussian processes dynamical models." In Telecommunications (IST), Sixth International Symposium, pp. 1179-1183, 2012.
[18] Somasundaram, Guruprasad, Anoop Cherian, Vassilios Morellas, and Nikolaos Papanikolopoulos. "Action recognition using global spatio-temporal features derived from sparse representations." Computer Vision and Image Understanding, pp.1-13, 2014
[19] Wang, Liang, Tieniu Tan, Huazhong Ning, and Weiming Hu. "Silhouette analysis-based gait recognition for human identification." Pattern Analysis and Machine Intelligence, IEEE Transactions, pp. 1505-1518, 2003.
[20] Yilmaz, Alper, and Mubarak Shah. "Actions sketch: A novel action representation." In Computer Vision and Pattern Recognition, 2005. CVPR 2005. IEEE Computer Society Conference, pp. 984-989, 2005.
[21] Ahmad, Mohiuddin, and Seong-Whan Lee. "Human action recognition using multi-view image sequences." In Automatic Face and Gesture Recognition, 2006. FGR 2006. 7th International Conference, pp. 523-528, 2006.
[22] Gorelick, Lena, Moshe Blank, Eli Shechtman, Michal Irani, and Ronen Basri. "Actions as space-time shapes." Pattern Analysis and Machine Intelligence, IEEE Transactions, pp. 2247-2253, 2007.

۶. پیوندهای مفید


  1. kinect

  2. Bayesian Networks

  3. spatiotemporal

  4. spatio temporal volumes

  5. rigid

  6. blob

  7. local

  8. global

  9. Solution to the Poisson equation

  10. Gussian

  11. Feature point

  12. Gabor

  13. Space Time Interest Point (STIP)

  14. Optical flow

  15. Hidden Markov Model

  16. Silhouette

  17. center of gravity

  18. Nearest neighbor

  19. view

  20. segmentation

  21. Gaussian process dynamical model

تایید شده

با سلام و خسته نباشید
پروژتون رو مطالعه کردم و تقریبا کامل به نظر میرسه . مفاهیم و روش های مورد استفاده در مقالات تقریبا به صورت قابل فهمی توضیح داده شده اند. فقط چندین مسئله کوچک به نظرم رسید که باعث شد بهتون نمره 4 بدم:
-تعدادی از منابعی را که در قسمت مراجع ذکر شده اند، در متن ارجاع داده نشده اند که الزاما باید ذکر شوند یا اگر به کار گرفته نشده اند از آنجا حذف شوند.مثلا 2،3،11،12،13،14،15،16،18.متاسفانه یه علت مهم کسر نمره این مورد شد.
-به نظر میرسد بهتر است در مقالات ترتیب مراجع هم به ترتیب ارجاعات داده شده در متن باشند
-عکسی که مربوط به توضیحات مرجع 6 و جزتیات آن است، به نظرم میرسه بهتر است پایین توضیحات قرار داده شود (خواننده لحظه ای با دیدن عکس گیج میشود که به روش قبلی آیا مرتبط است یا نه )
-بهتر بود عبارت کامل SVM هم، مانند سایر لغات انگلیسی که در انتها آورده اید، این ها را هم ذکر می کردید.همان طور که برای STV انجام داده اید. در ذکر یکی دو مورد از روش ها این مسئله دیده می شد.
-توصیه شده بود تلاش هایی برای انتخاب روش مورد نظر خود انجام دهید و حداقل توضیحات کلی از روشی که نتایج آنها قرار است در مرحله بعد قرار داده شود، ذکر شود.

موفق باشید.

تایید شده

بسمه تعالی
شما در این فاز از منابع زیاد ، معتبر و مرتبطی استفاده نمودید که نشان دهنده تلاش خوب شما برای بیان روش های مختلف در این فاز است.
سعی کردید روش های مختلفی که بر روی این پروژه کار شده است مثل SVM ، PCA و HMM که مرتبط به این درس نیز هست را بررسی نمائید و برداشت خودتان را از مطالب مقالات ارئه دادید .
تصاویر مرتبط با چند روش را در بین متون گنجانده و توضیح مختصری ارائه کردید که به درک بهتر موضوع کمک می کند.
اما در بررسی مطالب شما نکته هایی نیز مشاهده کردم که میبایست به آن ها توجه کنید:
1- روش های مختلفی از حل مسئله که از مقالات مختلف برداشت کرده بودید را اگر با علامت گذاری یا شماره گذاری مجزا می کردید ، هم به زیبایی نوشتار کمک می شد و هم برای خواننده ترتیبی قرار می دادید.
2- تعدادی کمی اشتباه تایپی در متن شما وجود دارد که میتوانستید با مطالعه مجدد مطلب خود ، به آنها پی برده و اصلاح نمائید.
3- درانتهای گزارش خود اشاره نموده اید ، در مقاله آقای جمالی فر روش KNN مناسب شناخته شده ، که از دید مخاطب ، مطلب ناقص و ناتمام است. بهتر بود توضیح بیشتری می دادید و مانند روش های قبل ، شیوه کار این روش را نیز به طور خلاصه بیان می نمودید.

محسن ایمانی

شما در این بخش به خوبی کارهای مرتبط با حوزه مسئله خود را معرفی نمودید. اما بهتر بود به موارد زیر توجه می‌نمودید:

  • بهتر بود کارهای مرتبط را در قالب یک دسته‌بندی ارائه می‌کردید تا مخاطب می‌توانست ارتباط، شباهت‌ها و تفاوت‌های مبنایی هر کدام از روش‌های مرتبط را درک کند.

  • شما هیچ اشاره‌ای از روشی که خود برای پیاده‌سازی انتخاب نموده‌اید نکرده‌اید.

  • بعضا غلط‌های املایی در متن شما مشاهده می‌شود. مانند «حوضه»