دسته‌بندی کنش در ویدئو

مقدمه

مبحث تشخیص و بازشناسی کنش1 یکی از پرکاربردترین مباحث در زمینه هوش مصنوعی است. از جمله کاربردهای آن می توان به مبحث بازشناسی رفتار 2اشاره نمود.
هدف در بازشناسی کنش این است که با مشاهده ی یک سری اعمال عامل و شرایط محیط تشخیص دهیم که عامل چه کاری را انجام می دهد، مثلا در حال دویدن ، راه رفتن و یا آشپزی است. این مبحث به دلیل کمکی که می تواند در زمینه های روانشناسی و جامعه شناسی، پزشکی و ارتباط بین انسان و رایانه کند از دهه 1980 توجه بسیاری را به خود جلب کرده است.
برای درک بهتر از کاربرد بازشناسی کنش به مثال زیر توجه کنید:
مرد مسنی را در نظر بگیرید که به تنهایی زندگی می کند . او صبح از خواب بیدار شده ، اجاق خود را برای درست کردن چای روشن کرده، تستر را نیز روشن کرده و مقداری نان هم از قفسه بر میدارد. پس از اینکه داروی صبحگاهی خود را مصرف کرد یک سیستم هوشمند به او یادآور می شود که اجاق را خاموش کند. شب همان روز دختر او از طریق یک سایت امن (که هر کسی نتواند به آن دسترسی داشته باشد) یک لیست چک را که توسط یک شبکه هوشمند در آپارتمان پدرش ایجاد شده است یررسی می کند تا متوجه شود که پدرش غذایش را به خوبی می خورد، داروهایش را به موقع مصرف می کند و مشکلی ندارد.
انواع بازشناسی کنش :

  1. بر مبنای سنسور،تک کاربره
    مثالی برای این مورد می تواند گوشی های هوشمند و سنسورهای موجود در آن ها باشند که می توانند مثلا تعداد گام های روزانه او را اندازه گیری کرده و بازشناسی کنش فیزیکی 3 انجام داده تا به تخمین انرژی مصرفی روزانه او بپردازد.

  2. بر مبنای سنسور، چند کاربره
    در این بخش از مجموعه از سنسور ها برای بازشناسی کنش چند نفر استفاده می شود.

  3. بر مبنای سنسور بازشناسی کنش گروهی
    بازشناسی کنش در این مورد با دو مورد قبل تفاوت دارد، از این منظر که به کنش از دید گروه به عنوان کل افراد نگاه می کند که به مراتب از موارد قبلی سخت تر است، چرا که علاوه بر پیچیدگی دو مورد قبلی باید به عواملی مانند ارتباط و کنش بین افراد در همکاری با هم نیز توجه شود.

  4. بر مبنای تصویر
    در این مورد بررسی کنش و رفتار عامل با استفاده از ویدئو هایی که توسط دوربینهای مختلف ضبط می شوند انجام می شود. در این زمینه تحقیقات گسترده ای با استفاده از متودهایی همچون جریان نوری4،فیلترینگ کالمن5،مدل مخفی مارکف6 انجام شده است. تحقیقات اخیر از دوربین های RGBD مانند Kinect مایکروسافت برای ردیابی کنش های انسان استفاده کرده اند.
    دوربین های دو بعدی در شناسایی عمق عاجز بودند حال آنکه این مهم با استفاده از دوربین های عمق 7انجام شده است. اطلاعات سنسوری دریافتی از این دوربین ها برای بازسازی زمان واقع8 از اسکلت بدن انسان در حالات مختلف استفاده می شود. این داده های اسکلت اطلاعات مهمی را در اختیار محققان قرار می دهد و به آن ها در بازشناسی کنش های نا آشنا در آینده کمک می کند.
    این پروژه نیز شامل دریافت اطلاعات از ویدئو و بازشناسی کنش از طریق آن است.
    در پردازش ویدئو علاوه بر مشکلات قدیمی پردازش تصویر ،مشکلات دیگری نیز وجود دارد که در ذیل به اختصار چند مورد از آن ها بیان شده است :

    1. مقیاس متفاوت 9 : افراد مختلف امکان دارد در ویدئو های مختلف دارای مقیاس های متفاوتی باشند حال آنکه کار یکسانی را انجام می دهند.

    2. حرکت دوربین : امکان دارد دوربین فیلم برداری دوربین دستی همراه با لرزش باشد و یا دوربینی که بر روی پایه ی متحرک نصب شده است.

    3. حرکت با دوربین : این امکان نیز وجود دارد که عامل مورد مطالعه در حال انجام عملی مانند اسکیت کردن باشد و در نتیجه همراه با دوربین و با سرعت یکسان با دوربین حرکت کند.

    4. گرفتگی10 در این حالت ممکن است عمل انجام شده به خوبی قابل تشخیص نباشد . به شکل زیر توجه کنید :

      توضیح تصویر

    5. در هم ریختگی پس زمینه [^Background Clutter ]: حاصل از بقیه اشیاء و یا انسان های موجود در ویدئو

    6. انسان ها در اندازه ها و شکل های مختلفی هستند 11

    7. انسان ها ممکن است عمل یکسانی را به اشکال مختلفی انجام دهند . 12
      روش های بازشناسی کنش :
      چهار مورد از روش های بازشناسی در ذیل آمده است. روش استدلال احتمالی که در این پروژه استفاده می شود توضیح بیشتری داده شده است :

  5. از طریق منطق و استدلال13

  6. باز شناسی کنش مبتنی بر wif

  7. بازشناسی کنش مبتنی بر داده کاوی

  8. از طریق استدلال احتمالاتی14
    مدل گرافیکی یک مدل احتمالاتی است که وابستگی های شرطی بین متغیر های تصادفی در آن توسط گراف نمایش داده می شوند. مدل های گرافیکی یک چهارچوب منعطف برای مدلسازی مسائلی با تعداد زیاد متغیر و ارتباطات پیچیده بین آن ها فراهم می سازد. از جمله این مدل ها می توان به مدل مخفی مارکف و بیزین اشاره کرد.آقایان چارنیاک و گلدمن در سال نیز1993 در مقاله ای بیان کردند مدلی که شامل تئوری عدم قطعیت نباشد نمی تواند کامل باشد.
    نمونه های ساده ای از مدل های گرافیکی را همانند آنچه در شکل زیر آمده است ، تا به حال زیاد دیده ایم :

    توضیح تصویر

    نمونه هایی از مدل های گرافیکی مسائل واقعی را در شکل زیر مشاهده می کنید :

    شکل سمت چپ مربوط به مدل گرافیکی بیزین CPCS ،طراحی شده در دانشگاه استنفورد در تشخیص پزشکی بیماری داخلی با 480 گره و بیش از 900 یال است. شکل سمت راست نیز مثالی واقعی از مدل مارکف استفاده شده در بخش بندی تصویر 15 است.
    امروزه مدل های گرافیکی احتمالاتی از مهم ترین ابزار های مدلسازی و حل مسائل هوش مصنوعی هستند.
    [برای اطلاعات بیشتر می توانید به درس PGM(Probabilistic Graphical Models) دانشگاه استنفورد مراجعه کنید]
    در این پروژه نیز با کمک مدل های گرافیکی احتمالاتی به مدلسازی و بازشناسی کنش انجام شده توسط عامل هوشمند پرداخته می شود.

کارهای مرتبط

در این پروژه به کمک مدل های گرافیکی احتمالاتی باید ابتدا مساله مدل شده، کار آموزش پارامتر ها 16 انجام شده و در نهایت استنتاج 17انجام شود. در مدل پیشنهادی باید پارامتر های مورد نظر از میان زنجیره فریم ها استخراج می شوندتا در نهایت عمل انجام شده از آن ها استنتاج شوند.
کارهای کمابیش زیادی در این حوزه انجام شده است که به چند مورد از آن ها اشاره می شود .در حوزه اشارات و حرکات 18 مدل های تولیدی 19 مانند مدل مخفی مارکف برای حالات بازو استفاده شده است [12].همچنین Kapoor و Picard مدل مبتنی بر HMM , به صورت زمان واقع برای ردیابی حرکات سر ارائه داده اند[13]. همچنین در [18] بر اساس مشاهدات دو بعدی 2D و مدل HMM به مدلسازی حرکت انسان پرداخته است.
در [`19]بر اساس مشاهدات سه بعدی 3D مدلسازی حرکت انسان انجام شده است.
جدای مدلهای تولیدی، مدل های تمایزی 20 نیز برای حل مساله برچسب گذاری توالی 21 استفاده می شود. مثلا در [14] از مدل ماکزیمم آنتروپی مارکف 22برای استخراج اطلاعات23 و قطعه بندی 24استفاده شده است.مزیت استفاده از مدل MEMM این است که میتواند مساله همپوشانی جزئیاتی که در زنجیره مشاهده وجود دارند را مدل کند. تفاوت بین این مدل ها در آن است که در مدلهای Generative مقدار احتمال توام محاسبه میشود اما در مدلهای Descriminative مقدار احتمال شرطی به شرط داشتن داده حساب می شود.
مدلهای میدان تصادفی شرطی25 اولین بار توسط [Lafferty et al. [15 معرفی شد. اخیرا استفاده از این مدل ها در بینایی ماشین26 نیز زیاد شده است. برای مثال[ Sminchisescu [16 از این مدل برای دسته بندی فعالیت های حرکتی مانند راه رفتن،پریدن و ... استفاده کرده است. مدل معرفی شده در این مقاله میتواند علاوه بر مساله همپوشانی جزئیاتی که در زنجیره مشاهده است ،وابستگی هایی که بین مشاهدات در بازه های زمانی مختلف27 نیز وجود دارد را مدل کند .مدل CRF مورد استفاده آن ها در این مقاله همچنین توانایی تمیز دادن بین راه رفتن معمولی و پرسه زدن28 را دارد.
مدل های مخفی CRF نیز توسط [Quattoni [17 در بازشناسی شی برای مدل کردن وابستگی های فاصله ای 29 در تصاویر Unsegmented Cluttered استفاده شده است.

گزارش نتایج آزمایش

در این مرحله از پروژه از روش Bag of word یا Bag of feature استفاده می شود.مراحل انجام شده در مرحله آموزش در این بخش عبارتند از :
۱- فریم بندی ویدئو
۲- استخراج ویژگی ها از هر فریم با استفاده از روش SIFT
۳- خوشه بندی 30توصیف کننده 31های بدست آمده در مرحله قبل برای مقدار bag کشخص شده و آموزش bag ها با توصیف کننده های خوشه بندی شده با استفاده از الگوریتم K-means
۴- بدست آوردن کلمه تصویری 32
پیش از توضیح هر مرحله ابتدا اطلاعات اندکی درباره مجموعه دادگان مورد استفاده در این پروژه در زیر آمده است. در این پروژه از داده های تهیه شده در [1]استفاده شده است.این مجموعه دادگان شامل ۶ کنشِ راه رفتن ,دویدن , آهسته دویدن , تکان دادن دست,مشت زدن و دست تکان دادن است که در ۴ سناریوی محیط بیرون, محیط بیرون با تغییر در مقیاس, محیط بیرون با لباس مختلف و محیط داخلی خانه و توسط ۲۵ نفر تهیه شده است(شکل زیر) که در این مرحله از ۴ کنش اول استفاده است.نرخ ویدئو در آنها ۲۵ فریم در ثانیه است که به طور میانگین ۱۴ ثانیه طول فیلمِ هر بخش است.تعداد کل دادگان در حالت ۶ کنش به ۲۳۹۱ عدد میرسد.شکل زیر نمونه ای از فریم های کنش های مختلف را نشان می‌دهد:

توضیح تصویر

.در این مرحله آموزش با ۱۷ نفر و آزمایش با ۸ نفر دیگر انجام شده است.به طور مثال برای آموزش دویدن از ویدئوهای ۱۷ نفر اول, هرکدام در ۴ موقعیت موجود استفاده شده است یعنی ۶۸ ویدئو برای هر کنش.
برای مرحله اول و دوم مانند قسمت بهبود نتایج عمل می کنیم.شرح کامل کار در مرحله ۱ و ۲ از بهبودنتایج آمده است.برای هر ویدئو در این قسمت با میانگیری یک بردار از توصیفکننده ها را بدست می آوریم.یعنی مثلا برای ویدئواول از دویدن person01_running_d1_uncomp با ۳۳۵ فریم یک بردار توصیف کننده میانگین در نظر میگیریم که از اینجا قابل دسترسی است .
در مرحله سوم descriptor های محاسبه شده برای هر فریم از هر ویدئو ُبه تعداد bag ها (disctionarySize در کد)خوشه بندی می شوند و سپس با آموزش واژگان 33را تولید می کنند.پس از اجرای قطعه کد فایلی با نام dictionary.yml ایجاد می شود.کد این مرحله از اینجا قابل دریافت است.
در مرحله بعد که مرحله آزمون است برای ویدئو داده شده ابتدا آن را فریم بندی میکنیم.برای هر فریم آن با استفاده از عملگر SIFT ویژگی های مد نظر یعنی توصیف کننده ها را بدست آورده میانگین آن را محاسبه می کنیم.سپس بردار توصبف کننده نماینده از این ویدئو را با واژگان بدست آمده از مرحله قبل تطابق می دهیم و هیستوگرام را می سازیم.کد این قسمت ازاینجا قابل دسترسی است.
نتایج بدست آمده از آزمون در این بخش به صورت زیر است :
توضیح تصویر

بهبود نتایج :
مراحل انجام شده در این بخش از پروژه به ترتیب عبارتند از :
۱- فریم بندی ویدئو
۲- استخراج ویژگی ها از هر فریم
۳- محاسبه میانگین و ماتریس کواریانس برای هر کنش
۴- استفاده از مدل گرافیکی احتمالاتی برای تعیین کنش در مرحله آموزش
۵- آزمون

مجموعه دادگان مورد استفاده در این پروژه از لینک زیر قابل دریافت است : http://www.nada.kth.se/cvap/actions
۱- فریم بندی :در مرحله آموزش (مثلا برای کنش دویدن)ابتدا ۶۸ ویدئو مورد نظر فریم بندی می شوند.برای فریم بندی از کد framing استفاده شده است که از اینجا قابل دسترسی است.هم چنین می توان از دستور زیر نیز در محیط لینوکس اوبونتو استفاده کرد :
ffmpeg -i inputfile.avi -r 25 -f image2 image-%3d.jpeg
که در آن فایل ویدیوی ورودی با نرخ ۲۵ فریم در ثانیه به فریم هایش شکسته میشود و در قالب تصاویری با پسوند jpeg ذخیره می شوند.یک مثال از فریم بندی ویدیوی اول برای دویدن از اینجا قابل دسترسی است.
۲- استخراج ویژگی ها از هر فریم: در این مرحله با استفاده از عملگر SIFT ویژگی های مورد نظر از هر فریم استخراج می شوند.این عملگر بردارهای توصیف کننده ۱۲۸ تایی را تشکیل می دهد که از آنها در مرحله بعد استفاده می شود.کد استخراج کننده ویژگی ها با استفاده از SIFT ازاینجاقابل دریافت است.یک نمونه مجموعه بردار حاصل از SIFT نیز در اینجا قابل رویت است.در شکل زیر یک نمونه عملیات SIFT را بر روی یک فریم از کنشِ دویدن ملاحظه می کنید.

توضیح تصویر

۳-محاسبه میانگین و ماتریس کواریانس برای هر کنش: در این مرحله بردار های ۱۲۸ تایی برای هر کنش باید در محاسبه ی میانگین و ماتریس کواریانس شرکت کنند.کد محاسبه میانگین و ماتریس کوواریانس از اینجا قابل دریافت است.
۴- استفاده از مدل گرافیکی احتمالاتی برای تعیین کنش در مرحله آموزش: همانطور که در مراحل قبل نیز توضیح داده شد روش پایه مورد استفاده روش مدلهای گرافیکی است.به طور کلی در هر مساله که از مدل های گرافیکی استفاده کرده است, مدلی از مساله ایجاد می شود تا از آن برای استنتاج نهایی که همان استخراج مقدار احتمال است استفاده شود.یک مدل ساده شده برای مساله می تواند مدل زیر باشد :

توضیح تصویر

در این پروژه از مدل بالا که مثالی از مدل گرافیکی CRF است استفاده می شود. این مدل نمونه ای از مدلهای بدون جهت محسوب می شود. شکل بالا مدل یک ویدئو مانند راه رفتن را نشان میدهد که از تعدادی فریم تشکیل شده است.این فریم ها دارای برچسب های L1 ,L2,...Ln هستند که در نهایت برچسب نهایی که Y است را منتج می شوند.
برای بدست آورد برچسب کلی کنش در هر ویدئو نیاز به برقراری ارتباط بین بردار ویژگی استخراج شده با برچسب هر فریم در گام دوم و سپس استفاده از آن در محاسبه برچسب کنش انجام شده طبق رابطه زیر است

                                            P= 1/z Exp (-E)                   

که در آن E می تواند حاصل ضرب مقادیر تابع پتانسیل باشد.یک تعریف ساده از تابع پتانسیل می تواند رابطه بین متغیر ها باشد.
از آنجا که مقهوم تابع پتانسیل از اهمیت ویژه ای در این بحث برخوردار است به مثال زیر توجه کنید :
فرض کنید که ۴ دانشجو در مورد تمرینات درس الگوشناسی خود با هم بحث می کنند.تابع پتانسیل بین دو دانشجو C و B یاB,C)Phi )مانند زیر تعریف می شود:

توضیح تصویر

که در آن B , C با دو مقدار ۱ با هم اختلاف نظر داشته و با دو مقدار ۱۰۰ با هم, هم نظر هستند.
همانطور که در مدل بالا هم مشاهده می شود برچسب هر فریم با استفاده از ویژگی های استخراج شده و از طریق توابع پتانسیل بدست می آید. شایان ذکر است که در این مرحله از پروژه فرض دیگری استفاده شده است و آن اینکه نیازی به بدست آوردن برچسب های هر فریم نیست و برچسب هر فریم در مرحله آموزش از طریق مجموعه دادگان داده شده و همان برچسب کلی ویدئو است.
برای محاسبه تابع پتانسیل یک فرض ساده کننده استفاده از تابع توزیع نرمال است که رابطه آن به شکل زیر است :
تابع توزیع نرمال

رابطه مورد استفاده در این مرحله تابع توزیع دوتاشونده 34 است که اندکی از رابطه بالا پیچیده تر است چرا که همبستگی بین ویژگی ها نیز در نظر گرفته شده است:
توضیح تصویر

بنابراین برای استفاده از رابطه بالا نیاز به محاسبه میانگین و ماتریس کوواریانس است.ماتریس کواریانس که طبق شکل زیر محاسبه می شود بیانگر میزان وابستگی ویژگی ها به یکدیگر است .(محاسبه این ماتریس در گام قبل انجام شده است.)
توضیح تصویر

برای محاسبه Z در فرمول احتمال نهایی از جمع حاصلضرب توابع پتانسیل استفاده می‌شود

۵-آزمون : هنگامی که داده جدید برای برچسب گذاری به سیستم داده می‌شود بردار ویژگی هر فریم از آن استخراج می‌شود. سپس مقدار میانگین و ماتریس کوواریانس به ازای تمامی این فریم ها محاسه می شود. .در مرحله چهارم مقدار توابع پتانسیل با بردار ویژگی استخراج شده از ویدئو مدنظر, به ازای مقادیر مختلف mu و ماتریس کوواریانس که نماینده کنش های مختلف هستند محاسبه می شود.در مرحله نهایی مقدار احتمال به ازای این مقادیر مختلف بدست می آید.‌بیشترین مقدار احتمال به ازای این مقادیر مختلف میانگین ,کوواریانس و توابع پتانسیل نشانگر کنش تشخیص داده شده است.
فرآیند یادگیری ویدئو ها در دو مرحله انجام می شود. در مرحله اول به صورت یک در مقابل همه35 برای هر کدام از کلاس ها یک boosted decision tree classifier آموزش داده می شود تا هر کلاسیفایر بتواند کلاس مربوط به خود را با توجه به ویژگی فریح ها ها پیش بینی کند. در مرحله دوم یادگیری خروجی مرحله اول به یک کلاسیفایر لاجستیک رگرسیون چند کلاسه داده می شود.جهت ارزیابی مدل یادگرفته شده روی داده های تست، از الگوریتم Alpha expansion برای استنتاج استفاده می کنیم.

نتایج

در مرحله آزمون از ویدیو های مربوط به ۸ نفر انتهایی استفاده شده است.یعنی برای هر کنش ۳۲ ویدیو مورد آزمون قرار گرفته اند.ماتریس درهم ریختگی36 نتایج بدست آمده در جدول زیر آمده است. همان طور که از جدول مشخص است با روش ارائه شده به دقت ۷۸ درصد برای کنش دویدن رسیدیم.یک نمونه آزمایش دادگان پیچیده راه رفتن که سیستم به اشتباه دویدن تشخیص داده است را در اینجا می توانید ببینید

توضیح تصویر

مراجع

[1] Laptev, Ivan. "On space-time interest points." International Journal of Computer Vision 64.2-3 (2005): 107-123. لینک
[2] Laptev, Ivan, et al. "Learning realistic human actions from movies." Computer Vision and Pattern Recognition, 2008. CVPR 2008. IEEE Conference on. IEEE, 2008. لینک
[3] Marszalek, Marcin, Ivan Laptev, and Cordelia Schmid. "Actions in context." Computer Vision and Pattern Recognition, 2009. CVPR 2009. IEEE Conference on. IEEE, 2009. لینک
[4] Ghazvininejad Marjan, Rabiee Hamid R., Pourdamghani Nima, Khanipour Parisa. "HMM Based Semi-Supervised Learning for Activity Recognition.
[5] Schuldt Christian, Laptev Ivan, Caputo Barbara , "Recognizing Human Actions: A Local SVM Approach"
[6] Aggarwal, J.K. Ryoo, M.S., "Human activity analysis", 2011,ACM Computing Surveys,2011
[7] Jhuang Hueihan, Zuffi Silvia ,Schmid Cordelia, Black, Michael J, "Towards understanding action recognition", 2013, ICCV, 2013
[8] Liu Jingen, Kuipers Benjamin, Savarese Silvio, "Recognizing Human Actions by Attributes"
[9] Maji Subhransu, Bourdev Lubomir, Malik Jitendra, "Action Recognition from a Distributed Representation of Pose and Appearance"
[10] Planck Max, Dhillon Paramveer S, Nowozin Sebastian, Lampert Christoph H, "Combining Appearance and Motion for Human Action Classification in Videos", 2008
[11] Weinland Daniel,Ronfard Remi,Boyer Edmond, "A Survey of Vision-Based Methods for Action Representation , Segmentation and Recognition", 2010
[12] L. R. Rabiner. A tutorial on hidden markov models and selected applications in speech recognition. In Proc. of the
IEEE, volume 77, pages 257–286, 2002.
[13] A. Kapoor and R. Picard. A real-time head nod and shake detector. In Proceedings from the Workshop on Perspective
User Interfaces, November 2001.
[14] A. McCallum, D. Freitag, and F. Pereira. Maximum entropymarkov models for information extraction and segmentation.
In ICML, 2000.
[15] J. Lafferty, A. McCallum, and F. Pereira. Conditional random fields: probabilistic models for segmenting and la-
belling sequence data. In ICML, 2001.
[16] C. Sminchisescu, A. Kanaujia, Z. Li, and D. Metaxas. Conditional models for contextual human motion recognition. In
Int’l Conf. on Computer Vision, 2005.
[17] A. Quattoni, M. Collins, and T. Darrell. Conditional random fields for object recognition. In NIPS, 2004.
[18] M. Brand, N. Oliver, and A. Pentland. Coupled HiddedMarkov models for complex action recognition. In CVPR, 1996
[19] D. Ramanan and D. Forsyth. Automatic annotation of everyday movements. In NIPS, 2003.

پیوندهای مفید


  1. Activity Recognition

  2. Behavior Recognition

  3. physical activity recognition

  4. optical flow

  5. Kalman filtering

  6. Hidden Markov

  7. Depth Camera

  8. Real Time

  9. Different Scaling

  10. Occulusion

  11. Human Variation

  12. Action Variation

  13. logic and reasoning

  14. probabilistic reasoning

  15. Image Segmentation

  16. Parameter Learning

  17. Inference

  18. Gesture

  19. Generative

  20. Discriminative

  21. Sequence Labling

  22. MEMM

  23. Information Extraction

  24. Segmentation

  25. Conditional Random Field

  26. Computer Vision

  27. Different Timesteps

  28. Normal Walk & Wander Walk

  29. Spatial Dependencies

  30. clustering

  31. descriptor

  32. visual vocabulary

  33. vocabulary

  34. Bivariate

  35. one-versus-all

  36. Confusion Matrix

ارزیابی آشنایی با مساله 1393/08/17
یاسر سوری

با سلام

ضمن تشکر از گزارشی که تهیه‌کرده‌اید توجه شما را به چند نکته جلب می‌کنم:

  • در بخش مقدمه ساختار پاراگراف‌ها را به خوبی رعایت نکرده‌اید. همچنین مواردی را مطرح کرده‌اید که ربطی به موضوع ندارد

  • متن پختگی کافی را نداشت. به نظرم باید روی نگارش و جمله‌بندی‌ها وقت بیشتری قرار دهید.

  • ارجاعات ساختار مناسبی ندارند.

موفق باشید.

ارزیابی مطالعه کارهای مرتبط 1393/09/15
تایید شده

سلام
تعداد کارهای مرتبط قرار داده شده و تنوع روشهای انتخاب شده در این پروژه مناسب بوده اما برای کارها قرار داده شده توضیحات بیش از حد خلاصه بوده که درک روش را برای خواننده سخت میکند.

تایید شده

در ابتدا به نظرم نوشته شما نیاز به مطالعه دوباره دارد تا مشکلات زبانی آن برطرف شود. مثلا به جای متودها می توانید از روش ها استفاده کنید. در بخش مقدمه منابع در متن ذکر نشده اند. مقدمه بسیار مناسب و قابل فهم و دارای ساختار مناسبی است. مشکل به شکل مناسب تشریح شده و چالش های آن ذکر شده اند. در نگارش بخش کارهای مرتبط دقت کافی صورت نگرفته است و بیشتر ترجمه مطالب را ذکر کرده اید.
به نظر من حاصل کار شما مناسب است و می توان به آن نمره بالایی اختصاص داد.

یاسر سوری

با سلام

به نظرم بیش از حد خلاصه کارهای مرتبط را مطرح کرده‌اید. همچنین کارهای مرتبط خیلی محدودی را بررسی کرده‌اید. جا داشت که به غیر از روش‌هایی که از مدل گرافیکی استفاده کرده‌اند خلاصه‌ای از روش‌های دیگر نیز بیاورید. همچنین می‌توانستید با مقایسه این روش‌های دلیل انتخاب خود را توضیح دهید که چرا به سراغ مدل‌های گرافیکی رفته‌اید، مزیت آن‌ها چیست؟ آیا از نظر دقت بهتر هستند؟ آیا سریع‌تر هستند؟ آیا قابل فهم‌تر هستند؟ و اما چند نکته‌ی دیگر:

  • به پاراگراف بندی گزارش خود دقت کنید. برخی پاراگراف‌ها خیلی کوتاه هستند (در حد یک جمله) و به نظر می‌آید که به اشتباه از پاراگراف بعدی جدا شده‌اند.

  • ایرادهای نگارشی (فاصله بعد از ویرگول و نقطه) و املایی (نیم‌فاصله) در متن شما دیده می‌شود.

  • به نظرم وقت آن رسیده که قسمت مربوط به تعریف پروژه را از مقدمه حذف کنید.

با تشکر و آرزوی موفقیت

تایید شده

در بخش مقدمه به خوبی به تشریح مسئله و چالش های مرتبط با آن پرداخته شده است.
بهتر بود در بخش کارهای مرتبط کمی مفصل تر و روان تر در مورد مدل های گرافیکی توضیح می دادید. و از معادل فارسی کلمات استفاده می کردید.همچنین در بخش کارهای مرتبط کلمات دوبعدی و 2D و همچنین 3Dو سه بعدی را کنار هم آورده اید که مترادف هستند.
پیشنهادها:
درس PGM خانم Koller که معرفی کردید به خوبی مباحث مدل های گرافیکی را پوشش داده ولی برای تسلط بیشتر و آشنایی با جزییات می توانید به کتاب مدل های گرافیکی ایشان مراجعه کنید.
به نظر من توضیحاتی که در مورد تفاوت مدل های تولیدی و تمایزی که در قسمت کارهای مرتبط دادید را می توانید دربخش آخر مقدمه که مدل های گرافیکی را معرفی کرده اید بیاورید و در مورد هر کدام توضیح دهید، ولی بقیه موارد که مربوط به کاربرد است در کارهای مرتبط باقی بماند.
در کل متن مناسب و جامعی نوشته شده و از منابع کافی و معتبر استفاده شده.

ارزیابی گزارش نتایج آزمایش 1393/10/13
یاسر سوری

پیاده سازی شما در دو لینکی که داده بودید انتظارات را برآورده نکرد. لینک اولی که متأسفانه کار نکرد و لینک دوم نیز مشخص نیست که چه کاری را انجام می‌دهد و خیلی شبیه به کد یکی دیگر از دانشجوهاست! شاید اشتباهی رخ داده است.

ضمناً ۲ عدد فایل به عنوان پیاده سازی قابل قبول نیست. لازم است که فایلی به عنوان README وجود داشته باشد که توضیحات درون آن باشد که چگونه اجرا کنیم و ...
ضمنا لازم است کد در سایت github قرار داده شود. در این موارد می‌توانید از حل‌تمرین اصلی درس پرس و جو کنید.

نکته دیگر اینکه گزارش شما از نظر نگارشی بسیار ضعیف است که جا دارد زمان بیشتری روی آن بگذارید.

نتایجی هم که حاصل پیاده سازی خودتان باشد مشاهده نشد!

رد شده

با سلام
به نظر من بهتر بود در بخش گزارش نتایج آزمایش مراحل انجام شده در مرحله آموزش بیشتر توضیح داده میشد این بخش خیلی مختصر است

رد شده

متنتون را خواندم.خوب بود.
فقط چندتا نکته،تا جایی که من متوجه شدم از روش crf استفاده کردید و احساس کردم پیچیدگی ریاضی زیادی داره،در متن به مدل crf مخفی هم اشاره کردید.بهتر بود این مدل را هم توضیح می دادید و تفاوتش را با crf معمولی بیان می کردید.
با بررسی ای که من کردم می بینم که بهبودتون خیلی خوب بوده و این عالیه....فوق العادس...کد های موجود قابل اجرا بودند و مراحل ذکر شده را برآورده کرده اند.
متن دارای پختگی نسبتا قابل قبولی است ولی پاراگراف بندیتون کمی عیب داشت و حتی یکی از پاورقی هاتون هم درست ذکر نشده بود.عیب هایی که گفتم ارزش نمره کم کردن ندارند و در مجموع میتوان نمره خوبی را به این پروژه نسبت داد .
موفق و پیروز باشید

تایید شده

سلام.
مقالتون رو مطالعه کردم تقریبا مناسب بود فقط چند نکته است که اعمالشون باعث میشه کارتون کاملتر بشه.

  • در نگارش و پاراگراف بندی بهتر بود دقت بیشتری را مبذول میداشتید، برای مثال در گزارش آزمایش، دنبال کردن مطلب مستلزم رجوع به به بخشهای دیگر و بازگشت مجدد به مطلب است که شاید میشد نظم بهتری بهش داده بشه.
    -در بخش مقدمه به خوبی به بیان مساله پرداخته اید و خواننده میتواند درک خوبی از مساله داشته باشد.

  • بخش کارهای مرتبط را بهتر بود بهتر توضیح میدادید مثلا فلان مقاله اشکال مقاله دیگر را برطرف کرده است یا مثلا یک سیر زمانی برای مقاله های موردنظرتان در نظر میگرفتید.
    -در مرحله آزمایش از تکنیک bof به خوبی استفاده کرده اید.با بررسی کد هایتان که به زبان ++c بود به این نتیجه رسیدم که خودتان انهارا نوشته اید کدهایتان قابل اجرا بودند. هم چنین انتخاب کد ها به زبان ++Cبه جای متلب سبب افزایش سرعت پروژه تان شده است.

  • توضیحی داده نشده است که چرا از عملگر SIFT برای استخراج ویژگی ها از فریم استفاده شده و جزئیاتش مطرح نشده.
    -در مرحله بهبود نیز از مبحث PGMاستفاده کرده اید که به خوبی مراحل آن تشریح شده است.کدهای این قسمت نیز به زبان ++Cو با استفاده از کتابخانه های opencvنوشته شده بودند که بازهم افزایش سرعت را به دنبال داشته اند.

در کل چون پیاده سازی این کار و بهبود آن مشکل به نظر میرسه، بنابراین میشد از بعضی جزئیات مطرح شده صرف نظر کرد و نمره 5 رو اختصاص داد.

تایید شده

با سلام
در بخش مقدمه پروژه خوب معرفی شده است و جامعیت خوبی دارد.در بخش کارهای مرتبط بهتر بود کمی درباره ی نحوه ی کار مدل ها توضیح داده می شد.
در بخش آزمایش پیاده سازی در حد معمولی بود.بهتر بود کدها توضیح داده می شد که اصلا توضیح نداشت.
در بخش بهبود هم کار کمی ارائه شد.
اما وجود شکل ها در درک روند کلی پروژه کمک خوبی کرد.
موفق باشید.

تایید شده

به نام خدا
سلام و خسته نباشید
در کل کار شما خوب بود ولی میتونست بهتر باشه که با توجه به جدید بودن موضوع و اینکه این مبحث هنوز یکی از موضوعات هوش مصنوعیه که جای کار داره بنظر منطقی هست .
در مرحله بهبود از مدلهای گرافیکی احتمالاتی استفاده شده است که دارای پیچیدگی زیادی در ذات خود هستند و در این پروژه نیز به میزان قابل قبولی به مدل crf پرداخته شده است.
مراحل بکارگیری مدل crf به خوبی بیان شده است و کدهای موجود به زبان ++C در هر مرحله ، بکارگیری این مدل گرافیکی را نشان میدهد.
پاراگراف بندی ها کمی نامناسب به نظر میرسد که می توانستید با مطالعه مجدد متن ، اونها رو اصلاح کنید .
در مجموع کار شما روندی صعودی داشت و در مرحله گزارش نتایج و بهبود از پختگی خوبی برخوردار است.