غذاهای هر کشور و منطقه‌ی جغرافیایی و نوع موادی غذایی که در آن‌ها مصرف می‌کنند، جزئی از فرهنگ کشورها قلمداد می‌شود. به نحوی که می‌شود این جمله «غذایت را سفارش بده تا بگویم کجایی هستی!» را می‌شود یک قانون قلمداد کرد. در این پروژه می‌خواهیم همین کار را انجام دهید. یعنی باید با داشتن لیستی از مواد اولیه یک غذا، پیش‌بینی خواهیم کرد که این غذا در متعلق به کدام کشور است.

۱. مقدمه

امروزه کارشناسان، تغذیه را یکی از فاکتورهای بسیار مؤثر در سلامت انسان می‌دانند. از این‌رو با افزایش نگرانی‌ها در مورد سلامت مواد غذایی، جمع‌آوری اطلاعات در زمینه‌ی عادت‌های غذایی باتوجه به جغرافیای محل زندگی بسیار مورد توجه قرار گرفته است. فرهنگ یک کشور، میزان دسترسی به منابع غذایی، آب‌وهوا و حتی مذهب غالب در یک کشور را می‌توان از فاکتورهای بسیار مؤثر در عادات غذایی مردم آن‌ درنظر گرفت. علاوه‌بر این دانستن علایق عمده‌ی مردم یک کشور درزمینه‌های مختلف، در این پروژه به‌طور خاص درمورد مواد غذایی، نقش بسیار مهمی در به‌دست گرفتن بازار هدف کشور آن مختلف دارد. از این‌رو، به‌دست آوردن عادت‌های غذایی غالب در هرکشور علاوه بر برخورداری از اهمیت در حوزه سلامت، کاربرد اقتصادی فراوانی نیز دارد.

۱.۱. شرح مسئله

در راستای پیش‌بینی سبد غذایی مردم یک کشور، این مسابقه نیز طراحی شده است که روش کاری ما در این پروژه نیز شبیه به آن است.
در این مسئله یک دیتاست متشکل از مواد غذایی تشکیل‌دهنده‌ی غذاهایی که در کشورهای مختلف، به تفکیک غذا و کشور، سرو می‌شوند در اختیار ما قرار گرفته‌است. باتوجه به این دیتاست ما باید به روشی برسیم که با گرفتن مواد تشکیل‌دهنده یک غذا، تشخیص دهیم آن غذا متعلق به کدام کشور است، یا به‌عبارتی درکدام کشور متقاضی بیش‌تری دارد.

۱.۲. اهمیت مسئله

به این مسئله می‌توان از ابعاد مختلفی نگاه کرد. خروجی این مسئله تنها درزمینه مواد غذایی کاربرد ندارد. امروزه یکی از راه‌های درآمد شبکه‌های اجتماعی من‌جمله فیسبوک درگرو پاسخ به همین مسئله است.
فرض کنید شما سرمایه‌گذار هستید و می‌خواهید یک رستوران زنجیره‌ای در ایران تأسیس کنید. تأسیس یک رستوران زنجیره‌ای نیاز به سرمایه بسیار زیادی دارد و شما قبل از شروع کارتان باید یک اطمینان نسبی از سودآوری آن داشته باشید. بگذارید در دو حالت این مسئله را بررسی کنیم:

  • فرض کنید شما با الگوبرداری از یک رستوران زنجیره‌ای موفق در چین، بدون توجه به نیاز مخاطب اقدام به تأسیس یک رستوران مشابه در ایران کنید. در این حالت به احتمال زیادی شما ورشکست خواهید شد. چراکه سبد غذایی ایرانی بسیار متفاوت با سبد غذایی کشورهای آسیای دور است. لذا سرمایه‌ی شما از دست می‌رود.

  • حالت دوم زمانی‌است که شما پیش از تأسیس رستوران خود، با صرف هزینه‌ای بسیار کم یا هیچ هزینه‌ای به نیازسنجی در جامعه هدف خود پرداخته و به‌وسیله روش‌های نوین یا حتی روش‌های سنتی و باتوجه با ذائقه‌ی غالب در جامعه ایران اقدام به تأسیس یک رستوران کنید. در این حالت می‌توان گفت به احتمال زیادی شما صاحب یک رستوران موفق خواهید شد!
    این تنها یک نمونه از اهمیت این مسئله در بازار اقتصادی است. دربسیاری از زمینه‌ها داشتن اطلاعات درمورد فرهنگ و یا علایق غالب در یک منطقه کمک بسیار زیادی به سودآوری اقتصادی می‌کند.

۱.۳. کاربردها

همان‌طور که پیش‌تر نیز اشاره شد، یکی از روش‌های درآمدی در شبکه‌های اجتماعی، فروش دیتاست‌های متنوع به سرمایه‌گذاران به‌منظور کسب اطلاعات علایق مردم مختلف باتوجه به جغرافیای محل زندگی آن‌ها است.
علاوه براین موتورهای جست‌وجو نیز به نوعی از این روش برای هوشمند وبهینه‌سازی نتایج جست‌وجو باتوجه به محل زندگی و سابقه جست‌وجو استفاده می‌کنند.

۲. کارهای مرتبط

در این بخش ما به دو صورت کارهای مرتبط را بررسی می‌کنیم، درابتدا به توضیح روش موجود در مقاله‌ای می‌پردازیم که همین مسئله را به‌طور کامل و باتوجه به منوهای غذایی موجود در اینترنت حل کرده است و به انتشار نتایج آن پرداخته است و سپس فعالیت‌های مشابهی که روی دیتاست‌ها با موضوعات دیگری صورت گرفته است را بررسی می‌کنیم.

۲.۱. توضیح مقاله اول1

در این مقاله، از داده‌کاوی جهت پیش‌بینی علایق غذایی نقاط مختلف استفاده شده‌است.
ابتدا منوهای غذایی از دو سایت محبوب در این زمینه که براساس کشور غذاها را دسته بندی کردند، منوی غذاها دریافت شده و مواد تشکیل دهنده آن‌ها جدا شده‌اند. (ما در پروژه خود نیازی به انجام این کار نداریم چراکه دیتاست موجود شامل مواد تشکیل‌دهند و کشور است.)
سپس عمل داده‌کاوی در سه مرحله صورت می‌گیرد:

  • Hierarchical clustering

  • Ingredient network analysis

  • Classification

  • مرحله اول - خوشه‌بندی سلسه مراتبی
    خوشه‌بندی سلسله‌مراتبی یکی از روش‌های رایج در آنالیز اطلاعات است. ایده‌ی اصلی این روش، ایجاد یک درخت دودویی از اطلاعات است که در آن اطلاعات مشابه در یک خوشه قرار می‌گیرند.2
    برای استفاده از این روش برای حل مسئله فوق، مقاله مورد نظر به صورت زیر عمل کرده است:
    ابتدا توسط یکی از الگوریتم‌های خوشه‌بندی، ارتباطات پنهان بین دستورهای غذایی کشورهای مختلف را باتوجه به مواد غذایی سازنده آن به‌دست می‌آوریم. درحیقت این عمل را بدین منظور انجام می‌دهیم که کشورهای مشابه و غیرمشابه ازنظر عادت غذایی را دسته‌بندی کنیم. یک نمونه از خوشه‌بندی صورت گرفته شده توسط این مقاله را در ادامه می‌بینیم:

    مثالی از خوشه‌بندی کشورها

    درمثال فوق، نقطه‌چین مرز خوشه‌ها را مشخص می‌کند، برای مثال اگر نقطه‌چین پایینی را مرز قرار دهیم،تنها دو کشور کره و ژاپن در یک خوشه قرار می‌گیرند.
    برای استفاده از این الگوریتم باید دو چیز را بتوانیم مشخص کنیم،

  • مرز خوشه‌بندی را به چه صورت قرار دهیم؟

  • از چه الگوریتمی برای خوشه بندی استفاده کنیم.
    این مقاله برای خوشه‌بندی از الگوریتمی استفاده می‌کند که در آن از مؤلفه‌ای تحت عنوان dissimilarity استفاده شده است که تفاوت‌های میان دو کشور را مشخص می‌کند و پس از تعیین آن عمل خوشه‌بندی را انجام می‌دهد.

    فرمول محاسبه میزان تفاوت میان کشور 1 و 2

    که در آن
    فرمول محاسبه احتمال رخداد ماده i در دستور غذایی کشور c در دیتاست

  • مرحله دوم - آنالیز شبکه مواد غذایی تشکیل‌دهنده
    در این مرحله شبکه‌ای از مواد غذایی تشکیل‌دهنده ایجاد می‌شود، این شبکه یک گراف است که به‌صورت زیر تولید می‌شود:

    • هر رأس یک ماده‌ی غذایی تشکیل دهنده دستور غذاست.

    • اگر هر دو ماده در یک دستور غذایی موجود باشند، یک یال میان آن‌ها رسم می‌شود.

    • وزن هر یال عبارت است از تعداد دفعاتی که هر دو ماده در یک دستور غذایی دیده شده‌اند.
      گراف INc، بیانگر شبکه مواد غذایی کشور c است که شامل داده‌های آماری مواد غذایی تشکیل‌دهنده دستورهای غذایی آن کشور هستند و توسط الگوریتم استخراجی backbone به دست آمده‌اند.

      نمونه گراف مواد غذای در دو کشور فیلیپین و اسکاتلند

  • مرحله سوم - تقسیم‌بندی
    در این بخش، توسط مدل‌های تقسیم‌بندی، برنامه اقدام به تصمیم‌گیری درمورد دستورهای غذایی جدید می‌کند. در این مرحله برنامه به‌وسیله الگوریتم‌های پیاده‌سازی شده در بخش قبل دستورهای غذایی موجود را مورد بررسی قرار می‌دهد و پیش‌بینی خود را با جواب موجود مقایسه می‌کند و به این شکل خود را بهبود می‌بخشد. بهترین الگوریتم، الگوریتمی است که توسط آن بتوانیم برای هرکشور الگویی متفاوت با سایر کشورها به‌دست آوریم.

    نمونه‌ای از مدل تقسیم‌بندی-درخت تصمیم گیری

    در شکل بالا رأس‌های میانی، مواد غذایی و برگ‌ها کشورها هستند.
    درحالت کلی نحوه‌ی آنالیز مسئله به‌صورت زیر است:
    نگاه کلی به راهکار حل مسئله

۲.۲. مقالات مشابه

کارهای بسیار زیاد و مشابهی در زمینه‌های مختلف صورت گرفته، اما برای حل مسئله روش ذکر شده در مقاله فوق بهترین و بهینه‌ترین روش است. بااین وجود در این بخش به بررسی اجمالی برخی دیگر از مقاله‌ها نیز می‌پردازیم.

  • پیش‌بینی میزان سودآوری از مشتری 3
    این مقاله با استفاده از روش‌های داده‌کاوی به بررسی میزان سودآوری کار باتوجه به فاکتوهای مختلف ازجمله مکان جغرافیایی می‌پردازد.

  • پیش بینی شرایط محیط زیستی باتوجه به فاکتورهای مؤثر در شرایط اقلیمی

۳. آزمایش‌ها

درحال حاضر پیاده‌سازی کامل انجام نشده‌است اما به‌منظور پیاده‌سازی مناسب پروژه به‌صورت زیر فازبندی شد و اکنون فاز یک درحال انجام است.
فاز اول- محاسبه درصد احتمال رخداد ماده غذایی در دستور غذایی یک کشور برای تمامی مواد غذایی
فاز دوم - خوشه بندی
فاز سوم - ایجاد شبکه مواد غذایی
فاز چهارم - تقسیم‌بندی و بهینه‌سازی

۴. کارهای آینده

ایده‌ای که به ذهن خود من رسید و نتوانستم روی آن در این بخش مطالعه کنم، استفاده از روش حل این مسئله برای تبلیغات اینترتی بود. یعنی تحقیق روی این مسئله که آیا سامانه‌ای وجود دارد که باتوجه به منطقه‌ی جغرافیایی و ... تبلیغات را محلی کند یا نه.

۵. مراجع

[1] KYUNG-JOONG KIM, CHANG-HO CHUNG, “Tell me what you eat and I will tell you where you come from : a data science approach for global recipe data on the web,” Sejong University, Seoul, 2016.
[2] L. I. Kuncheva, "Combining Pattern Classifiers, Methods and Algorithms," New York, NY, USA, Wiley 2004.
[3] E. Alpaydin, "Introduction to Machine Learning," Cambridge, MA, USA, MIT Press, 2009.
[4] C.-Y. Teng, Y.-R. Lin, and L. A. Adamic, ‘‘Recipe recommendation using ingredient networks,’’ in Proc. 3rd Annu. ACM Web Sci. Conf., 2012, pp. 298–307.
[5] Y.Ahn,S.Ahnert,J.Bagrow,andA.-L.Barabasi,‘‘Flavor network and the principles of food pairing,’’ Sci. Rep., vol. 1, Art.no. 196, Dec. 2011.
[6]Princton university course, David M. Blei, COS424
[7]https://technet.microsoft.com/en-us/library/dd883232(v=sql.100).aspx


  1. KYUNG-JOONG KIM AND CHANG-HO CHUNG-Tell Me What You Eat, and I Will Tell You Where You Come From: A Data Science Approach for Global Recipe Data on the Web-2016

  2. COS424 Princton University-David M. Blei-2008

  3. https://technet.microsoft.com/en-us/library/dd883232(v=sql.100).aspx

سيد محمد پورباقری

سلام
خسته نباشید
گزارش شما خوب بود. لطفاً موارد زیر را نیز اصلاح کرده و در فازهای بعدی به آن‌ها توجه فرمایید.
از فرمول‌ها عکس گرفته‌اید. لطفاً در فاز بعد حتماً آن‌ها را اصلاح کرده و خودتان بنویسید.
در بخش مقالات مشابه معمولاً روش‌های مختلفی که برای حل همان مسئله ارائه شده‌اند بیان می‌شود، ولی شما مقالاتی که اشاره کرده‌اید مسئله‌ی متفاوتی را حل می‌کنند.
موفق باشید