۱. خلاصه

برندهای مصرفی اغلب تخفیف های خود را برای جذب مشتریان جدید ارائه می‌دهند. مشتریان وفادار کسانی هستند که پس از اولین خرید، باز هم از این برند خرید می‌کنند. با داشتن تاریخچه کافی از خریدها، پیش‌بینی این که کدام خریداران بادریافت پیشنهاد تخفیف ویژه، خرید خواهند کرد کار چندان پیچیده‌ای نیست؛ اما پیداکردن مشتری‌هایی که بعد از اولین خرید با تخفیف ویژه تبدیل به مشتری وفادار خواهندشد، چالش برانگیز است. پروژه پیدا کردن مشتریان وفادار از شما می‌خواهد تا خریدارانی که احتمالا باز هم از یک جنس خرید خواهند کردرا پیش‌بینی کنید. برای این کار مجموعه‌ای از پیشنهادهای شگفت‌انگیز تخفیف و سابقه
تراکنش‌های خرید خریداران قبل و بعد از این پیشنهادات را در اختیار دارید.

۲. مقدمه:

وفاداری مشتری یکی از کلیدی‌ترین عوامل تعیین کننده‌ی سودآوری یک شرکت است. وفاداری به یک چیز با تمایلات مطلوب نسبت به آن نشان داده می‌شود. حال این تمایل می‌تواند ناشی از رفتار یا نگرش فرد باشد.
تمایل رفتاری به معنای خرید کردن یا استفاده کردن زیاد یا همیشگی از یک محصول یا خدمت یک برند است. حال آنکه تمایل نگرشی(عاطفی) به معنای داشتن احساس تعلّق بیشتر به یک برند نسبت به دیگران است. این دو تمایل لزوماً به یکدیگر وابستگی کامل ندارند.
وفاداری مشتری تنها مربوط به فروشگاه‌ها نمی‌شود. صنایع زیادی مثل: صنایع الکترونیک, بیمه, اپراتورهای تلفن همراه, ارائه دهندگان خدمات اتصال به اینترنت, بانک‌ها و ... با این مسئله درگیر اند. در تمام این صنایع رویگردانی مشتریان یکی از مهمترین و پرهزینه‌ترین معضلات است.
برای مثال نرخ رویگردانی سالانه در صنعت Telecom در ایالات متّحده 1.9 درصد[1] و نرخ رویگردانی سالانه در صنعت SaaS بین 5 تا 7درصد است[2].
در نمودار زیر خلاصه‌ای از نرخ رویگردانی در صنایع مختلف آورده شده است[3]:

نرخ رویگردانی در صنایع مختلف

یکی از راه‌های کاهش نرخ رویگردانی این است که پیش‌بینی کنیم که چه مشتریانی رویگردانی خواهند کرد و سپس به صورت هدفدار آنهارا به استفاده‌ی مجدد از خدمات یا محصولات و ماندن در گروه مشتریان ترغیب کنیم.
مجموع زیان ناشی از رویگردانی مشتری 1.6 تریلیون دلار برآورد می‌شود[4]. این در حالی است که تنها با 5 درصد افزایش در نرخ بازگشت مشتری, می‌توان سودآوری‌را تا 95درصد افزایش داد. همچنین هزینه‌ی لازم برای به دست آوردن مشتری جدید25 برابر هزینه‌ی موردنیاز برای افزایش وفاداری مشتری و بازگردانی مجدد آن است[5].
ما برای نمایش بهتر تفکر و وضعیت مشتری, آن‌ها را به سه بخش: وفادار, ناامید و رویگردانده تقسیم می‌کنیم. تشخیص اینکه چه مشتری‌ای می‌خواهد رویگردانی کند و هدفگیری درست آن از چالش‌های پیش‌روی صنعت است. امّا تشخیص مشتری‌ای که می‌تواند به مشتری وفادار تبدیل شود, آن هم پیش از اینکه اوّلین خریدرا انجام دهد, کاری چالش برانگیزتر است.
با این حال ما تنها در این مسئله ما قصدداریم با داشتن تاریخچه‌ی کامل سبدخرید قبل از پیشنهاد, پیش‌بینی کنیم که کدام خریداران با احتمال بیشتری دوباره خرید خواهند کرد و به مشتریان وفادار ما تبدیل می‌شوند.

سه مجموعه داده‌ی دراختیار قرارگرفته برای این مسئله در تصاویر زیر آورده شده‌اند[6]:


۳. کارهای مرتبط:

در ابتدا باید با مهندسی ویژگی‌ها مشخص کنیم که مهم‌ترین ویژگی‌ها کدام‌اند تا بتوانیم با استفاده از آنها, مدل‌های مناسب‌را بسازیم. این کار نه تنها میزان درستی نتایج‌را بهبود می‌بخشد, بلکه با کاهش تعداد ویژگی‌هایی که مدنظر قرار می‌گیرند, سرعت کاررا هم افزایش می‌دهد. برای اینکار 56 ویژگی زیررا در نظر می‌گیریم[6]:

جدول ویژگی‌ها

در جدول زیر شرح کلی ویژگی‌ها آورده شده است:

شرح کلّی ویژگی‌ها

برای انتخاب ویژگی, از شیوه‌ی random forest استفاده شده است. در این شیوه به خاطر استراتژی‌های مبتنی بر درختی که استفاده می‌شود, ویژگی‌ها براساس اینکه چقدر خلوص گره‌را افزایش می‌دهند رتبه بندی می‌شوند. گره‌هایی که بیشترین کاهش میزان ناخالصی‌را دارند در ابتدا, و گره‌هایی که کمترین میزان کاهش‌را داشته‌اند در انتهای درخت قرار می‌گیرند. در اینجا هر ویژگی یک گره محسوب شده است.
با حرص کردن درخت حاصل شده از یک گره به خصوص به بعد, می‌توان مهمترین گره(ویژگی)هارا به دست آورد. با استفاده از این شیوه, بیست ویژگی زیر به عنوان مهمترین ویژگی‌ها شناخته می‌شوند:

بیست ویژگی اثرگذار و مهم

متدولوژی به کار رفته در یک نگاه به صورت زیر است:

متدولوژی به کار رفته

یکی از راه‌های کاهش تعداد transactions حذف کردن سطرهایی است که category id و company id ندارند. با این کار تعداد سطور از حدود 350 میلیون سطر به 27 میلیون کاهش می‌یابد[7].

برروی این مجموعه داده 7 الگوریتم: RF, GBM, neuralnet, glmnet, dlearning, xgb و logistic اجرا شده‌اند که نتایج RUC CURVE آنها در نمودار
زیر آورده شده است[6].

نتایج RUC CURVE

سپس چهار الگوریتم RF, GBM, neuralnet و glmnet برای بهبودبخشیدن به کارایی و زمان محاسبه انتخاب شده‌اند. نتایج حاصله در جدول
زیر نمایش داده شده‌اند[6]:

نتایج نهایی چهار الگوریتم منتخب

همچنین در پیاده سازی دیگر با استفاده از 3 متد GBM, Random Forest و GLM نتایج زیر حاصل شده است[8]:
نتایج نهایی سه الگوریتم منتخب روش دوم

۴. منابع:

1- https://wp.nyu.edu/adityakapoor/2017/02/17/churn-in-the-telecom-industry-identifying-customers-likely-to-churn-and-how-to-retain-them/

2- http://sixteenventures.com/saas-churn-rate

3- https://info.recurly.com/research/churn-rate-benchmarks

4-https://blog.smile.io/essential-customer-loyalty-statistics-2017

5-https://www.visioncritical.com/customer-loyalty-stats/

6-http://matthewalanham.com/Students/2017_Jengwen-Shiva.pdf

7-https://mlwave.com/predicting-repeat-buyers-vowpal-wabbit/
8-https://github.com/ChenglongChen/Kaggle_Acquire_Valued_Shoppers_Challenge

محمد غضنفری

سلام
توجه شما را به نکات زیر جلب میکنم:
1- در بخش مقدمه به جز ایجاد انگیزه برای خواننده که به درستی انجام داده اید، لازم است در مورد مسائل فنی کار همانند روش های قابل اجرا و چالش های پیش رو به صورت کلی و سربسته هم صحبت کنید.
2- بهتر بود برای معرفی مجموعه دادگان یک زیربخش در ذیل بخش مقدمه درست میکردید و توضیح بیشتری در مورد فرمت داده ها، تعداد مجموعه دادگان و غیره بیان میکردید.
3- منابعی که استفاده کرده اید مخصوصا 5 مورد اول از اعتبار کافی برخوردار نیستند. بهتر است منابع مقالاتی باشند که در کنفرانس یا ژورنال معتبری چاپ شده اند. اطلاعات ارائه شده در وبسایت ها لزوما قابل اتکا نیستند.
4- در متن از به کارگیری کلمات انگلیسی بپرهیزید.
5- در هر بخش متن نوشتاری شما بهتر است یک فراز، اوج و فرود در نظر گرفته شود. هر دو بخش مقدمه و کارهای مرتبط در بخش اوج رها شده اند و فرود مناسبی ندارند. اصطلاحا باید در آخر جمع بندی میشدند.
6- در بخش کارهای مرتبط شما باید مقالاتی که در حوزه کاری پروژه فعالیت کرده اند را بررسی کنید. این مقالات یا مسئله مشابهی را حل کرده اند، یا از مجموعه دادگان شما استفاده کرده اند و یا زیربخشی دارند که در حل مسئله شما کاربرد دارد.
این بخش محل مناسبی برای ارائه راه حل پیشنهادی و یا کاهش فضای حالت نیست. در حجم قابل توجهی از این بخش شما به ارائه روش هایی جهت کاهش ابعاد و معرفی متدولوژی پرداخته اید و فقط در انتها دو شبه مقاله مربوطه را بررسی کرده اید. انتظار میرفت مقالات بیشتر و معتبرتری بررسی می شدند.

در نهایت امید است در فازهای آتی شاهد تلاش بیشتری از شما باشیم و مشکلات مطرح شده را حل کنید.