شاید بتوان تشخیص بیماری‌ها با استفاده از الگوریتم‌های هوش مصنوعی را مفیدترین و صلح‌آمیزترین کاربرد هوش مصنوعی تاکنون دانست. یکی از شایعترین بیماری‌ها و علل مرگ و میر در دنیای امروز بیماری‌های قلبی است.
در تشخیص این نوع بیماری‌ها معمولا عواملی چون سن، جنسیت، فشار خون، میزان کلسترول و ... مدنظر قرار می‌گیرند و در نهایت میزان ریسک بیمار در مقابل بیماری‌های قلبی تعیین می‌شود.
در این پژوهش انتظار می‌رود با استفاده از هریک از روش‌های یادگیری ماشین (مثلا دسته‌بندی) به تشخیص این بیماری پرداخته شود.
برای این منظور می‌توان از داده‌های دانشگاه ایرواین که لینک آن در قسمت لینک‌های مفید قرار دارد استفاده کنید.

۱. تعریف پروژه

امروزه با پیشرفت تکنولوژی استفاده از سیستم های هوشمند در پردازش و تحلیل سیگنال های حیاتی و تشخیص بیماری های مختلف از اهمیت ویژه ای برخوردار است اما تشخیص نهایی بیماری به عهده پزشک می باشد و با مشاهده علایم و انجام آزمایشاتی این تشخیص صورت می گیرد. از جمله بیماری هایی که پزشکان را در تشخیص با مشکلاتی مواجه می کند ، بیماری قلبی است. بیماری‌های قلبی یکی از عوامل اصلی مرگ و میر در دنیا، به خصوص ایران، است و بهترین درمان آن تشخیص به موقع و پیشگیری آن است. بیماری قلبی، که معمولا از آن به عنوان بیماری شریان‌های اکلیلی(Coronary Artery Disease) نام برده می‌شود؛ واژه‌ای با دامنه وسیع است که به هر نوع شرایطی که قلب را تحت تأثیر قرار می‌دهد، اطلاق می‌شود. بیماری شریان‌های اکلیلی، بیماری مزمنی است که طی آن شریان اکلیلی به‌تدریج سفت و باریک می‌شود .

۲. مقدمه

حجم داده های پزشکی روز به روز درحال افزایش است و پزشکان معمولا اطلاعات ارزشمندی را در خصوص بیماری ها و ارتباط آن ها با یکدیگر و عوامل ایجاد کننده بیماری ها بدست می آورند [8] . اما این مجموعه داده های خام به خودی خود ارزشی ندارند، برای معنی بخشیدن به این داده ها باید آن ها را تحلیل و تبدیل به اطلاعات یا بهتر از آن ها دانش کرد [9]. با توجه به شیوع بیماری های قلبی – عروقی در سراسر جهان، استفاده از روش های جدید در تحقیقات زیست پزشکی بسیار مورد توجه قرار گرفته است. داده کاوی می تواند ارتباطات و وابستگی های بدیعی را کشف کند که برای پزشکان بسیار مفید است.
تکنیک های داده کاوی به طور کلی به دو دسته توصیف کننده و پیش گویی کننده تقسیم می شوند. وظایف توصیفی خواص عمومی داده ها را مشخص می کند و هدف آن پیدا کردن الگوهای قابل تفسیر توسط افراد برای داده هاست. وظایف پیش گویانه، پیش بینی رفتار آینده آن هاست و منظور از آن بکارگیری چند متغیر در پایگاه داده برای پیش گویی مقادیر آینده متغیرهاست[4] داده کاوی گونه ای از تکنیک ها برای شناسایی اطلاعات و یا دانش تصمیم گیری از میان داده ها می باشد، به نحوی که با استخراج آن ها در حوزه های تصمیم گیری، پیش بینی، پیش گویی و تخمین بتوان از آن ها استفاده کرد. داده کاوی پزشکی دارای پتانسیل زیادی برای کشف الگوهای پنهان موجود در داده ها داراست که این الگوها می تواند برای تشخیص های بالینی مورد استفاده قرار گیرد [5]. امروزه استفاده از روش های متنوع داده کاوی و استخراج دانش برای شناسایی الگوها و ارتباطات میان متغیرهای مختلف در تولید مدل های پیش بینی کننده در علوم پزشکی بسیار مورد توجه قرار گرفته است [6]. کاربرد روش های داده کاوی در حوزه های مختلف پزشکی مانند تشخیص، پیش گویی و حتی درمان به اثبات رسیده است[7].
به طور کلی روش‌ها و الگوریتم‌های متعددی برای پیش‌بینی بیماری قلبی مورد ارزیابی قرار گرفته‌اند که این الگوریتم‌ها بر روی مجموعه داده‌های متفاوت و تحت شرایط متنوعی آزمایش شده‌اند. هدف اصلی ما در این بحث استفاده از الگوریتم‌های داده‌کاوی(Data Mining) برای پیش‌بینی حملات قلبی است که در ادامه به توضیح آن می پردازیم .

۳. کارهای مرتبط

یکی از عملکردهای پیش گویانه در داده کاوی،دسته بندی است. دسته بندی فرایند یافتن مدلی است که با تشخیص دسته ها و یا مفاهیم داده می تواند دسته
ناشناخته اشیا دیگر را پیش گویی کند . یکی از روش های رایج دسته بندی درخت تصمیم است. درخت تصمیم گیری روشی است که به شما در یک انتخاب خوب
کمک می کند. به خصوص تصمیم گیری هایی که دربردارنده هزینه بالا و خطرات زیادی است. درختان تصمیم یک روش گرافیکی برای مقایسه رقابت جایگزین و
اختصاص ارزش به آن ها از طریق ترکیب عدم قطعیت ها، هزینه ها و بازپرداخت ها به وسیله ارزش های خاص عدد است .
درخت تصمیم معمولا از چندین گره 3 تشکیل می شود که با نام گره های ورودی و خروجی شناخته می شوند. قوانین ایجاد شده در درخت تصمیم به صورت "اگر" و
"آنگاه بیان می شوند. از میان الگوریتم های مورد استفاده در ساخت درخت تصمیم، مهم ترین آن ها الگوریتم [10] C5 است که توسعه یافته [11] ID3می باشد.شبکه های عصبی مصنوعی با پردازش داده های تجربی،دانش یا قانون نهفته در ورای داده ها را به ساختار شبکه منتقل می کنند، به همین دلیل به این سیستم ها هوشمند می گویند. زیرا بر اساس محاسبات داده های عددی یا مثال ها، قوانین کلی را فرا می گیرند.
یکی دیگر از الگوریتم های درخت تصمیم ، الگوریتم ( CHAID ( Chi-squared Automatic Interaction Detector است . این الگوریتم توسط کاس در سال 1980 برای استفاده در مورد متغیرهای کیفی معرفی شد که می تواند برای متغیرهای کمی گروه بندی شده نیز استفاده شود. در هر گره، می توان بیش از دو تقسیم نیز داشت. در این روش از مقدار P-Value آماره کای- دو مربوط به آزمون استقلال جداول توافقی ، استفاده می شود. از بین متغیر های موجود، متغیری که دارای P-Value کوچک تری باشد در مرحله اول برای تقسیمات روی یک گره در نظر گرفته می شود. ضعف این الگوریتم عدم توانایی آن در ایجاد بهینه ترین تقسیمات ممکن بر اساس متغیر های موجود است.
ازجمله الگوریتم های درخت تصمیم دیگر ،( QUEST ( Quick Unbiased Efficient Statistical Trees ی باشد . این الگوریتم در سال 1997 توسط لو و شی برای متغیرهای پاسخ اسمی طراحی شد. درخت رده بندی حاصل از این الگوریتم دارای تقسیمات دوتایی بوده و ملاک تصمیم برای انتخاب متغیرها با استفاده از مقدار P-Value آماره کای- دو مربوط به جداول توافقی برای متغیر های کیفی صورت می پذیرد. این الگوریتم با توجه به این که از مقدار P-Value برای تصمیم گیری استفاده می نماید، موجب تشکیل درختی نااریب از متغیرها می گردد.
در واقع شبکه های عصبی تکنیک هایی هستند که می توانند برای مدل های با ارتباطات پیچیده مورد استفاده قرار گیرند.مدل های شبکه عصبی مصنوعی در طبقه بندی مسائلی نظیر، پیش بینی مشکلات قلبی در بیماران، تشخیص فشار خون و... استفاده شده است . پیش گویی خطر ابتلا به بیماری های قلبی به کمک سیستم های حمایت از تصمیم نقش مهمی در پیشگیری از بیماری ایفا می کند.
شبکه های عصبی از سیستم یادگیری پیچیده ی مغز که متشکل از مجموعه نرون ها می باشد الهام گرفته شده است. هدف از شبکه های عصبی مصنوعی ارائه روش هائی جهت استفاده از سخت افزارها ( مدارات ) و نرم افزارها( الگوریتم ها) برای ایجاد قابلیت های هوشمند به دستگاه ها، روبوت ها، برنامه ها و غیره میباشد که قادر به یادگیری حین فرآیند هستند. نرون مصنوعی کوچکترین واحد پردازشگر اطلاعات است.ورودیهای نرون توسط یک نوع ارتباط به نام وزنبه نرون وارد می شوند .

داده های مورد نیاز :
مجموعه داده مورد استفاده در این پروژه متعلق به قسمت پیوندهای مفید میباشد. پارامترها و محدوده آن ها در زیر آورده شده است:

ستون اول	ستون دوم
Age	سن بیمار
Sex	جنسیت بیمار
chest pain type	بیان کننده درد قفسه سینه که شامل 4 مقدار مشخصه‌ی درد قلبی، بدون درد و بدون علامت است
Resting blood pressure	فشار خون در زمان استراحت
Serum cholesterol	چربی بد خون
Fasting blood sugar	قند خون ناشتا
Resting electrocardiographic results	نتایج نوار قلب در حال استراحت که شامل 3 مقدار نرمال، موج غیر قلبی و نشان‌دهنده‌ی افزایش مقطعی یا احتمالی ضخامت بطن چپ است
Maximum heart rat achieved	ماکزیمم ضربان قلب به دست آمده
Exercise induced angina	آنژین ناشی از ورزش که شامل مقادیر بله و خیر است
St depression induced by exercise relative	ایجاد شده موقع تست ورزش وابسته به استراحت st
The slop of peak exercise at segment	در زمان حداکثر ورزش که شامل 3 مقدار بالا رفتن، صاف و پایین آمدن قطعه st بیان کننده شیب قطعه است
Number of major vessels colored by fluoroscopy	این صفت بیانگر تعداد رگ‌هایی که در فلوروسکوپی دیده‌ می‌شود
Thal	اسکن تالیوم است که شامل 3 مقدار ضایعه ثابت، نرمال و ضایعه قابل برگشت است
um	تشخیص بیمارهای قلبی ( وضعیت آنژیوگرافیک بیماری )

۴. آزمایش‌ها و متدولوژی

روش های متعددی برای اجرای پروژه های داده کاوی وجود دارد که یکی از روش های قدرتمند در این زمینه ، متدولوژی کریسپ می باشد[ 12 ].این پروژه نیز براساس این متدولوژی تنظیم شده است(شکل 1). در ادامه به بررسی هر یک از این مراحل در جهت رسیدن به مدلی برای پیشگویی احتمال ابتلا به بیماری قلبی می پردازیم.

4.1شناخت سیستم
به کارگیری موفق داده کاوی مستلزم شناخت حوزه ای است که قرار است داده کاوی در آن به کار برده شود و علاوه بر آن شناخت کافی از روش ها و ابزارهای داده کاوی نیز لازم است. به طور کلی تیم داده کاوی بایستی دانش کافی در حوزه ای که قرار است بررسی شود داشته باشند. در گام اول پژوهشگر با مشورت پزشک متخصص قلب و عروق و نیز با مطالعه بر روی بیماری قلبی و تعیین فاکتورهای موثر در ابتلا و همچنین روش های تشخیصی و درمانی و روش های پیشگیری از ابتلا به بیماری، سعی در شناخت کافی حوزه مورد بررسی داشت.

4.2 مرحله آماده سازی داده ها
در این گام به جمع آوری داده ها از پرونده های بیماران پرداخته شد. داده های استفاده شده در این مطالعه مربوط به پرونده بیماران مراجعه کننده به بیمارستان شهید رجایی تهران در سال 1390 بود. تعداد بیماران مراجعه کننده به این بیمارستان در سال مذکور 1750 نفر بود. حجم نمونه با جدول مورگان 500 بدست آمد که نهایتا تعداد 150 رکورد از آنها به علت عدم تکمیل متغیرهای مورد بررسی ،از پایگاه داده حذف گردید. در این گام بایستی داده هایی که در حال حاضر در دسترس هستند و داده هایی که برای ساخت مدل نیاز بود، تعیین شوند.
متغیرهای تعیین شده، برای ایجاد مدل به دو دسته متغیر هدف و متغیرهای پیشگو دسته بندی شدند.متغیر هدف ابتلا یا عدم ابتلا به بیماری و سایر متغیرها به عنوان متغیر پیشگو مورد استفاده قرار گرفتند. در این پژوهش نیز برای مدیریت داده های از دست رفته ، متغیرها چون به تعداد بسیار کمی در پرونده های مورد مطالعه ثبت شده بودند برای اینکه در فرایند ساخت مدل خللی ایجاد نکنند از مجموعه متغیرها حذف شدند. برای سایر متغیرهایی که مقادیر گمشده شان نسبت به مقادیر موجود ناچیز بود با استفاده از امکانات نرم افزار [SPSS [13 مقدار پیش فرض مربوط به آن جایگزین شدند،که این مقدار با توجه به نوع متغیر انتخاب گردید. فاکتورهایی مانند قد و وزن که به تنهایی ارزشی ندارند بلکه شاخص توده بدنی (Body Mass Index) آن ها تاثیرگذار است، این شاخص به کمک آن ها و با توجه به رابطه زیر بدست آمد:
[14] شاخص توده بدنی = وزن(کیلوگرم)/قد(سانتی متر)

4.3مدل سازی
روش های داده کاوی متنوعی برای مدل سازی وجود دارد. در این مرحله با استفاده از تکنیک های داده کاوی به ارائه مدل پیشگویانه پرداخته شد. در این مرحله الگوریتم های درخت تصمیم، شامل الگوریتم-های ( C5, QUEST, CHAID ) و شبکه عصبی با بکارگیری متغیرهای ورودی و تعیین متغیر هدف ایجاد شدند. برای ساخت مدل های درخت تصمیم و شبکه عصبی متغیرهای جنسیت، سن، سابقه مصرف سیگار، سابقه اعتیاد، سابقه فشارخون، سابقه چربی خون،فاکتورهای قندی و چربی، شاخص توده بدنی و گروه خونی به عنوان متغیرهای پیشگو تعیین شد و متغیر ابتلا یا عدم ابتلا به بیماری نیز به عنوان متغیر هدف تعیین گردید و در مرحله بعد داده ها به دو بخش آموزش (80 درصد)و آزمون (20 درصد)تقسیم شدند. مدل شبکه عصبی دارای یک لایه ورودی، تعدادی لایه پنهان و یک لایه خروجی است. هر گره ورودی را دریافت کرده، آن را پردازش نموده و خروجی را تولید می کند. تعیین اینکه آیا هر ورودی به گره خروجی خواهد رسید یا خیر به وزن آن ورودی بستگی دارد[15]. یک درخت تصمیم ترکیب تعدادی استلزام منطقی (قانون اگر- آنگاه)است. درخت های تصمیم تنها نمایشی از فرایند تصمیم گیری نیستند بلکه می توان از آن ها در حل مسائل طبقه بندی نیز استفاده کرد . معمولا مجموعه قوانین استخراج شده از درخت تصمیم، مهمترین اطلاعاتی است که از آن ها بدست می آید.

4.4ارزیابی
در این مرحله پس از ایجاد مدل بایستی به ارزیابی مدل ایجاد شده پرداخت. برای بررسی صحت مدل داده ها به دو دسته آموزش( 80 درصد) و آزمون (20درصد)تقسیم شدند. داده های بخش آموزش مدل را می سازند و داده های بخش آزمون مدل ایجاد شده را مورد ارزیابی قرار می دهند. جهت ارزیابی مدل ها می توان از شاخص های حساسیت، ویژگی، دقت، ارزش اخباری مثبت و ارزش اخباری منفی استفاده کرد. در جدول شاخص های مقایسه دقت الگوریتم شبکه عصبی و الگوریتم های درخت تصمیم ارائه شده است.

حساسیت : یعنی تعداد نمونه‌هایی که به درستی عدم وجود ناراحتی قلبی را نشان داده نسبت به تعداد کل نمونه‌هایی که واقعاً ناراحتی قلبی ندارند.
ویژگی :یعنی تعداد نمونه‌هایی که به درستی وجود بیماری قلبی را نشان داده نسبت به تعداد کل نمونه‌هایی که واقعاً بیماری قلبی دارند.
ارزش اخباری مثبت : یعنی تعداد نمونه‌هایی که به درستی عدم وجود بیماری را نشان داده نسبت به تعداد کل نمونه‌هایی که پیش‌بینی شده بیماری ندارند.
ارزش اخباری منفی :یعنی تعداد نمونه‌هایی که به درستی وجود بیماری را نشان داده نسبت به کل نمونه‌هایی که پیش‌بینی شده بیماری دارند.
دقت :یعنی تعداد نمونه‌هایی که به درستی در کلاس مورد نظر تشخیص داده می‌شوند نسبت به کل نمونه‌ها.

                                                                                                                    ** مقایسه دقت الگوریتم های درخت تصمیم و شبکه عصبی**

ستون 1	ستون 2	ستون 3	ستون 4	ستون 5
معیارها / الگوریتم ها	شبکه عصبی	C5	CHAID	QUEST
حساسیت	92%	96%	83%	56%
ویژگی	89.5%	91.5%	87%	84.5%
ارزش اخباری مثبت	86.2%	89.4%	62.5%	73%
ارزش اخباری منفی	93.2%	96.8%	58.33%	71.9%
دقت	90.57%	93.4%	85.7%	72.28%

4.5توسعه
ساخت مدل معمولا پایان پروژه نیست حتی اگر هدف مدل افزایش دانش است، دانش بدست آمده نیاز به سازماندهی دارد و نمایش به طریقی که کاربر بتواند از آن استفاده کند. دانش کشف شده باید سازماندهی شده و به شکل قابل ارائه برای دیگران درآید. ما در این مرحله سعی کردیم توضیح دهیم که بر اساس مدل های ایجاد شده تاثیرگذارترین فاکتورها در ابتلا فرد به بیماری قلبی کدامند. توجه به اینکه بیماری های قلبی عروقی از جمله شایع ترین بیماری ها و علل مرگ محسوب می شوند، چنانچه بتوانیم یک مجموعه پرخطر را شناسایی و برنامه های غربالگری را برای آن اجرا کنیم ، کارایی برنامه بیشتر خواهد شد.
الگوریتم های مورد استفاده دراین مطالعه، الگوریتم C5 دارای بالاترین میزان دقت ( 93/4 ) بود . در ارزیابی نظرات متخصصان حوزه نیز در مورد قوانین ایجاد شده اعمال می گردد. به این ترتیب که قوانین بدست آمده به متخصص مورد نظر ارائه شده و قوانینی که از نظر بالینی معتبر باشند به عنوان قوانین نهایی ارائه گردیدند. بنابراین طبق نظر متخصص قلب و عروق می توان گفت که ریسک فاکتورهای سن بالا، مصرف سیگار، فشارخون بالا، سطوح بالای کلسترول بیشترین تاثیر را در ابتلا به بیماری قلبی دارا هستند و این در حالی است که براساس مقایسه های انجام شده بر اساس اولویت بندی متغیرها توسط الگوریتم های مورد بررسی نیز ، این متغیرها جزو فاکتورهای اول قرار گرفته اند، که نشان از اهمیت این متغیرها در ابتلا به بیماری قلبی دارد.

۵. بحث و نتیجه گیری

در این تحقیق با استفاده از الگوریتم شبکه عصبی و درخت تصمیم به ارائه مدل و استخراج قوانین آن در راستای پیشگویی احتمال ابتلا به بیماری قلبی پرداختیم. بهترین نتایج از الگوریتم درخت تصمیم C5 بدست آمد که دقت آن 4 /93 درصد بود. بیشترین فاکتورهای تاثیرگذار در ابتلا افراد سن بالا، سابقه فشار خون بالا و چربی خون بالا و مصرف سیگار بودند. با استفاده از قوانین بدست آمده برای یک فرد جدید با داشتن متغیرهای مشخص،می توان تعیین کرد که احتمال ابتلا وی به بیماری قلبی چقدر خواهد بود. در جدول به مقایسه نتایج پژوهش های مشابه با پژوهش حاضر می پردازیم.
مطابق مطالعات گذشته، عملکرد مدلهای طبقه بندی کننده ممکن است بر روی پایگاه های داده مختلف نتایج متفاوتی داشته باشد. برای مثال Karaolis و همکارانش در مطالعه ای تحت عنوان "پیش گویی ابتلا به بیماری عروق کرونر با استفاده از درخت تصمیم گیری" از الگوریتم درخت تصمیم برای ارزیابی ریسک فاکتورهای بیماری عروق کرونر استفاده کردند. آنها ریسک فاکتورهای ابتلا را به دو دسته کلی، ریسک فاکتورهای قبل از رویداد و ریسک فاکتورهای بعد از رویداد تقسیم بندی کرده است[16]. یافته های آن مشابه با قوانین استخراج شده از الگوریتم درخت تصمیم در مطالعه حاضر می باشد.
در بررسی انجام شده توسط Jyoti جهت پیش بینی ابتلا به بیماری قلبی مدل ارائه شده توسط درخت تصمیم دارای بالاترین میزان دقت ( 89 درصد) بوده است [17] . این در حالی است که درخت تصمیم ارائه شده در این مطالعه از دقت بالاتری برخوردار بوده است. تفاوت مشاهده شده را می توان از تعداد بیشتر متغیرهای مورد بررسی در مطالعه اشاره شده دانست.
در مطالعه محمد پور به کاربرد شبکه عصبی در ارزیابی بیماری عروق کرونر قلب پرداخته و حساسیت مدل به دست آمده 96 درصد به دست آمد، که نشان از توان بالای این مدل در تشخیص سریعتر بیمارانی است که نیازمند اقدامات تشخیصی و درمانی هستند. حساسیت بالای مدل ارائه شده در این مطالعه را می توان به کارگیری متغیرهای مفیدی چون نتیجه تست ورزش و نتیجه اکو و همچنین تعیین تعداد نرونهای کمتر در لایه میانی شبکه عصبی بیان کرد [18].
در پژوهش Christine به مقایسه عملکرد رگرسیون لجستیک و چند الگوریتم از درخت تصمیم در تعیین ابتلا به بیماری قلبی پرداخته شده است و مدل درخت تصمیم با حساسیت 81 % به عنوان مدل مناسبی جهت پیش گویی معرفی شده است [19].

           جدول : مقایسه نتایج مطالعات انجام شده در حوزه داده کاوی در بیماری قلبی

نویسندگان و سال ارائه تحقیق	الگوریتم های مورد استفاده	نوع بیماری	دقت(نوع) مدل نهائی	یافته ها	متغیرهای پیشگویی کننده
(Christine(1998	رگرسیون لجستیک،درخت طبقه بندی	بیماری قلبی	%81 (درخت طبقه بندی)	عملکرد بهتر درخت تصمیم در پیشگویی ابتلا به بیماری قلبی	سن،سابقه خانوادگی بیماری قلبی، مصرف سیگار، درد در ناحیه قفسه سینه، فشار خون بالا، دیابت، تعریق شبانه، استفراغ، جنسیت و ...
(Biglarian(2004	شبکه عصبی مصنوعی،رگرسیون لجستیک	پیوند عروق کرونری قلب	99/33%(شبکه عصبی مصنوعی)	عملکرد بهتر شبکه عصبی مصنوعی در پیش بینی کننده های مهم مرگ و میر درون بیمارستانی پس از جراحی قلب باز	سن، شاخص توده بدنی، کلسترول، تری گلیسرید، فشارخون، مصرف سیگار، دیابت، چربی خون، سابقه بیماری قلبی و...
Kajabadi	درخت تصمیم	بیماری عروق کرونر	محاسبه نشده	عوامل تاثیر گذار عمده بر بروز بیماری قلبی مشخص شده اند.	چربی، فاکتورهای خونی، فاکتورهای چاقی، متغیرهای قندی، متغیرهای عمومی(سن، جنس، استعمال دخانیات و..)، آپولیپویروتئین ها، فاکتور التهابی
(Karaolis(2010	درخت تصمیم C4.5	بیماری قلبی،پیوند عروق کرونر قلبی	66%(درخت تصمیم c4.5 )	عوامل تاثیر گذار عمده بر بروز آنفارکتوس قلبی مشخص شده اند.	جنسیت، سن، فشارخون بالا، چربی خون بالا، مصرف سیگار، سطح کلسترول، دیابت و...
(Jyoti (2011	شبکه بیز درخت تصمیم ،شبکه عصبی مصنوعی	بیماری قلبی	89%(درخت تصمیم)	ایجاد قوانینی جهت یافتن ارتباط بین متغیرها	جنسیت، سن، درد قفسه سینه، فشارخون بالا، قند خون ناشتا، سطح کلسترول، مصرف سیگار، شاخص توده بدنی و...
(2011)Mohammadpour	شبکه عصبی مصنوعی	بیماری عروق کرونری قلب	96%(شبکه عصبی مصنوعی )	طبقه بندی صحیح بیماران نیازمند آنژیوگرافی و دارو درمانی	سن، شاخص توده بدنی،کراتینین، کلسترول تام، تری گلیسرید، سابقه مصرف سیگار ،سابقه فشارخون، سابقه دیابت، سابقه بیماری قلبی،نتیجه تست ورزش و ...

تکنیک های داده کاوی می تواند در طراحی مدل های مناسب جهت پیش گویی امکان ابتلای افراد به بیماری های خاص استفاده شوند و در این مطالعه مدل C5 دارای بالاترین میزان دقت بوده و می تواند در برنامه های غربالگری جهت شناسایی افراد در معرض خطر استفاده شود. پیشنهاد می شود که این مدل با مجموعه داده های بیشتر و در بازه زمانی طولانی تر اجرا شده و پس از رسیدن به سطح دقت مطلوب در برنامه های غربالگری مورد استفاده قرار گیرد. پیشنهاد می شود در مطالعاتی بعدی دقت این مدل در داده های سایر مراکز درمانی و یا سایر مقاطع زمانی مورد ارزیابی قرار گیرد و پس از ایجاد تغییرات ضروری و رسیدن به سطح مطلوب دقت، در انتخاب مدلی جامع و مناسب جهت پیشگویی احتمال ابتلا افراد به بیماری قلبی اقدام شود.

۶. مراجع

[1] Detrano, R., Janosi, A., Steinbrunn, W., Pfisterer, M., Schmid, J., Sandhu, S., Guppy, K., Lee, S., & Froelicher, V. (1989). International application of a new probability algorithm for the diagnosis of coronary artery disease. American Journal of Cardiology, 64,304--310.
[2] David W. Aha & Dennis Kibler. "Instance-based prediction of heart-disease presence with the Cleveland database."
[3] Gennari, J.H., Langley, P, & Fisher, D. (1989). Models of incremental concept formation. Artificial Intelligence, 40, 11--61.
[4]Huanga M, Chenb M, Leea S. [Integrating data mining with case-based reasoning for chronic diseases prognosis and diagnosis]. Expert Systems with Applications 2007; 32(3): 856–867.
[5] Subbalakshmi G, Road Y. [Decision Support in Heart Disease Prediction System using Naive Bayes]. Indian Journal of Computer Science and Engineering 2011; 2(2): 183-195.
[6] Fayyad M, Piatetsky G, Uthurusamy R, Smyth P. [Advances in Knowledge Discovery and Data Mining]. American Association of artificial intelligence 1996; 17(3): 37-54.
[7] Lavrac N. [Selected techniques for data mining in medicine]. Artificial Intelligence in Medicine 1999; 16(1): 3-23.
[8] Soni J, Ansari U, Sharma D, Soni S.[Predictive Data Mining for Medical Diagnoses: An Overview of Heart Disease Prediction].International Journal of Computer Applications 2011; 17(8): 85-93.
[9] Subbalakshmi G, Road Y. [Decision Support in Heart Disease Prediction System using Naive Bayes]. Indian Journal of Computer Science and Engineering 2011; 2(2): 183-195.
[10]https://en.wikipedia.org/wiki/C4.5_algorithm , http://rulequest.com/see5-comparison.html.
[11]http://www.cise.ufl.edu/~ddd/cap6635/Fall-97/Short-papers/2.htm
[12]Jianxin C, Yanwei X, Guangcheng X, Jianqiang Y, Dongbin Z. [A Comparison of Four Data Mining Models: Bayes, Neural Network, SVM and decision Trees in Identifying Syndromes in Coronary Heart Disease]. Springer- Verlag Berlin Heidelberg 2007:1274–1279.
[13]https://fa.wikipedia.org/wiki/%D8%A7%D8%B3%E2%80%8C%D9%BE%DB%8C%E2%80%8C%D8%A7%D8%B3%E2%80%8C%D8%A7%D8%B3
[14]Sezavar SH, Valizade M, Moradi M, Rahbar M.H. [review of early myocardial infarction and its risk factor in patients hospitalized in Rasool Akram hospital in Tehran]. Hormozgan Medical Journal 2010; 4(2): 156-163. [Persian]
[15]IBM SPSS Modeler CRISP-DM Guide. Available from:www.spss.ch/upload/1107356429_CrispDM1
[16]Margaret R, Kraft C, Desouza A. [Data Mining in Healthcare Information Systems. Case Study of a Veterans’ Administration Spinal Cord Injury Population].Proceedings of the 36th Hawaii International Conference on System Sciences 2003.
[17]IBM SPSS Modeler 15 Applications guide. Available from: ftp://ftp.software.ibm.com/software/analytics/spss
[18]Jyoti S, Ujma A, Dipesh S,Sunita S. [Predictive Data Mining for Medical Diagnosis: An Overview of Heart Disease Prediction]. International Journal of Computer Applications 2011; 17(8): 35-43.
[19]Kurt I, Ture M, Kurum T. [Comparing performances of logistic regression, classification and regression tree, and neural networks for predicting coronary artery disease]. Expert Systems with Applications 2008; 34(3): 366–374.

مورد

پیوندهای مفید

Heart Disease Data Set

ارزیابی شرح مسئله و کارهای مرتبط 1394/08/30

تایید شده

ضمن تشکر از اینکه زحمت کشیدید و فاز اول را انجام دادید ابتدا چند نکته نگارشی و کلی را عرض می‌کنم و سپس به بیان سایر موارد داخل متن می‌پردازم.
در فارسی نویسی درست باید برای بخش‌های اضافی کلمات مانند «ها» از نیم فاصله استفاده کرد. شما در برخی موارد از فاصله استفاده کرده و در برخی موارد دیگر آن‌ها را چسبانده‌اید.
به جای استفاده از کلمات انگلیسی در متن، معادل فارسی آن‌ها را در متنتان آورده و عبارت انگلیسی را در پانویس بیاورید. البته این مورد برای کلماتی مثل K-NN مصداق ندارد.
برای درج منابع و اشاره به آن‌ها در متن شما از پرانتز استفاده کرده‌اید. در markdown نویسی برای درج منابع شماره آن‌ها در متن را به صورت لینک قرار دهید تا زمانی که بر روی آن کلیک می‌شود منبع اشاره شده را در قسمت منابع نشان دهد. همچنین بهتر است با کلیک بر روی منبع در قسمت منابع آن مقاله یا سایت باز شود.
به صورت کلی متن را بسیار ساده نوشته‌اید و هیچ یک از کلمات را bold یا italic نکرده‌اید. همچنین در خیلی از موارد برخی از مفاهیم را که به نظرتان ممکن است نا آشنا برای خواننده باشد، می‌توانید به صورت لینک قرار داده تا خواننده با کلیک بر روی آن‌ها به صفحه ای راهنمایی شود که اطلاعات تکمیلی در آن خصوص وجود دارد.
از هیچ شکل و جدولی برای توضیح کارتان استفاده نکرده‌اید. مثلا بهتر بود پارامترهای دخیل در تشخیص را در یک جدول قرار می‌دادید تا مرتب‌تر و آراسته‌تر شود.
حال به سراغ موارد اختصاصی داخل متن می‌رویم.
بخش مقدمه طبق معماری مستند شما اولین بخش آن است در صورتی که یک پاراگراف قبل از آن دیده می شود. این پاراگراف را یا حذف کنید یا اگر لازم می بینید در مستندتان باشد آن را تحت عنوان تعریف پروژه بیاورید. معمولا در مقالات و ویکی ها تنها قسمتی که قبل از مقدمه می آید چکیده است که محتوای آن با آنچه اینجا آمده است تفاوت دارد. در واقع چکیده باید بعد از پایان کار نوشته شود.
جمله اول مقدمه تان را خودتان مجددا بخوانید و ببینید چیزی متوجه می شوید یا خیر؟! من که چیزی نفهمیدم. قسمت « تشخیص نهایی بیماری به عهده پزشک می باشد و با مشاهده علایم و انجام آزمایشاتی این تشخیص صورت می گیرد» به نظر ارتباطی به قسمت قبل ندارد.
در پاراگراف آخر مقدمه در مورد نوارد قلبی صحبت شده است که به نظر بنده هیچ ارتباطی به قسمت‌های قبل ندارد. کلا آخر مقدمه خوب جمع نشده است و خواننده انتظار دارد ادامه داشته باشد.
در قسمت کارهای مرتبط شما به بیان چند روش برای تشخیص پرداخته‌اید. بهتر بود هریک از این روش‌ها را در یک پاراگراف جداگانه می‌نوشتید. در همان پاراگرافی که درخت تصمیم را توضیح داده‌اید شبکه‌های عصبی را هم شروع کرده‌اید.
در توضیح درخت تصمیم از دو الگوریتم نام برده‌اید بدون اینکه هیچ توضیحی در مورد آن‌ها بدهید و یا آن‌ها را به جایی لینک کنید.
به طور کلی در قسمت کارهای مرتبط انتظار می‌رود بیش از اینکه به توضیح الگوریتم‌های مختلف بپردازید، کارهای مشابه پروژه خودتان را بررسی کنید و به تحلیل مقالات سایرین بپردازید. شما متاسفانه اصلا این کار را انجام نداده‌اید.
انشالله در فاز آینده این اشکالات را برطرف کرده و کارهای مرتبط را کامل کنید.

ارزیابی پیاده‌سازی و گزارش نتایج 1394/10/05

در ابتدا ممنونم بابت اینکه زحمت کشیدید و اکثر اشکالاتی که دفعه قبل ذکر کرده بودم را برطرف کردید. متاسفانه فاز قبل خیلی پروژه تان شبیه پروژه ترم قبل بود و بنده در ابتدا متوجه نشدم. خوب است بدانیم که هدف ما از اینکه این پروژه را تعریف کردیم این است که با نحوه تحقیق و آزمایش یک پروژه علمی بیشتر آشنا شویم و اگر دانشجویان وقت و حوصله کافی در انجام پروژه شان نداشته باشند و فقط برای رفع تکلیف پروژه را به هر نحوی تحویل دهند قطعا هدف مورد نظر ما براورده نشده است و این به نسبت وقتی و انرژی که می گذاریم خیلی حیف است. البته در این فاز بهتر رو پروژه تان کار کرده اید ولی هنوز رنگ و بویی از پروژه ترم قبل در آن دیده می شود!
با توجه به اینکه شما پروژه تان را تحقیقاتی تعریف کرده اید، طبیعتا در این فاز انتظار پیاده سازی از شما نداشتیم ولی در عوض انتظار میرفت چند روش را کامل مورد بررسی قرار می دادید و نتایج عملی چند مقاله را تحلیل و مقایسه می کردید. متاسفانه هم تعداد روش هایی که بررسی کرده اید کم است و هم به بیان جزئیات نپرداخته اید و البته خبری هم از مقایسه نتایج تحقیقات مختلف نیست.

ارزیابی بهبود نتایج و تکمیل گزارش 1394/11/05

با سلام ،
با توجه به تحقیقاتی بودن پروژه و فارغ بودن شما از عمل پیاده سازی انتظار میرفت که روش های بیشتری را برای رسیدن به هدف مورد بررسی قرار میدادید و در انتها و جهت انجام مقایسه بین روش های متفاوت تنها به بردن نام روش اکتفا نمیکردید و توضیحات مفصل تری را جداگانه ارائه میدادید. ضمن اینکه متن نوشته ی شما اصلا روان نبوده و ایرادات نگارشی و جملات گنگ درک مطلب را دشوار ساخته اند . بهتر بود قبل از اتمام کار یکبار متن خود را مطالعه میکردید .
ذکر یافته ها و متغیر های هر روش در جدول مقایسه از نکات مثبت پروژه ی شما میباشد .
خسته نباشید .

رد شده

سلام
ممنون از زحمتی که برای این پروژه کشیدید. چند مورد نیاز به بررسی دارد که عبارت اند از:
1- در مورد الگوریتم های درخت تصمیم، بهتر بود که به صورت فهرست وار و جزیی تر بیان می شد تا مقایسه بهتری بین الگوریتم ها صورت گیرد.
2- بعضی از قسمت های متن گنگ و نامفهوم بود و به ویرایش نیاز داشت.
3- بهتر بود مطالبی که در ابتدای پروژه ذکر شده اند در قسمت مقدمه قرار می گرفتند تا نظم بهتری بین مطالب وجود داشته باشد.
توضیح ویژگی های داده ها، بررسی معیار های مختلف برای مقایسه الگوریتم ها و ارجاعات خوبی که به مقالات داده شده بود از نکات مثبت این پروژه است.

سلام
+ارجاع ها به خوبی انجام شده بود که به مطالعه بیشتر خوانندگان کمک زیادی میکند.
-بهتر بود که توضیحات کلی را در قسمت مقدمه میگنجاندید و پس از آن به صورت جزئی تر داده کاوی و انواع آن را توضیح می‌دادید تا فهم آن بهتر شود.
-بهتر بود که از جملات ساده تری برای بیان مقصود استفاده می‌کردید.
+از جدول برای درک بیشتر خواننده به خوبی استفاده کردید.
-غلط های نگارشی کوچکی در مقاله دیده می‌شود که بهتر است در ویرایش نهایی برطرف شود
زحمت خوبی برای این پروژه کشیده اید . متشکرم .
موفق باشید

با عرض سلام و خسته نباشید، به نظر می رسد پروژه شما نسبت به یک پروژه تحقیقاتی از مطالب نسبتاً کمی برخوردار باشد. علاوه بر این:

بهتر بود معادل انگلیسی لغات را به جای اینکه داخل پرانتز بنویسید در پاورقی می آوردید.
شکل ها شماره ندارند.
نیم فاصله رعایت نشده است.
موفق باشید

با عزض خسته نباشید نکاتی به ذهنم رسید که خدمتتان عرض می‌کنم:
1- بهتر بود بیشتر مساله را در فاز اول شرح می‌دادید تا به فهم خواننده کمک کند.
2- با توجه به اینکه پروژه‌ی شما تحقیقاتی بود بهتر بود که کارهای مرتبط بیشتری را بررسی می‌کردید.
3- همچنین بهتر بود به مقایسه کارهای مرتبط می‌پرداختید تا کارهای بهتر نمایان شوند.
4- از مراجع زیادی بهره گرفتید که این از نکات مثبت پروژه‌ی تحقیقاتی شماست.
5- قسمت های مختلف برای آزمایش‌ها و متدولوژی به‌خوبی بیان شده است.
6- چرا در قسمت مقدمه و شرح مساله، از چالش‌ها و مشکلات پیش‌رو صحبتی نشده است؟
7- مطالب بیان شده دارای انسجام خوبی است که به فهم متون نوشته شده کمک می‌کند.
با تشکر

+جدولی که جهت جمع بندی مطالعات خود تهیه کرده ساختار مناسبی از زحمات شما را در ذهن خواننده ایجاد می کند.
+استفاده از تصویر برای نمایش مراحل متودولوژی به درک بهتر متن کمک کرده است.
+استفاده از جدول باعث می شود خواننده کلیتی از روش ها را متوجه شود و روش مورد نظر خود را در صورتی که بخواهد در این زمینه فعالیت کن، به راحتی بیابد.
-با توجه به اینکه پروژه ی شما تحقیقاتی است ، باید توجه بیشتری به نکات نگارشی از جمله رعایت نیم فاصله می کردید.
-در بخش کار های مرتبط بیشتر به الگوریتم های دسته بندی پرداخته اید و صرفا به داده های مورد نیاز پرداخته اید در حالی که بهتر بود روی چگونگی استفاده از این داد ها در دسته بندی و ارتباط این دو بیشتر تمرکز می کردید.
-بهتر بود معادل های انگلیسی را با استفاده از امکانات سایت در پاورقی اشاره می کردید تا متنتان ساختار علمی تری پیدا کند.
-بهتر بود بخشی برای کارهای آینده نیز در نظر می گرفتید و مانند سایر پروژه ها بر اساس مطالعات خود ایده هایی را اشاره می کردید.
موفق باشید.

سلام
امیدوارم از انجام این پروژه لذت برده باشید و انجام این نوع پروژه برایتان تجربه خوبی بوده باشد. تشکر می کنم از زحمتی که کشیدید برای انجام پروژه. در این فاز خیلی بهتر از فاز قبل عمل کردید. اکثر نکاتی را که خواستم عرض کنم دوستانتان در نقدهایشان گفته اند و من مورد خاصی ندارم. صرفا برای تاکید بیشتر چند نکته ای که به نظرم می تواند برای کارهایی که در آینده انجام می دهید مفید باشد را ذکر می کنم:

خوب بود وقت و انرژی بیشتری روی قسمت بحث و نتیجه گیری می گذاشتید و کارهای بیشتری را با هم مقایسه می کردید. همچنین بد نبود در مورد هرکدام تحلیل خودتان را نیز می نوشتید. یا مثلا دلایل برتری یک روش بر روش دیگر را تحلیل می کردید.
اگر در آخر غیر از نتیجه گیری کلی که «داده کاوی برای این مساله خوب است» کمی علمی تر نتیجه گیری میکردید و احیانا موضوعاتی را که به نظرتان برای کارهای آینده می شود انتخاب کرد شرح می دادید خیلی خوب می شد.