اینترنت و شبکه های کامپیوتری در معرض تعداد فزاینده ای از حملات اینترنتی هستند. با انواع جدید حملات که به طور مداوم پدیدار می شوند توسعۀ رویکرد های وفقی و انعطاف پذیر براساس امنیت، یک چالش سخت است. در این زمینه تکنیک های تشخیص نفوذ در شبکه بر مبنای ناهنجاری، تکنولوژی ارزشمندی برای حفاطت از سیستم های مورد هدف و شبکه ها در مقابل فعالیت های بدخواهانه است.

مقدمه

سامانه‌های تشخیص نفوذ ¹ ابزارهایی امنیتی هستند که مانند سایر اندازه گیرها مثل نرم افزارهای آنتی ویروس و دیوار آتش و نمودار های کنترل دسترسی، امنیت اطلاعات در سامانه‌های ارتباطی را تقویت می نمایند.
کار قابل توجهی توسط CIDF در حال اجرا بوده است، گروهی که توسط DAPRA در سال 1988 به وجود آمد و اساسا در راستای هماهنگ سازی و تعریف یک چارچوب مشترک در زمینۀ IDS فعالیت می کند. با ادغام شدن در IEFT در سال 2000 و با پذیرفتن نام مخفف جدید IDWG ، این گروه یک ساختار کلی برای IDS ها بر مبنای 4 نوع ماژول کاربردی تعریف کرده است. این ساختار در شکل شماره 1 مشخص است.[2]

بلوک های E یا جعبه های رویداد : این بلوک ها از المان های حسگر که سامانه‌ی هدف را نمودار می کنند تشکیل شده اند. برای تحلیل اطلاعات رویدادها به بلوکهای دیگری نیاز است.
بلوک های D یا جعبه های پایگاه اطلاعاتی : وظیفۀ این المان ها، ذخیرۀ اطلاعات بلوک های E برای فرآیندهای بعدی بلوک های A و R است.
بلوک های A یا جعبه های تحلیل اطلاعات : ماژول های پردازش برای تحلیل رویدادها و تشخیص رفتارهایی که بالقوه مشکل سازند می باشند و ممکن در صورت نیاز یک هشدار تولید کنند.
بلوک های R یا جعبه های پاسخ : کارکرد اصلی این بلوک ها عملیات اجرایی است تا اگر نفوذی رخ دهد واکنش مناسب برای خنثی کردن آن تهدید اجرا شود.
بسته به منبع اطلاعات مورد بررسی ( بلوک های E )، یک IDS می تواند بر مبنای میزبان یا بر مبنای شبکه باشد. یک IDS بر مبنای میزبان، رویدادها را مانند فراخوانی های سیستم و هویت دهی به پردازش ها تحلیل می کند و اساسا به اطلاعات سیستم عامل ارتباط دارد. در سوی دیگر یک IDS بر مبنای شبکه، رویدادهای مرتبط با شبکه مانند حجم ترافیک، آدرس های IP، پورت های مورد استفاده، پروتکل مورد استفاده و ... را تحلیل می کند. موضوع بحث ما IDS های بر مبنای شبکه است. [2]
بسته به نوع تحلیل انجام شده ( بلوک های A )، IDS ها به دو دستۀ برمبنای امضا و برمبنای ناهنجاری تقسیم می شوند. روش های برمبنای امضا به دنبال الگوهای تعریف شده یا امضاها در داده های تحلیل شده می گردند. برای این منظور یک پایگاه دادۀ امضاها بر اساس حملات شناخته شده تعیین شده و برای مقایسه مورد استفاده قرار می گیرد. در سوی دیگر شناسایی کننده های برمبنای ناهنجاری، تلاش می کنند تا رفتار طبیعی سیستمی که باید حفاظت شود را تخمین بزنند و مواقعی که انحراف نمونۀ مورد بررسی از یک آستانۀ از پیش تعیین شده فراتر رود یک هشدار ناهنجاری تولید کنند. یک امکان دیگر در این روش، مدل کردن رفتار غیرطبیعی سیستم و ایجاد هشدار در زمان هایی است که اختلاف نمونۀ مورد بررسی با این مدل از یک حد معین کمتر باشد. [2]
تفاوت اصلی سیستم های مبتنی بر امضا و سیستم های مبتنی بر ناهنجاری در مفاهیم "حمله" و "ناهنجاری" نهفته است. یک حمله می تواند به عنوان "دنباله ای از عملیات که امنیت سیستم را در خطر قرار می دهند" تعریف شود درحالیکه ناهنجاری فقط "یک رویداد که از نظر امنیتی مظنون است" تعریف می شود. با توجه به این تعاریف، مزیت ها و ایرادات هریک بیان می شود.[2]
روش های برمبنای امضا نتایج بسیار خوبی در حفاظت از سیستم در مقابل حملات معین و کاملا شناخته شده دارند اما قادر به تشخیص نفوذهای ناآشنا و جدید نیستند حتی اگر نفوذهای جدید با نفوذهای شناخته شده تفاوت بسیار کمی داشته باشد.
در مقابل، مزیت اصلی تکنیک های تشخیص مبتنی بر ناهنجاری، توانایی بالقوه در تشخیص رویدادهایی که قبلا مشاهده نشده، است. اگرچه به عنوان ایراد این تکنیک ها باید گفت با وجود دقیق نبودن ویژگی های روش امضا، به طور معمول نرخ رویدادهایی که به اشتباه به عنوان حمله شناخته شده اند در سیستم های مبتنی بر ناهنجاری بیشتر از سیستم های مبتنی بر امضا است.
با توجه به توانایی های تضمین شدۀ سیستم های تشخیص نفوذ در شبکه بر مبنای ناهنجاری (A-NIDS)، این رویکرد در حال حاضر در مرکز توجه تحقیقات و توسعه در زمینۀ مشخیص نفوذ است.
روش های A-NIDS
با اینکه رویکردهای A-NIDS متفاوتی وجود دارد، در قواعد کلی همۀ آنها متشکل از ماژول ها یا مراحل اولیۀ زیر هستند:

پارامتری سازی
مرحلۀ آموزش
مرحلۀ تشخیص
در شکل شماره 2 ارتباط این 3 ماژول نشان داده شده است. [2]

توضیح تصویر

بر طبق نوع پردازش مرتبط با مدل رفتاری سیستم، روش های تشخیص مبتنی بر ناهنجاری می توانند به 3 دست تقسیم شوند. روش مبتنی بر آمار ، روش مبتنی بر دانش و روش مبتنی بر یادگیری ماشین . در روش مبتنی بر آمار رفتار سیستم از یک نقطه نظر تصادفی نمایش داده می شود. روش مبتنی بر دانش تلاش می کند تا رفتار مطلوب را از اطلاعات سیستمی در دسترس ( ویژگی های پروتکل، نمونه های ترافیک شبکه و ..) بدست آورد و روش مبتنی بر یادگیری ماشین بر اساس پایه گذاری یک مدل صریح یا ضمنی که دسته بندی الگوهای تحلیل شده را ممکن می سازد است.
روش های A-NIDS مبتنی بر یادگیری ماشین
همانطور که گفته شد روش مبتنی بر یادگیری ماشین بر اساس پایه گذاری یک مدل صریح یا ضمنی که دسته بندی الگوهای تحلیل شده را ممکن می سازد است. یک ویزگی این روش این است که دادۀ تعیین شده باید مدل رفتاری را یاد بگیرد.
یک A-NIDS مبتنی بر یادگیری ماشین قابلیت تغییر استراتژی اجرایی خود با توجه به نیاز به اطلاعات جدید، داراست اگرچه این ویزگی این روش را برای همۀ شرایط مطلوب می سازد، ایراد اصلی آن ماهیت پرهزینۀ منابع آن است.
از میان روش های A-NIDS مبتنی بر یادگیری ماشین به روش الگوریتم های ژنتیک اشاره می کنیم.
روش الگوریتم های ژنتیک
الگوریتم های ژنتیک در جستجوی اکتشافی عمومی دسته بندی می شوند و یک کلاس ویژه از الگوریتم های تکاملی هستند که از تکنیک هایی الهام گرفته از بیولوژی تکاملی مانند وراثت، جهش، انتخاب و ترکیب استفاده می کنند.
مزیت اصلی این زیرمجموعه از A-NIDS های مبتنی بر یادگیری ماشین، استفاده از یک روش جستجوی عمومی پایدار و انعطاف پذیر است که از جهات مختلف به سوی جواب می رود در حالیکه هیچ دانش قبلی دربارۀ رفتار سیستم در نظر گرفته نشده است.
ایراد اصلی آن درگیر کردن منابع مصرفی به میزان زیاد است.

کارهای مرتبط

تاریخچۀ IDSها:
در سال 1980 مفهوم IDS با مقالۀ اولیۀ اندرسون آغاز شد. با معرفی این اندیشه که ضمیمه های ممیزی دارای اطلاعاتی حیاتی هستند که ممکن است در تعقیب رفتارهای غیرعادی و درک رفتارهای کاربر مفید باشد. در واقع کار او آغاز IDS های برمبنای میزبان بود. در سال 1986 دکتر دوروتی دنینگ مدلی منتشر کرد که اطلاعات ضروری برای توسعۀ IDS های تجاری را آشکار نمود. [13] MIDAS یک سیستم خبره با استفاده از P-Best و LISP در سال 1988 پیاده سازی شد.[14] در همان سال Haystack نیز پیاده سازی شد که با استفاده از آمار سعی در کم کردن ضمیمه های ممیزی داشت. Wisdom & Sence در سال 1989 به عنوان یک تشخیص دهندۀ ناهنجاری مبتنی برآمار که براساس تحلیل آماری، قوانینی تولید می کرد و سپس از آن قوانین برای تشخیص ناهنجاری استفاده می کرد، پیاده سازی شد. Heberlein در سال 1990 ابتدا ایدۀ IDS های شبکه، توسعۀ مانیتورینگ امنیت شبکه و IDS های ترکیبی را مطرح کرد و پس از او Lunt یک سیستم خبرۀ تشخیص نفوذ به نام SRI را ارائه کرد، سیستمی با دو رویکرد: یک سیستم خبرۀ مبتنی بر قانون و یک تشخیص دهندۀ ناهنجاری بر مبنای آمار که بر روی پایگاه های کاری شرکت Sun اجرا شد و قادر بود داده را هم در سطح کاربر و هم در سطح شبکه مورد بررسی قرار دهد.[14] از سوی دیگر در اوایل دهۀ 90 توسعۀ تجاری IDS ها آغاز شد و ماشین استنتاجی مبتنی بر زمان TIM ، با استفاده از یادگیری استنتاجی الگوهای متوالی کاربر در LISP مشترک بر روی یک کامپیوتر VAX 3500 تشخیص ناهنجاری را انجام می داد. در سال 1991 IDS های توزیع شده (DIDS) شامل یک سیستم خبره که توسط محققین دانشگاه کالیفرنیا ساخته شد، یک تشخیص دهندۀ ناهنجاری مبتنی بر آمار به نام NADIR و یک سیستم خبره توسط Los Alamos National Laboratory's Integrated Computing Network پیاده سازی شدند. Lunt در سال 1993 نسل دوم سیستم خبرۀ تشخیص نفوذ را با توسعۀ SRI با استفاده از شبکۀ عصبی مصنوعی ارائه کرد. در سال 1998 آزمایشگاه ملی Lawrence Berkely یک زبان قانون نویسی به نام Bro را برای تحلیل بسته ها از مجموعۀ دادۀ libpcap معرفی کرد. در سال 2001 در تحلیل داده های ممیزی و IDS های کاوشگر از tcpdump برای ایجاد پروفایل های قوانین برای طبقی بندی ها استفاده شد.[14]

در یک دسته بندی کلی می توان سیستم های تشخیص نفوذ در شبکه بر مبنای ناهنجاری را مانند شکل شماره 3 ارائه کرد:[13]

بر مبنای این دسته بندی با مطالعه کارهای نسبتا قدیمی که بین سال های 1980 و 2005 صورت گرفته است، به چند مورد به طور اجمالی اشاره می کنیم:

در یک رویکرد اولیه از روش مبتنی بر آمار، در سال 1985، Denning , Neumann مدلی تک متغیره ارائه دادند [13]که هر یک از متغیرهای سیستم هدف را به عنوان یک متغیر مستقل تصادفی گاوسی در نظر می گرفت. بعدها مدل های چندمتغیره که ارتباط و همپوشانی بین دو یا چند متغیر سیستم را در نظر می گرفت ارائه شد. این مدل ها مفید هستند چرا که داده های آزمایشی نشان داده اند که در این حالت سطح بهتری از تمایز بین حالات عادی و نفوذ، قابل دستیابی است. Ye در سال 2002 مدلی از سیستم های چندمتغیره مبتنی بر آمار ارائه کرده است.
در سیستم های خبره که یکی از روش های مبتنی بر دانش است، داده های مورد بررسی براساس مجموعه ای از قوانین در سه مرحله طبقه بندی می شوند: 1. با استفاده از دادۀ آزمایشی کلاس ها و صفات مختلف معین می شوند. 2. مجموعه ای از قوانین، پارامترها و فرآیندها استخراج می شود. 3. داده های مورد بررسی متناظرا طبقه بندی می شوند. Anderson در سال 1995 در این زمینه کار کرده است.
اما در زمینۀ روش های مبتنی بر یادگیری ماشین، یکی از مدل های مورد استفاده مدل Bayesian است. در این مدل ارتباط احتمالاتی بین متغیرهای مهم سیستم هدف کدگذاری می شود. این روش عموما در ترکیب با نمودارهای آماری استفاده می شود. Heckerman در سال 1995 ضمن انجام این کار، مزیت های آن را نشان داده است. یکی از این مزیت ها، توانایی کدگذاری وابستگی های بین متغیرها و پیش بینی رویدادهاست و همچنین توانایی ترکیب شدن با دانش قبلی و داده های قبلی.
کارهای جدید:
در اینجا به توضیح مختصر تعدادی از کارهای جدید می پردازیم:
1- در کاری که R. Remya و Amrita Vishwa Vidyapeetham در سال 2013 انجام داده اند از الگوریتم های ژنتیک و SOFM برای بهبود تشخیص ناهنجاری و کم کردن خطای تشخیص استفاده شده است. در این کار تشخیص ناهنجاری توسط یک ماشین برداری پشتیبانی (SVM) با حاشیۀ نرم صورت می گیرد که ورودی ها را با توجه به رفتارشان به دو دستۀ عادی و ناهنجار تقسیم می کند . الگوریتم های GA و SOFM برای بهبود ویژگی ها و استخراج اطلاعات از یک مجموعۀ دادۀ بزرگ مثل KDD99 استفاده می شوند. GA کمک بزرگی در تشخیص رفتار ناهنجار می کند و SOFM کمک می کند تا گروه های مشابه از داخل مجموعۀ داده به وسیلۀ اندازه گیرهای تشابه، احراز هویت گردند. این دو الگوریتم یادگیری ماشین باعث کاهش حجم مجموعۀ داده و ویژگی ها در یادگیری SVM می شوند.
فریم ورک ارائه شده با نام GSS دارا 10 درصد افزایش در نرخ تشخیص و 50 درصد کاهش در نرخ خطاهای تشخیص نسبت به SVM با حاشیۀ نرم است.

2- در کاری که Dewam Md. Farid و Mohammad Zaridur Rahman در سال 2010 انجام داده اند با ارائۀ الگوریتم جدیدی با عنوان الگوریتم Bayesian وفقی خود بهبود دهنده، رویکرد جدیدی در طبقه بندی هشدارها اتخاذ کرده اند که تعداد FP ها یعنی رفتارهای عادی که به اشتباه به عنوان رفتار ناهنجار اعلام شده و هشدار داده می شوند، را پایین می آورد و قدرت تشخیص درست را بالا می برد. رویکرد ارائه شده بر روی دامنۀ امنیت تشخیص نفوذ در شبکه مبتنی بر ناهنجاری اجرا شده و توانسته است به درستی انواع مختلف حمله را در مجموعۀ دادۀ بنچمارک KDD99 با نرخ بالایی در زمان کم طبقه بندی کند و با استفاده از منابع محاسباتی محدود تعداد FP ها را کاهش دهد.

3- در کاری که Mohammad Sazzadul Hoque و Md. Abdul Mukit و Md. Abu Naser Bikas در سال 2012 انجام داده اند سیستم تشخیص نفوذی با استفاده از الگوریتم ژنتیک برای تشخیص کارآمد انواع نفوذ در شبکه ارائه شده است. در این رویکرد از تئوری تکامل برای تکامل اطلاعات جهت فیلتر کردن داده های ترافیک شبکه و کم کردن پیچیدگی استفاده شده است. برای پیاده سازی و اندازه گیری کارایی سیستم از مجموعۀ دادل بنچمارک KDD99 استفاده شده که در این شرایط نرخ خوبی در تشخیص برای خود ثبت کرده است.

آزمایش‌ها

همان‌طور که در بخش‌های قبلی مطرح شد، یکی از رویکردهای تشخیص ناهنجاری در شبکه، استفاده از رویکرد مدل‌های افزایشی (نوعی روش یادگیری ماشین که در آن مدل، همراه با زمان تغییر می‌کند) است. این رویکرد به این دلیل به وجود آمده است که ماهیت تشخیص ناهنجاری به گونه ای است که الگوهای استاندارد دائماً به‌روز می‌شوند و برای جلوگیری از افزایش نرخ FP (اعلام های مثبت ولی اشتباه) باید نمایه‌های وضعیت‌های عادی یا استاندارد را دائم به‌روز کرد تا یک رفتار عادی به اشتباه به عنوان نفوذ یا ناهنجاری دسته‌بندی نشود.

تعریف مسئله

اولین گام در تشخیص ناهنجاری فرموله کردن مسأله به شکل یک مسأله‌ی الگوشناسی است. پس از این گام، الگوریتم‌هایی که برای تشخیص ناهنجاری به کار گرفته می‌شوند باید به‌نحوی پیاده‌سازی شوند که توانایی یادگیری لحظه به لحظه (Online) را داشته باشند. مهم‌ترین مسأله در الگوریتم‌های تشخیص ناهنجاری توانایی به‌روز کردن نمایه‌ها یا الگوهای عادی به صورت پویا است.
نکته‌ی مهم در این رویکرد این است که تشخیص نفوذ را زیرمجموعه‌ای از تشخیص ناهنجاری درنظر بگیریم. به طور کلی می‌توان در مواجهه با یک ترافیک چهار حالت را مد نظر قرار داد:‌

نفوذ اما هنجار: یک سامانۀ تشخیص ناهنجاری ممکن است در شناسایی این دسته از نفوذها ناموفق عمل کند. چراکه رفتاری شبیه به رفتاری که برای سامانه عادی قلمداد می شود توسط مهاجم اتخاذ شده است. یعنی یک سامانۀ تشخیص ناهنجاری، به اشتباه خروجی منفی برای آن ثبت می‌کند.
غیرنفوذ اما ناهنجار:‌این موقعیت، همان موقعیتی است که یک سامانۀ تشخیص ناهنجاری FP تولید می‌کنداگرچه رفتار غیرعادی است، اما نفوذ نیست.
غیرنفوذ و هنجار:موقعیتی که سامانه، منفی صحیح ایجاد می‌کند. هم رفتار عادی است و هم نفوذی صورت نگرفته است.
نفوذ و ناهنجار:‌ موقعیتی که سامانه، مثبت صحیح ایجاد می‌کند. یعنی رفتاری که شبیه به رفتار عادی سامانه نیست و یک حمله واقعاً صورت گرفته است.[6]

قلمرور فعالیت‌های سامانه‌های تشخیص ناهنجاری

همان‌طور که در دسته‌بندی موجود در تصویر مشخص است،در یک سامانه‌ی تشخیص ناهنجاری با دریافت هر رفتار شبکه، یک وضعیت برای آن ایجاد می‌شود، در صورتی که وضعیت مثبت صحیح یا منفی صحیح باشد، سامانه عملکرد درستی دارد و در غیر این‌صورت خطا وجود دارد. خطای مثبت اشتباه مسئله‌ی بسیار مهمی در سامانه‌های تشخیص ناهنجاری محسوب می‌شود، این مسئله درست برخلاف سامانه‌های تشخیص نفوذ است که مسئله‌ی منفی اشتباه در آن‌ها بیش‌تر دیده می‌شود.

انواع ناهنجاری

ناهنجاری نقطه‌ای: یک نمونۀ داده می‌تواند با توجه به معیارهای درنظر گرفته‌شده ناهنجاری محسوب شود. این مقایسه بدون توجه به سایر داده‌های قبل و بعد آن انجام می‌شود.
ناهنجاری‌های متنی: تشخیص این ناهنجاری‌ها با استفاده از ویژگی‌های رفتاری و ویژگی‌های متنی صورت می‌گیرد. ویژگی‌های متنی، مشخص‌کنندۀ ویژگی‌های یک نمونه در یک همسایگی مشخص است. ویژگی‌های رفتاری مسئول مشخص کردن مشخصه‌هایی هستند که با ویژگی‌های متنی نمی‌توان آن‌ها را تعیین کرد.
برای تشخیص این نوع ناهنجاری مدلی پیشنهاد شده است که از هر دو نوع ویژگی‌های متنی و رفتاری بهره می‌برد. البته باید توجه داشت که این نوع ناهنجاری نیز یک ناهنجاری نقطه‌ای است و داده‌ها به صورت دسته‌ای دیده نمی‌شوند.
ناهنجاری جمعی: در برخی مواقع، ناهنجای در یک جریان از داده‌ها نمایان می‌شود، یعنی در مقایسه با کل مجموعه‌داده یک بخشی از داده‌ها که به نوعی (زمانی یا مکانی) به یکدیگر وابسته هستند، یک تغییر را مشخص می‌کنند. [6]
مانند همه‌ی رویه‌های یادگیری ماشین، سه حالت با نظارت، نیمه نظارتی و بدون نظارت در الگوریتم‌ها وجود دارد.

مجموعه‌دادۀ استفاده شده
مجموعه‌دادۀ KDD99که دارای ۴۱ ویژگی می‌باشد، دارای مقادیری غالبا به صورت عددی است، اما پرچم‌های موجود در بسته، نوع پروتکل، نوع سرویس و برخی دیگر از مشخصه‌ها به صورت نمادین تولید شده است.


مجموعه‌دادۀ اصلی	۴۸ میلیون داده	۲۲ نوع حمله
مجموعه‌دادۀ آموزش	۱۶۹ هزار داده	۲۲ نوع حمله
مجموعه‌دادۀ آزمون	۳۱۱ هزار داده	۳۹ نوع حمله

به طور کلی تمام حملات استفاده شده در این مجموعه‌داده در ۴ دسته تقسیم می‌شوند:‌

·حملات U2R
·حملات R2L
·حملات Probe
·حملات DoS
و دستۀ آخر مربوط به ترافیک عادی است که با برچسب Normal مشخص می‌شود.[7] هریک از انواع حملات در صورت تشخیص به عنوان یک ناهنجاری مشخص می‌شوند و رفتاری عادی یا هنجار همان نمونه‌های Normal می‌باشند.
همان‌طور که مشخص شده، عملکرد یک سامانه‌ی تشخیص نفوذ با بررسی نمونه‌های نفوذ که از قبل برای سامانه تعریف نشده، سنجیده می‌شود و به همین دلیل در مجموعه‌ داده‌ی آزمون تعداد نمونه‌های حمله نزدیک به ۲ برابر شده است.

روش آزمایش

برای انجام آزمایش‌ها، از درخت تصمیم استفاده شده است. در برخی از مقالات مرجع، از روشی موسوم به روش آبشاری برای تشخیص ناهنجاری استفاده شده است. البته کدی که بتوان با آن، روش آبشاری را پیاده‌سازی کرد، موجود نیست، در مقابل اغلب درخت‌های تصمیم پیاده‌سازی شده و در دست‌رس هستند. در ادامه روش کار مطرح شده است.

روش آبشاری ²

در این مرحله با استفاده از یک اسکریپ بَش که در گیت‌هاب موجود است، روش آبشاری بررسی شده است، روش آبشاری با دریافت مجموعه‌دادۀ KDD99، این مجموعه‌داده را با توجه به نوع سرویس یا ویژگی چهارم مجموعۀ داده تقسیم‌بندی می‌کند.
در روش آبشاری، که اولین بار در سال ۲۰۰۷، معرفی شده است، پژوهش‌گران با بررسی‌هایی دریافته‌اند که یکی از گلوگاه‌های روش‌های تشخیص ناهنجاری با درخت تصمیم این است که رفتار شبکه برای دسته‌های مختلف رفتارها، بسیار متفوات است، و به همین دلیل اگر از یک درخت تصمیم استفاده شود، امکان اشتباه بسیار زیاد است[10].
به همین دلیل روشی معرفی شده است که در آن ابتدا تمامی رفتارهای دریافت‌شده به نحوی دسته‌بندی می‌شوند، سپس به ازای هر دسته یک درخت تصمیم جداگانه به صورت افزایشی یا به صورت دسته‌ای ساخته می‌شود.

مولفه‌ی دسته‌بندی

دسته‌بندی را می‌توان با دو رویکرد متفاوت خوشه‌بندی و رده‌بندی انجام داد. در روش خوشه‌بندی دسته‌ها یا گروه‌های ورودی که بر اساس آن‌ها یک درخت ساخته می‌شود، بر اساس میزان شباهت و بدون توجه به یک مشخصه‌ی خاص دسته‌بندی می‌شوند. اما در رده‌بندی با در نظر گرفتن یکی از مشخصه‌ها، به ازای مقادیر مختلف این مشخصه یک دسته یا گروه تشکیل می‌شود.

الگوریتم K-Means:
الگوریتم K-means در مقالات Sarasamma و Wei-Yi استفاده شده است [7] هر دو با استفاده از ابزار Wekaو مقدار K=10 یک مجموعۀ آموزشی ۱۶۹ هزار نمونه‌ای که به صورت تصادفی از مجموعۀ داده‌ی اصلی انتخاب شده است را ایجاد کرده‌اند. در این حالت دسته‌ها بیش‌ترین شباهت را به یکدیگر دارند، این روش با استفاده از ابزار Weka بررسی شده است و خروجی آن در ادامه مطرح می‌شود.

الگوریتم‌ Service Classifier:
در این حالت مجموعۀ آموزش و مجموعۀ آزمون هر دو بر اساس نوع سرویس بخش بندی می‌شوند، سپس به ازای هر سرویس یک درخت ساخته می‌شود، برای ایجاد یک رده‌بند سرویس از یک اسکریپت استفاده شده است که در کد مربوط به آن در پرونده prepare_dataset می‌باشد [8].
خروجی این مرحله دسته‌هایی است که هر یک سرویس ویژه‌ای را دارا هستند، برخی از سرویس‌ها که بر اساس آن دسته‌ها ایجاد می‌شوند عبارتند از:‌

HTML
SMTP
telnet
FTP
SSL

مولفه‌ی درخت تصمیم

واضح است که اگر سامانۀ تشخیص ناهنجاری را در شبکه قرار دهیم، این سامانه باید ترافیک را لحظه به لحظه دریافت و ضبط کند، سپس مرحلۀ پیش‌پردازش برای دادۀ ضبط‌شده به صورت کامل انجام شود که در همین مرحله استخراج ویژگی‌ها نیز صورت می‌گیرد و سپس داده به سمت موتور تشخیص ناهنجاری ارسال می‌شود. مهم‌ترین مرحله‌ای که در این‌جا از آن صحبت می‌کنیم و نتایج آزمایش روی آن انجام شده است، موتور تشخیص ناهنجاری است. معمولاً درخت‌های تصمیم که در این آزمایش‌ها تمرکز زیادی روی آن‌ها صورت گرفته است، در دو حالت دسته‌ای و افزایشی عمل می‌کنند. در حالت دسته‌ای آموزش در یک مرحله انجام می‌شود و درخت در این مرحله ساخته می‌شود، در روش افزایشی درخت به صورت برخط و با دریافت داده‌های تدریجی به صورت مستمر به‌روز می‌شود.

تشخیص ناهنجاری با درخت تصمیم ITI
پس از آموزش، یک درخت تصمیم دودویی ایجاد می‌شود. در این درخت دو کلاس "صفر" برای ترافیک عادی و "یک" برای ترافیک ناهنجار تعریف می‌شود. البته این رویکرد در درخت تصمیم ID3 نیز قبلاً پیاده‌سازی شده است.
درخت تصمیم ITI توسط Utgoff پیاده‌سازی شده است و به صورت یک ابزار جداگانه از طریق خط فرمان در دسترس است.
در ITI یک درخت تصمیم افزایشی یا دسته‌ای ساخته می شود، در حالت افزایشی هر نمونه به یک درخت کامل اضافه می‌شود و درخت بازسازی می‌شود، و در حالت دسته‌ای پس از بررسی همۀ نمونه‌ها، درخت کامل ایجاد می‌شود. رویکرد افزایشی از لحاظ هزینه معمولاً بهینه‌تر است.
استفاده از این الگوریتم به این صورت است که یک زیرمسیر شامل پروندۀ نام‌ها و پروندۀ داده ایجاد می‌شود،‌ این نوع استفاده از داده‌ها قالب C4.5 است که در برنامه‌های یادگیری ماشین مانند Wekaهم قابل استفاده است.
پروندۀ دارای پسوند names در سطر اول شامل تمامی برچسب‌های کلاس مجاز برای هر رکورد داده است. سطر اول با یک نقطه در انتهای آن تمام می‌شود. در سطرهای بعدی به ترتیب نام هر ویژگی با نوع آن مشخص می‌شود که باز هم انتهای هر سطر با نقطه مشخص خواهد شد. برای درخت تصمیم ITI نیازی به مشخص کردن نوع متغیر ویژگی نیست.
پروندۀ دیگر با پسوند data شامل داده‌ها است. این پرونده در هر سطر شامل یک نمونۀ واقعی است. هر جفت متغیر/ مقدار با یک کاما از جفت بعدی جدا شده است و در انتها نام برچسب کلاس قرار دارد. اگر از علامت سؤال در برچسب استفاده شده باشد یعنی مقدار کلاس این نمونه مشخص نیست .
برنامۀ ITI پس از مشخص کردن مسیر پرونده‌ها، نصب و اجرا می‌شود، این برنامه از طریق خط فرمان در دسترس است. این ابزار از وب‌گاه اصلی قابل دریافت است.

نتایج آزمایش

در این آزمایش ابتدا مجموعۀ دادۀ‌ اصلی به صورت تصادفی مرتب شد و ۱۶۹ هزار نمونه از آن انتخاب شد که به عنوان مجموعۀ آموزش به رده‌بندها ³ وارد می‌شود.
اولین آزمایش با استفاده از درخت تصمیم ITI انجام شده است، در ابتدا مجموعۀ داده بر اساس نوع سرویس تقسیم شده است، و به ازای هر سرویس، یک درخت آموزش داده شده است. مولفه‌ی دسته‌بندی مجموعه داده‌ی آموزش و آزمون، از الگوریتم Service Classifier استفاده کرده است. این رده‌بندی باعث می‌شود با دریافت نمونه‌های جدید که بر اساس نوع حمله است، می‌تواند به خوبی بر اساس نوع سرویس درخت مناسب را پیدا کند. استفاده از خوشه‌بندی اگرچه در این آزمایش مدنظر نبوده، اما پس از بررسی به علت کند بودن بیش‌از حد، حذف شده است.


نوع حمله	نرخ نمونه در مجموعۀ آزمون	درخت ITI	ITI+SC	ITI+K-Means
U2R	۲۲۸	۷۸٫۳۶٪	۶۷٫۴۵٪	۲۵٪
R2L	۱۶۱۸۹	۱۸٫۱۲٪	۲۱٫۰۹٪	۱٫۵۶٪
PROBE	۴۱۶۶	۹۴٫۶۷٪	۹۵٪	۸۰٫۴۶٪
Normal	۶۰۵۹۳	۹۸٪	۹۸٫۳۲٪	۹۹٪
DoS	۲۲۹۸۵۳	۹۴٫۹۳٪	۹۷٪	۹۵٪
نرخ دقت کلی	مجموع: ۳۱۱۰۲۹	۹۱٫۴۷٪	۹۳٫۲۲٪	۹۰٫۶۵٪
تشخیص اشتباه		۲٫۰۶٪	۱٫۹۳٪	۰٫۴۵٪

همان‌طور که مشاهده می‌شود، اگر از مولفه‌ی Service Classifier استفاده شود، پاسخ‌های بهتری در حملات R2L که سخت‌ترین نوع ناهنجاری هستند، به دست می‌آید. تشخیص داده‌های هنجار، در الگوریتم K-Means بهتر است، دلیل اصلی این مسئله‌ شباهت زیاد داده‌های هنجار و به طور کلی رفتار عادی شبکه است که در دسته‌ی نرمال به خوبی مدل می‌شوند، اما مشاهده می‌شود استفاده از الگوریتم‌های خوشه‌بندی در تشخیص ناهنجاری عملکرد بسیار ضعیفی دارد. به همین دلیل هم روش رده‌بندی بر اساس سرویس در گام‌های بعدی پروژه نیز لحاظ خواهد شد.

بهبود روش‌های مطرح‌شده

برای بهبود روشی که در مرحله‌ی قبلی بررسی شد، از منبع دیگری استفاده شده است. در پژوهش [11] محققان با هدف بهبود روش‌های تشخیص نفوذ، از روش کاهش ویژگی‌ها در رده‌بند استفاده کرده‌اند. برای استفاده از ایده‌ی این پژوهش‌گران در یک سامانه‌ی تشخیص ناهنجاری باید مولفه‌ای قبل از مولفه‌ی دسته‌بندی اضافه شود که ویژگی‌های مهم را استخراج کند.

انتخاب مهم‌ترین ویژگی‌ها، در این مقاله با استفاده از information gain به دست می‌آید. در این روش، هر یک از ویژگی‌ها بر اساس تعداد مقادیر مجاز خود دسته‌بندی می‌شوند. از آن‌جایی که مقادیر در مجموعه‌‌داده‌ی KDD99 به صورت گسسته است، این روش ممکن است، در صورتی که هر یک از ویژگی‌ها مقادیر پیوسته داشته باشند به راحتی مقادیر را در بازه‌های مجاز قرار می‌دهیم و فرمول‌های میزان اطلاعاتی که هر ویژگی به ما می‌دهد را محاسبه می‌کنیم. فرآیند کلی روش آبشاری بهبود یافته قابل مشاهده است:‌

انتخاب ویژگی‌ها بر اساس Information Gain

روش مذکور نسبتاً ساده است، در این روش ابتدا با داشتن تمام مجموعه‌داده‌ی آزمایشی، با داشتن برچسب کلاس، تعداد برچسب هر کلاس را می‌شماریم و مطابق فرمول زیر اطلاعات کل این مجموعه‌داده را محاسبه می‌کنیم:

گفتنی است اگرچه در مجموعه‌داده‌ی KDD99 چندین نوع حمله به تفکیک مشخص شده است، اما در این نوع روش تشخیص دو کلاس هنجار و ناهنجار وجود دارد، بنابراین به دست آوردن اطلاعات بسیار ساده خواهد شد.
در مرحله‌ی بعدی به ازای هر ویژگی و بر اساس مقادیر مجاز تعریف‌شده، (مانند فرمول مطرح‌شده در بالا، با این تفاوت که به جای هر کلاس، مقدارهای مجاز برای ویژگی درج می‌شود)، مقدار اطلاعاتی که هر ویژگی تولید می‌کند را محاسبه می‌کنیم، سپس مقدار دریافتی یا Gain هر ویژگی از فرمول زیر محاسبه می‌شود:

در نهایت مقدار Gain برای ویژگی‌ها مرتب می‌شود، و دوازده ویژگی‌ برتر انتخاب می‌شوند. گفتنی است ویژگی سرویس که ساخت درخت بر اساس آن شکل می‌گیرد، Gain بالایی دارد، و نشان می‌دهد رده‌بندی داده‌ها بر اساس این ویژگی بی‌اساس نیست.


ردیف	نام ویژگی	Gain
۱	src_byte	۰٫۹۳۹۹۳۵
۲	service	۰٫۸۳۲۵۹۷
۳	count	۰٫۸۰۷۷۵۱
۴	dst_byte	۰٫۷۸۱۹۴۵
۵	logged_in	۰٫۵۸۲۹۸۲
۶	dst_host_srv_diff_host_rate	۰٫۴۴۱۰۵۸
۷	dst_host_diff_srv_rate	۰٫۴۲۱۸۸۹
۸	dst_host_count	۰٫۴۰۴۱۰۹
۹	srv_count	۰٫۳۶۵۵۶۹
۱۰	flag	۰٫۳۲۸۱۱۲
۱۱	dst_host_serror_rate	۰٫۳۰۶۳۲۸
۱۲	dst_host_srv_serror_rate	۰٫۳۰۴۹۵۸

پس از انتخاب ویژگی‌ها مناسب، نوبت به استفاده از رده‌بند سرویس‌ها می‌باشد که مانند معماری اولیه است، پس از آن به ازای هر سرویس یک پرونده حاوی داده‌های هر سرویس ایجاد می‌شود و به ازای هر پرونده یک درخت تصمیم ایجاد می‌شود.

درخت تصمیم J48

در مقالاتی که بررسی شد، دو درخت تصمیم ITI و ID3 به عنوان رده‌بندی نهایی مورد استفاده قرار گرفت. در آزمایش‌های صورت‌گرفته مشخص شد درخت تصمیم C4.5 که در ابزار Weka با عنوان الگوریتم J48 پیاده‌سازی شده است، پاسخ‌های بهتری تولید می‌کند. این درخت تصمیم ارتقاء یافته‌ی درخت تصمیم ID3 است، در هر مرحله‌ی ساخت درخت تصمیم، J48 ویژگی را انتخاب می‌کند که با بیش‌ترین دقت می‌تواند داده‌ها را بر اساس مقادیر مجاز این ویژگی تقسیم کند. این درخت تصمیم چند ویژگی مهم دارد:

توانایی مدیریت ویژگی‌ها با مقادیر مجاز پیوسته، برای این‌کار بازه و حد آستانه برای ویژگی‌ها تعریف می‌شود
توانایی مدیریت داده‌های آموزشی که برخی ویژگی‌ها در آن‌ها لحاظ نشده است ⁴
هرس شدن درخت در انتهای کار، این الگوریتم در حالت دسته‌ای پس از تولید درخت به سمت بالا حرکت می‌کند و شاخه‌هایی که در دسته‌بندی کمک زیادی نمی‌کنند را با یک برگ جایگزین می‌کند.

آزمایش‌های انجام‌شده برای درخت تصمیم J48 با استفاده از ابزار وکا صورت گرفته است و نرخ تشخیص به صورت زیر محاسبه شده است:


نوع حمله	نرخ نمونه در مجموعۀ آزمون	SC+J48
U2R	۲۲۸	۸۴٫۴۰٪
R2L	۱۶۱۸۹	۵۲٫۷۹٪
PROBE	۴۱۶۶	۹۷٫۰۳٪
Normal	۶۰۵۹۳	۹۹٫۶۴٪
DoS	۲۲۹۸۵۳	۹۶٫۳۳٪
نرخ دقت کلی	مجموع: ۳۱۱۰۲۹	۹۴٫۶۹٪
تشخیص اشتباه		۱٫۰۵٪

برای انجام آزمایش‌ها مانند مرحله‌ی قبل در اسکریپت prepare_dataset برچسب مربوط به حمله را به یکی از ۴ دسته‌ی حمله یا نرمال تبدیل می‌کنیم. این کار را می‌توان حذف کرد و در نتیجه‌ها با شمارش و سپس تبدیل برچسب هر حمله به یکی از دسته‌ها نیز انجام داد.
همان‌طور که به مشاهده می‌شود، درخت تصمیم J48 در تمام دسته‌ها خصوصاً دسته‌ی حملات پیچیده‌ی U2R موفق عمل کرده است. در نموداری که در ادامه آورده می‌شود، داده‌های هر چهار آزمون به صورت گرافیکی با یکدیگر مقایسه شده‌اند:

همان‌طور که در نمودار نیز مشخص است، هنوز نرخ اشتباه در روش K-means بسیار بهتر است، اما نرخ دقت کلی در روش درخت تصمیم J48 به مراتب از سایر روش‌ها بهتر است.

کارهای آینده

در آینده با توجه به مرجع [12]، مولفه‌ی اول که تاکنون توسط روش information gain انجام می‌شده است، با استفاده از الگوریتم ژنتیک انجام خواهد شد. پیاده‌سازی روش information gain به دلیل استفاده از فرمول با یک اسکریپت بَش انجام شده است، اما پیاده‌سازی الگوریتم ژنتیک برای انتخاب ویژگی‌ها به زمان بیش‌تری نیاز دارد.
هم‌چنین استفاده از درخت‌های تصمیم در حالت افزایشی به دلیل پیچیدگی‌های مربوط به انتخاب پنجره‌ی زمانی مناسب، پاسخ مناسبی تولید نکرده است که در ادامه با بررسی دقیق‌تر پنجره‌های زمانی یادگیری جریانی با استفاده از درخت‌های تصمیم افزایشی بررسی و پیاده‌سازی می‌شود. یادگیری جریانی یکی از چالش‌های بسیار مهم در حوزه‌ی یادگیری ماشین است.
در آخر نیز از آن‌جایی که به ازای هر دسته یک بار الگوریتم یادگیری درخت صدا زده می‌شود، باید این روند با استفاده از یک اسکریپت خودکار شود.

مراجع

[1] Kabiri, Peyman, and Ali A. Ghorbani. "Research on Intrusion Detection and Response: A Survey." IJ Network Security 1.2 (2005): 84-102.
[2] P.Garcia-Teodoro, J.Diaz-Verdego,G.Macia-Fernandez, E.Vazquez. "Anomaly-based network intrusion detection techniques, systems and challenges". Computers & Security Volume28, issue 1-2, (2009): 18-28.
[3] Este´vez-Tapiador JM, Garcı´a-Teodoro P, Dı´az-Verdejo JE. "Anomaly detection methods in wired networks: a survey and taxonomy". Computer Networks (2004):27(16):1569–84.
[4] Bridges S.M., Vaughn R.B. "Fuzzy data mining and genetic algorithms applied to intrusion detection". In: Proceedings of
the National Information Systems Security Conference; (2000):13–31.
[5] Li W. "Using genetic algorithm for network intrusion detection". C.S.G. Department of Energy; (2004): 1–8.
[6] Monowar Hussain Bhuyan1, D K Bhattacharyya1 and J K Kalita2. "Survey on Incremental Approaches for Network Anomaly Detection". International Journal of Communication Networks and Information Security (IJCNIS),Vol. 3, No. 3,(2011) .
[7]Suseela T. Sarasamma and Qiuming A. Zhu. "Min–Max Hyperellipsoidal Clustering forAnomaly Detection in Network Security". IEEE TRANSACTIONS ON SYSTEMS, MAN, AND CYBERNETICS, AUGUST (2006),VOL. 36, NO. 4.
[8]Wei-Yi Yu and Hahn-Ming Lee. "An Incremental-Learning Method for Supervised Anomaly Detection by Cascading Service Classifier and ITI Decision Tree Methods ". Department of Computer Science and Information Engineering National Taiwan University of Science and Technology Taipei, 106, Taiwan, R.O.C ,(2009)
[9] Mahbod Tavallaee, Ebrahim Bagheri, Wei Lu, and Ali A. Ghorbani. "A Detailed Analysis of the KDD CUP 99 Data Set".Proceedings of the 2009 IEEE Symposium on Computational Intelligence in Security and Defense Applications (CISDA 2009)
[10] Gaddam, Shekhar R., Vir V. Phoha, and Kiran S. Balagani. "K-means+ id3: A novel method for supervised anomaly detection by cascading k-means clustering and id3 decision tree learning methods." Knowledge and Data Engineering, IEEE Transactions on 19.3 (2007): 345-354.
[11] Jain, Y. Kumar. "An Efficient Intrusion Detection Based on Decision Tree Classifier Using Feature Reduction." International Journal of Scientific and Research Publications, Volume 2, Issue 1, January (2012)
[12] Senthilnayaki, B., K. Venkatalakshmi, and A. Kannan. "An intelligent intrusion detection system using genetic based feature selection and Modified J48 decision tree classifier." _Advanced Computing (ICoAC), 2013 Fifth International Conference on. IEEE, (2013)
[13] Denning ED. "An intrusion-detection model"". IEEE Transactions on Software Engineering 1987;13(2):222–32.
[14] Dewan Md. Farid , Mohammad Zahidur Rahman. "Anomaly Network Intrusion Detection Based on Improved Self Adaptive Bayesian Algorithm" JOURNAL OF COMPUTERS, VOL. 5, NO. 1, JANUARY 2010

پیوندهای مفید

Intrusion Detection System
Cascaded Classification
Classifiers
Missing attribute values

ارزیابی آشنایی با مساله 1393/08/17

سعید عادل مهربان

مقدّمه در حد قابل قبولی هست ولی این موارد رو برطرف بکنید بهتر هم خواهد شد:

لطفاً مباحث مربوط به روش‌های مختلف مثل یادگیری ماشین و الگوریتم ژنتیک رو از مقدّمه بردارید و بگذارید تو قسمت مطالعات مرتبط. و البتّه فراموش نکنید که دسته‌بندی‌های ارائه‌شده باید هم با جزئیات بیشتر و هم کامل‌تر پوشش داده بشوند.
به صورت کلّی شکل‌ها و جدول‌ها رو باید با عدد ارجاع داد. «شکل زیر» خوب نیست.
بعد از شکلی که در ابتدای مقدّمه آوردید در مورد بلوک‌های A، E و ... صحبت می‌کنید که در شکل مشخّص نیستند.
وقتی از حروف اختصاری استفاده می‌کنید در مرتبهٔ اوّل باید اون‌ها رو در پاورقی به صورت کامل بیارید.
هیچ ارجاعی در متن شما دیده نمی‌شه و این برای کار علمی اصلاً خوب نیست. مخصوصاً در بخش‌های مقدّمه و مطالعات مرتبط که دارید در مورد کارهای دیگران صحبت می‌کنید.
یک تعداد مشکل نگارشی مثل «کاراکتر اشتباه برای نیم‌فاصله» یا «اعداد انگلیسی در متن فارسی» و ... دارید که اگر خودتون هم متن رو بخونید حتماً می‌بینیدشون.
در کل خسته نباشید. امیدوارم در قسمت مطالعات مرتبط یک متن قوی با ساختار خوب ببینیم.

ارزیابی مطالعه کارهای مرتبط 1393/09/15

تایید شده

با سلام
به نکاتی چند که به نظر بنده در متن رعایت نشده بود اشاره می کنم؛
-برخی از جملات بسیار سنگین و طولانی بود و گاهی تعدد موصوف هایی که برای یک کلمه آورده شده بود ذهن را از درک مفهوم اصلی جمله باز می داشت. مانند "با توجه به توانایی های تضمین شدۀ سیستم های تشخیص نفوذ در شبکه بر مبنای ناهنجاری". هر چند در برخی از موارد نویسنده واقعا ناگزیر به استفاده از آنها بوده است.
-جمله ی "یک ویزگی این روش این است که دادۀ تعیین شده باید مدل رفتاری را یاد بگیرد" به ظاهر اشتباه است. داده چیزی را یاد نمی گیرد!
-الگوریتم ژنتیک عضوی از الگوریتم های اکتشافی محلی هستند که به غلط در متن آمده "الگوریتم های ژنتیک در جستجوی اکتشافی عمومی دسته بندی می شوند".
-اگر در قسمت مقدمه، مرجع جملات ذکر می شد اطمینان خواننده به متن بیشتر می شد.
از ویژگی های خوب این پروژه می توان به دسته بندی های خوبی که در خلال متن صورت گرفته بود و همچنین تبیین مناسب و روشن کارهای مرتبط اشاره نمود. بعلاوه شکل های مناسبی که در متن استفاده شده بود کمک زیادی به درک بهتر مفاهیم مورد نظر می کرد.

با وجود کلّی بودن عنوان، از شما انتظار می‌رود سمت و سوی پژوهش را در خلال گزارش مشخّص کنید و رفته رفته به دستهٔ خاصّی از پژوهش‌های این زمینه متمایل شوید. در نهایت شما باید خواننده را قانع کنید روشی که برای انجام آزمایش‌ها انتخاب می‌کنید، به صورت تصادفی برگزیده نشده است. در حال حاضر آن‌چه تحت عنوان کارهای مرتبط در این گزارش مشاهده می‌شود، با ذکر تاریخچه‌ای از تشخیص نفوذ شروع می‌شود، آن هم نه به صورتی که نشان دهد چرا تشخیص نفوذ این سیر را پیموده و جایگاه تشخیص ناهنجاری در این سیر چیست. بعد از آن دسته‌بندی سیستم‌های تشخیص نفوذ ارائه شده است. دسته‌بندی کاملاً قابل قبول و مناسبی که البتّه هیچ مرجعی برای آن ذکر نشده و به نظر نمی‌رسد بتوان آن را از بخش کارهای مرتبط این گزارش استخراج نمود.
در خصوص گزارش‌های موردی، آیا پژوهش‌هایی که شما بدان اشاره کرده‌اید در تاریخ تشخیص ناهنجاری تأثیرگذار بوده‌اند؟ آیا جهت‌گیری پژوهش‌هایی که بین سال‌های ۱۹۹۵ تا ۲۰۱۴ انجام شده‌اند به این سه پژوهش وابسته‌اند؟
برای گزارش‌های موردی جدید نیز شما دلیلی برای انتخاب این سه پژوهش ارائه نکرده‌اید. در واقع حتّی انتخاب «سه» گزارش نیز توجیه نشده است. شاید در سال ۱۹۹۵ تعداد پژوهش‌های این حوزه کم باشد و انتخاب «سه» تا از آن‌ها کافی به نظر برسد، امّا گوگل می‌گوید در سال ۲۰۱۴ چیزی در حدود ۷۶ گزارش علمی وجود دارد که در عنوان آن‌ها کلمات «تشخیص ناهنجاری» و «شبکه» به چشم می‌خورد. پس شما باید دلیلی قانع‌کننده برای ارائهٔ این سه گزارش که از روش‌های بیزین و ژنتیک استفاده کرده‌ند داشته باشید. شاید بهتر بود تمرکز خود را بر روش‌های مبتنی بر ژنتیک قرار داده و موضوع را کمی عمیق‌تر در این حوزه بررسی می‌کردید. ضمن آن که هیچ یک از این روش‌ها با جزئیات بیان نشده‌اند. یعنی خواننده از جزئیات این روش‌ها باخبر نمی‌شود و تنها می‌فهمد که یک روش ژنتیک خطا را کم کرده و ایضاً یک روش بیزین هم چنین دستاوردی داشته است. امّا اینکه چرا این روش‌ها کارایی را بهبود داده‌اند بر ما پوشیده مانده است.
در خصوص متن گزارش، علاوه بر شکل مربوط به دسته‌بندی که مرجعی برای آن ذکر نشده، مراجع شما در قسمت مربوطه وجود ندارند. در متن هم شیوهٔ ارجاع را رعایت نکرده‌اید.
توصیه می‌کنم پیوستگی متن خود را بین بخش‌های مقدّمه و کارهای مرتبط بررسی کرده و آن را مورد بازبینی قرار دهید. با توجّه به فعّالیّت شما در مرحلهٔ قبل، در این مرحله انتظار بیشتری وجود داشت.
در نهایت امیدوارم در مراحل بعدی نقص‌های این مرحله را جبران کنید.

ارزیابی گزارش نتایج آزمایش 1393/10/13

متأسّفانه حس ناهمگونی که در فاز قبل در کار شما وجود داشت در این مرحله با انتخاب روش‌های درخت تصمیم بیشتر شده است. در انجام آزمایشات، شما صرفاً از ابزار وکا استفاده کرده و چیزی را پیاده‌سازی نکرده‌اید. ضمن اینکه خواننده تقریباً از جزئیات درخت تصمیم ITI بی‌اطّلاع می‌ماند. پس بی‌دلیل نیست که گزارش نتایج صرفاً به یک جدول و چند عدد محدود می‌شود و تحلیلی ذیل آن به چشم نمی‌خورد.

از دیتاست خوبی استفاده شده بود ولی بهتر بود از منابع جدیدتری استفاده می کردید.
منابع تصاویر و جملاتی که در متن استفاده کرده اید را مشخص کنید.

در ابتدا باید ذکر کنم اثر ترجمه در جای جای متن کاملا محسوس است. نکته جالب عدم نوشتن واژه اصلی به عنوان پاورقی برای معادل های استفاده شده است. این موضوع سبب شده متن به خصوص قسمت مقدمه خوب درک نشود. به نظرم اصلا میلی به نوشتن پاورقی نداشتید.
بخش مقدمه برای من نامفهوم بود و نتوانستم مشکل را به خوبی متوجه بشوم. در مورد معماری پیشنهاد شده نیز توضیحات گنگ بود.
در ذکر منابع بسیار ضعیف عمل کردید و در متن کمتر منابع ذکر شده اند.
بخش کارهای مرتبط قابل قبول بود.
توقع داشتم در مورد انواع حملات مطرح شده توضیح مختصری ارائه می کردید.
در کل به نظرم نمره ۳ برای این کار مناسب است

ارزیابی بهبود نتایج و تکمیل گزارش 1393/11/14

رد شده

متن و پروژه اي كه شما كار كرده ايد خيلي جامع و كامل مي باشد متني روان با توضيحات به جا و كامل ولي شايد براي بنده كه اطلاع زيادي در رابطه به ناهنجاري هاي شبكه ندارم تعدادي از اصطلاحات نامفهوم مي باشد. اين همه زحمت كشيده شده شايد با نوشتن فرمول ها به جاي استفاده از عكس تكميل مي شد. رفرنس دهي نيز بسيار خوب انجام شده بود. در نهايت از زحمات زيادي كه براي اين پروژه كشيده شده است تشكر مي كنم.

با سلام و خسته نباشید
بهتر است مراجع به ترتیب حضور در مقاله تان شماره گذاری شوند، همچنین پیشنهادی برای بهبود نداده اید ولی در مجموع کار خوبی ارائه داده اید

با عرض پوزش، پروژه شما قبلا توسط کمک استاد مربوطه ارزیابی شده است و نقد بنده بررسی نخواهد شد، موفق باشید

سلام، خسته نباشید.
نسبت به مرحلهٔ قبل، شاهد گزارش بهتری هستیم. غلط‌های املایی کمی در کار شما به چشم می‌خورد و این یک نقطهٔ قوّت برای آن به شمار می‌رود. اضافه شدن شکل‌ها به فهم مطالب کمک شایانی می‌کند و آزمایش‌های بیشتر امکان مقایسه را فراهم می‌کنند. امّا:
مقدّمه هم‌چنان چیزی بیشتر از مقدّمه است. به نظر می‌رسد برای نقدهای مراحل قبل اهمّیّتی قائل نشده‌اید.
هم‌چنان بخش کارهای مرتبط و آزمایش‌ها ارتباطی با یکدیگر ندارند.
در گزارش گفته‌اید که عملکرد یک سامانهٔ تشخیص نفوذ با بررسی نمونه‌های نفوذ که تا به حال دیده نشده‌اند صورت می‌پذیرد و به همین دلیل تعداد نمونه‌های حمله افزایش یافته است، که صحیح نیست.
نکتهٔ دیگر عدم توجّه شما به «تشخیص ناهنجاری» در آزمایش‌های شماست! نکتهٔ اصلی مقولهٔ تشخیص ناهنجاری، عدم استفاده از نمونه‌های حمله در آموزش است. در غیر این صورت مسئله با تشخیص نفوذ تفاوتی نخواهد داشت. در تشخیص ناهنجاری، هدف شناسایی حملات با توجّه به نمونه‌های خودی است بنابراین با استفاده از نمونه‌های حملات در مرحلهٔ آموزش، دیگر مسئله تشخیص ناهنجاری نخواهد بود!
آخرین نمودار شما نیز برای محور عمودی دارای دو برچسب است که به نظر می‌رسد با رنگ‌های مختلف سعی بر تمایز آن‌ها داشته‌اید. ثبت دو نمودار با مقیاس‌های متفاوت در یک شکل به هیچ وجه قابل قبول نیست.

سلام
خسته نباشید
مقداری قسمت تعریف مسئله ی مقدمه غیرواضح بود
برخی مشکلات نگارشی در متن دیده می شد که بهتر است رفع شود.
در بخش کارهای مرتبط اینک همگام با تاریخچه و در قسمتی به صورت دسته بندی شده کارهای مرتبط را معرفی کرده اید کار جالبیست اما بهتر بود همراه با معرفی، ارجاع هم میدادید
در بخش آزمایش ها اگر تعریف مسئله و روش آزمایش را با هم ادغام میکردید یکپارچگی متن بیشتر می شد.
بهتر بود جاهایی که روش شما در تشخیص اشتباه میکند یا جاهایی که در تشخیص قویست را به نحوی مشخص می کردید.
مقایسه ی روش ها که در من قرار داده اید قابل مشاهده نیست
در کل تلاش خوبی صورت گرفته است

با سلام و عرض خسته نباشید نکات زیر مطرح است
۱- مقدمه برای فهم موضوع است و باید ساده باشد به نظر بنده مقدمه سادگی لازم را نداشت
۲- نوشتار شما نظم کافی را نداشت بسیاری از چیزهایی که می‌توانستید در کارهای مرتبط توضیج بدهید را در جاهای دیگر توضیح داده بودید
۳- بخش آزمایش ،نتایج و بهبودها از دو بخش دیگر خیلی بهتر بیان شده بود
۴- کدی را که گرفته بودید نتایج اجرای آن را بر روی کامپیوتر خود بیان کرده‌بودید یا اینکه نتایج نیز از مقالات آورده شده‌بود
۵- بخش کارهای آینده به خوبی بیان شده‌بود
۶- عکس‌های شما بسیار کمک‌کننده بود و از نقاط قوت کارتان است
۷- بعضی اصطلاحات را بهتر بود ترجمه‌ی فارسی آنها را استفاده می‌کردید و لاتین آنرا در انتها می‌آوردید.
به هر حال تشکر می‌کنم و آرزوی موفقیت دارم

تشخیص ناهنجاری در شبکه