رده‌بندی موضوعی متن

تغییرات پروژه از ابتدا تا تاریخ 1394/08/30


در رده‌بندی متون هدف این است که سندهایی را که در اختیار داریم بتوانیم برچسب‌گذاری موضوعی کنیم. در واقع این موضوع صرفا یک مسئله با ناظر است، یعنی مجموعه‌ای از اسناد متنی که گروه‌بندی موضوعی شده‌اند به عنوان داده‌ی آموزشی در اختیار سامانه قرار می‌گیرد تا بتواند با یادگیری از این مجموعه، اسناد جدید ورودی را به یکی از این گروه‌های موضوعی ملحق نماید.
در این پژوهش روش‌های مختلف رده‌بندی اسناد متنی مورد بررسی قرار گرفته و برای زبان فارسی پیاده‌سازی می‌شوند.
1- **مقدمه**:
در دوران  معاصر دانش به عنوان یک فاکتور کلیدی در سازمان های جدید برای رقابت های سالم به شمار می آید. دستبابی به موفقیت در این رقابت، مستلزم یافتن اطلاعات مفید در زمانی مناسب است. از طرفی گسترش روز افزون دانش و تکنولوژی بشر، باعث افزایش اطلاعات در دسترس شده است . این موضوع حتی در سالهای گذشته نیز مشهود بوده است به طوری که به طوروسیعی از روش های آماری و یادگیری ماشین[^1]   برای دسته بندی متون استفاده شده است. البته توجه به این نکته ضروری است که تنها خود اطلاعات کافی نیست؛بلکه قابلیت مدیریت و اعمال نفوذ بر این اطلاعات به صورت موفق،ازاهمیت بالایی برخوردار است [1 ].
دسته بندی متون[^2]، اگرچه که از سال 1960 میلادی به بعد مورد مطالعه قرار گرفته است؛ ولی با شروع دهۀ 90به لطف پیشرفت های نرم افزاری و سخت افزاری ،  پیشرفت چشمگیری داشته است. امروزه مساله برچسب زنی موضوعی متون در حوزه بازیابی اطلاعات وتحلیل داده های آماری، امری مهم و کاربردی به شمار میرود. انتساب اسناد متنی به دسته های از پیش تعیین شده به منظور دسته بندی اتوماتیک و خودکار متون در ده سال اخیر تمام توجهات را به خود جلب کرده است. مقصود از طبقه بندی یا دسته بندی خودکار متون این است که این رده بندی ، در زبان طبیعی و با استفاده از یادگیری ماشین صورت  می گیرد ؛
حال آنکه روش اصلی در جامعه تحقیقاتی در این زمینه می باشد .در یادگیری ماشین ، معمولا سیستم این گونه یادگیری را انجام می دهد که  روی یک دسته از متون  از قبل  برچسب زنی  شده  آموزش  داده می شود وبعد از آن طبقه بندی یا classification متون جدید با استفاده از مدلهای  حاصل  از مرحلۀ آموزش، صورت می گیرد.

![شکل1 -  یادگیری ماشین](https://boute.s3.amazonaws.com/224-ML.png)

دسته بندی متون در بسیاری از زمینه ها از جمله فیلترکردن متون مخصوصا در نامه های الکترونیکی، تشخیص طبقه، ابهام زدایی از کلمات، سیستمهای خودکار پاسخ به سوالات و یا حتی نمره دهی به مقالات در سیستمهای آموزشی و به طور کلی در هر کاربردی که سازماندهی مستندات و یا توزیع انتخابی و تطبیقی خاصی ازمستندات مد نظر باشد، کاربرد دارد. همچنین برچسب زنی موضوعی  متون با مسائلی چون استخراج اطلاعات و دانش ازمتون و داده کاوی متون دارای ویژگی های فنی مشترک می باشد.
هدف این پروژه این است که روش های مختلف رده بندی اسناد متنی در زبان فارسی مورد بررسی قرار گیرد.
روشهای زیادی برای دسته بندی متون استفاده شده است که در جلوتر به آن میپردازیم.در یکی از این روش ها، از قواعد انجمنی  استفاده شده و آن را با قواعد دسته بندی3 ترکیب کرده اند ،  که باعث تولید مدلی با عنوان دسته بندی انجمنی4  برای استفاده در دسته بندی متون شده است[2][Yoon2007,Chen2005]
همچنین برای دسته بندی اسناد با استفاده از ناظر، ما نیاز به روشی برای یادگیری از روی مجموعه آموزشی داریم. اگر در یک فضای n بعدی ، اطلاعات مربوط به اسناد هر دسته را بوسیله نگاشت کردن اطلاعات ، نگهداری کنیم؛ در آن صورت میتوانیم اطلاعات بدست آمده از یادگیری ماشین را ذخیره کنیم که الگوریتم نزدیک ترین همسایه6 از این روش تبعیت می کند. و یا اگر که مجموعه احتمالات مربوط به اسناد و موضوعات که از اطلاعات بدست آمده در یادگیری ماشین به
وجود  آمده است ، را ذخیره کنیم ودر هنگامی که به آن اطلاعات نیاز داریم ، از این احتمالات برای دسته بندی اسناد جدید استفاده کنیم ؛ این خود نیز از روش های دیگر موجود برای نگهداری از اطلاعات بدست آمده از یادگیری می باشد.[3]
یکی از مشکلات موجود در دسته بندی متون و اسناد این است که گاهی محاسبات در حدی زیاد می شوند که در بعضی موارد برای بدست آوردن دسته بندی یک متن و یا یک سند ، از تقریب استفاده می کنیم و حال اینکه سوال اساسی اینجاست که آیا در الگوریتم های متفاوت،این تقریب های در نظر گرفته شده منجربه وقوع نتایج درست در آزمایشات ما می شود؟
از دیگر مشکلات در دسته بندی متون این است که اندازه و حد درست بودن دسته بندی اسناد جدید و یا قابل اطمینان بودن آنها را نمی دانیم.

1-1. شرح مساله
با گسترش سریع متون الکترونیکی که همراه با ساختارها و زبانهای متفاوتی بودند، توجه بسیاری از دانشمندان و محققان علوم کامپیوتر به استفاده از روش ها و تکنیک های بهینه و سریع برای دسته بندی متون الکترونیکی جلب شد و هم اکنون نیز تحقیق در این زمینه در راستای افزایش سرعت و دقت روش ها همچنان ادامه دارد.[4]
همانطور که در مقدمه اشاره شد،در جامعه تحقیقاتی ، روش اصلی در زمینه ی طبقه بندی خودکار و موضوعی اسناد و متون، روش های بر اساس یادگیری ماشین هستند. دسته بندی متن در واقع زیر شاخه ای از  متن کاوی [^7]    می باشد و متن کاوی هم زیر شاخه ای از علم داده کاوی[^8] می باشد.  برای دسته بندی متن از تکنیک های استخراج اطلاعات[^9]، پردازش زبان طبیعی[^10] و یادگیری ماشین به طور وسیع استفاده می شود. [Xia2007]
در تکنیک یادگیری ماشین، طبقه بندی کننده ها با استفاده از یادگیری از یک مجموعه ی مستندات از پیش طبقه بندی شده مشخصات دسته ی جدید را
معین می سازند. همچنین در مورد هر سند باید به این سؤال پاسخ داد که این سند در کدام دسته )یا دسته ها(  باید قرار گیرد. این موضوع می تواند در قالب یک یادگیری خودکارحل شود که ازآن به عنوان تکنیک یادگیری ماشین یاد می شود که یکی از شاخه های وسیع و پرکاربرد  هوش مصنوعی به شمار می رود.
برای ساختن طبقه بندی کننده ها ، نیاز به دانش مهندسی و زبان شناسی افراد خبره وجود دارد، اما اگر به جای استفاده از ماشین، طبقه بندی به صورت دستی انجام بگیرد ؛ علاوه بر صرف زمان و هزینه ی زیاد ، معایب زیر را به همراه خواهد داشت:
1-      برای زمینه های تخصصی خاص به دانش افراد خبره نیاز است؛ مانند: زمینه های پزشکی، مهندسی و غیره
2-    برچسب زنی موضوعی متون به صورت دستی مبتنی بر دانش و تجربۀ فرد می باشد، از این رو درصد خطاپذیری آن بسیار زیاد است. 
3-    تصمیم دو فرد خبره در عمل برچسب زنی موضوعی متون می تواند متفاوت و یا حتی ناسازگار باشد.
مساله ای که در حوزه ی پردازش زبان طبیعی با آن روبرو هستیم این است که صورتهای غیر استاندارد نویسه ها و کلمات به وفور در متونی که با این حوزه در ارتباط هستند ، دیده میشوند.قبل از اینکه بتوان از این متون برای استفاده در سیستم های جستجو در متون فارسی استفاده کردو یادرپایگاه داده  ذخیره شان کرد،بایدابتداپیش پردازشی روی آنهاانجامگیرد، تا صورت های غیراستاندارد به شکل استاندارد تبدیل گردند. طی فرآیند نرمال سازی در متون فارسی ، علایم نگارشی ، حروف، فاصله های بین کلمات، اختصارات و غیره بدون ایجاد تغییرات معنایی به شکل استانداردشان تبدیل می شوند ؛ چرا که اگر این علایم و حروف و کلمات فارسی به شکل یکسانی نوشته نشوند، متون مورد استفاده قابل تحلیل برای ماشین های رایانه ای نخواهد بود.
فازهای یادگیری ماشین برای طبقه بندی متن مطابق شکل 1 می باشد .همانگونه که در شکل مشاهده میشود، طی 5 فاز، سیستم یادگیری ماشین برای انجام طبقه بندی به کار گرفته میشود. این فازها عبارتند از:


(Preprocessing)– پیش پردازش
(Feature Generation) - تولید ویژگی
(Feature Selection) -  انتخاب ویژگی
(Data Mining/Pattern Discovery) –  اعمال الگوریتمهای داده کاوی / متن کاوی
(Interpretation /Evaluation) - تفسیر و ارزیابی

![شکل 2 - فازهای سیستم یادگیری ماشین برای طبقه بندی](https://boute.s3.amazonaws.com/224-phaz.png)


یادگیری ماشین دارای تقسیم بندی زیر براساس داده های در اختیار عامل هوشمند می باشد که عبارتست از:
1- ** یادگیری با نظارت[^11]**: مربوط به زمانی است که آموزش سیستم،  با استفاده از داده هایی که قبلا با جواب های درست برچسب گذاری شده اند، انجام پذیرد. برای آموزش سیستم، همانطور که گفته شد تعدادی داده ی ورودی در اختیارآن قرار می گیرد که این داده های خروجی مجموعه ای از جفت های ورودی- خروجی می باشد که سیستم در صدد فراگیری تابع های ورودی – خروجی بر می آید. 

2-**یادگیری نظارت نشده ** [^12] : زمانی این نوع آموزش بوجود می آید که سیستم ، با داده هاییکه هیچ گونه برچسب گذاری ندارند، یادگیری را انجام می دهد. به عبارت دیگر، یک مجموعه ای از مثالهای یادگیری وجود دارد که داری ورودی های مشخص اما خروجی های نامشخص می باشد.

3-**یادگیری نیمه نظارت شده ** [^13]: مجموعه ای از ترکیب دو روش قبلی ، که دارای داده های با برچسب [^14]  و بدون برچسب هست، را برای یاد گیری به سیستم آموزش می دهند.
4-**یادگیری تقویتی**[^15]: این نوع یاد گیری از حیث اینکه داده های مورد استفاده ماشین ، برچسب گذاری نمی شوند، دارای شباهت زیادی با نوع نظارت نشده می باشد.به جای آن،پس از گرفتن یک عمل، حالت بعدی و پاداش بلافصل به سیستم ارائه می شود. 
1-2.**رده بندی یا طبقه بندی موضوعی متن **:
طبقه بندی یعنی دﺳﺘﻪ ﺑﻨﺪی اﺳﻨﺎد ومتون ﺑﻪ ﮔﺮوه ﻫﺎﯾﯽ ﮐﻪ دارای وﺟﻪ ﻣﺸﺘﺮک ﺑﻮده که ﺑﺘﻮان ﺑﻌﺪا ﺑﺎ ﺗﻮﺟﻪ ﺑﻪ اﯾﻦ اﺷﺘﺮاک از آﻧﻬﺎ اﺳﺘﻔﺎده نمود.. اسناد ممکن است  بر اساس موضوع و یا براساس یک ویژگی دیگر مانند تاریخ سند رده بندی شوند . در رده بندی موضوعی اسناد ابتدا اسنادی با موضوع از پیش تعیین شده به عنوان نمونه برای یادگیری به ماشین داده می شود و ماشین با توجه به کلمات داخل هر سند به یادگیری می پردازد و با در نظر گرفتن احتمال وجود کلمات به پیش بینی موضوعی سندهای دیگر می پردازد. روشهای زیادی برای دسته بندی متون وجود دارد که هر کدام مزایا و معایب خاص مربوط به خود را دارند..این روش ها اغلب مبتنی بر شیوه های شناخته شده در یادگیری خودکار هستند ودر مسائل مختلفی از آنها استفاده می شود ، اما برخی به طور خاص برای حل مسئله دسته بندی به کار می روند.

**1-3. روش های دسته بندی اسناد و کارهای مرتبط**

در زمینه ی دسته بندی متون تا کنون روش های زیاد و مختلفی ارائه شده است ،از جمله : درخت های تصمیم گیری[^16] ، روش نزدیک ترین همسایه[^6] ، روش بیزین ساده [^17]، روش شبکه های عصبی[^18] ، ماشین های بردار پشتیبان[^19] و غیره .
1-    **روش ساده بیزی** :
این روش یک از پرکاربردترین روش در دسته بندی متون است . در این روش متن به صورت مجموعه های کلمات مستقل از یکدیگر و مستقل از محل قرار گرفتن در متن در نظر گرفته میشود [5] . تابع احتمال هر متن از حاصلضرب احتمال کلمات آن و احتمال رخداد متنی با آن طول بدست می آید . یادگیری سیستم بوسیله ی تخمین پارامترهایی برای تولید مدلی صورت می گیرد که فقط از متون برچسب دار استفاده میکند. الگوریتم از پارامترهای تخمین زده شده برای دسته بندی متون جدید با محاسبه ی اینکه کدام دسته بیشترین شباهت را با متن داده شده دارد،استفاده می کند.روش بیز یک مدل احتمالی ویژه برای متون در نظر میگیرد. این روش فرض می کند که لغات مستقل هستند که این فرض اجازه میدهد مدل تولیدی با تعداد بسیار زیادی پارامتر کاهش یافته نمایش داده شود.
کلاس یک سند متناسب با کلماتی است که در یک سند ظاهر می شوند که  در این روش برای تخمین کلاس سند از فرمول زیر
استفاده می­شود[6]
$$![file:///C:\Users\Vafaee\AppData\Local\Temp\msohtmlclip1\01\clip_image002.gif]$$
در این فرمول L نشان دهنده کلاس c و tها ترم­های موجود در یک سند هستند. این نکته قابل ذکر است که هر سند دقیقا به یک کلاس تعلق دارد. از
آنجا که برای همه کلاس­ها مساوی در نظر گرفته می­شود، می­توان این احتمال را از فرمول بالا حذف نمود و همچنین برای سادگی از فرض استقلال Na¨ıve  استفاده می­شود. طبق این فرض احتمال رخداد کلمات در یک سند مستقل از یکدیگر است. یعنی داریم:

$$![](file:///C:\Users\Vafaee\AppData\Local\Temp\msohtmlclip1\01\clip_image002.gif)$$

رده­ بندی کننده Na¨ıve یک گام learning __دارد که در آن احتمالات( P(t|L( تعداد اسنادی که در مجموعه آموزش شامل ترم _t_هستند و برچسب کلاسشان_L_ است تقسیم بر کل اسناد مجموعه آموزش) تخمین زده می شود. در گام رده ­بندی، احتمالات تخمین زده شده برای رده­بندی کردن یک نمونه جدید مطابق با قانون Bayes __استفاده می­شوند. برای کاهش تعداد احتمال­های _P(t|L)_ که باید تخمین زده شوند می­توان از روش­های انتخاب ترم ایندکس استفاده کرد. اگرچه این روش به علت فرض استقلالش تا حدی ممکنه فیر واقعی باشد اما در عمل نتایج خوبی از آن حاصل می­شود_(_Dumis_98, Joachims_98_)._
برچسب­گذاری کردن دستی اسناد مجموعه آموزش کار طاقت فرسایی است. برخی مقالات از اسناد برچسب­گذاری نشده برای مجموعه آموزش استفاده می­کنند.. فرض کنیم که از یک مجموعه آموزش کوچک به دست آمده است که کلمه _t_ همبستگی شدیدی با کلاس _L_ دارد. ممکنه از اسناد برچسب­گذاری نشده به دست آید که _t_ همبستگی شدیدی به _t_ دارد بنابراین می­توان نتیجه گرفت که _t_ یک پیشگو کننده خوب برای کلاس _L_ است. در این روش اسناد برچسب گذاری نشده، کاراییاین می کلاس وزش کوچک به دست آمده است که کلمه اما در عمل نتایج رده رده­بندی را بهبود می­بخشند.

![_شکل 3- روش ساده بیزی_ ](https://boute.s3.amazonaws.com/224-Biz.jpg)

2-  
**روش نزدیکترین همسایه**[^6**] :
به جای ساختن مدل­های صریح برای کلاس­های مختلف، راه دیگر اینست که اسنادی از مجموعه آموزش که مشابه به سند جاری هستند، انتخاب شوند و
کلاس سند جاری برابر با کلاسی است که اکثزیت اسناد مشابه دارند. در روش رده­بندی _K_ تا همسایه نزدیکتر،  _k_ تا سند از مجموعه آموزش که
بیشترین شباهت (بر اساس یک معیار شباهت تعریف شده) را به سند جاری دارند به عنوان همسایگان آن سند انتخاب می­شوند.
تعداد زیادی معیار شباهت در متن کاوی وجود دارد. یک روش ساده شماردن تعداد کلمات مشترک در دوسند است. این روش باید برای اسناد با طول مختلف نرمالایز شود. همچنین ممکنه کلماتی بیشتر منعکس کننده محتوای یک سند باشند. به عنوان یک روش استاندارد برای اندازه­گیری شباهت می­توان به شباهت کسینوسی اشاره نمود. برای اینکه کلاس سند _d_ مشخص شود، شباهت _S(d, d)_ برای همه اسناد _d_ در مجموعه آموزش محاسبه می­شود.
سپس _k_ تا از شبیه­ترین اسناد مجموعه آموزش به عنوان همسایه­های سند جاری انتخاب می­گردند و کلاس سند _d_ برابر با کلاسی است که اکثر سندهای همسایه آن دارای آن کلاس هستند. در این روش مقدار بهینه _k_ را می­توان از مجموعه آموزش دیگری به وسیله cross-validatio_n_ تخمین زد.
این روش رده بندی طبق مطالعات انجام شده [Joachims_98]__کارایی خوبی دارد. وتنها مشکل آن اینست که در طی رده­بندی محاسبات  زیادی
لازم است (محاسبه کردن شباهت یک سند با همه اسناد موجود در مجموعه آموزش).
![شکل 4- روش نزدیک ترین همسایه](https://boute.s3.amazonaws.com/224-KNNt.png)
3-**روش ماشین بردار پشتیبان[^19]**
 به عنوان یک الگوریتم رده ­بندی _نظارت شده_  برای رده ­بندی متن به کار می رود. معمولا  سند d به وسیله بردار     (t,….., t) از تعداد کلماتش نمایش داده می­شود.متن کاوی اینست که تنها به تعداد کمی از ترم یک SVM__می­توان فقط دو کلاس را جدا کند:
یک کلاس مثبت _L_ (توسط y = +1 نشان داده می­شود) و کلاس منفی L __(که با y = -1 نشان داده می­شود). در فضای بردارهای ورودی، یک hyperplane __با تنظیم کردن  __y = _0_ در زیر معادله خطی __ تعریف می­شود.
![](file:///C:\Users\Vafaee\AppData\Local\Temp\msohtmlclip1\01\clip_image002.gif)

دسته بندی متون با روشهای مختلف برای زبان انگلیسی صورت گرفته است.  
Liu  و  Yangدر سال 1999 دسته بندی متون را با استفاده از بردارهای فراوانی ریشه کلمات انجام دادند[7]  Joachims در سال 1998 دسته بندی متون را با استفاده از ماشین بردار پشتیبان انجام داد[8]. Bellegarda در سال 2000 روش آنالیز معنایی پنهان (LSA) را برای دسته بندی به کار برد.[9] Gedeon
و Wood در سال 2001 از شبکه های عصبی هیبرید به منظور دسته بندی متون استفاده کردند.[10] در همین سال Torkolla آنالیز تمایزی خطی را در دسته بندی به کارگرفت.[11] Blei و همکاران در سال 2003 روش « تخصیص دیریکلۀ پنهان » (LDA) را برای مدلسازی متون پیشنهاد دادند و از آن در دسته بندی متون نیز استفاده کردند[12]  در سال 2005 نیز Guandong و همکاران روش تحلیل معنایی پنهان احتمالاتی (PLSA) را برای دسته بندی صفحات وب به کارگرفتند.[13]

تحقیقات انجام شده در زمینه دسته بندی متون برای زبان فارسی تا کنون بسیار اندک بوده است. عرب سرخی و فیلی یک روش دسته بندی با استفاده از بردارهای فراوانی ریشۀ کلمات والگوریتم بیزین ساده پیشنهاد داده اند. سپس آنها با ترکیب روش بیزین با ایدة نگهداری کلمات همنشین، روش خود را بهبود بخشیدند.[14] حاجی حسینی و الماس گنج نیز یک روش بانظارت برای دسته بندی متون فارسی با استفاده از تحلیل معنایی پنهان  LSAپیشنهاد دادند..
روش  (LSA) بردارهایی را در یک فضای برداری کاهش یافته برای هر متن در اختیار قرار میدهد. با استفاده از این بردارها آنها از روش شبکۀ عصبی برای آموزش
دسته بند و تعیین دستۀ مربوط به متون جدید استفاده کردند.[15] 
پیله ور و همکاران، با استفاده از یادگیری چندی سازی برداری دسته بندی مستندات متنی فارسی را از روی پیکرة همشهری انجام دادند.[16] 
در مقاله ای دیگر فرهودی و یاری، با استفاده از روش بهره جویی از گنج واژه و انتخاب ویژگی دو مرحله ای به دسته بندی متون فارسی پرداخته اند.[17]

1-4**. روش های طبقه بندی متون فارسی**

روش پیشنهادی برای طبقه بندی متون فارسی بر اساس روش یادگیری ماشین استوار است. در روش یادگیری ماشین، دو فاز آموزش و آزمون وجود دارد . در فاز آموزش دسته های از قبل مشخص شده ای را برای یادگیری ماشین استفاده می کنند و معنای هر طبقه برای سیستم یادگیری ماشین مشخص می شود. در فاز آزمون، مستندات غیر شناخته ای  به سیستم داده می شود . سیستم به طورخودکار آن متن را به طبقهای که بیشتر شباهت دارد نسبت می دهد.

**با توجه به اینکه علی رغم تلاش فراوان به طور کامل با فضای این سایت آشنا نشدم و هنوز نمی توانم فرمولها را در این سایت بارگذاری کنم،چون برای این فاز زحمت زیادی کشیدم این فاز را ایمیل می کنم وانشاا... از فاز های بعدی کامل در بوته بار گذاری خواهم کرد.**
پیکره زبانی که در این پروژه مورد استفاده قرار خواهد گرفت**، پیکره زبانی جامع همشهری نسخه 2** [18]می باشد.
نسخه 1 همشهری شامل بیش از 592222 سند، 91 درخواست و قضاوتهای مرتبط است که از سال 5531 تا 5595 توسط افراد مختلف با موضوعات
مختلف نوشته شده است . نسخه2 همشهری نسبت به نسخه قبل بزرگتر و جامعتر است که تصاویر مقالات را نیز در بر دارد. مولفان روزنامه همشهری بصورت
دستی مقالات خود را به دسته های مختلفی تقسیم کردند و آن را در سایت پیکره همشهری قرار دادند. تمام اسناد در این مجموعه به 82 موضوع مختلف بر اساس اخبار موجود در سایت روزنامه دسته بندی شده اند.
برخی از رسته های موجود در این سایت عبارتند از:

adabh   Literature and Art     ادب و هنر

ejtem   Social  اجتماعی

elmfa   Science and Culture    علمی فرهنگی

eqtes   Economy اقتصاد

gozar   Miscellaneous  گوناگون

havad   Miscellaneous.Happenings       گوناگون.حوادث

kharj   Miscellaneous.World
News       گوناگون.خارجی

maqal   Miscellaneous  گوناگون

shahr   Miscellaneous.Urban    گوناگون.شهری

siasi   Politics       سیاسی

varze   Sport   ورزش
**با توجه به اینکه علی رغم تلاش فراوان به طور کامل با فضای این سایت آشنا نشدم و هنوز نمی توانم فرمولها را در این سایت بارگذاری کنم،چون برای این فاز زحمت زیادی کشیدم این فاز را ایمیل می کنم وانشاا... از فاز های بعدی کامل در بوته بار گذاری خواهم کرد.**
# مراجع
1.     کاوش متون فارسی بر مبنای روش طبقه بندی، محمد حسین سرایی، آذر شاهقلیان ، نشریه علمی پژوهشی انجمن کامپیوتر
ایران، 1389
2.     دسته بندی موضوعی متون فارسی بر اساس روش قواعد انجمنی، سید محمد حسین احمدی،  پایان نامه ی کارشناسی ارشد ، دی ماه 90
3.     دسته‌بندی متون با استفاده از یادگیری ماشین، محسن رحیمی، پروژه هوش مصنوعی، 91
4.     F Sebastiani, "Machine learning in automated text categorization", ACM computing surveys (CSUR),2002
5.       ایوب باقری، حامد فرزانه فر،محمد حسین سرایی ،محمدرضا احمدزاده ."دسته بندی متون خبری فارسی با استفاده از الگوریتم NaïveBayes ".دومین کنفرانس داده کاوی ایران.1387
6.      متن کاوی ، سارا مصباح ، گزارش درس مباحث ویژه در پایگاه داده ، تابستان 88

7.     Y. Yang and X. Liu, "A Re-examination of Text Categorization Methods", _Proceedings of the 22_ _annual international ACM SIGIR conference on research_

_and development in information retrieval_, pp. 42-49,1999.

8.    T. Joachims, "Text Categorization with Support Vector Machines: Learning with Many Relevant Features in Machine
Learning", _10th European Conference on_ _Machine Learning_, pp. 137-142, 1998.

9.      J.R.
Bellegarda, "Exploiting Latent Semantic Information in Statistical Language Modeling",_Proceedings of IEEE_,Vol. 88, No. 8, pp. 1279-1296,2000.

10.      S.A. Wood and T.D. Gedeon, "A Hybrid Neural Network for Automated Classification" _Proceedings of the 6th Australasian Document Computing Symposium_, 2001.

11.      K.Torkolla, "Linear Discriminant Analysis in Document Classification", _IEEE ICDM workshop on text_ _mining_, 2001.

12.      D.Blei, A. Ng, M. Jordan, “Latent Dirichlet Allocation”, Journal of Machine Learning Research, Vol.3, pp. 993-1022, 2003.

13.      X. Guandong, Y. Zhang, Z. Zhou, "Using Probabilistic Latent Semantic Analysis for Web Page Grouping", _Proceedings
of Research Issues in Data Engineering: Stream Data Mining and Applications_, pp. 29-36, 2005.

14. محسن عرب سرخی، هشام فیلی، "ارائه یک سیستم دسته بندی موضوعی متون فارسی بر اساس روش های احتمالاتی"، _مجموعه_ ___مقالات_ ___دومین_ ___کارگاه_ ___پژوهشی_ ___زبان_ ___فارسی_ __.1385،161- _و_ ___رایانه_، ص 1

15. آزاده حاجی حسینی، فرشاد الماس گنج، "دسته بندی موضوعی متون فارسی بر اساس روش آنالیز معنایی پنهان"، _مجموعه_ ___مقالات_ ___دومین_ ___کارگاه_ ___پژوهشی_ ___زبان_ ___فارسی_ ___و_ ___رایانه_، صص 190.1385 ،201

16.                       
T. Pilehvar, H. Faili, M. Soltani, Classification of Persian textual documents using Learning Vector Quantization,
4rd IEEE Conference on Knowledge Engineering and Natural Language Processing,NLP-KE,2009

17.                       
M. Farhoodi, A., Yari, M. Mahmoudi., "A Persian Web Page Classifi er Applying a Combination of Content-Based andContext-Based Features_", International Journal of Information Studies_,
Vol. 1, No.4, 2009
18. .http://ece.ut.ac.ir/dbrg/hamshahri/fadownload.html


----------
1Machine
Learning

2text
classification

3Classification
Rules

4Associative
Classification

5Supervised
learning

6K-NN:K-Nearest
Neighbours

7Text
Mining

8Data
Mining

9Information
Extraction

10Natural
Language Processing

11Supervised
learning

12Unsupervised
learning

13Semi-supervised
learning

14Label

15Reinforcement
learning

16Decision
Trees

17Naïve
Bayesian

18Neural
Networks

19Support
Vector Machines

20Maximum
A Posteriori (MAP)

21conditional
independence

22Hamshahri
corpus

**با توجه به اینکه علی رغم تلاش فراوان به طور کامل با فضای این سایت آشنا نشدم و هنوز نمی توانم فرمولها را در این سایت بارگذاری کنم،چون برای این فاز زحمت زیادی کشیدم این فاز را ایمیل می کنم وانشاا... از فاز های بعدی کامل در بوته بار گذاری خواهم کرد.**