مشخص کردن ارجاع‌های یکسان

تغییرات پروژه از تاریخ 1392/12/24 تا تاریخ 1393/02/06
یک مقاله در مجله‌های علمی به شکل‌های گوناگونی مورد ارجاع قرار می‌گیرد. اگرچه پیدا کردن ارجاع‌های یکسان در نگاه اول، پیچیده به نظر نمی‌رسد. انجام دقیق این کار هم چالش‌های مخصوص به خود را دارد. برای نمونه، دو ارجاع زیر مربوط به یک مقاله هستند که خطای نوشتاری موجود در ارجاع دوم (جدا نشدن نام نویسنده و عنوان با ویرگول) باعث سخت شدن مقایسه آنها شده است:

> Minton, S(1993 b). Integrating heuristics for constraint satisfaction problems: A case study. In: Proceedings AAAI.
> 
> S. Minton Integrating heuristics for constraint satisfaction problems: A case study. In AAAI Proceedings, 1993.

# مقدمه
هدف پروژه بدست آوردن ارجاع های یکسان به یک مقاله, کتاب یا ... است و حذف تکرار ها یا دسته بندی کردن ارجاع های یکسان به عنوان یک ارجاع.
اما به طور کلی مشخص کردن ارجاع های یکسان کاربرد های دیگری نظیر بهینه سازی موتورهای جستجوگر صفحات تحت وب را دارد که برای افزایش دقت و سرعت پاسخگویی روش های مختلفی مانند خوشه بندی متون به کار گرفته می شود.
[خوشه بندی] یا [Document Clustering] روشی برای دسته بندی متن ها با حجم داده ی وسیع می باشد و هدف پیدا کردن شباهت ها یا الگوهای رفتاری مشابه در یک داده از متن می باشد. در اینجا ارجاع های یکسان به گونه ای در یک خوشه قرار خواهند گرفت که در یک خوشه حداکثر شباهت بین ارجاع ها وجود داشته باشد در حالی که بین دو خوشه متفاوت, حداقل شباهت دیده شود.
خوشه بندی تا جایی ادامه پیدا خواهد کرد که تمامی ارجاع های یکسان هر کدام در یک خوشه و به عنوان یک ارجاع واحد مورد استفاده قرار گیرند.
# کارهای مرتبط
در خوشه بندی متون, الگوریتم های زیر را خواهیم داشت:

+  الگوریتم های سلسله مراتبی
+  الگوریتم های مبتنی بر یافتن نقاط نماینده به صورت تصادفی(K-mean)
+  الگوریتم های مبتنی بر یافتن اجتماعات
+  الگوریتم های مبتنی بر تئوری گراف ها
+  الگوریتم های درختی
+  الگوریتم های مبتنی بر یادگیری
+  خوشه بندی ماتریس های خلوت
+  الگوریتم های مبتنی بر چگالی


بیشتر تأکید ما بر روی الگوریتم های سلسله مراتبی خواهد بود. الگوریتم های سلسله مراتبی نیز به دو دسته *بالا به پایین* و *پایین به بالا* تقسیم خواهند شد که باز هم از بین این دو با توجه به توضیحاتی که در ادامه خواهد آمد ما **الگوریتم سلسله مراتبی پایین به بالا** را برای انجام این پروژه مد نظر قرار خواهیم داد.[^1]

*الگوریتم سلسله مراتبی پایین به بالا*:
>در این الگوریتم هر ارجاع به عنوان خوشه ای مجزا در نظر گرفته می شود و در طی فرایند خوشه بندی ارجاع هایی که با یکدیگر شباهت های بیشتری داشته باشند با یکدیگر ترکیب می شوند و چندین ارجاع به صورت دسته های ارجاع های مختلف تبدیل خواهند شد.

*شبکه منظق مارکوف(Markov logic network)*
یک شبکه ی منطق مارکوف یا (MLN ) منطقی احتمالاتی است که ایده‌های یک شبکه مارکوف به منطق رتبه اول را به کار می‌گیرد که استنتاج نا مطمئن را فراهم کند. شبکه‌های منطق مارکوف ، منطق رتبه اول را تعمیم می‌دهند، به این معنا که، در یک محدوده مطمئن، تمام جملات غیر رضایتمند, که برای ما همان ارجاع های غیر یکسان خواهد بود, احتمالی صفر دارند و تمام همانگو ها یا ارجاع های یکسان احتمال یک دارند.

بطور خلاصه، شبکه منطق مارکوف کلکسیونی از فرمول ها از منطق رتبه اول ( به هر یک از فرمول ها عددی حقیقی تخصیص داده شده است(وزن)) می باشد. راس های گراف شبکه فرمول های اتمی هستند و یال ها رابط های منطقی استفاده شده در ساخت فرمول هستند. هر فرمول بعنوان یک کلیک فرض می‌شود و روکش مارکوف مجموعه‌ای از فرمول ها ست که درون آن‌ها اتم داده شده ظاهر می شود. یک تابع پتانسیل به هر فرمول اختصاص داده شده است و هنگامی که فرمول درست است مقدار ۱ می‌گیرد و صفر هنگامی که نادرست است . تابع پتانسیل ترکیبی از وزن بصورت اندازه‌گیری گیبز و تابع تجزیه برای گراف مارکوف است.

در تعریف بالا نکته ی ظریفی شرح داده شده است: فرمول های اتمی ارزش درستی ندارند مگر آنکه آن‌ها پایه گذاری شده باشند و تفسیری ارایه داده باشند تا هنگامی که فرمول ها اتم ها را با تفسیر هربند پایه گذاری می کنند. بنابراین شبکه منطق مارکوف می‌شود شبکه مارکوف ،فقط با توجه به پایه و تفسیر ویژه ، در نتیجه شبکه مارکوف شبکه مارکوف پایه نامیده می شود. راس های گراف شبکه مارکوف پایه، اتم های پایه هستند. بنابراین اندازه نتیجه شبکه مارکوف به شدت (بصورت نمایی) بستگی به تعداد ثابتها در ناحیه ی بحث دارد.

*الگوریتم های مبتنی بر یافتن نقاط نماینده به صورت تصادفی(K-mean)*

![Hierarchical_clustering_simple_diagram](http://upload.wikimedia.org/wikipedia/commons/a/ad/Hierarchical_clustering_simple_diagram.svg)
# آزمایش‌ها

# کارهای آینده

# مراجع
+  http://en.wikipedia.org/wiki/Hierarchical_clustering
+  en.wikipedia.org/wiki/K-means_clustering
+  
Unsupervised deduplication using cross-field dependencie
+ Poon, Hoifung, and Pedro Domingos. "Joint inference in information extraction." AAAI. Vol. 7. 2007.
+ Hall, Rob, Charles Sutton, and Andrew McCallum. "Unsupervised deduplication using cross-field dependencies." Proceedings of the 14th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2008.

# پیوندهای مفید
+ [داده‌های آموزش و آزمون](http://alchemy.cs.washington.edu/papers/poon07)
+ [ابزار اجرای شبکه منطقی مارکوف](http://alchemy.cs.washington.edu)

[^1]: هنگام پیاده سازی از الگوریتم های دیگر به همراه شبکه منطق مارکوف نیز شاید به کار گرفته شود!

لطفا برای ارزیابی، [آخرین ویرایش پروژه](http://www.boute.ir/ai/citation-resolution) را نگاه کنید.