یک مقاله در مجله‌های علمی به شکل‌های گوناگونی مورد ارجاع قرار می‌گیرد. اگرچه پیدا کردن ارجاع‌های یکسان در نگاه اول، پیچیده به نظر نمی‌رسد. انجام دقیق این کار هم چالش‌های مخصوص به خود را دارد. برای نمونه، دو ارجاع زیر مربوط به یک مقاله هستند که خطای نوشتاری موجود در ارجاع دوم (جدا نشدن نام نویسنده و عنوان با ویرگول) باعث سخت شدن مقایسه آنها شده است:

Minton, S(1993 b). Integrating heuristics for constraint satisfaction problems: A case study. In: Proceedings AAAI.

S. Minton Integrating heuristics for constraint satisfaction problems: A case study. In AAAI Proceedings, 1993.

۱. مقدمه

هدف پروژه بدست آوردن ارجاع های یکسان به یک مقاله, کتاب یا ... است و حذف تکرار ها یا دسته بندی کردن ارجاع های یکسان به عنوان یک ارجاع.
اما به طور کلی مشخص کردن ارجاع های یکسان کاربرد های دیگری نظیر بهینه سازی موتورهای جستجوگر صفحات تحت وب را دارد که برای افزایش دقت و سرعت پاسخگویی روش های مختلفی مانند خوشه بندی متون به کار گرفته می شود.
[خوشه بندی] یا [Document Clustering] روشی برای دسته بندی متن ها با حجم داده ی وسیع می باشد و هدف پیدا کردن شباهت ها یا الگوهای رفتاری مشابه در یک داده از متن می باشد. در اینجا ارجاع های یکسان به گونه ای در یک خوشه قرار خواهند گرفت که در یک خوشه حداکثر شباهت بین ارجاع ها وجود داشته باشد در حالی که بین دو خوشه متفاوت, حداقل شباهت دیده شود.
خوشه بندی تا جایی ادامه پیدا خواهد کرد که تمامی ارجاع های یکسان هر کدام در یک خوشه و به عنوان یک ارجاع واحد مورد استفاده قرار گیرند.

۲. کارهای مرتبط

در خوشه بندی متون, الگوریتم های زیر را خواهیم داشت:

  • الگوریتم های سلسله مراتبی

  • الگوریتم های مبتنی بر یافتن نقاط نماینده به صورت تصادفی(K-mean)

  • الگوریتم های مبتنی بر یافتن اجتماعات

  • الگوریتم های مبتنی بر تئوری گراف ها

  • الگوریتم های درختی

  • الگوریتم های مبتنی بر یادگیری

  • خوشه بندی ماتریس های خلوت

  • الگوریتم های مبتنی بر چگالی

بیشتر تأکید ما بر روی الگوریتم های سلسله مراتبی خواهد بود. الگوریتم های سلسله مراتبی نیز به دو دسته بالا به پایین و پایین به بالا تقسیم خواهند شد که باز هم از بین این دو با توجه به توضیحاتی که در ادامه خواهد آمد ما الگوریتم سلسله مراتبی پایین به بالا را برای انجام این پروژه مد نظر قرار خواهیم داد.1

الگوریتم سلسله مراتبی پایین به بالا:

در این الگوریتم هر ارجاع به عنوان خوشه ای مجزا در نظر گرفته می شود و در طی فرایند خوشه بندی ارجاع هایی که با یکدیگر شباهت های بیشتری داشته باشند با یکدیگر ترکیب می شوند و چندین ارجاع به صورت دسته های ارجاع های مختلف تبدیل خواهند شد.

شبکه منظق مارکوف(Markov logic network)
یک شبکه ی منطق مارکوف یا (MLN ) منطقی احتمالاتی است که ایده‌های یک شبکه مارکوف به منطق رتبه اول را به کار می‌گیرد که استنتاج نا مطمئن را فراهم کند. شبکه‌های منطق مارکوف ، منطق رتبه اول را تعمیم می‌دهند، به این معنا که، در یک محدوده مطمئن، تمام جملات غیر رضایتمند, که برای ما همان ارجاع های غیر یکسان خواهد بود, احتمالی صفر دارند و تمام همانگو ها یا ارجاع های یکسان احتمال یک دارند.

بطور خلاصه، شبکه منطق مارکوف کلکسیونی از فرمول ها از منطق رتبه اول ( به هر یک از فرمول ها عددی حقیقی تخصیص داده شده است(وزن)) می باشد. راس های گراف شبکه فرمول های اتمی هستند و یال ها رابط های منطقی استفاده شده در ساخت فرمول هستند. هر فرمول بعنوان یک کلیک فرض می‌شود و روکش مارکوف مجموعه‌ای از فرمول ها ست که درون آن‌ها اتم داده شده ظاهر می شود. یک تابع پتانسیل به هر فرمول اختصاص داده شده است و هنگامی که فرمول درست است مقدار ۱ می‌گیرد و صفر هنگامی که نادرست است . تابع پتانسیل ترکیبی از وزن بصورت اندازه‌گیری گیبز و تابع تجزیه برای گراف مارکوف است.

در تعریف بالا نکته ی ظریفی شرح داده شده است: فرمول های اتمی ارزش درستی ندارند مگر آنکه آن‌ها پایه گذاری شده باشند و تفسیری ارایه داده باشند تا هنگامی که فرمول ها اتم ها را با تفسیر هربند پایه گذاری می کنند. بنابراین شبکه منطق مارکوف می‌شود شبکه مارکوف ،فقط با توجه به پایه و تفسیر ویژه ، در نتیجه شبکه مارکوف شبکه مارکوف پایه نامیده می شود. راس های گراف شبکه مارکوف پایه، اتم های پایه هستند. بنابراین اندازه نتیجه شبکه مارکوف به شدت (بصورت نمایی) بستگی به تعداد ثابتها در ناحیه ی بحث دارد.

الگوریتم های مبتنی بر یافتن نقاط نماینده به صورت تصادفی(K-mean)

Hierarchical_clustering_simple_diagram

۳. آزمایش‌ها

۴. کارهای آینده

۵. مراجع

  • http://en.wikipedia.org/wiki/Hierarchical_clustering

  • en.wikipedia.org/wiki/K-means_clustering

  • Unsupervised deduplication using cross-field dependencie

  • Poon, Hoifung, and Pedro Domingos. "Joint inference in information extraction." AAAI. Vol. 7. 2007.

  • Hall, Rob, Charles Sutton, and Andrew McCallum. "Unsupervised deduplication using cross-field dependencies." Proceedings of the 14th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2008.

۶. پیوندهای مفید

لطفا برای ارزیابی، آخرین ویرایش پروژه را نگاه کنید.


  1. هنگام پیاده سازی از الگوریتم های دیگر به همراه شبکه منطق مارکوف نیز شاید به کار گرفته شود!

رد شده

به نظرم شبکه ی منطق مارکوف که توضیحش رو گفتن روش مناسبی باشه و همچنین الگوریتم kmeans چون خودم هم در موردش تحقیق کردم یکی از رایج ترین و بهترین روش های خوشه بندی است و مطمئنا به نتیجه ی مطلوب میرسه .
توضیحات به نظرم کافی بود.موفق باشید

رد شده

مقدمه و کارهای مرتبط کافی بود ولی بهتر بود کمی متن را ویرایش کنید، به عنوان مثال از پاورقی برای نمایش نام انگلیسی اصطلاحات و یا از لینک برای مشخص کردن مراجع (نه صرفا نوشتن آدرس) استفاده می کردید. لینک کد را هم در این جا قرار نداده اید، که این نقص بزرگی است.

علیرضا نوریان
  • قرار هست شما در کارهای مرتبط بگید که دیگران از چه روشهایی برای حل این مساله استفاده کردند.

  • توضیح‌تون در مورد شبکه منطق مارکوف بسیار مبهم هست و اصلا معلوم نیست، با این شبکه چطور می‌شه مساله شما رو حل کرد.

  • شما مجبور نیسیتید خودتون خوشه‌بندی رو پیاده‌سازی کنید و می‌تونید از کتابخانه‌های آماده استفاده کنید. مثلا کتابخانه یادگیری ماشین در پایتون.