استخراج کلمات کلیدی به معنای استخراج مجموعه‌ای از کلمات از متن یک سند می‌باشد که بتواند شاخصی برای محتوای سند مربوطه باشد. در واقع وقتی شما در یک موتور جستجو به دنبال یک صفحه خاص و یا متن خاصی در اینترنت می‌گردید. استخراج کلمات کلیدی را برای استفاده در موتور جستجو به صورت دستی انجام می‌دهید. هدف از این پژوهش انجام این کار به صورت خودکار می‌باشد. از کاربردهای استخراج خودکار کلمات کلیدی از متن می‌تواند به بازیابی اطلاعات، کشف تقلب، پیشنهاد برچسب و کلمه کلیدی برای مقالات، موتورهای جستجو و رده‌بندی متن اشاره نمود.

در این پژوهش روش‌های مختلف استخراج خودکار کلمات کلیدی از متن معرفی شده و یکی از آن‌ها پیاده‌سازی و ارزیابی می‌شود.

۱. مقدمه

امروزه با افزایش حجم اطلاعات و داده‌های متنی، تحقیقات بسیاری در زمینه مدل کردن اطلاعات و استخراج اطلاعات مفید [1] از آن‌ها به عمل آمده است چون کاربران نیازمند ابزارهایی بودند تا با استفاده از آن‌ها به راحتی بتوانند اطلاعات مفید را از داده‌های موجود استخراج و استفاده نمایند. استخراج خودکار عبارتهای کلیدی، یک متن بلند را به خلاصه‌ای کوتاه تبدیل می‌کند و میتوان بر اساس آن متن را طبقه بندی موضوعی (دسته بندی) کرد و متن های مشابه را پیشنهاد داد.
خلاصه سازی متون صفحات وب یکی از موضوعات مهم در حوزه پردازش متن است و امروزه با توجه به اینکه در دنیای وب تعداد و حجم اطلاعات به بی نهایت میل می کند، یافتن کلمات کلیدی مطالب و طبقه بندی آن ها اصلی غیر قابل اجتناب است.
موتور های جستجوی وب که استفاده از آن ها برای یافتن نتایج مطلوب مورد استفاده قرار میگیرند بر اساس کلمات کلیدی متن را ارزیابی و طبقه بندی میکنند و با توجه به اینکه رقابت بر سر نتایج برتر موتور های جستجو بسیار زیاد است و هر کسی سعی دارد جزو نتایج برتر باشد تا بهتر و بیشتر خود و یا هدف خود را به مخاطبان برساند که به این امر اصطلاحا سئو (Search Engine optimization) [2] گفته میشود

پاورقی

[1] https://en.wikipedia.org/wiki/Keyword_extraction
[2] https://en.wikipedia.org/wiki/Search_engine_optimization

۲. کارهای مرتبط

یکی از نمونه سایت هایی که محتوا را آنالیز و کلمات کلیدی پیشنهاد می کنند به پیوست [1] آمده است که البته در مورد متون فارسی با مشکلاتی واجه است.
در تصویر زیر نمونه ای از استخراج کلمات کلیدی را میبینید که بر اساس پراکندگی کلمات، پراکندگی کلمات موجود در عنوان متن و تکرار آن ها در متن مجموعه از کلمات کلیدی را پیشنهاد می دهد.

استخراج کلمات کلیدی

اما الگوریتمی که قصد دارم پیاده سازی کنمدر واقع شبیه سازی الگوریتم بررسی محتوای موتور جستجوی گوگل می باشد که در مقاله [2] مواردی از آن اشاره شده است. پروژه نهایی، پروژه ای تحت وب خواهد بود که که با وارد کردن متن در ویرایشگر متن [3] مجموعه از کلمات کلیدی وبرچسب ها [4] را پیشنهاد میدهند.

پاورقی

[1]http://www.cortical.io/extract-keywords.html
[2]https://goo.gl/aQ2LN1
[3]Text Editor
[4] Tag

۳. آزمایش‌ها

۴. کارهای آینده

۵. مراجع

  • Kim, Su Nam, et al. "Automatic keyphrase extraction from scientific articles." Language Resources and Evaluation: 1-20.

۶. پیوندهای مفید

محمد عبدوس

با سلام و عرض خسته نباشید بابت فعالیتهای صورت گرفته در این فاز. در ادامه به برخی از نکات اشاره شده است که نیاز است تا این موارد بررسی و اصلاح گردد:

1- در قسمت مقدمه، مراجع به جای اینکه در پاورقی ذکر شوند در قسمت مراجع ذکر شوند حتی آدرس سایتها
2-غلطهای املایی در متن اصلاح شوند مثلا "واجه" در قسمت کارهای مرتبط
3- عنوان تصویر استخراج کلمات کلیدی اصلاح شود و مانند پنل قرمز رنگ بالای عکس توضیحات آن نوشته شود
4- پاورقی با رفرنس تفاوت دارد و باید بین آن دو تفاوت قائل شد. مثلا اگر قرار است لاتین کلمه ای در پاورقی ذکر شود باید به جای اینکه از کروشه[] استفاده کنید از اندیس بالای کلمه استفاده کنید.
5- انتظار میرفت در قسمت کارهای مرتبط به مقالات بیشتری ارجاع میشد و همچنین توضیحات مفصل تر و کامل تری داده میشد.یک مقاله برای بررسی کارهای مرتبط قرار داده شده است که خیلی کم است برای مرور کارهای مرتبط .
6- در مورد زبان پیاده سازی در قسمت مقدمه اشاره ای نشده است. آیا هدف استخراج کلمات کلیدی زبان انگلیسی است یا زبان فارسی؟
7- بیان شده است پروژه نهایی کلمات کلیدی به همراه برچسب ها را استخراج میکند. منظور از برچسبها دقیقا مشخص گردد؟ آیا منظور موضوع کلمه کلیدی است؟ مثلا سیاسی، اجتماعی ، اقتصادی و ...؟

موفق باشید