۱. مقدمه

  • بسم الله الرحمن الرحیم

با توجه به گسترش متون و مستندات الکترونیکی فارسی ، استفاده از روشی کارآمد جهت بازیابی اطلاعات ضروریست.
برای بازیابی اطلاعات ، پی بردن به مفهوم اصلی متن ،رده بندی متون و یافتن کلمات مناسب برای جست و جو و مقالات ؛ استخراج کلمات کلیدی بهترین روش است.
کلمات کلیدی مجموعه ای از لغات مهم در یک مستند هستند که توصیفی از محتوای مستند را فراهم می آورند و برای اهداف مختلفی قابل استفاده هستند.

*یکی از عملیات های مهم در فرآیند های
خوشه بندی ، طبقه بندی و استخراج اطلاعات ، استخراج کلمات کلیدی از متن است.

*با یافتن کلمات کلیدی می توان راحت تر و در زمانی کوتاه تر به مفهوم یک متن یا مقاله پی برد

*همچنین برای بازگرداندن مستندات بهتر و نتایج دقیق تر از موتورهای جست و جو از کلمات کلیدی استفاده می شود.

در مجموع کلمات کلیدی ابزار مفیدی برای جست و جوی حجم زیادی از مستندات در زمان کوتاه هستند.
لازمه استخراج کلمات کلیدی از متن دقت زیاد است ؛ با عنایت به این مطلب و با توجه به اینکه این فرآیند بسیار دشوار و زمان بر است ، نیاز به یک فرآیند خودکار برای استخراج کلمات کلیدی احساس می شود.
لذا در این پروژه تصمیم برآن است که روشی برای استخراج خودکار کلمات کلیدی از متن بیان و پیاده سازی شود.

۲. کارهای مرتبط

  • فرآیند کلی استخراج کلمات کلیدی به شرح زیر است:
    ابتدا کلمات اضافی حذف شده و سایر کلمات ریشه یابی و برچسب گذاری میشوند.
    سپس تعدادی ازکلمات به عنوان کاندید مشخص می شوند که به هر کلمه کاندید وزنی اختصاص داده میشود.
    در مرحله آخر کلمات کلیدی دارای بیشترین وزن انتخاب می شوند.

متداول ترین روش برای انتخاب کلمات کلیدی n-grams است.

روش های استخراج کلمات کلیدی :

روش TF-IDF

روش یادگیری ماشینی

ترکیب روش های تحلیل آماری و زبانشناختی

روش پیشنهادی این پروژه روش TF-IDF است:
در این روش میزان تکرار یک کلمه در یک مستند را در مقابل تعداد تکرا آن در مجموعه کلیه مستندات در نظر می گیریم.

۳. آزمایش‌ها

۴. کارهای آینده

۵. مراجع

بهروز مینایی بیدگلی ، مجتبی وحیدی اصل ، سمیه عربی نرئی ؛ "استخراج کلمات کلیدی جهت طبقه بندی متون فارسی"

زهره کریمی ، مهرنوش شمس فرد ؛ "سیستم خلاصه سازی خودکار متون فارسی" ، دوازدهمین کنفرانس بین المللی انجمن کامپیوتر ایران ، 1385

امیرشهاب شهابی ، محمدرضا کنگاوری ؛ "چکیده سازی چندنوشتاری زبان فارسی"

Dalianis, H.; “SweSum–A text Summar izer f or Swedish, Technica l r eport” , TRITANA-P0015, IPLab-174, NADA,
KTH, 2000.

Frantzi, K.; Ananiadou, S.; Mima, H.;”A utoma tic Recognition of Multi-wor d Ter ms: the C-va lue/NC-value Method ”,
International Journal on Digital Libraries, 3(2):115-130, 2000

محسن ایمانی

در این فاز شما باید حداقل یک کار مرتبط را در این حوزه بررسی می‌کردید. شما روش‌های مرتبط را در حد نام آن‌های ذکر کرده‌اید و هیچ توضیحی در موردشان نداده‌اید.

در واقع در کارهای مرتبط، شما باید کلیه کارهایی که برای پردازش متن و استخراج کلمات کلیدی در مقالات انجام شده است را به طور مختصر شرح دهید.

همچنین بهتر است وقتی شما روشی را معرفی می‌نمایید مقاله‌ای که روش‌ها از آن برداشت کرده‌اید بلافاصله بعد از معرفی روش به عنوان مرجع بیاورید تا اگر خواننده خواست مثلا جزئيات بیشتری در مورد روف TF-IDF بداند بتواند به مقاله‌ای که به آن ارجاع داده شده است، رجوع نماید. برای آشنایی با نحوه ارجاع در داخل متن می‌توانید ببینید مراجعی که مطالعه نموده‌اید این کار را به چه صورت انجام داده‌اند.

نوشتار شما هم به طور کامل مرتب نیست.