استخراج عبارات کلیدی

استخراج کلمات کلیدی به معنای استخراج مجموعه‌ای از کلمات از متن یک سند می‌باشد که بتواند شاخصی برای محتوای سند مربوطه باشد. در واقع وقتی شما در یک موتور جستجو به دنبال یک صفحه خاص و یا متن خاصی در اینترنت می‌گردید. استخراج کلمات کلیدی را برای استفاده در موتور جستجو به صورت دستی انجام می‌دهید. هدف از این پژوهش انجام این کار به صورت خودکار می‌باشد. از کاربردهای استخراج خودکار کلمات کلیدی از متن می‌تواند به بازیابی اطلاعات، کشف تقلب، پیشنهاد برچسب و کلمه کلیدی برای مقالات، موتورهای جستجو و رده‌بندی متن اشاره نمود.

در این پژوهش روش‌های مختلف استخراج خودکار کلمات کلیدی از متن معرفی شده و یکی از آن‌ها پیاده‌سازی و ارزیابی می‌شود.

۱. مقدمه

امروزه با افزایش حجم اطلاعات و داده‌های متنی، تحقیقات بسیاری در زمینه مدل کردن اطلاعات و استخراج اطلاعات مفید از آن‌ها به عمل آمده است چون کاربران نیازمند ابزارهایی بودند تا با استفاده از آن‌ها به راحتی بتوانند اطلاعات مفید را از داده‌های موجود استخراج و استفاده نمایند. استخراج خودکار عبارتهای کلیدی، یک متن بلند را به خلاصه‌ای کوتاه تبدیل می‌کند و میتوان بر اساس آن متن را طبقه بندی موضوعی (دسته بندی) کرد و متن های مشابه را پیشنهاد داد. به عنوان مثال به تصویر زیر توجه نمایید:

مثال استخراج کلمات کلیدی

با توجه به اینکه عمل استخراج کلمات و عبارات کلیدی از متون متون فارسی، بسیار وقت گیر بوده و هزینه زیادی در بردارد، و ابزار های بسیار کمی در این رابطه وجود دارند و از طرفی اهمیت این موضوع نمیتوان غافل شد، در این پروژه سعی داریم تا بهترین راه کار را به زبان شیرین فارسی را پیاده سازی نماییم.

۲. اهمیت استخراج عبارات کلیدی

عبارتهای کلیدی متن نشان‌دهندة مفاهیم و موضوع مقاله بوده، می‌توانند در موارد زیر مورد استفاده قرار گیرند:

  1. استخراج خودکار عبارتهای کلیدی، یک متن بلند را به خلاصه‌ای کوتاه تبدیل می‌کند. به عنوان مثال، می‌توان از این ویژگی در مرورگرهای وب استفاده کرد؛ بدین ترتیب که کاربر با فشار دادن یک دکمه، عبارتهای کلیدی متن را مشاهده و در نتیجه به حوزة موضوعی متن مورد نظر پی می‌برد.

  2. عبارتهای کلیدی می‌توانند به عنوان قسمتی از نتایج جستجو همراه با سایر مشخصه‌های متن بازیابی شده (همانند عنوان، قسمتهایی از متن، URL و ...) یا به جای آنها نمایش داده شوند. موتور های جستجوی وب که استفاده از آن ها برای یافتن نتایج مطلوب مورد استفاده قرار میگیرند بر اساس کلمات کلیدی متن را ارزیابی و طبقه بندی میکنند و با توجه به اینکه رقابت بر سر نتایج برتر موتور های جستجو بسیار زیاد است و هر کسی سعی دارد جزو نتایج برتر باشد تا بهتر و بیشتر خود و یا هدف خود را به مخاطبان برساند که به این امر اصطلاحا سئو (Search Engine optimization) گفته میشود.

  3. در مواردی که به مشخصه‌هایی بیش از نامگذاری صرف به منظور درک سریعتر متن نیاز داریم، عبارتهای کلیدی می‌توانند مفید باشند. به عنوان مثال، اگر نام یک فایل یا نامه الکترونیکی به عنوان برچسب با عبارتهای کلیدی ادغام گردند، حالت بهتری را ایجاد می‌کنند. در این حالت، مشاهده عبارتهای کلیدی همراه با عنوان، به فهم محتوای نامه کمک بیشتری می‌کند.

  4. برجسته‌کردن عبارتهای کلیدی در متون الکترونیکی می‌تواند به مرور سریع و اجمالی متن کمک کند.

  5. کمک به نویسنده یا ویراستار در تخصیص عبارتهای کلیدی به متن. انجام این کار به صورت خودکار می‌تواند به عنوان یک استاندارد، نوعی یکدستی و مطابقت نوشته با کارکرد سیستم بازیابی اطلاعات و در نتیجه اطلاع‌رسانی صحیح‌تر را به همراه داشته باشد.

  6. در مواردی که با مشکل پهنای خط یا مطابق با اصول نمایش گرافیکی اطلاعات با محدودیت فضای نمایشی مواجه هستیم، نمایش عبارتهای کلیدی بسیار مفید است. اصولاً در کشورهای جهان سوم که خطوط از سرعت و پهنای خط پایینی برخوردارند و در مکانهایی که محدودیت فیزیکی وجود دارد، همانند صفحات نمایش رایانه (اندازه ثابت)، حالت مطلوبتری را ایجاد می‌کند.

  7. استخراج خودکار عبارتهای نمایه‌ای متون نشریات و صفحات وب، خواندن و جستجوی اطلاعات نشریات را برای خوانندگان تسهیل می‌کند.

  8. حضور عبارتهای کلیدی در نتایج جستجو می‌تواند به اصلاح و تعریف مجدد فرمول جستجو و حتی تغییر دیدگاه کاربران از ساختار موجود در یک زمینه خاص کمک کند؛ یعنی کاربران می‌توانند با افزودن، حذف واژگان دامنه جستجو را محدودتر کرده، ضریب دقت را بالاتر ببرند. در نتیجه، بالابردن ضریب دقت یا با گسترده‌ترکردن دامنه جستجو و در نتیجه به بالابردن ضریب بازیابی کمک می‌کند. بنابراین می‌توان عبارتهای کلیدی را به عنوان جزئی لازم برای سیستمهای بازیابی اطلاعات معرفی کرد.

  9. در مفاهیم سازماندهی اطلاعات در سیستم‌های بازیابی اطلاعات می‌توان به گونه‌ای مؤثر از عبارتهای کلیدی در خوشه‌بندی و طبقه‌بندی مدارک استفاده کرد.

۳. دسته بندی روش های استخراج کلمات کلیدی

تمامی روشهای پیشنهاد شده برای استخراج کلمات کلیدی ، به چهار راهکار کلی طبقه بندی میشوند:

  1. روشهای آماری مبتنی بر تحلیل فراوانی کلمات.

  2. روشهای نحوی مبتنی بر تجزیه زبانی و انطباق الگو.

  3. روشهای ساختاری: بررسی عنوان و رئوس کلی مطالب سند.

  4. روشهای ادراکی مبتنی بر استفاده از پایگاه دانش برای تفسیر معنی و مفهوم.
    در اکثر روشهای معروف تعداد کلمات استخراج شده به عنوان کلمه کلیدی 10 الی 15 کلمه میباشد. اکثر روشهای استخراج کلمات کلیدی مبتنی بر پردازش زبان طبیعی از دیکشنری برای مشخص کردن ریشه کلمات و بخشهای گفتار استفاده میکنند.

    رویه کلی استخراج کلمات در همه روش ها

    برای استخراج کلمات کلیدی یک سری پیش پردازش باید روی متن انجام شود. یکی از این پیش پردازش ها تعیین کلمات است که باتوجه به فضای خالی و یا علامات نگارشی انجام می گیرد. در زبان فارسی با توجه به این که کلمات چند بخشی داریم استفاده از فضای خالی جهت تفکیک کلمات باعث تغییر کلمه به چند کلمه دیگر شود که مطلوب ما نیست. پس از تعیین کلمات، کلمات عمومی را حذف کرده و بقیه متن را ریشه یابی میکنیم و در مورد ریشه یابی در زبان فارسی نیز مشکل هضم وجود دار. سپس کلمات را وزندهی کرده و تبدیل به بردار میکنیم و با اعمال آستانه، لیست کلمات کلیدی استخراج میشود.
    در ادامه بحث به ذکر روش های آماری می پردازیم که پیاده سازی پروژه نیز بر اساس این روش است.

۴. بررسی روش های آماری

استخراج کلمات کلیدی به روش آماری، تا حد زیادی مستقل از زبان است و تنها بخش ساخت واژی وابسته به زبان است. به این علت چند نمونه از کارهای انجام شده در سایر زبانها را در این بخش آوردهایم. همچنین یکی از کارهای انجام شده در زبان فارسی نیز، در ادامه به همراه نتایج حاصل شده تشریح خواهد شد. برای زبان فارسی فقط یک کار در حوزه ی نمایه سازی پیدا شد.
یک راهکار برای استخراج کلمات کلیدی یادگیری باناظر یا روش TF-IDF است. به طور کلی در الگوریتم یاد شده از تکرار کلمات و نحوه پراکندگی آن در متن و نیز پراکندگی کلمه کلیدی مفروض در مستندات قبلی اقدام به انتخاب کلمات کلیدی می نماییم. بدیهی است هر چه تعداد مستندات قبلی ما (به عبارت دیگر بایگانی ما) کامل تر باشد، به نتایج مطلوب تری دست خواهیم یافت. برای پیاده سازی این روش ابتدا یک مجموعه اسناد (برای مثال مجموعه اسناد همشهری) را در نظر می گیریم. به ازای تمام کلماتی که در پیکره وجود دارد ، بررسی می کنیم که هر کلمه در چه تعداد از سندها تکرار شده است و آن را ذخیره می کنیم . سپس یک سند به عنوان ورودی دریافت می شود. هدف یافتن کلمات کلیدیِ سند دریافت شده است. برای این منظور ابتدا بررسی می کنیم که هر یک از کلمات سند ورودی ، چند بار در همان سند استفاده شده است. سپس به ازای تمام کلمات سند ورودی بررسی می کنیم که هر کلمه در چه تعداد از اسناد پیکره اصلی (برای مثال همشهری) وجود دارد.
بعد از طی کردن این مراحل به حساب کردن وزن کلمات می پردازیم :
تعیین وزن کلمات با استفاده از دو معیار term frequency و inverse document frequency انجام می شود که به شرح زیر محاسبه خواهند شد :

که در آن f(t,d) تعداد تکرار کلمه t در سند d (سند هدف) است و max{f(w,d)} تعداد پر تکرارترین کلمه در سند d می باشد و

که در آن N تعداد کل اسناد موجود در پیکره است و

بیانگر تعداد اسنادی است که کلمه t در آنها وجود دارد. در نهایت وزن هر کلمه به صورت زیر محاسبه خواهد می شود :

در صورت مواجه شدن با کلمه ایکه در مجموعه اسناد وجود نداشته باشد به صورت قراردادی مخرج idf را یک در نظر می گیریم. پس از آنکه وزن تمامی کلمات سند ورودی محاسبه شد ، کلماتی که دارای بیشترین وزن هستند ، به عنوان کلمات کلیدی معرفی می شوند.
به طور مثال اگر ما بخواهیم مقالات مرتبط با همین مقاله (چگونه بفهمیم یک کلمه در یک سایت کلمه کلیدی است؟ (معرفی الگوریتم «فراوانی وزنی») را از بین حدود ۱۲۰۰ مقاله سایت به دست آوریم باید این روال را طی کنیم:
– اولاً تعداد کل مقالات را به دست می‌آوریم. (فرض کنید ۱۲۰۰ مقاله)
– تک تک کلمات عنوان را در دیتابیس جستجو کنیم. (مثلاً کلمه «چگونه» )
– تعداد مقالاتی که هر کلمه را شامل می‌شود محاسبه می‌کنیم. (مثلاً الان کلمه «چگونه» در ۴۲ مقاله تکرار شده و کلمه «در» در ۳۱۳ مقاله)
– لگاریتم تعداد کل مقالات تقسیم بر تعداد مقالاتی که هر کلمه تکرار شده را محاسبه می‌کنیم. (مثلاً در مورد کلمه «چگونه» لگاریتم ۱۲۰۰ تقسیم بر ۴۲ می‌شود: ۱.۴ و لگاریتم «در» می‌شود: 0.5)
– هر کلمه‌ای که نتیجه‌اش نزدیک‌تر به 0 باشد یعنی کمتر کلیدی است.

۵. کارهای مرتبط

با توجه به بررسی الگوریتم های آماری در قسمت های قبلی اقدام به پیاده سازی استخراج کلمات کلیدی با توجه به روش TF-IDF نموده ایم. عملیات اجرا شده طی این روش به صورت زیر می باشد:

  1. حذف کلمات ایست

  2. جایگزینی الفبای عربی با فارسی

  3. بررسی تکرار هر کلمه در متن

  4. محاسبه مقدار TF (تکرار هر کلمه در متن واردشده)

  5. محاسبه مقدار IDF (وجود کلمات در اسناد قبلی)

  6. محاسبه مقدار TF*IDF و معرفی کلمات کلیدی

  7. بررسی دسته بندی با توجه به کلمات کلیدی هر دسته بندی و معرفی دسته بندی

ذکر این نکته لازم می باشد که هر چه قدر تعداد مستندات قبلی ما بیشتر باشد ارائه کلمات کلیدی و معرفی رده بندی متن بسیار نزدیک به واقعیت خواهد بود.

۶. آزمایش‌ها

تعدادی متن مورد آزمایش قرار گرفت که عملکرد قسمت استخراج کلمات کلیدی در حد قابل قبول است و با بیشتر شدن تعداد مستندات عملکرد این بخش بهبود می یابد .

آزمایش شماره 1:
متن ورودی:
"وَرزش به فعالیت‌ها یا مهارت‌های عادی جسمانی گفته می‌شود که بر پایه یک رشته قوانین مورد توافق همگان و با اهداف تفریحی یا برای مسابقه، نشاط شخصی، دستیابی به ورزیدگی، مهارت‌جویی یا آمیزه‌ای از این اهداف انجام می‌گیرد. تعریف ورزش به هدف و منظور از انجام آن بستگی دارد. تفاوت منظور همراه با در نظر گرفتن مهارت فرد یا گروه یا دلیری علامت مشخصه ورزش است.
بنابر این پریدن از روی یک مانع در مقابل دیدگان هزاران نفر در یک میدان سر پوشیده ورزش است در حالی که پریدن از روی یک چشمه هنگام پیاده روی در روستا فقط تلاش برای خیس نشدن پای فرد است. یا پیکارهای شنا که در برابر هزاران نفر در یک استخر سرپوشیده مسابقاتی انجام می‌گیرد یک گونه از ورزش بشمار می‌رود در حالیکه شنا در یک استخر معمولی یا در دریا یک تفریح شمرده می‌شود.
انواع مختلفی از ورزش وجود دارند و انسان ها قسمت مهمی از وقت، پول و دلبستگی خود را نه فقط به عنوان شرکت کننده بلکه به عنوان تماشاگر به آن ها اختصاص می دهند .
ورزش امروزه در جهان به وسیله ای مبدل شده که انسان ها را با هم متحد و آشنا کرده و بین آن ها پیوند اخوت و برادری برقرار می کند و مهمترین هدف و وظیفه ورزش همین است ایجاد مودت و دوستی بین ورزش کاران که هر چند در میدان رقیب هم هستند اما در خارج از میدان به عنوان رفیق همدیگر می باشند .
ورزش ترکیبی از فعالیت های فیزیکی عادی و معمول و مهارت های شخصی و به عنوان تفریح و یک سری از قوانین که برای مسابقه ، لذت بردن و رسیدن به برتری است. ترکیب شخصیت هایی با مهارت های متفاوت در یک ملت، شجاعت و دلاوری آن ملت را افزایش می دهد "

نتیجه کلمات کلیدی استخراج شده: ورزش، فعالیت، مهارت
دسته بندی متن: ورزشی


آزمایش شماره 2:
متن ورودی:
"در گفتگوهای روزمره کلمه سیاست سیاسی و سیاستمدار بسیار به کاربرده می‌شود، اما اگر از گوینده پرسیده شود منظور دقیق شما از سیاست چیست به سختی می‌تواند به این سؤال جواب دهد. در ادبیات گذشته کلمه سیاست به دو معنا تعریف می‌شده است. اولین معنای آن «زیرکی» ، «حیله گری» و «رندی» است که واژه‌ای مانند «سیّاس» به همی معنا استفاده می‌شده است. در ادبیات کهن ایران هم چنین سیاست به معنای «تنبیه» و «شکنجه» یا «مجازات» هم به کاربرده می‌شده است. نهایتاً به نظر می‌رسد لفظ سیاست در این دو معنا چندان بار معنایی مثبتی نداشته است و نهایتاً به نوعی دل‌زدگی عمومی از این لفظ منجر می‌شده است. در ادبیات و فرهنگ رایج امروز نیز «سیاسی کار» دارای معنای مثبتی نیست.
در گفتگوهای روزمره کلمه سیاست سیاسی و سیاستمدار بسیار به کاربرده می‌شود، اما اگر از گوینده پرسیده شود منظور دقیق شما از سیاست چیست به سختی می‌تواند به این سؤال جواب دهد.
اما برخلاف ادبیات رایج و عمومی در زبان فارسی، در مغرب زمین سیاست (Politics) لزوماً در شکل منفی و ریشه منفی مورد استفاده قرار نگرفته و دارای ریشه معنایی متفاوتی است.
تاریخ مفهوم امروزی سیاست ریشه در تحولاّت تاریخی دارد که به پیدایش « سیاست» (Politics) امروزی منجر شده است.
سیاست به مثابه مطالعه‌ی دولت شهر:
در یونان باستان ساختار سیاسی دولت – شهر (Polis) به عنوان ساختاری ضد ساختار استبدادی اُیکس (Oikos) که نوعی پادشاهی بود شکل گرفت. رشد رژیم سیاسی تساوی گرا و مشارکت محور میان شهروندان آتن باستان باعث شکل گیری مفهوم جدیدی از پلیس (polis) میان فلاسفه سیاسی، نویسندگان و تاریخ نگاران شد.
کتاب سیاست ارسطو به مطالعه نظام مند پلیس (شهر)، ساختارها و شهروندانش مرتبط است. البته توجه داشته باشید که با ترجمه کتاب‌های ارسطو به عربی بعد از اسلام، کلمه polisب ه مدینه در متون فلسفه اسلامی ترجمه شد که در آثار فیلسوفان مهمی مانند فارابی و یا ابن سینا دیده می‌شود.
کلمه سیاسی یا (Political) در آثار ارسطو به معنای گفتگوی دو طرفه و همه جانبه در مجامع عمومی شهر درباره‌ی موضوعات مهمی که در آینده رخ خواهد داد آمده است. این واژه در بعد از قرون وسطی و دوران مدرن دارای معانی جدیدی شد که ادراک آن برای تحلیل ما از سیاست مفید به نظر می رسد.
تعریف سیاست در جهان مدرن:
سیاست می‌تواند به عنوان یکی از چهار شکل زیر تعریف شود:
1- سیاست به عنوان یک فعالیت:
طبق این تعریف سیاست فعالیتی است که به شکل نیمه وقت و یا تمام وقت توسط سیاستمداران انجام می‌شود. آن‌ها با تصمیماتی جمعی سروکار دارند که نظام سیاسی را که در آن زندگی می‌کنند تحت تأثیر قرار می‌دهد. این نظام سیاسی می‌تواند یک زیربخش مانند شورای ده یا بخشداری باشد و یا با عالی‌ترین سطح حکومت سروکار داشته باشد. در اکثر کشورها میان سیاست مدارانی که به شکل حرفه‌ای به دنبال سیاست هستند و مردم عادی که نقش حداقلی در سیاست دارند تفاوت وجود دارد. بنابراین در این تعریف سیاست عنوان کارکرد گروه اول در نظر گرفته می‌شود.
2- سیاست به عنوان امور جاری:
برای برخی از مردم غیر علاقه‌مند به امور سیاسی، سیاست بخشی از زندگی است که آنان نمی‌خواهند در آن درگیر شوند. حتی برای عده‌ای سیاست امری خطرناک است و از آن اجتناب می‌کنند. اما برای برخی مردم سیاست امری جذاب است و همان گونه که از تیم‌های ورزشی حمایت می‌کنند به طرفداری از گروه‌ها و چهره‌های سیاسی هم می‌پروراند. برای این افراد خواندن روزنامه، بحث کردن درباره‌ی عملکرد سیاست مداران، احزاب و گروه های سیاسی و .... نمونه‌ای از کنش سیاسی است. واژه مشابه و نزدیک به این موضوع «زندگی سیاسی» است.
3- سیاست به عنوان آن چه دولت انجام می‌دهد
طبق برخی تعاریف سیاست به آن چه توسط دولت ها انجام می شود خلاصه می گردد.برای حکومت کردن باید به کنترل کردن پرداخت و تمام جوامع توسط حکومت ها و یافرادی با کنترل روبرو هستند. بر مبنای این تعریف ، به اعمال آن افرادی که – چه یک فرد و چه حکومت- به کنترل کردن جامعه مشغولند، سیاست می‌گویند. در واقع بر این مبنا هر آن چه دولت انجام می‌دهد سیاست محسوب می‌شود.
4- سیاست به عنوان تعارض و راه حل تعارض
از این منظر، تعارض به معنای وسیع کلمه، شامل هر شکل از عدم تفاهم می‌شود. تمام روابط بین گروهی دچار و جود تفاوت‌ها در اهداف و روش‌ها هستند. این منازعات از منازعات مخفی و کلامی آغاز می‌شود و به منازعات فیزیکی در حد اعلای کلمه‌ می انجامد. از این منظر، مفروض بنیادین این است که تعارض و عدم تفاهم امری عمومی در جامعه است. مردم درباره‌ی آن چیزهایی که باید به دست آیند و روش‌های دست‌یابی به آن‌ها، دچار متعارضند. بنابراین اگر تعارض در جامعه وجود نداشته باشد نیازی به سیاست نیست.
اگرچه در افکار عمومی سیاست دارای معنایی منفی مانند حیله گری و یا مجازات بوده و حداکثر به معنای دانش دهنده حکومت کردن است و با ساختار اداری و سازمانی حکومت سروکار دارد اما دانشمندان علوم سیاسی دارای تعاریف گسترده تری از معنای اولیه مدنظر عموم مردم هستند
در واقع بر مبنای این نظر، منابع کمیاب قدرت، ثروت، منزلت در جامعه مورد تقاضای افراد و گروه‌های مختلف هستند و هر کدام می‌کوشند که این منابع کمیاب را به خود اختصاص دهند.
این رقابت‌ها و عملکردها بر سر منابع نایاب و کمیاب به تعارض می انجامد و در عین حال روش های حل تعارض از روش های عقلانی تا روش های خشونت آمیز وجود دارد.
در واقع سیاست به این تعارضات و روش های حل این تعارضات در سطح اجتماع و جامعه انسانی اشاره دارد.
جمع بندی: اگرچه در افکار عمومی سیاست دارای معنایی منفی مانند حیله گری و یا مجازات بوده و حداکثر به معنای دانش و هنر حکومت کردن است و با ساختار اداری و سازمانی حکومت سروکار دارد اما دانشمندان علوم سیاسی دارای تعاریف گسترده تری از معنای اولیه مدنظر عموم مردم هستند. آنان بر تعارض و منازعه بر سر منابع کمیاب ثروت، قدرت و منزلت و حل این تعارض ها از روشهای گوناگون( از انتخابات تا جنگ) و اعمال قدرت در جامعه، به جای صرف مطالعه دولت تکیه می کنند. "

کلمات کلیدی استخراج شده: سیاست ، سیاسی، سیاستمدار
دسته بندی : نادرست


هنر ، آنچه را طبیعت از تکمیل آن ناتوان است کامل می‌کند. (ارسطو)

هنر مهمترین کار و فعالیت ماورای طبیعی مناسب برای زندگی است. (نیچه)

در هنر، (باید) وجود ندارد، هنر آزاد است. (واسیلی کاندینسکی)

هنر یعنی پذیرفتن واقعیات…

هنر ثبت واقعیتهای ذهنی است…

هنر یعنی زندگی کردن و دوست دشتن…

هنر اصطکاک روح است با فضای اطراف…

و…

این ها تعاریفی بود که خیلی از بزرگان در طول سال ها و قرن ها از هنر داشته اند و همه ی آن ها می تواند هم درست باشد و هم غلط برخی هنر را زیبایی می دانند اما این تعریف هم صرفا نمی تواند درست باشد چون هر اثر هنری برای خلق شدن نیاز به یک هنرمند دارد پس یک گل و یا یک درخت که خود به وجود آمده اند نمی تواند یک هنر باشد، شاید بگویید خداوند یک هنرمند است، درست است اما ما در اینجا به دنبال تعریفی کلی تر از هنر می گردیم.

عده ی ای هنر را وسیله ای برای پالایش و اعتلای روح آدمی بیان می کنند و معتقدند که هنر باید اخلاق گرا باشد اما این هم خود تعریفی نادرست است زیرا هنری که ما در یک پوستر اجتماعی و سینما به کار می بریم با هنر خاتم کاری و خوشنویسی در بیان مفاهیم متفاوت است.

و افراد دیگری هم می گویند هنر نسخه برداری از طبیعت است مانند میل به خشونت، هوای نفس و … که می توانند مثل یک هنر مقدس زیبا باشند زیرا آیینه ی تمام نمای واقعیت ها می باشد. همچنین عده ای هم بر این باورند که هنر بیان احساس و عاطفه ی آدمی و برداشت او از زندگی و جهان هستی است.

اشکالی که در تعاریف بالا وجود دارد این است که همه فقط یک بعد از هنر را در نظر می گیرند ولی هنر کاملا ترکیبی از همه ی آن هاست و نتیجه ی اخلاقی این که هنر تعریف خاصی ندارد و نمی توان برای آن معیارهای مشخصی در نظر گرفت. به همین دلیل متفکران موضوعی به نام (( نظریه نهادی)) را مطرح کرده اند و بر این باورند که اگر چیزی بخواهد یک اثر هنریشناخته شود، ویژگی یا ویژگی‌های خاصی نیست که بتوان در درون آن اثر مشاهده کرد؛ بلکه شأن خاصّی است که عالَم هنر برای آن اثر، قائل می‌شود.

طبق این تعریف عالم هنر شامل کسانی است که در تشکیلاتی نه چندان مدوّن، حضور دارند و به صورت‌های گوناگون، در ارتباط با یکدیگر به سر می‌برند. این مجموعه افراد که شامل هنرمندان ((نقّاشان، نویسندگان، آهنگسازان، کارگردانان و…))، مدیران موزه‌ها، مدیران هنری، مخاطبان حرفه‌ای آثارهنری (هر چند که خودشان هم هنرمند نباشند)، گزارشگران هنر در رسانه‌ها، منتقدان هنری، تاریخ‌نگاران هنر، نظریه پردازان و فیلسوفان هنر و دیگر کسانی که به نوعی با هنر در ارتباط‌ند، هستند، که در صورتی که در مورد هنری بودن یک اثر به توافق برسند، می‌توان آن را یک اثر هنری دانست و اگر اثری از سوی عالَم هنر به عنوان یک اثر هنری شناخته نشود، دیگر نمی‌توان آن را یک اثرهنری به شمارآورد.

در حقیقت، عالَم هنر را می‌توان مرزی دانست که اگر یک اثر ساخته دست بشر، از آن عبور کند به یک اثر هنری تبدیل می‌شود و اگر نتواند از آن بگذرد، اثر هنری به حساب نخواهد آمد. با این حساب، می‌توان لگن توالت دوشان را هم به این دلیل که به دست یک هنرمند ساخته شده است و در یک فضای هنری به نمایش درآمده است و هم به دلیل این که از سوی جامعه هنرمندان عالَم هنر، به عنوان یک اثر هنری پذیرفته شده است، یک اثر هنری به حساب آورد.

تیموتی بینکلی، هم درباره این مسئله که آیا برخی از آثار بحث‌انگیز امروز، به راستی آثار هنری اند یا نه، می‌گوید: فقط می‌توانم بگویم که آنها به دست کسانی که هنرمند محسوب می‌شوند، ساخته (یا خلق یا ایجاد) می‌شوند، منتقدان، آنها را با عنوان آثار هنری مورد نقد و بررسی قرار می‌دهند، در کتاب‌ها و نشریه‌های مربوط به هنر، درباره‌ شان بحث می‌شود، در گالری‌ها یا مکان‌های مرتبط با هنر، به نمایش گذاشته می‌شوند و چیزهایی از این قبیل.

کلمات کلیدی استخراج شده: هنر، هنرمند، طبیعت
دسته بندی: نادرست

۷. کارهای آینده

با توجه به اینکه کلمات زبان فارسی دارای صورت‌های نگارشی متنوعی هستند و پوشش کلیه حالات دستوری کلمات با به کارگیری یک سری قواعد معین ناممکن است به همین دلیل استخراج کلمات کلیدی به طور خودکار از متون فارسی دشوار و پیچیده است و در زیر برخی از چالش های زبان فارسی آمده است:

  • بررسی و یافتن ضمیر های منفصل و متصل و یافتن مرجع ضمیر و جایگزینی ضمیر با مرجع ضمیر

  • مشکل معنایی با جایگزینی کلمات با ریشه های آن ها

  • مشکل در متون عامیانه

  • دشواری در تعیین اجزای جمله (فعل و فاعل و ...)

  • تشخیص اسم از صفت

  • ...
    که هر کدام از این چالش ها نیاز به آشنایی کامل با دستور زبان فارسی دارد و در آینده سعی خواهد شد با بررسی الگوریتم های دیگر نظیر n-gram و امکان ترکیب ویژگی های مثبت هر الگوریتم راه حل جامع تری ارائه نمود

۸. مشاهده پروژه

(لینک گیت هاب )

۹. مراجع

۱۰. پیوندهای مفید

  1. پردازش زبان فارسی در پایتون

  2. پیکره فارسی همشهری

  3. مسابقه استخراج خودکار کلمات کلیدی در زبان انگلیسی

  4. راهنمایی برای استخراج ویژگی از متن زبان طبیعی

  5. تحلیل سیستم یافتن خودکار کلمات کلیدی متون زبان فارسی، پروژه پیکره زبان فارسی، شورای عالی اطلاع رسانی

  6. https://github.com/boudinfl/pke

  7. www.aclweb.org/anthology/C10-1065

  8. ieeexplore.ieee.org/document/6016631/

  9. ictactjournals.in/paper/IJSC_V5_I4_paper1_1003_1008.pdf

  10. www.ijcte.org/papers/681-A20208.pdf

  11. http://www.cortical.io/extract-keywords.html

  12. https://github.com/mhbashari/awesome-persian-nlp-ir

محمد عبدوس

با سلام و عرض خسته نباشید بابت فعالیتهای صورت گرفته در این فاز. در ادامه به برخی از نکات اشاره شده است که نیاز است تا این موارد بررسی و اصلاح گردد:

1- در قسمت مقدمه، مراجع به جای اینکه در پاورقی ذکر شوند در قسمت مراجع ذکر شوند حتی آدرس سایتها
2-غلطهای املایی در متن اصلاح شوند مثلا "واجه" در قسمت کارهای مرتبط
3- عنوان تصویر استخراج کلمات کلیدی اصلاح شود و مانند پنل قرمز رنگ بالای عکس توضیحات آن نوشته شود
4- پاورقی با رفرنس تفاوت دارد و باید بین آن دو تفاوت قائل شد. مثلا اگر قرار است لاتین کلمه ای در پاورقی ذکر شود باید به جای اینکه از کروشه[] استفاده کنید از اندیس بالای کلمه استفاده کنید.
5- انتظار میرفت در قسمت کارهای مرتبط به مقالات بیشتری ارجاع میشد و همچنین توضیحات مفصل تر و کامل تری داده میشد.یک مقاله برای بررسی کارهای مرتبط قرار داده شده است که خیلی کم است برای مرور کارهای مرتبط .
6- در مورد زبان پیاده سازی در قسمت مقدمه اشاره ای نشده است. آیا هدف استخراج کلمات کلیدی زبان انگلیسی است یا زبان فارسی؟
7- بیان شده است پروژه نهایی کلمات کلیدی به همراه برچسب ها را استخراج میکند. منظور از برچسبها دقیقا مشخص گردد؟ آیا منظور موضوع کلمه کلیدی است؟ مثلا سیاسی، اجتماعی ، اقتصادی و ...؟

موفق باشید

محمد عبدوس

روشهای مختلف پیاده سازی شرح داده نشده اند
تصویر فرمول TF-IDF شامل متون انگلیسی مختلف نیز هست و نیازمند اصلاح است.
قسمت آزمایش ها ناقص است
تعداد مراجع خیلی کم است
ربط کارهای آینده به چالشهای زبان فارسی چیست؟
در کل گزارش نواقص خیلی زیادی دارد

تایید شده

با توجه به حضور در فاز دوم پروژه نتیجه خاصی (دقت به دست آمده از آزمایش ها) گزارش نشده است.
در فاز کار های مرتبط جا داشت مطالعه بیشتری در این زمینه و پژوهش های انجام شده صورت می گرفت.
بهتر می بود الگوریتم پیشهادی به صورت مفصل تر بررسی می شد.
قسمت منابع خوب و بادقت نوشته نشده است.

تایید شده

سلام.
شما مطالعه خوبی بر مساله‌‌ای که انتخاب کرده‌اید داشتید،مساله را شفاف مطرح کردید ولی بهتر بود که اولا از منابع جدیدتری استفاده کنید و دوم این‌که مراحل روش‌های جدیدتری که انجام شده است را بررسی کنید؛ اگر نگاه کنید در منبعتان سال به صورت مشخص ذکر نشده و به صورت 1-20 آمده است. بهتر بود تا علاوه بر بیان روش های دیگر آن ها را باهم مقایسه میکردید تا وقتی خواننده پروژه شما را میخواند در نهایت بداند که کدام روش برای حل این مساله پیشنهاد میشود وبهتر است و روش ها از نظر چه فاکتور هایی نسبت به هم ضعف یا قوت دارند واینکه استفاده از کدام یک از روش ها مفیدتر خواهد بود.در هر متنی که مینویسید اگر جایی از متن،برداشتی از مقاله یا متنی بوده است ویا مستقیما ترجمه ونقل قول عبارات است باید همان جا به آن مطلب ارجاع دهید وباید قسمت مراجع را با دقت بیشتری تکمیل میکردید.بهتر بود که پروژه خود را در سایت گیت هاب در این مرحله قرار میدادید و بهتر بود در توضیحات پروژه و یا در قسمت readme گیت هاب کد پیاده سازی شده را توضیح میدادید این کار باعث میشود که خواننده با کد و نحوه دقیق کار آن آشنا شود.کد خود را هم کامنت گذاری میکردید تا قابل فهم باشد وخروجی کد خود را بهتر بود توضیح میدادید و برنامه را اجرا میکردید واز خروجی ونتایج به دست آمده از کد خود،خواننده متن را مطلع میساختید.بهتر بود داده های ورودی به کد خود را هم برای اجرا معین میکردید وبهتر است نمونه‌ای از کلمات کلیدی استخراج شده از یک متن مشخص را بگذارید تا به صورت شهودی خروجی سیستم قابل مشاهده و ارزیابی کیفی باشد.اگر میخواهید از متن پیکره همشهری به عنوان داده آزمایشی استفاده کنید، برای خواندنش میتوانید از توابع هضم استفاده کنید. هم چنین میتوانید به جای پیاده سازی روال استخراج TF-IDF از متن، از کتابخانه های آماده ای مثل sklearn.feature_extraction.text.TfidfTransformer استفاده کنید.بهتر بود در قسمت کار مرتبط برای روش های پیشنهادی مثال هایی بزنید تا موضوع واضح تر بشود وعکس گذاشته شده در این قسمت را توضیح بیشتری دهید تا برای خواننده ی پروژه ی شما درک این مطلب ملموس تر باشد وبهتر بود نتایج مقایسه ای را نشان میدادید.امیدوارم پیشنهادات بنده به بهبود پروژه شما کمک کند.

تایید شده

قسمت کارهی مرتبط خیلی کوتاه و محدود بود و بهتر بود روش TF-IDF را در کار های مرتبط توضیح میدادید و توضیحی در رابطه با بهبود نتایج ندادید،
خسته نباشید

سلام و خداقوت
بسیار عالی و ممنون از زحماتتون

تایید شده

با سلام
بهتر بود الگوریتم های بیشتری بررسی یا حداقل معرفی می شدند و همین طور مجموعه دادگان پروژه بیشتر از چیزی که ارائه داده شد می بود و همین طور برخی مسائل نگارشی نیز رعایت می شد. به عنوان مثال استفاده از می باشد غلط است و باید از است استفاده شود.
در کل خسته نباشید پروژه خوب و کامل ارزیابی می شود.

محمد عبدوس

با سلام و خداقوت پیرامون انجام پروژه
1- ایرادهای قبلی فاز اول و فاز دوم که نیازمند اصلاح بوده هنوز برطرف نشده است.
2- جدول نتایج پروژه بیان نشده است .
3- پیکره مورد استفاده توضیح داده نشده است.