یکی از یزرگترین اهداف شاخه پردازش زبان طبیعی در هوش مصنوعی، تبدیل متن غیر ساخت‌یافته زبان طبیعی با دانش ساخت‌یافته و ماشین فهم می‌باشد. این هدف زیل مسائل مختلفی در یادگیری ماشین و پردازش زبان طبیعی از قبیل استخراج اطلاعات، مطالعه ماشینی و ... بیان شده است.
یکی از اشکال مرسوم دانش قابل فهم پردازش توسط ماشین هستان شناسی می‌باشد. هستان‌شناسی مدلی انتزاعی از جهان واقع است که مفاهیم و روابط بین آن‌ها را در حوزه موضوعی مورد بحث نمایش می‌دهد.

روش‌های انسانی و یا با ناظر ایجاد یک هستان‌شناسی، بسیار پر زحمت و پر هزینه می‌باشد و با توجه به محدودیت‌های این روش‌ها، ایجاد یک هستان‌شناسی عام که وابسته به حوزه موضوعی خاصی نباشد با استفاده از روش‌هایی که مستلزم نظارت انسانی می‌باشد بسیار دشوار است. همچنین به مرور زمان و با توجه به پویایی زبان و تغییر و گسترش مفاهیم و روابط در دنیای واقعی، نیاز به گسترش هستان‌شناسی و اضافه شدن مفاهیم و روابط جدید به آن احساس خواهد شد.
گسترش هستان‌شناسی به این معنا می‌باشد که بتوانیم با استفاده از یک هستان‌شناسی موجود به عنوان ورودی و همچنین یک پیکره متنی، مفاهیم و روابط جدید را به هستان شناسی اصلی، اضافه نموده و آن را گسترش دهیم.

در این پروژه قصد داریم روش‌های مختلف گسترش هستان‌شناسی را بررسی نموده و یکی از آن‌ها را پیاده‌سازی کنیم.

این پروژه توسط یک بنگاه تجاری تعریف شده است و اگر به خوبی انجام شود، مورد حمایت قرار می‌گیرد.

۱. مقدمه

هستان شناسی مدلی انتزاعی از جهان واقع است که مفاهیم و روابط میان آنها را در قلمروی مورد بحث نمایش می‌دهد. هستان‌شناسی‌ها در قلمروهای مختلف کاربرد دارند و ساخت انواع آنها برای قلمروها فرآیندی پرهزینه و زمان‌گیر است. خودکار سازی این فرآیند مشکلات مهندسی هستان شناسی را محدود و هزینه ساخت و استفاده اشتراکی از آنها را کاهش می‌دهد.
هستان شناسی را می‌توان با یک گراف جهتدار نشان داد که مفاهیم، گره‌های گراف باشند و روابط هم یال‌ها.[1]
برای استخراج دانش مفهومی از روشها و الگوریتم‌های رشته های مختلفی مانند پردازش زبان طبیعی، مهندسی دانش، یادگیری ماشینی، اکتساب دانش، استخراج اطلاعات، استدلال خودکار و پردازش نمادین و احتمالاتی استفاده می‌شود. در چند دهه اخیر فعالیت‌هایی در زمینه یادگیری هستان شناسی انجام و روش‌ها، متدولوژی‌ها، ابزارها و سیستم‌های مختلفی نیز ارایه شده‌اند. برخی از این سیستم‌ها از روشهای آماری، برخی از روش‌های نمادین و برخی دیگر نیز از ترکیب این دو جهت یادگیری هستان شناسی بهره می‌برند. همچنین بعضی سیستم‌های یادگیر، ورودی خود را از متون زبان طبیعی و برخی دیگر از داده های نیمه ساخت یافته مانند مستندات XMLو HTML و یا داده‌های ساخت یافته مانند پایگاه‌های دانش و هستان شناسی های دیگر تامین می‌کنند. [5]
یادگیری هستان شناسی از متون یک فرآیند شناسایی عبارات، مفاهیم، روابط و اصول بدیهی از متون و استفاده از آنها برای ساخت و نگهداری هستان‌شناسی است. خروجی یادگیری هستان شناسی را به پنج دسته می‌توان تقسیم کرد: عبارات، مفاهیم، روابط طبقه بندی، روابط غیرطبقه‌بندی، اصول بدیهی.
در بحث استخراج اطلاعات که دانش به صورت اتوماتیک از متن استخراج می‌شود. ما معتقدیم که توانایی کشف کامل دانش ارایه شده در پیکره بزرگ، غیرساخت یافته و ناهمگن، نیاز به یک پردازش آموزشی طولانی مدت دارد. در این میان سیستم‌هایی مانند Alice – یک عامل آموزشی بلندمدت با هدف کشف خودکار مجموعه مفاهیم و واقعیت‌ها و تعمیم که موضوع خاصی را مستقیماً از متون وب توضیح می‌دهد- وجود دارند که از روش‌های بدون ناظر برای استخراج دانش استفاده می‌کند. [2]

مورد

۲. کارهای مرتبط

با مطالعه کارهای انجام شده در زمینه هستان شناسی درمی‌یابیم که: 1) یک متدولوژی جزیی که فرآیند یادگیری هستان شناسی از متون را راهنمایی کند، وجود ندارد. 2) سیستم کاملاً خودکار برای یادگیری هستان شناسی و نیازمندهایی که کاربر در استخراج مفاهیم و روابط از پیکره حاشیه نویسی شده، دارد وجود ندارد. 3) نیاز به یک رویکرد عمومی برای ارزیابی دقت یادگیری هستان شناسی و مقایسه نتایج تولید شده توسط سیستم‌های مختلف وجود ندارد.
در پژوهشی که توسط Ding and Foo در سال 2002 انجام شد و دوازده پروژه بزرگ یادگیری هستان شناسی مطالعه شده بود، دستاوردها حاکی از این بودند که: 1) داده ورودی اکثراً ساختیافته بودند و یادگیری از متون آزاد در حیطه تحقیقات باقی مانده است. 2) کشف روابط خیلی پیچیده است و برای حل مشکل بسیار پیچیده‌ای است و به عنوان یک مانع باقی مانده است. 3) تکنیک‌های کشف مفاهیم در سطوح خاصی از رشد باقی مانده است.[6]
با نگاهی دقیقتر به پژوهش های انجام شده متوجه می‌شویم که یادگیری هستان شناسی به صورت کاملاً خودکار غیرممکن است. از طرفی دیگر، کشف روابط بین مفاهیم، بخصوص روابط جزیی، نیاز به کار بیشتری دارد.
تکنیک‌های یادگیری هستان‌شناسی که در حال حاضر وجود دارد را به صورت خلاصه می‌توان به شرح زیر توضیح داد.
بازیابی اطلاعات الگوریتم‌های مختلفی برای تحلیل اجتماعی بین مفاهیم و مفاهیم با استفاده از بردارها، ماتریس‌ها و تئوری‌های احتمالات فراهم کرده است. از سوی دیگر، یادگیری ماشین و داده کاوی، یادگیری ماشین با قابلیت استخراج قوانین و الگوها از پایگاه داده های حجیم به روش‌های نظارتی و بدون ناظر را ایجاد کرده است. پردازش زبان طبیعی ابزارهایی برای تحلیل متون زبان طبیعی در سطوح مختلف زبانی (مانند ریخت‌شناسی، نحو، معنا و...) برای یافتن نمایش مفاهیم و روابط آنها ایجاد کرده است. نمایش دانش و استنتاج اجزای هستان شناسانه را قادر می‌کنند به صورتی نمایش داده شوند و مشخص شوند که دانش جدید بتواند استنباط شود.
در کل، تکنیک‌های مختلف می‌توان به چهار دسته تقسیم کرد: مبتنی بر آمار، مبتنی بر زباشناسی، مبتنی بر منطق و ترکیبی.
1) تکنیک‌های مبتنی بر آمار: این تکنیک‌ها از بازیابی اطلاعات، یادگیری ماشین و داده کاوی نشأت گرفته‌اند. تکنیک‌های رده بندی، تحلیل معنایی نهفته، تحلیل وقوع همزمان، استنتاج عبارات، تحلیل تباین و کاویدن قوانین اجتماع از این دسته هستند. ایده اصلی آن این است که وقوع همزمان واحدهای واژگانی در نمونه‌ها یک تخمین قابل اعتماد درباره هویت معناییشان ایجاد می‌کند تا بتوانیم موجودیت‌های سطح بالاتر تولید کنیم.
2) تکنیک‌های مبتنی بر زبانشناسی: در تمام زمینه های یادگیری هستان شناسی کاربرد دارد بخصوص در ابزارهای پردازش زبان طبیعی. برخی از این تکنیک‌ها عبارتند از: برچسب زن مقوله نحوی، تجزیه کننده جملات، تحلیل ساختار نحوی و تحلیل وابستگی.
3) تکنیک‌ها و منابع مبتنی بر منطق: این تکنیک‌ها خیلی رایج نیستند و معمولاً برای کاربردهای خیلی پیچیده مانند روابط و مفاهیم بدیهی کاربرد دارند. تکنیک‌های مبتنی بر منطق با پیشروی در نمایش دانش و استنتاج و یادگیری ماشین، ارتباط دارد. تکنیک‌های برنامه نویسی منطق استقرایی و استنباط منطقی از این دسته هستند.[1]

درانتها می‌توان گفت که در این فاز از پروژه به بررسی و کسب شناخت اولیه در حیطه هستان‌شناسی و بررسی اجمالی از کارهایی که در این زمینه صورت گرفته، پرداختیم. در فازهای بعدی یکی از روش‌های موجود در این حوزه بررسی و انتخاب خواهد شد تا به مرحله پیاده سازی برسد.

۳. آزمایش‌ها

۴. کارهای آینده

۵. مراجع

[1] Wong, Wilson, Wei Liu, and Mohammed Bennamoun. "Ontology learning from text: A look back and into the future." ACM Computing Surveys (CSUR) 44.4 (2012): 20.‏
[2] Banko, Michele, and Oren Etzioni. "Strategies for lifelong knowledge extraction from the web." Proceedings of the 4th international conference on Knowledge capture. ACM, 2007.‏
[3] Carlson, Andrew, et al. "Toward an Architecture for Never-Ending Language Learning." AAAI. Vol. 5. 2010.‏
[4] Nakashole, Ndapandula T. "Automatic extraction of facts, relations, and entities for web-scale knowledge base population." (2013).‏
[5]Shamsfard, Mehrnoush, and Ahmad Abdollahzadeh Barforoush. "Learning ontologies from natural language texts." International journal of human-computer studies 60.1 (2004): 17-63.
[6]Ding, Ying, and Schubert Foo. "Ontology research and development. Part 1-a review of ontology generation." Journal of information science 28.2 (2002): 123-136.
[7]Ding, Zhongli, and Yun Peng. "A probabilistic extension to ontology language OWL." System Sciences, 2004. Proceedings of the 37th Annual Hawaii international conference on. IEEE, 2004.
[8]Maedche, Alexander, and Steffen Staab. "Ontology learning for the semantic web." IEEE Intelligent systems 16.2 (2001): 72-79.

۶. پیوندهای مفید

مجید عسگری بیدهندی

تعاریف در ابتدای تحقیق باید دارای ارجاع باشند.
جملات ابتدایی در مورد هستان‌شناسی خوش‌خوان و مناسب هستند که خواننده را سردرگم نمی‌کنند. حتی اگر از جایی کپی شده باشند، ارزشمند هستند چون به احتمال فراوان نویسنده آن‌ها را به خوبی فهمیده است. البته جملات انتهایی بخش مقدمه نیاز به بازنویسی دارند.
به مقدمه به قدر کافی پرداخته نشده است. نویسنده می‌توانست دست کم تعدادی مثال در مورد هستان‌شناسی بیاورد. شکل یا جدولی را نمایش دهد. به طور کلی جملات خوب ابتدای مقدمه، به طور ناگهانی تمام می‌شود و خواننده آشنایی لازم را با موضوع کسب نمی‌کند.
ترجمه بخش کارهای مرتبط اصلا خوب نیست. پیوستگی کافی بین مطالب موجود نیست و مشخص نیست منبع قدیمی مربوط به سال ۲۰۰۲ چه ربطی (در بخش کارهای مرتبط قرار داریم!) به موضوع تحقیق دارد. جمله‌ی «با نگاهی دقیقتر به پژوهش های انجام شده متوجه می‌شویم که یادگیری هستان شناسی به صورت کاملاً خودکار غیرممکن است. از طرفی دیگر، کشف روابط بین مفاهیم، بخصوص روابط جزیی، نیاز به کار بیشتری دارد.» و تمام جملات مربوط به آن می‌توانست در مقدمه ذکر شود نه کارهای مرتبط. به طور کلی شما بخش کارهای مرتبط ندارید. خوب بود این بخش را کلا به مقدمه منتقل می‌کردید و فعلا بخش کارهای مرتبط را نمی‌نوشتید.
«در کل، تکنیک‌های مختلف می‌توان به چهار دسته تقسیم کرد: مبتنی بر آمار، مبتنی بر زباشناسی، مبتنی بر منطق و ترکیبی.» تکنیک‌های مختلف چه کاری؟! خواننده باید تا انتها مطلب را بخواند تا بفهمد در مورد چه چیزی صحبت شده است. جالب اینجاست که نویسنده فراموش کرده روش چهارم را توضیح دهد!
یک غلط دیکته‌ای!! هم هست؛ صرفا جهت اطلاع. زیل = ذیل

نگاشت و ادغام هستان شناسی

۱. مقدمه

۲. کارهای مرتبط

۳. آزمایش‌ها

۴. کارهای آینده

۵. مراجع

۶. پیوندهای مفید