یکی از یزرگترین اهداف شاخه پردازش زبان طبیعی در هوش مصنوعی، تبدیل متن غیر ساخت‌یافته زبان طبیعی با دانش ساخت‌یافته و ماشین فهم می‌باشد. این هدف ذیل مسائل مختلفی در یادگیری ماشین و پردازش زبان طبیعی از قبیل استخراج اطلاعات، مطالعه ماشینی و ... بیان شده است.
یکی از اشکال مرسوم دانش قابل فهم پردازش توسط ماشین هستان شناسی می‌باشد. هستان‌شناسی مدلی انتزاعی از جهان واقع است که مفاهیم و روابط بین آن‌ها را در حوزه موضوعی مورد بحث نمایش می‌دهد.

روش‌های انسانی و یا با ناظر ایجاد یک هستان‌شناسی، بسیار پر زحمت و پر هزینه می‌باشد و با توجه به محدودیت‌های این روش‌ها، ایجاد یک هستان‌شناسی عام که وابسته به حوزه موضوعی خاصی نباشد با استفاده از روش‌هایی که مستلزم نظارت انسانی می‌باشد بسیار دشوار است. همچنین به مرور زمان و با توجه به پویایی زبان و تغییر و گسترش مفاهیم و روابط در دنیای واقعی، نیاز به گسترش هستان‌شناسی و اضافه شدن مفاهیم و روابط جدید به آن احساس خواهد شد.
گسترش هستان‌شناسی به این معنا می‌باشد که بتوانیم با استفاده از یک هستان‌شناسی موجود به عنوان ورودی و همچنین یک پیکره متنی، مفاهیم و روابط جدید را به هستان شناسی اصلی، اضافه نموده و آن را گسترش دهیم.

در این پروژه قصد داریم روش‌های مختلف گسترش هستان‌شناسی را بررسی نموده و یکی از آن‌ها را پیاده‌سازی کنیم.

این پروژه توسط یک بنگاه تجاری تعریف شده است و اگر به خوبی انجام شود، مورد حمایت قرار می‌گیرد.

۱. توجه بفرمایید

این پروژه را من تغییر دادم و موضوع را "نگاشت و ادغام هستان شناسی" انتخاب کرده ام. از این رو هدف و در نتیجه مقدمه این مطلب تغییر کرده است.

۲. مقدمه

هستان شناسی در اصل یک مفهوم فلسفی بود که طبیعت مفاهیم را توصیف می‌کرد. [2]امروزه هستان شناسی به عنوان یک مشخصه صریح صوری از ادراک مشترک تعریف می‌شود که یک درک مشترک از یک حوزه که می تواند در میان انسان‌ها و سیستم‌های کاربردی ارتباط ایجاد کند را فراهم می‌آورد. [1]
اجزای هستان شناسی، مفاهیم(concept)، روابط(relation)، نمونه‌ها (instance) و بدیهیات (axiom) است. یک مفهوم، یک مجموعه یا کلاس از موجودیت‌ها در یک زمینه را نمایش می دهند. روابط، ارتباط متقابل مفاهیم یا ویژگی‌ها یک مفهوم را نمایش میدهند که به دو دسته رده بندی و انجمنی تقسیم می‌شود. نمونه‌ها چیزهایی هستند که توسط مفاهیم نمایش داده می‌شوند. هستان شناسی به تنهایی دارای نمونه نیست بلکه هستان شناسی به همراه نمونه‌ها یک پایگاه دانش را تولید می‌کند. بدیهیات مقادیر اجباری برای کلاس‌ها یا نمونه‌ها هستند و معمولاً شامل قوانین کلی هستند، مثلاً یک دوره آموزشی حتماً یک مدرس دارد. [3]
بخاطراینکه هیچ معیار مشترکی برای ساخت هستان شناسی وجود ندارد، هستان‌شناسی‌های ناهمگن مختلفی در یک حوزه مشابه ساخته شده است. [2]
هستان شناسی ها دارای دو نوع ناهمگنی هستند: ناهمگنی metadata و ناهمگنی نمونه. موجودیت‌ها (مفهوم، رابطه یا نمونه)ممکن است با معنای یکسان در هستان‌شناسی‌های مختلف برچسب اسم متفاوت داشته باشند و برچسب اسم یکسان ممکن است برای دو موجودیت با معانی متفاوت در دو هستان شناسی به کار رفته باشد؛ نمونه‌ها در هستان شناسی های مختلف دارای نمایش‌های مختلف هستند و هستان شناسی های مختلف ممکن است دارای ساختار رده بندی متفاوت باشند. [3]
وب معنایی (Semantic web) امکان به اشتراک گذاری مطالب مرتبط به یک زمینه خاص را فراهم آورده است. هدف اصلی آن گسترش تکنیک‌های بازیابی اطلاعات به صورت هوشمند است. در تکنیک‌های وب معنایی RDF (یا Resource Description Framework) برای بازگرداندن داده غیرساختیافته به داده ساختیافته مورد استفاده قرار می‌گیرد و ایجاد RDF یک سیستم هستان شناسی برای تبدیل اطلاعات روی وب است. هستان شناسی نقش مهمی در استخراج دانش ایفا می‌کند. در سال‌های گذشته استفاده از هستان شناسی در سیستم‌های بازیابی اطلاعات در زمینه‌های تحقیقاتی مختلف مانند بازیابی اطلاعات مرتبط (Relevant Information Retrieval)، تکنولوژی‌های وب، پردازش زبان طبیعی (Natural Language Processing)، سیستم‌های مدیریت اطلاعات و غیره گسترش یافته است.[5]
شبکه معنایی از چارچوب چندلایه ای استفاده می کند و هستان شناسی در سطحی که از توصیف اسنادی به استنتاج دانش ارتباط ایجاد شده، قرار دارد، پس ساختار هستان شناسی کلید شناسایی وب معنایی است.هستان شناسی برای توصیف مفاهیم و ارتباط بین آنها در یک زمینه یا حتی طیف وسیعتری که این مفاهیم و ارتباطات تنها یک تعریف در حیطه مشترک دارند، استفاده می‌شود، بنابراین انسان و ماشین می‌تواند بین آنها ارتباط برقرار کند [4]. امروزه ما می‌توانیم تعداد روزافزونی هستان شناسی داشته باشیم و ساختار هستان شناسی ها متفاوت باشد و از متدهای مختلفی استفاده کنند. به این منظور که هستان شناسی هایی که توسط خبره‌های (expert) متفاوت ساخته شده اند، برای هم قابل فهم باشد، نگاشت هستان شناسی (ontology mapping) شکل گرفت. نگاشت هستان شناسی برای استفاده مجدد از هستان شناسی موجود، و توسعه و ترکیب آنها با یک متد خاص است که هستان شناسی های مختلف را برای دستیابی به یک پیکره اطلاعات و پایگاه دانش بزرگتر مخلوط می‌کند. [2]
در سالهای اخیر نگاشت و ادغام هستان شناسی‌ها یک مسئله پیچیده برای محققین شده است و مسایل و نکات زیادی در این رابطه مطرح شده است. نگاشت و ادغام هستان شناسی یک رویه برای ساخت یک انباره مشترک با یک پایگاه دانش از دو یا چند هستان شناسی است. هدف اصلی ادغام هستان شناسی، حذف ناسازگاری‌ها است و ممکن است منجر به از دست رفتن برخی اطلاعات ارزشمند شود.
ایده پشتیبان ادغام هستان شناسی برای تولید یک هستان شناسی جدید، تقسیم هستان شناسی به کلاس‌ها یا مفاهیم و پیدا کردن روابط ممکن بین مفاهیم و کلاس‌ها است. دو هستان شناسی مختلف برای یک زمینه، روی هم افتادگی‌های زیادی دارد.
ادغام هستان شناسی، هستان شناسی‌های مختلف را که متعلق به یک موضوع مشابه هستند را ترکیب می‌کند و یک هستان شناسی جدید تولید می‌کند. [5]
نگاشت هستان شناسی یک روش کارآمد برای شناخت ارتباط بین عملکرد هستان‌شناسی های ناهمگن است.نکته مهم در نگاشت هستان شناسی، محاسبه میزان مشابهت میان مفاهیم است. [2]
تفاوت عمده روش‌های مختلف موجود در ادغام و نگاشت هستان شناسی عموماً در روش و تکنیک های به کار رفته برای محاسبه مشابهت است. ما در این پژوهش به دنبال مطالعه روش‌های مختلف در نگاشت هستان‌شناسی هستیم تا در مراحل بعد یکی از این روش‌ها را پیاده سازی و اجرا کنیم.

در شکل زیر دو نمونه از هستان‌شناسی‌های متفاوت برای یک زمینه خاص (در مورد airline reservation ) را نمایش می‌دهیم که مشاهده می‌شود این دو هستان شناسی با هم تفاوت دارند.[6]

۳. تعریف نگاشت دو هستان شناسی

دو هستان شناسی Aو B داده شده، نگاشت یک هستان شناسی با دیگری به این معنا است که برای هر مفهوم (گره) در هستان شناسی A سعی کنیم مترادفی از یک مفهوم (گره) در هستان شناسی B پیدا کنیم که معنا مشابهی داشته باشد و برعکس. [7]
Map: Oi1 -> Oi2
Map (ei1j1) = ei2j2 , if sim(ei1j1, ei2j2) > t with t being threshold
Entity ei1j1 is mapped onto ei2j2; they are semantically identical, each entity ei1j1 is mapped to at most one entity ei2j2

۴. کارهای مرتبط

در این بخش به مطالعه و بازنگری مقالاتی می‌پردازیم که به مقوله ادغام و نگاشت هستان شناسی پرداخته‌اند.
در مقاله[5] با تکیه بر تحلیل معنایی روی هستان شناسی مشابه در یک زمینه خاص عمل ادغام انجام می‌پذیرد.این الگوریتم به صورت کاملاً اتوماتیک است که از معنای کلاس‌ها و خصوصیات (property) با استفاده از[8] Wordnet بهره می‌برد. رویکرد مورد نظر در این مقاله، الگوریتم ادغام هستان شناسی معنایی ( Semantic Ontology Mapping = SOM) است که یک الگوریتم ادغام و نگاشت خودکار هستان شناسی است و هستان شناسی را به دو بخش تقسیم می‌کند ابتدا کلاس‌ها را ادغام می‌کند و سپس ویژگی‌های دو هستان شناسی را ادغام می‌کند. الگوریتم‌های ادغام هستان شناسی در یک زمینه خاص، سعی می کنند معنای مشابه بین دو هستان شناسی مختلف را پیدا کنند تا یک هستان شناسی منسجم ایجاد کنند.ادغام معنایی هستان شناسی این مراحل را طی می‌کنند: اول، دو هستان شناسی روی یک زمینه مشترک را بارگذاری می‌کنند سپس پیش پردازش را با استفاده از ریشه یابی (stemming) اجرا می‌کنند، گام بعدی، تحلیل معنایی با استفاده از Wordnet است که در آن، مترادف کلاس‌ها در هستان شناسی های مختلف پیدا می‌شود. [5]
در مقاله[2] یک متد برای نگاشت هستان شناسی با چند استراتژی (multi strategy mapping) معرفی شده است. شباهت مفاهیم از روی جنبه‌های اسم ، ویژگی و ارتباط مفهوم محاسبه می‌شود. شبیه سازی نشان می‌دهد این رویکرد ، یک الگوریتم کارامد است. چارچوب نگاشت هستان شناسی چند استراتژی، چند ماژول دارد: 1- یک هستان شناسی کاربردی: که شامل هستان شناسی سطح بالای موجود است که برخی مترادف کلمات را در خود دارد. 2- لایه مرجع: شامل جدول تطابق انواع داده و اطلاعات مرتبط با آنها است. جدول تطابق انواع داده یک درجه نگاشت بین همه انواع را توصیف می‌کند.اگر دو نوع داده مشابه هستند دیگر نیاز نیست جدول را چک کنیم. اگر دو نوع داده متفاوتند، باید در جدول جستجو شود. درجه مشابهت بین انواع مختلف داده بین صفر تا یک است. 3- لغات مشترک دامنه: یک اصطلاح وازگانی عمومی در ناحیه مشترک است که براساس Wordnet رده بندی می‌شود. هر خط در جدول برای یک مفهوم، مترادف و نزدیک مترادف است. هنگام محاسبه مشابهت مفاهیم، با وازگان به عنوان مرجع، تنها مشابهت میان مترادف و نزدیک مترادف‌ها محاسبه می‌شود که براساس سیستم Wordnet تعریف می‌شوند. 4- هستان شناسی محلی: توسط کاربران مختلف متناسب با نیازشان ساخته شده است. [2]
در مقاله [9] رویکرد نگاشت هستان شناسی ها مبتنی بر گرامر ساختار درخت بررسی شده است. از آنجاییکه هستان شناسی به صورت سلسله مراتبی طراحی شده است، ما به سادگی می‌توانیم با یک ساختار سلسله مراتبی درختی آن را نمایش بدهیم. جالب است که این رویکرد هم مشابهت ساختار داخلی مفاهیم در هستان شناسی های متفاوت را ترکیب می‌کند و هم مشابهت زبانی مفاهیم را. در این راستا، روابط قویتری بین مفاهیم می‌توان یافت و اعتبار محاسبات تشابه افزایش می‌یابد. در این روش که مبتنی بر ساختار مفاهیم است، درباره سلسله مراتب مفاهیم مانند روابط آنها و معنای همسایگی هنگام عمل نگاشت مطالعه شده است. [9]
در مقاله[3] نگاشت هستان شناسی به عنوان یک مسئله تصمیم گیری درنظر گرفته شده است. تصمیم گیری با کمترین ریسک باید صورت بگیرد و رویکرد Risk Minimization based Ontology Mapping (RiMOM) مورد نظر است که به صورت اتوماتیک پردازش کشف روی نگاشت‌های 1:1، 1:n ، null:1 و 1:null را انجام می‌دهد. استفاده از قانون بیز با همان فرمول‌های رایج برای محاسبه ریسک و احتمالات شرطی در نظر گرفته شده است. Xیک نمونه است که احتمال تعلق آن به یک کلاس مانند Y را به صورت P(X|Y) تعریف میکنیم. در این متد نگاشت، p(ei2|ei1) را به این صورت حساب میکنیم که چقدر احتمال دارد که یک نمونه از هستان شناسی اول با یک نمونه از هستان شناسی دوم نگاشت شود. با محاسبه این احتمالات و محاسبه ریسک تصمیم گیری صورت می‌گیرد. نتایج آزمایش‌ها حاکی از این بودند که روش مورد نظر نتایج بهتری را نسبت به روش های پایه برای کشف نگاشت عمل می‌کند. [3]

۵. آزمایش‌ها

سوالاتی در زمینه نگاشت هستان شناسی مطرح است که قبل از اینکه پیاده سازی این پژوهش باید به آنها پاسخ بدهیم: 1- چگونه مسئله را فرموله کنیم که می‌تواند انواع مختلفی از کاردینالیتی و ناهمگونی نگاشت‌ها را توصیف کند. 2- چگونگی حل مسئله در رویکرد مورد نظر. 3- چگونگی پیاده سازی رویکرد مورد نظر.
در پاسخ به سوال اول، با توجه به اینکه اکثر کارهای صورت گرفته روی نگاشت 1:1 انجام شده اند و پیچیدگی نگاشت های با کاردینالیتی بالاتر بسیار پیچیده است، برای این پژوهش ما نیز نگاشت 1:1 را انتخاب می‌کنیم.
در پاسخ به سوال دوم و سوم در حال حاضر نمی‌توانیم به صورت قطعی صحبت کنیم. پس از مطالعه و بررسی پیچیدگی‌های پیاده سازی هریک از روش‌هایی که در کارهای مرتبط مرور کردیم، رویکری انتخاب خواهیم کرد و متناسب با آن پیاده سازی آغاز خواهد شد.

۶. کارهای آینده

۷. مراجع

[1] Ding, Ying, and Schubert Foo. "Ontology research and development. Part 2-a review of ontology mapping and evolving." Journal of information science 28.5 (2002): 375-388.
[2] Luo, Fuqiang, and Yongfu Xiong. "The method of multi-strategy ontology mapping." Computational and Information Sciences (ICCIS), 2011 International Conference on. IEEE, 2011.
[3] Tang, Jie, et al. "Using Bayesian decision for ontology mapping." Web Semantics: Science, Services and Agents on the World Wide Web 4.4 (2006): 243-262.
[4] Fensel D.The Semantic Web and its languages[J].IEEE Computer Society,2003,pp:67-73.
[5] Vidyarthi, Ankit, et al. "Domain specific ontology merging using semantics."Confluence The Next Generation Information Technology Summit (Confluence), 2014 5th International Conference-. IEEE, 2014.
[6] Noy, Natalya F. "Ontology mapping." Handbook on ontologies. Springer Berlin Heidelberg, 2009. 573-590.
[7] Ehrig, Marc, and York Sure. "Ontology mapping–an integrated approach." The Semantic Web: Research and Applications. Springer Berlin Heidelberg, 2004. 76-91.
[8] http:// en.wikipedia.org/ wiki/WordNet
[9] Li, Sheng, Heping Hu, and Xian Hu. "An ontology mapping method based on tree structure." 2006 Semantics, Knowledge and Grid, Second International Conference on. 2006.

۸. پیوندهای مفید

تایید شده

سلام، خدا قوت.
سعی می‌کنم نکات مثبت و منفی کاری که انجام دادید رو ذکر کنم تا به امید خدا در مراحل بعدی با توجه به این نقد، نکات مثبت بیشتری رو شاهد باشیم و نکات منفی هم به صفر یا حداقل برسه.

نکات مثبت:
۱- در کل ترتیب نوشته‌هاتون خیلی خوبه؛ منظورم اینه که از این شاخه به اون شاخه نپریدید؛ ابتدا در مورد مفهوم هستان‌شناسی صحبت کرید سپس جزئیات رو شرح دادید و بعد از اون هم در مورد هدف اصلی این مقاله یعنی نگاشت و ادغام هستان شناسی صحبت کردید؛ تصاویری هم که در انتهای بخش «مقدمه» قرار دادید، به مقدار زیادی به ابهاماتی که تو ذهنم بود پاسخ دادن. در نتیجه بخش «مقدمه»، برای خوانندگانی مثل من که این موضوع رو برای اولین باره که مشاهده می‌کنند، یک دید جامع و کلی رو ارائه می‌کنه.
۲- نکته‌ی مثبت دیگه‌ی کارتون اینه که برای تک تک مطالبی که ذکر کردید، منبع اون رو هم بیان کردید. این باعث میشه اگه خواننده در مورد بخش خاصی از نوشته‌هاتون علاقه‌مند بود یا بخش خاصی از نوشته‌هاتون رو به صورت کامل متوجه نشد، به منبع اصلی اون مطلب مراجعه کنه. این کارتون یکی از اصول مقاله نویسی است که قابل تحسینه.
۳- اینکه از تمام مقالات ذکر شده در بخش منابع، استفاده نموده‌اید نیز نکته‌ی مثبت دیگه‌ی کارتون است.
۴- نکته‌ی مثبت دیگه‌ای که قابل تحسین است اینه که از برخی مقالاتی استفاده کرده‌اید که اخیراً در کنفرانس‌های مطرح دنیا ارائه شده‌اند و قدیمی نمی‌باشند.

نکات منفی:
۱- موردی که می‌تونه برای خواننده آزار‌دهنده باشه مشکلات نگارشی است. در کل بسیاری از نکات نگارشی رو رعایت کردید، ولی بعضی جاها به جای «نیم‌فاصله» از «فاصله» استفاده نموده‌اید. برای مثال «می+فعل»،«اسم+ها». البته قابل ذکر است که در بیشتر موارد این نکات را رعایت نموده‌اید و تنها در موارد بسیار نادری این مشکل دیده می‌شود.
۲- بهتر بود به جای اینکه لغت انگلیسی کلمات فارسی رو داخل پرانتز و جلوی اون کلمه بنویسید، از زیرنگاشت(Footnote) استفاده می‌کردید. برای مثال می‌توان به «ریشه یابی (stemming)» اشاره کرد.
۳- بعضی مطالب رو به نظرم میتونستین ترجمه‌ی بهتری ارائه کنید یا اصلا نیازی به ترجمه نبود و می‌تونستید فقط درک خودتون از اون مسئله رو بنویسید. برای مثال می‌تونم به این بخش اشاره کنم: «در تکنیک‌های وب معنایی RDF (یا Resource Description Framework) برای بازگرداندن داده غیرساختیافته به داده ساختیافته مورد استفاده قرار می‌گیرد و ایجاد RDF یک سیستم هستان شناسی برای تبدیل اطلاعات روی وب است.»
۴- مطالبی که در بخش «آزمایش‌ها» ذکر کردید رو بهتر بود در بخش «مقدمه» یا «کارهای مرتبط» ذکر کنید. چون در بخش «آزمایش‌‌ها» باید در مورد آزمایش‌های عملی صورت گرفته و نتایج اون بحث بشه.
۵- هنوز نتونستم درک دقیقی از ادغام و نگاشت هستان‌شناسی و تفاوت اون‌ها داشته باشم. به نظرم بهتر بود مثالی از دو هستان‌شناسی مختلف و نتیجه‌ی ادغام اون‌ها رو ذکر می‌کردید و مراحل این ادغام رو به صورت مختصر توضیح می‌دادید.
۶- در مقاله‌ی شماره‌ی ۲ یعنی متد «نگاشت هستان‌شناسی با چند استراتژی»، متوجه نشدم. در ماژول شماره‌ی ۲ یعنی «لایه‌ی مرجع»، این‌که ذکر کردید «یک درجه‌ی نگاشت بین همه‌ی انواع را توصیف می‌کند» به چه معناست و به چه دلیلی فقط داده‌های متفاوت در جدول جستجو می‌شوند و داده‌های مشابه جستجو نمی‌شوند؟
۷- بهتر بود در بخش کار‌های مرتبط، بیشتر وارد جزئیات می‌شدید و الگوریتم‌های به کار رفته در کار‌های مرتبط را نیز توضیح می‌دادید.

نتیجه: همون‌طور که مشخصه نکات منفی کارتون خیلی ریز هستند و می‌توانند به راحتی برطرف شوند. نکته‌ی مهم کار شما اینه که مقاله‌ به صورتی نوشته شده که جامع و قابل فهم باشد. با تشکر از شما.

توضیحاتی که در مورد ادغام هستان شناسی واهمیت آن داده اید خیلی خوبه، ارائه توضیحات در مورد مفاهیم مختلف ترتیب منطقی و درستی داشت. مقاله های خوبی هم مطالعه کردید و در مورد آن ها توضیح دادید.
در کل متن خیلی خوب و جامعی نوشته شده و ولی تصاویری که استفاده کرده اید قابل مشاهده نیستند و فرمول ها هم نا مرتبند.

مجید عسگری بیدهندی

دوستان شما مخصوصا آقای سلیمی نقدهای خوبی را برایتان نوشته‌اند و من تنها به چند نکته کوتاه اشاره می‌کنم.
۱- اینکه روی عنوان پروژه حساس بوده‌اید و آن را تغییر داده‌اید بسیار نکته خوبی است. از نظر من هم مقدمه‌ی بسیار خوبی نوشته‌اید و مشخص است که زیربنای کار شما مناسب است.
۲- نیاز است مثال‌های بیشتری را ذکر کنید. مخصوصا در جای مهمی مانند تعریف هستان‌شناسی که انواع اجزای آن ذکر شده‌اند، هیچ مثالی در مورد اجزا آورده نشده است. مثلا یک نمونه از مفاهیم یا یک نمونه از بدیهیات می‌توانست مطلب را برای خواننده‌ی ناآشنا با هستان شناسی ملموس‌تر کند.
۳- بهتر بود بین بخش های کارهای مرتبط و آزمایش‌ها بخشی با عنوان روش‌کار ذکر شده و مطالب مربوط به آزمایش‌ها به آن‌جا منتقل می‌شد.
۴- در بخش مقدمه می‌توانستید نام تعدادی از پروژه‌های هستان‌شناسی را ذکر کنید.
۵- به نظر من اینکه برای تمام عبارات انگلیسی معادل فارسی انتخاب کرده‌اید بسیار خوب است (بر خلاف نظر جناب سلیمی)
۶- توالی معرفی کارهای صورت گرفته در بخش کارهای مرتبط کمی عجیب و بی‌نظم است. ابتدا یک کار که در سال ۲۰۱۴ انجام شده، بعد کاری که در ۲۰۱۱ انجام شده و بعد کارهایی که در ۲۰۰۶ انجام شده‌اند. بهتر است مطالب این بخش طوری ساماندهی شوند که خواننده بتواند درکی از سیر زمانی کارهای صورت گرفته پیدا کند.