نگاشت و ادغام هستان شناسی

یکی از بزرگترین اهداف شاخه پردازش زبان طبیعی در هوش مصنوعی، تبدیل متن غیر ساخت‌یافته زبان طبیعی با دانش ساخت‌یافته و ماشین فهم می‌باشد. این هدف ذیل مسائل مختلفی در یادگیری ماشین و پردازش زبان طبیعی از قبیل استخراج اطلاعات، مطالعه ماشینی و ... بیان شده است.
یکی از اشکال مرسوم دانش قابل فهم پردازش توسط ماشین هستان شناسی می‌باشد. هستان‌شناسی مدلی انتزاعی از جهان واقع است که مفاهیم و روابط بین آن‌ها را در حوزه موضوعی مورد بحث نمایش می‌دهد.

در این پروژه قصد داریم روش‌های مختلف ادغام و نگاشت هستان‌شناسی ها را بررسی نموده و یکی از آن‌ها را پیاده‌سازی کنیم.

مقدمه

هستان‌شناسی1 در اصل یک مفهوم فلسفی بود که طبیعت مفاهیم را توصیف می‌کرد. [2]امروزه هستان شناسی به عنوان یک مشخصه صریح صوری از ادراک مشترک تعریف می‌شود که یک درک مشترک از یک حوزه که می تواند در میان انسان‌ها و سیستم‌های کاربردی ارتباط ایجاد کند را فراهم می‌آورد. [1]
اجزای هستان شناسی، مفاهیم2، روابط 3، نمونه‌ها 4 و بدیهیات 5 است. یک مفهوم، یک مجموعه یا کلاس از موجودیت‌ها در یک زمینه را نمایش می دهند. روابط، ارتباط متقابل مفاهیم یا ویژگی‌ها یک مفهوم را نمایش می‌دهند که به دو دسته رده بندی و انجمنی تقسیم می‌شود. نمونه‌ها چیزهایی هستند که توسط مفاهیم نمایش داده می‌شوند. هستان شناسی به تنهایی دارای نمونه نیست بلکه هستان شناسی به همراه نمونه‌ها یک پایگاه دانش را تولید می‌کند. بدیهیات مقادیر اجباری برای کلاس‌ها یا نمونه‌ها هستند و معمولاً شامل قوانین کلی هستند، مثلاً یک دوره آموزشی حتماً یک مدرس دارد. [3]یک مثال می‌تواند این باشد که مفاهیم "human"، "male" و "female" را تعریف کنیم و بین آنها رابطه "is a" را می‌گذاریم. نمونه‌ها در این مثال می‌توانند دو نفر به نام‌های زهرا و علی باشند. بدیهیات برای "human" هم این در نظر می‌گیریم که یک سر، یک قلب و یک مغز دارد. این بدیهیات به مفاهیم " male " و " female " به ارث می‌رسد.

مثال
مثال

یک نمونه پرکاربرد از هستان‌شناسی، وردنت6 است. وردنت یک پایگاه داده بزرگ از کلمات یک زبان است که اسم‌ها، افعال، صفات و قیود را در گروه‌های هم معنا که یک معنای مشترک را می‌رسانند، قرار می‌گیرند.فارس نت (وردنت عمومی زبان فارسی) پایگاه دانشی است که حاوی اطلاعات درمورد واژه‌ها و ترکیبات زبان (مفاهیم)، اطلاعات نحوی آنها و روابط معنایی میان آنها است.[10] برای زبان‌های مختلف از جمله عربی، فارسی، انگلیسی و... وردنت تهیه شده است و قابل دسترس است.

بخاطراینکه هیچ معیار مشترکی برای ساخت هستان شناسی وجود ندارد، هستان‌شناسی‌های ناهمگن مختلفی در یک حوزه مشابه ساخته شده است. [2]
هستان شناسی ها دارای دو نوع ناهمگنی هستند: ناهمگنی metadata و ناهمگنی نمونه. موجودیت‌ها (مفهوم، رابطه یا نمونه)ممکن است با معنای یکسان در هستان‌شناسی‌های مختلف برچسب اسم متفاوت داشته باشند و برچسب اسم یکسان ممکن است برای دو موجودیت با معانی متفاوت در دو هستان شناسی به کار رفته باشد؛ نمونه‌ها در هستان شناسی های مختلف دارای نمایش‌های مختلف هستند و هستان شناسی‌های مختلف ممکن است دارای ساختار رده بندی متفاوت باشند. [3]
وب معنایی 7 امکان به اشتراک گذاری مطالب مرتبط به یک زمینه خاص را فراهم آورده است. هدف اصلی آن گسترش تکنیک‌های بازیابی اطلاعات به صورت هوشمند است. در تکنیک‌های وب معنایی RDF 8 برای بازگرداندن داده غیرساختیافته به داده ساختیافته مورد استفاده قرار می‌گیرد . RDF یا چارچوب توصیف منابع نوعی مدل داده‌ای است که برای ذخیره و بازیابی معنای قابل پردازش توسط ماشین بکار می‌رود. معنا نسبت به اطلاعات در سطح انتزاعی بالاتری قرار می‌گیرد و هدف از RDF امکان پذیر کردن تفکر ماشینی‌ست. RDF/XMLنمایش مدل داده‌ای RDF به زبان XML می‌باشد. محتوای معناییِ ذخیره شده در یک فایل RDF، بوسیله‌ی زبان اسپارکل قابل بازیابیست.[8]
هستان شناسی نقش مهمی در استخراج دانش ایفا می‌کند. در سال‌های گذشته استفاده از هستان شناسی در سیستم‌های بازیابی اطلاعات در زمینه‌های تحقیقاتی مختلف مانند بازیابی اطلاعات مرتبط 9، تکنولوژی‌های وب، پردازش زبان طبیعی10، سیستم‌های مدیریت اطلاعات و غیره گسترش یافته است.[5]
شبکه معنایی از چارچوب چندلایه‌ای استفاده می کند و هستان شناسی در سطحی که از توصیف اسنادی به استنتاج دانش ارتباط ایجاد شده، قرار دارد، پس ساختار هستان شناسی کلید شناسایی وب معنایی است.هستان شناسی برای توصیف مفاهیم و ارتباط بین آنها در یک زمینه یا حتی طیف وسیع‌تری که این مفاهیم و ارتباطات تنها یک تعریف در حیطه مشترک دارند، استفاده می‌شود، بنابراین انسان و ماشین می‌تواند بین آنها ارتباط برقرار کند [4]. امروزه ما می‌توانیم تعداد روزافزونی هستان شناسی داشته باشیم و ساختار هستان شناسی ها متفاوت باشد و از متدهای مختلفی استفاده کنند. به این منظور که هستان شناسی هایی که توسط خبره‌های 11 متفاوت ساخته شده‌اند، برای هم قابل فهم باشد، نگاشت هستان شناسی 12 شکل گرفت. نگاشت هستان شناسی برای استفاده مجدد از هستان شناسی موجود، و توسعه و ترکیب آنها با یک متد خاص است که هستان شناسی‌های مختلف را برای دستیابی به یک پیکره اطلاعات و پایگاه دانش بزرگتر مخلوط می‌کند. [2]
در سال‌های اخیر نگاشت و ادغام هستان شناسی‌ها یک مسئله پیچیده برای محققین شده است و مسایل و نکات زیادی در این رابطه مطرح شده است. نگاشت و ادغام هستان شناسی یک رویه برای ساخت یک انباره مشترک با یک پایگاه دانش از دو یا چند هستان شناسی است. هدف اصلی ادغام هستان شناسی، حذف ناسازگاری‌ها است و ممکن است منجر به از دست رفتن برخی اطلاعات ارزشمند شود.
ایده پشتیبان ادغام هستان شناسی برای تولید یک هستان شناسی جدید، تقسیم هستان شناسی به کلاس‌ها یا مفاهیم و پیدا کردن روابط ممکن بین مفاهیم و کلاس‌ها است. دو هستان شناسی مختلف برای یک زمینه، روی هم افتادگی‌های زیادی دارد.
ادغام هستان شناسی، هستان شناسی‌های مختلف را که متعلق به یک موضوع مشابه هستند را ترکیب می‌کند و یک هستان شناسی جدید تولید می‌کند. [5]
نگاشت هستان شناسی یک روش کارآمد برای شناخت ارتباط بین عملکرد هستان‌شناسی های ناهمگن است.نکته مهم در نگاشت هستان شناسی، محاسبه میزان مشابهت 13میان مفاهیم است. [2]
تفاوت عمده روش‌های مختلف موجود در ادغام و نگاشت هستان شناسی عموماً در روش و تکنیک‌های به کار رفته برای محاسبه مشابهت است. ما در این پژوهش به دنبال مطالعه روش‌های مختلف در نگاشت هستان‌شناسی هستیم.

در شکل زیر دو نمونه از هستان‌شناسی‌های متفاوت برای یک زمینه خاص (در مورد airline reservation ) را نمایش می‌دهیم که مشاهده می‌شود این دو هستان شناسی با هم تفاوت دارند.[6]

هستان شناسی 1
هستان شناسی 1

هستان شناسی 2
هستان شناسی 2

کارهای مرتبط

در این بخش به مطالعه و بازنگری مقالاتی می‌پردازیم که به مقوله ادغام و نگاشت هستان شناسی پرداخته‌اند.
در سال 2006، Sheng و همکاران در مقاله [9] رویکرد نگاشت هستان شناسی ها مبتنی بر گرامر ساختار درخت بررسی شده است. از آنجاییکه هستان شناسی به صورت سلسله مراتبی طراحی شده است، ما به سادگی می‌توانیم با یک ساختار سلسله مراتبی درختی آن را نمایش بدهیم. جالب است که این رویکرد هم مشابهت ساختار داخلی مفاهیم در هستان شناسی های متفاوت را ترکیب می‌کند و هم مشابهت زبانی مفاهیم را. در این راستا، روابط قویتری بین مفاهیم می‌توان یافت و اعتبار محاسبات تشابه افزایش می‌یابد. در این روش که مبتنی بر ساختار مفاهیم است، درباره سلسله مراتب مفاهیم مانند روابط آنها و معنای همسایگی هنگام عمل نگاشت مطالعه شده است. [9]
در مقاله[3] در سال 2006، نگاشت هستان شناسی به عنوان یک مسئله تصمیم گیری درنظر گرفته شده است. تصمیم گیری با کمترین ریسک باید صورت بگیرد و رویکرد Risk Minimization based Ontology Mapping 14 مورد نظر است که به صورت اتوماتیک پردازش کشف روی نگاشت‌های 1:1، 1:n ، null:1 و 1:null را انجام می‌دهد. استفاده از قانون بیز با همان فرمول‌های رایج برای محاسبه ریسک و احتمالات شرطی در نظر گرفته شده است. Xیک نمونه است که احتمال تعلق آن به یک کلاس مانند Y را به صورت P(X|Y) تعریف میکنیم. در این متد نگاشت، p(ei2|ei1) را به این صورت حساب میکنیم که چقدر احتمال دارد که یک نمونه از هستان شناسی اول با یک نمونه از هستان شناسی دوم نگاشت شود. با محاسبه این احتمالات و محاسبه ریسک تصمیم گیری صورت می‌گیرد. نتایج آزمایش‌ها حاکی از این بودند که روش مورد نظر نتایج بهتری را نسبت به روش های پایه برای کشف نگاشت عمل می‌کند. [3]
در مقاله[2] در سال 2011، یک متد برای نگاشت هستان شناسی با چند استراتژی 15 معرفی شده است. شباهت مفاهیم16 از روی جنبه‌های اسم 17، ویژگی18 و ارتباط مفهوم محاسبه می‌شود. شبیه سازی نشان می‌دهد این رویکرد ، یک الگوریتم کارامد است. . مزیت این متد این است که مجموعه کاندیدها و Information gain را در محاسبه مشابهت به کار می‌برد تا دقت را افزایش دهد.
وقتی Sim(e,f)=0 یعنی دو مفهوم (اسم ، ویژگی یا ارتباط) از هم مستقل هستند و هیچ مشابهتی ندارند و برعکس اگر Sim(e,f)=1 باشد یعنی این دو مفهوم کاملاً مشابه هستند.
در شکل زیر، رویه محاسبه مشابهت نمایش داده شده است. این رویه به این صورت است که از بین مجموعه کاندیدها به ترتیب میزان مشابهت اسم ، ویژگی و ارتباط بین دو مفهوم محاسبه می‌شود و سپس براساس وزن‌هایی که تولید می‌شود ادغام دو هستان‌شناسی انجام می‌شود. در محاسبه میزان مشابهت ویژگی‌های مفاهیم، به این دلیل که از Information gain استفاده شده، محاسبه میزان مشابهت دو مفهوم در این روش با دقت بالاتر و آسان‌تر انجام می‌شود.[2]

روش چند استراتژی
روش چند استراتژی

سال 2014 ، Vidyarthi و همکاران در مقاله[5] با تکیه بر تحلیل معنایی روی هستان‌شناسی مشابه در یک زمینه خاص عمل ادغام را انجام دادند. این الگوریتم به صورت کاملاً اتوماتیک است که از معنای کلاس‌ها و خصوصیات 19 با استفاده از[8] Wordnet بهره می‌برد. رویکرد مورد نظر در این مقاله، الگوریتم ادغام هستان شناسی معنایی 20 است که یک الگوریتم ادغام و نگاشت خودکار هستان شناسی است و هستان شناسی را به دو بخش تقسیم می‌کند ابتدا کلاس‌ها را ادغام می‌کند و سپس ویژگی‌های دو هستان شناسی را ادغام می‌کند. الگوریتم‌های ادغام هستان شناسی در یک زمینه خاص، سعی می‌کنند معنای مشابه بین دو هستان شناسی مختلف را پیدا کنند تا یک هستان شناسی منسجم ایجاد کنند.ادغام معنایی هستان شناسی این مراحل را طی می‌کنند: اول، دو هستان شناسی روی یک زمینه مشترک را بارگذاری می‌کنند سپس پیش پردازش را با استفاده از ریشه یابی 21 اجرا می‌کنند، گام بعدی، تحلیل معنایی با استفاده از Wordnet است که در آن، مترادف کلاس‌ها در هستان‌شناسی‌های مختلف پیدا می‌شود. [5]

ontology alignment

تلفیق هستان‌شناسی‌ها نیازمند پیدا کردن ارتباط بین موجودیت‌های22 هستان‌شناسی‌هاست. Alignment مجموعه‌ای از ارتباطات بین موجودیت‌ها در دو هستان‌شناسی را نمایش می‌دهد. مزایای استفاده از Alignment عبارتند از :
از منظر وب معنایی، به منظور یافتن پویا و استفاده مجدد از ارتباطات موجود؛
از منظر مهندسی نرم افزار، Alignment می‌تواند از یک برنامه به برنامه دیگری منتقل شود؛
از منظر مدیریت و مهندسی هستان‌شناسی، Alignmentها می‌توانند در طول دوره حیات هستان‌شناسی با یکدیگر رشد کنند.[11]

The Alignment API

کلاس‌های اصلی این API به شرح زیر است:
شبکه هستان‌شناسی [^OntologyNetwork]: یک بسته شامل مجموعه‌ای از هستان‌شناسی‌ها و یک مجموعه از هم‌ترازی‌ها است. که باعث می‌شود بازیابی همترازی‌های مربوط به یک هستان‌شناسی وقتی در شبکه دستخوش تغییر می‌شود، آسان شود.
هم‌ترازی [^Alignment]: کلاس اصلی است که مجموعه‌ای از سلول‌ها و متادیتا درباره هم‌ترازی‌ها است مانند هستان‌شناسی‌های ترازبندی شده، منشأ متادیتا و هر متادیتایی که می‌تواند به یک هم‌ترازی مربوط باشد.
سلول [^Cell]: یک ارتباط را نمایش می‌دهد، که دو موجودیت را در یک رابطه قرار می‌دهد. موجودیت می‌تواند هر جزء مشخصه از یک هستان‌شناسی باشد. همچنین سلول هر نوع از متادیتای اضافه شده را می‌پذیرد.
رابطه : یک ارتباط بین دو موجودیت را نشان می‌دهد. این کلاس‌ها دسترسی به اطلاعات درون نمونه‌ها را فراهم می‌کند. همچنین متدهای محلی برای دستکاری کردن این اطلاعات وجود دارد مانند اضافه کردن ارتباط به هم‌ترازی، قطع ارتباط با توجه به آستانه اطمینان و...
پردازش هم‌ترازی [^AlignmentProcess]: یک واسط برای همه تطابق‌گرهاست. تطابق دو هستان‌شناسی با گام‌های زیر به دست می‌آید: ساخت یک نمونه از یک همترازی پس از اجرای AlignmentProcess و مقداردهی اولیه آن با دو نمونه از هستان‌شناسی، سپس فراخوانی متد align. این متد دو جزء را می‌گیرد: یک همترازی اولیه که ممکن است توسط تطابق‌گر ارایه شده باشد و یک ویژگی نمونه که پارامترهایش از تطابق‌گر استخراج شده است.
ارزیابی‌کننده 23 : یک واسط است برای ارزیابی‌کننده های همترازی که یک همترازی اولیه (که ممکن است به عنوان مرجع در نظر گرفته شود) را با یک همترازی ثانوی مقایسه می‌کنند.
بازبین همترازی [^AlignmentVisitor]: یا ارایه‌دهنده 24 که یک واسط25 برای تعریف بازبین‌های همترازی که می‌تواند خروجی همترازی‌ها در فرمت‌های مختلف باشد.
در شکل زیر، روابط بین کلاس‌های اصلی نمایش داده شده است.

توضیح تصویر
توضیح تصویر

این سیستم تنها کمک می‌کند تا اولیات برای ادغام و دستکاری هم‌ترازی‌ها ایجاد شود و توانایی ادغام یا ویرایش هم‌ترازی را ندارد.[11]

شرح پیاده سازی

در فاز سوم این پروژه، هدف ما پیاده سازی برنامه‌ای مشابه مقاله [5] که در سال 2014 ،توسط Vidyarthi و همکاران انجام شده است، بود. آنها ابتدا با تحلیل معنایی و استفاده از وردنت، Alignment میان مفاهیم را کشف و سپس از آن اطلاعات برای ادغام استفاده کرده‌اند. الگوریتم آنها کاملاً اتوماتیک بود.
در ادغام هستان‌شناسی‌ها همانطور که اشاره شد، نیاز به کشف Alignmentمیان مفاهیم داریم که نیاز به پردازش‌های سنگین و دسترسی به حجم بالایی از داده دارد که پیاده سازی آن در قالب این پروژه درسی نمی‌گنجد. لذا برای یافتن Alignment موردنیاز از یک Alignment serverآنلاین استفاده شده است که در بالا شرح داده شده است. به همین دلیل هنگام اجرای این برنامه لازم است که به اینترنت وصل باشید. اما برنامه پیاده سازی شده طبق آنچه از ابتدا در این پروژه تعریف کردیم، یعنی عمل ادغام را انجام می‌دهد.
برنامه‌ پیاده سازی شده توسط اینجانب، دو هستان‌شناسی را به عنوان ورودی می‌گیرد و آنها را ادغام کرده و در یک هستان‌شناسی جدید به عنوان خروجی ارائه می‌دهد. این برنامه به صورت کاملاً اتوماتیک، عمل ادغام دو هستان‌شناسی را انجام می‌دهد. این برنامه به زبان جاوا پیاده سازی شده است. این پیاده سازی فاقد محیط گرافیکی است و با کنسول کار می‌کند. لازم است که محل ذخیره دو فایل هستان‌شناسی که با فرمت owl هستند را در کد قرار دهید و سپس برنامه را اجرا نمایید. در گام اول، به صورت محلی دو هستان‌شناسی با هم match شده و سپس باهم merge می‌شوند و در فایل خروجی به فرمتowl ذخیره می‌شود. محل فایل ذخیره شده در کنسول نمایش داده می‌شود.
در تصویر زیر نمایی از خروجی برنامه را مشاهده می‌نمایید.

نمایی از خروجی برنامه
نمایی از خروجی برنامه

آزمایش‌ها

برای مشاهده و مقایسه خروجی برنامه پیاده سازی شده، لازم بود تا دو هستان شناسی را به عنوان نمونه مورد تست قرار گیرند. از این رو ابزار دیگری برای ادغام هستان شناسی که در دسترس باشد، نیاز داشتیم.
نرم افزار متن باز protegeé نیز امکان ادغام دو هستان شناسی را فراهم آورده است. برای آشنایی بیشتر و دانلود این نرم افزار به لینک [http://protege.stanford.edu/] مراجعه نمایید. نحوه کار در آن به این صورت است که در ابتدا دو فایل آنتولوژی موردنظر را در محیط باز کرده و سپس از مسیر "Refactor > Merge Ontologies"می‌توان خروجی را به صورت یک فایل آنتولوژی جدید حاصل از ادغام دو آنتولوژی اولیه ذخیره کرد. ایراد کار این نرم افزار در انجام عمل ادغام این است که هیچ تحلیل معنایی روی مفاهیم انجام نداده و صرفاً دو هستان‌شناسی را به عنوان دو زیر درخت درنظر گرفته و توسط یک گره ریشه به نام thing تبدیل به یک درخت می‌کند.
برای آزمایش دو آنتولوژی، یکی به زبان فرانسوی و دیگری به زبان انگلیسی را به دو طریق با هم ادغام کردیم و نتیجه را در شکل زیر مشاهده می‌نمایید.
در دو تصویر زیر، نمای درختی از دو هستان شناسی که برای تست درنظر گرفتیم در محیط گرافیکی protegeé را ملاحظه می‌کنید.

هستان شناسی 1
هستان شناسی 1

هستان شناسی 2
هستان شناسی 2

در تصویر زیر نتیجه ادغام دو هستان شناسی با ابزار ادغام در protegeé را ملاحظه می‌نمایید.
پروتژ
پروتژ

در این تصویر نیز خروجی کد پیاده سازی شده را می‌بینید که در محیط گرافیکی به نمایش درآمده است.

خروجی کد
خروجی کد

بهبود و ارتقاء

همانطور که در تصاویر بالا نشان داده شد،خروجی کد پیاده سازی شده نسبت به خروجی محیط protege قابل فهم‌تر است و ادغام منطقی‌تر صورت گرفته است و توانسته بین انگلیسی و فرانسوی، مفاهیم مشابه را پیدا کند. به دلیل اینکه ما از alignment استفاده کردیم و تحلیل معنایی را در ادغام در نظر گرفتیم در حالیکه در محیط protege این تحلیل صورت نمی‌گیرد.
پس همانطور که انتظار می‌رفت، نسبت به ابزار رایج در این زمینه توانستیم برای ادغام هستان‌شناسی‌ها بهبود ایجاد کنیم.
در آخر برای دسترسی به کد جاوای این برنامه به همراه دو فایل هستان شناسی که مورد تست قرار گرفته است، می‌توانید به این لینک [https://github.com/fahiiim/ontology-merging] مراجعه نمایید.

کارهای آینده

کارهای آتی در این راستا می‌تواند پروژه‌هایی از این قبیل باشد:
-ایجاد ابزاری برای ادغام هستان‌شناسی‌های موجود در زبان فارسی

  • ایجاد ابزاری برای ادغام هستان‌شناسی دو زبانه انگلیسی-فارسی

  • ادغام وردنت دو زبان با یکدیگر (به عنوان مثال وردنت فارسی و انگلیسی را ادغام کنیم.)
    تأکید بیشتر ما برای ادامه این پروژه روی زبان فارسی است، زیرا در زمینه پردازش زبان فارسی چنین نیازی وجود دارد اما هنوز اقدام کارآمدی در این راستا صورت نگرفته است و انجام این کار از نوآوری برخوردار است. تلاش ما برای بهبود و گسترش ابزارها و روش‌های پردازش زبان فارسی است. زیرا با توجه به کاربرد زیاد زبان فارسی در حال حاضر، این ابزارها می‌توانند بسیار کارآمد باشند.

مراجع

[1] Ding, Ying, and Schubert Foo. "Ontology research and development. Part 2-a review of ontology mapping and evolving." Journal of information science 28.5 (2002): 375-388.
[2] Luo, Fuqiang, and Yongfu Xiong. "The method of multi-strategy ontology mapping." Computational and Information Sciences (ICCIS), 2011 International Conference on. IEEE, 2011.
[3] Tang, Jie, et al. "Using Bayesian decision for ontology mapping." Web Semantics: Science, Services and Agents on the World Wide Web 4.4 (2006): 243-262.
[4] Fensel D.The Semantic Web and its languages[J].IEEE Computer Society,2003,pp:67-73.
[5] Vidyarthi, Ankit, et al. "Domain specific ontology merging using semantics."Confluence The Next Generation Information Technology Summit (Confluence), 2014 5th International Conference-. IEEE, 2014.
[6] Noy, Natalya F. "Ontology mapping." Handbook on ontologies. Springer Berlin Heidelberg, 2009. 573-590.
[7] Ehrig, Marc, and York Sure. "Ontology mapping–an integrated approach." The Semantic Web: Research and Applications. Springer Berlin Heidelberg, 2004. 76-91.
[8] http:// en.wikipedia.org/
[9] Li, Sheng, Heping Hu, and Xian Hu. "An ontology mapping method based on tree structure." 2006 Semantics, Knowledge and Grid, Second International Conference on. 2006.
[10] Mehrnoush Shamsfard, Akbar Hesabi, Hakimeh Fadaei, Niloofar Mansoory, Ali Famian, Somayeh Bagherbeigi, Elham Fekri, et al. (2010). Semi Automatic Development of Farsnet; the Persian Wordnet. Proceedings of 5th Global WordNet Conference (GWA2010). Mumbai, India.
[11] David, Jérôme, et al. "The alignment api 4.0." Semantic web 2.1 (2011): 3-10.

پیوندهای مفید


  1. ontology

  2. concept

  3. relation

  4. instance

  5. axiom

  6. wordNet

  7. Semantic web

  8. Resource Description Framework

  9. Relevant Information Retrieval

  10. Natural Language Processing

  11. expert

  12. ontology mapping

  13. similarity

  14. RiMOM

  15. multi strategy mapping

  16. concepts

  17. name

  18. attribute

  19. property

  20. Semantic Ontology Mapping = SOM

  21. stemming

  22. entities

  23. Evaluator

  24. Renderer

  25. interface

ارزیابی آشنایی با مساله 1393/08/17
مجید عسگری بیدهندی

تعاریف در ابتدای تحقیق باید دارای ارجاع باشند.
جملات ابتدایی در مورد هستان‌شناسی خوش‌خوان و مناسب هستند که خواننده را سردرگم نمی‌کنند. حتی اگر از جایی کپی شده باشند، ارزشمند هستند چون به احتمال فراوان نویسنده آن‌ها را به خوبی فهمیده است. البته جملات انتهایی بخش مقدمه نیاز به بازنویسی دارند.
به مقدمه به قدر کافی پرداخته نشده است. نویسنده می‌توانست دست کم تعدادی مثال در مورد هستان‌شناسی بیاورد. شکل یا جدولی را نمایش دهد. به طور کلی جملات خوب ابتدای مقدمه، به طور ناگهانی تمام می‌شود و خواننده آشنایی لازم را با موضوع کسب نمی‌کند.
ترجمه بخش کارهای مرتبط اصلا خوب نیست. پیوستگی کافی بین مطالب موجود نیست و مشخص نیست منبع قدیمی مربوط به سال ۲۰۰۲ چه ربطی (در بخش کارهای مرتبط قرار داریم!) به موضوع تحقیق دارد. جمله‌ی «با نگاهی دقیقتر به پژوهش های انجام شده متوجه می‌شویم که یادگیری هستان شناسی به صورت کاملاً خودکار غیرممکن است. از طرفی دیگر، کشف روابط بین مفاهیم، بخصوص روابط جزیی، نیاز به کار بیشتری دارد.» و تمام جملات مربوط به آن می‌توانست در مقدمه ذکر شود نه کارهای مرتبط. به طور کلی شما بخش کارهای مرتبط ندارید. خوب بود این بخش را کلا به مقدمه منتقل می‌کردید و فعلا بخش کارهای مرتبط را نمی‌نوشتید.
«در کل، تکنیک‌های مختلف می‌توان به چهار دسته تقسیم کرد: مبتنی بر آمار، مبتنی بر زباشناسی، مبتنی بر منطق و ترکیبی.» تکنیک‌های مختلف چه کاری؟! خواننده باید تا انتها مطلب را بخواند تا بفهمد در مورد چه چیزی صحبت شده است. جالب اینجاست که نویسنده فراموش کرده روش چهارم را توضیح دهد!
یک غلط دیکته‌ای!! هم هست؛ صرفا جهت اطلاع. زیل = ذیل

ارزیابی مطالعه کارهای مرتبط 1393/09/15
تایید شده

سلام، خدا قوت.
سعی می‌کنم نکات مثبت و منفی کاری که انجام دادید رو ذکر کنم تا به امید خدا در مراحل بعدی با توجه به این نقد، نکات مثبت بیشتری رو شاهد باشیم و نکات منفی هم به صفر یا حداقل برسه.

نکات مثبت:
۱- در کل ترتیب نوشته‌هاتون خیلی خوبه؛ منظورم اینه که از این شاخه به اون شاخه نپریدید؛ ابتدا در مورد مفهوم هستان‌شناسی صحبت کرید سپس جزئیات رو شرح دادید و بعد از اون هم در مورد هدف اصلی این مقاله یعنی نگاشت و ادغام هستان شناسی صحبت کردید؛ تصاویری هم که در انتهای بخش «مقدمه» قرار دادید، به مقدار زیادی به ابهاماتی که تو ذهنم بود پاسخ دادن. در نتیجه بخش «مقدمه»، برای خوانندگانی مثل من که این موضوع رو برای اولین باره که مشاهده می‌کنند، یک دید جامع و کلی رو ارائه می‌کنه.
۲- نکته‌ی مثبت دیگه‌ی کارتون اینه که برای تک تک مطالبی که ذکر کردید، منبع اون رو هم بیان کردید. این باعث میشه اگه خواننده در مورد بخش خاصی از نوشته‌هاتون علاقه‌مند بود یا بخش خاصی از نوشته‌هاتون رو به صورت کامل متوجه نشد، به منبع اصلی اون مطلب مراجعه کنه. این کارتون یکی از اصول مقاله نویسی است که قابل تحسینه.
۳- اینکه از تمام مقالات ذکر شده در بخش منابع، استفاده نموده‌اید نیز نکته‌ی مثبت دیگه‌ی کارتون است.
۴- نکته‌ی مثبت دیگه‌ای که قابل تحسین است اینه که از برخی مقالاتی استفاده کرده‌اید که اخیراً در کنفرانس‌های مطرح دنیا ارائه شده‌اند و قدیمی نمی‌باشند.

نکات منفی:
۱- موردی که می‌تونه برای خواننده آزار‌دهنده باشه مشکلات نگارشی است. در کل بسیاری از نکات نگارشی رو رعایت کردید، ولی بعضی جاها به جای «نیم‌فاصله» از «فاصله» استفاده نموده‌اید. برای مثال «می+فعل»،«اسم+ها». البته قابل ذکر است که در بیشتر موارد این نکات را رعایت نموده‌اید و تنها در موارد بسیار نادری این مشکل دیده می‌شود.
۲- بهتر بود به جای اینکه لغت انگلیسی کلمات فارسی رو داخل پرانتز و جلوی اون کلمه بنویسید، از زیرنگاشت(Footnote) استفاده می‌کردید. برای مثال می‌توان به «ریشه یابی (stemming)» اشاره کرد.
۳- بعضی مطالب رو به نظرم میتونستین ترجمه‌ی بهتری ارائه کنید یا اصلا نیازی به ترجمه نبود و می‌تونستید فقط درک خودتون از اون مسئله رو بنویسید. برای مثال می‌تونم به این بخش اشاره کنم: «در تکنیک‌های وب معنایی RDF (یا Resource Description Framework) برای بازگرداندن داده غیرساختیافته به داده ساختیافته مورد استفاده قرار می‌گیرد و ایجاد RDF یک سیستم هستان شناسی برای تبدیل اطلاعات روی وب است.»
۴- مطالبی که در بخش «آزمایش‌ها» ذکر کردید رو بهتر بود در بخش «مقدمه» یا «کارهای مرتبط» ذکر کنید. چون در بخش «آزمایش‌‌ها» باید در مورد آزمایش‌های عملی صورت گرفته و نتایج اون بحث بشه.
۵- هنوز نتونستم درک دقیقی از ادغام و نگاشت هستان‌شناسی و تفاوت اون‌ها داشته باشم. به نظرم بهتر بود مثالی از دو هستان‌شناسی مختلف و نتیجه‌ی ادغام اون‌ها رو ذکر می‌کردید و مراحل این ادغام رو به صورت مختصر توضیح می‌دادید.
۶- در مقاله‌ی شماره‌ی ۲ یعنی متد «نگاشت هستان‌شناسی با چند استراتژی»، متوجه نشدم. در ماژول شماره‌ی ۲ یعنی «لایه‌ی مرجع»، این‌که ذکر کردید «یک درجه‌ی نگاشت بین همه‌ی انواع را توصیف می‌کند» به چه معناست و به چه دلیلی فقط داده‌های متفاوت در جدول جستجو می‌شوند و داده‌های مشابه جستجو نمی‌شوند؟
۷- بهتر بود در بخش کار‌های مرتبط، بیشتر وارد جزئیات می‌شدید و الگوریتم‌های به کار رفته در کار‌های مرتبط را نیز توضیح می‌دادید.

نتیجه: همون‌طور که مشخصه نکات منفی کارتون خیلی ریز هستند و می‌توانند به راحتی برطرف شوند. نکته‌ی مهم کار شما اینه که مقاله‌ به صورتی نوشته شده که جامع و قابل فهم باشد. با تشکر از شما.

تایید شده

توضیحاتی که در مورد ادغام هستان شناسی واهمیت آن داده اید خیلی خوبه، ارائه توضیحات در مورد مفاهیم مختلف ترتیب منطقی و درستی داشت. مقاله های خوبی هم مطالعه کردید و در مورد آن ها توضیح دادید.
در کل متن خیلی خوب و جامعی نوشته شده و ولی تصاویری که استفاده کرده اید قابل مشاهده نیستند و فرمول ها هم نا مرتبند.

مجید عسگری بیدهندی

دوستان شما مخصوصا آقای سلیمی نقدهای خوبی را برایتان نوشته‌اند و من تنها به چند نکته کوتاه اشاره می‌کنم.
۱- اینکه روی عنوان پروژه حساس بوده‌اید و آن را تغییر داده‌اید بسیار نکته خوبی است. از نظر من هم مقدمه‌ی بسیار خوبی نوشته‌اید و مشخص است که زیربنای کار شما مناسب است.
۲- نیاز است مثال‌های بیشتری را ذکر کنید. مخصوصا در جای مهمی مانند تعریف هستان‌شناسی که انواع اجزای آن ذکر شده‌اند، هیچ مثالی در مورد اجزا آورده نشده است. مثلا یک نمونه از مفاهیم یا یک نمونه از بدیهیات می‌توانست مطلب را برای خواننده‌ی ناآشنا با هستان شناسی ملموس‌تر کند.
۳- بهتر بود بین بخش های کارهای مرتبط و آزمایش‌ها بخشی با عنوان روش‌کار ذکر شده و مطالب مربوط به آزمایش‌ها به آن‌جا منتقل می‌شد.
۴- در بخش مقدمه می‌توانستید نام تعدادی از پروژه‌های هستان‌شناسی را ذکر کنید.
۵- به نظر من اینکه برای تمام عبارات انگلیسی معادل فارسی انتخاب کرده‌اید بسیار خوب است (بر خلاف نظر جناب سلیمی)
۶- توالی معرفی کارهای صورت گرفته در بخش کارهای مرتبط کمی عجیب و بی‌نظم است. ابتدا یک کار که در سال ۲۰۱۴ انجام شده، بعد کاری که در ۲۰۱۱ انجام شده و بعد کارهایی که در ۲۰۰۶ انجام شده‌اند. بهتر است مطالب این بخش طوری ساماندهی شوند که خواننده بتواند درکی از سیر زمانی کارهای صورت گرفته پیدا کند.

ارزیابی گزارش نتایج آزمایش 1393/10/13
علیرضا نوریان

این بد نیست که شما از یک سرویس تحت وب استفاده کردید و با کمک اون دو هستان‌شناسی رو ادغام کردید. منتها انتظار ما اینه که شما هم کاری انجام بدید!
یعنی کد شما باید عمل ادغام رو انجام بده و اگر یک سرویس این کار رو می‌کنه مثلا شما باید ارزش‌افزوده‌ای روی اون ایجاد کنید. مثلا خودتون خروجی رو با استفاده از چیزهایی که در مقالات خوندید، بهتر کنید. توجه کنید که اگرچه ما گفتیم در مرحله بعد انتظار ارتقا داریم، خواسته واضح و روشن ما این بوده که شما خودتون از چیزهایی که خوندید استفاده کنید و به خروجی برسید.

سلام و عرض احترام
کد پیاده سازی در قسمت پیاده سازی گذاشته نشده و در قسمت بهبو د هیچ توضیحی که خواننده تا حدودی با بهبود کار شما آشنا شود وجود ندارد

تایید شده

با عرض سلام
کار خاص و خوبی بود ولی چندی مشکل در فهم وجود داشته است.
1- در ارجاع دادن به مراجع اول مراجع را قرار می دهند و بعد نقطه پایان جمله.
2- توضیحات کاملی در باره هستان شناسی وجود داشت ولی هر چه جلو تر می آیید از کیفیت توضیحات کاسته می شود. در مقدمه صورت مسئله نیز تقریباً مشخص نیست.
3- فرمت منابعت با هم یکسان نیست
4- درباره کدی که نوشته اید هیچ توزیح خاصی نداده اید و خلاصه الگوریتم تان را هم می نوشتید بد نبود. مخصوصاً در قسمت alignmant را اضافه کرده اید چطور شد که نتیجه بهتر شد؟ از چه alignmant با چه خصوصیاتی استفاده کردید.
5- مثالی که زده شده خیلی ساده و روان است

رد شده

با سلام و خسته نباشید
به طور کلی پروژه خوبی ارائه داده اید و بین مطالب ارتباط خوبی برقرار است، اما در قسمت آزمایش و بهبود بهتر بود توضیحات جامع تری در مورد روند پیاده سازی این دو بخش می دادید. همچنین بهتر است که مراجع خودتون رو به ترتیب حضور در مقاله تنظیم کنید.

مجید عسگری بیدهندی

از اینکه به نقدهای قبلی تا حد امکان عمل کرده‌اید از شما ممنونم.
به طور کلی پیاده‌سازی شما و مهمتر از آن ارزیابی شما خوب ارائه نشده بود. اصولا مشخص نیست طبق چه معیاری عملکرد روش خود را برتر از روش‌های دیگران می‌دانید. نمایش تصویری از کد شما و تصاویری از برنامه‌ی protegeé اصلا منطقی نیست و به عنوان یک دانشجوی ارشد از شما انتظار می‌رود روش بهتری را برای سنجش کار خود ارائه دهید. البته احتمالا مشکل از آنجا ناشی می‌شود که ما را از اینکه خودتان کاری را انجام داده‌اید مطمئن کنید :-) که البته اصلا نیازی به این کار نبود. به جای این کار می‌توانستید برنامه protegeé را بهتر شرح دهید و امکانات آن‌ را بنویسید و تصویری از خروجی خود را (نه به عنوان اثبات اینکه کار شما بهتر است) بیاورید.
کلا معیارهای ارزیابی در کار شما مغفول مانده است اما به طور کلی ساختار تحقیق شما نسبت به دوستان دیگرتان ساختار مناسبی است و اینکه سعی کرده‌اید واقعا کاری را انجام دهید برای من خیلی مهم است. ضمن اینکه نقدهای دوستان شما نیز خوب بودند و من از تکرار آن‌ها پرهیز می‌کنم.

تایید شده

به نام خدا
عرض سلام و خسته نباشید خدمت شما.
تعدادی غلط املایی و اشتباه در تنظیم پاورقی ها در بعضی قسمت ها باعث شده متن از حالت یکدستی خارج شود.
به جای کلمات Alignment و Merge و Match و ... میتوانستید از لغات فارسی استفاده نمائید و اصل کلمات را در پاورقی ذکر کنید.
از نظر کیفی داکیومنت خوبی نوشتید ولی از نظر کمی مقداری ضعیف عمل کردید.
در پیاده سازی سازی سعی نمودید تا روش ویدیارتی را پیاده سازی نمائید که نسبتا به این موضوع دست یافتید. با توجه به اینکه این موضوع بروزی میباشد سعی کردید از منابع و مقالات زیادی استفاده کنید و دید نسبتا خوبی نسبت به موضوع پیدا کردید.
برای مرحله بهبود ، بهتر بود تا توضیح بیشتری در مورد تغییرات انجام شده و فعالیت های خود مطرح مینمودید تا مخاطب با دید بازتری برنامه را اجرا نماید.
در کل میتوان گفت فعالیت شما نسبتاً خوب بود .

تایید شده

با سلام
پروژه در بخش مقدمه و کارهای مرتبط خوب و مفید بود. در بخش آزمایش بهتر بود توضیحات بیشتری داده می شد .
بهتر بود در کد توضیحات بیشتری داده می شد تا کسی که می خواهد کد رابخواند راحت تر بتواند این کار را انجام دهد.
از لحاظ نگارشی مشکل زیاد داشن با نگاه کردن در متن می توانید مشکلات نگارشی رو ملاحظه کنید.
ولی در کل پروژه خوب بود و در بخش کارهای آینده نیز پیشنهاداتی داده شد که مفید بود.

تایید شده

با عرض سلام و خسته نباشید
به نظر پروژه‌ی سختی است. مفاهیم پیچیده و گنگ هستند. معلوم است تلاشتان را انجام داده‌اید. به نظرم توی فازهای اول در حق شما کمی اجحاف شده. از نکات مثبت پروژه شما این است که سعی کردید از معادل‌های فارسی کلمات به خوبی استفاده کنید و من از این بابت خیلی تشکر می‌کنم چون اکثر بچه‌ها رعایت نمی‌کنند.
ای کاش روی زبان فارسی حداقل یک کار کوچکی هم شده انجام می‌دادید یا اینکه چالش‌های اینکار تو زبان فارسی رو بیان می‌کردید.
نمایش نتایج‌تون خوب نبود من از تصاویر چیز زیادی دستگیرم نشد
روش ارزیابی‌تون رو من نپسندیدم شاید اشتباه کرده‌باشم روش بهتری موجود نبود؟ یا اینکه کلا از چالش‌هاتون بود؟
به‌هر حال آرزوی موفقیت می‌کنم