انسان اطلاعات زیادی در مورد دنیای پیرامون خود دارد و وقتی متنی را می‌نویسد در مورد همین دانسته‌ها صحبت می‌کند. مثلا می‌گوید: «این بازیکن فوتبال، در بازی روز قبل حضور نداشت». ماشین این چیزها را نمی‌داند ولی اگر می‌دانست، خیلی فایده داشت. استخراج اطلاعات برای بدست آوردن دانسته‌های انسان، از روی متون نوشتاری معرفی شده است.

یکی از راه‌های پاسخ به این مساله، گسترش دانسته‌ها توسط ماشین است. مثلا اگر ما اسم ۲۰ بازیکن فوتبال را بدانیم، می‌توانیم از آنها برای پیدا کردن نام بقیه استفاده کنیم. سپس می‌توانیم نام‌هایی را که فکر می‌کنیم به درستی استخراج شده‌اند را هم به دانسته‌های اولیه اضافه کنیم و اینطوری الگوهای جدیدی را برای استخراج بدست بیاوریم. به این ترتیب اگرچه داده‌های آموزشی اولیه کم باشد، می‌توانیم مرحله به مرحله روی داده‌های بیشتری آموزش ببینیم. این روش به خودراه‌اندازی1 معروف است که یکی از انواع یادگیری نیمه‌نظارتی2 به حساب می‌آید.

  • این پروژه توسط یک بنگاه تجاری تعریف شده است و اگر به خوبی انجام شود، مورد حمایت قرار می‌گیرد.

۱. مقدمه

یادگیری نیمه نظارتی چیست؟
همانطور که از اسم آن مشخص است روشی میان یادگیری نظارتی و یادگیری غیر نظارتی می‌باشد. در این روش بعضی از داده‌ها دارای بچسب بوده و بعضی نیز برچسب ندارند. به علت اینکه در خیلی از برنامه‌های کاربردی عملیات برچسب گذاری هزینه‌بر و زمان‌بر می‌باشد. برای اینکه کارایی را افزایش داده و از کل توان خود در حل مسئله برای بهبود بیشتر استفاده کنیم می‌توان از داده‌های بدون برچسب نیز استفاده نمود. در یادگیری نیمه‌نظارتی هدف یافتن روش‌هایی است که با استفاده از داده‌های بدون برچسب و داده‌های برچسب‌دار به حل مسئله پرداخته و کارایی را نسبت به قبل افزایش دهند[4].

چه زمانی باید از یادگیری نیمه نظارتی استفاده کرد؟
پرسش اصلی در زمینه یادگیری نیمه نظارتی این است که اصولا تحت چه شرایطی باید از این روش استفاده کرد. به عبارتی در چه مسائلی و یا روی چه مجموعه داده‌هایی استفاده از این روش منجر به بهبود عملکرد عامل یادگیرنده یا جداساز می‌شود. یا بطور کلی‌تر آیا استفاده از داده‌های بدون بچسب واقعا می‌تواند کارایی را بهبود بخشد. نگاهی به حجم مقلات ارائه شده در این زمینه نشان می‌دهد پاسخ مثبت است، اما یک شرط اساسی وجود دارد و آن هم اینکه باید توزیع نمونه‌ها که به کمک داده‌های بدون برچسب برآورد می‌شود، مناسب مسئله جداسازی باشد. در حقیقت داده‌های بدون برچسب کمک می‌کند تا دانش اولیه درمورد توزیع داده‌ها کسب شود.
به بیان دقیق‌تر ، در صورتی استفاده از داده‌های بدو ن برچسب مفید واقع خواهد شد، که دانش بدست آمده از داده‌های بدون برچسب درمورد توزیع داده‌ها (p(x، حاوی اطلاعات مفیدی برای استنتاج درمورد (p(y|x باشد. اگر این موضوع در یک مسئله خاص برقرار نباشد، روش نیمه‌نظارتی کمکی در بهبود تعمیم پذیری جداساز نخواهد داشت، حتی ممکن است داده‌های بدون برچسب با اطلاعات نادرستی که درمورد توزیع داده‌ها می‌دهند، موجب افزایش خطای جداسازی شوند. بر این اساس واضح است برای استفاده از روش‌های نیمه‌نظارتی، پیش‌فرض‌های بخصوصی باید برقرار باشد که این پیش‌فرض‌ها همان دانش پیشین هستند. همان طور که گفته شد استفاده از داده‌های بدون برچسب درحقیقت معادل با یادگیری توزیع داده‌ها است، و هر فرآیند یادگیری برای همگرا شدن نیازمند یک دانش پیشین است[5].
پیش فرض‌ها:
• پیش فرض همواری در یارگیری نیمه نظارتی3 : اگر دو نقطه x1 و x2 در یک منطقه با چگالی بالا نزدیک به هم باشند، برچسب‌های متناظر آن‌ها یعنی y1 و y2 هم باید نزدیک باشند.
• پیش فرض خوشه4 : داده‌های موجود در یک خوشه احتمالا برچسب‌های مشابهی دارند.
• پیش فرض خمینه5 : ( درفضای ورودی با بعد بالا) داده‌ها (تقریبا) روی یک خمینه با بعد پایین‌تر قرار دارند و تابع جداساز روی خمینه داده‌ها هموار است.
روش های یارگیری نیمه نظارتی[7]:
Constrained Clustering
Distance Metric Learning
Manifold Methods in Vision
Sparsity based Learning
Active Learning

استخراج اطلاعات
استخراج اطلاعات به منظور تبدیل متن به اطلاعات قابل استفاده از منظر ماشین است. رویه مرسوم در پژوهش‌های دیرین مرتبط با این موضوع مبتنی بر اهداف از پیش تعیین شده بوده است. یعنی ماشین باید نوع خاصی از اطلاعات را که احتمالا به اشکال مشخصی نیز در متن بیان می‌شوند، استخراج می‌کرده. << استخراج هدفمند اطلاعات>> عنوان مناسبی برای این نحوه نگاه به مسئله به نظر می‌رسد. مثلا استخراج زمان و مکان برگزاری مسابقات را می‌توان یک استخراج هدفمند دانست که معمولا باید روی دامنه مشخصی از متن‌ها انجام گیرد.
وقتی استخراج اطلاعات را به صورت یک مسئله باناظر تعریف می‌کنیم، در واقع استخراج هدفمند را برگزیده‌ایم. یعنی فرض می‌کنیم که اطلاعات مشخصی برای استخراج، توسط انسان مشخص شده‌اند و حالا ماشین باید این داده‌ها را یاد بگیرد تا بتواند از متون جدید نیز داده‌های مورد نظر را استخراج کند. اگرچه الزامی وجود ندارد که مجبور به انتخاب رابطه یا روابطی محدود باشیم، نوع نزدیک شدن ما به مسئله عملا منجر به این محدودیت می‌شود. از روش های استخراج هدفمند اطلاعات می‌توان به روش‌های مبتنی بر قاعده که در سامانه هایی از قبیل YAGO و DBpedia استفاده شده است نام برد[9,10]. در این سامانه‌ها با استفاده از قواعد دست ساز، انبوه اطلاعات ساخت یافته موجود در ویکی پدیا و یا وردنت استخراج می‌شوند. روش دیگر استخراج هدفمند اطلاعات، استفاده از مدل‌های گرافی است. برای نمونه استخراج ویژگی‌های مقاله از میان سربرگ و ارجاع‌ها به شکل یک مسئله پیش بینی ساختار تعریف و حل شده است[11]. روش دیگر استخراج اطلاعات استفاده از توابع کرنل است که برای این کار تعریف شده و مورد استفاده قرار گرفته‌اند. برای نمونه استفاده از تجزیه کم عمق جمله برای تشخیص رابطه اشخاص و نهادها و همچنین مکان سازمان‌ها بررسی شده‌است[12].

۲. کارهای مرتبط

سامانه (NELL(Never Ending Lanquage Learning:
سامانه NELL برای پر کردن شکل ساده شده‌ای از یک هستان شناسی ایجاد شده است. در واقع این سامانه قرار نیست رابطه یا نوع جدیدی کشف کند و فقط برای پیدا کردن نمونه‌ها ایجاد شده است. همچنین این سامانه با هدف ایجاد هم افزایی در استخراج اطلاعات طراحی شده است. یعنی قرار است ماشین از اطلاعات استخراج شده برای بهبود کیفیت استخراج استفاده کند. NELL برای رسیدن به این هدف، اطلاعات را با روش‌های مختلف استخراج می‌کند و سپس به سازگاری میان آن‌ها می‌اندیشد. حاصل این فرایند افزوده شدن نمونه‌های مطمئن به هستان شناسی اولیه است که در عمل منجر به بهبود کیفیت استخراج می‌شود[1] .
منابع استخراج اطلاعات
دو نوع اطلاع مورد هدف این سامانه هستند که با تعداد آرگومان‌ها از هم تفکیک می‌شنود. نمونه‌هایی از یک نوع مثل اسامی شهرها تنها یک آرگومان دارند و روابط میان دو نوع مثل عضو بودن یک بازیکن در یک تیم، که دو آرگومان دارد. این سامانه با مجموعه‌ای از این نوع و رابطه‌های از پیش تعریف شده شروع به کار می‌کند و سعی می‌کند الگوهای وقوع این مفاهیم را در متن یاد بگیرید. توصیف این سامانه از الگو به شکل‌های زیر انجام می‌شود:
• الگوهای متنی که بر اساس برچسب اجزای سخن واژه‌ها تعریف می‌شوند. مثل: <<شهر الف>> و یا <<روابط تجاری میان الف و ب >>
• الگوهای متون ساخت یافته در قالب صفحات وب که بر اساس حروف تعریف می‌شوند و برای استخراج اطلاعات جدول‌ها و لیست‌ها طراحی شده‌اند. مثلا برای یک صفه خاص، الگوی(option) X (/option) ممکن است لیستی از شهرها را استخراج کند.
• الگوهای تصریفی واژه‌ها که به صورت ویژگی به یک ابزار رده‌بند معرفی می‌شوند. برای نمونه پایان یافتن واژه با <<ایسم>> می‌تواند نشانگر یک مکتب فکری باشد.
• گزاره‌های شرطی که میان روابط برقرار هستند. این گزاره‌ها مستقیما از متن خارج نمی‌شوند و فقط برقرار بودن آن‌ها میان روابط بررسی می‌شود. مثلا << حضور یک بازیکن در جام جهانی>> به معنی <<بازیکن فوتبال>> بودن اوست.
سازگاری میان اطلاعات استخراج شده
در این سامانه همه‌ی اطلاعات به صورت یکپارچه‌ای فهمیده می‌شند، اگرچه از منابع مختلف استخراج شده باشند. سازگاری میان اطلاعات استخراج شده با این روش‌ها مورد بررسی قرار می‌گیرد:
• برقرار بودن رابطه انحصاری میان دو اطلاع به معنی نفی تعلق نمونه به هر دو رابطه است. مثلا نام شهر و نام ورزش رابطه‌ی انحصاری دارند، اما یک شهروند می‌تواند یک بازیکن فوتبال هم باشد. این روابط بخشی از ورودی‌های سامانه هستند و یادگرفتن آن‌ها مورد بحث نیست.
• آرگومان‌های یک رابطه معمولا نوع مشخصی دارند و این نوع قابل ارزیابی است. مثلا رابطه <<عضویت یک بازیکن در یک تیم>> دو آرگومان دارد که نوع هر دو مشخص است و امکان ندارد که یک شهر در یک تیم عضو باشد.
• وجود توافق میان ابزارهای رده‌بند نیز قابل بررسی است. مثلا وقتی این که الگوهای متنی و الگوهای مبتنی بر ساختار هر دو یک خروجی را تایید کنند، نشان دهنده صحت آن است.
این سامانه مجمعی از ابزارهای رده بند برای استخراج اطلاعات را به کار می‌گیرد و خروجی‌های آن یا مبتنی بر یک ابزار با اطمینان بالا و نتیجه‌ی اجماع چند ابزار با اطمینان پایین است. اگرچه شکل اجرا شده‌ی این سامانه با تعامل مختصر انسان، دقت اطلاعات را بهتر می‌کند[1].
سامانه Snowball:
از روش (DIPRE(Dual Iterative Pattern Expansionشروع می کنیم که به نوعی مبنی کار Snowball است. این روش را میتوان تقریبا بدیهی ترین شکل فرایند خود راه اندازی برای استخراج اطلاعات دانست. گفتیم که در این روش‌ها سامانه با تعداد داده‌ی ورودی آغاز به کار می‌کند، بنابراین DIPRE با جستجوی داده‌های ورودی سعی می‌کند، الگوی وقوع آن‌ها را کشف کند. برای این منظور، هر داده با ویژگی‌های << ترتیب وقوع آرگومان‌ها، آدرس وقوع، متن چپ، متن وسط و متن راست>> توصیف می‌شود. این توصیف امکان استخراج الگوهای مختلف را در آدرس‌های مختلف وب و با انطباق متن‌های اطراف آرگومان ها فراهم می‌کند. همچنین در این روش از یک عبارت با قاعده هم برای توصیف آرگومان‌ها استفاده می‌شود، تا از خطاهای واضح جلوگیری شود. سامانه Snowball هم تقریبا چنین عمکردی دارد و سعی کرده است این روش را بهتر انجام دهد. قواعد استخراج این سامانه با استفاده از تشخیص اسامی موجودیت‌ها تقویت شده‌است. تغییر دیگر افزودن احتمال وقوع به هرکدام از واژه‌های زمینه مربوط به قاعده است و برای محاسبه آن‌ها از تکرارهای مختلف نمونه‌ها استفاده می‌کند. حلقه‌ی تکرار این سامانه نیز مطابق دیگر نمونه‌های خود راه انداز، با جمع آوری داده‌ی مطمئن برای بهتر یادگرفتن الگو عمل می‌کند[6,2].
استخراج اطلاعات با استفاده از یادگیری نیمه نظارتی دوگانه6
یادگیری ماشین برای استخراج نوع‌ها و روابط از متن های ساخت یافته و غیرساخت یافته مفید و مناسب است. آموزش این روابط و نوع‌ها نیاز به نمونه‌های برچسب دار زیادی دارد که هزینه‌ی بدست ‌آوردن‌ آن‌‌ها زیاد است. در این مقاله برای آموزش از یادگیری نیمه نظارتی استفاده می‌کنیم به صورتی که از تعدادی نمونه‌ی برچسب دار و تعداد زیادی از اسناد بدون برچسب که از وب بدست آمده استفاده می‌کنیم که این ها به عنوان ورودی در الگوریتم هایی که در ادامه معرفی می شوند استفاده شده است . این مقاله چند راه را معرفی می‌کند که در آن‌ها آموزش نیمه نظارتی استخراج کننده نوع7 و استخراج کننده رابطه8 می‌تواند همراه هم استفاده شود[8].
به سه روش می توان آموزش استخراج کننده‌های نوع و رابطه را با هم به کاربرد[8]:
1.روش اول محدودیت روی خروجی ها:
اگر دو تابع fa : X → Ya و fb : X → Yb را داشته باشیم و محدودیت روی ya و yb را به ازای ورودی x بدانیم می توانیم fa و fb را طوری بدست آوریم که این محدودیت ها را ارضا کند.
2.روش دوم محدودیت‌های ترکیبی:
ا گر دو تابع f1 : X1 → Y1 و f2 : X1 × X2 → Y2 را داشته باشیم ممکن است به ازای جفت y1 و y2 به ازای یک X1 و هر X2 ای محدودیتی وجود داشته باشد که با توجه به آن توانیم f1 و f2 را طوری بدست آوریم که این محدودیت ها را ارضا کند.
3.روش سوم Multi-view-agreement constraints:
اگر تابع f : X → Y را داشته باشیم و بتوانیم X را دو قسمت کنیم به نحوی که بتوانیم بنویسیم <X = <X1 ,X2 و فرض کنیم هردوی آن‌ها Y را نتیجه بدهند ما می تواینم f1 : X1 → Y و f2 : X2 → Y را یادبگیریم.
در این مقاله تابع یاد می‌گیرد که نوع ها و روابط را استخراج کند و برای یادگیری از روش‌های زیر استفاده می‌کند[8]:

  • روش اول: انحصار متقابل

  • روش دوم:Relation Argument type Checking

  • روش سوم : Unstructured and Semi-structured Text Features
    در این مقاله برای یادگیری از الگوریتم های زیر استفاده شده است، که در آن‌‌ها فرض شده که مشکل لغات هم معنی و ابهام وجود ندارد:

  • Coupled Pattern Learner

  • Coupled SEAL

۳. آزمایش‌ها

۴. کارهای آینده

۵. مراجع

[1] Carlson, Andrew, et al. "Toward an Architecture for Never-Ending Language Learning." AAAI. Vol. 5. 2010.
[2] Agichtein, Eugene, and Luis Gravano. "Snowball: Extracting relations from large plain-text collections." Proceedings of the fifth ACM conference on Digital libraries. ACM, 2000.
[3] Zhu, Jun, et al. "StatSnowball: a statistical approach to extracting entity relationships." Proceedings of the 18th international conference on World wide web. ACM, 2009.
[4] Xiaojin Zhu and Andrew B. Goldberg. Introduction to Semi-Supervised Learning. Morgan & Claypool, 2009.
[5]Oliver Chapell، Bernhard Schölkopf and Alexander Zien. Semi-Supervised Learning. Massachusetts Institute of Technology2006
[6] Sergey Brin. Extracting Patterns and Relations from the World Wide Web. In WebDB Workshopat 6th International Conference on Extending Database Technology, pages 172–183, 1998.
[7] X. Zhu. Semi-supervised learning literature survey. Technical Report 1530, Department of Computer Sciences, University of Wisconsin, Madison, 2005.
[8] Andrew Carlson, Justin Betteridge, Richard C. Wang, Estevam R. Hruschka Jr, Tom M. Mitchell. Coupled Semi-Supervised Learning for Information Extraction, 2010
[9] J. Hoffart, F. M. Suchanek, K. Berberich, and G. Weikum, “YAGO2: A spatially and temporally enhanced knowledge base from Wikipedia,” Artif. Intell., vol. 194, pp. 28–61, Jan. 2013.
[10]S. Auer, C. Bizer, G. Kobilarov, and J. Lehmann, “Dbpedia: A nucleus for a web of open data,” Semant. Web, 2007.
[11] F. Peng and A. Mccallum, “Accurate Information Extraction from Research Papers using
Conditional Random Fields,” 2003.
[12] D. Zelenko, C. Aone, and A. Richardella, “Kernel methods for relation extraction,” J. Mach. Learn. …, vol. 3, pp. 1083–1106, 2003.

۶. پیوندهای مفید


  1. Bootstrapping

  2. Semi-Supervised Learning

  3. The semi supervised smoothness assumption

  4. The Cluster Assumption

  5. The Manifold Assumption

  6. Coupled Semi-Supervised Learning for Information Extraction

  7. Categories extractors

  8. Relations extractors

تایید شده

با بررسی ساده متن می توان مشکلات تایپی و به صورت کلی مشکل فرمی آن را مشاهده کرد. البته این مشکلات با ویرایش قابل تصحیح هستند ولی مشکلات دیگری به نظرم رسید که شاید بیان آن‍ها بتواند شما را کمک کند.
اول آنکه حس می شود در بکار بردن پاورقی و ذکر واژه اصلی کم کاری صورت گرفته است. به نظر من در بعضی موارد آوردن واژه اصلی برای معادل در نظر گرفته می تواند فهمیدن مطلب را تسریع کند.
می توانستید بخش مقدمه را کاملتر بنویسید. هدف از بخش مقدمه معرفی مسئله و بررسی برخی از ابعاد اصلی و چالش های آن است. مقدمه شما اطلاعات کاملی در مورد این موارد در اختیار قرار نمی دهد.
بخش مربوط به استخراج اطلاعات به نظرم مناسب آمد. می توانستید با استفاده از شکل یا نمودار آن را کاملتر کنید.
نکته اصلی متن استفاده از ترجمه تحت الفظی است. این موضوع کاملا محسوس است. نتیجه ای که من گرفتم این است که ساختار متن می توانست منسجم تر باشد. احساس می شود نتیجه گیری های خودتان و مطالب شخصی در متن کمتر وارد شده و سعی در خلاصه کردن مقالات داشته اید.

مجید عسگری بیدهندی

اولین چیزی که توجه من را جلب کرد اینست که شما ظاهرا اصلا نقد قبلی را نخوانده‌اید. یا اگر خوانده‌اید موارد نوشته شده در آن را اصلا در نظر نگرفته و تغییری در مطالب قبلی نداده‌اید.
بخش مربوط به NELL به خوبی بررسی شده و از نقاط قوت تحقیق شما محسوب می‌شود.
غلط‌های نگارشی زیاد هستند. فرمول‌ها با دقت کافی تایپ نشده‌اند. برای نمونه جایی Ya و در جای دیگر ya تایپ شده است.
برای تمام اصطلاحات اسم فارسی مناسب انتخاب نشده است.
در مورد الگوریتم‌های انتهایی هیچ توضیح یا تحلیلی ارائه نشده یا لااقل یک بار به فارسی نوشته نشده‌اند. به طور کلی زمان مناسبی را به نگارش مقاله اختصاص نداده‌اید.
از طرفی هم دوست ندارم از این بخش نمره‌ی کمی کسب کنید. امتیاز شما حقیقتا کمتر از چیزی است که به شما در این مرحله داده‌ام اما امیدوارم که در بخش بعد بهتر عمل کنید :-)