دانشکده مهندسی کامپیوتر دانشگاه علم و صنعت

استخراج عصبی رابطه ها با توجه انتخابی نمونه ها

رضا مرادی (REZYMO[AT]GMAIL[DOT]COM);آذر 1396.

لینک مرجع اصلی
لینک پیداه سازی


به نام خالق قلم

۱. چکیده :

برای پیدا کردن حقایق جدیدی که در متن با هم در ارتباطند ، به طور گسترده ای از روش های نظارت دور 1 استفاده میشه.با این حال نظارت دور با مشکل برچسب دهی اشتباه 2 همراه است،اساسا این داده های اشتباه 3 به عملکرد استخراج رابطه 4 صدمه می زنند . برای تسکین این مشکل در عمل استخراج رابطه می خواهیم یک مدل مبتنی بر توجه در سطح جمله 5 ارائه بدهیم . در این مدل ما از CNN برای جاسازی معانی نهفته در جملات استفاده می کنیم. بعد از آن ما مدل مبتنی بر توجه در سطح جمله را در مورد چندین جمله 6 می سازیم که انتظار داریم به صورت پویا وزن این نمونه های اشتباه را کاهش دهد.نتایج آزمایشات روی مجموعه داده7 های دنیای واقعی نشان می دهد که مدل ما می تواند به طور کامل روی همه جملات معنی دار مورد استفاده قرار گیرد و تاثیر بسزایی در کاهش تاثیر این نمونه های های با برچسب اشتباه بگذارد . مدل ما در قیاس با سایر روش ها بهبود قابل توجه و استواری را روی عمل استخراج رابطه بدست می آورد.

۲. مروری بر ادبیات و مقدمات لازم

۲.۱. تشریح شبکه کانکلوشن :

این شبکه از وزن های پنجره ای یا فیلتر ها استفاده می کند که اصطلاحا به این فیلتر ها کرنل هم گفته می شود .روش کار آنها به این صورت است که به جای اینکه تمام نورون های یک لایه به تمام نورون های لایه ی بعد متصل شوند ، فقط قسمتی از نورون های یک لایه به یک نورن از لایه ی بعد متصل می شوند که به این قسمت اصطلاحا پنجره یا فیلتر می گویند .یکی از ویژگی های شبکه ی کانکلوشن این است که در آن می توان از چندین فیلتر مختلف در هر لایه استفاده کرد و با هر کدام از این فیلتر های خروجی های مختلفی ایجاد کرد که ترکیب همه ی این خروجی ها را می توان به لایه ی بعد منتقل کرد .
این شبکه ها به خاطر ساختار و وزن پنجره هایی که دارند برای حوزه ی پردازش تصویر بسیار مناسب اند ، به عنوان مثال در ضمینه ی تصویر های ساده ، ویدیو ها و حتی تصاویر 3 یعدی مانند تصاویر پزشکی . به طور کلی می توان گفت این شبکه ها برای هر نوع داده ای که بتوان آنها را در ماتریس چند بعدی تعریف کرد مناسب است . بدین ترتیب یکی از حوزه هایی که می توان از این شبکه ها استفاده کرد حوزه ی پردازش زبان های طبیعی است .

لطفا به مثال زیر دقت کنید :

مثالی از نحوه ی عملکرد شبکه ی کانکلوشن

ماتریس با اندازه ی 355 را اصطلاحا فیلتر 8 می نامیم . در آیه های این ماتریس معمولا به صورت تصادفی مقدار دهی می شوند .روال کار کانکلوشن بر روی تصویر9 فوق به این صورت است که فیلتربه ابعاد 355 را اصطلاحا بر روی تصویر بالا که اندازه ی آن 33232 است می لغزانیم ، ناحیه ای که در تصویر زیر این ماتریس با اندازه ی 355 قرار می گیرد را با این در این ماتریس ضرب کرده و درآیه های ماتریس حاصل را با هم جمع می کنیم که یک عدد بدست خواهد آمد .این فیلتر را بنا بر سیاست تعریف شده بر روی تصویر می لغزانیم و بدین ترتیب ماتریسی دیگری با این کار به شکل زیر حاصل خواهد شد .

شکل حاصل از فیلتر اول

در نهایت پس از 5 بار اعمال فیلتر بر روی تصویر اصلی به شکل زیر دست می یابیم :

شکل پس از 5 بار اعمال فیلتر

۲.۲. تشریح متحد کننده 10

در این قسمت می توانیم به تعداد مناسب بر روی تصویر مورد نظر فیلتر اعمال کنیم ولی باید به این مهم اشاره کنیم که با وجود اینکه هر چه تعداد فیلتر ها بالاتر می رود قابلیت یادگیری شبکه بالا می رود ولی تعداد فیلتر های زیاد منجر به حجم عظیمی از محاسبات شده که فشار زیادی را به سخت افزار اعمال می کند.به همین خاطر در شبکه های کانوللوشن در برخی لایه ها از برخی روش های کاهش اندازه استفاده می کنند که هدفشان صرفا کاهش اندازه ی داده هاست ، که با این کار حجم محاسبات کاهش می یابد .این کار به شیوه های مختلفی انجام می شود . به طور کلی این روش ها را می توان به دو گروه تقسیم کرد .
گروه اول :
این روش ها همراه با عمل کانولوشن انجام می شوند و باعث کاهش اندازه ی داده ها می شوند . این روش ها اصطلاحا از گام 11 بزرگتر از یک استفاده می کنند که باعث می شوند نتیجه ی کار بعد از هر بار اعمال کانولوشن یک تصویر بسیار کوچکتر از تصویر لایه ی قبل شود .
شکل زیر مثالی است که نحوه ی عملکرد روش مبتنی بر گام را نشان می دهد :

روش مبتنی بر گام

گروه دوم :
روش هایی هستند که از متحد کنند (حداکثر،میانگین و ...) استفاده می کنند . این دسته از روش ها فقط اندازه ی داده ها را کاهش می دهند و کار دیگری انجام نمی دهند . این لایه ها بعد از لایه ی کانولوشن قرار می گیرند و صرفا اندازه ی داده ها را کاهش (مثلا نصف) می کنند . روش های مختلفی برای ایجاد متحد کننده وجود دارد ولی معروفترینشان متحد کننده-حداکثر 12 است .شیوهی کار متحد کننده-حداکثر به شکل زیر است :

نمونه ای از متحدکننده-حداکثر

در شکل بالا داده ی اصلی به اندازه ی یک ماتریس 44 است و عملیات متحد کننده-حداکثر با گام 2 و با اندازه ی پنجره ی 22 انجام می گیرد .متحدکننده-حداکثر بیشترین مقدار را انتخاب کرده و در خانه ی متناظر با این پنجره در ماتریس خروجی قرار می دهد .

۲.۳. حذف کننده13 :

این شیوه به منظور جلوگیری از آموزش بیش از حد 14 ایجاد شده است و نحوه کار آن به این صورت است که در هر مرحله از آموزش, هر نورون یا با احتمال ۱-p (از شبکه) بیرون انداخته شده 15 و یا با احتمال p نگه داشته میشود, بطوریکه نهایتا یک شبکه کاهش داده شده باقی بماند. یالهای ورودی و خروجی به یک نود بیرون انداخته شده 16 نیز حذف میشوند.اینگونه تنها شبکه کاهش یافته بر روی داده ها در آن مرحله آموزش خواهد دید.(بعد از این کار) نودهای حذف شده سپس به همراه وزنهای سابق آنها(قبل از حذف شدن) دوباره به درون شبکه وارد میشوند.

نمونه ای از حذف کننده

۲.۴. لایه احتمال ساز 17 :

خروجی های نهایی شبک ی عصبی را گرفته و آنها را به احتمال تبدیل می کند ، یعنی هر یک از خروجی ها را به اعدادی بین 0 و 1 تبدیل کرده ، به گونه ای که مجموع تمام خروجی ها برابر 1 شود .

شکل زیر نمونه ای از روال کار احتمال ساز را نشان می دهد :

نمونه ای از روال کار احتمال ساز

۲.۵. روش ارزیابی k تایی کردن 18 :

در این نوع اعتبارسنجی داده ها به K زیرمجموعه افراز می شوند. از این K زیرمجموعه، هر بار یکی برای آزمایش و K-1 تای دیگر برای آموزش بکار میروند. این روال K بار تکرار می شود و همه داده ها دقیقا یکبار برای آموزش و یکبار برای آزمایش بکار می روند. در نهایت میانگین نتیجه این K بار اعتبارسنجی به عنوان یک تخمین نهایی برگزیده می شود. البته می توان از روش های دیگر برای ترکیب نتایج استفاده کرد. بطور معمول از "10تایی کردن"19 استفاده می شود.

مثالی برای شیوه ارزیابی k تایی کردن

۲.۶. شیوه ی ارزیابی held-out :

این شیوه به این صورت کار می کند که یک بخش از مجموعه دادگان را مجموعه آموزش در نظر می گیرد و مابقی دادگان را برای مجموعه ی آزمایش .

۳. معرفی

در سال های اخیر پایگاه های دانش 20 متنوع و با مقیاس های بزرگی مانند Freebase،ِDbpedia،YAGO ساخته شده اند و برای کار های زیادی در زمینه پردازش زبان های طبیعی 21 مانند جست و جو در وب و سیستم سوال جواب 22 مورد استفاده قرار گرفته اند.اغلب این پایگاه های دانش رابطه های حقیقی23 ها رو به صورت 3 تایی هایی به شکل ( حقیقت دوم رابطه حقیقت اول) نشان می دهند . بعنوان نمونه (Microsoft founder Bill-Gates) نشان می دهند که بیل گیتس24 و شرکت ماکروسافت 25 با یکدیگر رابطه ی مالکیت دارند ، یعنی بیل گیتس مالک ماکروسافت است . با و جود این که پایگاه دانش های موجود شامل مقدار زیادی از حقایق هستند ، اما هنوز در قیاس با حقایق بی نهایت موجود در دنیای واقعی فاصله زیادی دارند.برای غنی سازی پایگاه دانش ها تلاش های زیادی شده است تا رابطه های حقیقی ناشناس ، به صورت اتوماتیک پیدا شوند . بنابراین استخراج رابطه (فرآیند تولید داده های مرتبط26 از متن ساده) ، امری ضروری در پرداز زبان های طبیعی است.
اغلب سیستم های استخراج رابطه مبتنی بر نظارت 27 موجود ، به مقادیر زیادی از داده های مجموعه یادگیری28 ای که به صورت رابطه ای برچسب خورده اند احتیاج دارند 29 که برای تهیه آنها به زمان و نیروی انسانی زیادی احتیاج است.(در انتهای این بخش برخی از این روش ها توضیح داده خواهند شد)

[13] سیستم با نظرات دوری را پیشنهاد می کند که از طریق پایگاه دانش ها و متن 30 ها ، به طور اتوماتیک ، مجموعه یادگیری تولید کند.
آنها فرض می کنند اگر دو موجودیت 31 در پایگاه دانش یک رابطه باهم داشته باشند ، پس همه جملاتی که شامل این دو موجودیت هستند هم این رابطه را بیان می کنند.به عنوان نمونه، (Microsoft founder Bill-Gates) یک رابطه حقیقی در پایگاه دانش است . نظارت دور ، همه جملاتی را که شامل این دو موجودیت هستند را به عنوان نمونه فعالیتی از رابطهfounder در نظر می گیرد . اگرچه نظارت دور یک استراتژی موثر است که به صورت اتوماتیک به مجموعه یادگیری برچسب دهی می کند اما این روش همیشه از مشکل برچسب دهی اشتباه رنج می برد . برای نمونه جمله ی "Bill Gates ’s turn to philanthropy was linked to the antitrust problems Microsoft had in the U.S. and the European union"، رابطه founder را بیان نمی کند اما هنوز به عنوان نمونه فعالیتی از رابطهfounder در نظر گرفته می شود.

[15,12,20] از این رو این 3 فرد در تحقیقتشان از شیوه ی یادگیری چند نمونه ای 32 را اتخاذ کردند تا تاثیر مسئله لیبل دهی اشتباه را کم کنند . نقطه ضعف اصلی این روش ها این است که اغلب از ویژگی ها رو از طریق ابزار های آماده ی موجود برای پردازش زبان های طبیعی 33 مانند برچسب گذاری بخشی از گفتار 34 بدست می آورند , خطا35های تولید شده بوسیله ی ابزار های پردازش زبان های طبیعی ، در این روش ها انتشار خواهد یافت.
برخی کار های جدید سعی کردند از از شبکه های عصبی عمیق 36 بدون دستکار ویژگی ها در عمل استخراج رابطه استفاده کنند.این روش ها هم به مشکلاتی مواجه شد تا اینکه[24,25] روش یادگیری چند نمونه ای را با مدل شبکه های عصبی بیان کرد تا بتواند استخراج کننده رابطه37 هایی بر پایه مدل نظارت دور بسازد .اگرچه این روش به بهبود موثری در استخراج رابطه دست یافت ، هنوز تا نقطه قانع کنند فاصله زیادی وجود داشت . در این روش فرض بر این است که حداقل یک جمله که شامل دو موجودیت است ، رابطه بینشان را رو بیان خواهد کرد و فقط جمله ای که بیشترین احتمال را دارد برای هر جفت موجودیت ، در آموزش38 و پیش بینی39 انتخاب می شود . روشن است که این روش حجم زیادی از اطلاعات را در جملات کنار گذاشته شده ، از دست می دهد.در این مقاله یک شبکه کانکلوشن مبتنی بر توجه در سطح جمله 40 را برای استخراج رابطه با نظارت دور 41 پیشنهاد میدهیم.

شکل 1

همانطور که در شکل 1 نشان داده شده ، برای جاسازی معانی جملات از یک شبکه کانکلوشن 42 استفاده شده است.سپس، برای استفاده از همه جملات بامعنی ، رابطه به صورت ترکیب معنایی جملات جاسازی شده 43 تعریف می شود.برای کاهش مشکل برچسب زدن اشتباه ، یک مدل چند نمونه ای مبتنی بر توجه در سطح جمله 44 ساخته شده است ، که انتظار می رود به صورت پویا وزن این نمونه های اشتباه را کاهش دهد . در نهایت با بردار رابطه های وزن دهی شده بوسیله ی توجه در سطح جمله 45 ، رابطه را استخراج می کنیم.مدل معرفی شده در این مقاله بر روی یک مجموعه داده ی دنیای واقعی برای کار استخراج رابطه ارزیابی می شود. نتایج آزمایشات نشان می دهد کهاین مدل بهبود استوار و موثری در قیاس با سایر روش های موجود در عمل استخراج رابطه خواهد داشت .
بخش های این مقاله را می توان در قسمت های زیر خلاصه کرد:
-در قیاس با مدل های مبتی بر شبکه های عصبی برای عمل استخراج رابطه ، مدل معرفی شده در این مقاله می تواند کاملا از همه جملات معنی دار برای هر موجودیت استفاده کند.
-برای حل مشکل برچسب دهی اشتباه نمونه ها در روش یادگیری دور در این مقاله روشی رو پیشنهاد می شود با عنوان توجه انتخابی با تاکید بر موراد اشتباه46


در این آزمایشات ، ما نشان می دهیم که توجه انتخابی47 در 2 نوع مدل شبکه کانکلوشن48 در کار استخراج رابطه ها سودمند است.
در این بخش به معرفی relation extraction و برخی روش های یافتن آن در متون می پردازیم :
به بیان ساده استخراج رابطه ، رابطه ی بین موجودیت هاست.استخراج رابطه اصلی ترین قسمت استخراج اطاعات 49 است.

در این شکل می توان نمونه ای از رابطه های ممکن بین دو جودیت Drug , Desease را مشاهده کرد

در این شکل می توان نمونه ای از رابطه های ممکن بین دو جودیت Person, Organizationرا مشاهده کرد

روش هایی که با آنها می توان یک استخراج کننده رابطه ساخت :

  1. الگو های دست نویس 50

  2. ماشین یادگیری با نظارت51

  3. یادگیری نیمه نظارتی یا بدون نظارت52 : یادگیری دور و ...

    چگونه در سیستم های Supervised relation extraction ، کلاس بندی انجام بدیم؟
    1.همه جفت موجودیت ها رو پیدا کنیم(معمولا در هر جمله)
    2.تصمیم بگیریم که آیا دو موجودیت با هم مرتبطند یا نه
    3.اگر مرتبطند ، رابطه رو کلاس بندی می کنیم


۴. تشریح distant supervised :

اغلب سیستم های با نظارت 53 نیاز به یک مجموعه به عنوان مجموعه آموزش دارند . رویکرد سنتی برای جمع آوری مجموعه آموزش این است که یک مجموعه از اسناد 54 توسط انسان برچسب زده شود . این رویکرد هم از نظر زمان و هم از نظر نیروی انسانی مقرون به صرفه نیست . مخصوصا اگر حجم متنون55 زیاد باشد بسیار محتمل است که عامل انسانی خطا کند و داده های مجموعه آموزش اشتباه داشته باشند.
رویکرد جایگزین این است که مجموعه آموزش رو با استفاده از نظارت دور تولید کنیم.در نظارت دور ما از یک پایگاه داده موجود مانند Freebase استفاده می کنیم تا برای رابطه ای که می خوایم استخراج کنیم نمونه هایی رو جمع آوری کنیم.بعد از این نمونه ها برای تولید اتوماتیک مجموعه آموزش استفاده می شود . به عنوان نمونه ، Freebase شامل این حقیقت است که باراک اوباما و میشل اوباما ازدواج کردند، این حقیقت رو گرفته می شود و بعد هر جفت "باراک اوباما"،"میشل اوباما" که در جمله ای آمده بود را به عنوان یک نمونه مطلوب56 برای رابطه ی ازدواج ، برچسبزده می شود (البته امکان اشتباه وجود دارد).از نظارت دور برای بدست آوردن نمونه های مطلوب یک رابطه استفاده می شود ، اما برای بدست آوردن نمونه های غیر مطلوب 57 یک رابطه به تلاش بیشتری نیاز داریم.
برای اینکه یک سیستم خوب train شود نیاز است که نمونه های غیر مطلوب هم خوب تعریف شود زیرا در غیر این صورت تمام پیش بینی ها در عملطبقه بندی 58 از نوع مطلوب تشخیص داده می شوند.

چند راه رایج برای تولید شواهد منفی رو توضیح می دهیم:
1.رابطه ناسازگار59
فرض کنید برای دو موجودیت x , y ، ما یک رابطه A را می خواهیم .و رابطه B با A ناسازگار است.
B(x,y) => not A(x,y)
به عنوان مثال اگر بخواهیم برای رابطه "همسری" نمونه های منفی تولید کنیم ، ما می تونیم از رابطه های ناسازگار با رابطه ی "همسری" مانند رابطه های والد،خواهرو برادری یا فرزندی استفاده کنیم.اگر x,y رابطه والد و فرزند داشته باشند دیگر نمی توانند رابطه "همسری" داشته باشند.
2.قوانین دامنه خاص60
گاهی اوقات ما می تونیم از دانش مون در سایر حوزه ها به عنوان فیلتر استفاده کنیم.مثلا این قانون رو بزرایم که افرادی که همسن نیستند نتونن با هم رابطه همسری داشته باشند.اگر y دارای تارخ تولدی بیشتر از x است، آنها نمی توانند با هم ازدواج کنند.
3.نمونه برداری به صورت رندوم 61
به صورت Random برخی نمونه ها به عنوان neg در نظر گرفته بشوند.

۵. کار های مرتبط

استخراج رابطه ها یکی از مهمترین کار ها در زمینه پردازش زبان های طبیعی است.تلاش های زیادی در زمینه استخراج رابطه به خصوص استخراج رابطه با استفاده از روش های با نظارت شده است.بیشتر این روش ها نیاز به اطلاعات برچسب دهی شده ی زیادی هستند که تهیشون نیاز به صرف زمان و نیروی انسانی زیادی است.در سال [13] برای حل این مشکل روشی رو برای متن ساده و Freebase با استفاده از نظارت دور ارائه می کند.که متاسفانه با مشکل برچسب دهی اشتباه همراه است . در [15] برای تسکین این مشکل مدل با نام نظارت از راه دور برای استخراج رابطه به عنوان یک مسئله تک تک چند نمونه 62 رو پیشنهاد داد.

بعد از اون در مقاله [20] روشی رو با عنوان یادگیری جند نمونه ای - چند برچسبی در استخراج رابطه ها63 رو پیشنهاد داد.به همین ترتیب روش های دیگری هم مبتنی بر ویژگی64 ها ارائه شد که وابستگی زیادی به کیفیت ویژگی های تولید شده بوسیله ابزارهای پردازش زبان های طبیعی داشتند و به همین دلیل از مشکل انتشار خطاها رنج می برند.
اخیرا یادگیری عمق 65 به شکل گسترده ای در حوزه های گوناگون شامل بینایی ماشین،پردازش گفتار و ... مورد استفاده قرار می گیرد.از یادگیری عمیق حتی در پردازش زبان های طبیعی در حوزه های گوناگونی مانند آنالیز احساسی،تجزیه،ترجمه ماشینی استفاده شده.
به خاطر موفقیت های اخیر در یادگیری عمیق ، بسیاری از محققین در حال بررسی احتمال استفاده از شبکه های عصبی در اتوماتیک کردن یادگیری ویژگی ها برای استخراج رابطه هستند.

۶. روش شناسی

یک مجموعه از جملات به صورت { X1 , X2 , ... , Xn} و دو موجودیت متناظر داده شده اند ، مدل ما احتمال هر رابطه r را اندزه می گیرند. در این بخش ما می خواهیم در 2 قسمت ، بخش های اصلی مدلمون رو معرفی کنیم :

رمز گذار جمله 66

یک جمله x و دو موجودیت هدف داده شده اند ، از یک شبکه کانکلوشن برای ساختن نمایش توزیع شده ی جمله x استفاده شده .

توجه انتخابی بر روی نمونه ها 67

وقتی بردار نمایش های توزیع شده ی همه ی جملات یاد گرفته شد ند ، از " توجه در سطح جمله" 68 استفاده می شود که جملاتی رو که واقعا رابطه ی مورد نظر را بیان می کنند انتخاب شوند.

شکل 2

ما جمله ی x را بوسیله ی یک شبکه کانکلوشن به شکل توزیع شده تبدیل می کنیم.ابتدا، کلمات جمله در یک بردار چگال 69 از ویژگی ها قرار می گیرند،بعد کانکلوشن ،لایه حداکثر ساز [^max-pooling] و لایه تغییر غیر خطی 70 استفاده شدند تا نمایش توزیع شده ی از جملات را بسازند.

۶.۱. نمایش ورودی

ورودی های شبکه ی کانکلوشن کلمات خام موجود در هر جمله است . ابتدا کلمات موجود در جملات در بردار هایی با ابعاد کم جایگذاری می شوند . در این بردار ها از طریق جاسازی کلمه 71 و جاسازی موقعیت 72 ، معنا و موقعیت هر کلمه در جمله حفظ می شود.هر کلمه در هر جمله بردار مختص به خود را خواهد داشت.
جاسازی کلمه
جاسازی کلمه ،سعی دارد کلمات را به شکلی نمایش دهد که نحو و معنای کلمات در آن قالب حفظ و نمایش داده شود.فرض کنید جمله ی x شامل m کلمه
است ، هر کدام از این کلمات به شکل برداری هایی که معنا ی آنها و موقعیتشان در جمله را نشان می دهند نگهداری می شوند.
جاسازی موقعیت
در کار استخراج رابطه معمولا ،معمولا کلمات نزدیک به موجودیت های هدف شامل اطلاعاتی زیادی در ارتباط با رابطه ی بین موجودیت ها هستند. همان طور
که در مقاله [24] امده موقعیت کلمات در جملات بوسیله ی فاصله هر کلمه نسبت به هر کدوم از این دو موجودیت ها در نظر می گیریم.این کار باعث می شود
که شبکه ی کانکلوشن بتواند تشخیص دهد که هر کلمه چقدر به هر کدام از موجودیت های مورد نظر نزدیک است .موقعیت هر کلمه به صورت ترکیبی از فاصله هر کلمه نسبت به ابتدا یا انتهای هر کدام از موجودیت های مورد نظر در هر جکله تعریف می شود. به عنوان نمونه در جمله ی ""Bill-Gates is the founder of Microsoft "" ، فاصله ی کلمه ی founder نسبت به ابتدا73ی موجودیت Bill-Gates ، سه است و نسبت به انتهای 74 مو جودیت Microsoft ، دو است .در شکل 2 فرض شده که ابعاد جاسازی کلمه 3 است و ابعاد جاسازی موقعیت 2 است که از بین 2 خانه ای که برای جاسازی موقعیت در نظر گرفته شده ، یکی مشخص کننده ی فاصله ی هر کلمه نسبت به ابتدای یکی از موجودیت ها است و دیگری نشان دهنده ی فاصله ی کلمه نسبت به انتهای موجودیت دیگر است. در نهایت بردار های مربوط به هر کدام از کلمات جمله در قالب یک بردار کلی برای هر جمله نمایش داده می شود.

۶.۲. کانکلوشن ، حداکثر ساز ، لایه غیر خطی 75

در کار استخراج رابطه ها ، چالش اصلی این است که طول جملات متغییر است و اطلاعات مهم تقریبا هر جایی از جملات می تواند ظاهر شود . باید از تمام
ویژگی های محلی استفاده شود و کار استخراج رابطه به صورت غیر محلی انجام بدهیم. در این مقاله از لایه کانکلوشن استفاده می شود تا تمام ویژگی های محلی ادغام شوند.لایه کانکلوشن ابتدا تمام ویژگی های محلی در هر جمله را با پنجره کشویی 76 به اندازه ی L استخراج می کند .در نمونه ی نشان داده شده در شکل 2 فرض شده که اندازه ی پنجره ی کشویی 3 است . بعد تمام ویژگی های محلی استخراج شده توسط شبکه کانکلوشن توسط یک حداکثر ساز ترکیب می شوند و در نهایت به یک بردار با اندازه ی مشخص برای هر جمله ورودی تبدیل می شوند .

بخشی از جمله که در هر مرحله با پنجره کشویی به اندازه 3 برای محاسبه در کانکلوشن استفاده می شود

نمایش بخشی از شبکه کانکلوشن

در نهایت ما از یک تابع غیر خطی مانند تانژانت هیپربولیک در خروجی استفاده می کنیم.

۶.۳. توجه انتخابی بر روی نمونه ها

فرض کنید که مجموعه ی S دارای n جمله است شامل دو موجودیت خاص که می خواهم وجود رابطه ی مورد نظر را در مورد آنها مورد بررسی قرار دهیم .
S = {X1 , X2 , ... , Xn}
مدل معرفی شده در این مقاله برای استخراج اطلاعات همه ی جملات مجموعه ی S ، این مجموعه را به صورت برداری به نام s ، به منظور پیش بینی 77 رابطه ی r نمایش می دهد . واضح است که نمایش مجموعه ی S ، به نمایش تک تک اعضای X1 تا Xn وابسته است .نمایش هر جمله ای مانند Xi شامل اطلاعاتی است که آیا برای هر جفت موجودیت مورد نظر ، رابطه ی r برقرار است یا نه . مجموعه بردار s که در بالا از آن صحبت شد به صورت جمع وزن دهی شده ی همه ی جملات مجموعه ی S تعریف می شود :

فرمول شما ره 5

آلفا وزن هر بردار جمله ی Xi است . منظور از بردار جمله همان نمایش توزیع شده ی جمله ی Xi است که در مرحله ی قبل با استفاده از رمزگذار جمله بدست آمد.در این مقاله آلفا به دو روش تعریف شده است :
میانگین78 : فرض می شود که همه ی جملات مجموعه X ، سهم یکسانی در نمایش مجموعه دارند . این بدین معنی است که جاسازی 79 مجموعه S میانگین همه ی بردار جملات است .
فرمول شماره 6

این یک راه ساده و ابتدایی برای مدا توجه انتخابی معرفی شده در مقاله است .
توجه انتخابی :
به هر حال مشکل برچسب دهی اشتباه در هر صورت در یادگیری با نظارت دور رخ می دهد . به همین دلیل اگر وزن هر جمله برابر فرض شود ، مشکل برچسب دهی اشتباه باعث بوجود آمدن جحم عظیمی از داده های اشتباه هم در مر حله ی آموزش و هم در مرحله ی آزمایش 80 می شود . برای رفع این مشکل در این مقاله از توجه انتخابی با تاکید بر جملات اشتباه 81 استفاده شده است . از این رو وزن آلفا با استفاده از فرمول زیر تعریف می شود :

فرمول شماره 7

در فرمول فوق ei یک تابع جست و جوی پایه82 است که بوسیله ی امتیازی83 که می دهد مشخص می کند جمله ی ورودی Xi و رابطه ی پیش بینی شده ی r چقدر باهم تطابق دارند . eiاینگونه محاسبه می شود :

فرمول شماره 8

در فرمول فوق A یک ماتریس قطری وزن دهی شده است و r بردار جست و جوی84 مربوط به رابطه ی r است که نمایش رابطه ی r را نشان می دهد .در نهایت احتمال شرطی (p(r|S,θ بوسیله ی لایه ی softmax به شکل زیر محاسبه می شود:

فرمول شماره 9

در فرمول فوق nr ، تعداد کل رابطه ها را مشخص می کند و o خروجی نهایی شبکه عصبی است که برابر است با امتیاز تعلق مجموعه S به رابطه ی مورد نظر ، به عنوان نمونه or نشان دهنده ی امتیاز تعلق مجموعه ی S به رابطه ی r است . o به این شکل تعریف می شود :
فرمول شماره 10

در فرمول فوق d یک بردار تبعیض85 است و M ماتریس نمایش رابطه هاست.
در مقاله ی [25] فرض شده که حداقل یک جفت از entity های موجود در متن ، رابطه ی موجود بین خود در پایگاه دانش را بیان خواهند کرد . در مجموعه ی آموزش فقط از جملات با احتمال بالا استفاده می شود .از این رو ، روشی که نویسندگان این مقاله برای یادگیری چند نمونه ای86 در پیش گرفتند می تواند به عنوان یک مورد خاص در این مقاله مورد استفاده قرار گیرد ، به این صورت که وزن جملات با احتمال بیشتر 1 در نظر گرفته شود و وزن مابقی جملات 0 .

۶.۴. بهینه سازی 87و جزئیات توسعه88

در این قسمت جزئیات بیشتری از شیوه ی بهینه سازی و یادگیری استفاده شده در این مقاله معرفی می شود . تابع هدف 89 که از تقاطع آنتروپی 90 استفاده می کند ، به شکل زیر تعریف می شود :

فرمول شماره 11

در فرمول فوق s نشان دهنده ی تعداد جملات موجود در مجموعه ی S است و θ نشان دهنده ی تمام مولفه 91 های به کار رفته در مدل معرفی شده در این مقاله است .برای حل مسئله ی بهینه سازی از شیوه ی کاهش تصادفی شیب92 یا SGD برای حداقل 93 سازی تابع هدف استفاده شده است .برای مرحله ی یادگیری در یک دوره ی متناوب تا موقع رسیدن به نقطه ی همگرایی(بهینه) ، به صورت تصادفی 94 دسته ی کوچکی از مجموعه ی یادگیری انتحاب می شود . در بخش توسعه ی این مقاله برای جلوگیری از یادگیری بیش از حد [^overfitting] همانند آنچه در مقاله ی [18] استفاده شده است از حذف کننده ی تصادفی [^dropout] در لایه ی خروجی استفاده شده است .

۷. آزمایشات 95

آزمایش های انجام شده در این مقاله می خواهد این مطلب را نشان دهد که مدل عصبی معرفی شده در این مقاله که باشیوه ی توجه انتخابی در سطح جمله کار می کند ، می تواند هم مشکل برچسب دهی اشتباه را کاهش دهد و هم از تمام جملات معنی دار موجود در متن در عمل استخراج رابطه با استفاده از شیوه ی یادگیری دور بهره ببرد. برای این مقصود ابتدا مجوعه دادگان و معیار های ارزیابی استفاده شده در آزمایشات معرفی می شود .سپس مدل توجه انتخابی معرفی شده در مقاله ارزیابی می شود و عملکرد این شیوه روی مجموعه دادگان های با اندازه های مختلف نشان داده می شود . در نهایت عملکرد مدل معرفی شده در این مقاله با چند روش سنتی مورد استفاده مه مبتنی بر ویژگی ها عمل می کنند مقایسه می شود .

۷.۱. دادگان و معیار های ارزیابی

مدل معرفی شده در این مقاله بر روی یک دادگان پر استفاده که در مقالات [15,12,20] هم از آن استفاده شده است مورد ارزیابی قرار گرفته است .این دادگان بوسیله ی نسبت دادن رابطه های موجود در Freebase به متن های خبرگذاری نیویورک تایمز96 یا NYT ساخته شده است. ّFreebase یک پایگاه دانش است که مجموعه ی بزرگی از جفت موجودیت ها و رابطه ی بینشان را در خود جای داده است .روال کار برای استفاده از متون خبرگذاری نیویورک تایمز و پایگاه دانش Freebase به این صورت است که موجودیت های موجود در متون نیویورک تایمز بوسیله ی ابزار Standford named entity tagger برچسب گذاری می شوند . بعد موجودیت های مشخص ضده در متن با موجودیت های موجود در پایگاه دانش Freebase منطبق می شوند ، یعنی از میان آن موجودیت های متن فقط آن دسته از موجودیت ها که در پایگاه دانش Freebase وجود دارند در آزمایشات لحاظ می شود .روابط موجود در پایگاه دانش Frebase به دو بخش تقسیم می شوند ، یک بخش برای مجموعه یادگیری و یک بخش برای مجموعه ی آزمایش در نظر گرفته می شود .همچنین متون خبرگزاری نیویورک تایمز در حدود سال های 2005 تا 2006 برای مجموعه ی آموزش و متون مبوط به سال 2007 همین خبرکذاری برای مجموعه ی آزمایش در نظر گرفته می شود .
در پایگاه دانش Freebase ،پنجاه و سه نوع مختلف رابطه وجود دارد که یکی از آنها با عنوان NA به معنی رابطه نداشتن دو موجودیت مورد بحث است .بدین مجموعه آموزش شامل 512611 جمله ، 281270 جفت موجودیت و 18252 رابطه ی حقیقی است. همچنین مجموعه آزمایش شامل 172448 جمله ،96678 جفت موجودیت و 1950 رابطه ی حقیقی است .
مانند آنچه در مقاله [13] انجام شده است برای ازریابی مدل معرفی شده در این مقاله از شیوه ی ازریابی held-out استفاده می شود . این شیوه به این صورت مدل این مقاله رو مورد ارزیابی قرار می دهد که رابطه های کشف شده در مجموعه ی آزمایش را با رابطه های موجود در پایگاه دانش Freebase مقایسه می کند . در واقع شیوه ی held-out ، بدون صرف نیروی انسانی تخمینی از صحت پیش بینی رابطه ها رائه می دهد .

۷.۲. تنظیمات آزمایش :

۷.۲.۱. جاسازی کلمات :

در این مقاله از ابزارword2vec برای جاسازی کلمات در متون خبرگذاری نیویورک تایمز استفاده شده است.97
در این مقاله کلماتی که بیشاز 100 بار تکرار شده اند به عنوان لغت نامه 98 در نظر گرفته می شوند . همچنین در این مقاله موجودیت هایی که از چندین کلمه تشکیل شده اند ، کلماتشان با هم ترکیب می شود .

۷.۲.۲. تنظیمات مولفه ها :

پیرو کار هایی که در مقالاتی که پیش از این مقاله ارائه شده اند انجام شده است ، در این مقاله از مدل اعتبار سه گانه 99 روی مجموعه ی آموزش استفاده شده است . نرخ یادگیری 100 های به کار رفته در این مقاله عبارتند از {0.1,0.01,0.001,0.0001} و اندازه ی پنجره کشویی های(L) به کار رفته نیز عبارتند از {8, ... 1,2,3} و نیز اندازه دسته 101 های به کار رفته در مقاله عبارتند از {40,160,640,1280}.برای سایر مولفه ها هم به علت تاثیر ناچیز بر روی نتیجه ، بدون تغییر از همان مولفه هایی که در مقاله [24] منظور شده است ، استفاده شده است . برای آموزش ، تعداد تکرار برای همه ی مجموعه ی آموزش ، 25 در نظر گرفته شده است . به طرو کلی در جدول زیر تمام مولفه های استفاده شده در تمام آزمایشات نشان داده شده اند :

جدول 1

۷.۳. تاثیر توجه انتخابی در سطح جمله :

برای اینکه تاثیر این مدل نسبت با سایر مدل ها نشان داده شود ، نتایج حاصل از ارزیابی این مدل و مدل های دیگر که همگی با مدل held-out ارزیابی می شوند نمایش داده می شود . در آزمایشات برای شبکه ی کانکلوشن مورد استفاده در بخش رمز نگار جمله که پیشتر راجع به آن توضیح داده شد ، هم از مدل شبکه ی کانکلوشن استفاده شده در مقاله ی [24] با عنوان CNN استفاده شده است و هم از مدل شبکه کانکلوشن به کار رفته در مقاله ی [25] با عنوان PCNN . سپس عملکرد هر دو این مدل ها روی 3 شیوه ی مختلف ATT،AVE،ONE مورد مقایسه قرار می گیرد . منظور از ATT همان شیوه ی توجه در سطح جمله است که در مورد فرمول 5 توضیحاتش ارائه شد . منظور از AVE هم همان شیوه ای است که در بخش مربوط به فرمول 6 شرح داده شد . و منظور از مدل ONE مدلیست با عنوان "در حداقل یکی یادگیری چند نمونه "102 که در مقاله ی [25] از آن استفاده شده است .

نمودار صحت/فراخوانی برای موقعی که از شبکه ی CNN برای رمزگذار جمله استفاده شده باشد

نمودار صحت/فراخوانی برای موقعی که از شبکه یPCNN برای رمزگذار جمله استفاده شده باشد

از نمودار های فوق نتایج ذیل حاصل می شود :

1.در هر دو مدل CNNو PCNN شیوه ی ONE عملکرد بهتری دارد که دلیل آن این است که در مدلپایه ی یادگیری با نظارت دور مجموعه ی یادگیری شامل مقدار زیادی داده ی اشتباه است و و این داده های اشتباه به عملکرد استخراج رابطه صدمه ی جدی می زنند .
2.در هر دو مدل CNNو PCNN روش AVE طبق آنچه در نمودار ها ملاحظه می شود مفید است که ، این مطلب موید سودمندی ملاحظه ی بیش از یک جمله در عمل استخراج رابطه است چون باعث کاهش تاثیر اشتباهات 103 می شود .
3.در هر دو مدل CNNو PCNN شیوه ی AVE عملکردی شبیه به شیوه ی ONE دارد . این مطلب نشان دهنده ی این موضوع است که با وجود اینکه شیوه ی AVE ، از اطلاعات بیش از یک جمله بهره می برد اما وزن(ارزش) هر جمله را برابر در نظر می گیرد و چون این اطلاعات شامل اطلاعات اشتباه حاصل از عمل برچسب دهی اشتباه هستند پس بسیار محتمل است که این حجم از اطلاعات اشتباه به عملکرد استخراج رابطه آسیب بزند .
4.در هر دو مدل CNNو PCNN ، شیوه ی ATT در همه ی محدوده های فراخوانی 104 به بالاترین 105 نسبت به سایر روش ها دست می یابد .این موضوع نشان دهنده ی مفید بودن شیوه ی توجه انتخابی است . بدین معنی که این شیوه هم می تواند جملات تاثیر جملات بی معنی را کاهش دهد و هم تاثیر مشکل برچسب دهی اشتباه را تسکین دهد.

۷.۴. تاثیر تعداد جمله 106

در مجموعه داده ی اصلی مورد استفاده در این مقاله 74857 جفت موجودیت وجود دارد که متناظر با فقط یک جمله است ، یعنی تقریبا 3/4 از کل موجودیت ها متناظر با فقط یک جمله ی خاص اند. این مطلب قطعا به عمل استخراج رابطه آسیب می زند . به این دلیل که برتری مدل ارئه شده در این مقاله در جایی که یک جفت موجودیت در بیش از یک جمله حضور دارند نمو پیدا می کند ، عملکرد مدل رائه شده در مورد جفت موجودیت هایی که در بیش از یک نمونه(جمله) حضور دارند مورد بررسی قرار می گیرد . در ادامه 3 روش CNN/PCNN ONE ، CNN/PCNN AVE و CNN/PCNN ATT را با 3 نوع تنظیمات زیر مورد بررسی قرار می دهیم :

  • یک107 : در این شیوه برای هر جفت موجودیت به صورت تصادفی فقط یک عدد از جملات شامل این جفت موجودیت را انتخاب می شودو عمل پیش بینی رابطه در مورد آن انجام می شود.

  • دو108 :در این شیوه برای هر جفت موجودیت به صورت تصادفی فقط دو عدد از جملات شامل این جفت موجودیت را انتخاب می شودو عمل پیش بینی رابطه در مورد آن انجام می شود.

  • همه109 :در این شیوه برای هر جفت موجودیت همه ی جملات شامل این جفت موجودیت را انتخاب می کنیم و عمل پیش بینی رابطه را در مورد آن ها انجام می دهیم .

    جدول شماره 2

    * توجه شود هر سه شیوه ی معرفی شده در بالا یعنی روش های "یک"،"دو"و "همه" برای مرحله ی آزمایش اند و برای مرحله ی آموزش از تمام جملات استفاده می شود .
    از روی جدول فوق اطلاعات زیر نتیجه گرفته می شود :

1.برای هر دو شبکه ی کانکلوشن CNN و PCNN ، مدل ATT عملکردی بهتری را نسبت به دو مدل دیگر خواهد داشت که این مطلب نشان دهنده ی تاثیر شیوه ی توجه انتخابی در سطح جمله برای یادگیری چند نمونه ای را نشان می هد .

2.در هر دو شبکه کانکلوشن CNN و PCNN مدل AVE در شیوه ی one تقریبا عملکرد یکسانی با مدل ATT دارد اما به تدریج با افزایش تعداد جملاتی که باید برای هر جفت موجودیت در نظر گرفته شود عملکرد AVE نه تنها بهبود نمی یابد ، بلکه در حرکت از P@100 به P#@200 کاهش هم می یابد . که دلیل این مسله به دو مشکل بر میگردد ، یک اینکه مدل AVE وزن یکسانی به هر جمله می دهد ، دو اینکه هر چه تعداد جملاتی که برای هر جفت موجودیت در نظر گرفته می شود بیشتر می شود ، بر حجم اطلاعات اشتباهی که حاصل مشکل برچسب دهی اشتباه هستند افزوده شده و این 2 مشکل تاثیر منفی خود را روی کار استخراج رابطه می گذارد .

  1. مدل CNN+AVE و CNN-ATT در شیوه ی one هر کدام به ترتیب 5% و 8% عملکرد بهتری نسبن به مدل CNN-ONE دارند که با توجه به اینکه شیوه ی آزمایش one است و در این شیوه ی آموزش فقط یکی از جمات حاوی جفت موجودیت مورد نظر در کار آزمایش دخیل است ، پس نتیجه می گیریم که تنها فرق بین این 3 مدل ، شیوه ی آموزش آنهاست . این مسئله نشان می دهد که هر چه از جملات بیشتری برای آزمایش استفاده کنیم ، حجم بیشتری از اطلاعات را خواهیم داشت حال آنکه این حجم بیشتر اطلاعات با خود حجم زیادی از اطلاعات با برچسب اشتباه را هم خواهد آورد .

4.برای هر دو شبکه کانکلوشن CNN و PCNN ، مدل ATT نسبت به دو مدل دیگر به ترتیب 5% و 9% بهتر عمل می کند . که این مسئله نشان از این موضوع دارد که هر چه اطلاعات مفید بیشتری به مدل داده شود ، عمل استخراج رابطه بهتر انجام می شود .

۷.۵. قیاس مدل مقاله با مدل های مبتنی بر ویژگی ها

شکل4-قیاس عملکر مدل پیشنهادی مقاله با روش های سنتی استخراج رابطه

به منظور ارزیابی مدل ارائه شده در مقاله ، مدل مقاله با روش های ارائه شده ی زیر که همگی مبتنی بر ویژگی هستند و از شیوه ی ارزیابی held-out استفاده می مقایسه می شوند :

[13] ، این شیوه از همان روش یادگیری دور سنتی استفاده می کند .
[12]،یک مدل احتمالاتی و گرافی برای یادگیری چندنمونه ای ارائه می دهد که روابط همپوشان را مدیریت کند .
[20]،از هر دو مدل چند نمونه ای و چند رابطه ای با هم استفاده می کند .

هر سه شیوه ی ارائه شده در سه مقاله ی فوق توسط کدی که نگارنده های این مقالات منتشر کرده اند پیاده سازی شده است .

اطلاعات موجود در شکل 4 را اینگونه می توان تفسیر کرد :

  1. مدل CNN/PCNN+ATT به شدت از مدل های مبتنی بر ویژگی در همه ی محدوده های فراخوانی بهتر عمل می کند . عملکرد مدل های مبتنی بر ویژگی زمانی که فراخوانی بیش از 0.1 می شود بشدت افت می کند در حالی که مدل معرفی شده در مقاله عملکرد بسیار قابل قبولتری نسبت این مدل ها دارد . این مسئله بیانگر این موضوع است که ویژگی های ساخته دست انسان نمی توانند به خوبی بیانگر معنای جملات باشند و همچنین خطاهای ناشی ابزرا های پردازش زبان های طبیعی هم باعث آسیب رسیدن به عملکرد عمل استخراج رابطه می شوند ، این در حالیست که مدل CNN/PCNN+ATT که نمایش هر جمله را یاد میگیرد می تواند به صورت خودکار 110 به خوبی هر جمله را بیان کند .

  2. بنا بر شکل می توان متوجه شد که عملکرد PCNN+ATT به مراتب بهتر از CNN+ATT است .

    جدول3-چند نمونه از شیوه ی توجه انتخابی در متن نیویورک تایمز

۷.۶. مطالعه موردی

جدول 3 دو نمونه از توجه انتتخابی از مجموعه آزمایش را نشان می دهد . برای هر یک از دو رابطه ی کارفرما بودن111 و مکان تولد ، جملات با بیشترین112 و کمترین113 توجه وزن114 آورده شده است . جفت موجودیت های مورد بحث در هر کدام از این دو رابطه هم به صورت پر رنگ 115 نمایش داده شده اند .

از جدول 3 موراد زیر دریافت می شود :

در مثال مربوط به رابطه ی کارفرما بودن ، جمله ی با توجه وزن کم116 ، رابطه ی بین دو موجودیت مورد نظر را بیان نمی کند . در حالی که جمله ی با توجه وزن زیاد 117 ، نشان می دهد که فردی با نام " مل کارمازین "118 رئیس اجرایی ماهواره ی رادیویی سیریوس 119 است . در مثال مربوط به رابطه ی مکان تولد ، جمله ی با توجه وزن کم بیان می کند که فردی به نام هفلیگر120 مرده است در حالی که جمله ی با توجه وزن زیاد اشاره به متولد او دارد .

۸. پیچیدگی و کار های آینده

در این مقاله شبکه ی کانکلوشن با توجه انتخاب در سطح جمله توسعه داده شد . مدل ارائه شده در این مقاله می تواند در کنار بهره بردن از تمام اطلاعات موجود در جملات با معنی ، مشکل برچسب دهی اشتباه موجود در روش یادگیری دور را تسکین دهد .در آزمایشات متعددی ، مدل ارائه شده در این مقاله برای کار استخراج رابطه ارزیابی شد و نتایج این آزمایشات هم بر این موضوع که مدل معرفی شده در این مقاله عملکردی بسیار موثرتر از روش های سنتی مبتنی بر ویژگی ها و شبکه ی عصبی دارد صحه می گذارد .

نویسندگان مقاله اعلام می دارند که در آینده قصد دارند مسیر های زیر را بررسی نمایند :

  • ترکیب کردن مدل ارائه شده در مقاله با یادگیری چند نمونه ای با شبکه های عصبی از طریق توجه انتخابی در سطح نمونه121 . البته این روش می تواند در کارها جز عمل استخراج رابطه از طریق یادگیری دور هم مورد استفاده قرار گیرد . نوسیندگان مقاله اعلام می دارند که قصد دارند ، امکان استفاده از مدل خود را در سایر حوزه ها مانند طبقه بندی متن 122 نیز بررسی کنند .

  • شبکه ی کانکلوشن یکی از شبکه های عصبی موثر برای عمل استخراج عصبی رابطه123 هاست . محققین زیادی شبکه های عصبی دیگری را هم برای عمل استخراج رابطه پیشنهاد داده اند . در آنده نویسندگان مقاله قصد دارند روش 124 توجه انتخابی در سطح نمونه را مدل های معرفی شده توسط محققین دیگر برای عمل استخراج رابطه ترکیب کنند .

۹. سپاس گذاری

فعالیت برای این مقاله توسط بنیاد ملی علوم طبیعی کشور چین و برنامه ی علمی و پژوهشی دانشگاه تینچوآ125 پشتیبانی شده است .

نوشتار بدون نیاز به آموزش ویژگی‌های نامتناهی
مرتب
ورد

10. K-fold cross validation after

[1]S¨oren Auer, Christian Bizer, Georgi Kobilarov, Jens Lehmann, Richard Cyganiak, and Zachary Ives. 2007. Dbpedia: A nucleus for a web of open data.Springer.
[2]Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio.2014. Neural machine translation by jointly learning to align and translate. arXiv preprint arXiv:1409.0473.
[3]Yoshua Bengio. 2009. Learning deep architectures for ai. Foundations and trends R in Machine Learning,
2(1):1–127.
[4]Kurt Bollacker, Colin Evans, Praveen Paritosh, Tim Sturge, and Jamie Taylor. 2008. Freebase: a collaboratively
created graph database for structuring human knowledge. In Proceedings of KDD, pages
1247–1250.
[5]Razvan Bunescu and Raymond Mooney. 2007. Learning to extract relations from the web using minimal
supervision. In Proceedings of ACL, volume 45,page 576.
[6]Jan Chorowski, Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. 2014. End-to-end continuous speech recognition using attention-based recurrent nn: first results. arXiv preprint arXiv:1412.1602.
[7]Ronan Collobert, Jason Weston, L´eon Bottou, Michael Karlen, Koray Kavukcuoglu, and Pavel Kuksa.2011. Natural language processing (almost) from scratch. JMLR, 12:2493–2537.
[8]Thomas G Dietterich, Richard H Lathrop, and Tom´as Lozano-P´erez. 1997. Solving the multiple instance problem with axis-parallel rectangles. Artificial intelligence,
89(1):31–71.
[9]Cıcero Nogueira dos Santos and Maıra Gatti. 2014.Deep convolutional neural networks for sentiment analysis of short texts. In Proceedings of COLING.
[10]Cıcero Nogueira dos Santos, Bing Xiang, and Bowen Zhou. 2015. Classifying relations by ranking with convolutional neural networks. In Proceedings of ACL, volume 1, pages 626–634.
[11]Jenny Rose Finkel, Trond Grenager, and Christopher Manning. 2005. Incorporating non-local information into information extraction systems by gibbs sampling. In Proceedings of ACL, pages 363–370. Association for Computational Linguistics.
[12]Raphael Hoffmann, Congle Zhang, Xiao Ling, Luke Zettlemoyer, and Daniel SWeld. 2011. Knowledgebased
weak supervision for information extraction of overlapping relations. In Proceedings of ACLHLT,pages 541–550.
[13]Mike Mintz, Steven Bills, Rion Snow, and Dan Jurafsky.2009. Distant supervision for relation extraction
without labeled data. In Proceedings of ACLIJCNLP,pages 1003–1011.
[14]Volodymyr Mnih, Nicolas Heess, Alex Graves, et al.2014. Recurrent models of visual attention. In Proceedings
of NIPS, pages 2204–2212.
[15]Sebastian Riedel, Limin Yao, and Andrew McCallum.2010. Modeling relations and their mentions without
labeled text. In Proceedings of ECML-PKDD,pages 148–163.
[16]Richard Socher, Brody Huval, Christopher D Manning,and Andrew Y Ng. 2012. Semantic compositionality
through recursive matrix-vector spaces. In Proceedings of EMNLP-CoNLL, pages 1201–1211.
[17]Richard Socher, John Bauer, Christopher D Manning,and Andrew Y Ng. 2013. Parsing with compositional
vector grammars. In Proceedings of ACL.Citeseer.
[18]Nitish Srivastava, Geoffrey Hinton, Alex Krizhevsky,Ilya Sutskever, and Ruslan Salakhutdinov. 2014.
Dropout: A simple way to prevent neural networks from overfitting. JMLR, 15(1):1929–1958.
[19]Fabian M Suchanek, Gjergji Kasneci, and Gerhard Weikum. 2007. Yago: a core of semantic knowledge.
In Proceedings of WWW, pages 697–706.ACM.
[20]Mihai Surdeanu, Julie Tibshirani, Ramesh Nallapati, and Christopher D Manning. 2012. Multi-instance
multi-label learning for relation extraction. In Proceedings of EMNLP, pages 455–465.
[21]Ilya Sutskever, Oriol Vinyals, and Quoc V Le. 2014.Sequence to sequence learning with neural networks.
In Proceedings of NIPS, pages 3104–3112.
[22]Ruobing Xie, Zhiyuan Liu, Jia Jia, Huanbo Luan, and Maosong Sun. 2016. Representation learning of
knowledge graphs with entity descriptions.
[23]Kelvin Xu, Jimmy Ba, Ryan Kiros, Aaron Courville,Ruslan Salakhutdinov, Richard Zemel, and Yoshua
Bengio. 2015. Show, attend and tell: Neural imagecaption generation with visual attention. Proceedings of ICML.
[24]Daojian Zeng, Kang Liu, Siwei Lai, Guangyou Zhou,and Jun Zhao. 2014. Relation classification via convolutional
deep neural network. In Proceedings of COLING, pages 2335–2344.
[25]Daojian Zeng, Kang Liu, Yubo Chen, and Jun Zhao.2015. Distant supervision for relation extraction via
piecewise convolutional neural networks. In Proceedings of EMNLP.


  1. distant supervised

  2. wrong labeling

  3. noisy

  4. relation extraction

  5. sentence-level attention-based

  6. sentence-level attention over multiple instances

  7. dataset

  8. filter

  9. image

  10. pooling

  11. stride

  12. max-pooling

  13. dropout

  14. overfitting

  15. dropped out

  16. dropped-out node

  17. softmax layer

  18. k-fold

  19. 10-Fold

  20. KBs

  21. neural language processing

  22. question answering

  23. relation fact

  24. Bill-Gates

  25. Microsoft

  26. relation data

  27. Supervised RE

  28. training data

  29. labelled relation-specific training data

  30. text

  31. entity

  32. multi-instance learning

  33. nlp toolkit

  34. Part-of-speech tagging

  35. error

  36. deep neural network

  37. relation extractor

  38. training

  39. prediction

  40. sentence-level attention-based CNN

  41. distant supervised relation extraction

  42. CNN

  43. sentence embeddings

  44. sentence-level attention over multiple instances

  45. sentence-level-attention

  46. Selective attention to de-emphasize those noisy instance

  47. selective attention

  48. CNN

  49. information extraction

  50. Hand-written pattern

  51. Supervised machin learning

  52. Semi-supervised and unsupervised

  53. supervised

  54. document

  55. cupose

  56. positive

  57. Negative

  58. classification

  59. incompatible relations

  60. Domain specific rules

  61. random-sample

  62. distant supervision for relation extraction as a multi-instance single label problem

  63. multi-instance multi-label learning in relation extraction

  64. feature

  65. deep learning

  66. Sentence Encoder

  67. Selective Attention over Instances

  68. sentence-level attention

  69. dense

  70. non-linear transformation layer

  71. word embedding

  72. position embedding

  73. head

  74. tail

  75. Non-linear layer

  76. sliding window

  77. predicting

  78. Average

  79. embedding

  80. testing

  81. selective attention to de-emphasize the noisy sentence

  82. query-base function

  83. score

  84. query vector

  85. bias vector

  86. multi-instance learning

  87. /optimization

  88. Implementation details

  89. objective function

  90. cross-entropy

  91. parameter

  92. stochastic gradient descent

  93. minimum

  94. random

  95. Experiments

  96. New York Times

  97. http://code.google.com/p/word2vec

  98. vocabulary

  99. three-fold validation

  100. learning rate

  101. batch size

  102. at-least-one multi-instance learning

  103. noises

  104. recall

  105. precision

  106. Sentence Number

  107. One

  108. Two

  109. All

  110. automatic

  111. employ_of

  112. highest

  113. lowest

  114. attention weight

  115. bold

  116. low

  117. hight

  118. Mel Karmazin

  119. Sirius Satellite Radio

  120. Ernst Haefliger

  121. instance-level selective attention

  122. text categorization

  123. neural relation extraction

  124. technique

  125. Tsinghua