Improved Semantic Representations From Tree-Structured Long Short-Term Memory Networks

تغییرات پروژه از تاریخ 1396/09/06 تا تاریخ 1396/10/09
[دانلود مقاله به زبان اصلی](http://www.aclweb.org/anthology/P15-1150)
شماره دانشجویی: 96722117
فاز اول 

-----------------------------------------------------------------------------------------------------

**توسعه نمایش معنایی با استفاده از شبکه های حافظه ای کوتاه- بلند با ساختار درختی (Tree-LSTM)**

مدل Lstm  یک نوع شبکه عصبی بازگشتی است که  با  استفاده از  واحد محاسباتی پیچیده، نتایج فوق العاده ای روی مدلهای ترتیبی بدست می آورد. در ابتدا LSTM به صورت ساختار زنجیره ای بوده است که برای افزایش قابلیت حفظ اطلاعات خیلی دور، به ساختار درختی توسعه داده شده است. زبان طبیعی، ویژگی های نحوی است که به طور طبیعی کلمات را با هم ترکیب می کند و جملات را تشکیل می دهد. Tree-LSTM، یک مدل توسعه یافته از LSTM با توپولوژی شبکه ای ساختار درختی است. Tree-LSTM مدل قدرمندی است که در مقایسه با همه ی مدلهای موجود بهتر عمل می کند و مبتنی بر دو وظیفه طراحی شده است:
-  پیش بینی ارتباط احساسی (معنایی) بین دو جمله (SemEval 2014, Task 1)
- طبقه بندی احساسات (Stanford Sentiment Treebank)
 

# مقدمه

مدلهایی که برای بازنمایی عبارات و جملات، بیشتر مورد استفاده قرار می گیرد در این سه مدل دسته بندی می شوند: مدل جعبه کلمات – مدل بازگشتی (ترتیبی) و مدل ساختار درختی. بازنمایی عبارت و جمله در مدل جعبه کلمات، وابسته به ترتیب کلمه است. در مدل ترتیبی، نمایش جمله حساس به ترتیب نشانه هاست [1] [2]  و در مدل با ساختار درختی نمایش هر عبارت و جمله توسط عبارات کوچکتر  مبتنی بر ساختار نحوی تشکیل می شود. [3] [4]  نمایش جمله با استفاده از ساختار درختی بهتر از دو مورد مذکور دیگر است.

![یک LSTM با ساختار زنجیره ای](https://boute.s3.amazonaws.com/294-1-1.PNG)


![یکLSTM با ساختار درختی و فاکتور انشعاب دلخواه](https://boute.s3.amazonaws.com/294-2-1.PNG)


مدل های  غیر حساس به ترتیب، به دلیل عدم توانایی تشخیص تفاوتهای معنایی و وابستگیهای زبان طبیعی نسبت به مدل های حساس به ترتیب کلمه یا ساختار نحوی، برای بازنمایی جملات مناسب نیستند.  برای مثال مدل های  غیر حساس به ترتیب، تفاوت بین دو جمله ی " گربه از درخت بالا می رود " و " درخت از گربه بالا می رود " را تشخیص نمی دهند.  به همین دلیل است که به مدل های حساس به ترتیب متوالی و یا مدل های با ساختار درختی روی می آوریم. به ویژه مدل های با ساختار درختی به دلیل تفسیر نحوی ساختار جمله، یک گزینه مناسب و جذاب زبانی است. سوال مهمی که مطرح می شود این است که: نمایش و بازنمایی
جمله  با مدل های ساختار درختی در مقایسه با مدل های بازگشتی چقدر بهتر است؟ برای جواب دادن به این سوال، یک نوع مدل بازگشتی که اخیرا برای دستیابی به نتایج پیشرفته در حوزه ی NLP استفاده شده است را با مدل ساختار درختی آن مقایسه خواهیم کرد. ما در اینجا مدل توسعه یافته ی LSTM استاندارد به ساختار
درختی را معرفی خواهیم کرد.
شبکه های LSTM که در بخش 2 آن ها را مرور خواهیم کرد، وظایف انواع مدلهای بازگشتی را به ویژه در ماشینهای ترجمه، تشخیص گفتار، تولید عناوین تصویر و اجرای برنامه به خوبی انجام می دهد. ترکیب دو مدل RNN و LSTM یک معماری خوب و کارآمد برای نمایش عبارات و کلمات را ایجاد  می کند.

معماری LSTM را بر اساس دو مورد ارزیابی خواهیم کرد: 
- پیش بینی رابطه معنایی بین دو جمله. و طبقه بندی احساسات
- جملات که از بررسیهای فیلم بدست آمده است.

#بررسی اجمالی
  شبکه های عصبی برگشتی RNN می توانند والی ورودی با طول دلخواه را به وسیله ی تابع بازگشتی انتقال روی یک بردار حالت مخفی ht پردازش کنند.
در هر مرحله از زمان t، روردی تابع حالت مخفی ht،  از روی ی تابع بردار ورودی xt  در لحظه  t و حالت مخفی قبلی خود یعنی ht-1 بدست می آید. برای
مثال بردار ورودی xt می تواند یک نمایش بردار از t  امین کلمه در بدنه ی متن باشد. حالت مخفی ht می تواند به عنوان یک نماد بعدی توزیع شده ی ترتیب توکنهای مشاهده شده مبتنی بر  زمان t باشد.       
                                                                                     
    ht = tanh (W xt + Uht−1 + b)
   

اگر عبارت و یا جمله ای طولانی باشد و از نظر معنایی به کلمات خیلی قبل تر وابسته باشد تا بتوان مفهوم کلی جمله را دریافت، LSTM به این کلمات و
وابستگی ها دسترسی خواهد داشت.  ساختار LSTM دارای سلول حافظه است که این سلول حالتهای زمانهای خیلی قبل را در خود ذخیره می کند. با ذخیره پریود
زمانهای قبل، اطلاعات خیلی قدیمی را نیز در حافظه خواهیم داشت و با این کار مشکل دسترسی به وابستگیهای جملات طولانی حل می شود. انواع مختلفی از معماری LSTM وجود دارد که ما در اینجا ورژنی که توسط Zaremba و Sutskever استفاده شده است را مطرح می کنیم. معادلات انتقالLSTM به صورت زیر است:         **it  : گیت ورودی  -  ct  : سلول حافظه  -   ft : گیت فراموشی  -   ot : گیت خروجی  -   ht :حالت مخفی**

گیت it با توجه به فرمولش و فیلتر σ  تصمیم می گیرد که چه مقادیری از هر واحد به روز شوند.  خروجی لایه سیگمود عددی بین صفر و یک است که نشان می دهد چه مقدار از ورودی به خروجی ارسال می شود.

    it = σ(W(i)xt + U(i)ht−1 + b(i))

پاک کردن اطلاعات از سلول حافظه از طریق گیت فراموشی ft صورت می گیرد. گیت فراموشی محدوده ای که می خواهیم از سلول حافظه فراموش شود را کنترل می کند. این گیت با توجه به مقادیر xt و ht-1 یعنی ورودی فعلی و حالت مخفی قبلی، مقدار 0 یا 1  سلول حالت ct-1 را به خروجی می برد و سلول حافظه فعلی را شکل می دهد. مقدار یک یعنی مقدار ct-1 به طور کامل به ct می رود و مقدار صفر یعنی اطلاعات سلول حافظه را به طور کامل پاک کن و هیچ مقداری را به ct نبر.  ft * ct-1 یعنی اگر مقدار ft برابر یک باشد اطلاعات قبلی به سلول حافظه در زمان t اضافه می گردد و اگر ft برابر صفر باشد اطلاعات قبلی فراموش می شوند. it*ut  یعنی ورودی های زمان t را به سلول حافظه اضافه می کنیم.

    ft = σ( W(f)xt + U(f)ht−1 + b(f))
    ut = tanh( W(u)xt + U(u)ht−1 + b(u))
    ct= it *  ut + ft * ct-1

گیت خروجی ot کنترل می کند که چه بخشی از سلول حافظه داخلی به عنوان خروجی نمایش داده شود. در واقع لایه سیگمود فیلتری است که مشخص می کند چه بخشی از مقدار سلول حالت داخلی به خروجی برود.

    ot = σ( W(o)xt + U(o)ht−1 + b(o))
  
   <br>

**به نام خدا**  

[ مقاله به زبان اصلی](http://www.aclweb.org/anthology/P15-1150)
[لینک پیاده سازی](https://github.com/stanfordnlp/treelstm)




-----------------------------------------------------------------------------------------------------

**توسعه نمایش معنایی با استفاده از شبکه های حافظه ای کوتاه- بلند  با ساختار درختی (Tree-LSTM)**

# تعریف مسئله
در این مقاله به دنبال معرفی مدلی  برای بازنمایی عبارت و جمله هستیم که بتواند در مقایسه با مدلهای پیشین، مشکلاتی مانند وابستگی جملات طولانی و به خاطر سپردن اطلاعات قدیمی را برطرف کند و انواع این مدل را بررسی و با یکدیگر مقایسه خواهیم کرد.

# مقدمه

گاهی اوقات برای بازنمایی یک عبارت نیاز است که اطلاعات قدیمی تر را در اختیار داشته باشیم. این مورد مخصوصا در جملات طولانی اتفاق می افتد. در این مقاله به دنبال معرفی مدلی  برای بازنمایی عبارت و جمله هستیم که بتواند در مقایسه با مدلهای پیشین، مشکلاتی مانند تحلیل معنایی جملات طولانی و به خاطر سپردن اطلاعات قدیمی را برطرف کند. 
مدل هایی که به ترتیب کلمات حساس نیستند،  تفاوتهای معنایی و وابستگیهای زبان طبیعی را تشخیص نمی دهند پس برای بازنمایی[^Representation] جملات مناسب نیستند.  برای مثال این مدل ها، تفاوت بین دو جمله ی " گربه از درخت بالا می رود " و " درخت از گربه بالا می رود" را تشخیص نمی دهند.  به همین دلیل  به سراغ مدل های حساس به ترتیب[^Order-Sensitive] و یا مدل های درختی می رویم.
مدلهای زیادی  برای بازنمایی عبارات، ارائه شده که  سه مدل پر استفاده را بیان می کنیم: 
1. مدل سبد واژگان[^Bag-Of-Words] –  بازنمایی عبارت  در مدل سبد واژگان، وابسته به ترتیب کلمه است.

یک مثال از این مدل را بیان می کنیم: 
**جمله ی اول** : زهرا زنگ خانه را زد.
**جمله ی دوم** : مریم تا به خانه رسید زنگ در خانه را به صدا در آورد.
سبد واژگان را کلمات این دو جمله در نظر می گیریم و کلمات تکراری را یکبار می نویسیم: {زهرا، زنگ، خانه، را، زد، مریم، تا، به، رسید، در، صدا،  آورد}
 هر واژه یک مکان مشخصی در این سبد دارد و ترتیب کلمات نیز مهم است. برای تشکیل بردار نمایش هر جمله باید از اولین لغت سبد واژگان شروع کرده و تعداد تکرار آن لغت در هر جمله را مشخص کرد.
 بردار نمایش این دوجمله به این شکل است:
 جمله ی اول: {1،1،1،1،1،0،0،0،0،0،0،0}
 جمله ی دوم: {0،1،2،1،0،1،1،2،1،2،1،1}
 
2. مدل ترتیبی [^Sequence] - که  در مدل ترتیبی، نمایش جمله حساس به ترتیب نشانه هاست [1] [2] 
3. مدل ساختار درختی[^Tree-Structured]- در مدل با ساختار درختی نمایش هر عبارت و جمله توسط عبارات کوچکتر  مبتنی بر ساختار نحوی تشکیل می شود. [3] [4]  نمایش جمله با استفاده از ساختار درختی بهتر از دو مورد مذکور دیگر است.

مدل های بازگشتی[^Recursive] حساس به ترتیب، قادر نیستند که اطلاعات خیلی قدیمی را به یاد بیاورند بنا براین برای حل این مشکل مدل های درختی پیشنهاد شدند. مدل درختی ساختار نحوی جمله را نیز بررسی می کند پس برای بازنمایی عبارات مناسب تر است.
سوال مهمی که مطرح می شود این است که: بازنمایی جمله  با مدل های درختی در مقایسه با مدل های بازگشتی چقدر بهتر است؟ در این مقاله، برای جواب دادن به این سوال، یک نوع مدل بازگشتی را با مدل درختی آن مقایسه خواهیم کرد. 


# مروری بر ادبیات 

- شبکه های عصبی با حافظه‌ی بلند کوتاه- مدت [^ Long Short-Term Memory Networks] :   یک نوع شبکه عصبی بازگشتی  [^  (RNN)-Recursive Neural Networks] است که  از یک واحد محاسباتی پیچیده استفاده می کند و به اختصار به آن LSTM می گوییم.
![شکل 1 - یک LSTM با ساختار زنجیره ای](https://boute.s3.amazonaws.com/294-1-1.PNG)

- مدل LSTM درختی [^ Tree-Lstm] :  یک مدل توسعه یافته از شبکه های عصبی با حافظه‌ی بلند کوتاه- مدت با ساختار درختی است. LSTM درختی مدل قدرتمندی است که توانایی یادگیری وابستگی های بلند مدت و به خاطر سپردن اطلاعات قدیمی را دارد و از دیگر مدل های موجود بهتر عمل می کند  و  به منظور انجام دو کار طراحی شده است:
1-   پیش بینی ارتباط احساسی[^Semantic Relatedness]  بین دو جمله 
2-  دسته بندی احساسات [^Sentiment Classification] (با استفاده از دادگان تحلیل احساسی دانشگاه استفورد [^Stanford Sentiment Treebank] )
![شکل 2 - یکLSTM با ساختار درختی و فاکتور انشعاب دلخواه](https://boute.s3.amazonaws.com/294-2-1.PNG)

- درخت وابستگی[^Dependency Tree] : در ساخت درخت وابستگی هر جمله یک فعل اصلی دارد و اولین مرحله ی تجزیه ی جمله از فعل اصلی آغاز می شود. حال باید  وابستگی عناصر جمله به فعل مشخص شود. کلمات دیگر موجود در جمله، یا به صورت مستقیم با فعل در ارتباطند و یا وابستگی غیر مستقیم دارند. ابتدا وابسته های مستقیم فعل و سپس وابسته های غیر مستقیم را مشخص می کنیم. هر کدام از گره های داخلی درخت وابستگی، هسته هستند که یک یا چند وابسته دارند وهسته ی مرکزی جمله نیز فعل اصلی جمله است.

![شکل 3 - درخت وابستگی](https://boute.s3.amazonaws.com/294-dependency.png)

- درخت ساختاری [^Constituency Tree] : در تجزیه ی درخت ساختاری، گره های داخلی یک یا چند فرزند دارند و نقش کلمات در جمله را نشان می دهند. اگر هر بردار ورودی را یک کلمه در نظر بگیریم، هر کدام از گره های برگ یک کلمه از جمله را نشان می دهد. در واقع برگ ها  lexical های جمله هستند.
<br>
- تابع Softmx : یک تابع منطقی است که یک بردار k بعدی مثل z با مقادیر واقعی دلخواه را به یک بردار k بعدی $(z)δ$ با مقادیر واقعی در رنج [0,1] برآورد می کند. 
 $$ δ : R^k \rightarrow [0,1] ^ k$$
 
   $$for j =  1, ... , k     :   $$
   
$$ δ(z) _ j = e ^ {z_j} / { \sum_{k=1}^{K} e ^ {z_k} } $$ 

 برای مثال:
![](https://boute.s3.amazonaws.com/294-Screenshot_2017-12-21-05-45-55.png)
- انطباق  شیب [^ )Adapte Gradient-(Adagrad]: یک الگوریتم بهینه سازی  تعداد داده و پارامتر است که بر اساس شیب کار می کند. فرض کنید تعداد داده ها کم است و پارامترهای کمی در اختیار داریم، با این الگوریتم می توان با به روزرسانی مکرر داده ها و پارامترها میزان یادگیری را بیشتر کرد. با تنظیم شیب، داده ها و پارامترهایی که در متن تعدادشان زیاد است، کمتر به روزرسانی می شوند، و داده ها و پارامترهای کمیاب به روز رسانی بیشتری دارند.

- دور ریزی [^dropout] به طور معمول، در  شبکه های عصبی، هر یک از نورون های هر لایه با تمام نورون های لایه بعد اتصال برقرار می کنند و چون برای این اتصالات محاسبات زیادی انجام می شود، ممکن است شبکه دچار بیش برازش [^overfitting] شود. برای جلوگیری از این اتفاق، در ساختار شبکه ی عصبی می توان از لایه ای به نام  دور ریزی استفاده کرد تا بعضی اتصالات از بین رود و محاسبات این اتصالات صورت نگیرد.  در شکل زیر شبکه ی عصبی قبل و بعد از اعمال  دور ریزی را مشاهده می کنید:
![شکل 4 - شبکه ی عصبی استاندارد](https://boute.s3.amazonaws.com/294-Untitled3.png)
![شکل 5 - چند نمونه شبکه ی عصبی با اعمال  دور ریزی -  dropout ](https://boute.s3.amazonaws.com/294-Px.png)





# معماری و نحوه ی آموزش شبکه
شبکه های عصبی بازگشتی RNN  می توانند به طور بازگشتی،  ورودی به طول دلخواه را دریافت کرده  و با استفاده از حالت مخفی ورودی قبلی یعنی اطلاعاتی که از مرحله قبل دریافت می کند، به تفسیر ورودی بپردازند.
 برای مثال فرض کنید در زمان t هستیم، ورودی می تواند کلمه t ام در یک متن باشد و  حالت مخفی ht  نیز می تواند اطلاعاتی باشد که از مراحل قبل بدست آمده است مثلا می تواند به عنوان یک نماد بعدی توزیع شده ی ترتیب توکنهای مشاهده شده مبتنی بر  زمان t باشد.  

![ شکل 6 -  در هر مرحله از زمان t، ورودی تابع حالت مخفی ht،  از روی تابع بردار ورودی xt  در لحظه  t و حالت مخفی قبلی خود یعنی ht-1 بدست می آید.](https://boute.s3.amazonaws.com/294-bgshti.png)

![شکل 7 - ساخت سلول حافظه c1 و حالت مخفی h1 یک معماری LSTM با دو فرزند.](https://boute.s3.amazonaws.com/294-4-.PNG)

مشکل شبکه های RNN این است که داده های خیلی قدیمی را به خاطر نمیسپارند. زیرا اجزای بردار گرادیان در طول یادگیری، می توانند رشد کنند یا حذف شوند. با منفجر شدن یا حذف گرادیانها، مدل RNN برای یادگیری وابستگی های قدیمی در یک جمله با مشکل مواجه می شود. اما شبکه های  LSTM به گونه ایست که داده های خیلی قدیمی را نیز به خاطر می سپارند.

**در این بخش انواع معماری شبکه های عصبی با حافظه‌ی بلند کوتاه-مدت شرح داده می شود. **

- مدل  LSTM استاندارد: اگر عبارت و یا جمله ای طولانی باشد و از نظر معنایی به کلمات خیلی قبل تر وابسته باشد تا بتوان مفهوم کلی جمله را دریافت، LSTM به این  وابستگی ها دسترسی خواهد داشت. ساختار LSTM دارای سلول حافظه است که این سلول حالتهای زمانهای خیلی قبل را در خود ذخیره می کند و با این کار مشکل دسترسی به وابستگیهای جملات طولانی حل می شود.
شکل زیر معماری یک LSTM استاندارد را نشان می دهد.

![شکل 8 - معماری یک LSTM استاندارد -it  : گیت ورودی  -  ct  : سلول حافظه  -   ft : گیت فراموشی  -   ot : گیت خروجی  -   ht :حالت مخفی ](https://boute.s3.amazonaws.com/294-2.png)


اگر هدف بازنمایی یک یا چند جمله باشد، حالت مخفی h_t می تواند اطلاعات  ترتیب واژه ها یا نشانه های دیده شده  در آن جمله تا زمان t را در خود نگه دارد و فرمول آن به صورت زیر است:

$$ h_t = tanh (Wx_t  + Uh_{t-1} + b^ t )  $$


گیت it با توجه به داشتن فیلتر σ کنترل می کند  که چه مقادیری از هر واحد به روز شوند. خروجی لایه سیگمود[^Sigmond] عددی بین صفر و یک است که نشان می دهد چه مقدار از ورودی به خروجی ارسال می شود:
   
$$   i_t = σ( W^ i x_t  + U^ i h_{t-1} +b^ i ) $$

پاک کردن اطلاعات از سلول حافظه از طریق گیت فراموشی ft صورت می گیرد. گیت فراموشی محدوده ای که می خواهیم از سلول حافظه فراموش شود را کنترل می کند. این گیت با توجه به مقادیر xt و ht-1 یعنی ورودی فعلی و حالت مخفی قبلی، مقدار 0 یا 1  سلول حالت ct-1 را به خروجی می برد و سلول حافظه فعلی را شکل می دهد. مقدار یک یعنی مقدار ct-1 به طور کامل به ct می رود و مقدار صفر یعنی اطلاعات سلول حافظه را به طور کامل پاک کن و هیچ مقداری را به ct نبر.  ft * ct-1 یعنی اگر مقدار ft برابر یک باشد اطلاعات قبلی به سلول حافظه در زمان t اضافه می گردد و اگر ft برابر صفر باشد اطلاعات قبلی فراموش می شوند.
$$ f_t = σ ( W^ f x_t  + U^ f h_{t-1}+b^f ) $$

$$ u_t = σ ( W^u x_t  + U^ u h_{t-1} +b^u ) $$

$$ c_t= it *  u_t + f_t * c_{t-1}$$
گیت خروجی ot کنترل می کند که چه بخشی از سلول حافظه داخلی به عنوان خروجی نمایش داده شود. در واقع لایه سیگمود فیلتری است که مشخص می کند چه بخشی از مقدار سلول حالت داخلی به خروجی برود.

$$ o_t = σ( W^o x_t + U^o h_{t-1} + b^o)$$

سپس مقدار سلول حالت داخلی پس از به روز شدن را به لایه تانژانت هایپربولیک می دهیم و مقدار آنرا در خروجی تایع سیگمود در مرحله قبل ضرب می کنیم تا مشخص کنیم که چه بخش هایی به خروجی برود: 

    ht = ot * tanh (ct)
$$  h_t = o_t * tanh (c_t) $$


ساختار LSTM  میتواند اطلاعات جدیدی را به سلول حافظه اضافه کند و یا اطلاعات را از آن حذف کند. ورودی بردارهای it ,ft و ot بین [0,1]  است. 


ساختار درختی LSTM ها:  ساختار زنجیره ای LSTM تنها می تواند اطلاعات متوالی را منتشر کند. که این یک محدودیت برای این معماری است. در فاز دوم مقاله دو نوع ساختار LSTM که به صورت درختی هستند را بررسی خواهند شد.  Child-Sum Tree-LSTM و N-ary Tree-LSTM هر دو نوع قادرند که اطلاعات را از واحدهای چند فرزندی خود ترکیب کنند. 
مدل LSTM با ساختار درختی مانند LSTM استاندارد، دارای گیتهای ورودی و خروجی و سلول حافظه و حالت مخفی می باشد. تفاوتLSTM  استاندارد و LSTM درختی در این است که در مدل با ساختار درختی، بردارهای گیت شده و به روزرسانی سلول حافظه وابسته به حالتهای واحدهای تعدادی فرزند است و همچنین برای اینکه بشود اطلاعات را از هر فرزند دلخواه ترکیب کرد، به جای یک گیت فراموشی واحد، گیتهای فراموشی برای k امین فرزند مورد نظر داریم. یعنی برای هر فرزند یک گیت فراموشی fjk داریم.

![ساخت سلول حافظه c1 و حالت مخفی h1 یک معماری LSTM با دو فرزند.](https://boute.s3.amazonaws.com/294-4-.PNG)




# کارهای مرتبط

- از طریق بازنمایی و شناخت توزیع شده ی کلمات  [5] [6] [7]  [8] [9] [10]  به کاربردهای مختلفی برای انواع وظایف NLP  دست یافته اند.
- علاقه مندی های قابل توجه ای در زمینه یادگیری بازنمایی و شناخت عبارات و جملات در کارهای [11] [12]  [13] [14]  وجود داشته است.
- بازنمایی و شناخت توزیع شده ی متون طولانی تر مانند پاراگراف ها و اسناد.   [15]  [16]
- رویکرد این مقاله بر روی شبکه های عصبی برگشتی ساخته شده است. [17] [18] 
- مدل Tree_RNNs که به منظور تحلیل تصاویر صحنه های طبیعی مورد استفاده قرار گرفته است ، [17] بازنمایی عبارت را از بردارهای کلمه می سازد. [18] و قطبیت معنایی و احساسی جملات را طبقه بندی می کند. [19]



# آزمایش های انجام شده و دیتاست ها
معماری درختهای LSTM را برپایه دو کار ارزیابی می کنیم:
1-   طبقه بندی معنایی جملات نمونه برداری شده از بازدید فیلم ها
2-   پیش بینی ارتباط معنایی بین جفت جملات
**دیتاست**   SemEval 2014, Task 1
برای مقایسه LSTM ارائه شده که از نوع درخت است با LSTM ترتیبی و زنجیره ای، در Tree-LSTM ارائه شده در این مقاله، تعداد پارامترهای LSTM با تغییر دادن ابعاد حالتهای پنهان کنترل شده است. جزئیات برای هر نوع مدل در جدول 1 گردآوری شده است.
![جدول 1: ابعاد حافظه d و تعداد پارامترهای تابع ترکیب | θ | برای انواع LSTM هایی که ما ارزیابی کرده ایم.](https://boute.s3.amazonaws.com/294-3.PNG)



- **طبقه بندی احساسات (Sentiment Classification)**

در این قسمت کار،  معنی و احساس جملات نمونه برداری شده از مرور و بازدید فیلم ها را پیش بینی کردیم.  ما از Treebank احساسات دانشگاه استنفورد استفاده کردیم. دو زیر برنامه وجود داشت: طبقه بندی دودویی جملات و طبقه بندی دانه ریز  (fine-grained) مبتنی بر 5 کلاس. کلاسهای : بسیار منفی، منفی، خنثی، مثبت و خیلی مثبت. ما برای طبقه بندی دودویی از شکافهای آموزش/تقسیم/آزمایش 6920/872/1821 و برای طبقه بندی دانه ریز از 8544/1101/2210  استفاده کرده ایم. ( از آنجا که جملات خنثی منسوخ شده اند، مثالهای کمی برای مورد اول وجود دارد.)
درخت پارس انتخابی دودویی استاندارد برای هر جمله موجود در دیتاست بکار رفته است. و هر گره در این درختها با برچسب احساسات مشخص شده اند. 
برای LSTM های مبتنی بر توالی یعنی LSTM ترتیبی برای نمایش احساس یک عبارت، حالت مخفی نهایی LSTM را پیش بینی می کنیم. مدلهای LSTM ترتیبی در مجموعه آموزش، روی دامنه های مربوط به گره های برچسب آموزش داده می شوند. ما از هر دو مدل طبقه بندی توضیح داده شده بخش 4.1 (فاز دوم مقاله)  با هر دو مدل Dependency Tree-LSTMs و بخش 3.1  (فاز دوم مقاله) یعنی Constituency Tree-LSTMs استفاده می کنیم.  LSTM مبتنی بر حوزه انتخابی بر طبق درختهای پارس آماده ساخته شده اند. اما در LSTM مبتنی بر درخت همبستگی، پارس های همبستگی هر جمله را تولید می کنیم. به هر گره در یک درخت بر چسب معنایی داده می شود  اگر محدوده اش منطبق بر یک محدوده ی بر چسب دار در مجموعه آموزش باشد. 

**دیتاست**
داده Treebank احساسات دانشگاه استنفورد
طبقه بندی دودویی |   آموزش/تقسیم/آزمایش       6920/872/1821
 طبقه بندی fine-grained  |   آموزش/تقسیم/آزمایش 8544/1101/2210
 



- **وابستگی معنایی (Semantic Relatedness)**

برای هر جفت جمله داده شده، وظیفه وابستگی معنایی اینست که پیش بینی کند دو جمله در معنا و از نظر مفهومی چه ارتباطی با هم دارند به گونه ای که سعی کند مثل یک انسان ارتباط بین دو جمله در معنا را متوجه شود. 
ما از دیتاست دانش ترکیب جملات در گیر (SICK) استفاده می کنیم. تشکیل 9927 جفت جمله در یک شکاف (تقسیم) 4500/500/4927 train/dev/test .
جملات از دیتاست های تصاویر موجود و توضیح ویدئوها گرفته شده است. هر جفت جمله با یک امتیاز و رتبه وابستگی [y ∈ [1, 5 علامت گذاری شده. عدد یک در این بازه نشان می دهد که دو جمله کاملا غیر مرتبط هستند و عدد پنج نشان می دهد که دو جمله بسیار با هم مرتبط هستند. هر برچسب میانگین ده رتبه بندی اختصاص داده شده به آگهی دهندگان مختلف انسان است.  در اینجا، ما از مدل مشابه توضیح داده شده در بخش 4.2 (فاز دوم مقاله) استفاده می کنیم. برای شبکه پیش بینی مشابه ما از یک لایه مخفی با سایر 50 استفاده می کنیم. 

**دیتاست**
بررسی وابستگی معنایی  | دانش ترکیب جملات در گیر (SICK)  / شکاف 4500/500/4927 train/dev/test





- **بیش پارامترها (Hyperparameters)  و جزئیات آموزش** 

بیش پارامترها برای مدلهای ما روی مجموعه توسعه، برای هر مورد تنظیم شده اند. در آزمایشهای صورت گرفته، نمایش کلماتمان را با استفاده از بردارهای Glove سیصد بعدی آماده عمومی، مقدار دهی کردیم. برای هر مورد طبقه بندی احساسی (معنایی)، نمایش کلمات در طول آموزش با یک رتبه آموزش 0.1 آپدیت شده اند. برای هر مورد وابستگی معنایی، نمایشهای کلمه ثابت نگه داشته شدند زیرا هنگام تنظیم مجدد نمایش ها، هیچ تغییر قابل ملاحظه ای را مشاهده نکردیم. 
همچنین مدلهای ما با استفاده از AdaGrad با نسبت آموزش 0.05 و یک شماره سریال کوچک به اندازه ی 25 آموزش داده شدند. پارامترهای مدلها با یک شماره سریال تنظیم به طول 10−4 تنظیم شدند وطبقه بند معنایی با استفاده از dropout  با یک تست dropout برابر با  0.5  تنظیم شدند. با انجام  تست dropout دستاوردهای عملکردی خاصی را در مورد وابستگی معنایی مشاهده نکردیم. 

**دیتاست**
برای نمایش کلمات | بردارهای Glove سیصد بعدی آماده عمومی 
یک شماره سریال به اندازه ی 25  و AdaGrad  نسبت آموزش 0.05
برای پارامترهای مدل ها | شماره سریال تنظیم به طول 10−4 
برای طبقه بندی معنایی | dropout



# جمع بندی


در این مقاله توسعه LSTM استاندارد به توپولوژی شبکه ای با ساختار درختی  معرفی شده است. 
ساختار LSTM درختی می تواند به درختان با فاکتور انشعاب دلخواه اعمال شود.  تاثیر معماری LSTM درختی را که بهتر از تمام سیستم های موجود عمل می کند  بر روی دو مورد وابستگی معنایی و طبقه بندی احساسات بررسی شده است. 
همچنین نشان داده می شود که  مدل LSTM با ساختار درختی برای انجام وظایف  بهتر از مشابه خودشان در مدل ترتیبی عمل می کنند. 
نتایج  این مقاله خط مشی هایی را برای کار بر رو مشخص کردن نقش ساختار در تولید نمایش توزیع شده یدو ساختار معروف Lstm  که در آزمایشات از آن ها استفاده کرده ایم :
![شکل 9 - انواع LSTM](https://boute.s3.amazonaws.com/294-33333.png)

- مدل LSTM دو طرفه[^Bidirectional LSTM] :از دو لایه حافظه ی بلند کوتاه-مدت تشکیل شده که به صورت موازی اجرا می شوند.لایه ی اول جمله  و لایه ی دوم معکوس جمله را به عنوان ورودی دریافت می  کند.

![شکل 10 - حافظه ی بلند کوتاه  مدت دوطرفه -  لایه ی نزدیک به بردار ورودی، عبارت و  لایه ی دوم معکوس عبارت را به عنوان ورودی دریافت می  کند.](https://boute.s3.amazonaws.com/294-12911_2017_468_Fig1_HTML.gif)

- مدل LSTM چند لایه [^Multilayer LSTM] : در  LSTM چند لایه، برای اینکه لایه های بالاتر بتوانند به  وابستگی های طولانی مدت دسترسی داشته باشند، حالت مخفی لایه ی L، به عنوان ورودی در لایه ی L+1 دریافت می شود. [20][21]

![شکل 11 - حالت مخفی لایه ی قبل، به عنوان ورودی در لایه ی بعدی دریافت می شود](https://boute.s3.amazonaws.com/294-rnnlm.png)


ساختار درختی LSTM ها:  ساختار زنجیره ای LSTM تنها می تواند اطلاعات متوالی را منتشر کند. که این یک محدودیت برای این معماری است. در فاز دوم مقاله دو نوع ساختار LSTM که به صورت درختی هستند را بررسی خواهند شد.  Child-Sum Tree-LSTM  و LSTM درختی مرتب N تایی  هر دو نوع قادرند که اطلاعات را از واحدهای چند فرزندی خود ترکیب کنند. 
مدل LSTM با ساختار درختی مانند LSTM استاندارد، دارای گیتهای ورودی و خروجی و سلول حافظه و حالت مخفی می باشد. تفاوتLSTM  استاندارد و LSTM درختی در این است که در مدل با ساختار درختی، بردارهای گیت شده و به روزرسانی سلول حافظه وابسته به حالتهای واحدهای تعدادی فرزند است و همچنین برای اینکه بشود اطلاعات را از هر فرزند دلخواه ترکیب کرد، به جای یک گیت فراموشی واحد، گیتهای فراموشی برای k امین فرزند مورد نظر داریم. یعنی برای هر فرزند یک گیت فراموشی fjk داریم.

- مدل  Child-Sum Tree-LSTMs: مانند Lstm  است با این تفاوت که $\tilde {h_j}$ مجموع حالتهای مخفی فرزندان از اولین  فرزند  تا k امین فرزند می باشد و در بخش داخلی تعداد سلول حافظه و حالت مخفی و گیت فراموشی به تعداد فرزندان است.
 
 ![شکل 12 - معماری مدل  Child-Sum Tree-LSTMs](https://boute.s3.amazonaws.com/294-1.png)
 
 $$\tilde {h_j} =  \sum_{ k\in{C_{(j)}} } h_k$$


$$  i_j= σ( W^{(i)} x_j + U^{(i)} \tilde {h_j} +b^{(i)} ) $$
 
 
$$ f_{jk} = σ ( W^{(f)} x_j  + U^{(f)} h_k +b^{(i)}) $$

$$ o_j = σ( W^{(o)} x_j + U^{(o)}  \tilde {h_j} + b^{(o)})$$

$$ u_j =tanh (  W^{(u)} x_j + U^{(u)}  \tilde {h_j} + b^{(u)}) $$

$$ c_j = i_j \otime u_j +  \sum_{ k\in{C_{(j)}} }  f_{jk} \otime c_k $$

$$ h_j = o_j \otime tanh (c_j)$$

<br> 

- مدل LSTM درختی مرتب N تایی [^N-ary Tree-LSTM] : اگر در یک LSTM  درختی، فاکتور انشعاب بیشتر ازN  باشد  و یا اینکه فرزندان مرتب شده باشند، یعنی بتوان فرزندان را از 1 تا n ایندکس کرد، می توانیم از  LSTM درختی مرتب N تایی استفاده کنیم. در این مدل ترتیب فرزندان مهم است.


$$  i_j= σ( W^{(i)} x_j + \sum_{l=1}^{N}  U_l^{(i)}  h{j_l} +b^{(i)} ) $$


$$ f_{jk} = σ ( W^{(f)} x_j  +  \sum_{l=1}^{N}  U_l^{(f)}  h{j_l}+b^{(f)}) $$


$$ o_j= σ( W^{(o)} x_j + \sum_{l=1}^{N}  U_l^{(o)}  h{j_l} +b^{(o)} ) $$


$$ u_j=tanh( W^{(u)} x_j + \sum_{l=1}^{N}  U_l^{(u)}  h{j_l} +b^{(u)} ) $$


$$ c_j = i_j \otime u_j +  \sum_{ k\in{C_{(j)}} }  f_{jl} \otime c_{jl} $$


$$ h_j = o_j \otime tanh (c_j)$$

# کارهای مرتبط

- از طریق بازنمایی و شناخت توزیع شده ی کلمات  [5] [6] [7]  [8] [9] [10]  به کاربردهای مختلفی برای انواع وظایف NLP  دست یافته اند.
- علاقه مندی های قابل توجه ای در زمینه یادگیری بازنمایی و شناخت عبارات و جملات در کارهای [11] [12]  [13] [14]  وجود داشته است.
- بازنمایی و شناخت توزیع شده ی متون طولانی تر مانند پاراگراف ها و اسناد.   [15]  [16]
- رویکرد این مقاله بر روی شبکه های عصبی برگشتی ساخته شده است. [17] [18] 
- مدل Tree_RNNs که به منظور تحلیل تصاویر صحنه های طبیعی مورد استفاده قرار گرفته است ، [17] بازنمایی عبارت را از بردارهای کلمه می سازد. [18] و قطبیت معنایی و احساسی جملات را دسته بندی می کند. [19]



# آزمایش های انجام شده و مجموعه ی داده ها
<br>
 <br/>

-  **بیش پارامترها [^Hyperparameters] ** 

 آزمایشات و تغییراتی  که را روی کلمه ی ورودی اعمال کردیم  بررسی می کنیم:

| | بردار بکار رفته برای نمایش کلمه ورودی| نرخ به روز رسانی نمایش کلمه   |  نرخ انطباق  شیب   | نرخ دور ریزی (نهفته سازی ورودی)
|:----------------:|:------:|:----------:||:------:||:------:||:------:|
|رابطه ی معنایی جملات   |  Glove [^Global vectors for word representation] سیصد بعدی |   بدون به روز رسانی  |    0.05  | بدون دور ریزی | 
|دسته بندی احساسی | Glove |    0.1  |     0.05   |  0.5 |

> جدول 1 -  در آزمایشهای صورت گرفته، نمایش کلماتمان را با استفاده از بردارهای Glove سیصد بعدی، مقدار دهی کردیم. برای هر مورد دسته بندی احساسات ، نمایش کلمات در طول آموزش با یک رتبه آموزش 0.1 آپدیت شدند. برای هر مورد وابستگی معنایی، نمایشهای کلمه، ثابت نگه داشته شدند. زیرا هنگام تنظیم مجدد نمایش ها، هیچ تغییر قابل ملاحظه ای را مشاهده نکردیم. همچنین مدلهای ما با استفاده از  روش انطباق  شیب با نسبت آموزش 0.05 و یک شماره سریال کوچک به اندازه ی 25  آموزش داده شدند. پارامترهای مدلها با یک شماره سریال تنظیم به طول 10−4   و  دسته بندی احساسات  با استفاده از روش دور ریزی  با نرخ  دورریزی 0.5  تنظیم شدند. با اعمال دور ریزی، دستاوردهای عملکردی خاصی را در مورد وابستگی معنایی مشاهده نکردیم. 
 
<br>

-   با تغییر دادن  ابعاد حالتهای پنهان، تعداد پارامترهای بکه تغییر می کند که در جدول 2 به مقایسه ی این تغییرات می پردازیم:

|  | معنا   |  احساس | 
|:--:|:--:|:--:|:--:|:--:|
|نوع LSTM|ابعاد حافظه  -  تعداد پارامترهای تابع ترکیب |ابعاد حافظه  -  تعداد پارامترهای تابع ترکیب |
|استاندارد|    150  -  203400 |   168   -  315840  |
|دو طرفه|    150  -  203400 |   168   -  315840  |
|دو لایه|    108  -  203472 |   120   -  318720  |
|دو طرفه ی دو لایه|   108  -  203472 |   120   -  318720  |
|درخت ساختاری|    142  -  205190 |   150   -  316800  |
|درخت وابستگی|    150  -  203400 |   168   -  315840  |

> جدول 2 - مقایسه ی  تعداد پارامترهای انواع LSTM  با تغییر دادن  ابعاد حالتهای پنهان - برای این کار از مجموعه داده ی   SemEval 2014, Task 1 استفاده شده است.

<br>


- **دسته بندی احساسات **

مجموعه داده،دسته بندی  و تعداد داده هایی که برای دسته بندی احساسات جملات مورد ارزیابی ما در این مقاله بکار رفته را در جدول زیر می بینیم:

| مجموعه داده| دسته بندی | کلاس های بکار رفته| تعداد داده های آموزش| تعداد داده های  مشتق شده | تعداد داده های تست|  
|:-:|:-:|:-:|:-:|:-:|:-:|:-:|
|دادگان تحلیل احساسی دانشگاه استنفورد| دودویی | مثبت و منفی| 1821|872 |6920| 
|دادگان تحلیل احساسی دانشگاه استنفورد|fine-grained |بسیار منفی، منفی، خنثی، مثبت و خیلی مثبت| 2210|1101 |8544| 

 > جدول 3 -  تحلیل احساسی جملات نمونه برداری شده از مرور و بازدید فیلم ها - برای دسته بندی احساسی از دادگان تحلیل احساسی دانشگاه استنفورد  استفاده کردیم. روی این مجموعه داده دو کار باید صورت گرفته:دسته بندی دودویی جملات و دسته بندی fine-grained .   ( از آنجا که جملات خنثی منسوخ شده اند، مثالهای کمی برای این مورد وجود دارد.) 
 
<br>

- **وابستگی معنایی (Semantic Relatedness)**


برای هر جفت جمله  ، وظیفه وابستگی معنایی اینست که پیش بینی کند دو جمله در معنا و از نظر مفهومی چه ارتباطی با هم دارند به گونه ای که سعی کند مثل یک انسان ارتباط بین دو جمله در معنا را متوجه شود. جدول زیر مجموعه داده  و تعداد داده های مورد استفاده برای تحلیلی وابستگی جملات را نشان می دهد:


| مجموعه داده|  تعداد داده های آموزش| تعداد داده های  مشتق شده | تعداد داده های تست|  
|:-:|:-:|:-:|:-:|:-:|:-:|:-:|
| [^Sentences Involving Compositional Knowledge ]SICK |  4927|500 |4500| 

>  جدول 4 - تشکیل 9927 جفت جمله  برای ارزیابی وابستگی معنایی بین هر جفت جمله. هر جفت جمله با یک امتیاز و رتبه وابستگی [y ∈ [1, 5 علامت گذاری شده. عدد یک در این بازه نشان می دهد که دو جمله کاملا غیر مرتبط هستند و عدد پنج نشان می دهد که دو جمله بسیار با هم مرتبط هستند. هر برچسب میانگین ده رتبه بندی اختصاص داده شده به آگهی دهندگان مختلف انسان است.   برای شبکه پیش بینی مشابه ما از یک لایه مخفی با سایر 50 استفاده می کنیم. 

<br>


#نتایج
- دسته بندی احساسات
نتایج حاصل از این آزمایشات در جدول 5  گردآوری شده. 


 |روش |  fine-grained  | دودویی |
|:----:|:--:|:--:|:--:|:--:|
|RAE  | 43.2 |82.4 | 
|MV-RNN | 43.2 |82.4 | 
|RNTN |  43.2 |82.4 |
|DCNN | 43.2 |82.4 |
|Paragraph-Vec | 43.2 |82.4 |
|CNN-non-static |  43.2 |82.4 |
|CNN-multichannel | 43.2 |82.4 | 
|DRNN | 43.2 |82.4 | 
|**LSTM** |43.2 |82.4 | 
|Bidirectional LSTM| 43.2 |82.4 |
|Two layer LSTM | 43.2 |82.4   |
|Two layer Bidirectional LSTM | 43.2 |82.4 |
|Dependency Tree-LSTM | 43.2 |82.4 | 
| ** Constituency Tree-LSTM : ** |
|randomly initialized vectors   |43.2 |82.4 |  
|Glove vectors, fixed  | 43.2 |82.4 |
  |Glove vectors, tuned   |43.2 |82.4 |
  
> جدول 5 -  دقت مجموعه ی ارزیابی بر روی دادگان تحلیل احساسی دانشگاه استفورد. دسته بندی fine-grained بر اساس پنج کلاس بسیار منفی، منفی، خنثی، مثبت و خیلی مثبت و دسته بندی دودویی بر اساس دو کلاس مثبت و منفی است.


درخت lstm ساختاری بهتر از دیگر سیستم های موجود با دسته بندی fine-grained عمل می کند.  یکی از علل تفاوت این عملکرد اینست که درخت  lstm وابستگی روی داده های کمتری آموزش دیده. تعداد این داده ها حدود 150k  و تعداد داده های درخت lstm ساختاری حدود 319k بوده است.
این تفاوت عملکرد به دو دلیل است:
1-   مجموعه داده ای که جهت آموزش در درخت  lstm وابستگی  استفاده شده  نسبت به مجموعه داده ی درخت lstm ساختاری کمتر بوده .
2 -  عدم توانایی در مطابقت دادن حدود 9% از گره های وابستگی با محدوده ای از مجموعه آموزش.
به روز رسانی بازنمایی کلمات در طول آموزش، بر روی عملکرد داده های دسته بندی شده با  fine-grained و داده های دسته بندی شده ی باینری تاثیر گذار است و موجب افزایش قابل ملاحظه ی عملکرد داده های   fine-grained و افزایش جزئی عملکرد داده های باینری شده می شود. 
<br>

-  روابط معنایی
در جدول 6  چند روش  Lstm  و  غیر Lstm از نظر وابستگی معنایی با هم مقایسه شده اند:


 |روش |  Pearson’s r | Spearman’s | MSE |
|:----:|:--:|:--:|:--:|:--:|:--:|
|Illinois-LH | 0.7993 |0.7538 |0.3692 |
|UNAL-NLP |0.8070 |0.7489 |0.3550 |
|Meaning Factory| 0.8268 |0.7721 |0.3224|
|ECNU | 0.8414 | - | - |
|Mean vectors |  (0.0013) 0.7577 | (0.0027) 0.6738 |(0.0090) 0.4557 |
|DT-RNN |  (0.0070) 0.7923 | (0.0071) 0.7319| (0.0137)0.3822|
|SDT-RNN | (0.0042) 0.7900  | (0.0076) 0.7304| (0.0074)0.3848| 
|  LSTM|(0.0031)  0.8528  |  (0.0059) 0.7911|  (0.0092)0.2831|
|Bidirectional LSTM | (0.0028) 0.8567 | (0.0053) 0.7966| (0.0063)0.2736 |
|Tow layer LSTM |  (0.0066)0.8515  |  (0.0088)0.7896| (0.0150) 0.2838  |
|Tow layer Bidirectional  LSTM| (0.0014)  0.8558 | (0.0018) 0.7965|  (0.0020)0.2762  |
|Constituency Tree-LSTM |  (0.0038)0.8582  | (0.0053) 0.7966| (0.0108)0.2734   |
|Dependency Tree-LSTM|  (0.0030) **0.8676** |  (0.0042) **0.8083** | (0.0052) **0.2532**  |

> جدول 6 - نتایج مجموعه ی ارزیابی روی روابط معنایی SICK - در اینجا از سه روش برای معیار ارزیابی استفاده شده، روش Pearson’s r ،  Spearman’s و خطای میانگین مربعات [^Mean Squared Error ]  (MSE) . 

  دو معیار Pearson’s r  و  Spearman’s، وابستگی کلمات در مقابل ارزیابی های انسان از روابط معنایی  را  اندازه گیری می کند و معیار سوم، خطای اندازه گیری را نشان می دهد.
 مدلهای  DT-RNN  و SDT-RNN مدلهایی از شبکه بازگشتی عصبی هستند که از درخت وابستگی برای نمایش عبارت استفاده می کنند و بر روی نهاد و گزاره جمله تمرکز دارند. SDT-RNN یک مدل توسعه یافته از DT-RNN است که برای هر رابطه ی وابستگی از یک بردار انتقال جداگانه استفاده می کند؛ مدلهای یک تا پنج جدول  در 2014  SemEval ارائه شده اند.
 در اینجا، هر دو نوع درخت وابستگی و ساختاری از ریشه ساخته می شوند و نظارت را در ریشه درخت دریافت می کنند. اما در دسته بندی معنایی نظارت از گره های داخلی نیز دریافت می شد.  از آنجایی که در درخت وابستگی هر گره، کلمه ی هد را نشان می دهد و در درخت ساختاری تنها برگ ها به عنوان کلمه ی ورودی دریافت می شوند، با مقایسه ی اعداد جدول، می بینیم که درخت Lstm وابستگی مفیدتر از درخت Lstm ساختاری است. زیرا مسیر کلمه های ورودی به ریشه برای انجام نظارت، در درخت وابستگی از مسیر کلمات ورودی درخت ساختاری که از برگ تا ریشه است کوتاهتر است.
 <br>
 <br/>
#  بحث و تجزیه و تحلیل کیفی

در جدول 7، دو ستون از جملات را داریم که ستون سمت چپ، بررسی جملات با درخت Lstm وابستگی و ستون سمت راست بررسی جملات از نظر تشابه معنایی بردار کلمات در جمله است. این جمله ها،  از مجموعه آموزش SICK انتخاب شده اند. جمله ی انگلیسی a boy is waving at some young runners from the ocean را در نظر بگیرید. در تجزیه وابستگی این جمله، کلمه ی  ocean وابستگی غیر مستقیم از ریشه یعنی waving دارد و دومین دورترین از ریشه است. و این نشان می دهد که مدل Lstm  درختی قادر به حفظ اطلاعات قدیمی و دور می باشد. و همین طور مدل درختی این اجازه را می دهد که بتوانیم جملات طولانی را از نظر وابستگی بررسی کنیم. دو جمله ی "دو مرد گیتار می زنند"  و "دو مرد در مقابل جمعیت می رقصند و آواز می خوانند " را در نظر بگیرید. تجزیه ی وابستگی می تواندعبارت "گیتار زدن" را با عبارت "رقصیدن و آواز خواندن در جلوی جمعیت" مرتبط کند. در صورتی که این دو عبارت نشانه[^Token] ی مشترکی با هم ندارند.  


|Ranking by mean word vector cosine similarity| Score | Ranking by Dependency Tree-LSTM model  | Score|
|:----:|:--:|:--:|:--:|:--:||:--:|
|a **woman is slicing potatoes**| |**a woman is slicing potatoes**||
|a woman is cutting potatoes|0.96 | a woman is cutting potatoes |4.82 | 
|a woman is slicing herbs|0.92 |  potatoes are being sliced by a woman|4.70 |
|a woman is slicing tofu| 0.92| tofu is being sliced by a woman|4.39 |
|****a boy is waving at some young runners from the ocean** | |a boy is waving at some young runners from the ocean||
|a man and a boy are standing at the bottom of some stairs ,which are outdoors| 0.92 | a group of men is playing with a ball on the beach |3.79 |
|a group of children in uniforms is standing at a gate and one is kissing the mother| 0.90 | a young boy wearing a red swimsuit is jumping out of a blue kiddies pool |3.37 | 
|  a group of children in uniforms is standing at a gate and there is no one kissing the mother|0.90 | the man is tossing a kid into the swimming pool that is near the ocean |3.19 | 
|**two men are playing guitar**|  |**two men are playing guitar**|  | 
|some men are playing rugby|0.88 |the man is singing and playing the guitar |4.08 | 
|two men are talking|0.87| the man is opening the guitar for donations and plays with the case |4.01 | 
|two dogs are playing with each other| 0.87 |two men are dancing and singing in front of a crowd|4.00 | 

> جدول 7 - ستون سمت چپ، بررسی جملات با درخت Lstm وابستگی و ستون سمت راست بررسی جملات از نظر تشابه معنایی بردار کلمات در جمله می باشد.



#  تاثیر طول جمله

در شکل 13 و 41، دقت انواع Lstm زمانیکه طول کلمه را تغییر میدهیم با هم مقایسه شده است. خط افقی طول کلمه و خط عمودی دقت بر اساس معیار مرتبط با کار مورد نظر را نشان می دهد. به شکل 4 نگاه کنید، در جملات به طول 13 تا 15، Lstm درختی مبتنی بر وابستگی، ارتباط معنایی عبارات را با یک اختلاف خیلی خوب نسبت به مدل Lstm ترتیبی متوجه شده  و دقت بیشتری دارد؛ با توجه به شکل مشاهده می کنیم که چه در جملات کوتاه و چه در جملات طولانی تر، Lstm درختی دقت بیشتری در بازنمایی عبارات نسبت به Lstm استاندارد و Lstm دو طرفه  دارد.

![شکل 13 - محور عمودی دقت بر اساس دسته بندی fine-grained  احساسات و محور افقی طول کلمه را نشان می دهد.](https://boute.s3.amazonaws.com/294-11.png)

![شکل 14 - محور عمودی دقت بر اساس معیار Pearson’s r ( معیاری برای اندازه گیری وابستگی کلمات است)  و محور افقی طول کلمه را نشان می دهد.](https://boute.s3.amazonaws.com/294-12.png)

# پیاده سازی

# جمع بندی


در این مقاله توسعه LSTM استاندارد به توپولوژی شبکه ای با ساختار درختی  معرفی شد. 
ساختار LSTM درختی می تواند به درختان با فاکتور انشعاب دلخواه اعمال شود.  تاثیر معماری LSTM درختی را که بهتر از تمام سیستم های موجود عمل می کند  بر روی دو مورد وابستگی معنایی و دسته بندی احساسات بررسی شد. 
همچنین نشان داده شد که  مدل LSTM با ساختار درختی برای انجام وظایف  بهتر از مشابه خودشان در مدل ترتیبی عمل می کنند. 
نتایج  این مقاله خط مشی هایی را برای کاربر  در تولید روش نمایش  جملات پیشنهاد می دهد.



# مراجع


[1] Elman, Jeffrey L. 1990. Finding structure in time. Cognitive science 14(2):179–211.
[2] Mikolov, Toma´s. 2012. ˇ Statistical Language Models Based on Neural Networks. Ph.D. thesis, Brno University of Technology.
[3] Goller, Christoph and Andreas Kuchler. 1996. Learning task-dependent distributed representations by backpropagation through structure. In IEEE International Conference on Neural Networks.
[4]  Socher, Richard, Cliff C Lin, Chris Manning, and Andrew Y Ng. 2011. Parsing natural scenes and natural language with recursive neural networks. In Proceedings of the 28th International Conference on Machine Learning (ICML-11).
[5] Rumelhart, David E, Geoffrey E Hinton, and Ronald J Williams. 1988. Learning representations by back-propagating errors. Cognitive modeling 5.
[6] Collobert, Ronan, Jason Weston, Leon Bottou, ´Michael Karlen, Koray Kavukcuoglu, and Pavel Kuksa. 2011. Natural language processing (almost) from scratch. The Journal of Machine Learning Research 12:2493–2537
[7] Turian, Joseph, Lev Ratinov, and Yoshua Bengio. 2010. Word representations: A simple and general method for semi-supervised learning. In Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics.
[8] Huang, Eric H., Richard Socher, Christopher D. Manning, and Andrew Y. Ng. 2012. Improving word representations via global context and multiple word prototypes. In Annual Meeting of the Association for Computational Linguistics (ACL).
[9] Mikolov, Tomas, Ilya Sutskever, Kai Chen, Greg S Corrado, and Jeff Dean. 2013. Distributed representations of words and phrases and their compositionality. In Advances in Neural Information Processing Systems.
[10] Pennington, Jeffrey, Richard Socher, and Christopher D Manning. 2014. Glove: Global vectors for word representation. In Proceedings of the 2014 Conference on Empiricial Methods in Natural Language Processing (EMNLP).
 [11] Mitchell, Jeff and Mirella Lapata. 2010. Composition in distributional models of semantics. Cognitive science 34(8):1388 1429. 
 [12] Yessenalina, Ainur and Claire Cardie. 2011. Compositional matrix-space models for sentiment analysis. In Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing (EMNLP).
 [13] Grefenstette, Edward, Georgiana Dinu, YaoZhong Zhang, Mehrnoosh Sadrzadeh, and Marco Baroni. 2013. Multi-step regression learning for compositional distributional semantics. In Proceedings of the 10th International Conference on Computational Semantics.
 [14] Srivastava, Nitish, Ruslan Salakhutdinov, and Geoffrey Hinton. 2013. Modeling documents with a Deep Boltzmann Machine. In Uncertainty in Artificial Intelligence.
 [15] Le, Quoc and Tomas Mikolov. 2014. Distributed representations of sentences and documents. In Proceedings of the 31st International Conference on Machine Learning (ICML-14).
 [16] Goller, Christoph and Andreas Kuchler. 1996. Learning task-dependent distributed representations by backpropagation through structure. In IEEE International Conference on Neural Networks.

 [17] Socher, Richard, Brody Huval, Christopher D Manning, and Andrew Y Ng. 2012. Semantic compositionality through recursive matrixvector spaces. In Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP).
  [18] Socher, Richard, Alex Perelygin, Jean Y Wu, Jason Chuang, Christopher D Manning, Andrew Y Ng, and Christopher Potts. 2013. Recursive deep models for semantic compositionality over a sentiment treebank. In Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing (EMNLP).
  [19] Socher, Richard, Alex Perelygin, Jean Y Wu, Jason Chuang, Christopher D Manning, Andrew Y Ng, and Christopher Potts. 2013. Recursive deep models for semantic compositionality over a sentiment treebank. In Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing (EMNLP).
  [20] Graves, Alex, Navdeep Jaitly, and A-R Mohamed. 2013. Hybrid speech recognition with deep
bidirectional LSTM. In IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU).
[21] Zaremba, Wojciech and Ilya Sutskever. 2014. Learning to execute. arXiv preprint arXiv:1410.4615 .
# پا نوشت