یادگیری بازنمایی‌های هر حوزه‌ای به منظور تشخیص معنا، احساس و لحن با استفاده از میلیون‌ها رخداد ایموجی‌ها

۱. مقدمه

تا به امروز کارهای بسیار زیادی در جهت تحلیل معنایی1 متون صورت گرفته‌است. موضوع مهمی که مجموعه‌ی متنوعی از تسک‌های پردازش زبان‌ طبیعی2 را به خود درگیر می‌کند کمبود داده‌های حاوی اطلاعات مناسب و خودکار است. چرا که عمدتا داده‌ها به انواع یادداشت‌گذاری شده و برچسب‌خورده‌ی دستی محدود شده‌اند. بنابراین به منظور تحلیل معنایی رسانه‌های اجتماعی و سایر کارهای ممکن در این حوزه، نیازمند مدل‌های قوی‌تری هستیم که بتوانند بازنمایی نوشتار را به نحو بهتری مدل کرده و یاد بگیرند. از جدیدترین روش‌هایی که برای آموزش مدل‌ها در تحلیل معنایی متن به کار گرفته می‌شود استفاده از شکلک‌های مثبت و منفی است.[1] [2] هم‌چنین از هشتگ‌هایی نظیر #خشم، #لذت، #حالت‌تهوع یا #اوه برای تحلیل احساسی و دسته‌بندی متون استفاده می‌شود.[3]
برای آنکه بتوانیم بازنمایی‌های پیچیده‌تری از محتوای احساسی در متن را یاد بگیریم، می‌توان از بسط‌دادن روش نظارت از راه دور3 به یک مجموعه‌ی بزرگتری از برچسب‌های شلوغ 4 بهره برد که در نهایت منجر به افزایش کارایی بر معیار‌های تشخیص معنا، احساس و لحن خواهد شد. در این‌جا برچسب‌های شلوغ با ایموجی‌ها به منظور کمک برای فهم معنا، احساس و لحن در نظر گرفته شده‌اند که روش دقیق عملکرد را در آینده توضیح خواهیم داد. اما پس از یادگیری مدل برای ارزیابی آن، جملاتی به عنوان ورودی داده شده و پنج محتمل‌ترین ایموجی‌ها بر اساس ورودی برای آن متن به عنوان خروجی نمایش داده می‌شود.(جدول 1)

جدول 1 - رتبه‌دهی به جملات بر اساس پنج محتمل‌ترین ایموجی‌ها

البته باید در نظر داشت که ایموجی‌ها همیشه به عنوان برچسب‌گذاری مستقیم احساس به کار نمی‌روند؛ بلکه می‌توانند برای رفع ابهام یک جمله‌ی مبهم یا متمم کردن یک متن منفی به کار آیند. برای نمونه در نظر بگیرید که یک توییت با این مفهوم : "زندگی به طرز عجیبی داره سخت می‌گذره" از یک هشتگ مانند "#جالب" استفاده نماید. پر واضح است که هشتگ استفاده شده به منظور متمم کردن توییت با معنای منفی به کار رفته است.[4]
با تمامی این اوصاف، این مقاله نشان می‌دهد که ایموجی‌ها می‌توانند برای دسته‌بندی محتوای احساسی متن‌ها در بسیاری از موارد به دقت کارا باشند. مثلا مدل DeepMoji می‌تواند استفاده‌ی متعدد کلمه‌ی “love” را به خوبی اصطلاحی مانند "this is the shit" به عنوان یک جمله‌ی مثبت مورد بررسی قراردهد.
مسئله‌ی مهم بعدی این است که بتوانیم با انتقال دانش یادگرفته‌شده به تسک‌های هدف با استفاده از یک روش جدید تنظیم دقیق 5 که لایه-خبره 6 است فرآیند تشخیص معنا، احساس و لحن را تسریع کرده و کارآمد نماییم.

۲. کارهای مرتبط

ایده‌ای که در این مقاله مورد توضیح قرار گرفته‌است، بهره‌وری از برچسب‌های شلوغ به منظوری رده‌بندی7 گزاره‌های احساسی بوده و یک ایده‌ی جدید نیست.[5][6] پیش از این، از شکلک‌های باینری مانند: [:( ، :) ، :|] استفاده می‌شده‌است که بعدتر هشتگ‌ها و ایموجی‌ها مورد اقبال قرار گرفتند. آن‌چه که مشخص است این است که تعیین رده‌های مختلف برای گزاره‌های احساسی، کاملا بر مبنای نظریه‌های احساسی هم‌چون شش احساس ابتدایی اکمان8 و هشت احساس ابتدایی پلاچیک9 صورت پذیرفته‌است.[3][7] به نحوی که چنین رده‌بندی‌هایی دستی نیازمند فهم محتوای احساسی هر گزاره‌ی دلخواه بوده و بنابراین، نه تنها کاری دشوار بوده، بلکه در صورت وجود ترکیب‌های پیچیده‌تری از محتواهای احساسی کار بسیار زمان‌گیر خواهد بود. هم‌چنین ممکن است که در انتخاب یک رده‌، مدل دچار تفسیر اشتباه شده و جزییات مهمی نادیده گرفته‌شود. روشی که در این مقاله بررسی می‌شود بدون داشتن فهم قبلی از مجموعه‌ی متن و با استفاده‌ی گسترده‌ای از 64 نوع ایموجی سعی در یادگیری مفاهیم احساسی متون دارد.

شکل 1 - خوشه‌بندی سلسله‌مراتبی پیش‌بینی‌های مدل DeepMoji بر روی دسته‌بندی‌های مجموعه‌ی تست

البته به جز راه ارائه شده در این‌جا، می‌توان برای یادگیری تفسیر خودکار محتوای احساسی یک ایموجی از جدول رسمی ایموجی‌ها که نگاشتی مستقیم میان هر ایموجی و کلمات توصیف کننده‌ِی آن است، بهره‌برد.[8] اما چنین روشی، از دو ناحیه موجب بروز محدودیت خواهد شد.

  1. این جدول در زمان تست مدل نیز مورد نیاز بوده در حالی که در بسیاری از دامنه‌های مورد بررسی با استفاده‌ی محدود یا عدم استفاده از ایموجی‌ها رو به رو هستیم.

  2. جدول ایموجی‌ها روند تغییر معنایی پویای ایموجی‌ها را دنبال نمی‌کند و نمی‌تواند اطلاعات کافی را از معنای یک ایموجی پس از گذر زمان به دست دهد. به عنوان مثال ممکن است معنای خنده‌ی ساده در یک ایموجی به عنوان ناراحتی در اثر استفاده‌های مکرر تلقی شود در حالی که جدول تعریف معنایی ایموجی‌ها، این تغییر را نمی‌داند و آن را هم‌چنان یک خنده‌ی آرام تعریف می‌کند.
    با موارد ذکر شده از کارهای صورت گرفته و نیازمندی‌های بیان شده در بخش مقدمه، به این مهم می‌رسیم که بایستی دانش تفسیر محتوای متون بر اساس شکلک‌ها، از راه‌های مختلفی منتقل شده تا فرآیند یادگیری موثر و راحت‌تر شود. حال برای آنکه بتوانیم حین یادگیری بر روی دیتاست‌های متعدد، یادگیری چندگانه را به گونه‌ای داشته باشیم که نه تنها نیازمند دسترسی به دیتاست‌ ایموجی‌ها در هربار تنظیم شدن رده‌بند برای یک تسک هدف جدید نباشیم، بلکه با مشکلات عدم دسترسی به دیتاست‌ها از لحاظ مقررات دسترسی به داده‌ها نیز دست‌و‌پنجه نرم نکنیم. هم‌چنین، مشکلاتی که در خصوص نگهداری داده‌ها، به عنوان دیتاستی که برای این تحقیق استفاده شده‌است که شامل صدهامیلیون از توییت‌هاست، وجود دارد. (جدول 2) در نتیجه، در بخش روش کار، چگونگی یک انتقال آموزش را توضیح داده که نیازمند دسترسی به دیتاست اولیه نبوده و تنها نیازمند دسترسی به رده‌بند از پیش آموزش دیده باشد.[9]

    جدول 2 - تعداد توییت‌ها در هر دیتاست پیش‌ آموزش که متناظر با هر ایموجی در میلیون است

۳. مرور ادبیات، مقدمات و پیش‌نیاز‌ها

در بخش روش‌، به توضیح آنچه که لازم است خواهیم پرداخت ولیکن پیش از آن بهتر است که با چند مفهوم مهم در این مقاله آشنا شویم:

  • پیش‌آموزش[^Pretraining]: آماده‌سازی وزن‌دهی‌های شبکه‌ی یادگیری بر مبنای دیتاست اولیه، به منظور استفاده برای یادگیری سایر دیتاست‌ها با تغییر و تنظیم وزن‌دهی‌ها.

  • شبکه‌های عصبی LSTM[^Long Short-Term Memory]: شبکه‌های یادگیری با حافظه‌ی بلند کوتاه‌مدت هستند که به شکل باز رخدادی سعی می‌کنند تا اثر ورودی را در یک زمان خاص در طول زمان‌های بعدی منتقل کرده و به شکل حافظه دار عمل نمایند.

  • مکانیزم توجه[^ Attention mechanism]: روشی که در شبکه‌های عصبی باز رخدادی سعی می‌کند تا برای یک رشته از ورودی‌ها تصمیم بگیرد که باید به کدام بخش از ورودی توجه بیشتری صورت گیرد.

  • ارتباطات پرشی[^Skip connections]: در شبکه‌های عصبی به منظور انتقال مستقیم برخی از ورودی‌ها به لایه‌های جلوتر برای جلوگیری از حذف خودکار آن‌ها، از این نوع اتصالات استفاده می‌شود.

  • نمونه‌برداری رو به بالا/رو به پایین[^ Up/Down sampling]: دو نوع نمونه‌برداری که بر اساس اندازه‌ی دیتاست و پراکندگی داده‌ها در دو رده‌ی مورد نظر، سعی بر ایجاد توازن در مجموعه‌ی یادگیری، تست یا اعتبارسنجی دارد.

۴. معرفی دیتاست

در این پژوهش، دیتاست اولیه برای پیش‌بینی ایموجی‌ها یک دیتاست خام شامل 56.6 میلیارد توییت بوده که با پیش‌پردازش‌های صورت گرفته به 1.2 میلیارد توییت کاهش یافته‌است. سپس از هر توییت به ازای هر ایموجی استفاده شده‌ در آن یک رونوشت تهیه شده که با آن ایموجی خاص به شکل متناظر در دیتاست ذخیره شده‌است و منجر به تولید دیتاست نهایی با 1.6 میلیارد توییت گردیده‌است. جدول 2 توزیع توییت‌ها را بین انواع مختلف ایموجی‌ها نشان می‌دهد.
برای ارزیابی کارایی پیش‌آموزش، یک مجموعه‌ی اعتبارسنجی10 و یک مجموعه‌ی تست11 در نظر گرفته شده‌است به طوری که به ازای هر ایموجی از 64 ایموجی ممکن 10 هزار توییت داشته باشند؛ یعنی در مجموع برای هر مجموعه 640 هزار توییت در نظر گرفته شده‌است. سپس با استفاده از نمونه‌برداری رو به بالا از بین توییت‌های باقی مانده، مجموعه‌ی یادگیری12 جهت استفاده متعادل شده است. نتایج مقایسه‌ی کارایی مدل DeepMoji در تسک هدف،که همان پیش‌آموزش به منظور پیش‌بینی ایموجی‌ها باشد، در جدول 3 قابل مشاهده است.

جدول ۳ - دقت رده‌بند‌ها در پیش‌بینی ایموجی‌ها. d به ابعاد هر لایه از LSTM اشاره می‌کند. پارامتر‌ها در مقیاس میلیون هستند.

برای ارزیابی روش معرفی‌شده در تحلیل احساسی در مقابل روش‌های موجود از دو دیتاست دیگر استفاده شده است که:

  1. دیتاستی که شامل احساسات توییت‌های مربوط به بازی‌های المپیک بوده است که توسط Sintsova ایجاد شده‌است.[10] که به یک کار رده‌بندی تنها برای برچسب‌زدن تبدیل شده‌است.

  2. دیتاست دیگر شامل تجربیات احساسیِ خود گزارش شده است که توسط گروهی بزرگ از روان‌شناسان ایجاد شده است.[11]

۵. منابع

  1. Jan Deriu, Maurice Gonzenbach, Fatih Uzdilli, Aurelien Lucchi, Valeria De Luca, and Martin Jaggi.2016. Swisscheese at semeval-2016 task 4: Sentiment classification using an ensemble of convolutional neural networks with distant supervision.Proceedings of SemEval, pages 1124–1128.

  2. Duyu Tang, Furu Wei, Nan Yang, Ming Zhou, TingLiu, and Bing Qin. 2014. Learning sentimentspecific word embedding for twitter sentiment classification. In 52th Annual Meeting of the Association for Computational Linguistics (ACL), pages1555–1565.

  3. Saif Mohammad. 2012. #emotional tweets. In TheFirst Joint Conference on Lexical and Computational Semantics (*SEM), pages 246–255. Association for Computational Linguistics.

  4. FA Kunneman, CC Liebrecht, and APJ van den Bosch.2014. The (un)predictability of emotional hashtagsin twitter. In 52th Annual Meeting of the Association for Computational Linguistics (ACL). Association for Computational Linguistics.

  5. Jonathon Read. 2005. Using emoticons to reduce dependency in machine learning techniques for sentiment classification. In ACL student research workshop, pages 43–48. Association for ComputationalLinguistics.

  6. Alec Go, Richa Bhayani, and Lei Huang. 2009. Twitter sentiment classification using distant supervision.CS224N Project Report, Stanford, 1(12).

  7. Jared Suttles and Nancy Ide. 2013. Distant supervision for emotion classification with discrete binaryvalues. In International Conference on IntelligentText Processing and Computational Linguistics (CICLing), pages 121–136. Springer.

  8. Ben Eisner, Tim Rocktaschel, Isabelle Augenstein, ¨Matko Bosnjak, and Sebastian Riedel. 2016. ˇemoji2vec: Learning emoji representations fromtheir description. In 4th International Workshop onNatural Language Processing for Social Media (SocialNLP).

  9. Yoshua Bengio et al. 2012. Deep learning of representations for unsupervised and transfer learning. In29th International Conference on Machine learning(ICML) – Workshop on Unsupervised and TransferLearning, volume 27, pages 17–36.

  10. Valentina Sintsova, Claudiu-Cristian Musat, and PearlPu. 2013. Fine-grained emotion recognition inolympic tweets based on human computation. In4th Workshop on Computational Approaches toSubjectivity, Sentiment and Social Media Analysis(WASSA).

  11. Harald G Wallbott and Klaus R Scherer. 1986. Howuniversal and specific is emotional experience? evidence from 27 countries on five continents. International Social Science Council, 25(4):763–795.


  1. Sentiment Analysis

  2. Natural Language Processing

  3. Distant Supervision

  4. Noisy Labels

  5. Fine-Tuning

  6. Layer-Wise

  7. Classifying

  8. Ekman

  9. Plutchik

  10. Validation Set

  11. Test Set

  12. Train Set