ایجاد واژه‌نامه از روی پیکره دو زبانه

ایجاد واژه‌نامه از روی پیکره دوزبانه یکی از گام‌های اصلی برای رسیدن به یک سامانه مترجم ماشینی است. ترجمه ماشینی یعنی تبدیل خودکار متن زبان مبدا به متن معادل آن در زبان مقصد. عمده روش‌های ترجمه ماشینی بر مبنای مدل‌های آماری و یادگیری ماشین بنا شده است که از یک پیکره دوزبانه، مجموعه‌ی عظیمی از متن که به هر دو زبان مبدا و مقصد وجود داشته و در سطح جمله هم‌تراز شده‌اند، برای یادگیری معادل‌ها به صورت آماری استفاده می‌کنند.

پیکره دوزبانه غالبا در سطح جمله هم‌تراز می‌‌شود. حال مسئله اصلی این خواهد بود که چطور می‌شود این جمله‌ها را در سطح کلمه هم‌تراز نموده و واژه‌نامه‌ای به صورت خودکار از کلمات معادل، از روی پیکره دو زبانه استخراج نمود.

مقدمه

کارهای مرتبط

آزمایش‌ها

کارهای آینده

مراجع

[1] Tiedemann, Jorg. "Bitext alignment." Synthesis Lectures on Human Language Technologies 4.2 (2011): 1-165.
[2] Och, F.J. and Tillmann, C. and Ney, H. and others 1999, Improved alignment models for statistical machine translation, Proc. of the Joint SIGDAT Conf. on Empirical Methods in Natural Language Processing and Very Large Corpora

پیوندهای مفید