أنظمة الترجمة الآلية عرضة لمواطيات المجال، خاصة في سيناريو منخفض الموارد.غالبا ما تكون ترجمات خارج النطاق ذات جودة رديئة وعرضة للهلوسة، بسبب تحيز التعرض والكشف بمثابة نموذج لغة.نعتمد نهجين لتخفيف هذه المشكلة: القائمة المختصرة المعجمية مقيدة بمحاذاة إيماء IBM، وفرض الفرضية القائمة على التشابه.الأساليب هي رخيصة حسابية وتظهر النجاح على مجموعات اختبار الموارد المنخفضة من الموارد.ومع ذلك، فإن الطرق تفقد ميزة عند وجود بيانات كافية أو عدم تطابق مجال كبير جدا.يرجع ذلك إلى كل من نموذج IBM يفقد ميزته على المحاذاة العصبية المستفادة ضمنيا، وقضايا تجزئة الكلمات الفرعية للكلمات غير المرئية.
Machine translation systems are vulnerable to domain mismatch, especially in a low-resource scenario. Out-of-domain translations are often of poor quality and prone to hallucinations, due to exposure bias and the decoder acting as a language model. We adopt two approaches to alleviate this problem: lexical shortlisting restricted by IBM statistical alignments, and hypothesis reranking based on similarity. The methods are computationally cheap and show success on low-resource out-of-domain test sets. However, the methods lose advantage when there is sufficient data or too great domain mismatch. This is due to both the IBM model losing its advantage over the implicitly learned neural alignment, and issues with subword segmentation of unseen words.
المراجع المستخدمة
https://aclanthology.org/
نحن ندرس مشكلة تكيف المجال في الترجمة الآلية العصبية (NMT) عند مشاركة البيانات الخاصة بالمجال بسبب سرية أو مشكلات حقوق النشر.كخطوة أولى، نقترح بيانات الشظية في أزواج العبارة واستخدام عينة عشوائية لحن نموذج NMT عام بدلا من الجمل الكاملة.على الرغم من ف
يستخدم تكيف المجال على نطاق واسع في التطبيقات العملية للترجمة الآلية العصبية، والتي تهدف إلى تحقيق أداء جيد على كل من المجال العام والبيانات داخل المجال. ومع ذلك، فإن الأساليب الحالية لتكييف المجال عادة ما تعاني من النسيان الكارثي، والاختلاف المجال ا
طرق ناجحة للترجمة الآلية العصبية غير المنشأة (UNMT) توظف الاحتجاج عبر اللغات عبر الإشراف الذاتي، في كثير من الأحيان في شكل نمذجة لغة ملمقة أو مهمة توليد التسلسل، والتي تتطلب نموذج محاذاة التمثيلات المعجمية والفوضيةاللغتين.بينما يعمل الاحتجاج عبر اللغ
تحتاج أنظمة الإنتاج NMT عادة إلى خدمة مجالات المتخصصة التي لا تغطيها كوربيا كبيرة ومتاحة بسهولة بشكل مناسب.ونتيجة لذلك، غالبا ما يكون الممارسون نماذج غرضا عاما نماذج عامة على كل من المجالات التي يلبيها منظمةها.ومع ذلك، يمكن أن يصبح عدد المجالات كبيرا
في الآونة الأخيرة، تم اقتراح عدد من الأساليب لتحسين أداء الترجمة للترجمة الآلية العصبية على مستوى المستند (NMT). ومع ذلك، فإن القليل من التركيز على موضوع تناسق الترجمة المعجمية. في هذه الورقة، نطبق ترجمة واحدة لكل خطاب "في NMT، وتهدف إلى تشجيع تناسق