Low Resource Multimodal الآلة العصبية ترجمة باللغة الإنجليزية الهندية في مجال الأخبار


الملخص بالعربية

إن دمج طرائق الإدخال المتعددة في نظام الترجمة الآلي (MT) يكتسب شعبية بين الباحثين MT. على عكس مجموعة البيانات المتاحة للجمهور لمهام ترجمة الآلات متعددة الوسائط، حيث تكون التسميات التوضيحية أوصاف صورة قصيرة، توفر التعليق الأخبار وصفا أكثر تفصيلا لمحتويات الصور. نتيجة لذلك، يتم العثور على العديد من الكيانات المسماة المتعلقة بالأشخاص المحددين والمواقع وما إلى ذلك. في هذه الورقة، يكتسبان مجموعة بيانات أخبار أحادية أحادية الأبعاد التي أبلغت باللغة الإنجليزية والهندية مقترنة بالصور لتوليد كوربوس موازية من اللغة الإنجليزية الهندية الاصطناعية. يستخدم Corpus الموازي لتدريب الترجمة الآلية العصبية باللغة الإنجليزية (NMT) ونظام MMT باللغة الإنجليزية من خلال دمج ميزة الصورة المقترنة مع Corpus الموازي المقابلة. نحن أيضا إجراء تحليل منهجي لتقييم أنظمة MT الإنجليزية-الهندية مع 1) المزيد من البيانات الاصطناعية و 2) عن طريق إضافة البيانات المترجمة إلى الوراء. يؤدي النتيجة لدينا إلى تحسن من حيث درجات BLEU لكل من أنظمة NMT (+8.05) و MMT (+11.03).

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث