ترغب بنشر مسار تعليمي؟ اضغط هنا

Low Resource Multimodal الآلة العصبية ترجمة باللغة الإنجليزية الهندية في مجال الأخبار

Low Resource Multimodal Neural Machine Translation of English-Hindi in News Domain

352   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

إن دمج طرائق الإدخال المتعددة في نظام الترجمة الآلي (MT) يكتسب شعبية بين الباحثين MT. على عكس مجموعة البيانات المتاحة للجمهور لمهام ترجمة الآلات متعددة الوسائط، حيث تكون التسميات التوضيحية أوصاف صورة قصيرة، توفر التعليق الأخبار وصفا أكثر تفصيلا لمحتويات الصور. نتيجة لذلك، يتم العثور على العديد من الكيانات المسماة المتعلقة بالأشخاص المحددين والمواقع وما إلى ذلك. في هذه الورقة، يكتسبان مجموعة بيانات أخبار أحادية أحادية الأبعاد التي أبلغت باللغة الإنجليزية والهندية مقترنة بالصور لتوليد كوربوس موازية من اللغة الإنجليزية الهندية الاصطناعية. يستخدم Corpus الموازي لتدريب الترجمة الآلية العصبية باللغة الإنجليزية (NMT) ونظام MMT باللغة الإنجليزية من خلال دمج ميزة الصورة المقترنة مع Corpus الموازي المقابلة. نحن أيضا إجراء تحليل منهجي لتقييم أنظمة MT الإنجليزية-الهندية مع 1) المزيد من البيانات الاصطناعية و 2) عن طريق إضافة البيانات المترجمة إلى الوراء. يؤدي النتيجة لدينا إلى تحسن من حيث درجات BLEU لكل من أنظمة NMT (+8.05) و MMT (+11.03).



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

الترجمة الآلية تؤدي الترجمة الآلية من لغة طبيعية إلى أخرى. تكمن ترجمة الآلات العصبية بمهارة أحدث في الترجمة الآلية، لكنها تتطلب بيانات تدريبية كافية، وهي مشكلة شديدة لترجمة أزواج لغة الموارد المنخفضة. يتم تقديم مفهوم Multimodal في الترجمة الآلية العص بية (NMT) عن طريق دمج الميزات النصية مع ميزات مرئية لتحسين ترجمة الزوج منخفض الموارد. WAT2021 (ورشة العمل حول الترجمة الآسيوية 2021) تنظم مهمة مشتركة من الترجمة متعددة الوسائط للإنجليزية إلى الهندية. لقد شاركنا نفس الشيء مع اسم الفريق CNLP-NITS-PP في طلبين: متعددة الوسائط والنصية فقط NMT. يحقق هذا العمل في حقن أزواج العبارة عن طريق نهج تكبير البيانات ويحمل تحسين عملنا السابق في Wat2020 في نفس المهمة في كل من NMT النصي فقط و Multimodal NMT. لقد حققنا المرتبة الثانية على مجموعة اختبار التحدي للغة الإنجليزية إلى الهندية الترجمة متعددة الوسائط حيث تقييم ثنائي اللغة من النتيجة 39.28، درجة التقييم البدياسية بديهية سهلة الاستخدام (RIBES) 0.792097، ومقاييس كفاية الطلاقة (AMFM) 0.830230 على التوالي وبعد
في هذه الورقة، نقدم نهجا جديدا لتكييف المجال في الجهاز العصبي الذي يهدف إلى تحسين جودة Thetranslation على نطاق جديد. إضافة مجالات جديدة هي مهمة عالية تحديا لبيانات الترجمة الآلية العصبية، يصبح أكثر عبادة منتشرةالمجالات الفنية مثل Chem-Istry والذكاء ا لاصطناعي بسبب مصطلحات Spe-Sicific، إلخ. نقترح أسلوب الترجمة الخلفي العجول Domainspecific والتي تنوع بيانات الأحادية المتوفرة والبيانات الاصطناعية العامة بطريقة مختلفة. هذا النهج يستخدم خارج الكلمات. النهجعام جدا ويمكن أن تقوم بالياف بأي زوج لغة لأي مجال.نقوم بإجراء تجاربنا على الكنديمان والذكاء الاصطناعي) من أجل اللغة الهندية والتيلجو في كل من direc-tions.وقد لوحظ أن استخدام البيانات الاصطناعية الاستخدام التي تم إنشاؤها بواسطة proposedalgorithm يحسن درجات بلو بشكل كبير.
مع نشر نماذج اللغة بشكل متزايد في العالم الحقيقي، من الضروري معالجة مسألة نزاهة مخرجاتها. غالبا ما تعتمد كلمة تضمين تمثيلات نماذج اللغة هذه ضمنيا ارتباطات غير مرغوب فيها تشكل تحيزا اجتماعيا داخل النموذج. تطرح طبيعة اللغات بين الجنسين مثل الهندية مشكل ة إضافية في تقدير التحيز والتخفيف من التحيز، بسبب التغيير في شكل الكلمات في الجملة، بناء على جنس الموضوع. بالإضافة إلى ذلك، هناك أعمال متناثرة تتم في مجال أنظمة القياس والدولي لغات Instan. في عملنا، نحاول تقييم وتحديد التحيز بين الجنسين داخل نظام الترجمة الآلية الهندية-الإنجليزية. نقوم بتنفيذ إصدار تعديل من متري TGBI الموجود على أساس الاعتبارات النحوية له الهندية. قارننا أيضا وتتناقض مع قياسات التحيز الناتجة عن مقاييس متعددة للمظلات المدربة مسبقا وتلك التي تعلمتها نموذج الترجمة الآلي لدينا.
تم تطوير نماذج الترجمة للمجال المحدد لترجمة بيانات CovID من الإنجليزية إلى الأيرلندية لمهمة LORESMT 2021 المشتركة.تم تطبيق تقنيات التكيف عن المجال، باستخدام كوربوس 55K 55K تكييفها كوفي من المديرية العامة للترجمة.تم مقارنة أداء الدقيقة والضبط الجمنيات المختلطة ومقارنة أساليب البيانات المشتركة مع النماذج المدربة على مجموعة بيانات داخلية ممتدة.كجزء من هذه الدراسة، تم تطوير مجموعة بيانات باللغة الإنجليزية والأيرلندية من البيانات ذات الصلة بالكوفت، من المجالات الصحية والتعليمية.يستخدم نموذج أعلى مستوياته بنية محول مدربة مع مجموعة بيانات Covid داخل المجال.في سياق هذه الدراسة، أظهرنا أن تمديد مجموعة بيانات أساسية 8K داخل المجال من خلال خطوط 5K فقط تحسنت درجة بلو بمقدار 27 نقطة.
في هذه الورقة ونحن نستكشف تقنيات مختلفة للتغلب على تحديات الموارد المنخفضة في الترجمة الآلية العصبية (NMT) وتركز على وجه التحديد على حالة اللغة الإنجليزية الماراثية NMT. تتطلب أنظمة NMT كمية كبيرة من كورسا الموازية للحصول على ترجمات ذات نوعية جيدة. ن حاول تخفيف مشكلة الموارد المنخفضة عن طريق زيادة Corpora الموازية أو باستخدام تعلم النقل. تستخدم تقنيات مثل حقن الجدول العبارة (PTI) والترجمة الخلفي وخلط لغة اللغة لتعزيز البيانات الموازية؛ في حين أن المظلات المحورية والمحسبات متعددة اللغات تستخدم للاستفادة من تعلم التحويل. بالنسبة للمحور المحوري، تأتي الهندية في اللغة المساعدة للترجمة الإنجليزية المهاراتية. بالمقارنة مع نموذج محول الأساس، يلاحظ اتجاه تحسن كبير في درجة بلو عبر تقنيات مختلفة. لقد قمنا بإجراء تقييم واسع النطاق والتولي والنوعي لأنظمنا. نظرا لأن الاتجاه في الترجمة الآلية (MT) اليوم هو ما بعد التحرير وقياس الحد من الجهود البشرية (لها)، ونعطينا ملاحظاتنا الأولية لمعدل تحرير الترجمة (TER) مقابل دراسة درجة بلو وحيث يعتبر TER كتدبير لها.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا