ترغب بنشر مسار تعليمي؟ اضغط هنا

الترجمة الرجوع لتعليقات الجهاز متعدد اللغات على نطاق واسع

Back-translation for Large-Scale Multilingual Machine Translation

301   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

توضح هذه الورقة نهجنا للمهمة المشتركة على الترجمة ذات الجهاز متعدد اللغات على نطاق واسع في المؤتمر السادس حول الترجمة الآلية (WMT-21).في هذا العمل، نهدف إلى بناء نظام ترجمة متعددة اللغات واحدا مع فرضية أن تمثيل عالمي عبر اللغة يؤدي إلى أداء ترجمة متعددة اللغات بشكل أفضل.نحن نقدم استكشاف أساليب الترجمة الخلفي المختلفة من الترجمة الثنائية إلى الترجمة متعددة اللغات.يتم الحصول على أداء أفضل من خلال طريقة أخذ العينات المقيدة، والتي تختلف عن اكتشاف الترجمة الثنائية الثدية.علاوة على ذلك، نستكشف أيضا تأثير المفردات ومقدار البيانات الاصطناعية.والمثير للدهشة أن الحجم الأصغر من المفردات أداء أفضل، وتقدم بيانات اللغة الإنجليزية النائية واسعة النطاق تحسنا متواضعا.لقد أرسلنا إلى كل من المهام الصغيرة وتحقيق المركز الثاني.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

نقدم نتائج المهمة الأولى على الترجمة ذات الجهاز متعدد اللغات على نطاق واسع.تتكون المهمة على التقييم المتعدد إلى العديد من النماذج الفردية عبر مجموعة متنوعة من اللغات المصدر والمستهدفة.هذا العام، تتألف المهمة على ثلاثة إعدادات مختلفة: (1) المهمة الصغي رة 1 (لغات أوروبا الوسطى / الجنوبية الشرقية)، (2) المهمة الصغيرة 2 (لغات جنوب شرق آسيا)، و (3) مهمة كاملة (كل 101 × 100 زوج أزواج).استخدمت جميع المهام DataSet Flores-101 كمعيار التقييم.لضمان طول العمر من مجموعة البيانات، لم يتم إصدار مجموعات الاختبار علنا وتم تقييم النماذج في بيئة خاضعة للرقابة على Dynabench.كان هناك ما مجموعه 10 فرق مشاركة للمهام، بما مجموعه 151 من العروض النموذجية المتوسطة و 13 نماذج نهائية.تظهر نتائج هذا العام تحسنا كبيرا على خطوط الأساس المعروفة مع +17.8 بلو ل Task-Task2، +10.6 للمهمة الكاملة و +3.6 للمهمة الصغيرة 1.
نقدم تطوير نظام الترجمة الآلي متعدد اللغات لمهمة الترجمة متعددة اللغات متعددة اللغات المهمة متعددة اللغات في WMT 2021. بدء تشغيل نظام الأساس المحتمل، حققنا في العديد من التقنيات لتحسين جودة الترجمة على المجموعة الفرعية المستهدفة من اللغات.تمكنا من تح سين جودة الترجمة بشكل كبير من خلال تكييف النظام باتجاه المجموعة الفرعية المستهدفة من اللغات وتوليد بيانات اصطناعية باستخدام النموذج الأولي.التقنيات المطبقة بنجاح في الترجمة متعددة اللغز المزدوجة (E.G. التشابه العادي) كان لها تأثير بسيط فقط على أداء الترجمة النهائي.
توضح هذه الورقة نظام الترجمة متعددة الاستخدامات على نطاق واسع ل WMT 2021. نشارك في المسار الصغير 2 في خمسة لغات جنوب شرق آسيا، والثلاثين الاتجاهات: الجاوية، الإندونيسية، الملايو، التاغالوغية، التاميل، الإنجليزية.نحن نستخدم أساسا إلى الأمام / الترجمة إلى الوراء، واختيار بيانات داخل المجال، وقطاع المعرفة، والضبط الجماعي التدريجي من الطراز المدرب مسبقا فلوريس 101.نجد أن الترجمة إلى الأمام / الخلفي يحسن بشكل كبير من نتائج الترجمة، واختيار البيانات والضبط الجمنيات التدريجية فعالة بشكل خاص أثناء مجال التكيف، في حين أن تقطير المعرفة يجلب تحسين أداء طفيف.أيضا، يستخدم متوسط المتوسط لتحسين أداء الترجمة بناء على هذه الأنظمة.يحقق نظامنا النهائي درجة بلو متوسط قدره 28.89 عبر ثلاثين اتجاهين في مجموعة الاختبار.
توضح هذه الورقة تقديم TENTRANS إلى مهمة مشتركة من Translation Translation منخفضة اللغات WMT21 لأزواج اللغة الرومانسية.تركز هذه المهمة على تحسين جودة الترجمة من الكاتالونية إلى Occitan والرومانية والإيطالية، بمساعدة لغات الموارد ذات الصلة ذات الصلة.نح ن نستخدم أساسا الترجمة المرجانية، والطرق القائمة على المحور، ونماذج متعددة اللغات، ونقل النموذج المدربين مسبقا، ونقل المعرفة داخل المجال لتحسين جودة الترجمة.في مجموعة الاختبار، يحقق نظامنا الأفضل المقدم بمتوسط 43.45 درجات بلو حساسة لحالة الأحرف عبر جميع أزواج الموارد المنخفضة.تتوفر بياناتنا ورمز النماذج المدربة مسبقا مسبقا في هذا العمل في أمثلة تقييم Tentrans.
تؤكد الدراسات الحديثة على حاجة إلى سياق وثائق في التقييم البشري لترجمات الماكينة، لكن القليل من الأبحاث قد تم في تأثير واجهات المستخدم على الإنتاجية العنصرية وموثوقية التقييمات.في هذا العمل، نقوم بمقارنة بيانات التقييم البشري من أحدث حملتين تقييمين م ن WMT التي تم جمعها عبر طريقتين مختلفتين لتقييم مستوى المستندات.يوضح تحليلنا أن اتباع نهج تركز على المستندات في التقييم حيث يتم عرض العنصي مع سياق المستند بأكمله على الشاشة يؤدي إلى تقييمات أعلى جودة ومستوى المستندات.إنه يحسن الارتباط بين القطاع وعشرات المستندات ويزيد من اتفاقية المشتركة بين النقاط عن درجات الوثائق ولكنها أكثر بكثير من الوقت المستهلكة للمعجبين.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا