ترغب بنشر مسار تعليمي؟ اضغط هنا

مشاركة TRP-UPC في مهمة WMT21 News Translation: نهج NMT مقره

The TALP-UPC Participation in WMT21 News Translation Task: an mBART-based NMT Approach

192   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تصف هذه الورقة التقديم إلى المهمة المشتركة لترجمة الأخبار WMT 2021 بواسطة مجموعة الترجمة الآلية في UPC.الهدف من المهمة هو ترجمة الألمانية إلى الفرنسية (DE-FR) والفرنسية إلى الألمانية (FR-DE).يركز تقديمنا على ضبط نموذج مدرب مسبقا للاستفادة من بيانات أحادية الأجل.نحن نغلق mbart50 باستخدام البيانات المصفاة، بالإضافة إلى ذلك، ندرب نموذج محول على نفس البيانات من الصفر.في التجارب، نظهر أن نتائج MBART50 الناشجة في 31.69 بلو ل DE-FR و 23.63 بلو FR-DE، مما يزيد من 2.71 و 1.90 بلو وفقا لذلك، مقارنة بالنموذج الذي نتدرب من الصفر.إن تقديمنا النهائي هو فرقة لهذين النموذجين، مما يزيد من 0.3 بلو ل FR-DE.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

في هذه الورقة، نقدم نظام FJWU مقدم إلى المهمة المشتركة الطبية الحيوية في WMT21.أعدت أنظمة الترجمة الآلية العصبية متعددة اللغات لمدة ثلاث لغات (أي الألمانية والإسبانية والفرنسية) مع اللغة الإنجليزية كلغة مستهدفة.تم تدريب أنظمة NMT الخاصة بنا المستندة إلى بنية المحولات، على مجموعة من كورسيا الموازية داخل المجال والخروج المستخدمة باستخدام تقنيات استرجاع المعلومات (IR) وتقنيات تكيف المجال.
لقد أرسلنا نماذج يونيين الاتجاهين، واحدة للغة الإنجليزية ← اتجاه أيسلندي وغيرها من الأيسلاندية ← اتجاه اللغة الإنجليزية.يعتمد نظام الترجمة الأخبار لدينا على الهندسة المعمارية الكبيرة المحول، ويستفيد من تصفية Corpora والترجمة الخلفي والترجمة الأمامية المطبقة على البيانات المتوازية والأنتجة على حد سواء
وصفنا تقديم نموذج Facebook متعدد اللغات إلى المهمة المشتركة WMT2021 على ترجمة الأخبار. نشارك في 14 لغة لغة: الإنجليزية من وإلى جمهورية التشيك، الألمانية، الهوسا، الأيسلاندية واليابانية والروسية والصينية. لتطوير النظم التي تغطي كل هذه الاتجاهات، نركز على نماذج متعددة اللغات. نحن نستخدم البيانات من جميع المصادر المتاحة --- WMT، استخراج البيانات واسعة النطاق، وخلفه في المجال --- لإنشاء خطوط أساسية عالية الجودة ثنائية اللغة ومهدي اللغات. بعد ذلك، نقوم بالتحقيق في استراتيجيات لتحجيم حجم النموذج متعدد اللغات، بحيث يحتوي نظام واحد على قدر كاف لتمثيلات عالية الجودة لجميع اللغات الثمانية. تقدمنا ​​النهائي لدينا هو مجموعة من نماذج الترجمة متعددة اللغات كثيفة ومتفجار، تليها Finetuning على بيانات الأخبار داخل المجال وإعادة تأهب القناة الصاخبة. مقارنة بتقديم الطلبات في العام السابق، قام نظامنا متعدد اللغات بتحسين جودة الترجمة على جميع الاتجاهات اللغوية، مع تحسين متوسط ​​2.0 بلو. في مهمة WMT2021، يحتل نظامنا المرتبة الأولى في 10 اتجاهات بناء على التقييم التلقائي.
تصف هذه الورقة أنظمة Tencent Translation ذات المهمة المشتركة WMT21. نشارك في مهمة ترجمة الأخبار على ثلاث أزواج لغة: الصينية-الإنجليزية والإنجليزية والصينية والألمانية والإنجليزية. يتم بناء أنظمتنا على نماذج محولات مختلفة مع تقنيات جديدة تتكيف من عملن ا البحثي الأخير. أولا، نجمع بين طرق تكبير البيانات المختلفة بما في ذلك الترجمة المرجودة والترجمة الأمامية والتدريب من اليمين إلى اليسار لتوسيع بيانات التدريب. نستخدم أيضا تحيز التغطية اللغوية وتجديد البيانات ونهج أخذ العينات المستندة إلى عدم اليقين لتحديد بيانات ذات صلة بالمحتوى وعالية الجودة من كوربورا متوازية ومونولجة كبيرة. نتوقع أن يتم ضبطه بشكل جيد في المجال، ونقترح أيضا نماذج واحدة المحبوثة نموذج واحد "" لنموذج خصائص نموذجية لأنواع الأخبار المختلفة عند مراحل الركود الدقيقة وفك التشفير. علاوة على ذلك، نستخدم خوارزمية الفرقة القائمة على الجشع وطريقة الفرقة المتناقلة لتعزيز أنظمتنا. بناء على نجاحنا في آخر WMT، فإننا أعملنا باستمرار تقنيات متقدمة مثل التدريب الدفاعي الكبير واختيار البيانات وتصفية البيانات. أخيرا، يحقق نظامنا الصيني والإنجليزي المقيد 33.4 درجة بلو حساسة للحالة، وهو الأعلى بين جميع التقديمات. يتم تصنيف نظام اللغة الإنجليزية الألمانية في المركز الثاني وفقا لذلك.
تقدم هذه الورقة تقديم مركز خدمات Translate Huawei (HW-TSC) إلى مهمة مشتركة من WMT 2021.نشارك في 7 أزواج لغوية، بما في ذلك ZH / EN، DE / EN، JA / en، HA / EN، هي / EN، HI / BN، و XH / ZU في كلا الاتجاهين تحت الحالة المقيدة.نحن نستخدم بنية المحولات وال حصول على أفضل أداء عبر المتغيرات المتعددة بأحجام أكبر معلمة.نحن نقوم بتنفيذ ما قبل المعالجة المفصلة والتصفية على مجموعات بيانات ثنائية اللغة وأنتجة على نطاق واسع.يتم استخدام العديد من الاستراتيجيات الشائعة الاستخدام لتدريب نماذجنا، مثل الترجمة الخلفية، الترجمة الأمامية، الترجمة إلى الأمام، الترجمة متعددة اللغات، تقطير المعرفة الفرعية، إلخ. يحصل تقديمنا نتائج تنافسية في التقييم النهائي.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا