ترغب بنشر مسار تعليمي؟ اضغط هنا

تقدم هذه الورقة تقديم مركز خدمات Translate Huawei (HW-TSC) إلى مهمة مشتركة من WMT 2021.نشارك في 7 أزواج لغوية، بما في ذلك ZH / EN، DE / EN، JA / en، HA / EN، هي / EN، HI / BN، و XH / ZU في كلا الاتجاهين تحت الحالة المقيدة.نحن نستخدم بنية المحولات وال حصول على أفضل أداء عبر المتغيرات المتعددة بأحجام أكبر معلمة.نحن نقوم بتنفيذ ما قبل المعالجة المفصلة والتصفية على مجموعات بيانات ثنائية اللغة وأنتجة على نطاق واسع.يتم استخدام العديد من الاستراتيجيات الشائعة الاستخدام لتدريب نماذجنا، مثل الترجمة الخلفية، الترجمة الأمامية، الترجمة إلى الأمام، الترجمة متعددة اللغات، تقطير المعرفة الفرعية، إلخ. يحصل تقديمنا نتائج تنافسية في التقييم النهائي.
تصف هذه الورقة أنظمة Tencent Translation ذات المهمة المشتركة WMT21. نشارك في مهمة ترجمة الأخبار على ثلاث أزواج لغة: الصينية-الإنجليزية والإنجليزية والصينية والألمانية والإنجليزية. يتم بناء أنظمتنا على نماذج محولات مختلفة مع تقنيات جديدة تتكيف من عملن ا البحثي الأخير. أولا، نجمع بين طرق تكبير البيانات المختلفة بما في ذلك الترجمة المرجودة والترجمة الأمامية والتدريب من اليمين إلى اليسار لتوسيع بيانات التدريب. نستخدم أيضا تحيز التغطية اللغوية وتجديد البيانات ونهج أخذ العينات المستندة إلى عدم اليقين لتحديد بيانات ذات صلة بالمحتوى وعالية الجودة من كوربورا متوازية ومونولجة كبيرة. نتوقع أن يتم ضبطه بشكل جيد في المجال، ونقترح أيضا نماذج واحدة المحبوثة نموذج واحد "" لنموذج خصائص نموذجية لأنواع الأخبار المختلفة عند مراحل الركود الدقيقة وفك التشفير. علاوة على ذلك، نستخدم خوارزمية الفرقة القائمة على الجشع وطريقة الفرقة المتناقلة لتعزيز أنظمتنا. بناء على نجاحنا في آخر WMT، فإننا أعملنا باستمرار تقنيات متقدمة مثل التدريب الدفاعي الكبير واختيار البيانات وتصفية البيانات. أخيرا، يحقق نظامنا الصيني والإنجليزي المقيد 33.4 درجة بلو حساسة للحالة، وهو الأعلى بين جميع التقديمات. يتم تصنيف نظام اللغة الإنجليزية الألمانية في المركز الثاني وفقا لذلك.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا