ترغب بنشر مسار تعليمي؟ اضغط هنا

Facebook AI's WMT21

Facebook AI's WMT21 News Translation Task Submission

193   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

وصفنا تقديم نموذج Facebook متعدد اللغات إلى المهمة المشتركة WMT2021 على ترجمة الأخبار. نشارك في 14 لغة لغة: الإنجليزية من وإلى جمهورية التشيك، الألمانية، الهوسا، الأيسلاندية واليابانية والروسية والصينية. لتطوير النظم التي تغطي كل هذه الاتجاهات، نركز على نماذج متعددة اللغات. نحن نستخدم البيانات من جميع المصادر المتاحة --- WMT، استخراج البيانات واسعة النطاق، وخلفه في المجال --- لإنشاء خطوط أساسية عالية الجودة ثنائية اللغة ومهدي اللغات. بعد ذلك، نقوم بالتحقيق في استراتيجيات لتحجيم حجم النموذج متعدد اللغات، بحيث يحتوي نظام واحد على قدر كاف لتمثيلات عالية الجودة لجميع اللغات الثمانية. تقدمنا ​​النهائي لدينا هو مجموعة من نماذج الترجمة متعددة اللغات كثيفة ومتفجار، تليها Finetuning على بيانات الأخبار داخل المجال وإعادة تأهب القناة الصاخبة. مقارنة بتقديم الطلبات في العام السابق، قام نظامنا متعدد اللغات بتحسين جودة الترجمة على جميع الاتجاهات اللغوية، مع تحسين متوسط ​​2.0 بلو. في مهمة WMT2021، يحتل نظامنا المرتبة الأولى في 10 اتجاهات بناء على التقييم التلقائي.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تصف الورقة طرز 3 NMT المقدمة من فريق ETRANSLEATION إلى مهمة مشتركة من WMT 2021 الأخبار.قمنا بتطوير أنظمة في أزواج اللغة المستخدمة بنشاط في خدمة إبعاد المفوضية الأوروبية.في مهمة أخبار WMT، شهدت السنوات الأخيرة زيادة مطردة في الحاجة إلى موارد حسابية لت دريب البنيات العميقة والمعقدة لإنتاج أنظمة تنافسية.أخذنا نهجا مختلفا واستعرضنا استراتيجيات بديلة تركز على اختيار البيانات وتصفية لتحسين أداء أنظمة الأساس.في المجال المهمة المقيدة للزوج باللغة الفرنسية - الألمانية نتج عنه نهجنا في أفضل نظام لهامش مهم في بلو.بالنسبة للأنظمة الأخرى (الإنجليزية - الألمانية والإنجليزية - التشيكية) حاولنا بناء نماذج تنافسية باستخدام أفضل الممارسات القياسية.
لقد أرسلنا نماذج يونيين الاتجاهين، واحدة للغة الإنجليزية ← اتجاه أيسلندي وغيرها من الأيسلاندية ← اتجاه اللغة الإنجليزية.يعتمد نظام الترجمة الأخبار لدينا على الهندسة المعمارية الكبيرة المحول، ويستفيد من تصفية Corpora والترجمة الخلفي والترجمة الأمامية المطبقة على البيانات المتوازية والأنتجة على حد سواء
تصف هذه الورقة أنظمة Tencent Translation ذات المهمة المشتركة WMT21. نشارك في مهمة ترجمة الأخبار على ثلاث أزواج لغة: الصينية-الإنجليزية والإنجليزية والصينية والألمانية والإنجليزية. يتم بناء أنظمتنا على نماذج محولات مختلفة مع تقنيات جديدة تتكيف من عملن ا البحثي الأخير. أولا، نجمع بين طرق تكبير البيانات المختلفة بما في ذلك الترجمة المرجودة والترجمة الأمامية والتدريب من اليمين إلى اليسار لتوسيع بيانات التدريب. نستخدم أيضا تحيز التغطية اللغوية وتجديد البيانات ونهج أخذ العينات المستندة إلى عدم اليقين لتحديد بيانات ذات صلة بالمحتوى وعالية الجودة من كوربورا متوازية ومونولجة كبيرة. نتوقع أن يتم ضبطه بشكل جيد في المجال، ونقترح أيضا نماذج واحدة المحبوثة نموذج واحد "" لنموذج خصائص نموذجية لأنواع الأخبار المختلفة عند مراحل الركود الدقيقة وفك التشفير. علاوة على ذلك، نستخدم خوارزمية الفرقة القائمة على الجشع وطريقة الفرقة المتناقلة لتعزيز أنظمتنا. بناء على نجاحنا في آخر WMT، فإننا أعملنا باستمرار تقنيات متقدمة مثل التدريب الدفاعي الكبير واختيار البيانات وتصفية البيانات. أخيرا، يحقق نظامنا الصيني والإنجليزي المقيد 33.4 درجة بلو حساسة للحالة، وهو الأعلى بين جميع التقديمات. يتم تصنيف نظام اللغة الإنجليزية الألمانية في المركز الثاني وفقا لذلك.
تصف هذه الورقة عملنا في الترجمة الآلية لعام 2021 باستخدام المهمة المشتركة للمصطلحات.نشارك في مهمة مصطلحات الترجمة المشتركة في اللغة الإنجليزية إلى زوج اللغة الصينية.لإرضاء قيود المصطلحات على الترجمة، نستخدم استراتيجية تكبير بيانات المصطلحات بناء على نموذج المحول.استخدمنا علامات لوضع علامة وإضافة ترجمة المصطلح إلى الجمل المتطابقة.أنشأنا مصطلحات صناعية باستخدام عبارات تم استخراجها من Corpus ثنائية اللغة لزيادة نسبة ترجمات المصطلح في بيانات التدريب.يتم استخدام المعالجة المفصلة المسبقة والتصفية على البيانات، يتم استخدام أسلوب Finetuning في المجال والكفر في نظامنا.تقدمنا يحصل على نتائج تنافسية في التقييم المستهدف للمصطلحات.
تصف هذه الورقة تقديم Papago إلى مهمة تقدير الجودة WMT 2021 1: التقييم المباشر على مستوى الجملة.يستكشف نظام تقدير الجودة متعدد اللغات لدينا مزيج من نماذج اللغة المحددة مسبقا وبنية التعلم متعددة المهام.نقترح خط أنابيب تدريب تكراري يعتمد على ما يحقظ بكم يات كبيرة من البيانات الاصطناعية داخل المجال وتصفية البيانات الذهبية (المسمى).ثم قمنا بضغط نظامنا عبر تقطير المعرفة من أجل تقليل المعلمات بعد الحفاظ على أداء قوي.تنفذ أنظمتنا متعددة اللغات متعددة اللغات بشكل تنافسي في تعدد اللغات وجميع إعدادات زوج اللغة الفردية 11 بما في ذلك صفر النار.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا