ترغب بنشر مسار تعليمي؟ اضغط هنا

تصف هذه الورقة نظام Noahnmt المقدم إلى المهمة المشتركة WMT 2021 الخاصة بترجمة آلية منخفضة للغاية للإشراف على الموارد.النظام هو نموذج محول قياسي مزود بتقنية نقلنا الحديثة.كما توظف التقنيات المستخدمة على نطاق واسع من المعروف أنها مفيدة للترجمة الآلية ا لعصبية، بما في ذلك الترجمة الترجمة الإلكترونية التكرارية، والصلفة المختارة، والوقت.يقدم التقديم النهائي أعلى بلو لثلاثة اتجاهات ترجمة.
توفر أنظمة ترجمة الآلات الحالية (MT) نتائج جيدة للغاية على مجموعة متنوعة متنوعة من أزواج اللغات ومجموعات البيانات. ومع ذلك، من المعروف أن إنتاج مخرجات ترجمة بطلاقة يمكن أن تحتوي على أخطاء ذات معنى مهم، وبالتالي تقويض موثوقيتها في الممارسة العملية. تق دير الجودة (QE) هي مهمة تقييم أداء MT تلقائيا في وقت الاختبار. وبالتالي، من أجل أن تكون مفيدة، يجب أن تكون أنظمة QE قادرا على اكتشاف هذه الأخطاء. ومع ذلك، لم يتم بعد اختبار هذه القدرة في ممارسات التقييم الحالية، حيث يتم تقييم أنظمة QE فقط من حيث ارتباطها بالأحكام البشرية. في هذا العمل، نسرج هذه الفجوة من خلال اقتراح منهجية عامة لاختبار الخصم من QE ل MT. أولا، نظرا لأنه على الرغم من الارتباط العالي بالأحكام البشرية التي حققتها سوتا الأخيرة، لا تزال أنواع معينة من الأخطاء المعنية مشكلة في الكشف عن QE. ثانيا، نظهر أنه في المتوسط، فإن قدرة نموذج معين على التمييز بين الاضطرابات المعنية التي تحافظ مع المعنى وتغيير المعنى هي التنبؤ بأدائها العام، وبالتالي يحتمل أن يسمح بمقارنة أنظمة QE دون الاعتماد على تشريح الجودة اليدوية.
نقدم مجموعة بيانات موازية فيتنامية عالية الجودة ومقدمة على نطاق واسع من أزواج الجملة بنسبة 3.02m، والتي تبلغ 2.9 مليون أزواج أكبر من كوربوس الترجمة الآلية الفيتنامية-الإنجليزية الفيتنامية - IWSLT15.نقوم بإجراء تجارب تقارن خطوط الأساس العصبية القوية و محركات الترجمة الآلية المعروفة على مجموعة بياناتنا وتجد أنه في كل من التقييمات التلقائية والإنسانية: يتم الحصول على أفضل أداء من خلال ضبط التسلسل الدقيق للتسلسل المدرب مسبقاوبعدلدينا أفضل معارفنا، هذه هي أول دراسة الترجمة الفيتنامية على نطاق واسع النطاق.نأمل أن تكون مجموعة بياناتنا المتاحة للجمهور ودراستها نقطة انطلاق للبحث والتطبيقات في المستقبل على الترجمة الفيتنامية والترجمة الآلية الإنجليزية.نطلق سراح DataSet لدينا في: https://github.com/vinairesearch/phomt
تصف هذه الورقة تقديم مختبر Tencent AI المهمة المشتركة WMT2021 على الترجمة الطبية الحيوية في ثمانية اتجاهات اللغة: الإنجليزية والألمانية والفرنسية والفرنسية والإنجليزية والإسبانية والإنجليزية الروسية.استغلنا بديكنات محولات مختلفة واستراتيجيات الترجمة المرجانية وتحسينها لتحسين جودة الترجمة.بشكل ملموس، نستكشف MBART (ليو وآخرون، 2020) لإظهار فعالية استراتيجية الاحتجاج.تحتل إرسال طلباتنا (Tencent AI Lab Machine Translation، TMT) باللغة الألمانية / الفرنسية / الإسبانية⇒إنجللوي على التوالي وفقا لنتائج التقييم الرسمي من حيث درجات بلو.
غالبا ما يتم الحصول على بيانات التدريب للترجمة الآلية (MT) من العديد من الشركات الكبيرة التي هي متعددة الأوجه في الطبيعة، على سبيل المثالتحتوي على محتويات من مجالات متعددة أو مستويات مختلفة من الجودة أو التعقيد.بطبيعة الحال، لا تحدث هذه الجوانب بتردد متساو ولا هي نفسها نفسها بنفس القدر لسيناريو الاختبار في متناول اليد.في هذا العمل، نقترح تحسين هذا التوازن بشكل مشترك مع معلمات نموذج MT لتخفيف مطوري النظام من تصميم الجدول اليدوي.يتم تدريب عصري متعدد المسلح على الاختيار ديناميكيا بين الجوانب بطريقة مفيدة لنظام MT.نقيمها على ثلاثة تطبيقات مختلفة متعددة الأوجه: موازنة البيانات النسبية والبيانات التدريبية الطبيعية، أو البيانات من مجالات متعددة أو أزواج متعددة اللغات.نجد أن تعلم الفرعيد يؤدي إلى أنظمة MT تنافسية عبر المهام، ويقدم تحليلنا رؤى في استراتيجياته المستفادة ومجموعات البيانات الأساسية.
يقدم هذا العمل مجموعة متنوعة بسيطة لتقييم جودة الترجمة الآلية بناء على مجموعة من الرواية ومقاييس ثابتة.نقيم الفرقة باستخدام ارتباط لعشرات MQM القائم على الخبراء ورشة عمل WMT 2021 المقاييس.في كل من إعدادات المونولينغوية والصفرية القصيرة، نعرض تحسنا كب يرا في الأداء على مقاييس واحدة.في الإعدادات المتبادلة، نوضح أيضا أن نهج الفرع ينطبق جيدا على اللغات غير المرئية.علاوة على ذلك، نحدد خط أساس قوي خال من المرجعية التي تتفوق باستمرار على تدابير بلو واستخدامها بشكل شائع وتحسين أداء فرقنا بشكل كبير.
تصف هذه الورقة تقديم LIT-NLP LAB إلى المهمة المشتركة للترجمة الثلاثي WMT-21 Triangular.لا يسمح للمشاركين باستخدام البيانات الأخرى واتجاه الترجمة لهذه المهمة هو الروسية إلى الصينية.في هذه المهمة، نستخدم المحول كنموذج الأساس لدينا، ودمج العديد من التقن يات لتعزيز أداء الأساس، بما في ذلك تصفية البيانات، واختيار البيانات، والضبط الناعم، والتحرير بعد التحرير.علاوة على ذلك، للاستفادة من موارد اللغة الإنجليزية، مثل البيانات الروسية / الإنجليزية والصينية / الإنجليزية الموازية، يتم إنشاء مثلث العلاقة من خلال أنظمة الترجمة الآلية العصبية متعددة اللغات.نتيجة لذلك، يحقق تقديمنا نقاطا بلو 21.9 في الروسية إلى الصينية.
في هذه الورقة، نظهر أن الأسئلة والأجوبة التي تم إنشاؤها تلقائيا يمكن استخدامها لتقييم جودة أنظمة الترجمة الآلية (MT).بناء على العمل الحديث على تقييم تلخيص نص مبيعات، نقترح مقياس جديد لتقييم MT على مستوى النظام، ومقارنته بالحلول الأخرى الأخرى، وإظهار متانة لها من خلال إجراء تجارب لمختلف اتجاهات MT.
تهدف الترجمة الآلية المتنوعة إلى توليد ترجمات لغة مستهدفة مختلفة عن عقوبة لغة مصدر معينة. للاستفادة من العلاقة الخطية في مجال الجملة الكامنة التي أدخلت من خلال التدريب المزيج، نقترح طريقة رواية، خلطتيبات، لتوليد ترجمات مختلفة عن جملة الإدخال من خلال الاسترجاء الخطي مع أزواج من الجملة المختلفة من كوربوس التدريب أثناء فك التشفير. لزيادة تحسين الإخلاص وتنوع الترجمات، نقترح مقاربتين بسيطة ولكنها فعالة لتحديد أزواج جملة متنوعة في كوربوس التدريب وضبط وزن الاستيفاء لكل زوج في المقابل. علاوة على ذلك، من خلال التحكم في وزن الاستيفاء، يمكن لطريقتنا تحقيق المفاضلة بين الإخلاص والتنوع دون أي تدريب إضافي، وهو مطلوب في معظم الأساليب السابقة. تتم تجارب WMT'16 EN-RO، WMT'14 EN-DE، و WMT'17 Zh-en لإظهار أن طريقتنا تتفوق بشكل كبير على جميع أساليب الترجمة الآلية المتنوعة السابقة.
يصف هذا التقرير أن أنظمة ترجمة آلات Microsoft للمهمة المشتركة WMT21 على الترجمة ذات الجهاز متعدد اللغات على نطاق واسع.شاركنا في مسارات التقييم الثلاثة بما في ذلك المسار الكبير والمسارين الصغيرين حيث لا يتم حدوث المرء السابق وأن الأخيران مقيدان تماما. تم تهيئة الطلبات النموذجية الخاصة بنا إلى المهمة المشتركة مع Deltalm، وهو نموذج فك ترميز ترميز متعدد اللغز متعدد اللغات مسبقا، ويتم ضبطه بشكل جيد في المقابل مع البيانات الموازية المستديرة ومصادر البيانات المسموح بها وفقا لإعدادات المسار، جنبا إلى جنب مع تطبيق التعلم التدريجي والتكرارمناهج الترجمة الخلفية لمزيد من تحسين الأداء.تم تصنيف التقديمات النهائية لدينا في المرتبة الأولى على ثلاثة مسارات من حيث مقياس التقييم التلقائي.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا