ترغب بنشر مسار تعليمي؟ اضغط هنا

Nitt Kyoto إرسال المهمة تقدير الجودة WMT'21: محاكاة متعددة اللغات متعددة اللغات للكشف عن الخطأ الحرج

NICT Kyoto Submission for the WMT'21 Quality Estimation Task: Multimetric Multilingual Pretraining for Critical Error Detection

172   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تقدم هذه الورقة تقديم Nitt Kyoto لتقدير جودة WMT'21 (QE) مهمة الكشف عن المهمة المشتركة (المهمة 3).تعتمد نهجنا بشكل رئيسي على نموذج مكتبة الجودة التي استخدمنا 11 زوجا لغة، وثلاثة منهم على مستوى الجملة وثلاث مقاييس جودة الترجمة على مستوى الكلمات.بدءا من نقطة تفتيش XLM-R، نقوم بتنفيذ التدريب المستمر عن طريق تعديل هدف التعلم، والتبديل من النمذجة اللغوية الملثمين إلى الإشارات الموجهة QE، قبل Finetuning وتمييز النماذج.تظهر النتائج التي تم الحصول عليها في الاختبار من حيث معامل الارتباط و F-Score أن المقاييس التلقائية والبيانات الاصطناعية تؤدي بشكل جيد إلى الاحتجاج، مع تقدم التقديمات لدينا أولا لشخصين من أصل أربعة أزواج لغوية.تشير نظرة أعييقة إلى تأثير كل متري على المهمة المصب إلى أداء أعلى للمقاييس الموجهة للرمز، في حين تؤكد دراسة الاجتثاث عن فائدة إجراء كل من الاحتمالات ذات الإشراف على الذات وكيس.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تقدم هذه الورقة التقديمات الكلية الإمبراطورية لندن إلى المهمة المشتركة لتقدير الجودة WMT21 (QE) 3: اكتشاف الخطأ الحرج.ينشئ نهجنا على تمثيلات متدرب مسبقا عبر اللغات في نموذج تصنيف التسلسل.ونحن كذلك تحسين المصنف الأساسي من خلال (ط) إضافة عينات مرجحة لل تعامل مع البيانات غير المتوازنة و (2) إدخال هندسة ميزة، حيث يتم استخراج الميزات المتعلقة بالسمية، المسماة الكيانات والمعنويات، والتي من المحتمل أن تكون مؤشرا على الأخطاء الحرجة، باستخدامالأدوات الموجودة ومتكاملة للنموذج بطرق مختلفة.نحن ندرب النماذج مع نوع واحد من الميزات في وقت واحد وفرق تلك النماذج التي تتحسن عبر المصنف الأساسي على مجموعة تطوير (dev).إن عروضنا الرسمية تحقق نتائج تنافسية للغاية، ترتيب المرتبة الثانية لثلاثة من أزواج أربعة لغات.
يهدف تصحيح الخطأ النحوي (GEC) إلى تصحيح أخطاء الكتابة ومساعدة المتعلمين في اللغة على تحسين مهاراتهم في الكتابة. ومع ذلك، تميل نماذج GEC الحالية إلى إنتاج تصحيحات زائفة أو تفشل في اكتشاف الكثير من الأخطاء. يعد نموذج تقدير الجودة ضروريا لضمان أن يحصل ا لمتعلمون على نتائج GEC دقيقة وتجنب مضللة من الجمل المصححة بشكل سيء. يمكن أن تولد نماذج GEC المدربة جيدا العديد من الفرضيات عالية الجودة من خلال فك التشفير، مثل البحث الشعاع، والتي توفر أدلة GEC القيمة ويمكن استخدامها لتقييم جودة GEC. ومع ذلك، تهمش النماذج الحالية أدلة GEC المحتملة من فرضيات مختلفة. تقدم هذه الورقة شبكة التحقق العصبية (Vernet) لتقدير جودة GEC مع فرضيات متعددة. تحدد Vernet تفاعلات بين الفرضيات مع رسم بياني للمنطق وإجراء نوعين من آليات الاهتمام لنشر أدلة GEC للتحقق من جودة الفرضيات التي تم إنشاؤها. تظهر تجاربنا على أربع مجموعات بيانات GEC أن Vernet يحصل على أداء اكتشاف الأخطاء النحوية الحديثة، وتحقق أفضل نتائج تقدير الجودة، وتحسين أداء GEC بشكل كبير من خلال فرضيات إعادة النشر. تتوفر جميع رموز البيانات والمصادر في https://github.com/thunlp/vernet.
نقدم المساهمة المشتركة في IST و Grongel بمهمة WMT 2021 المشتركة بشأن تقدير الجودة.شارك فريقنا في مهمتين: التقييم المباشر وجهد التحرير بعد، يشمل ما مجموعه 35 تقريرا.بالنسبة لجميع التقديمات، ركزت جهودنا على تدريب النماذج متعددة اللغات على رأس الهندسة ا لمعمارية المتنبئة ل OpenKiwi، باستخدام ترميزات متعددة اللغات المدربة مسبقا جنبا إلى جنب مع المحولات.نؤدي إلى مزيد من التجربة والأهداف والميزات المرتبطة بعدم اليقين بالإضافة إلى التدريب على بيانات التقييم المباشر خارج المجال.
تصف هذه الورقة تقديم Papago إلى مهمة تقدير الجودة WMT 2021 1: التقييم المباشر على مستوى الجملة.يستكشف نظام تقدير الجودة متعدد اللغات لدينا مزيج من نماذج اللغة المحددة مسبقا وبنية التعلم متعددة المهام.نقترح خط أنابيب تدريب تكراري يعتمد على ما يحقظ بكم يات كبيرة من البيانات الاصطناعية داخل المجال وتصفية البيانات الذهبية (المسمى).ثم قمنا بضغط نظامنا عبر تقطير المعرفة من أجل تقليل المعلمات بعد الحفاظ على أداء قوي.تنفذ أنظمتنا متعددة اللغات متعددة اللغات بشكل تنافسي في تعدد اللغات وجميع إعدادات زوج اللغة الفردية 11 بما في ذلك صفر النار.
نبلغ عن نتائج المهمة المشتركة WMT 2021 بشأن تقدير الجودة، حيث يتحدى التحدي هو التنبؤ بجودة إخراج أنظمة الترجمة الآلية العصبية على مستوى الكلمة ومستويات الجملة.ركزت هذه الطبعة على إضافات رواية رئيسيتين: (1) التنبؤ باللغات غير المرئية، أي إعدادات صفرية ، و (2) التنبؤ بالأحكام ذات الأخطاء الكارثية.بالإضافة إلى ذلك، تم إصدار بيانات جديدة لعدة من اللغات، وخاصة البيانات التي تم تحريرها بعد التحرير.قدمت الفرق المشاركة من 19 مؤسسة تماما 1263 أنظمة لمتغيرات المهام المختلفة وأزواج اللغة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا