ترغب بنشر مسار تعليمي؟ اضغط هنا

إرسال Robleurt لمهمة مقاييس WMT2021

RoBLEURT Submission for WMT2021 Metrics Task

480   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

في هذه الورقة، نقدم طلبنا إلى مهمة المقاييس المشتركة: Robleurt (تحسين تدريب Bleurt).بعد التحقيق في التطورات الأخيرة المتمثلة في المقاييس التدريبية التدريبية، نستنتج عدة جوانب ذات أهمية حيوية للحصول على نموذج متري أداء جيدا من قبل: 1) الاستفادة المشتركة مزايا النموذج المشترك بين المصدر والنموذج المرجعي فقط، 2) ما قبل التدريب المستمرنموذج مع أزواج البيانات الاصطناعية الضخمة، و 3) ضبط النموذج مع استراتيجية تنظيف البيانات.تظهر النتائج التجريبية أن نموذجنا يصل إلى ارتباطات حديثة مع التعليقات البشرية البشرية WMT2020 عند 8 من أزواج لغة 10 إلى الإنجليزية.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تصف الورقة توضيحات TENTRANS إلى المهمة المشتركة ل WMT 2021 المشتركة.نستكشف تدريب مجموعة متنوعة من نماذج محولات الصغار الأصغر باستخدام إعداد المعلمين - طالب.يتم تدريب نموذجنا من خلال منصة تدريب متعددة اللغات المتطورة ذاتية اللغات ذاتية اللغويةونحن نطل ق أيضا مجموعة أدوات الاستدلال عالية الأداء مفتوح المصدر لنماذج المحولات والمكتب في C ++ بالكامل.يتم بناء جميع التحسينات الإضافية على رأس محرك الاستدلال بما في ذلك التخزين المؤقت للانتباه، نواة الانصهار، والتوقف المبكر، والعديد من التحسينات الأخرى.في عمليات التقديمات الخاصة بنا، يمكن أن يترجم الأسرع النظام الأسرع أكثر من 22000 رموز في الثانية مع TESLA P4 واحدة مع الحفاظ على 38.36 بلو على EN-DE NEWSTEST2019.تتوفر نماذجنا المدربة ومزيد من التفاصيل في أمثلة المنافسة التي تخدمها Tentrans.
تصف هذه الورقة تقديم Papago إلى مهمة تقدير الجودة WMT 2021 1: التقييم المباشر على مستوى الجملة.يستكشف نظام تقدير الجودة متعدد اللغات لدينا مزيج من نماذج اللغة المحددة مسبقا وبنية التعلم متعددة المهام.نقترح خط أنابيب تدريب تكراري يعتمد على ما يحقظ بكم يات كبيرة من البيانات الاصطناعية داخل المجال وتصفية البيانات الذهبية (المسمى).ثم قمنا بضغط نظامنا عبر تقطير المعرفة من أجل تقليل المعلمات بعد الحفاظ على أداء قوي.تنفذ أنظمتنا متعددة اللغات متعددة اللغات بشكل تنافسي في تعدد اللغات وجميع إعدادات زوج اللغة الفردية 11 بما في ذلك صفر النار.
في هذه الورقة، نصف إنشادنا إلى المهمة المشتركة بمقاييس WMT 2021.نستخدم الأسئلة والأجوبة التي تم إنشاؤها تلقائيا لتقييم جودة أنظمة الترجمة الآلية (MT).إن تقديمنا يبني على إطار MTEQA المقترح مؤخرا.تظهر التجارب على مجموعات بيانات تقييم WMT20 أنه على مست وى النظام، يحقق Mteqa Metric أداء قابلا للمقارنة مع حلول حديثة أخرى، مع مراعاة كمية معينة فقط من الترجمة بأكملها.
تصف هذه الورقة تقديم ISTIC إلى مهمة الترجمة الآلية الثلاثية من الترجمة الآلية الروسية إلى الصينية ل WMT '2021. من أجل الاستفادة الكاملة من الشركة المقدمة وتعزيز أداء الترجمة من الروسية إلى الصينية، يتم استخدام طريقة المحور في موقعناالنظام الذي خط أنا بيب الترجمة الروسية إلى الإنجليزية والمترجم الإنجليزي إلى الصيني لتشكيل مترجم روسي إلى صيني.يعتمد نظامنا على بنية المحولات ويتم اعتماد العديد من الاستراتيجيات الفعالة لتحسين جودة الترجمة، بما في ذلك تصفية Corpus ومعالجة البيانات ومجمع النظام وفرقة النموذج.
يعد تقييم جيل اللغة الطبيعي (NLG) مهمة متعددة الأوجه تتطلب تقييم معايير متعددة المرغوبة، على سبيل المثال، الطلاقة، والاستماس، والتغطية، والأهمية، والكفاية، والجودة الكلية، وما إلى ذلك عبر مجموعات البيانات الحالية لمدة 6 مهام NLG، نلاحظ أن درجات التقي يم البشري في هذه المعايير المتعددة غالبا ما لا يرتبط. على سبيل المثال، هناك ارتباط منخفض للغاية بين الدرجات البشرية على تغطية الطلاقة والبيانات لمهمة البيانات المنظمة إلى جيل النص. يشير هذا إلى أن الوصفة الحالية لاقتراح مقاييس تقييم تلقائية جديدة ل NLG من خلال إظهار أنها ترتبط بشكل جيد مع الدرجات التي حددها البشر لمعايير واحدة (الجودة الشاملة) وحدها غير كافية. في الواقع، فإن دراستنا الواسعة التي تنطوي على 25 مقيط تقييم تلقائي عبر 6 مهام مختلفة و 18 معايير تقييم مختلفة تظهر أنه لا يوجد متري واحد يرتبط جيدا بدرجات بشرية على جميع المعايير المرغوبة، لمعظم مهام NLG. بالنظر إلى هذا الوضع، نقترح قوائم المراجعة لتحسين تصميم وتقييم المقاييس التلقائية. نقوم بتصميم قوالب تستهدف معايير محددة (مثل التغطية) وإشراض الإنتاج بحيث تتأثر الجودة فقط على طول هذه المعايير المحددة (على سبيل المثال، قطرات التغطية). نظهر أن مقاييس التقييم الحالية ليست قوية ضد هذه الاضطرابات البسيطة ويعارضها في الدرجات المعينة من قبل البشر إلى الإخراج المضطرب. وبالتالي فإن القوالب المقترحة تسمح بتقييم جيد المحبوس لمقاييس التقييم التلقائي تعريض قيودها وسيسهل تصميم وتحليل وتقييم أفضل لهذه المقاييس. تتوفر قوالب ورمز لدينا في https://iitmnlp.github.io/evaleval/

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا