نبلغ عن نتائج المهمة المشتركة WMT 2021 بشأن تقدير الجودة، حيث يتحدى التحدي هو التنبؤ بجودة إخراج أنظمة الترجمة الآلية العصبية على مستوى الكلمة ومستويات الجملة.ركزت هذه الطبعة على إضافات رواية رئيسيتين: (1) التنبؤ باللغات غير المرئية، أي إعدادات صفرية
، و (2) التنبؤ بالأحكام ذات الأخطاء الكارثية.بالإضافة إلى ذلك، تم إصدار بيانات جديدة لعدة من اللغات، وخاصة البيانات التي تم تحريرها بعد التحرير.قدمت الفرق المشاركة من 19 مؤسسة تماما 1263 أنظمة لمتغيرات المهام المختلفة وأزواج اللغة.
في هذه الورقة، نقدم المهمة المشتركة ESPR4NLP-2021 على تقدير الجودة القادم.بالنظر إلى زوج ترجمة من المصدر، فإن هذه المهمة المشتركة لا تتطلب فقط توفير درجة على مستوى الجملة تشير إلى الجودة الشاملة للترجمة، ولكن أيضا لشرح هذه النقاط عن طريق تحديد الكلما
ت التي تؤثر سلبا على جودة الترجمة.نقدم البيانات وإرشادات التوضيحية وإعداد تقييم المهمة المشتركة، وصف النظم الستة المشاركة وتحليل النتائج.إلى حد ما من معرفتنا، هذه هي المهمة المشتركة الأولى على مقاييس تقييم NLP القابلة للتفسير.تتوفر مجموعات البيانات والنتائج في https://github.com/eval4nlp/sharedtask2021.
توفر أنظمة ترجمة الآلات الحالية (MT) نتائج جيدة للغاية على مجموعة متنوعة متنوعة من أزواج اللغات ومجموعات البيانات. ومع ذلك، من المعروف أن إنتاج مخرجات ترجمة بطلاقة يمكن أن تحتوي على أخطاء ذات معنى مهم، وبالتالي تقويض موثوقيتها في الممارسة العملية. تق
دير الجودة (QE) هي مهمة تقييم أداء MT تلقائيا في وقت الاختبار. وبالتالي، من أجل أن تكون مفيدة، يجب أن تكون أنظمة QE قادرا على اكتشاف هذه الأخطاء. ومع ذلك، لم يتم بعد اختبار هذه القدرة في ممارسات التقييم الحالية، حيث يتم تقييم أنظمة QE فقط من حيث ارتباطها بالأحكام البشرية. في هذا العمل، نسرج هذه الفجوة من خلال اقتراح منهجية عامة لاختبار الخصم من QE ل MT. أولا، نظرا لأنه على الرغم من الارتباط العالي بالأحكام البشرية التي حققتها سوتا الأخيرة، لا تزال أنواع معينة من الأخطاء المعنية مشكلة في الكشف عن QE. ثانيا، نظهر أنه في المتوسط، فإن قدرة نموذج معين على التمييز بين الاضطرابات المعنية التي تحافظ مع المعنى وتغيير المعنى هي التنبؤ بأدائها العام، وبالتالي يحتمل أن يسمح بمقارنة أنظمة QE دون الاعتماد على تشريح الجودة اليدوية.
نحصل على نتائج جديدة باستخدام آلات الترجمة المرجعية (RTMS) مع توقعات مختلطة للحصول على مزيج أفضل من التنبؤ بالخبراء.نتائج المتعلم لدينا سوبر تحسين النتائج وتوفير نموذج مزيج قوي.
يلعب تقدير الجودة (QE) دورا أساسيا في تطبيقات الترجمة الآلية (MT).تقليديا، يقبل نظام QE النصي المصدر الأصلي والترجمة من نظام MT مربع أسود كإدخال.في الآونة الأخيرة، تشير بعض الدراسات إلى أنه كمنتج ثانوي للترجمة، يستفيد QE من نموذج معلومات بيانات النمو
ذج والتدريب من نظام MT حيث تأتي الترجمات، وتسمى QE الزجاجي ".في هذه الورقة، نقوم بتوسيع تعريف صندوق الزجاج QE "بشكل عام إلى كمية عدم اليقين مع حدود عدم اليقين مع كل من الأساليب السوداء والزجاج" مناهضات "وتصميم العديد من الميزات التي استنتجتها منهم لتخفيف تجربة جديدة في تحسين أداء QE.نقترح إطارا لفوست هندسة الميزة لتقدير عدم اليقين في نموذج لغة متمربا مسبقا مسبقا للتنبؤ بجودة الترجمة.تظهر نتائج التجربة أن طريقتنا تحقق أدائها الحديثة في مجموعات البيانات ذات المهمة المشتركة مع WMT 2020 QE.
يقدم هذا العمل مجموعة متنوعة بسيطة لتقييم جودة الترجمة الآلية بناء على مجموعة من الرواية ومقاييس ثابتة.نقيم الفرقة باستخدام ارتباط لعشرات MQM القائم على الخبراء ورشة عمل WMT 2021 المقاييس.في كل من إعدادات المونولينغوية والصفرية القصيرة، نعرض تحسنا كب
يرا في الأداء على مقاييس واحدة.في الإعدادات المتبادلة، نوضح أيضا أن نهج الفرع ينطبق جيدا على اللغات غير المرئية.علاوة على ذلك، نحدد خط أساس قوي خال من المرجعية التي تتفوق باستمرار على تدابير بلو واستخدامها بشكل شائع وتحسين أداء فرقنا بشكل كبير.
غالبا ما يتطلب تحسين تجربة المستخدم لنظام الحوار جهدا مكثفا مطورا مكثفا لقراءة سجلات المحادثة، وتشغيل التحليلات الإحصائية، والأهمية النسبية لأوجه القصور النسبية.تقدم هذه الورقة نهجا جديدا للتحليل الآلي لسجلات المحادثة التي تتعلم العلاقة بين تفاعلات ن
ظام المستخدم وجودة الحوار الشاملة.على عكس العمل السابق على التنبؤ بجودة الكلام على مستوى الكلام، يتعلم نهجنا تأثير كل تفاعل من تصنيف المستخدمين العام دون إشراف على مستوى الكلام، مما يسمح باستنتاجات النماذج الناتجة عن الاستمتاع على أساس الأدلة التجريبية وتكلفة منخفضة.يحدد نموذجنا التفاعلات التي لها علاقة قوية بجودة الحوار الشاملة في إعداد chatbot.تشير التجارب إلى أن التحليل الآلي من طرازنا يوافق على أحكام الخبراء، مما يجعل هذا العمل الأول من يوضح أن هذا التعلم الإشرافه ضعيف في التنبؤ بجودة الكلام هو قابلة للتحقيق بشدة.
تهدف تقدير الجودة (QE) من الترجمة الآلية (MT) إلى تقييم جودة الجمل التي ترجمتها الجهاز دون مراجع وهي مهمة في التطبيقات العملية ل MT.تتطلب Training Models QE بيانات موازية ضخمة بأشرفة توضيحية ذات جودة يدوية، وهي تستغرق وقتا طويلا ومكثفة العمالة للحصول
عليها.لمعالجة مسألة عدم وجود بيانات تدريب مشروح، تحاول الدراسات السابقة تطوير أساليب QE غير المدعومة.ومع ذلك، يمكن تطبيق عدد قليل جدا منهم على مهام QE على مستوى الجملة والطريق، وقد تعاني من الضوضاء في البيانات الاصطناعية.لتقليل الآثار السلبية للضوضاء، نقترح طريقة للإشراف ذاتي لكل من QE من كل من QE على مستوى الكلمة والطريق، والتي تنفذ تقدير الجودة من خلال استعادة الكلمات المستهدفة الملثمين.تظهر النتائج التجريبية أن أسلوبنا تتفوق على الطرق السابقة غير الخاضعة للرقابة في العديد من مهام QE في أزواج ومجال بلغات مختلفة.
أحدث دراسات لاستخراج العلاقات (إعادة) الاستفادة من شجرة التبعية من جملة الإدخال لإدماج المعلومات السياقية التي يحركها بناء الجملة لتحسين الأداء النموذجي، مع القليل من الاهتمام المدفوع للقيود حيث محلل التبعية عالية الجودة في معظم الحالات غير متوفرة، خ
اصة في سيناريوهات البناء. لمعالجة هذا القيد، في هذه الورقة، نقترح شبكات اتصال بياني اختصاصية (A-GCN) لتحسين الأساليب العصبية بطريقة غير مرئية لبناء الرسم البياني للسياق، دون الاعتماد على وجود محلل التبعية. على وجه التحديد، نقوم بإنشاء الرسم البياني من N-Grams المستخرجة من معجم مبني من المعلومات المتبادلة غير التاريخية (PMI) وتطبيق الانتباه عبر الرسم البياني. لذلك، يتم مرجح أزواج كلمة مختلفة من السياقات داخل وعبر N-Grams في النموذج وتسهيل إعادة استخدامها وفقا لذلك. النتائج التجريبية مع المزيد من التحليلات على مجموعات بيانات قياسية باللغة الإنجليزية لإظهار فعالية نهجنا، حيث يلاحظ أداء حديثة على كلا البيانات.
نقترح نظام رواية لاستخدام محول Levenshtein لأداء مهمة تقدير جودة مستوى Word.محول Levenshtein هو مناسب طبيعي لهذه المهمة: تم تدريبه على إجراء فك التشفير بطريقة تكرارية، يمكن لمحول Levenshtein أن يتعلم النشر بعد تحرير دون إشراف صريح.لزيادة تقليل عدم ال
تطابق بين مهمة الترجمة ومهمة QE على مستوى الكلمة، نقترح إجراء تعلم نقل من مرحلتين على كل من البيانات المعززة وبيانات ما بعد التحرير البشري.نقترح أيضا الاستدلال لبناء ملصقات مرجعية متوافقة مع Finetuning على مستوى الكلمات الفرعية والاستدلال.النتائج على مجموعة بيانات المهام المشتركة WMT 2020 تشاركت إلى أن طريقةنا المقترحة لها كفاءة بيانات فائقة تحت الإعداد المقيد للبيانات والأداء التنافسي تحت الإعداد غير المقيد.