ترغب بنشر مسار تعليمي؟ اضغط هنا

دفع الأزرار المناسبة: تقييم الخصم لتقدير الجودة

Pushing the Right Buttons: Adversarial Evaluation of Quality Estimation

202   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

توفر أنظمة ترجمة الآلات الحالية (MT) نتائج جيدة للغاية على مجموعة متنوعة متنوعة من أزواج اللغات ومجموعات البيانات. ومع ذلك، من المعروف أن إنتاج مخرجات ترجمة بطلاقة يمكن أن تحتوي على أخطاء ذات معنى مهم، وبالتالي تقويض موثوقيتها في الممارسة العملية. تقدير الجودة (QE) هي مهمة تقييم أداء MT تلقائيا في وقت الاختبار. وبالتالي، من أجل أن تكون مفيدة، يجب أن تكون أنظمة QE قادرا على اكتشاف هذه الأخطاء. ومع ذلك، لم يتم بعد اختبار هذه القدرة في ممارسات التقييم الحالية، حيث يتم تقييم أنظمة QE فقط من حيث ارتباطها بالأحكام البشرية. في هذا العمل، نسرج هذه الفجوة من خلال اقتراح منهجية عامة لاختبار الخصم من QE ل MT. أولا، نظرا لأنه على الرغم من الارتباط العالي بالأحكام البشرية التي حققتها سوتا الأخيرة، لا تزال أنواع معينة من الأخطاء المعنية مشكلة في الكشف عن QE. ثانيا، نظهر أنه في المتوسط، فإن قدرة نموذج معين على التمييز بين الاضطرابات المعنية التي تحافظ مع المعنى وتغيير المعنى هي التنبؤ بأدائها العام، وبالتالي يحتمل أن يسمح بمقارنة أنظمة QE دون الاعتماد على تشريح الجودة اليدوية.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

نقترح نظام رواية لاستخدام محول Levenshtein لأداء مهمة تقدير جودة مستوى Word.محول Levenshtein هو مناسب طبيعي لهذه المهمة: تم تدريبه على إجراء فك التشفير بطريقة تكرارية، يمكن لمحول Levenshtein أن يتعلم النشر بعد تحرير دون إشراف صريح.لزيادة تقليل عدم ال تطابق بين مهمة الترجمة ومهمة QE على مستوى الكلمة، نقترح إجراء تعلم نقل من مرحلتين على كل من البيانات المعززة وبيانات ما بعد التحرير البشري.نقترح أيضا الاستدلال لبناء ملصقات مرجعية متوافقة مع Finetuning على مستوى الكلمات الفرعية والاستدلال.النتائج على مجموعة بيانات المهام المشتركة WMT 2020 تشاركت إلى أن طريقةنا المقترحة لها كفاءة بيانات فائقة تحت الإعداد المقيد للبيانات والأداء التنافسي تحت الإعداد غير المقيد.
يتم تدريب معظم نماذج تقدير الجودة الحالية (QE) للترجمة الآلية وتقييمها في بيئة إشراف بالكامل تتطلب كميات كبيرة من بيانات التدريب المسمى. ومع ذلك، يمكن أن تكون الحصول على البيانات المسمى باهظة الثمن وتستغرق وقتا طويلا. بالإضافة إلى ذلك، قد تتعرض بيانا ت الاختبار التي سيتم التعرض لها نموذج QE المنشور قد تختلف عن بيانات التدريب الخاصة بها بطرق مهمة. على وجه الخصوص، غالبا ما يتم تصنيف عينات التدريب من خلال مجموعة واحدة أو مجموعة صغيرة من المعلقين، والتي قد تختلف تصورات جودة الترجمة واحتياجاتها بشكل كبير من هؤلاء المستخدمين النهائيين، الذين سيعملون التنبؤات في الممارسة العملية. وبالتالي، من المرغوب فيه أن تكون قادرا على التكيف مع نماذج QE بكفاءة إلى بيانات المستخدم الجديدة مع بيانات الإشراف المحدودة. لمعالجة هذه التحديات، نقترح نهجا لتعليم التعلم بايزي لتكييف نماذج QE لاحتياجات وتفضيلات كل مستخدم مع إشراف محدود. لتعزيز الأداء، فإننا نقترح كذلك امتدادا إلى نهج التعلم التلوي بايز بين الفنادق التي تستخدم نواة مصفوفة ذات قيمة لتعلم التلوي بايزي لتقدير الجودة. توضح التجارب المعنية ببيانات عدد متفاوت من المستخدمين والخصائص اللغوية أن نهج التعلم التلوي المقترح يقدم أداء تنبؤي محسن في كل من إعدادات الإشراف المحدودة والكامل.
في تقدير الجودة (QE)، يمكن التنبؤ بجودة الترجمة بالرجوع إلى الجملة المصدر وإخراج الترجمة الآلية (MT) دون الوصول إلى الجملة المرجعية. ومع ذلك، هناك مفارقة في أن بناء مجموعة بيانات لإنشاء نموذج QE يتطلب عمالة إنسانية غير تافهة ووقت، وقد يتطلب جهدا إضاف يا مقارنة بتكلفة بناء كائن موازي. في هذه الدراسة، لمعالجة هذه المفارقة واستخدام تطبيقات QE المختلفة، حتى في لغات الموارد المنخفضة (LRLS)، نقترح طريقة لإنشاء مجموعة بيانات Pseudo-QE الخاصة دون استخدام العمل البشري. نقوم بإجراء تحليل مقارن على مجموعة بيانات الزائفة QE باستخدام نماذج لغة متعددة اللغات مسبقا. نظرا لأننا نولد مجموعة بيانات الزائفة، فإننا نقوم بإجراء تجارب باستخدام مختلف المترجمين الأجهزة الخارجية كمجموعات اختبار للتحقق من دقة النتائج بموضوعية. أيضا، تظهر النتائج التجريبية أن البارت المتعدد اللغات يوضح أفضل أداء، ونؤكد تطبيق QE في LRLS باستخدام طرق البناء Pseudo-QE DataSet.
تصف هذه الورقة تقديم Papago إلى مهمة تقدير الجودة WMT 2021 1: التقييم المباشر على مستوى الجملة.يستكشف نظام تقدير الجودة متعدد اللغات لدينا مزيج من نماذج اللغة المحددة مسبقا وبنية التعلم متعددة المهام.نقترح خط أنابيب تدريب تكراري يعتمد على ما يحقظ بكم يات كبيرة من البيانات الاصطناعية داخل المجال وتصفية البيانات الذهبية (المسمى).ثم قمنا بضغط نظامنا عبر تقطير المعرفة من أجل تقليل المعلمات بعد الحفاظ على أداء قوي.تنفذ أنظمتنا متعددة اللغات متعددة اللغات بشكل تنافسي في تعدد اللغات وجميع إعدادات زوج اللغة الفردية 11 بما في ذلك صفر النار.
في هذه المهمة المشتركة، نسعى إلى الفرق المشاركة للتحقيق في العوامل التي تؤثر على جودة أنظمة توليد النص المختلط من التعليمات البرمجية.نقوم بتوليد جمل هينجليشقة مختلطة من التعليمات البرمجية باستخدام نهجين متميزين وتوظفوا النواحي البشري لتقييم جودة الجي ل.نقترحان اثنين من الترقيع، والتنبؤ بتصويت الجودة وتنبؤ الخلاف المعلقين في مجموعة بيانات الهنزيكية الاصطناعية.ستقدم التسكير الفرعي المقترح إلى إحالة المنطق والاضطرابات للعوامل التي تؤثر على الجودة والإدراك البشري للنص المزيج من التعليمات البرمجية.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا