تهدف تقدير الجودة (QE) من الترجمة الآلية (MT) إلى تقييم جودة الجمل التي ترجمتها الجهاز دون مراجع وهي مهمة في التطبيقات العملية ل MT.تتطلب Training Models QE بيانات موازية ضخمة بأشرفة توضيحية ذات جودة يدوية، وهي تستغرق وقتا طويلا ومكثفة العمالة للحصول عليها.لمعالجة مسألة عدم وجود بيانات تدريب مشروح، تحاول الدراسات السابقة تطوير أساليب QE غير المدعومة.ومع ذلك، يمكن تطبيق عدد قليل جدا منهم على مهام QE على مستوى الجملة والطريق، وقد تعاني من الضوضاء في البيانات الاصطناعية.لتقليل الآثار السلبية للضوضاء، نقترح طريقة للإشراف ذاتي لكل من QE من كل من QE على مستوى الكلمة والطريق، والتي تنفذ تقدير الجودة من خلال استعادة الكلمات المستهدفة الملثمين.تظهر النتائج التجريبية أن أسلوبنا تتفوق على الطرق السابقة غير الخاضعة للرقابة في العديد من مهام QE في أزواج ومجال بلغات مختلفة.
Quality estimation (QE) of machine translation (MT) aims to evaluate the quality of machine-translated sentences without references and is important in practical applications of MT. Training QE models require massive parallel data with hand-crafted quality annotations, which are time-consuming and labor-intensive to obtain. To address the issue of the absence of annotated training data, previous studies attempt to develop unsupervised QE methods. However, very few of them can be applied to both sentence- and word-level QE tasks, and they may suffer from noises in the synthetic data. To reduce the negative impact of noises, we propose a self-supervised method for both sentence- and word-level QE, which performs quality estimation by recovering the masked target words. Experimental results show that our method outperforms previous unsupervised methods on several QE tasks in different language pairs and domains.
المراجع المستخدمة
https://aclanthology.org/
يلعب تقدير الجودة (QE) دورا أساسيا في تطبيقات الترجمة الآلية (MT).تقليديا، يقبل نظام QE النصي المصدر الأصلي والترجمة من نظام MT مربع أسود كإدخال.في الآونة الأخيرة، تشير بعض الدراسات إلى أنه كمنتج ثانوي للترجمة، يستفيد QE من نموذج معلومات بيانات النمو
نماذج الموضوعات هي أدوات مفيدة لتحليل وتفسير المواضيع الأساسية الرئيسية للنص الكبير.تعتمد معظم نماذج الموضوعات على حدوث كلمة Word لحساب موضوع، أي مجموعة مرجحة من الكلمات التي تمثل معا مفهوم دلالي رفيع المستوى.في هذه الورقة، نقترح نموذجا جديدا جديدا م
لا ينبغي أن يؤدي نظام الحوار الذكي في إعداد متعدد المنعطف إلى إنشاء الاستجابات فقط من نوعية جيدة، ولكن يجب أن تولد أيضا الردود التي يمكن أن تؤدي إلى نجاح طويل الأجل للحوار. على الرغم من أن الأساليب الحالية تحسنت جودة الاستجابة، إلا أنها تنظر إلى الإش
حققت الترجمة الآلية العصبية غير الخاضعة للرقابة (UNMT) التي تعتمد فقط على Glassive Monolingual Corpora نتائج ملحوظة في العديد من مهام الترجمة.ومع ذلك، في سيناريوهات العالم الواقعي، لا توجد سورانيا أحادية الأبعاد الضخمة لبعض لغات الموارد المنخفضة للغا
تقدم هذه الورقة ترميز تصحيح ذاتي (SECOCO)، وهو إطار يتعامل بشكل فعال مع المدخلات الصاخبة للترجمة الآلية العصبية القوية عن طريق إدخال تنبؤ تصحيح ذاتي.تختلف عن الأساليب القوية السابقة، تمكن SECOCO NMT من تصحيح المدخلات الصاخبة بشكل صريح وحذف أخطاء محدد