التقييم الخالي من المرجع لديه القدرة على جعل تقييم الترجمة الآلية أكثر قابلية للتطوير بشكل كبير، مما يتيح لنا المحور بسهولة لغات أو مجالات جديدة.لقد أظهر مؤخرا أن الاحتمالات التي قدمتها نموذج كبير متعدد اللغات يمكن أن تحقق حالة من النتائج الفنية عند استخدامها كتقسيط مجاني مرجعي.نقوم بتجربة تعديلات مختلفة لهذا النموذج، وإظهار ذلك من خلال تحجيمه، يمكننا مطابقة أداء بلو.نقوم بتحليل نقاط الضعف المحتملة المختلفة للنهج، وتجد أنه قوي بشكل مدهش ومن المرجح أن تقدم أداء معقول عبر مجموعة واسعة من المجالات وصفات النظام المختلفة.
Reference-free evaluation has the potential to make machine translation evaluation substantially more scalable, allowing us to pivot easily to new languages or domains. It has been recently shown that the probabilities given by a large, multilingual model can achieve state of the art results when used as a reference-free metric. We experiment with various modifications to this model, and demonstrate that by scaling it up we can match the performance of BLEU. We analyze various potential weaknesses of the approach, and find that it is surprisingly robust and likely to offer reasonable performance across a broad spectrum of domains and different system qualities.
المراجع المستخدمة
https://aclanthology.org/
تعتمد العديد من مقاييس تقييم الترجمة الآلية الحديثة مثل Bertscore، Bleurt، Comet، Monotransquest أو xmovercore على نماذج لغة Black-Box.وبالتالي، من الصعب شرح سبب إرجاع هذه المقاييس درجات معينة.تعالج المهمة المشتركة Eval4NLP لهذا العام هذا التحدي من خ
اكتسبت الترجمة الآلية المتزامنة الجر مؤخرا، بفضل تحسينات الجودة المهمة ومختام تطبيقات البث.تحتاج أنظمة الترجمة المتزامنة إلى إيجاد مفاضلة بين جودة الترجمة ووقت الاستجابة، وبالتالي تم اقتراح تدابير الكمون المتعددة.ومع ذلك، يتم تقدير تقييمات الكمون للت
تستخدم المقاييس التلقائية عادة كأداة حصرية للإعلان عن تفوق نوعية نظام ترجمة جهاز واحد على آخر. الاختيار المجتمعي من توجيهات البحث التلقائي للأدلة والتطورات الصناعية عن طريق تحديد النماذج التي تعتبر أفضل. كان تقييم ارتباطات المقاييس مع مجموعات من الأح
يمكن تحسين جودة الترجمة من خلال المعلومات العالمية من الجملة المستهدفة المطلوبة لأن وحدة فك الترميز يمكن أن تفهم كل من المعلومات السابقة والمستقبلية.ومع ذلك، يحتاج النموذج إلى تكلفة إضافية لإنتاج والنظر في هذه المعلومات العالمية.في هذا العمل، لحقن مع
تم الاعتماد بشكل تقليدي في الصورة على التقييمات التلقائية القائمة على المرجع، حيث يتم مقارنة تعليق الآلات مع التسميات التوضيحية التي كتبها البشر. هذا على النقيض من الطريقة الخالية من المرجعية التي يقوم بها البشر بجودة التسمية التوضيحية. في هذه الورقة