توفر هذه الورقة نظرة عامة سريعة على الطرق الممكنة كيفية اكتشاف هذه الترجمات المرجعية بالفعل من خلال تحرير نظام MT بعد التحرير.يتم تقديم طريقتين استنادتين إلى المقاييس التلقائية: اختلاف بلو بين MT المشتبه به وبعض اختلاف MT جيد و Blue باستخدام مراجع إضافية.كشفت هاتين الطريقتين الشكوك بأن المرجع التشيكي WMT 2020 يعتمد على MT.تم تأكيد الشك في تحليل يدوي من خلال إيجاد دليل ملموس لإجراءات ما بعد التحرير في جمل معينة.أخيرا، يتم تقديم نموذجية من تغييرات ما بعد التحرير حيث يتم تصنيف الأخطاء أو التغييرات النموذجية التي يتم إجراؤها بواسطة محرر ما بعد المحرر أو الأخطاء المعتمدة من MT.
This paper provides a quick overview of possible methods how to detect that reference translations were actually created by post-editing an MT system. Two methods based on automatic metrics are presented: BLEU difference between the suspected MT and some other good MT and BLEU difference using additional references. These two methods revealed a suspicion that the WMT 2020 Czech reference is based on MT. The suspicion was confirmed in a manual analysis by finding concrete proofs of the post-editing procedure in particular sentences. Finally, a typology of post-editing changes is presented where typical errors or changes made by the post-editor or errors adopted from the MT are classified.
المراجع المستخدمة
https://aclanthology.org/
هذه الاستعراضات الورقة وتلخص ممارسات التقييم البشري الموضحة في 97 ورقة نقل النمط فيما يتعلق بثلاثة جوانب التقييم الرئيسية: نقل النمط، والمعنى بالحفظ، والطلاقة.من حيث المبدأ، يجب أن تكون التقييمات من قبل راتبي البشر هي الأكثر موثوقية.ومع ذلك، في أوراق
نقوم بإجراء تقييم بشري في الأوراق التي تقدم العمل على توليد اللغة الطبيعية الإبداعية التي تم نشرها في INLG 2020 و ICCC 2020. أكثر طريقة التقييم البشرية النموذجية هي مسح كبير الحجم، وعادة ما تكون على نطاق 5 نقاط، في حين وجود العديد من الأساليب الأقل ش
الملخصات التلقائية لديها القدرة على مساعدة الأطباء في تبسيط المهام الكتابية مثل اتخاذ الملاحظات.ولكن من الصعب بشكل مسهل تقييم هذه الأنظمة وإظهار أنها آمنة لاستخدامها في بيئة سريرية.للتحايل على هذه المسألة، نقترح نهج شبه تلقائي حيث يلاحظ الأطباء بعد ت
تقدم هذه الورقة تقييما مقارنا لأربعة أنظمة ASR التجارية التي يتم تقييمها وفقا لجهود التحرير المطلوبة للوصول إلى "الجودة" القابلة للنشر ووفقا لعدد الأخطاء التي ينتجونها.لمهمة التوضيحية الخطأ، يتم اقتراح نموذج خطأ أخطاء خطأ في النسخ.تسعى هذه الدراسة أي
توفر فقط جزء صغير من الأوراق البحثية مع التقييم البشري لتلخيص النص معلومات حول التركيبة السكانية المشارك وتصميم المهام وبروتوكول التجريب.بالإضافة إلى ذلك، يستخدم العديد من الباحثين التقييم البشري كمعيار ذهبي دون التشكيك في الموثوقية أو التحقيق في الع