تركز المهمة المشتركة على تقييم الدقة على التقنيات (كلا اليدين والآلية) لتقييم الدقة الواقعية للنصوص التي تنتجها أنظمة NLG العصبية، في مجال التقارير الرياضية.قدم أربعة فرق تقنيات التقييم لهذه المهمة، باستخدام نهج وتقنيات مختلفة للغاية.طلبت التقديمات الأفضل أداء جيدا في هذه المهمة الصعبة.ومع ذلك، تكافح جميع التقديمات التلقائية للكشف عن الأخطاء الواقعية المعقدة دلالة أو بشكل غير رسمي (على سبيل المثال، بناء على حساب أو استنتاج غير صحيح).
The Shared Task on Evaluating Accuracy focused on techniques (both manual and automatic) for evaluating the factual accuracy of texts produced by neural NLG systems, in a sports-reporting domain. Four teams submitted evaluation techniques for this task, using very different approaches and techniques. The best-performing submissions did encouragingly well at this difficult task. However, all automatic submissions struggled to detect factual errors which are semantically or pragmatically complex (for example, based on incorrect computation or inference).
المراجع المستخدمة
https://aclanthology.org/
تقدم هذه الورقة نتائج المهمة المشتركة للمقاييس WMT21. طلب من المشاركين تسجيل مخرجات أنظمة الترجمة المتنافسة في مهمة الترجمة الأخبار WMT21 مع مقاييس أوتوماتيكية على مجطتين مختلفتين: أخبار ومحادثات تيد. تم تقييم جميع المقاييس على مدى ارتباطها على مستوى
المهام المشتركة لها تاريخ طويل وأصبحت السائدة لأبحاث NLP. تتطلب معظم المهام المشتركة المشاركين تقديم مخرجات وأوصاف النظام فقط. من غير المألوف أن تطلب المهمة المشتركة تقديم النظام نفسه بسبب قضايا الترخيص وفروق التنفيذ. لذلك، يتم التخلي عن العديد من ال
مجالات اللغة التي تتطلب الاستخدام الدقيق للغاية للمصطلحات وفيرة وتعكس جزءا كبيرا من صناعة الترجمة.في هذا العمل، نقدم معيارا لتقييم نوعية الترجمة المصطلحات والاتساق، مع التركيز على المجال الطبي (والكوفي 19 على وجه التحديد) لمدة خمسة أزواج لغوية: الإنج
في هذه الورقة، نقدم المهمة المشتركة ESPR4NLP-2021 على تقدير الجودة القادم.بالنظر إلى زوج ترجمة من المصدر، فإن هذه المهمة المشتركة لا تتطلب فقط توفير درجة على مستوى الجملة تشير إلى الجودة الشاملة للترجمة، ولكن أيضا لشرح هذه النقاط عن طريق تحديد الكلما
نقدم هذا بموجبه تقديمنا إلى المهمة المشتركة في تقييم الدقة في مؤتمر INLG 2021.يعتمد بروتوكول التقييم لدينا على ثلاثة مكونات رئيسية؛القواعد والصفوف النصية المصنفة التي تعلق مسبقا على مجموعة البيانات، وهو عبقري بشري يتحقق من التوضيح المسبق، وواجهة الوي