المهمة المشتركة إعادة التوبيخ بشأن استنساخ التقييمات البشرية في NLG: نظرة عامة والنتائج


الملخص بالعربية

شهد حقل NLP مؤخرا زيادة كبيرة في العمل المتعلق بتكاثر النتائج، وأكثر اعترافا بشكل عام بأهمية وجود تعريفات وممارسات مشتركة تتعلق بالتقييم. وقد تركز الكثير من العمل على الاستيلاء على الدرجات المترية حتى الآن، مع استنساخ نتائج التقييم البشرية التي تتلقى اهتماما أقل بكثير. كجزء من برنامج بحثي مصمم لتطوير نظرية وممارسة تقييم استنساخ في NLP، نظمت المهمة المشتركة الأولى بشأن استنساخ التقييمات البشرية، وتوبيخ 2021. تصف هذه الورقة المهمة المشتركة بالتفصيل، تلخص النتائج من كل مجال من دراسات الاستنساخ قدمت، ويوفر المزيد من التحليل المقارن للنتائج. من بين تسع تسجيلات الفريق الأولية، تلقينا عروض من أربعة فرق. كشف التحليل التلوي لدراسات الاستنساخ الأربعة عن درجات متفاوتة من التكاثر، وسمحت باستنتاجات أولية مبدئية للغاية حول أنواع التقييم التي تميل إلى تحسين استنساخ أفضل.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث