نحو التقييم التلقائي لأنظمة الحوار: نهج تقييم نموذجي خال من النموذج


الملخص بالعربية

منذ فترة طويلة انتهت التقييم التلقائي الموثوق لأنظمة الحوار بموجب بيئة تفاعلية. تحتاج بيئة مثالية لتقييم أنظمة الحوار، المعروفة أيضا باسم اختبار Turing، إلى إشراك التفاعل البشري، وعادة ما تكون غير متناول تجارب واسعة النطاق. على الرغم من أن الباحثين قد حاولوا استخدام مقاييس مهام توليد اللغة (على سبيل المثال، الحيرة، بلو) أو بعض طرق التعزيز القائمة على الطراز (مثل تقييم التشغيل الذاتي) للتقييم التلقائي، إلا أن هذه الطرق تظهر فقط ارتباط ضعيف للغاية مع التقييم البشري الفعلي في التمرين. لكسر هذه الفجوة، نقترح إطارا جديدا يدعى لغز لتقدير درجات التقييم البشرية بناء على التقدم الأخير للتقييم خارج السياسات في التعلم التعزيز. يتطلب Enigma فقط حفنة من بيانات الخبرة التي تم جمعها مسبقا، وبالتالي لا تنطوي على تفاعل بشري مع السياسة المستهدفة أثناء التقييم، مما يجعل التقييمات التلقائية الممكنة. والأهم من ذلك أن Enigma هو خال من النموذج والأذرع لسياسات السلوك لجمع بيانات الخبرة، مما يخفف بشكل كبير الصعوبات التقنية في بيئات الحوار المعقدة النمذجة والسلوكيات البشرية. تظهر تجاربنا أن لغز تتفوق بشكل كبير على الأساليب الحالية من حيث الارتباط مع درجات التقييم البشري.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث