التعلم المتعاقل الذي يشرف على نفسه لتنبؤ برضيا المستخدم فعال في وكلاء المحادثة


الملخص بالعربية

رضا المستخدمين على مستوى الدوران هو أحد أهم مقاييس الأداء لعوامل المحادثة. يمكن استخدامه لمراقبة أداء الوكيل وتوفير رؤى حول تجارب المستخدم المعيبة. في حين أن التعلم العميق المنتهي في النهاية قد أظهر نتائج واعدة، فإن الوصول إلى عدد كبير من العينات المشروح الموثوقة التي تتطلبها هذه الطرق تظل تحديا. في نظام محادثة واسعة النطاق، يوجد عدد متزايد من المهارات المتقدمة حديثا، مما يجعل عملية جمع البيانات التقليدية والشروحية وعملية النمذجة غير عملي بسبب تكاليف التوضيحية المطلوبة وأوقات التحول. في هذه الورقة، نقترح اقتراح نهج تعليمي بسيط للإشراف على أن يهدف إلى مجموعة من البيانات غير المسبقة لتعلم تفاعلات وكيل المستخدم. نظهر أن النماذج المدربة مسبقا باستخدام الهدف الأكثر إشرا للإشراف قابلة للتحويل إلى تنبؤ رضا المستخدمين. بالإضافة إلى ذلك، نقترح نقه نهج لتعلم تحويل القليل من الرواية يضمن نقل أفضل لأحجام عينة صغيرة جدا. لا تتطلب الطريقة القليلة المقترحة أي عملية تحسين الحلقة الداخلية وهي قابلة للتحجيم إلى مجموعات البيانات الكبيرة جدا والنماذج المعقدة. بناء على تجاربنا باستخدام بيانات حقيقية من نظام تجاري واسع النطاق، فإن النهج المقترح قادر على تقليل العدد المطلوب بشكل كبير، مع تحسين التعميم بشأن المهارات غير المرئية.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث