عرض من الحشد: تحديات التقييم لتطبيقات تفاعل الزمن


الملخص بالعربية

اكتسبت أنظمة الحوار مثل Chatbots، والمهام مثل الإجابة على الأسئلة (QA) الجر في السنوات الأخيرة؛ بعد تقييم هذه الأنظمة لا تزال صعبة. وتشمل الأسباب مجموعة متنوعة كبيرة في السياقات واستخدام حالات هذه الأنظمة وكذلك التكلفة العالية للتقييم البشري. في هذه الورقة، نركز على نوع معين من أنظمة الحوار: تطبيقات تفاعل إزاحة الوقت (TOIAIA) ذكي، برامج محادثة محاكمة محادثات وجها لوجه بين البشر والحجيجات الإنسانية المسجلة مسبقا. ضمن القيد أن تویا هو نظام إخراج واحد يتفاعل مع المستخدمين مع توقعات مختلفة، نحدد تحديين: أولا، كيف نحدد إجابة جيدة؟ والثاني، ما هو متري مناسب لاستخدامها؟ نستكشف التحديات من خلال إنشاء مجموعة بيانات جديدة تحدد إجابات جيدة متعددة على أسئلة تویا محددة من خلال مساعدة عمال الأمازون الميكانيكية التركيون. يتيح لنا هذه الرأي من الحشد دراسة الاختلافات في كيفية إدراك المحققين الذين يتويا إجاباتها. تشمل مساهماتنا مجموعة البيانات المشروحة التي نجعلها متاحة للجمهور واقتراح معدل النجاح الخاص بك كتقسيط تقييم أكثر ملاءمة من مقاييس استرجاع الجودة التقليدية واسترجاع المعلومات.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث