مع التعلم Landit العديد المصنعة، يمكن تدريب النماذج بناء على ردود فعل إيجابية وسالبة وردت للتنبؤات التاريخية، دون الحاجة إلى البيانات المسمى.ومع ذلك، غالبا ما تكون هذه الملاحظات متوفرة في أنظمة الحوار في العالم الحقيقي، ومع ذلك، فإن الهندسة المعمارية المعيارية المستخدمة عادة في أنظمة واسعة النطاق يمنع التطبيق المباشر لهذه الخوارزميات.في هذه الورقة، ندرس مشكلة إريقات التغذية المرتدة التي تنشأ عند استخدام التعلم Landit Adderfactual لفهم اللغة المنطوقة متعددة المجالات.نقدم إعداد تجريبي لمحاكاة المشكلة في مجموعات البيانات العامة على نطاق صغير، اقترح طرق الإسناد المستوحاة من التعزيز التعزيز متعدد الوكلات وتقييمها ضد خطوط خطوط خطوط خطوط خطوط خطوط طويلة.نجد أنه أثناء استخدام الملاحظات الشاملة مباشرة يؤدي إلى أداء كارثي، يمكن أن تسمح طرقنا الإسناد المقترحة لدينا نماذج تنافسية للتدريب من ملاحظات المستخدم.
With counterfactual bandit learning, models can be trained based on positive and negative feedback received for historical predictions, with no labeled data needed. Such feedback is often available in real-world dialog systems, however, the modularized architecture commonly used in large-scale systems prevents the direct application of such algorithms. In this paper, we study the feedback attribution problem that arises when using counterfactual bandit learning for multi-domain spoken language understanding. We introduce an experimental setup to simulate the problem on small-scale public datasets, propose attribution methods inspired by multi-agent reinforcement learning and evaluate them against multiple baselines. We find that while directly using overall feedback leads to disastrous performance, our proposed attribution methods can allow training competitive models from user feedback.
المراجع المستخدمة
https://aclanthology.org/
مع النجاح المبكر لمساعدات الإجابة في الاستعلام مثل Alexa و Siri، فإن محاولات البحث لتوسيع إمكانات النظام من أتمتة خدمة التعامل هي الآن وفيرة. ومع ذلك، فقد عثرت الأنظمة الأولية بسرعة على عدم كفاية في الاعتماد على تقنيات التصنيف البسيطة لتحقيق مهمة الأ
يعرض عدم وجود بيانات تدريبية تحديا كبيرا لتحجيم فهم اللغة المنطوقة لغات الموارد المنخفضة.على الرغم من أن نهج تكبير البيانات المختلفة قد اقترحت توليف البيانات التدريبية في لغات مستهدفة منخفضة الموارد، فإن مجموعات البيانات المعززة غالبا ما تكون صاخبة،
فهم اللغة المنطوقة، عادة بما في ذلك اكتشاف النوايا وملء الفتحات، هو مكون أساسي لبناء نظام حوار منطوق. تظهر الأبحاث الحديثة نتائج واعدة من خلال التعلم المشترك بين هذين المهامتين بناء على حقيقة أن ملء الفتحة والكشف عن النوايا تشارك المعرفة الدلالية. عل
فهم اللغة المنطوقة (SLU) يستخرج المتوسط المقصود من كلام المستخدم وهو عنصر حرج في عوامل المحادثة الافتراضية.في الوكلاء الافتراضيين للمؤسسة (EVAS)، فهم اللغة تحديا كبيرا.أولا، المستخدمين متصلون نادرون غير مألوفين بتوقع تدفق محادثة مصممة مسبقا.ثانيا، يد
يعادل الافتقار إلى بيانات التقييم المتاحة للجمهور لغات الموارد المنخفضة التقدم المحرز في فهم اللغة المنطوقة (SLU).نظرا لأن المهام الرئيسية مثل تصنيف النوايا وملء الفتحات تتطلب بيانات تدريبية وفيرة، فمن المستحسن إعادة استخدام البيانات الحالية بلغات ال