يتطلب تحسين سياسة الحوار عبر التعلم التعزيز عددا كبيرا من التفاعلات التدريبية، مما يجعل التعلم مع المستخدمين الحقيقيين الوقت المستهلكة ومكلفة. لذلك يعتمد العديد من الإعدادات على محاكاة المستخدم بدلا من البشر. لدى محاكاة المستخدم هذه مشاكلهم الخاصة. في حين أن محاكاة المستخدمين المشفرة باليد، فقد ثبت أن محاكاة المستخدمين الذين يعتمدون على القواعد كافية في المجالات الصغيرة والبسيطة، لأن عدد القواعد المعقدة بسرعة أصلي. لا تزال محاكاة المستخدم التي يحركها بيانات البيانات، من ناحية أخرى، تعتمد على المجال. هذا يعني أن التكيف مع كل مجال جديد يتطلب إعادة تصميم وإعادة التدريب. في هذا العمل، نقترح محاكاة للمستخدم المستقل المستقل للمجال (TUS). لا يتم ربط هيكل TUS مجال معين، وتمكين تعميم المجال وتعلم سلوك المستخدم عبر المجال من البيانات. نحن نقارن TUS مع أحدث التقيمات التلقائية وكذلك الإنسان. يمكن أن يتنافس TUS مع محاكاة المستخدمين المستند إلى القواعد على المجالات المحددة مسبقا ويمكن أن يعممون إلى المجالات غير المرئية في أزياء صفرية.
Dialogue policy optimisation via reinforcement learning requires a large number of training interactions, which makes learning with real users time consuming and expensive. Many set-ups therefore rely on a user simulator instead of humans. These user simulators have their own problems. While hand-coded, rule-based user simulators have been shown to be sufficient in small, simple domains, for complex domains the number of rules quickly becomes intractable. State-of-the-art data-driven user simulators, on the other hand, are still domain-dependent. This means that adaptation to each new domain requires redesigning and retraining. In this work, we propose a domain-independent transformer-based user simulator (TUS). The structure of TUS is not tied to a specific domain, enabling domain generalization and the learning of cross-domain user behaviour from data. We compare TUS with the state-of-the-art using automatic as well as human evaluations. TUS can compete with rule-based user simulators on pre-defined domains and is able to generalize to unseen domains in a zero-shot fashion.
المراجع المستخدمة
https://aclanthology.org/
تعلم أنظمة الحوار الموجهة نحو المهمة الحديثة نموذجا من الحوارات المشروح، وتحول هذه الحوارات بدورها يتم جمعها وتفاحها بحيث تكون متسقة مع معرفة مجال معينة. ومع ذلك، في السيناريوهات الحقيقية، تخضع معارف المجال للتغييرات المتكررة، وقد تصبح حوارات التدريب
فهم اللغة المنطوقة، عادة بما في ذلك اكتشاف النوايا وملء الفتحات، هو مكون أساسي لبناء نظام حوار منطوق. تظهر الأبحاث الحديثة نتائج واعدة من خلال التعلم المشترك بين هذين المهامتين بناء على حقيقة أن ملء الفتحة والكشف عن النوايا تشارك المعرفة الدلالية. عل
يسمح التعلم المستمر في أنظمة الحوار الموجهة نحو المهام للنظام بإضافة مجالات ووظائف جديدة للعمل الإضافي بعد النشر، دون تكبد التكلفة العالية لإعادة النظر في النظام بأكمله في كل مرة. في هذه الورقة، نقترح أول معيار تعلم مستمر على الإطلاق لأنظمة الحوار ال
تهدف هذه الورقة إلى تقديم نظرة عامة شاملة للتطورات الأخيرة في تتبع حكمة الحوار (DST) لأنظمة المحادثات الموجهة نحو المهام.نقدم المهمة، وخاصة البيانات الرئيسية التي تم استغلالها وكذلك مقاييس تقييمها، ونحن نحلل العديد من النهج المقترحة.نحن نميز بين نماذ
إن دمج قواعد المعرفة (KB) في أنظمة الحوار الموجهة نحو المهام الواحد أمرا صعبا، لأنها تتطلب تمثيل كيان KB بشكل صحيح، وهو مرتبط بسياق KB وحالات الحوار. تمثل الأعمال الحالية الكيان مع إدراك جزء من سياق KB فقط، والذي يمكن أن يؤدي إلى تمثيل أقل فعالية بسب