بالنسبة لأنظمة الحوار الموجهة نحو المهام، قم بتدريب وحدة إدارة حوار التعزيز المستندة (RL) تعاني من كفاءة عينة منخفضة وسرعة تقارب بطيئة بسبب المكافآت المتفرعة في RL.لحل هذه المشكلة، اقترح العديد من الاستراتيجيات لإعطاء المكافآت المناسبة عند التدريب RL، لكن مكافآتها تفتقر إلى التفسير ولا يمكنها تقديرها بدقة توزيع أزواج عمل الدولة في الحوار الحقيقية.في هذه الورقة، نقترح نهج نمذجة مكافأة متعددة المستويات يعكس مكافأة في التسلسل الهرمي من ثلاثة مستويات: المجال والفعال والفتحة.بناء على تعلم التعزيز العسكري العكسي، يمكن لنموذج المكافآت المصمم لدينا توفير إشارات مكافأة أكثر دقة وتفسير لأزواج عمل الدولة.تشير التقييمات الواسعة إلى أن نهجنا يمكن تطبيقه على مجموعة واسعة من أنظمة الحوار التعبير في التعلم وتحسن بشكل كبير من كل الأداء وسرعة التقارب.
For task-oriented dialog systems, training a Reinforcement Learning (RL) based Dialog Management module suffers from low sample efficiency and slow convergence speed due to the sparse rewards in RL. To solve this problem, many strategies have been proposed to give proper rewards when training RL, but their rewards lack interpretability and cannot accurately estimate the distribution of state-action pairs in real dialogs. In this paper, we propose a multi-level reward modeling approach that factorizes a reward into a three-level hierarchy: domain, act, and slot. Based on inverse adversarial reinforcement learning, our designed reward model can provide more accurate and explainable reward signals for state-action pairs. Extensive evaluations show that our approach can be applied to a wide range of reinforcement learning-based dialog systems and significantly improves both the performance and the speed of convergence.
المراجع المستخدمة
https://aclanthology.org/
تمثل شركة كورسا الكبيرة من الويب موردا ممتازا لتحسين أداء أنظمة الترجمة الآلية العصبية (NMT) عبر العديد من أزواج اللغة. ومع ذلك، نظرا لأن هذه كورسيا صاخبة للغاية، فإن استخدامها محدود إلى حد ما. تركز النهج الحالية للتعامل مع هذه المشكلة أساسا على التر
هناك فرق حاسم بين تلخيص المستندات الفردية والمتعددة هو كيف يتجلى المحتوى البارز نفسه في المستند (المستندات). على الرغم من أن هذا المحتوى قد يظهر في بداية وثيقة واحدة، إلا أن المعلومات الأساسية تكرر بشكل متكرر في مجموعة من المستندات المتعلقة بموضوع مع
لا ينبغي أن يؤدي نظام الحوار الذكي في إعداد متعدد المنعطف إلى إنشاء الاستجابات فقط من نوعية جيدة، ولكن يجب أن تولد أيضا الردود التي يمكن أن تؤدي إلى نجاح طويل الأجل للحوار. على الرغم من أن الأساليب الحالية تحسنت جودة الاستجابة، إلا أنها تنظر إلى الإش
المحادثات الإنسانية تتطور بشكل طبيعي حول مواضيع مختلفة والتحرك بطلاقة بينهما.في البحوث على أنظمة الحوار، غالبا ما يتم تجاهل القدرة على الانتقال بنشاط وسلاسة إلى مواضيع جديدة.في هذه الورقة، نقدم TIAGE، وهو مؤشر مربع حوار مدرك مواضيع جديد يستخدم باستخد
في أنظمة الحوار، يقوم مكون فهم اللغة الطبيعي (NLU) عادة بقرار التفسير (بما في ذلك المجال، النية والفتحات) عن كلام قبل حل الكيانات المذكورة.قد ينتج عن هذا أخطاء تصنيف النوايا وعلامات الفتحة.في هذا العمل، نقترح نفايات ميزات دقة الكيان (ER) في NLU Reran