تقوم معظم طرق التعلم في مجال التعزيز لسياسة الحوار، قم بتدريب تعلم وكيل مركزي يختار إجراء مشترك محدد مسبقا اسم النطاق ونوع النية واسم الفتحة. يعاني وكيل الحوار المركزي من متطلبات العديد من متطلبات تفاعل المستخدمين لعمل المستخدمين بسبب مساحة العمل الكبيرة. إضافة إلى ذلك، فإن تصميم الإجراءات المتسلسلة شاقة للمهندسين وربما كافح مع حالات الحافة. لحل هذه المشاكل، نقوم بنمط مشكلة تعلم سياسة الحوار مع إطار جديد متعدد الوكلاء، حيث يقود كل جزء من الإجراء من قبل وكيل مختلف. الإطار يقلل من تكاليف العمل لقوالب الإجراءات ويقلل من حجم مساحة العمل لكل وكيل. علاوة على ذلك، نقوم بتخفيف المشكلة غير الثابتة الناجمة عن ديناميات البيئة المتغيرة كتطور سياسات الوكلاء من خلال إدخال عملية تحسين مشتركة تجعل الوكلاء يمكنهم تبادل معلومات سياستهم. في الوقت نفسه، يتم دمج آلية إعادة تشغيل تجربة مخزنة مستقلة لتقليل الاعتماد بين تدرجات العينات لتحسين كفاءة التدريب. يتم إثبات فعالية الإطار المقترح في بيئة متعددة المجالات مع كل من تقييم محاكي المستخدم والتقييم البشري.
Most reinforcement learning methods for dialog policy learning train a centralized agent that selects a predefined joint action concatenating domain name, intent type, and slot name. The centralized dialog agent suffers from a great many user-agent interaction requirements due to the large action space. Besides, designing the concatenated actions is laborious to engineers and maybe struggled with edge cases. To solve these problems, we model the dialog policy learning problem with a novel multi-agent framework, in which each part of the action is led by a different agent. The framework reduces labor costs for action templates and decreases the size of the action space for each agent. Furthermore, we relieve the non-stationary problem caused by the changing dynamics of the environment as evolving of agents' policies by introducing a joint optimization process that makes agents can exchange their policy information. Concurrently, an independent experience replay buffer mechanism is integrated to reduce the dependence between gradients of samples to improve training efficiency. The effectiveness of the proposed framework is demonstrated in a multi-domain environment with both user simulator evaluation and human evaluation.
المراجع المستخدمة
https://aclanthology.org/
تهدف التصنيف متعدد الوسائط واسع النطاق إلى التمييز بين مختلف البيانات متعددة الوسائط، وقد لفت الانتباه بشكل كبير منذ العقد الماضي. في هذه الورقة، نقترح إطارا متعدد المهام في مجال التعلم لمهمة التصنيف المتعدد الوسائط، والتي تتكون من فرعين: فرع متعدد ا
لكل مهمة حوار موجهة نحو تحقيق الأهداف ذات أهمية، يجب جمع كميات كبيرة من البيانات للحصول على التعلم المنتهي للنظام الحوار العصبي.جمع هذه البيانات هي عملية مكلفة وتستغرق وقتا طويلا.بدلا من ذلك، نوضح أنه يمكننا استخدام كمية صغيرة فقط من البيانات، والتي
حتى الآن، اعتمدت معظم نماذج التلخيص المذهلة على متغيرات من احتمال السجل السلبي (NLL) كهدف تدريبهم. في بعض الحالات، تمت إضافة التعلم التعزيز لتدريب النماذج بهدف أقرب إلى تدابير التقييم الخاصة بهم (مثل Rouge). ومع ذلك، فإن وظيفة المكافآت التي سيتم استخ
أظهرت نماذج المحادثة العصبية إمكانات كبيرة تجاه توليد ردود بطلاقة وإمعلومات عن طريق إدخال معرفة خلفية خارجية. ومع ذلك، فمن الشائع بناء هذه الحوارات المدرجة في المعرفة، وعادة ما تؤدي النماذج الحالية بشكل سيء عند النقل إلى مجالات جديدة مع عينات تدريب م
لا ينبغي أن يؤدي نظام الحوار الذكي في إعداد متعدد المنعطف إلى إنشاء الاستجابات فقط من نوعية جيدة، ولكن يجب أن تولد أيضا الردود التي يمكن أن تؤدي إلى نجاح طويل الأجل للحوار. على الرغم من أن الأساليب الحالية تحسنت جودة الاستجابة، إلا أنها تنظر إلى الإش