يعكس نظام الحوار الإقناعي قدرة الجهاز على جعل التحركات الإستراتيجية تتجاوز التواصل اللفظي، وبالتالي يميز نفسه عن حوارات موجهة نحو المهام أو فتح المجال ولديها قيمها الفريدة الخاصة بها. ومع ذلك، لا تزال مشاكل التكرار والتناسق لا تزال قائمة في توليد استجابة الحوار ويمكن أن تؤثر بشكل كبير على تجربة المستخدم وتعيق نتائج الإقناع. علاوة على ذلك، على الرغم من أن نهج التعزيز (RL) قد حقق نجاحا كبيرا في المهام الاستراتيجية مثل الألعاب، إلا أنها تتطلب محاكاة مستخدم متطورة لتوفير ملاحظات في الوقت الفعلي لنظام الحوار، مما يحد من تطبيق RL على حوارات الإقناع. لمعالجة هذه المشكلات نحو نظام حوار أفضل للإقناع، نقوم بتطبيق RL لتحسين خط الأساس طراز اللغة دون محاكاة المستخدمين، وتقطير المعلومات على مستوى الجملة حول التكرار، والتناسق، والأهمية المهمة من خلال المكافآت. علاوة على ذلك، لإنجاز مهمة الإقناع بشكل أفضل، يتعلم النموذج من مظاهرة بشرية لتقليد سلوك الإقناع البشري واختيار الاستجابات الأكثر إقناعا. تشير التجارب إلى أن نموذجنا يتفوق على نماذج الحوار السابقة من الحوار السابقة على كل من المقاييس التلقائية ونتائج التقييم البشري على مهمة إقناع التبرع، ويولد محادثات أكثر تنوعا ومتسقا ومقنعة وفقا لتعليقات المستخدمين. سنقوم بإجراء التعليمات البرمجية والنموذج المتاحة للجمهور.
Persuasion dialogue system reflects the machine's ability to make strategic moves beyond verbal communication, and therefore differentiates itself from task-oriented or open-domain dialogues and has its own unique values. However, the repetition and inconsistency problems still persist in dialogue response generation and could substantially impact user experience and impede the persuasion outcome. Besides, although reinforcement learning (RL) approaches have achieved big success in strategic tasks such as games, it requires a sophisticated user simulator to provide real-time feedback to the dialogue system, which limits the application of RL on persuasion dialogues. To address these issues towards a better persuasion dialogue system, we apply RL to refine a language model baseline without user simulators, and distill sentence-level information about repetition, inconsistency, and task relevance through rewards. Moreover, to better accomplish the persuasion task, the model learns from human demonstration to imitate human persuasion behavior and selects the most persuasive responses. Experiments show that our model outperforms previous state-of-the-art dialogue models on both automatic metrics and human evaluation results on a donation persuasion task, and generates more diverse, consistent and persuasive conversations according to the user feedback. We will make the code and model publicly available.
المراجع المستخدمة
https://aclanthology.org/
تهدف الملخصات الزمنية (TLS) إلى توليد قائمة موجزة من الأحداث الموضحة في مصادر مثل المقالات الإخبارية.ومع ذلك، فإن النظم الحالية لا توفر طريقة كافية للتكيف مع مجالات جديدة ولا تركز على جوانب الاهتمام لمستخدم معين.لذلك، نقترح طريقة للتعلم بشكل تفاعلي T
يمكن جمع كميات كبيرة من سجلات التفاعل من أنظمة NLP التي يتم نشرها في العالم الحقيقي.كيف يمكن الاستفادة من هذه الثروة من المعلومات؟يعد استخدام سجلات التفاعل هذه في إعداد تعليم التعزيز (RL) غير متصل نهجا واعدا.ومع ذلك، نظرا لطبيعة مهام NLP وقيود أنظمة
يؤدي التكرار في جيل اللغة الطبيعية إلى تقليل معلومات النص ويجعله أقل جاذبية.تم اقتراح تقنيات مختلفة لتخفيفها.في هذا العمل، نستكشف واقتراح تقنيات للحد من التكرار في تلخيص مبادرة.أولا، نستكشف تطبيق التدريب غير المحامي وتضمين المصفوفين من العمل السابق ع
من الصعب تصميم استراتيجيات تداول مربحة وعملية، حيث أن حركات أسعار الأسهم هي مؤشر استوكاستي للغاية، وتتأثر السوق بشدة بالبيانات الفوضوية عبر مصادر مثل الأخبار والوسائط الاجتماعية. تقترب NLP الحالية تعالج إلى حد كبير تنبؤ الأسهم كصنف أو مشكلة في الانحد
البناء التلقائي لقواعد المعرفة ذات الصلة (KBS) من النص، وتوليد نص مغزى من KBS هما أهداف طويلة الأمد في تعلم الآلات. في هذه الورقة، نقدم Regen، وهي جيل ثنائي الاتجاه من النص والرأس الرسم البياني الاستفادة من التعزيز لتعزيز الأداء. يتيح لنا الخطية الرس