يعكس نظام الحوار الإقناعي قدرة الجهاز على جعل التحركات الإستراتيجية تتجاوز التواصل اللفظي، وبالتالي يميز نفسه عن حوارات موجهة نحو المهام أو فتح المجال ولديها قيمها الفريدة الخاصة بها. ومع ذلك، لا تزال مشاكل التكرار والتناسق لا تزال قائمة في توليد استجابة الحوار ويمكن أن تؤثر بشكل كبير على تجربة المستخدم وتعيق نتائج الإقناع. علاوة على ذلك، على الرغم من أن نهج التعزيز (RL) قد حقق نجاحا كبيرا في المهام الاستراتيجية مثل الألعاب، إلا أنها تتطلب محاكاة مستخدم متطورة لتوفير ملاحظات في الوقت الفعلي لنظام الحوار، مما يحد من تطبيق RL على حوارات الإقناع. لمعالجة هذه المشكلات نحو نظام حوار أفضل للإقناع، نقوم بتطبيق RL لتحسين خط الأساس طراز اللغة دون محاكاة المستخدمين، وتقطير المعلومات على مستوى الجملة حول التكرار، والتناسق، والأهمية المهمة من خلال المكافآت. علاوة على ذلك، لإنجاز مهمة الإقناع بشكل أفضل، يتعلم النموذج من مظاهرة بشرية لتقليد سلوك الإقناع البشري واختيار الاستجابات الأكثر إقناعا. تشير التجارب إلى أن نموذجنا يتفوق على نماذج الحوار السابقة من الحوار السابقة على كل من المقاييس التلقائية ونتائج التقييم البشري على مهمة إقناع التبرع، ويولد محادثات أكثر تنوعا ومتسقا ومقنعة وفقا لتعليقات المستخدمين. سنقوم بإجراء التعليمات البرمجية والنموذج المتاحة للجمهور.