يعكس نظام الحوار الإقناعي قدرة الجهاز على جعل التحركات الإستراتيجية تتجاوز التواصل اللفظي، وبالتالي يميز نفسه عن حوارات موجهة نحو المهام أو فتح المجال ولديها قيمها الفريدة الخاصة بها. ومع ذلك، لا تزال مشاكل التكرار والتناسق لا تزال قائمة في توليد استجابة الحوار ويمكن أن تؤثر بشكل كبير على تجربة المستخدم وتعيق نتائج الإقناع. علاوة على ذلك، على الرغم من أن نهج التعزيز (RL) قد حقق نجاحا كبيرا في المهام الاستراتيجية مثل الألعاب، إلا أنها تتطلب محاكاة مستخدم متطورة لتوفير ملاحظات في الوقت الفعلي لنظام الحوار، مما يحد من تطبيق RL على حوارات الإقناع. لمعالجة هذه المشكلات نحو نظام حوار أفضل للإقناع، نقوم بتطبيق RL لتحسين خط الأساس طراز اللغة دون محاكاة المستخدمين، وتقطير المعلومات على مستوى الجملة حول التكرار، والتناسق، والأهمية المهمة من خلال المكافآت. علاوة على ذلك، لإنجاز مهمة الإقناع بشكل أفضل، يتعلم النموذج من مظاهرة بشرية لتقليد سلوك الإقناع البشري واختيار الاستجابات الأكثر إقناعا. تشير التجارب إلى أن نموذجنا يتفوق على نماذج الحوار السابقة من الحوار السابقة على كل من المقاييس التلقائية ونتائج التقييم البشري على مهمة إقناع التبرع، ويولد محادثات أكثر تنوعا ومتسقا ومقنعة وفقا لتعليقات المستخدمين. سنقوم بإجراء التعليمات البرمجية والنموذج المتاحة للجمهور.
Persuasion dialogue system reflects the machine's ability to make strategic moves beyond verbal communication, and therefore differentiates itself from task-oriented or open-domain dialogues and has its own unique values. However, the repetition and inconsistency problems still persist in dialogue response generation and could substantially impact user experience and impede the persuasion outcome. Besides, although reinforcement learning (RL) approaches have achieved big success in strategic tasks such as games, it requires a sophisticated user simulator to provide real-time feedback to the dialogue system, which limits the application of RL on persuasion dialogues. To address these issues towards a better persuasion dialogue system, we apply RL to refine a language model baseline without user simulators, and distill sentence-level information about repetition, inconsistency, and task relevance through rewards. Moreover, to better accomplish the persuasion task, the model learns from human demonstration to imitate human persuasion behavior and selects the most persuasive responses. Experiments show that our model outperforms previous state-of-the-art dialogue models on both automatic metrics and human evaluation results on a donation persuasion task, and generates more diverse, consistent and persuasive conversations according to the user feedback. We will make the code and model publicly available.
References used
https://aclanthology.org/
Timeline Summarisation (TLS) aims to generate a concise, time-ordered list of events described in sources such as news articles. However, current systems do not provide an adequate way to adapt to new domains nor to focus on the aspects of interest t
Large volumes of interaction logs can be collected from NLP systems that are deployed in the real world. How can this wealth of information be leveraged? Using such interaction logs in an offline reinforcement learning (RL) setting is a promising app
Repetition in natural language generation reduces the informativeness of text and makes it less appealing. Various techniques have been proposed to alleviate it. In this work, we explore and propose techniques to reduce repetition in abstractive summ
It is challenging to design profitable and practical trading strategies, as stock price movements are highly stochastic, and the market is heavily influenced by chaotic data across sources like news and social media. Existing NLP approaches largely t
Automatic construction of relevant Knowledge Bases (KBs) from text, and generation of semantically meaningful text from KBs are both long-standing goals in Machine Learning. In this paper, we present ReGen, a bidirectional generation of text and grap