أظهرت وكلاء الحوار القرملي العصبي القدرة المتزايدة على إجراء محادثات Chitchat قصيرة، عند تقييمها من قبل CrowDWorkers في الإعدادات التي تسيطر عليها. ومع ذلك، فإن أدائهم في نشر الحياة الحقيقية - التحدث إلى المستخدمين الدوافع الجوهرية في البيئات الصاخبة - أقل استكشافا جيدا. في هذه الورقة، نقوم بإجراء دراسة حالة مفصلة لنموذج توليدي عصبي منتشر كجزء من الكاردينال الغربي، جائزة اليكسا جائزة. نجد أن كلمات المستخدم غير واضحة هي مصدر رئيسي للأخطاء الإنتاجية مثل تجاهل، الهلوسة، إلغاء التكرار. ومع ذلك، حتى في سياقات لا لبس فيها، يقوم النموذج بشكل متكرر بإجراء أخطاء في التفكير. على الرغم من أن المستخدمين يعبرون عن عدم الرضا في الارتباط مع هذه الأخطاء، تعتمد أنواع عدم الاستياء بشكل معيادة (مثل إفرازات الاعتراضات والخصوصية) على عوامل إضافية - مثل المواقف الشخصية للمستخدم، والاستلاك غير المعتاد مسبق في المحادثة. أخيرا، نظهر أن كلمات المستخدم غير الراضية يمكن استخدامها كإشارة تعليمية شبه إشراف لتحسين نظام الحوار. نحن ندرب نموذجا للتنبؤ بعدم التشغيل التالي، وتظهر من خلال التقييم البشري كدالة ترتيب، فهو يختار كلام أعلى من الجودة الناتجة.
Neural generative dialogue agents have shown an increasing ability to hold short chitchat conversations, when evaluated by crowdworkers in controlled settings. However, their performance in real-life deployment -- talking to intrinsically-motivated users in noisy environments -- is less well-explored. In this paper, we perform a detailed case study of a neural generative model deployed as part of Chirpy Cardinal, an Alexa Prize socialbot. We find that unclear user utterances are a major source of generative errors such as ignoring, hallucination, unclearness and repetition. However, even in unambiguous contexts the model frequently makes reasoning errors. Though users express dissatisfaction in correlation with these errors, certain dissatisfaction types (such as offensiveness and privacy objections) depend on additional factors -- such as the user's personal attitudes, and prior unaddressed dissatisfaction in the conversation. Finally, we show that dissatisfied user utterances can be used as a semi-supervised learning signal to improve the dialogue system. We train a model to predict next-turn dissatisfaction, and show through human evaluation that as a ranking function, it selects higher-quality neural-generated utterances.
References used
https://aclanthology.org/
Many existing chatbots do not effectively support mixed initiative, forcing their users to either respond passively or lead constantly. We seek to improve this experience by introducing new mechanisms to encourage user initiative in social chatbot co
Sensitivity of deep-neural models to input noise is known to be a challenging problem. In NLP, model performance often deteriorates with naturally occurring noise, such as spelling errors. To mitigate this issue, models may leverage artificially nois
As hate speech spreads on social media and online communities, research continues to work on its automatic detection. Recently, recognition performance has been increasing thanks to advances in deep learning and the integration of user features. This
Most chatbot literature that focuses on improving the fluency and coherence of a chatbot, is dedicated to making chatbots more human-like. However, very little work delves into what really separates humans from chatbots -- humans intrinsically unders
Natural Language Understanding (NLU) is an established component within a conversational AI or digital assistant system, and it is responsible for producing semantic understanding of a user request. We propose a scalable and automatic approach for im