لا ينبغي أن يؤدي نظام الحوار الذكي في إعداد متعدد المنعطف إلى إنشاء الاستجابات فقط من نوعية جيدة، ولكن يجب أن تولد أيضا الردود التي يمكن أن تؤدي إلى نجاح طويل الأجل للحوار. على الرغم من أن الأساليب الحالية تحسنت جودة الاستجابة، إلا أنها تنظر إلى الإشارات التدريبية الموجودة في بيانات الحوار. يمكننا الاستفادة من هذه الإشارات لتوليد بيانات التدريب الإشراف ضعيف لسياسة حوار التعلم ومقدر المكافآت، وجعل السياسة تتخذ إجراءات (يولد الردود) التي يمكن أن تتوقع الاتجاه المستقبلي للمحادثة الناجحة (مكافأة). نحاكي الحوار بين وكيل ومستخدم (على غرار وكيل مع هدف التعلم الخاضع للإشراف) للتفاعل مع بعضها البعض. يستخدم الوكيل حدودا ديناميكيا لإنشاء ردود متنوعة في المرتبة واستغلال الاستكشاف لتحديد عدد الردود الأعلى. يتم تقييم كل زوج عمل محاكي لحالة الدولة (يعمل كشروح ضعيفة) مع ثلاث وحدات الجودة: الدلالي ذات الصلة والتماسك الدلالي وتدفق متسق. تشير الدراسات التجريبية التي لديها معيارين إلى أن طرازنا يمكن أن نفذت بشكل كبير جودة الاستجابة وتؤدي إلى محادثة ناجحة على كل من التقييم التلقائي والحكم البشري.
An intelligent dialogue system in a multi-turn setting should not only generate the responses which are of good quality, but it should also generate the responses which can lead to long-term success of the dialogue. Although, the current approaches improved the response quality, but they over-look the training signals present in the dialogue data. We can leverage these signals to generate the weakly supervised training data for learning dialog policy and reward estimator, and make the policy take actions (generates responses) which can foresee the future direction for a successful (rewarding) conversation. We simulate the dialogue between an agent and a user (modelled similar to an agent with supervised learning objective) to interact with each other. The agent uses dynamic blocking to generate ranked diverse responses and exploration-exploitation to select among the Top-K responses. Each simulated state-action pair is evaluated (works as a weak annotation) with three quality modules: Semantic Relevant, Semantic Coherence and Consistent Flow. Empirical studies with two benchmarks indicate that our model can significantly out-perform the response quality and lead to a successful conversation on both automatic evaluation and human judgment.
المراجع المستخدمة
https://aclanthology.org/
على الرغم من نجاح أنظمة الحوار العصبي في تحقيق أداء عال في مجلس الإدارة، لا يمكنهم تلبية متطلبات المستخدمين في الممارسة العملية، بسبب ضعف مهارات المنطق. السبب الأساسي هو أن معظم نماذج الحوار العصبي تلتقط فقط المعلومات النحوية والدلية، ولكنها تفشل في
تهدف تقدير الجودة (QE) من الترجمة الآلية (MT) إلى تقييم جودة الجمل التي ترجمتها الجهاز دون مراجع وهي مهمة في التطبيقات العملية ل MT.تتطلب Training Models QE بيانات موازية ضخمة بأشرفة توضيحية ذات جودة يدوية، وهي تستغرق وقتا طويلا ومكثفة العمالة للحصول
يعد إعادة صياغة نص إعادة صياغة مهمة NLP طويلة الأمد لديها تطبيقات متنوعة على مهام NLP المصب. ومع ذلك، تعتمد فعالية الجهود الحالية في الغالب على كميات كبيرة من البيانات الذهبية المسمى. على الرغم من أن المساعي غير الخاضعة للإشعال قد اقترحت تخفيف هذه ال
أظهر تعلم التعزيز العميق إمكانات كبيرة في سياسات الحوار التدريبية. ومع ذلك، فإن أدائها المواتي يأتي بتكلفة العديد من جولات التفاعل. تعتمد معظم أساليب سياسة الحوار الحالية على نظام تعليمي واحد، في حين أن الدماغ البشري يحتوي على نظامين لتعلم وذاكرة متخ
يجلب الفهم القراءة آلة حوار متعدد الأحزاب (MRC) تحديا هائلا لأنه ينطوي على مكبرات صوت متعددة في حوار واحد، مما أدى إلى تدفقات معلومات المتكلم المعقدة وسياقات الحوار الصاخبة.لتخفيف هذه الصعوبات، تركز النماذج السابقة على كيفية دمج هذه المعلومات باستخدا