تقييم جودة الردود الناتجة عن أنظمة محادثة المجال المفتوحة هي مهمة صعبة. هذا جزئيا لأنه يمكن أن يكون هناك العديد من الردود المناسبة لتاريخ حوار معين. غالبا ما تفشل المقاييس المرجعية التي تعتمد على مقارنات إلى مجموعة من الاستجابات الصحيحة المعروفة في حساب هذا التنوع، وبالتالي ربط سيئة مع الحكم البشري. لمعالجة هذه المشكلة، قام الباحثون بالتحقيق في إمكانية تقييم جودة الاستجابة دون استخدام مجموعة من الردود الصحيحة المعروفة. أظهر روبر أنه يمكن إجراء نموذج تقييم الاستجابة التلقائي باستخدام التعلم غير المزعوم لمهمة التنبؤ بالكلام التالي (NUP). بالنسبة للتعلم غير المقترح لهذا النموذج، نقترح طريقة التلاعب بالاستجابة الذهبية لإنشاء استجابة سلبية جديدة تم تصميمها لتكون غير مناسب في السياق مع الحفاظ على التشابه العالي مع الاستجابة الذهبية الأصلية. نجد، من تجاربنا في مجموعات البيانات الإنجليزية، التي تستخدم العينات السلبية التي تم إنشاؤها بواسطة طريقتنا إلى جانب العينات السلبية العشوائية يمكن أن تزيد من ارتباط النموذج بالتقييمات البشرية. عملية توليد هذه العينات السلبية مؤتمتة ولا تعتمد على شرح الإنسان.
Evaluating the quality of responses generated by open-domain conversation systems is a challenging task. This is partly because there can be multiple appropriate responses to a given dialogue history. Reference-based metrics that rely on comparisons to a set of known correct responses often fail to account for this variety, and consequently correlate poorly with human judgment. To address this problem, researchers have investigated the possibility of assessing response quality without using a set of known correct responses. RUBER demonstrated that an automatic response evaluation model could be made using unsupervised learning for the next-utterance prediction (NUP) task. For the unsupervised learning of such model, we propose a method of manipulating a golden response to create a new negative response that is designed to be inappropriate within the context while maintaining high similarity with the original golden response. We find, from our experiments on English datasets, that using the negative samples generated by our method alongside random negative samples can increase the model's correlation with human evaluations. The process of generating such negative samples is automated and does not rely on human annotation.
المراجع المستخدمة
https://aclanthology.org/
يقدم البشر ردود مناسبة لا يستند فقط إلى كلام الحوار السابق ولكن أيضا على المعرفة الخلفية الضمنية مثل الحس السليم. على الرغم من أن نماذج توليد الاستجابة العصبية تنتج ردود تشبه الإنسان، إلا أنها في الغالب من طرفا ولا تولد أسباب وسيطة بين تاريخ الحوار و
التعاطف هو قدرات معرفية معقدة تستند إلى منطق الدول العاطفية الأخرى. من أجل فهم الآخرين بشكل أفضل والتعبير عن التعاطف الأقوى في الحوارات، نجادل بأننا يجب معالجة قضيتين في الوقت نفسه: (1) تحديد أي كلمة هي سبب عاطفة الآخر من كلامه و (2) تعكس تلك كلمات م
يلتقط التفضيلات التجريبية (SP) إلى ميل كلمة لإجراء كلمات أخرى بشكل صحيح لتكون في العلاقة النحوية المباشرة معها، وبالتالي تبلغنا عن تكوينات الكلمات الأساسية التي هي ذات معنى. لذلك SP هو مورد قيمة لأنظمة معالجة اللغة الطبيعية (NLP) ولتكل الأسلاك. تعتبر
أظهرت نماذج اختيار الاستجابة متعددة الدوران مؤخرا أداء مماثل للبشر في العديد من البيانات القياسية.ومع ذلك، في البيئة الحقيقية، غالبا ما تحتوي هذه النماذج على نقاط ضعف، مثل اتباع تنبؤات غير صحيحة تستند بشكل كبير على الأنماط السطحية دون فهم شامل للسياق
بدافع من جيل السؤال المقترح في أنظمة توصية أخبار المحادلات، نقترح نموذجا لتوليد أزواج الإجابات السؤال (أزواج ضمان الجودة) مع أسئلة ذاتية التركيز ذاتي ومقيد الطول، إجابات تلخص المادة.نبدأ بجمع مجموعة بيانات جديدة من المقالات الإخبارية مع أسئلة كعناوين