إن دمج مصادر المعرفة الخارجية بفعالية في المحادثات هي مشكلة طويلة الأمد في أبحاث الحوار مفتوح المجال. إن الأدبيات الموجودة على اختيار المعرفة المفتوحة للمجال محدود ويقتصر بعض الافتراضات الهشة على مصادر المعرفة لتبسيط المهمة الشاملة، مثل وجود عقوبة معرفة واحدة ذات صلة لكل سياق. في هذا العمل، نقوم بتقييم حالة اختيار معرفة محادثة المحادثة مفتوحة للمجموعات، حيث تظهر المنهجيات الحالية المتعلقة بالبيانات والتقييم معيبة. ثم نحسنها من خلال اقتراح إطار جديد لجمع المعرفة ذات الصلة، وإنشاء مجموعة بيانات معدنية بناء على معالج كوربوس ويكيبيديا (WOW)، والتي نسميها نجاح باهر ++. WOW ++ المتوسطات 8 جمل المعرفة ذات الصلة لكل سياق حوار، واحتضان الغموض المتأصل من اختيار معرفة حوار المجال المفتوح. بعد ذلك، نقدر خوارزميات تصنيف المعرفة المختلفة على هذه البيانات المعززة مع كل من التقييم الجوهري وتدابير خارجية لجودة الاستجابة، والتي تبين أن Rerankers العصبية التي تستخدم WOW ++ يمكن أن تفوق المهاحين المدربين على مجموعات البيانات القياسية.
Incorporating external knowledge sources effectively in conversations is a longstanding problem in open-domain dialogue research. The existing literature on open-domain knowledge selection is limited and makes certain brittle assumptions on knowledge sources to simplify the overall task, such as the existence of a single relevant knowledge sentence per context. In this work, we evaluate the existing state of open-domain conversation knowledge selection, showing where the existing methodologies regarding data and evaluation are flawed. We then improve on them by proposing a new framework for collecting relevant knowledge, and create an augmented dataset based on the Wizard of Wikipedia (WOW) corpus, which we call WOW++. WOW++ averages 8 relevant knowledge sentences per dialogue context, embracing the inherent ambiguity of open-domain dialogue knowledge selection. We then benchmark various knowledge ranking algorithms on this augmented dataset with both intrinsic evaluation and extrinsic measures of response quality, showing that neural rerankers that use WOW++ can outperform rankers trained on standard datasets.
المراجع المستخدمة
https://aclanthology.org/
على الرغم من تحقيق أداء ملحوظ، عادة ما تستخدم أعمال المعرفة المعززة بالمعرفة عادة قاعدة معرفة متجانسة واحدة متجانسة من تغطية المعرفة المحدودة. وبالتالي، فإنهم غالبا ما ينضون في الأساليب التقليدية لأنه لا يمكن ربط جميع الحوارات بإدخالات المعرفة. تقترح
لقد أثبت العمل الحديث في وكلاء المحادثة المفتوحة على أن التحسينات الكبيرة في الإنسانية وتفضيل المستخدم يمكن تحقيقها عبر التحجيم الضخم في كل من بيانات التدريب المسبق وحجم النموذج (Adiwardana et al.، 2020؛ الأسطوانة وآخرون، 2020). ومع ذلك، إذا كنا نريد
البحث في أنظمة الحوار مفتوح المجال التي تسمح بمواضيع مجانية صعبة في مجال معالجة اللغات الطبيعية (NLP). تم تحسين أداء نظام الحوار مؤخرا من خلال الطريقة التي تستخدم المعرفة المتعلقة بالحوار؛ ومع ذلك، فإن أنظمة الحوار غير الإنجليزية تعاني من إعادة إنتاج
تزايد نماذج اللغة المدربة مسبقا للمحولات أداء أنظمة حوار المجال المفتوح. Works Prefer Works Simply القائمة على تحويلات قائمة مدربة مسبقا لتوليد النصوص ذات السمات المرغوبة في نهجين عامين: (1) الأساليب القائمة على التدرج: تحديث جميع التمثيلات الكامنة ل
يحتوي الحوار البشري على مفاهيم متطورة، ومكبرات الصوت تربط بشكل طبيعي مفاهيم متعددة لإثبات استجابة.ومع ذلك، فإن طرازات الحوار الحالية مع إطار SEQ2SEQ تفتقر إلى القدرة على إدارة مفهوم المفهوم بفعالية ويمكن أن تعد بالكاد مفاهيم متعددة للردود بطريقة فك ا