يتوقع التنبؤ بالكلام التالي في الحوار على ترميز نص مدخلات المستخدمين لتوليد استجابة مناسبة وذات صلة في النهج التي يحركها البيانات. على الرغم من أن الجودة الدلالية والمنظمات الأساسية للغة الناتجة يتم تقييمها، إلا أنه غالبا ما لا، لا يتم تقييم التمثيل المشفوع للإدخال. نظرا لأن تمثيل التشفير ضروري للتنبؤ بالاستجابة المناسبة، فإن تقييم تمثيل التشفير يمثل مشكلة تحديا ولكنها مهمة. في هذا العمل، نعرض أن تقييم النص الذي تم إنشاؤه من خلال المقاييس البشرية أو التلقائية لا يكفي لتقييم سلامة فهم لغة نماذج الحوار، وإلى هذه الغاية، اقتراح مجموعة من مهام التحقيق لتقييم تمثيل التشفير لتشفيات لغة مختلفة شائعة المستخدمة في طرازات الحوار. من التجارب، نلاحظ أن بعض مهام التحقيق هي أسهل وبعضها أصعب حتى يتم تعلم هياكل النموذج المعقدة. ومن خلال التجارب التي نلاحظها أن البندسة المعتمدة من RNN لها أداء أقل على المقاييس التلقائية على جيل النص من طراز المحول ولكن أداء أفضل من طراز المحول في مهام التحقيق التي تشير إلى أن RNNs قد تحافظ على معلومات المهمة أفضل من المحولات.
Predicting the next utterance in dialogue is contingent on encoding of users' input text to generate appropriate and relevant response in data-driven approaches. Although the semantic and syntactic quality of the language generated is evaluated, more often than not, the encoded representation of input is not evaluated. As the representation of the encoder is essential for predicting the appropriate response, evaluation of encoder representation is a challenging yet important problem. In this work, we showcase evaluating the text generated through human or automatic metrics is not sufficient to appropriately evaluate soundness of the language understanding of dialogue models and, to that end, propose a set of probe tasks to evaluate encoder representation of different language encoders commonly used in dialogue models. From experiments, we observe that some of the probe tasks are easier and some are harder for even sophisticated model architectures to learn. And, through experiments we observe that RNN based architectures have lower performance on automatic metrics on text generation than transformer model but perform better than the transformer model on the probe tasks indicating that RNNs might preserve task information better than the Transformers.
المراجع المستخدمة
https://aclanthology.org/
نماذج العصبية المدربة لتوليد الكلام المقبل في مهمة الحوار تعلم تحاكي تسلسلات N-Gram في التدريب المحدد بأهداف التدريب مثل احتمال السجل السلبي (NLL) أو Cross-Enterpy. هذه الأهداف التدريبية الشائعة الاستخدام لا تعزز تحقيق ردود بديلة إلى سياق. ولكن، فإن
تم استخدام نماذج ترميز فك التشفير بشكل شائع للعديد من المهام مثل الترجمة الآلية وتوليد الاستجابة.كما ذكرت البحث السابق، تعاني هذه النماذج من توليد التكرار الزائد.في هذا البحث، نقترح آلية جديدة لنماذج تشفير التشفير التي تقدر الاختلاف الدلالي في جملة م
تهدف استخراج العلاقات القائم على الحوار (إعادة) إلى استخراج العلاقة بين الحججتين التي تظهر في حوار. نظرا لأن الحوارات لديها خصائص حوادث الضمير الشخصية العالية وكثافة المعلومات المنخفضة، وبما أن معظم الحقائق العلائقية في الحوارات لا تدعمها أي جملة واح
اجتذبت نجاح نماذج اللغة السياقية واسعة النطاق اهتماما كبيرا بتحقيق ما يتم ترميزه في تمثيلاتهم.في هذا العمل، نعتبر سؤالا جديدا: إلى أي مدى يتم محاذاة تمثيل السياق للأسماء الخرسانية مع التمثيلات المرئية المقابلة؟نقوم بتصميم نموذج التحقيق الذي يقيم مدى
في مجال التعلم، من الضروري تحقيق محاذاة قوية بين نموذج مدرب مسبقا ومهمة مهام في المصب. فعلت العمل المسبق هذا من خلال اقتراح أهداف التدريب المحددة مسبقا بمهام المهام، مما يضح أن قابلية التوسع الكامنة للنموذج التعلم في مجال النقل. بدلا من ذلك، نحقق محا