لقد أثبتت التعلم المناهج الدراسية، وهي استراتيجية تدريب الآلة التي تغذي حالات التدريب على النموذج من سهولة الصعب، لتسهيل مهمة توليد الحوار. وفي الوقت نفسه، يمكن أن تسفر عن طريقة تقطير المعرفة، منهجية تحويل المعرفة بين المعلمين وشبكات الطلاب دفعة كبيرة من الأداء لنماذج الطلاب. وبالتالي، في هذه الورقة، نقدم مجموعة من التعلم من المناهج الدراسية وتقطير المعرفة لنماذج جيل الحوار الفعالة، حيث يمكن أن يساعد تعلم المناهج الدراسية في تقطير المعارف من جوانب البيانات والنموذج. للبدء، من جانب البيانات، نقوم بتجميع حالات التدريب وفقا لتعقيدها، والتي تحسبها أنواع مختلفة من الميزات مثل طول الجملة والتماسك بين أزواج الحوار. علاوة على ذلك، فإننا نوظف استراتيجية تدريبية عدائية لتحديد تعقيد الحالات من مستوى النموذج. الحدس هو أنه، إذا كان بإمكان التمييز أن يخبر الاستجابة الناتجة عن المعلم أو الطالب، فسيكون الأمر من الصعب على الحالة أن نموذج الطالب لم يتكيف حتى الآن. أخيرا، نستخدم التعلم الذاتي، وهو امتداد لتعلم المناهج الدراسية لتعيين الأوزان لتقطير. في الختام، نقوم بترتيب منهج هرمي يستند إلى الجوانب المذكورة أعلاه لنموذج الطالب بموجب الإرشاد من نموذج المعلم. توضح النتائج التجريبية أن أساليبنا تحقق تحسينات مقارنة مع خطوط الأساس التنافسية.
Curriculum learning, a machine training strategy that feeds training instances to the model from easy to hard, has been proven to facilitate the dialogue generation task. Meanwhile, knowledge distillation, a knowledge transformation methodology among teachers and students networks can yield significant performance boost for student models. Hence, in this paper, we introduce a combination of curriculum learning and knowledge distillation for efficient dialogue generation models, where curriculum learning can help knowledge distillation from data and model aspects. To start with, from the data aspect, we cluster the training cases according to their complexity, which is calculated by various types of features such as sentence length and coherence between dialog pairs. Furthermore, we employ an adversarial training strategy to identify the complexity of cases from model level. The intuition is that, if a discriminator can tell the generated response is from the teacher or the student, then the case is difficult that the student model has not adapted to yet. Finally, we use self-paced learning, which is an extension to curriculum learning to assign weights for distillation. In conclusion, we arrange a hierarchical curriculum based on the above two aspects for the student model under the guidance from the teacher model. Experimental results demonstrate that our methods achieve improvements compared with competitive baselines.
المراجع المستخدمة
https://aclanthology.org/