RW-KD: مصطلحات الخسائر العينة الحكيمة إعادة الترجيح لتقطير المعرفة


الملخص بالعربية

يتم استخدام تقطير المعرفة (KD) على نطاق واسع في معالجة اللغة الطبيعية لضغط مراحل ما قبل التدريب والضبط المهام الموحد من نماذج اللغة العصبية الكبيرة.يتم تدريب نموذج طالب على تقليل مجموعة محدبة من فقدان التنبؤ عبر الملصقات وآخر على إخراج المعلم.ومع ذلك، فإن معظم الأعمال القائمة إما إصلاح الوزن الاستيفاء بين الخسائرين Apriori أو تختلف الوزن باستخدام الاستدلال.في هذا العمل، نقترح طريقة ترجيح عينة من الخسارة العينة، RW-KD.المتعلم التلوي، مدرب في وقت واحد مع الطالب، إعادة الوزن بشكل متكامل الخسائرتين لكل عينة.نوضح، في 7 مجموعات بيانات من مؤشر الغراء، أن RW-KD تفوقت طرق إعادة توزيع الخسارة الأخرى لدعم KD.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث