عالمي د.ك: تقطير المعرفة الطبقات المتوسطة القائمة على الانتباه


الملخص بالعربية

يظهر مطابقة الطبقة الوسيطة كهدوث فعال لتحسين تقطير المعرفة (KD). ومع ذلك، تنطبق هذه التقنية مطابقة في المساحات المخفية لشبكتين مختلفتين (أي طالب ومدرس)، والتي تفتقر إلى التفسير الواضح. علاوة على ذلك، لا يمكن للطبقة المتوسطة KD التعامل بسهولة مع مشاكل أخرى مثل البحث عن تعيين الطبقة وعدم عدم تطابق الهندسة المعمارية (أي أن المعلم والطالب ليكون من نفس النوع النموذجي). لمعالجة المشاكل المذكورة أعلاه، نقترح عالمي دينار كويتي لمطابقة الطبقات الوسيطة من المعلم والطالب في مساحة الإخراج (عن طريق إضافة مصنفات زائفة على الطبقات المتوسطة) عبر إسقاط الطبقة المستندة إلى الاهتمام. من خلال القيام بذلك، يتمتع نهجنا الموحد بثلاث مزايا: (1) يمكن دمجها بمرونة مع تقنيات تقطير الطبقة المتوسطة الحالية لتحسين نتائجها (2) يمكن نشر مصنفات الزائفة من المعلم بدلا من شبكات مساعد المعلم باهظة الثمن مشكلة فجوة القدرة في KD وهي مشكلة شائعة عندما تصبح الفجوة بين حجم المعلم وشبكات الطلاب كبيرة جدا؛ (3) يمكن استخدامه في الطبقة الوسيطة عبر الهندسة الوسطى دينار كويتي. لقد قمنا بتجارب شاملة في تقطير Bert-Base في Bert-4، Roberta-Large في Distilroberta وقاعدة Bert-Base في نماذج CNN و LSTM. تظهر النتائج على مهام الغراء أن نهجنا قادر على تفوق تقنيات KD الأخرى.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث