التقطير الخاص بالطريقة


الملخص بالعربية

الشبكات العصبية الكبيرة غير عملي للنشر على الأجهزة المحمولة بسبب التكلفة الحاسوبية الثقيلة والاستدلال البطيء. تقطير المعرفة (KD) هي تقنية لتقليل حجم النموذج مع الاحتفاظ بالأداء عن طريق نقل المعرفة من نموذج المعلم الكبير إلى نموذج طالب أصغر ". ومع ذلك، فإن KD على مجموعات بيانات متعددة الوسائط مثل مجموعات بيانات اللغة الرؤية غير مستكشفة نسبيا وهضم هذه المعلومات متعددة الوسائط تحديا لأن طرائق مختلفة تقدم أنواعا مختلفة من المعلومات. في هذه الورقة، نقترح تقطير نوعية (MSD) إلى نقل المعرفة بفعالية من المعلم على مجموعات البيانات متعددة الوسائط. يمكن تطبيق نهج KD الحالية على إعداد متعدد الوسائط، لكن الطالب ليس لديه حق الوصول إلى التنبؤات الخاصة بالطريقة. تهدف فكرتنا إلى تحية التنبؤات الخاصة بنوية المعلم من خلال إدخال مصطلح خسائر مساعدة لكل طريقة. نظرا لأن كل طريقة لها أهمية مختلفة للتنبؤات، فإننا نقترح أيضا أساليب التردد للخسائر الإضافية؛ نهج التعلم التلوي لتعلم الأوزان المثلى على شروط الخسارة هذه. في تجاربنا، نوضح فعالية MSD لدينا ونظام الترجيح وإظهار أنه يحقق أداء أفضل من KD.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث