الشبكات العصبية الكبيرة غير عملي للنشر على الأجهزة المحمولة بسبب التكلفة الحاسوبية الثقيلة والاستدلال البطيء. تقطير المعرفة (KD) هي تقنية لتقليل حجم النموذج مع الاحتفاظ بالأداء عن طريق نقل المعرفة من نموذج المعلم الكبير إلى نموذج طالب أصغر ". ومع ذلك، فإن KD على مجموعات بيانات متعددة الوسائط مثل مجموعات بيانات اللغة الرؤية غير مستكشفة نسبيا وهضم هذه المعلومات متعددة الوسائط تحديا لأن طرائق مختلفة تقدم أنواعا مختلفة من المعلومات. في هذه الورقة، نقترح تقطير نوعية (MSD) إلى نقل المعرفة بفعالية من المعلم على مجموعات البيانات متعددة الوسائط. يمكن تطبيق نهج KD الحالية على إعداد متعدد الوسائط، لكن الطالب ليس لديه حق الوصول إلى التنبؤات الخاصة بالطريقة. تهدف فكرتنا إلى تحية التنبؤات الخاصة بنوية المعلم من خلال إدخال مصطلح خسائر مساعدة لكل طريقة. نظرا لأن كل طريقة لها أهمية مختلفة للتنبؤات، فإننا نقترح أيضا أساليب التردد للخسائر الإضافية؛ نهج التعلم التلوي لتعلم الأوزان المثلى على شروط الخسارة هذه. في تجاربنا، نوضح فعالية MSD لدينا ونظام الترجيح وإظهار أنه يحقق أداء أفضل من KD.
Large neural networks are impractical to deploy on mobile devices due to their heavy computational cost and slow inference. Knowledge distillation (KD) is a technique to reduce the model size while retaining performance by transferring knowledge from a large teacher'' model to a smaller student'' model. However, KD on multimodal datasets such as vision-language datasets is relatively unexplored and digesting such multimodal information is challenging since different modalities present different types of information. In this paper, we propose modality-specific distillation (MSD) to effectively transfer knowledge from a teacher on multimodal datasets. Existing KD approaches can be applied to multimodal setup, but a student doesn't have access to modality-specific predictions. Our idea aims at mimicking a teacher's modality-specific predictions by introducing an auxiliary loss term for each modality. Because each modality has different importance for predictions, we also propose weighting approaches for the auxiliary losses; a meta-learning approach to learn the optimal weights on these loss terms. In our experiments, we demonstrate the effectiveness of our MSD and the weighting scheme and show that it achieves better performance than KD.
References used
https://aclanthology.org/
In most of neural machine translation distillation or stealing scenarios, the highest-scoring hypothesis of the target model (teacher) is used to train a new model (student). If reference translations are also available, then better hypotheses (with
Recent advances in NLP systems, notably the pretraining-and-finetuning paradigm, have achieved great success in predictive accuracy. However, these systems are usually not well calibrated for uncertainty out-of-the-box. Many recalibration methods hav
We present an algorithm based on multi-layer transformers for identifying Adverse Drug Reactions (ADR) in social media data. Our model relies on the properties of the problem and the characteristics of contextual word embeddings to extract two views
Understanding linguistic modality is widely seen as important for downstream tasks such as Question Answering and Knowledge Graph Population. Entailment Graph learning might also be expected to benefit from attention to modality. We build Entailment
Spoken question answering (SQA) requires fine-grained understanding of both spoken documents and questions for the optimal answer prediction. In this paper, we propose novel training schemes for spoken question answering with a self-supervised traini