الشبكات العصبية الكبيرة غير عملي للنشر على الأجهزة المحمولة بسبب التكلفة الحاسوبية الثقيلة والاستدلال البطيء. تقطير المعرفة (KD) هي تقنية لتقليل حجم النموذج مع الاحتفاظ بالأداء عن طريق نقل المعرفة من نموذج المعلم الكبير إلى نموذج طالب أصغر ". ومع ذلك، فإن KD على مجموعات بيانات متعددة الوسائط مثل مجموعات بيانات اللغة الرؤية غير مستكشفة نسبيا وهضم هذه المعلومات متعددة الوسائط تحديا لأن طرائق مختلفة تقدم أنواعا مختلفة من المعلومات. في هذه الورقة، نقترح تقطير نوعية (MSD) إلى نقل المعرفة بفعالية من المعلم على مجموعات البيانات متعددة الوسائط. يمكن تطبيق نهج KD الحالية على إعداد متعدد الوسائط، لكن الطالب ليس لديه حق الوصول إلى التنبؤات الخاصة بالطريقة. تهدف فكرتنا إلى تحية التنبؤات الخاصة بنوية المعلم من خلال إدخال مصطلح خسائر مساعدة لكل طريقة. نظرا لأن كل طريقة لها أهمية مختلفة للتنبؤات، فإننا نقترح أيضا أساليب التردد للخسائر الإضافية؛ نهج التعلم التلوي لتعلم الأوزان المثلى على شروط الخسارة هذه. في تجاربنا، نوضح فعالية MSD لدينا ونظام الترجيح وإظهار أنه يحقق أداء أفضل من KD.
Large neural networks are impractical to deploy on mobile devices due to their heavy computational cost and slow inference. Knowledge distillation (KD) is a technique to reduce the model size while retaining performance by transferring knowledge from a large teacher'' model to a smaller student'' model. However, KD on multimodal datasets such as vision-language datasets is relatively unexplored and digesting such multimodal information is challenging since different modalities present different types of information. In this paper, we propose modality-specific distillation (MSD) to effectively transfer knowledge from a teacher on multimodal datasets. Existing KD approaches can be applied to multimodal setup, but a student doesn't have access to modality-specific predictions. Our idea aims at mimicking a teacher's modality-specific predictions by introducing an auxiliary loss term for each modality. Because each modality has different importance for predictions, we also propose weighting approaches for the auxiliary losses; a meta-learning approach to learn the optimal weights on these loss terms. In our experiments, we demonstrate the effectiveness of our MSD and the weighting scheme and show that it achieves better performance than KD.
المراجع المستخدمة
https://aclanthology.org/
في معظم سيناريوهات جهاز التقطير أو سرقة الترجمة الآلية العصبية، يتم استخدام فرضية التسجيل أعلى النموذج المستهدف (المعلم) لتدريب نموذج جديد (طالب).إذا كانت الترجمات المرجعية متاحة أيضا، فيمكن إظهار الفرضيات الأفضل (فيما يتعلق بالمراجع) وفرضيات فقراء إ
حقق التطورات الحديثة في أنظمة NLP، ولا سيما النموذج الاحتياطي والأصلون، نجاحا كبيرا في الدقة التنبؤية. ومع ذلك، عادة ما لا يتم معايرة هذه الأنظمة بشكل جيد بسبب عدم اليقين خارج الصندوق. تم اقتراح العديد من طرق إعادة المعاير في الأدبيات لتحديد حالة عدم
نقدم خوارزمية استنادا إلى محولات متعددة الطبقات لتحديد ردود الفعل الدوائية الضارة (ADR) في بيانات وسائل التواصل الاجتماعي.يعتمد نموذجنا على خصائص المشكلة وخصائص ASTDDings Word السياقي لاستخراج وجهات نظرتين من المستندات.ثم يتم تدريب المصنف على كل طريق
يفهم فهم الوسيلة اللغوية على نطاق واسع بنفس أهمية مهام المصب مثل الإجابة على السؤال ورسم الرسم البياني المعرفي.قد يتوقع أيضا الاستفادة من التعلم الرسم البياني الاستيباري من الاهتمام بالطريقة.نقوم ببناء الرسوم البيانية الاستيبارية باستخدام Corpus News
يتطلب الإجابة السؤال المنطوقة (SQA) فهما غريبا من الوثائق والأسئلة المنطوقة للتنبؤ بالأجواب المثلى. في هذه الورقة، نقترح خطط تدريبية جديدة للسؤال المستحضر الرد على مرحلة تدريب ذاتية الإشراف ومرحلة تعليم التمثيل المتعاقبة. في المرحلة الإشراف ذاتيا، نق