يظهر مطابقة الطبقة الوسيطة كهدوث فعال لتحسين تقطير المعرفة (KD). ومع ذلك، تنطبق هذه التقنية مطابقة في المساحات المخفية لشبكتين مختلفتين (أي طالب ومدرس)، والتي تفتقر إلى التفسير الواضح. علاوة على ذلك، لا يمكن للطبقة المتوسطة KD التعامل بسهولة مع مشاكل أخرى مثل البحث عن تعيين الطبقة وعدم عدم تطابق الهندسة المعمارية (أي أن المعلم والطالب ليكون من نفس النوع النموذجي). لمعالجة المشاكل المذكورة أعلاه، نقترح عالمي دينار كويتي لمطابقة الطبقات الوسيطة من المعلم والطالب في مساحة الإخراج (عن طريق إضافة مصنفات زائفة على الطبقات المتوسطة) عبر إسقاط الطبقة المستندة إلى الاهتمام. من خلال القيام بذلك، يتمتع نهجنا الموحد بثلاث مزايا: (1) يمكن دمجها بمرونة مع تقنيات تقطير الطبقة المتوسطة الحالية لتحسين نتائجها (2) يمكن نشر مصنفات الزائفة من المعلم بدلا من شبكات مساعد المعلم باهظة الثمن مشكلة فجوة القدرة في KD وهي مشكلة شائعة عندما تصبح الفجوة بين حجم المعلم وشبكات الطلاب كبيرة جدا؛ (3) يمكن استخدامه في الطبقة الوسيطة عبر الهندسة الوسطى دينار كويتي. لقد قمنا بتجارب شاملة في تقطير Bert-Base في Bert-4، Roberta-Large في Distilroberta وقاعدة Bert-Base في نماذج CNN و LSTM. تظهر النتائج على مهام الغراء أن نهجنا قادر على تفوق تقنيات KD الأخرى.
Intermediate layer matching is shown as an effective approach for improving knowledge distillation (KD). However, this technique applies matching in the hidden spaces of two different networks (i.e. student and teacher), which lacks clear interpretability. Moreover, intermediate layer KD cannot easily deal with other problems such as layer mapping search and architecture mismatch (i.e. it requires the teacher and student to be of the same model type). To tackle the aforementioned problems all together, we propose Universal-KD to match intermediate layers of the teacher and the student in the output space (by adding pseudo classifiers on intermediate layers) via the attention-based layer projection. By doing this, our unified approach has three merits: (i) it can be flexibly combined with current intermediate layer distillation techniques to improve their results (ii) the pseudo classifiers of the teacher can be deployed instead of extra expensive teacher assistant networks to address the capacity gap problem in KD which is a common issue when the gap between the size of the teacher and student networks becomes too large; (iii) it can be used in cross-architecture intermediate layer KD. We did comprehensive experiments in distilling BERT-base into BERT-4, RoBERTa-large into DistilRoBERTa and BERT-base into CNN and LSTM-based models. Results on the GLUE tasks show that our approach is able to outperform other KD techniques.
المراجع المستخدمة
https://aclanthology.org/
تجادل الدراسات الحديثة بأن تقطير المعرفة يعد إلى ترجمة الكلام (ST) باستخدام النماذج الطرفية إلى النهاية.في هذا العمل، يمكننا التحقيق في تأثير تقطير المعرفة مع SC CASCADE باستخدام نماذج الترجمة التلقائية للكلام (ASR) ونماذج الترجمة الآلية (MT).نحن نوف
للحد من حجم النموذج ولكن الاحتفاظ بالأداء، كنا نعتمد في كثير من الأحيان على تقطير المعرفة (دينار كويتي) الذي ينقل المعرفة من نموذج المعلم الكبير إلى نموذج طالب أصغر. ومع ذلك، فإن KD على مجموعات بيانات متعددة الوسائط مثل مهام اللغة الرؤية غير مستكشفة
على الرغم من أن النماذج الكبيرة المدربة مسبقا (E.G.، Bert، Ernie، Xlnet، GPT3 وما إلى ذلك) قدمت أداء أعلى في النمذجة SEQ2SEQ، وغالبا ما تعوق عمليات نشرها في تطبيقات العالم الحقيقي بواسطة الحسابات المفرطة وطلب الذاكرة المعنية. بالنسبة للعديد من التطبي
في هذه الورقة، نطبق تقطير المعرفة الذاتية لتلخيص النص الذي نقوله أنه يمكن أن يخفف من مشاكل في الحد الأقصى للتدريب احتمالية على مجموعات بيانات مرجعية واحدة وصاخبة.بدلا من الاعتماد على ملصقات توضيحية ذات ساخنة واحدة، يتم تدريب نموذج تلخيص الطلاب لدينا
تم إثبات المشفرات المستندة إلى المحولات المسبدة مسبقا مثل بيرت لتحقيق الأداء الحديث في العديد من مهام NLP العديدة. على الرغم من نجاحهم، فإن ترميز نمط بيرت كبير الحجم ولديها زمن بيانات عالية أثناء الاستدلال (خاصة في آلات وحدة المعالجة المركزية) مما يج