تم إثبات المشفرات المستندة إلى المحولات المسبدة مسبقا مثل بيرت لتحقيق الأداء الحديث في العديد من مهام NLP العديدة. على الرغم من نجاحهم، فإن ترميز نمط بيرت كبير الحجم ولديها زمن بيانات عالية أثناء الاستدلال (خاصة في آلات وحدة المعالجة المركزية) مما يجعلها غير جذابة للعديد من التطبيقات عبر الإنترنت. قدمت أساليب الضغط والتقطير مؤخرا طرقا فعالة لتخفيف هذا القصور. ومع ذلك، فإن محور هذه الأعمال كان أساسا في ترميز أحادي الأونلينغ. بدافع من النجاحات الأخيرة في التعلم عبر التحويل المتبادل في صفر تسديدة باستخدام ترميز مسببات اللغات المسبق، مثل MBERT، فإننا نقيم فعالية تقطير المعرفة (دينار كويتي) خلال مرحلة الاحتجاج وأثناء مرحلة ضبط الدقيقة على نماذج بيرت متعددة اللغات. نوضح أنه في تناقض الملاحظة السابقة في حالة التقطير أحادي الأونلينغ، في الإعدادات المتعددة اللغات، يكون التقطير أثناء الاحتجاز أكثر فعالية من التقطير أثناء ضبط الصفر عن التعلم تحويل الصفر. علاوة على ذلك، فإننا نلاحظ أن التقطير أثناء ضبط الرصيف قد يضر أداء الصفر اللغوي الصفر. أخيرا، نوضح أن تقطير نموذج أكبر (بيرت كبير) ينتج عن أقوى النموذج المقطر الذي يؤدي أفضل سواء على لغة المصدر وكذلك اللغات المستهدفة في إعدادات الطلقة الصفرية.
Pretrained transformer-based encoders such as BERT have been demonstrated to achieve state-of-the-art performance on numerous NLP tasks. Despite their success, BERT style encoders are large in size and have high latency during inference (especially on CPU machines) which make them unappealing for many online applications. Recently introduced compression and distillation methods have provided effective ways to alleviate this shortcoming. However, the focus of these works has been mainly on monolingual encoders. Motivated by recent successes in zero-shot cross-lingual transfer learning using multilingual pretrained encoders such as mBERT, we evaluate the effectiveness of Knowledge Distillation (KD) both during pretraining stage and during fine-tuning stage on multilingual BERT models. We demonstrate that in contradiction to the previous observation in the case of monolingual distillation, in multilingual settings, distillation during pretraining is more effective than distillation during fine-tuning for zero-shot transfer learning. Moreover, we observe that distillation during fine-tuning may hurt zero-shot cross-lingual performance. Finally, we demonstrate that distilling a larger model (BERT Large) results in the strongest distilled model that performs best both on the source language as well as target languages in zero-shot settings.
References used
https://aclanthology.org/
To reduce a model size but retain performance, we often rely on knowledge distillation (KD) which transfers knowledge from a large teacher'' model to a smaller student'' model. However, KD on multimodal datasets such as vision-language tasks is relat
In this paper we apply self-knowledge distillation to text summarization which we argue can alleviate problems with maximum-likelihood training on single reference and noisy datasets. Instead of relying on one-hot annotation labels, our student summa
Multilingual pre-trained contextual embedding models (Devlin et al., 2019) have achieved impressive performance on zero-shot cross-lingual transfer tasks. Finding the most effective fine-tuning strategy to fine-tune these models on high-resource lang
Recent studies argue that knowledge distillation is promising for speech translation (ST) using end-to-end models. In this work, we investigate the effect of knowledge distillation with a cascade ST using automatic speech recognition (ASR) and machin
Multilingual question answering over knowledge graph (KGQA) aims to derive answers from a knowledge graph (KG) for questions in multiple languages. To be widely applicable, we focus on its zero-shot transfer setting. That is, we can only access train