في هذا العمل، نقترح إطارا جديدا، برت التعلم المتبادل المتماثل التدرج (Gaml-Bert)، لتحسين الخروج المبكر من Bert.مساهمات Gaml-Bert هي طي ثنائي.نقوم بإجراء مجموعة من التجارب الطيارية، والتي توضح أن تقطير المعرفة المتبادلة بين الخروج الضحل والخروج العميق يؤدي إلى أداء أفضل لكليهما.من هذه الملاحظة، نستخدم التعلم المتبادل لتحسين عروض بيرت المبكرة المبكرة، أي نطلب من كل خروج من بيرت متعددة الخروج لتقطير المعرفة من بعضها البعض.ثانيا، نقترح GA، طريقة تدريب جديدة تقوم بمحاذاة التدرجات من تقطير المعرفة إلى خسائر الانتروبية.يتم إجراء تجارب واسعة النطاق على معيار الغراء، والذي يدل على أن لدينا Gaml-Bert يمكن أن تتفوق بشكل كبير على أحدث الطرق التي تخرج من أحدث الطرق (SOTA) في وقت مبكر.
In this work, we propose a novel framework, Gradient Aligned Mutual Learning BERT (GAML-BERT), for improving the early exiting of BERT. GAML-BERT's contributions are two-fold. We conduct a set of pilot experiments, which shows that mutual knowledge distillation between a shallow exit and a deep exit leads to better performances for both. From this observation, we use mutual learning to improve BERT's early exiting performances, that is, we ask each exit of a multi-exit BERT to distill knowledge from each other. Second, we propose GA, a novel training method that aligns the gradients from knowledge distillation to cross-entropy losses. Extensive experiments are conducted on the GLUE benchmark, which shows that our GAML-BERT can significantly outperform the state-of-the-art (SOTA) BERT early exiting methods.
المراجع المستخدمة
https://aclanthology.org/
غالبا ما تكون نماذج اللغة المدربة مسبقا مسبقا (PLMS) باهظة الثمن بشكل أساسي في الاستدلال، مما يجعلها غير عملية في مختلف تطبيقات العالم الحقيقي المحدودة. لمعالجة هذه المشكلة، نقترح مقاربة تخفيض رمزية ديناميكية لتسريع استنتاج PLMS، والتي تسمى Tr-Bert،
أصبح توحيد التعلم الصوتي واللغوي أمرا مهما بشكل متزايد بنقل المعرفة المستفادة بشأن وفرة بيانات لغة الموارد عالية الموارد للحصول على التعرف على الكلام المنخفض الموارد. الأساليب الحالية ببساطة تتالي النماذج الصوتية واللغة المدربة مسبقا لتعلم النقل من ا
تتمثل منطقة البحث الشعبية حاليا في الترجمة الانتهاء من الكلام في النهاية باستخدام تقنورة المعرفة من مهمة ترجمة آلية (MT) لتحسين مهمة ترجمة الكلام (ST).ومع ذلك، من الواضح أن مثل هذا السيناريو يسمح فقط بنقل طريقة واحدة، وهو محدود من أداء نموذج المعلم.ل
نماذج اللغات المدربة مسبقا بشكل جيد، أصبحت نماذج اللغات المدربة مسبقا من Suchas Bertboard المتصدرين المشترك في إدارة الديم عبر مختلف مهام NLP. نجاحها الأخير والاعتماد الواسع، هذه العملية غير مستقر عندما يكون هناك عدد صغير فقط من عينات التدريب المتاحة
تهدف استخراج العلاقات المنخفضة الموارد (LRE) إلى استخراج حقائق العلاقة من كورسا محدودة المسمى عندما تشريح الإنسان نادرة. تعمل الأعمال الموجودة إما استخدام مخطط التدريب الذاتي لتوليد ملصقات زائفة ستتسبب في مشكلة الانجراف التدريجي، أو نظام التعلم التلو