تقطير المعرفة (KD) هي خوارزمية ضغط نموذجية تساعد في نقل المعرفة في شبكة عصبية كبيرة في واحدة أصغر.على الرغم من أن KD قد أظهرت وعد على مجموعة واسعة من تطبيقات معالجة اللغة الطبيعية (NLP)، يفهم القليل حول كيفية مقارنة خوارزمية KD واحدة مع آخر وما إذا كانت هذه الأساليب يمكن أن تكون مجانية لبعضها البعض.في هذا العمل، نقوم بتقييم خوارزميات KD المختلفة على اختبار داخل المجال والخروج والمصدري.نقترح إطارا لتقييم متانة الخصومة لخوارزميات متعددة الدكتوراط.علاوة على ذلك، نقدم خوارزمية KD جديدة، مجتمعة د.ك، والتي تستفيد من نهجين واعدين (مخطط تدريب أفضل وزعم البيانات أكثر كفاءة).تظهر النتائج التجريبية الواسعة لدينا أن مجتمعة - KD تحقق نتائج أحدث النتائج على مرجع الغراء، وتعميم خارج المجال، ومتانة الخصومة مقارنة بالأساليب التنافسية.
Knowledge Distillation (KD) is a model compression algorithm that helps transfer the knowledge in a large neural network into a smaller one. Even though KD has shown promise on a wide range of Natural Language Processing (NLP) applications, little is understood about how one KD algorithm compares to another and whether these approaches can be complimentary to each other. In this work, we evaluate various KD algorithms on in-domain, out-of-domain and adversarial testing. We propose a framework to assess adversarial robustness of multiple KD algorithms. Moreover, we introduce a new KD algorithm, Combined-KD, which takes advantage of two promising approaches (better training scheme and more efficient data augmentation). Our extensive experimental results show that Combined-KD achieves state-of-the-art results on the GLUE benchmark, out-of-domain generalization, and adversarial robustness compared to competitive methods.
المراجع المستخدمة
https://aclanthology.org/
في هذه الورقة، نقترح تعريف وتعريفي من أنواع مختلفة من المحتوى النصي غير القياسي - يشار إليها عموما باسم الضوضاء "- في معالجة اللغة الطبيعية (NLP). في حين أن معالجة البيانات المسبقة هي بلا شك مهم بلا شك في NLP، خاصة عند التعامل مع المحتوى الذي تم إنشا
يتم استخدام تقطير المعرفة (KD) على نطاق واسع لضغط ونشر نماذج لغة كبيرة مدربة مسبقا على أجهزة EDGE لتطبيقات العالم الحقيقي.ومع ذلك، فإن مساحة البحث واحدة مهملة هي تأثير الملصقات الصاخبة (التالفة) على KD.نقدم، إلى حد علمنا، أول دراسة حول الملكية الدماغ
التقييم للعديد من مهام فهم اللغة الطبيعية (NLU) مكسورة: النتيجة أنظمة غير موثوقة ومنحمة للغاية على المعايير القياسية التي توجد مساحة صغيرة للباحثين الذين يقومون بتطوير أنظمة أفضل لإظهار التحسينات الخاصة بهم.إن الاتجاه الأخير للتخلي عن معايير IID لصال
يشكل جيل النص المخصب المعرفي تحديات فريدة من نوعها في النمذجة والتعلم، مما يدفع البحوث النشطة في العديد من الاتجاهات الأساسية، بدءا من النمذجة المتكاملة للتمثيل العصبي والمعلومات الرمزية في الهياكل التسلسلية / الهرمية / الهرمية، والتعلم دون إشراف مبا
أظهرت نماذج اللغة الموجودة مسبقا مسبقا (PLMS) فعالية التعلم الإشراف على الذات لمجموعة واسعة من مهام معالجة اللغة الطبيعية (NLP). ومع ذلك، فإن معظمهم لا يدركون بشكل صريح المعرفة الخاصة بالمجال، وهو أمر ضروري لمهام المصب في العديد من المجالات، مثل المه