نحو تفسير وتخفيف سلوك التعلم الاختصار من نماذج NLU


الملخص بالعربية

تشير الدراسات الحديثة إلى أن نماذج NLU عرضة للإعتماد على ميزات الاختصار للتنبؤ، دون تحقيق فهم اللغة الحقيقية. نتيجة لذلك، تفشل هذه النماذج في التعميم إلى بيانات الواقع الحقيقي خارج التوزيع. في هذا العمل، نظهر أن الكلمات الموجودة في مجموعة تدريب NLU يمكن أن تكون على غرارها كتوزيع طويل الذيل. هناك نتائج توصلتان: 1) نماذج NLU لها تفضيل قوي للميزات الموجودة في رأس التوزيع الطويل الذيل، و 2) يتم التقاط ميزات الاختصار خلال التكرارات القليلة المبكرة للغاية للتدريب النموذجي. يتم استخدام هاتين الملاحمينين أيضا لصياغة قياس يمكن تحديد درجة الاختصار من كل عينة تدريبية. استنادا إلى قياس الاختصار هذا، نقترح وضع إطار تخفيف الاختصار LGTR، لقمع النموذج من إصدار تنبؤات مكثفة للعينات مع درجة اختصار كبيرة. النتائج التجريبية على ثلاثة معايير NLU توضح أن شرح التوزيع طويل الذيل يعكس بدقة سلوك التعلم الاختصار لنماذج NLU. يشير التحليل التجريبي كذلك إلى أن LGTR يمكن أن يحسن دقة التعميم على بيانات OOD، مع الحفاظ على الدقة على بيانات التوزيع.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث