تشير الدراسات الحديثة إلى أن نماذج NLU عرضة للإعتماد على ميزات الاختصار للتنبؤ، دون تحقيق فهم اللغة الحقيقية. نتيجة لذلك، تفشل هذه النماذج في التعميم إلى بيانات الواقع الحقيقي خارج التوزيع. في هذا العمل، نظهر أن الكلمات الموجودة في مجموعة تدريب NLU يمكن أن تكون على غرارها كتوزيع طويل الذيل. هناك نتائج توصلتان: 1) نماذج NLU لها تفضيل قوي للميزات الموجودة في رأس التوزيع الطويل الذيل، و 2) يتم التقاط ميزات الاختصار خلال التكرارات القليلة المبكرة للغاية للتدريب النموذجي. يتم استخدام هاتين الملاحمينين أيضا لصياغة قياس يمكن تحديد درجة الاختصار من كل عينة تدريبية. استنادا إلى قياس الاختصار هذا، نقترح وضع إطار تخفيف الاختصار LGTR، لقمع النموذج من إصدار تنبؤات مكثفة للعينات مع درجة اختصار كبيرة. النتائج التجريبية على ثلاثة معايير NLU توضح أن شرح التوزيع طويل الذيل يعكس بدقة سلوك التعلم الاختصار لنماذج NLU. يشير التحليل التجريبي كذلك إلى أن LGTR يمكن أن يحسن دقة التعميم على بيانات OOD، مع الحفاظ على الدقة على بيانات التوزيع.
Recent studies indicate that NLU models are prone to rely on shortcut features for prediction, without achieving true language understanding. As a result, these models fail to generalize to real-world out-of-distribution data. In this work, we show that the words in the NLU training set can be modeled as a long-tailed distribution. There are two findings: 1) NLU models have strong preference for features located at the head of the long-tailed distribution, and 2) Shortcut features are picked up during very early few iterations of the model training. These two observations are further employed to formulate a measurement which can quantify the shortcut degree of each training sample. Based on this shortcut measurement, we propose a shortcut mitigation framework LGTR, to suppress the model from making overconfident predictions for samples with large shortcut degree. Experimental results on three NLU benchmarks demonstrate that our long-tailed distribution explanation accurately reflects the shortcut learning behavior of NLU models. Experimental analysis further indicates that LGTR can improve the generalization accuracy on OOD data, while preserving the accuracy on in-distribution data.
References used
https://aclanthology.org/
In this paper, we investigate the Domain Generalization (DG) problem for supervised Paraphrase Identification (PI). We observe that the performance of existing PI models deteriorates dramatically when tested in an out-of-distribution (OOD) domain. We
Incremental processing allows interactive systems to respond based on partial inputs, which is a desirable property e.g. in dialogue agents. The currently popular Transformer architecture inherently processes sequences as a whole, abstracting away th
Modern deep learning models for natural language processing rely heavily on large amounts of annotated texts. However, obtaining such texts may be difficult when they contain personal or confidential information, for example, in health or legal domai
We analyze if large language models are able to predict patterns of human reading behavior. We compare the performance of language-specific and multilingual pretrained transformer models to predict reading time measures reflecting natural human sente
Deep neural language models such as BERT have enabled substantial recent advances in many natural language processing tasks. However, due to the effort and computational cost involved in their pre-training, such models are typically introduced only f