يتم قبولها على نطاق واسع أن نماذج اللغة المدربة مسبقا بشكل كبير توفر عادة تحسينات الأداء في مهام المصب. ومع ذلك، هناك دراسات محدودة حول الأسباب الكامنة وراء هذه الفعالية، لا سيما من وجهة نظر التغييرات الهيكلية في مساحة التضمين. في محاولة لملء هذه الفجوة، في هذه الورقة، نقوم بتحليل المدى الذي يتغير فيه iSotropy من مساحة التضمين بعد ضبط الدقيقة. نوضح ذلك، على الرغم من أن ISOTROPY هي خاصية هندسية مرغوبة، لا يؤدي الضبط بشكل جيد بالضرورة إلى تحسينات ISOTROPY. علاوة على ذلك، تخضع الهياكل المحلية في تمثيلات الكلمات السياقية المدربة مسبقا (CWRS)، مثل تلك الأنواع أو التردد المميز للترميز، من تغيير هائل أثناء الضبط الجمني. تظهر تجاربنا نموا دراماتيكيا في عدد الاتجاهات الممدودة في مساحة التضمين، والتي، على النقيض من CWRS المدربة مسبقا، تحمل المعرفة اللغوية الأساسية في مساحة التضمين الدقيقة، مما يجعل أساليب تعزيز ISOTROPY الحالية غير فعالة.
It is widely accepted that fine-tuning pre-trained language models usually brings about performance improvements in downstream tasks. However, there are limited studies on the reasons behind this effectiveness, particularly from the viewpoint of structural changes in the embedding space. Trying to fill this gap, in this paper, we analyze the extent to which the isotropy of the embedding space changes after fine-tuning. We demonstrate that, even though isotropy is a desirable geometrical property, fine-tuning does not necessarily result in isotropy enhancements. Moreover, local structures in pre-trained contextual word representations (CWRs), such as those encoding token types or frequency, undergo a massive change during fine-tuning. Our experiments show dramatic growth in the number of elongated directions in the embedding space, which, in contrast to pre-trained CWRs, carry the essential linguistic knowledge in the fine-tuned embedding space, making existing isotropy enhancement methods ineffective.
المراجع المستخدمة
https://aclanthology.org/