يتم قبولها على نطاق واسع أن نماذج اللغة المدربة مسبقا بشكل كبير توفر عادة تحسينات الأداء في مهام المصب. ومع ذلك، هناك دراسات محدودة حول الأسباب الكامنة وراء هذه الفعالية، لا سيما من وجهة نظر التغييرات الهيكلية في مساحة التضمين. في محاولة لملء هذه الفجوة، في هذه الورقة، نقوم بتحليل المدى الذي يتغير فيه iSotropy من مساحة التضمين بعد ضبط الدقيقة. نوضح ذلك، على الرغم من أن ISOTROPY هي خاصية هندسية مرغوبة، لا يؤدي الضبط بشكل جيد بالضرورة إلى تحسينات ISOTROPY. علاوة على ذلك، تخضع الهياكل المحلية في تمثيلات الكلمات السياقية المدربة مسبقا (CWRS)، مثل تلك الأنواع أو التردد المميز للترميز، من تغيير هائل أثناء الضبط الجمني. تظهر تجاربنا نموا دراماتيكيا في عدد الاتجاهات الممدودة في مساحة التضمين، والتي، على النقيض من CWRS المدربة مسبقا، تحمل المعرفة اللغوية الأساسية في مساحة التضمين الدقيقة، مما يجعل أساليب تعزيز ISOTROPY الحالية غير فعالة.
It is widely accepted that fine-tuning pre-trained language models usually brings about performance improvements in downstream tasks. However, there are limited studies on the reasons behind this effectiveness, particularly from the viewpoint of structural changes in the embedding space. Trying to fill this gap, in this paper, we analyze the extent to which the isotropy of the embedding space changes after fine-tuning. We demonstrate that, even though isotropy is a desirable geometrical property, fine-tuning does not necessarily result in isotropy enhancements. Moreover, local structures in pre-trained contextual word representations (CWRs), such as those encoding token types or frequency, undergo a massive change during fine-tuning. Our experiments show dramatic growth in the number of elongated directions in the embedding space, which, in contrast to pre-trained CWRs, carry the essential linguistic knowledge in the fine-tuned embedding space, making existing isotropy enhancement methods ineffective.
References used
https://aclanthology.org/
Recent work has raised concerns about the inherent limitations of text-only pretraining. In this paper, we first demonstrate that reporting bias, the tendency of people to not state the obvious, is one of the causes of this limitation, and then inves
Natural conversations are filled with disfluencies. This study investigates if and how BERT understands disfluency with three experiments: (1) a behavioural study using a downstream task, (2) an analysis of sentence embeddings and (3) an analysis of
The problem of interpretation of knowledge learned by multi-head self-attention in transformers has been one of the central questions in NLP. However, a lot of work mainly focused on models trained for uni-modal tasks, e.g. machine translation. In th
In cross-lingual language models, representations for many different languages live in the same space. Here, we investigate the linguistic and non-linguistic factors affecting sentence-level alignment in cross-lingual pretrained language models for 1
Byte-pair encoding (BPE) is a ubiquitous algorithm in the subword tokenization process of language models as it provides multiple benefits. However, this process is solely based on pre-training data statistics, making it hard for the tokenizer to han