تم تنفيذ العديد من الدراسات على الكشف عن الميزات اللغوية التي أسرتها بيرت. يتم تحقيق ذلك عادة من خلال تدريب مصنف تشخيصي على تمثيلات تم الحصول عليها من طبقات مختلفة من بيرت. ثم يتم تفسير دقة التصنيف اللاحقة على أنها قدرة النموذج في ترميز الممتلكات اللغوية المقابلة. على الرغم من تقديم رؤى، فقد تركت هذه الدراسات الدور المحتمل لتمثيلات الرمز المميز. في هذه الورقة، نقدم تحليلا أكثر متعمقا حول مساحة تمثيل بيرت بحثا عن مساحات فرعية متميزة وذات مغزى يمكن أن تفسر الأسباب الكامنة وراء هذه النتائج التحقيق. بناء على مجموعة من المهام التحقيق ومع مساعدة أساليب الإسناد، نوضح أن بيرت يميل إلى تشفير المعرفة الهادفة في تمثيلات رمزية محددة (والتي غالبا ما يتم تجاهلها في إعدادات التصنيف القياسية)، مما يسمح للنموذج بالكشف عن تشوهات النحوية والدلالية، ولل منفصلة بشكل مميز رقم النحوي والضواس الفرعية المتوترة.
Several studies have been carried out on revealing linguistic features captured by BERT. This is usually achieved by training a diagnostic classifier on the representations obtained from different layers of BERT. The subsequent classification accuracy is then interpreted as the ability of the model in encoding the corresponding linguistic property. Despite providing insights, these studies have left out the potential role of token representations. In this paper, we provide a more in-depth analysis on the representation space of BERT in search for distinct and meaningful subspaces that can explain the reasons behind these probing results. Based on a set of probing tasks and with the help of attribution methods we show that BERT tends to encode meaningful knowledge in specific token representations (which are often ignored in standard classification setups), allowing the model to detect syntactic and semantic abnormalities, and to distinctively separate grammatical number and tense subspaces.
References used
https://aclanthology.org/
Document-level event extraction is critical to various natural language processing tasks for providing structured information. Existing approaches by sequential modeling neglect the complex logic structures for long texts. In this paper, we leverage
Most question answering tasks focuses on predicting concrete answers, e.g., named entities. These tasks can be normally achieved by understanding the contexts without additional information required. In Reading Comprehension of Abstract Meaning (ReCA
In this paper, we propose to align sentence representations from different languages into a unified embedding space, where semantic similarities (both cross-lingual and monolingual) can be computed with a simple dot product. Pre-trained language mode
Existing pre-trained language models (PLMs) are often computationally expensive in inference, making them impractical in various resource-limited real-world applications. To address this issue, we propose a dynamic token reduction approach to acceler
This paper revisits feature engineering approaches for predicting the complexity level of English words in a particular context using regression techniques. Our best submission to the Lexical Complexity Prediction (LCP) shared task was ranked 3rd out