تم تنفيذ العديد من الدراسات على الكشف عن الميزات اللغوية التي أسرتها بيرت. يتم تحقيق ذلك عادة من خلال تدريب مصنف تشخيصي على تمثيلات تم الحصول عليها من طبقات مختلفة من بيرت. ثم يتم تفسير دقة التصنيف اللاحقة على أنها قدرة النموذج في ترميز الممتلكات اللغوية المقابلة. على الرغم من تقديم رؤى، فقد تركت هذه الدراسات الدور المحتمل لتمثيلات الرمز المميز. في هذه الورقة، نقدم تحليلا أكثر متعمقا حول مساحة تمثيل بيرت بحثا عن مساحات فرعية متميزة وذات مغزى يمكن أن تفسر الأسباب الكامنة وراء هذه النتائج التحقيق. بناء على مجموعة من المهام التحقيق ومع مساعدة أساليب الإسناد، نوضح أن بيرت يميل إلى تشفير المعرفة الهادفة في تمثيلات رمزية محددة (والتي غالبا ما يتم تجاهلها في إعدادات التصنيف القياسية)، مما يسمح للنموذج بالكشف عن تشوهات النحوية والدلالية، ولل منفصلة بشكل مميز رقم النحوي والضواس الفرعية المتوترة.
Several studies have been carried out on revealing linguistic features captured by BERT. This is usually achieved by training a diagnostic classifier on the representations obtained from different layers of BERT. The subsequent classification accuracy is then interpreted as the ability of the model in encoding the corresponding linguistic property. Despite providing insights, these studies have left out the potential role of token representations. In this paper, we provide a more in-depth analysis on the representation space of BERT in search for distinct and meaningful subspaces that can explain the reasons behind these probing results. Based on a set of probing tasks and with the help of attribution methods we show that BERT tends to encode meaningful knowledge in specific token representations (which are often ignored in standard classification setups), allowing the model to detect syntactic and semantic abnormalities, and to distinctively separate grammatical number and tense subspaces.
المراجع المستخدمة
https://aclanthology.org/
استخراج الأحداث على مستوى المستند أمر بالغ الأهمية لمختلف مهام معالجة اللغة الطبيعية لتوفير معلومات منظمة.النهج الحالية عن طريق النمذجة المتسلسلة إهمال الهياكل المنطقية المعقدة للنصوص الطويلة.في هذه الورقة، نستفيد بين تفاعلات الكيان وتفاعلات الجملة خ
تركز معظم مهام الإجابة على معظم الأسئلة على التنبؤ بإجابات ملموسة، مثل الكيانات المسماة.يمكن تحقيق هذه المهام عادة عن طريق فهم السياقات دون وجود معلومات إضافية مطلوبة.في قراءة الفهم من المهمة المعنى التجريدي (إعادة التقييم)، يتم تقديم الإجابات المجرد
في هذه الورقة، نقترحنا بمحاذاة تمثيلات الجملة من لغات مختلفة إلى مساحة تضمين موحدة، حيث يمكن حساب أوجه التشابه الدلالي (كل من الصليب اللغوي والأونولينغ) بمنتج نقطة بسيطة.نماذج اللغة المدربة مسبقا صقلها بشكل جيد مع مهمة تصنيف الترجمة.يستخدم العمل الحا
غالبا ما تكون نماذج اللغة المدربة مسبقا مسبقا (PLMS) باهظة الثمن بشكل أساسي في الاستدلال، مما يجعلها غير عملية في مختلف تطبيقات العالم الحقيقي المحدودة. لمعالجة هذه المشكلة، نقترح مقاربة تخفيض رمزية ديناميكية لتسريع استنتاج PLMS، والتي تسمى Tr-Bert،
تتميز هذه المراجعات الورقية بهذه الأساليب الهندسية للتنبؤ بمستوى تعقيد الكلمات الإنجليزية في سياق معين باستخدام تقنيات الانحدار.احتلت أفضل طلب لدينا في مهمة التعقيد المعجمية (LCP) المرتبة الثالثة من 48 شركة للمهمة الفرعية 1 وحققت معاملات ارتباط بيرسو