ندرس كيف يمكن أن يؤدي اخفاء وتنبؤ الرموز في الأزياء غير المنشأة إلى الهياكل اللغوية ومكاسب أداء المصب. اقترحت النظريات الحديثة أن نماذج اللغة المحددة مسبقا تكتسب تحيزات حثي مفيدة من خلال الأقنعة التي تعمل ضمنيا كتخفيض كتفل لمهام المصب. في حين أننا ننظر إلى أن نجاح استراتيجية الاخفاء العشوائية المستخدمة في الممارسة لا يمكن تفسيره بواسطة أقنعة مثل كلوزي وحدها. نحن نبني أقنعة تشبه الكتبة باستخدام المعجمات الخاصة بمهام المهام لثلاث مجموعات بيانات تصنيف مختلفة وإظهار أن غالبية مكاسب الأداء المسبدة مسبقا تأتي من أقنعة عامة لا ترتبط مع المعجم. لشرح النجاح التجريبي لهذه الأقنعة العامة هذه، نوضح مراسلات بين هدف اللغة المعقدة (MLM) والأساليب الموجودة لتعلم التبعيات الإحصائية في النماذج الرسومية. باستخدام هذا، نستمد طريقة لاستخراج هذه التبعيات الإحصائية المستفادة في MLMS وإظهار أن هذه التبعيات ترميز تحيزات حثي مفيدة في شكل هياكل النحوية. في تقييم تحليل غير مدفوع، ببساطة تشكيل شجرة ممتدة كحد أدنى على هيكل الاعتماد الإحصائي الضمني تتفوق على طريقة كلاسيكية لتحليل غير معروض (58.74 مقابل 55.91 Uuas).
We study how masking and predicting tokens in an unsupervised fashion can give rise to linguistic structures and downstream performance gains. Recent theories have suggested that pretrained language models acquire useful inductive biases through masks that implicitly act as cloze reductions for downstream tasks. While appealing, we show that the success of the random masking strategy used in practice cannot be explained by such cloze-like masks alone. We construct cloze-like masks using task-specific lexicons for three different classification datasets and show that the majority of pretrained performance gains come from generic masks that are not associated with the lexicon. To explain the empirical success of these generic masks, we demonstrate a correspondence between the Masked Language Model (MLM) objective and existing methods for learning statistical dependencies in graphical models. Using this, we derive a method for extracting these learned statistical dependencies in MLMs and show that these dependencies encode useful inductive biases in the form of syntactic structures. In an unsupervised parsing evaluation, simply forming a minimum spanning tree on the implied statistical dependence structure outperforms a classic method for unsupervised parsing (58.74 vs. 55.91 UUAS).
المراجع المستخدمة
https://aclanthology.org/
يعادل الافتقار إلى بيانات التقييم المتاحة للجمهور لغات الموارد المنخفضة التقدم المحرز في فهم اللغة المنطوقة (SLU).نظرا لأن المهام الرئيسية مثل تصنيف النوايا وملء الفتحات تتطلب بيانات تدريبية وفيرة، فمن المستحسن إعادة استخدام البيانات الحالية بلغات ال
نحن تصف مهمة IWPT الثانية على تحليل نهاية إلى نهاية من النص الخام لتعزيز التبعيات العالمية.نحن نقدم تفاصيل حول مقاييس التقييم ومجموعات البيانات المستخدمة للتدريب والتقييم.قارنا النهج التي اتخذتها الفرق المشاركة ومناقشة نتائج المهمة المشتركة، والمقارنة أيضا مع الطبعة الأولى من هذه المهمة.
غالبا ما يتطلب فهم الروايات بالكامل من الأحداث في سياق المستندات بأكملها ونمذجة علاقات الحدث.ومع ذلك، فإن استخراج الأحداث على مستوى المستند هو مهمة صعبة لأنها تتطلب استخراج الحدث والكيان الأساسية، والتقاط الحجج التي تمتد عبر جمل مختلفة.تعمل الأعمال ا
وقد تبين أن نماذج اللغة ذات الضبط بذاتها أن تظهر تحيزات ضد المجموعات المحمية في مجموعة من مهام النمذجة مثل تصنيف النص ودقة Aqueference. تركز الأشغال السابقة على اكتشاف هذه التحيزات، وتقليل التحيز في تمثيلات البيانات، واستخدام أهداف التدريب الإضافية ل
في هذه الورقة، ندرس التحيز العرقي وكيف يختلف عبر اللغات عن طريق تحليل التحيز الإثني والتخفيف من التحيز الإثني في بيرت أحادي اللغة الإنجليزية والألمانية والإسبانية والكورية والتركية والصينية.لاحظ وتحديد التحيز العرقي، ونحن نطور مترا مربعا يسمى درجة ال