ندرس كيف يمكن أن يؤدي اخفاء وتنبؤ الرموز في الأزياء غير المنشأة إلى الهياكل اللغوية ومكاسب أداء المصب. اقترحت النظريات الحديثة أن نماذج اللغة المحددة مسبقا تكتسب تحيزات حثي مفيدة من خلال الأقنعة التي تعمل ضمنيا كتخفيض كتفل لمهام المصب. في حين أننا ننظر إلى أن نجاح استراتيجية الاخفاء العشوائية المستخدمة في الممارسة لا يمكن تفسيره بواسطة أقنعة مثل كلوزي وحدها. نحن نبني أقنعة تشبه الكتبة باستخدام المعجمات الخاصة بمهام المهام لثلاث مجموعات بيانات تصنيف مختلفة وإظهار أن غالبية مكاسب الأداء المسبدة مسبقا تأتي من أقنعة عامة لا ترتبط مع المعجم. لشرح النجاح التجريبي لهذه الأقنعة العامة هذه، نوضح مراسلات بين هدف اللغة المعقدة (MLM) والأساليب الموجودة لتعلم التبعيات الإحصائية في النماذج الرسومية. باستخدام هذا، نستمد طريقة لاستخراج هذه التبعيات الإحصائية المستفادة في MLMS وإظهار أن هذه التبعيات ترميز تحيزات حثي مفيدة في شكل هياكل النحوية. في تقييم تحليل غير مدفوع، ببساطة تشكيل شجرة ممتدة كحد أدنى على هيكل الاعتماد الإحصائي الضمني تتفوق على طريقة كلاسيكية لتحليل غير معروض (58.74 مقابل 55.91 Uuas).
We study how masking and predicting tokens in an unsupervised fashion can give rise to linguistic structures and downstream performance gains. Recent theories have suggested that pretrained language models acquire useful inductive biases through masks that implicitly act as cloze reductions for downstream tasks. While appealing, we show that the success of the random masking strategy used in practice cannot be explained by such cloze-like masks alone. We construct cloze-like masks using task-specific lexicons for three different classification datasets and show that the majority of pretrained performance gains come from generic masks that are not associated with the lexicon. To explain the empirical success of these generic masks, we demonstrate a correspondence between the Masked Language Model (MLM) objective and existing methods for learning statistical dependencies in graphical models. Using this, we derive a method for extracting these learned statistical dependencies in MLMs and show that these dependencies encode useful inductive biases in the form of syntactic structures. In an unsupervised parsing evaluation, simply forming a minimum spanning tree on the implied statistical dependence structure outperforms a classic method for unsupervised parsing (58.74 vs. 55.91 UUAS).
References used
https://aclanthology.org/
The lack of publicly available evaluation data for low-resource languages limits progress in Spoken Language Understanding (SLU). As key tasks like intent classification and slot filling require abundant training data, it is desirable to reuse existi
We describe the second IWPT task on end-to-end parsing from raw text to Enhanced Universal Dependencies. We provide details about the evaluation metrics and the datasets used for training and evaluation. We compare the approaches taken by participating teams and discuss the results of the shared task, also in comparison with the first edition of this task.
Fully understanding narratives often requires identifying events in the context of whole documents and modeling the event relations. However, document-level event extraction is a challenging task as it requires the extraction of event and entity core
Fine-tuned language models have been shown to exhibit biases against protected groups in a host of modeling tasks such as text classification and coreference resolution. Previous works focus on detecting these biases, reducing bias in data representa
In this paper, we study ethnic bias and how it varies across languages by analyzing and mitigating ethnic bias in monolingual BERT for English, German, Spanish, Korean, Turkish, and Chinese. To observe and quantify ethnic bias, we develop a novel met