في حين أن الأداء التنبئي لمحطات التبعية الإحصائية الحديثة يعتمد بشدة على توافر بيانات Treebank المشروح باهظة الثمن، إلا أن جميع التعليقات التعليقات التوضيحية تسهم على قدم المساواة في تدريب المحللين.في هذه الورقة، نحاول تقليل عدد الأمثلة المسماة اللازمة لتدريب محلل التبعية القوي باستخدام دفعة التعلم النشطة (AL).على وجه الخصوص، يمكننا التحقيق فيما إذا كانت تنفذ التنوع في دفعات العينات، باستخدام عمليات النقاط الحتمية (DPPS)، يمكن أن تتحسن من نظرائها التنوع المرجح.تظهر تجارب المحاكاة على كوربوس الإنجليزي Newswire أن اختيار دفعات متنوعة مع DPPS متفوقة على استراتيجيات الاختيار القوية التي لا تنفذ التنوع الدفاعي، خاصة خلال المراحل الأولية لعملية التعلم.بالإضافة إلى ذلك، فإن استراتيجيتنا الإدراك الخاصة بالتنوع قوية بموجب إعداد ازدواجية كوربوس، حيث تظهر استراتيجيات أخذ العينات اللاإرادية للتنوع تدهورا كبيرا.
While the predictive performance of modern statistical dependency parsers relies heavily on the availability of expensive expert-annotated treebank data, not all annotations contribute equally to the training of the parsers. In this paper, we attempt to reduce the number of labeled examples needed to train a strong dependency parser using batch active learning (AL). In particular, we investigate whether enforcing diversity in the sampled batches, using determinantal point processes (DPPs), can improve over their diversity-agnostic counterparts. Simulation experiments on an English newswire corpus show that selecting diverse batches with DPPs is superior to strong selection strategies that do not enforce batch diversity, especially during the initial stages of the learning process. Additionally, our diversity-aware strategy is robust under a corpus duplication setting, where diversity-agnostic sampling strategies exhibit significant degradation.
References used
https://aclanthology.org/
High-quality arguments are an essential part of decision-making. Automatically predicting the quality of an argument is a complex task that recently got much attention in argument mining. However, the annotation effort for this task is exceptionally
Entity Alignment (EA) aims to match equivalent entities across different Knowledge Graphs (KGs) and is an essential step of KG fusion. Current mainstream methods -- neural EA models -- rely on training with seed alignment, i.e., a set of pre-aligned
Unsupervised cross-domain dependency parsing is to accomplish domain adaptation for dependency parsing without using labeled data in target domain. Existing methods are often of the pseudo-annotation type, which generates data through self-annotation
Neural machine translation (NMT) is sensitive to domain shift. In this paper, we address this problem in an active learning setting where we can spend a given budget on translating in-domain data, and gradually fine-tune a pre-trained out-of-domain N
Active learning has been shown to reduce annotation requirements for numerous natural language processing tasks, including semantic role labeling (SRL). SRL involves labeling argument spans for potentially multiple predicates in a sentence, which mak