في حين أن الأداء التنبئي لمحطات التبعية الإحصائية الحديثة يعتمد بشدة على توافر بيانات Treebank المشروح باهظة الثمن، إلا أن جميع التعليقات التعليقات التوضيحية تسهم على قدم المساواة في تدريب المحللين.في هذه الورقة، نحاول تقليل عدد الأمثلة المسماة اللازمة لتدريب محلل التبعية القوي باستخدام دفعة التعلم النشطة (AL).على وجه الخصوص، يمكننا التحقيق فيما إذا كانت تنفذ التنوع في دفعات العينات، باستخدام عمليات النقاط الحتمية (DPPS)، يمكن أن تتحسن من نظرائها التنوع المرجح.تظهر تجارب المحاكاة على كوربوس الإنجليزي Newswire أن اختيار دفعات متنوعة مع DPPS متفوقة على استراتيجيات الاختيار القوية التي لا تنفذ التنوع الدفاعي، خاصة خلال المراحل الأولية لعملية التعلم.بالإضافة إلى ذلك، فإن استراتيجيتنا الإدراك الخاصة بالتنوع قوية بموجب إعداد ازدواجية كوربوس، حيث تظهر استراتيجيات أخذ العينات اللاإرادية للتنوع تدهورا كبيرا.
While the predictive performance of modern statistical dependency parsers relies heavily on the availability of expensive expert-annotated treebank data, not all annotations contribute equally to the training of the parsers. In this paper, we attempt to reduce the number of labeled examples needed to train a strong dependency parser using batch active learning (AL). In particular, we investigate whether enforcing diversity in the sampled batches, using determinantal point processes (DPPs), can improve over their diversity-agnostic counterparts. Simulation experiments on an English newswire corpus show that selecting diverse batches with DPPs is superior to strong selection strategies that do not enforce batch diversity, especially during the initial stages of the learning process. Additionally, our diversity-aware strategy is robust under a corpus duplication setting, where diversity-agnostic sampling strategies exhibit significant degradation.
المراجع المستخدمة
https://aclanthology.org/
الحجج عالية الجودة هي جزء أساسي من صنع القرار.توقع جودة الوسيطة تلقائيا هي مهمة معقدة حصلت مؤخرا على الكثير من الاهتمام في تعدين الحجة.ومع ذلك، فإن جهود التوضيحية لهذه المهمة مرتفعة بشكل استثنائي.لذلك، نختبر أساليب التعلم النشطة القائمة على عدم اليقي
تهدف محاذاة الكيان (EA) إلى مطابقة الكيانات المكافئة عبر الرسوم البيانية المعرفة المختلفة (KGS) وهي خطوة أساسية من KG Fusion. الأساليب الرئيسية الحالية - نماذج عصام العصبية - تعتمد على التدريب مع محاذاة البذور، أي مجموعة من أزواج كيان ما قبل الانحياز
تحليل التبعية عبر المجال غير الخاضع للإكمال هو إنجاز تكيف مجال تحليل التبعية دون استخدام البيانات المسمى في المجال المستهدف. غالبا ما تكون الأساليب الحالية من نوع التوضيح الزائفة، والتي تنشئ البيانات من خلال التوضيح الذاتي للنموذج الأساسي وأداء التدر
الترجمة الآلية العصبية (NMT) حساسة لتحويل المجال. في هذه الورقة، نتعامل مع هذه المشكلة في إعداد تعليمي نشط حيث يمكننا أن نقضي ميزانية معينة في ترجمة البيانات داخل المجال، وتصفح تدريجيا نموذج NMT خارج المجال المدرب مسبقا على البيانات المترجمة حديثا. ع
تم عرض التعلم النشط للحد من متطلبات التوضيحية للعديد من مهام معالجة اللغة الطبيعية، بما في ذلك وضع العلامات الدلالية (SRL).تنطوي SRL على وسيطة وسيطة تمتد من أجل المحتمل أن يحتمل أن يتسرب المتعددة في جملة، مما يجعل من الصعب تجميع القرارات العديدة في د