تم عرض التعلم النشط للحد من متطلبات التوضيحية للعديد من مهام معالجة اللغة الطبيعية، بما في ذلك وضع العلامات الدلالية (SRL).تنطوي SRL على وسيطة وسيطة تمتد من أجل المحتمل أن يحتمل أن يتسرب المتعددة في جملة، مما يجعل من الصعب تجميع القرارات العديدة في درجة واحدة لتحديد حالات جديدة للتعليق.في هذه الورقة، نطبق طريقتين للحصول على درجات تجميع عبر المسندات المتعددة من أجل اختيار جمل الاستعلام مع طريقتين تقدير اليقين النموذجي: استخدام مخرجات الشبكة العصبية واستخدام التعلم النشط في Bayesian في التسرب عن طريق الخلاف.قارنا هذه الأساليب بثلاثة أسماطية سلبية --- اختيار الجملة العشوائية، تحديد المستندات العشوائية بالكامل، واختيار الجمل مع معظم المتوقع --- وتحليل تأثير هذه الاستراتيجيات لديها على منحنى التعلم فيما يتعلق بتخفيض عدد المشروحالجمل والمسند لتحقيق الأداء العالي.
Active learning has been shown to reduce annotation requirements for numerous natural language processing tasks, including semantic role labeling (SRL). SRL involves labeling argument spans for potentially multiple predicates in a sentence, which makes it challenging to aggregate the numerous decisions into a single score for determining new instances to annotate. In this paper, we apply two ways of aggregating scores across multiple predicates in order to choose query sentences with two methods of estimating model certainty: using the neural network's outputs and using dropout-based Bayesian Active Learning by Disagreement. We compare these methods with three passive baselines --- random sentence selection, random whole-document selection, and selecting sentences with the most predicates --- and analyse the effect these strategies have on the learning curve with respect to reducing the number of annotated sentences and predicates to achieve high performance.
المراجع المستخدمة
https://aclanthology.org/
في هذا العمل، قارننا تجريبيا أساليب استخراج الفصول لمهمة الدور الدلالي (SRL).في حين أن التقدم الأخير الذي يشتمل على تمثيلات محكومة مدربة مسبقا في الترميز العصبية قد حسن بشكل كبير أداء SRL F1 بشأن المعايير الشعبية، فإن التكاليف المهمة وفوائد فك التشفي
دفعت نماذج لغة واسعة النطاق مثل إلمو وفيرت أفق ما هو ممكن في وضع العلامات الدلالية (SRL)، وحل مشكلة خارج المفردات وتمكين النظم المناسبة، لكنها قدمت أيضا تحيزات كبيرة وبعد نقيم ثلاثة محللين SRL حول جمل متعدية بسيطة للغاية مع الأفعال عادة ما يرتبط عادة
في حين أن Framenet تعتبر على نطاق واسع كمورد غني من الدلالات في معالجة اللغات الطبيعية، فإن النقد الرئيسي يتعلق بعدم وجود تغطية وندرة نسبية لبياناتها المسمدة مقارنة بالموارد المعمارية الأخرى المستخدمة مثل Propbank و Verbnet. تقارير الورقة هذه عن دراس
على الرغم من أن التطورات الأخيرة في الهندسة العصبية والتمثيلات المدربة مسبقا قد زادت بشكل كبير من الأداء النموذجي للحدث على وضع العلامات الدلالية الخاضعة للإشراف بالكامل (SRL)، فإن المهمة تظل تحديا لغات حيث تكون بيانات تدريب SRL الإشرافية غير وفيرة.ي
الحجج عالية الجودة هي جزء أساسي من صنع القرار.توقع جودة الوسيطة تلقائيا هي مهمة معقدة حصلت مؤخرا على الكثير من الاهتمام في تعدين الحجة.ومع ذلك، فإن جهود التوضيحية لهذه المهمة مرتفعة بشكل استثنائي.لذلك، نختبر أساليب التعلم النشطة القائمة على عدم اليقي