تم اقتراح تغييرات مختلفة لإلقاء تحليل التبعية كوسيلة تسلسل وحل المهمة على النحو التالي: (1) مشكلة اختيار الرأس، (II) العثور على تمثيل للأقواس الرمز المميز كسلاسل قوس، أو (3) ربط تسلسل انتقال جزئي من أالمحلل المحلل القائم على الانتقال إلى الكلمات.ومع ذلك، لا يوجد تفاهم ضئيل حول كيفية التصرف هذه الخطية في إعدادات الموارد المنخفضة.هنا، ندرس أولا كفاءة البيانات الخاصة بهم، محاكاة الإعدادات المقيدة بالبيانات من مجموعة متنوعة من Treebanks Result Resource.ثانيا، نختبر ما إذا كانت هذه الاختلافات تظهر في إعدادات الموارد المنخفضة حقا.تظهر النتائج أن ترميزات اختيار الرأس أكثر كفاءة في البيانات وأداء أفضل في إطار مثالي (ذهب)، ولكن هذه الميزة تختفي إلى حد كبير لصالح التنسيقات القوسين عندما يشبه الإعداد قيد التشغيل تكوين الموارد المنخفضة في العالم الحقيقي.
Different linearizations have been proposed to cast dependency parsing as sequence labeling and solve the task as: (i) a head selection problem, (ii) finding a representation of the token arcs as bracket strings, or (iii) associating partial transition sequences of a transition-based parser to words. Yet, there is little understanding about how these linearizations behave in low-resource setups. Here, we first study their data efficiency, simulating data-restricted setups from a diverse set of rich-resource treebanks. Second, we test whether such differences manifest in truly low-resource setups. The results show that head selection encodings are more data-efficient and perform better in an ideal (gold) framework, but that such advantage greatly vanishes in favour of bracketing formats when the running setup resembles a real-world low-resource configuration.
المراجع المستخدمة
https://aclanthology.org/
تعد اعتدال تعليقات القارئ مشكلة كبيرة لمنصات الأخبار عبر الإنترنت.هنا، نقوم بتجربة النماذج للاعتدال التلقائي، باستخدام مجموعة بيانات من التعليقات من جريدة كرواتية شعبية.يوضح تحليلنا أنه في حين أن التعليقات التي تنتهك القواعد الاعتدالية تشترك في الغال
تنطوي تصنيف الحبيبات الجميلة على التعامل مع مجموعات البيانات مع عدد أكبر من الفصول مع الاختلافات الدقيقة بينهما.إن توجيه النموذج إلى التركيز على أبعاد التفريق بين هذه الفئات القابلة للتصريفية بشكل شائع هو مفتاح تحسين الأداء في مهام الحبيبات الجميلة.ف
تعرف مهمة تحويل نص غير قياسي إلى نص قياسي وقابل للقراءة باسم التطبيع المعجمي. تتطلب جميع تطبيقات معالجة اللغة الطبيعية تقريبا (NLP) البيانات النصية في النموذج الطبيعي لإنشاء نماذج محددة ذات جودة عالية. وبالتالي، فقد ثبت التطبيع المعجمي لتحسين أداء ال
ثبت أن دمج المعرفة المعجمية في نماذج التعلم العميق قد تكون فعالة للغاية لمهام وضع التسلسل.ومع ذلك، فإن الأمر السابق يعمل عادة صعوبة في التعامل مع المعجم الديناميكي النطاق الذي يسبب غالبا ضوضاء مطابقة مفرطة ومشاكل التحديثات المتكررة.في هذه الورقة، نقت
في حين أن Framenet تعتبر على نطاق واسع كمورد غني من الدلالات في معالجة اللغات الطبيعية، فإن النقد الرئيسي يتعلق بعدم وجود تغطية وندرة نسبية لبياناتها المسمدة مقارنة بالموارد المعمارية الأخرى المستخدمة مثل Propbank و Verbnet. تقارير الورقة هذه عن دراس