ترغب بنشر مسار تعليمي؟ اضغط هنا

ليست كل الخطوط الإخطارية هي بالتساوي البيانات الجائعة في تحليل وضع التسلسل

Not All Linearizations Are Equally Data-Hungry in Sequence Labeling Parsing

366   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تم اقتراح تغييرات مختلفة لإلقاء تحليل التبعية كوسيلة تسلسل وحل المهمة على النحو التالي: (1) مشكلة اختيار الرأس، (II) العثور على تمثيل للأقواس الرمز المميز كسلاسل قوس، أو (3) ربط تسلسل انتقال جزئي من أالمحلل المحلل القائم على الانتقال إلى الكلمات.ومع ذلك، لا يوجد تفاهم ضئيل حول كيفية التصرف هذه الخطية في إعدادات الموارد المنخفضة.هنا، ندرس أولا كفاءة البيانات الخاصة بهم، محاكاة الإعدادات المقيدة بالبيانات من مجموعة متنوعة من Treebanks Result Resource.ثانيا، نختبر ما إذا كانت هذه الاختلافات تظهر في إعدادات الموارد المنخفضة حقا.تظهر النتائج أن ترميزات اختيار الرأس أكثر كفاءة في البيانات وأداء أفضل في إطار مثالي (ذهب)، ولكن هذه الميزة تختفي إلى حد كبير لصالح التنسيقات القوسين عندما يشبه الإعداد قيد التشغيل تكوين الموارد المنخفضة في العالم الحقيقي.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تعد اعتدال تعليقات القارئ مشكلة كبيرة لمنصات الأخبار عبر الإنترنت.هنا، نقوم بتجربة النماذج للاعتدال التلقائي، باستخدام مجموعة بيانات من التعليقات من جريدة كرواتية شعبية.يوضح تحليلنا أنه في حين أن التعليقات التي تنتهك القواعد الاعتدالية تشترك في الغال ب على ميزات اللغوية والمواضيعية المشتركة، يختلف محتواها عبر أقسام الجريدة المختلفة.لذلك، نجعل نماذجنا تدرك موضوعنا، دمج الميزات الدلالية من نموذج موضوع في قرار التصنيف.تظهر نتائجنا أن معلومات الموضوع تعمل على تحسين أداء النموذج، ويزيد من ثقتها في المخرجات الصحيحة، وتساعدنا على فهم مخرجات النموذج.
تنطوي تصنيف الحبيبات الجميلة على التعامل مع مجموعات البيانات مع عدد أكبر من الفصول مع الاختلافات الدقيقة بينهما.إن توجيه النموذج إلى التركيز على أبعاد التفريق بين هذه الفئات القابلة للتصريفية بشكل شائع هو مفتاح تحسين الأداء في مهام الحبيبات الجميلة.ف ي هذا العمل، نقوم بتحليل ضبط النماذج الصعبة المتناقضة من النماذج المدربة مسبقا على مهام تصنيف نصية جيدة الحجم، وتصنيف العاطفة وتحليل المعنويات.قمنا بتضمين علاقات فئة على تكيفا في وظيفة موضوعية مناقصة للمساعدة في وزن الإيجابيات والسلبيات بشكل مختلف، وعلى وجه الخصوص، ترجغ السلبيات المربكة عن كثب أكثر من أمثلة سلبية أقل مماثلة.نجد أن الخسارة على علم التسمية التي تدركها تتفوق على الأساليب المتعاقبة السابقة، في وجود عدد أكبر و / أو فئات أكبر من الفئات القابلة للتصريف، وتساعد النماذج على إنتاج توزيعات الإخراج التي يتم تمييزها أكثر.
تعرف مهمة تحويل نص غير قياسي إلى نص قياسي وقابل للقراءة باسم التطبيع المعجمي. تتطلب جميع تطبيقات معالجة اللغة الطبيعية تقريبا (NLP) البيانات النصية في النموذج الطبيعي لإنشاء نماذج محددة ذات جودة عالية. وبالتالي، فقد ثبت التطبيع المعجمي لتحسين أداء ال عديد من مهام معالجة اللغة الطبيعية على وسائل التواصل الاجتماعي. تهدف هذه الدراسة إلى حل مشكلة التطبيع المعجمي من خلال صياغة مهمة التطبيع المعجمية مشكلة وضع علامة تسلسل. تقترح هذه الورقة نهج وضع علامة تسلسل لحل مشكلة التطبيع المعجمي في تركيبة مع تقنية محاذاة الكلمة. الهدف هو استخدام نموذج واحد لتطبيع النص باللغات المختلفة وهي الكرواتية والدنماركية والهولندية والإنجليزية والإندونيسية والإنجليزية والألمانية والإيطالية والصربية والسلوفينية والإسبانية والتركية والتركية والألمانية والألمانية. هذه مهمة مشتركة في عام 2021 ورشة العمل السابعة حول النص الناتج عن المستخدم الصاخب (W-NUT) "" من المتوقع أن يقوم المشاركون بإنشاء نظام / نموذج يقوم بتنفيذ التطبيع المعجمي، وهو ترجمة النصوص غير القانونية في تعادلهم الكنسي، الذين يشتملون على بيانات من أكثر من 12 لغة. يحقق النموذج المتعدد اللغوي المقترح نتيجة ERS الإجمالية من 43.75 بشأن التقييم الجوهري ونتيجة إجمالي درجة المرفقات (LAS) من 63.12 على التقييم الخارجي. علاوة على ذلك، تحقق الطريقة المقترحة أعلى نقاط معدل تخفيض الأخطاء (ERR) من 61.33 من بين المشاركين في المهمة المشتركة. تسلط هذه الدراسة الضوء على آثار استخدام بيانات تدريب إضافية للحصول على نتائج أفضل وكذلك استخدام نموذج لغة مدرب مسبقا تدرب على لغات متعددة بدلا من لغة واحدة فقط.
ثبت أن دمج المعرفة المعجمية في نماذج التعلم العميق قد تكون فعالة للغاية لمهام وضع التسلسل.ومع ذلك، فإن الأمر السابق يعمل عادة صعوبة في التعامل مع المعجم الديناميكي النطاق الذي يسبب غالبا ضوضاء مطابقة مفرطة ومشاكل التحديثات المتكررة.في هذه الورقة، نقت رح Dylex، ونهج تأريك معجم التوصيل لمهام تسلسل التسلسل القائمة على بيرت.بدلا من الاستفادة من تضمين الكلمات في المعجم في الأساليب التقليدية، فإننا نعتمد تضمين العلامات اللاإرادي للكلمة لتجنب إعادة تدريب التمثيل أثناء تحديث المعجم.علاوة على ذلك، فإننا نوظف طريقة تنظيف المعرفة المعلنة المعجمية الفعالة لإعلام الضوضاء المطابقة.وأخيرا، نقدم آلية الانتباه المعرفة القائم على العقيد الحكيمة لضمان استقرار الإطار المقترح.تجارب تجارب عشرة مجموعات من ثلاث مهام تشير إلى أن الإطار المقترح يحقق سوتا جديدة، حتى مع المعجم على نطاق واسع جدا.
في حين أن Framenet تعتبر على نطاق واسع كمورد غني من الدلالات في معالجة اللغات الطبيعية، فإن النقد الرئيسي يتعلق بعدم وجود تغطية وندرة نسبية لبياناتها المسمدة مقارنة بالموارد المعمارية الأخرى المستخدمة مثل Propbank و Verbnet. تقارير الورقة هذه عن دراس ة تجريبية لمعالجة هذه الفجوات. نقترح نهج تكبير البيانات، والذي يستخدم التعليق التوضيحي الخاص بالإطار الحالي لإشراف الوحدات المعجمية الأخرى تلقائيا من نفس الإطار الذي يتم الكشف عنه. يحدد نهجنا القائم على القواعد فكرة الوحدة المعجمية الشقيقة ** وإنشاء بيانات معدنية خاصة بالإطار للتدريب. نقدم تجارب على وضع علامات الدور الدلالية الإطارية التي توضح أهمية تكبير البيانات هذا: نحصل على تحسن كبير في النتائج السابقة لتعريف الإطار وتحديد الوسيطة من أجل Framenet، والاستفادة من كل من النص التوضيحية والتعمادي بموجب Framenet. تسليط نتائج نتائجنا على زيادة البيانات بقيمة إنشاء الموارد التلقائي للنماذج المحسنة في تحليل الإطار الدلالي.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا