ترغب بنشر مسار تعليمي؟ اضغط هنا

تقييم استعادة محلل التبعية العالمي بنية الوساطة المسند عبر تحليل كمبيوتر

Evaluating Universal Dependency Parser Recovery of Predicate Argument Structure via CompChain Analysis

149   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

إن الانتعاش الدقيق لهيكل الوسائد الواسع من تحليل الاعتماد العالمي (UD) هو أساسي لمهام المصب مثل استخراج الأدوار الدلالية أو تمثيلات الأحداث. تقدم هذه الدراسة على المستحسن، تصنيف التسلسل الهرمي لعلاقات التبعية المستدلة الموجودة داخل تحليل UD. بمثابة دقة تصنيف Compchain بمثابة وكيل لقياس الانتعاش الدقيق لهيكل الوسائد المسند من الجمل مع التضمين. لقد قمنا بتحليل توزيع الملاحظة في Three Treebanks English English، EWT، اللثة والخطوط، وكشف أن هذه Treebanks متناثرة فيما يتعلق بالجمل مع هيكل الوسائد المسند يتضمن تضمين حجة مسند. قمنا بتقييم نماذج خط الأساس SPIPE (V1.2) Conll 2018 (V1.2) الأساس (COMPCHAIN) كمعقل كمبيوتر يعمل بنظام EWT و Gums and Lines UD Treebanks. تشير نتائجنا إلى أن هذه النماذج الأساسية الثلاثة تظهر الأداء الأكثر فقرا في الجمل مع هيكل الوسائد الواسع مع أكثر من مستوى من التضمين؛ استخدمنا Comprains لتوصيف الأخطاء التي تم إجراؤها بواسطة هذه المحللين وتقديم الأمثلة الحالية للضرائب الخاطئة التي تنتجها المحلل المحلل المحدد باستخدام المركبات. لقد قمنا أيضا بتحليل توزيع Comprains في 58 UDBanks UD UDBanks غير الإنجليزية ثم استخدمت Comprains لتقييم نموذج خط الأساس المشترك CONLL'18 لكل من هذه Treebanks. يوضح تحليلنا أن الأداء فيما يتعلق بتصنيف كمبيوتر يحترم ضعيفا ضعيفا فقط مع مقاييس التقييم الرسمية (LAS، MLAS و Blex). نحدد الثغرات في توزيع العقائد في العديد من UD Treebanks، وبالتالي توفير خارطة طريق لكيفية استكمال هذه Treebanks. نستنتج من خلال مناقشة كيفية توفر Comprains منظورا جديدا حول Sparsity بيانات التدريب لمحلل UD، وكذلك دقة تبييض UD الناتج.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

نحن تصف تقديم DCU-EPFL إلى مهمة مشتركة IWPT 2021: من النص الخام لتعزيز التبعيات العالمية. تتضمن المهمة تحليل الرسوم البيانية UD المحسنة، والتي تعد امتدادا لأشجار التبعية الأساسية المصممة لتكون أكثر تسهيلا نحو تمثيل الهيكل الدلالي. يتم التقييم على 29 شجرة Treebanks في 17 لغة ومطلوبة للمشاركين لتحليل البيانات من كل لغة تبدأ من السلاسل الخام. يستخدم نهجنا خط أنابيب Stanza لمعالجة الملفات النصية، XLM-Roberta للحصول على تمثيلات رمزية في السياق، ونموذج تسجيل الحافة والعلامات للتنبؤ الرسم البياني المحسن. أخيرا، ندير نص PostProcessing لضمان جميع مخرجاتنا هي الرسوم البيانية UD المحسنة سارية المفعول. يضع نظامنا السادس من أصل 9 مشاركا مع درجة مرفق محسنة خشنة (ELAS) 83.57. نقوم بإجراء تجارب إضافية بعد الموعد النهائي والتي تشمل استخدام Trankit لمعالجة ما قبل المعالجة، XLM-Roberta Large Protectenation، وتعلم المتعدد التعلم بين محلل التبعية الأساسية والمعززة. جميع هذه التعديلات تحسن النتيجة الأولية ونظامنا النهائي لديه إيلاس خشن 88.04.
تركز معالجة اللغة الطبيعية الحالية بقوة على زيادة الدقة.يأتي التقدم بتكلفة نماذج فائقة الثقيلة مع مئات الملايين أو حتى مليارات المعلمات.ومع ذلك، فإن المهام النحوية البسيطة مثل وضع العلامات على جزء من الكلام (POS) أو تحليل التبعية أو التعرف على الكيان المسمى (NER) لا تحتاج إلى أكبر النماذج لتحقيق نتائج مقبولة.تمشيا مع هذا الافتراض، نحاول تقليل حجم النموذج الذي ينفذ بشكل مشترك جميع المهام الثلاثة.نقدم Comboner: أداة خفيفة الوزن، أوامر ذات حجم أصغر من المحولات الحديثة.يعتمد على مدمج الكلمات الفرعية المدربة مسبقا بنية الشبكة العصبية المتكررة.يعمل COMBONER على بيانات اللغة البولندية.يحتوي النموذج على مخرجات لوضع العلامات على نقاط البيع والتحليل التبعية و NER.تحتوي ورقةنا على بعض الأفكار من ضبط النموذج الدقيق والتقارير عن نتائجها الإجمالية.
نحن تصف محلول Nuig لمهمة IWPT 2021 بمهمة التعبير المعزز (ED) معزز بلغات متعددة.بالنسبة لهذه المهمة المشتركة، نقترح وتقييم محلل إد المحلي المستند SEQ2SEQ SEQ2SEQ ومقرها SEQ2SEQ الذي يتنبأ بمجموعة ED-Parse من جملة مدخلات معينة كأسلسلة موضعية موضعية للن موذج النسبي.نموذجنا المقترح هو شبكة عصبية متعددة الاستخدامات تؤدي خمس مهام رئيسية في وقت واحد وهي وضع علامات UPOS، ووضع العلامات UFEAT، والليمون، والتحليل التبعية والحد من التحليل.علاوة على ذلك، نستخدم النموذج اللغوي المتاح في قاعدة بيانات Wals لتحسين قدرة محللنا المحترفين المقترحين على الانتقال عبر اللغات.تشير النتائج إلى أن SEQ2SEQ ED-Parser المقترح لدينا يؤدي على قدم المساواة مع محلل ED-Art-Art على الرغم من وجود علامة أبسط.
على الرغم من التطورات الحديثة في الدور الدوالي الذي يدفعه ترميز النص المدرب مسبقا مثل بيرت، فإن الأداء يتخلف عند تطبيقه على المسندات لاحظ بشكل غير منتظم أثناء التدريب أو إلى الجمل في مجالات جديدة. في هذا العمل، يمكننا التحقيق في كيفية تحسين أداء وضع العلامات على الدوران المنخفض التردد والبيانات خارج نطاق البيانات باستخدام Verbnet، معجم فعل يضم الأفعال إلى فئات هرمية تستند إلى سلوك النحوية والدلية المشتركة وتحدد التمثيل الدلالي وصف العلاقات بين الحجج. نجد أن فئات Verbnet توفر مستوى فعال من التجريد، وتحسين التعميم على المساكن المنخفض التردد من خلال السماح لهم بالتعلم من الأمثلة التدريبية للندوات الأخرى المنتمدة إلى نفس الفصل. نجد أيضا أن التدريب المشترك لعلامات الدور الحرفية والأزهار المسند للفئات الحرفية للأفعال البسيطة يؤدي إلى تحسينات في كلا المهام، مما يدعم بشكل طبيعي استخراج التمثيلات الدلالية في فيربيت.
نقيم ثلاثة أنظمة محلل التبعية الرائدة من النماذج المختلفة في مجموعة فرعية صغيرة متناثرة من اللغات من حيث أمامي باريتو الكفاءة من دقتها.نظرا لأننا مهتمون بالكفاءة، فإننا نقيم المحللين الأساسيين دون نماذج لغة محددة (لأن هذه شبكات ضخمة وعادة ما تشكل معظ م الوقت لحساب الوقت) أو غيرها من التعزيزات التي يمكن تطبيقها على أي منهم.تظهر تحليل BiAffine كاختيار افتراضي متوازن، مع تحليل وضع العلامات على التسلسل هو الأفضل إذا كانت سرعة الاستدلال (ولكن لا تكلفة الطاقة التدريبية) هي الأولوية.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا