ترغب بنشر مسار تعليمي؟ اضغط هنا

تحسين نموذج التحليل العصبي RST مع اتفاقية الفضة

Improving Neural RST Parsing Model with Silver Agreement Subtrees

367   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تستند معظم طرق تحليل البنية الخطابية السابقة (RST) إلى التعلم الخاضع للإشراف مثل الشبكات العصبية، والتي تتطلب وجعة مشروح من الحجم والجودة الكافية. ومع ذلك، فإن Treebank Treebank RST RST (RST-DT)، والجورباس القياسي للحل الصادر باللغة الإنجليزية، وهو صغير بسبب التعليق التوضيحي بشكل مكلف للأشجار الأولى. عدم وجود بيانات تدريبية كبيرة مشروحة تسبب أداء ضعيف خاصة في العلامات المتعلقة بالعلامات. لذلك، نقترح طريقة لتحسين نماذج التحليل العصبي RST من خلال استغلال البيانات الفضية، أي البيانات المشروحة تلقائيا. نقوم بإنشاء بيانات فضية واسعة النطاق من Corpus غير المستمر باستخدام محلل دائري للحكومة الأولى. للحصول على بيانات فضية عالية الجودة، نستخلص من الاتفاقية من الأشجار الأولى للوثائق التي تم بناؤها باستخدام المحللين RST. بعد ذلك، قم بتدريب المحلل الوراثي العصبي مع البيانات الفضية التي تم الحصول عليها وضبطها بشكل جيد على RST-DT. تظهر النتائج التجريبية أن طريقتنا حققت أفضل درجات Micro-F1 للأرضيات القومية والعلاقة عند 75.0 و 63.2 على التوالي. علاوة على ذلك، حصلنا على مكاسب ملحوظة في درجة العلاقة، 3.0 نقطة، ضد المحللين السابقين من الحديثة.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

التعرف على الكيان المسمى متعدد اللغات (NER) هي مهمة متوسطة رئيسية مطلوبة في العديد من مجالات NLP.في هذه الورقة، نتعلم القضية المعروفة من ندرة البيانات في NER، خاصة ذات الصلة عند الانتقال إلى سيناريو متعدد اللغات، وتتجاوز النهج الحالية لإنشاء بيانات ف ضية متعددة اللغات للمهمة.نستفصل نصوص ويكيبيديا وإدخال منهجية جديدة تستند إلى المزيج الفعال من الأساليب القائمة على المعرفة والنماذج العصبية، إلى جانب تقنية تكيف مجال الرواية، لإنتاج شركة تدريبية عالية الجودة ل NER.نقوم بتقييم مجموعات البيانات الخاصة بنا على نطاق واسع على المعايير القياسية الخاصة ب NER، مما يؤدي إلى تحسينات كبيرة تصل إلى 6 نقاط F1-Score تستند إلى 6 نقاط على أنظمة الحالة السابقة لإنشاء البيانات.
نقدم رواية من أعلى إلى أسفل صياغة نهاية إلى نهاية لخطاب مستوى الوثيقة في إطار نظرية الهيكل البوليكي (RST).في هذه الصياغة، نحن نفكر في تحليل الخطاب كتسلسل لتقسيم القرارات في حدود الرمز المميز واستخدام شبكة SEQ2SEQ لنموذج قرارات تقسيم.يسهل إطار عملنا ت خليل الخطاب من نقطة الصفر دون الحاجة إلى تجزئة خطاب كشرط مسبق؛بدلا من ذلك، فإنه يسبب تجزئة كجزء من عملية التحليل.يعتمد نموذج التحليل الموحد لدينا بحث شعاع لفك تشفير أفضل هيكل الأشجار من خلال البحث من خلال مساحة من أشجار التسجيل العالية.مع تجارب واسعة على TreeBank Standard RST TreeBank، نوضح أن محللنا يتفوقون على الأساليب الموجودة بتهامش جيد في كل من التحليلات المتنامية والتحليل مع تجزئة الذهب.والأهم من ذلك، فإنه يفعل ذلك دون استخدام أي ميزات يدوية، مما يجعلها أسرع ويمكن تكيفها بسهولة مع لغات جديدة ومجالات.
تهدف التعرف على علاقة الخطاب الضمني (IDRR) إلى تحديد العلاقات المنطقية بين جملتين مجاورة في الخطاب.تفشل النماذج الحالية في الاستفادة الكاملة من المعلومات السياقية التي تلعب دورا مهما في تفسير كل جملة محلية.في هذه الورقة، فإننا نقترحنا بالتالي شبكة تت بع السياق في الرسم البياني القائمة على الرسم البياني (شبكة CT) لنموذج سياق الخطاب ل IDRR.تقوم CT-Net أولا بتحويل الخطاب في الرسم البياني لرابطة الفقرة (PAG)، حيث تتبع كل جملة سياقها المرتبطة ارتباطا وثيقا من الخطاب المعقد من خلال أنواع مختلفة من الحواف.بعد ذلك، استخراج CT-NET تمثيل سياقي من PAG من خلال آلية تحديث تم تصميمه خصيصا، مما يمكن أن يدمج بفعالية من كل من دلالات السياق على مستوى الجملة ومستوى الرمز المميز.تشير التجارب على PDTB 2.0 إلى أن شبكة CT-NET أكبر أداء أفضل من النماذج التي نموذجها تقريبا السياق.
في هذه الورقة، نقدم أول محلل إحصائي لغوي Lambek الصلب (LCG)، وهي منظماتية نحوية هي طريقة الإثبات الرسومية المعروفة باسم Nets Proof * قابلة للتطبيق.يشتمل محللنا على هيكل صافي مقاوم للقيود والقيود في نظام يعتمد على شبكات الانتباه الذاتي عبر عناصر نموذج ية جديدة.تظهر تجاربنا على Corpus LCG English أن دمج هيكل الرسم البياني المصطلح مفيد للنموذج، مما يحسن كل من دقة التحليل والتغطية.علاوة على ذلك، فإننا نستمد وظائف الخسائر الرواية من خلال التعبير عن قيود صافي دليل على أنها وظائف مختلفة لإخراج النماذج لدينا، مما يتيح لنا تدريب محللنا دون اشتقامات في الحقيقة الأرضية.
تفتقر إلى البيانات المشروحة غير المشروح بين الإنسان هي تحدي رئيسي واحد لتحليل تمثيل المعنى التجريدي (AMR). لتخفيف هذه المشكلة، عادة ما تستخدم الأعمال السابقة البيانات الفضية أو نماذج اللغة المدربة مسبقا. على وجه الخصوص. ومع ذلك، فإنه يجعل فك تشفير أب طأ نسبيا. في هذا العمل، نحقق مناهج بديلة لتحقيق أداء تنافسي بسرعات أسرع. نقترح محلل عمرو المبسط وتقنية تدريب مسبقة الاستخدام للاستخدام الفعال للبيانات الفضية. نقوم بإجراء تجارب مكثفة على مجموعة بيانات AMR2.0 المستخدمة على نطاق واسع وتظهرت النتائج أن محلل عمرو المحولات لدينا يحقق أفضل أداء بين النماذج المستندة إلى SEQ2Graph. علاوة على ذلك، مع البيانات الفضية، يحقق نموذجنا نتائج تنافسية مع نموذج SOTA، والسرعة هي أمر ذو حجم أسرع. تتم التحليلات التفصيلية للحصول على المزيد من الأفكار في نموذجنا المقترح وفعالية تقنية التدريب المسبق.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا