ترغب بنشر مسار تعليمي؟ اضغط هنا

دليل صافي إثبات التحليل الصلب ل Lambek العصبي

Proof Net Structure for Neural Lambek Categorial Parsing

242   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

في هذه الورقة، نقدم أول محلل إحصائي لغوي Lambek الصلب (LCG)، وهي منظماتية نحوية هي طريقة الإثبات الرسومية المعروفة باسم Nets Proof * قابلة للتطبيق.يشتمل محللنا على هيكل صافي مقاوم للقيود والقيود في نظام يعتمد على شبكات الانتباه الذاتي عبر عناصر نموذجية جديدة.تظهر تجاربنا على Corpus LCG English أن دمج هيكل الرسم البياني المصطلح مفيد للنموذج، مما يحسن كل من دقة التحليل والتغطية.علاوة على ذلك، فإننا نستمد وظائف الخسائر الرواية من خلال التعبير عن قيود صافي دليل على أنها وظائف مختلفة لإخراج النماذج لدينا، مما يتيح لنا تدريب محللنا دون اشتقامات في الحقيقة الأرضية.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تستند معظم طرق تحليل البنية الخطابية السابقة (RST) إلى التعلم الخاضع للإشراف مثل الشبكات العصبية، والتي تتطلب وجعة مشروح من الحجم والجودة الكافية. ومع ذلك، فإن Treebank Treebank RST RST (RST-DT)، والجورباس القياسي للحل الصادر باللغة الإنجليزية، وهو ص غير بسبب التعليق التوضيحي بشكل مكلف للأشجار الأولى. عدم وجود بيانات تدريبية كبيرة مشروحة تسبب أداء ضعيف خاصة في العلامات المتعلقة بالعلامات. لذلك، نقترح طريقة لتحسين نماذج التحليل العصبي RST من خلال استغلال البيانات الفضية، أي البيانات المشروحة تلقائيا. نقوم بإنشاء بيانات فضية واسعة النطاق من Corpus غير المستمر باستخدام محلل دائري للحكومة الأولى. للحصول على بيانات فضية عالية الجودة، نستخلص من الاتفاقية من الأشجار الأولى للوثائق التي تم بناؤها باستخدام المحللين RST. بعد ذلك، قم بتدريب المحلل الوراثي العصبي مع البيانات الفضية التي تم الحصول عليها وضبطها بشكل جيد على RST-DT. تظهر النتائج التجريبية أن طريقتنا حققت أفضل درجات Micro-F1 للأرضيات القومية والعلاقة عند 75.0 و 63.2 على التوالي. علاوة على ذلك، حصلنا على مكاسب ملحوظة في درجة العلاقة، 3.0 نقطة، ضد المحللين السابقين من الحديثة.
نقترح إطارا جديدا لتدريب النماذج لتصنيف مقبولية الردود الناتجة عن نماذج توليد اللغة الطبيعية (NLG)، وتحسين تحويل الجملة الحالية والنهج القائمة على النماذج. يعتبر استجابة NLG مقبولة إذا كانت كل من صحيحة وتجميعها. نحن لا نستخدم أي مراجع بشرية مما يجعل المصنفين مناسبين لنشر وقت التشغيل. يتم الحصول على بيانات التدريب للصفوف المصنفة باستخدام نهج من 2 مراحل من أول توليد البيانات الاصطناعية باستخدام مزيج من النهج القائمة والجديدة القائمة على النموذج متبوعا بإطار التحقق من صحة جديدة لتصفية وفرز البيانات الاصطناعية في فئات مقبولة وغير مقبولة. يتكيف نهجنا ذو المرحلتين لدينا بمجموعة واسعة من تمثيل البيانات ولا يتطلب بيانات إضافية تتجاوز ما يتم تدريب نماذج NLG عليها. وهي أيضا مستقلة عن الهندسة المعمارية النموذجية NLG الأساسية، وقادرة على توليد عينات أكثر واقعية قريبة من توزيع الردود الناتجة عن النموذج NLG. نقدم النتائج على 5 مجموعات بيانات (Webnlg، وتنظيفها E2E، Viggo، والتنبيه، والطقس) بتمثيلات بيانات متفاوتة. قارن إطار عملنا مع التقنيات الحالية التي تنطوي على توليد بيانات الاصطناعية باستخدام تحويلات جملة بسيطة و / أو تقنيات قائمة على الطراز، وإظهار أن بناء مصنف مقبولية يستخدمون البيانات التي تشبه مخرجات طراز الجيل تتبع إطار التحقق من الصحة تتفوق على التقنيات الحالية، وتحقيق الدولة النتائج من الفن. نظهر أيضا أن تقنياتنا يمكن استخدامها في إعدادات قليلة عند استخدام التدريب الذاتي.
تم استخدام تحلل الطابع الصيني كميزة لتعزيز نماذج الترجمة الآلية (MT)، والجمع بين المتطرفين في طرازات حرف مستوى الكلمة.حققت العمل الحديث في الأيديوجراف أو تضمين مستوى السكتة الدماغية.ومع ذلك، تبقى الأسئلة حول مستويات التحلل المختلفة من تمثيلات الأحرف الصينية، والراديكالية والسكتات الدماغية، والأمن الأكون مناسبة لجبل.للتحقيق في تأثير تضمين التحلل الصيني بالتفصيل، أي المستويات الجذعية والسكتة الدماغية والسكتة الدماغية، ومدى جودة تحلل هذه التحلل معنى تسلسل الأحرف الأصلية، نقوم بإجراء تحليل مع كل من التقييم الآلي والإنساني ل MT.علاوة على ذلك، يمكننا التحقيق في ما إذا كان يمكن أن يعزز مزيج التعبيرات المتعددة الكلمة المتحللة (MWES) التعلم النموذجي.شهدت تكامل MWE في MT أكثر من عقد من الاستكشاف.ومع ذلك، لم يتم استكشاف mwes المتحللة سابقا.
نحن نصف خسارة اهتمام مدفوع المستوى الذي يحسن التعميم التركيبي في المحللين الدلاليين.يعتمد نهجنا على الخسائر القائمة التي تشجع على خرائط الاهتمام في نماذج التسلسل العصبي إلى التسلسل لتقليد إخراج خوارزميات محاذاة الكلمة الكلاسيكية.حيث استخدم العمل السا بق محاذاة على مستوى الكلمات، ونحن نركز على يمتد؛اقتراض الأفكار من الترجمة الآلية القائمة على العبارة، نحن محاذاة السكتة الدلالية في تبييل الدلالي إلى امتداد جمل المدخلات، وتشجيع آليات الاهتمام العصبي لتقليد هذه المحاذاة.تعمل هذه الطريقة على تحسين أداء المحولات، RNNs، والكفران الهيكلية على ثلاثة معايير للتعميم التركيبي.
عادة ما تتطلب النهج العصبية لتوليد اللغة الطبيعية في الحوار الموجه في المهام كميات كبيرة من بيانات التدريب المشروح لتحقيق أداء مرض، خاصة عند توليد المدخلات التركيبية. لمعالجة هذه المشكلة، نظهر أن التدريب الذاتي المعزز مع فك التشفير المقيد غلة مكاسب ك بيرة في كفاءة البيانات على مجموعة بيانات الطقس التي توظف تمثيلات المعنى المتراكم. على وجه الخصوص، تشير تجاربنا إلى أن التدريب الذاتي مع فك التشفير المقيد يمكن أن تمكن نماذج التسلسل إلى التسلسل لتحقيق جودة مرضية باستخدام بيانات أقل من خمسة إلى عشرة أضعاف بيانات أقل من خط الأساس الخاضع للإشراف العادي؛ علاوة على ذلك، من خلال الاستفادة من النماذج المحددة، يمكن زيادة كفاءة البيانات إلى خمسين مرة. نؤكد النتائج التلقائية الرئيسية مع التقييمات البشرية وإظهار أنها تمتد إلى نسخة محسنة وتركيبية من DataSet E2E. والنتيجة النهائية هي نهج يجعل من الممكن تحقيق أداء مقبول على مهام NLG التركيبية باستخدام المئات بدلا من عشرات الآلاف من عينات التدريب.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا