ترغب بنشر مسار تعليمي؟ اضغط هنا

النهج العصبية الرمزية لتعلم السياسة القائمة على النص

Neuro-Symbolic Approaches for Text-Based Policy Learning

348   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

برزت الألعاب القائمة على النصوص (TBGS) كخطط مهم لتعزيز التعزيز (RL) في مجال اللغة الطبيعية.الأساليب السابقة باستخدام سياسات الإجراءات القائم على LSTM غير قابلة لإرسالها وغالبا ما تتجاوزت ألعاب التدريب التي تظهر أداء ضعيف لألعاب الاختبار غير المرئية.نقدم سياسة الإجراءات الرمزية للبيئات النصية (لائحة)، والتي تتعلم قواعد سياسة العمل القابلة للتفسير من التجريدات الرمزية للملاحظات النصية لتحسين التعميم.نحن نبحث عن طريقة لتعلم القاعدة الرمزية المتفوقة في نهاية إلى نهاية وإظهار أن هذه السياسات الرمزية تتفوق على الأساليب السابقة من أحدث الأحوال الفنية في RL القائمة على الرسائل النصية لبيئة جامع العملة من 5-10x ألعاب تدريب أقل.بالإضافة إلى ذلك، توفر طريقتنا قواعد سياسية مفهومة للإنسان والتي يمكن التحقق منها بسهولة من أجل الاتساق المنطقي ويمكن تصحيحها بسهولة.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

يوفر التعلم العميق التعلم نهجا واعدا للألعاب القائمة على النصوص في دراسة التواصل الطبيعي باللغة الطبيعية بين البشر والوكلاء الاصطناعي.ومع ذلك، لا يزال التعميم يمثل تحديا كبيرا حيث يعتمد الوكلاء بشكل خطير على تعقيد ومجموعة متنوعة من المهام التدريبية.ف ي هذه الورقة، نتعلم هذه المشكلة عن طريق إدخال إطار هرمي مبني على وكيل RL المعلق الرسم البياني المعلق.في المستوى العالي، يتم تنفيذ سياسة META لتحلل اللعبة بأكملها في مجموعة من المهام الفرعية المحددة بواسطة أهداف نصية، وحدد أحدها بناء على KG.ثم يتم تنفيذ سياسة فرعية في المستوى المنخفض لإجراء تعلم التعزيز المكيف للأهداف.نقوم بإجراء تجارب على الألعاب ذات مستويات صعوبة مختلفة وإظهار أن الطريقة المقترحة تتمتع بالتعميمات المواتية.
في حين أن نماذج قوية مدربة مسبقا قد تحسنت بطلاقة نماذج توليد النص، فإن كفاية الدلالة - القدرة على توليد نص مخلص من الدلالة إلى الإدخال - لا تزال قضية ملحوظة. في هذه الورقة، نقدم كفايات دهالية التقييم التلقائية الجديدة، والتي يمكن استخدامها لتقييم نما ذج توليد المدى التي تنفذ الرسوم البيانية التي لفظها RDF (إطار وصف الموارد) نص يحتوي على تذرف من الكيانات التي تحدث في RDF إدخال. هذا مهم مثل رودس موضوع وكيانات الكائنات التي تشكل 2/3 من المدخلات. نحن نستخدم المقياس الخاص بنا بمقارنة 25 نماذج من المهام المشتركة Webnlg وندرش الارتباط بنتائج التقييمات البشرية للكفايات الدلالية. نظرا لأنه بينما يرتبط متري لدينا مع درجات التقييم البشري، يختلف هذا الارتباط مع تفاصيل إعداد التقييم البشري. هذا يشير إلى أنه من أجل قياس كفاية الكيان التي تتخذ من النصوص التي تم إنشاؤها، قد يكون متريا أوتوماتيا مثل المرء المقترح هنا أكثر موثوقية، حيث كان أقل عرضية وأكثر ركزا على اللفظ الصحيح للمدخلات، من تدابير التقييم البشرية.
في الترجمة الآلية المتزامنة، والعثور على وكيل مع تسلسل العمل الأمثل للقراءة والكتابة التي تحتفظ بمستوى عال من جودة الترجمة مع التقليل من التأخر المتوسط ​​في إنتاج الرموز المستهدفة لا يزال مشكلة صعبة للغاية. نقترح نهج تعليمي تحت إشراف رواية لتدريب وكي ل يمكنه اكتشاف الحد الأدنى لعدد القراءة المطلوبة لتوليد كل رمزية مستهدفة من خلال مقارنة الترجمات المتزامنة ضد ترجمات الجملة الكاملة أثناء التدريب لإنشاء تسلسل عمل أوراكل. يمكن بعد ذلك استخدام تسلسل أوراكل هذه لتدريب نموذج إشراف لتوليد العمل في وقت الاستدلال. يوفر نهجنا بديلا عن طرق التشكيل الحالية في الترجمة المتزامنة من خلال تقديم هدف تدريب جديد، وهو أمر أسهل للتدريب من المحاولات السابقة في تدريب الوكيل باستخدام تقنيات تعليم التعزيز لهذه المهمة. تظهر نتائجنا التجريبية أن طريقة التدريب الجديدة لتوليد العمل تنتج ترجمات عالية الجودة مع تقليل التأخر المتوسط ​​في الترجمة الفورية.
تحديد المشاعر من النص أمر حاسم لمجموعة متنوعة من مهام العالم الحقيقي.نحن نعتبر أكبر فورسورا المتوفر الآن لتصنيف العاطفة الآن: جيموتونات، مع رسائل 58 ألفا تسمى القراء، والتنفيس، مع رسائل 33 مترا مصممة الكاتب.نقوم بتصميم معيارا وتقييم العديد من المساحا ت الميزة وخوارزميات التعلم، بما في ذلك نموذجين بسيطين ولكن الرواية أعلى بيرت التي تتفوق على خطوط الأساس القوية السابقة على GAEMOTION.من خلال تجربة مع مشاركين بشريين، نحلل أيضا الاختلافات بين كيفية التعبير عن المشاعر وكيفية إدراك القراء لهم.تشير نتائجنا إلى أن العواطف التي أعرب عنها الكتاب أصعب تحديدها من العواطف التي ينظر إليها القراء.نحن نشارك واجهة الويب العامة للباحثين لاستكشاف نماذجنا.
غالبا ما تتطلب طرق تعلم التعلم العميق (RL) العديد من التجارب قبل التقارب، ولا يتم توفير إمكانية التفسير المباشر للسياسات المدربة.من أجل تحقيق التقارب السريع والتفسيرية للسياسة في RL، نقترح طريقة RL رواية للألعاب القائمة على النصوص مع إطار عمل رمزي مؤ خرا يسمى الشبكة العصبية المنطقية، والتي يمكن أن تتعلم القواعد الرمزية والتفسيرية في شبكتها المختلفة.الطريقة الأولى لاستخراج الحقائق المنطقية من الدرجة الأولى من مراقبة النص وشبكة معنى الكلمة الخارجية (Congernet)، ثم قم بتدريب سياسة في الشبكة مع مشغلين منطقي قابل التفسير مباشرة.تظهر النتائج التجريبية لدينا التدريب RL مع الأسلوب المقترح بشكل أسرع بكثير من الأساليب الخلية العصبية الأخرى في مؤشر TextWorld.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا