برزت الألعاب القائمة على النصوص (TBGS) كخطط مهم لتعزيز التعزيز (RL) في مجال اللغة الطبيعية.الأساليب السابقة باستخدام سياسات الإجراءات القائم على LSTM غير قابلة لإرسالها وغالبا ما تتجاوزت ألعاب التدريب التي تظهر أداء ضعيف لألعاب الاختبار غير المرئية.نقدم سياسة الإجراءات الرمزية للبيئات النصية (لائحة)، والتي تتعلم قواعد سياسة العمل القابلة للتفسير من التجريدات الرمزية للملاحظات النصية لتحسين التعميم.نحن نبحث عن طريقة لتعلم القاعدة الرمزية المتفوقة في نهاية إلى نهاية وإظهار أن هذه السياسات الرمزية تتفوق على الأساليب السابقة من أحدث الأحوال الفنية في RL القائمة على الرسائل النصية لبيئة جامع العملة من 5-10x ألعاب تدريب أقل.بالإضافة إلى ذلك، توفر طريقتنا قواعد سياسية مفهومة للإنسان والتي يمكن التحقق منها بسهولة من أجل الاتساق المنطقي ويمكن تصحيحها بسهولة.
Text-Based Games (TBGs) have emerged as important testbeds for reinforcement learning (RL) in the natural language domain. Previous methods using LSTM-based action policies are uninterpretable and often overfit the training games showing poor performance to unseen test games. We present SymboLic Action policy for Textual Environments (SLATE), that learns interpretable action policy rules from symbolic abstractions of textual observations for improved generalization. We outline a method for end-to-end differentiable symbolic rule learning and show that such symbolic policies outperform previous state-of-the-art methods in text-based RL for the coin collector environment from 5-10x fewer training games. Additionally, our method provides human-understandable policy rules that can be readily verified for their logical consistency and can be easily debugged.
المراجع المستخدمة
https://aclanthology.org/
يوفر التعلم العميق التعلم نهجا واعدا للألعاب القائمة على النصوص في دراسة التواصل الطبيعي باللغة الطبيعية بين البشر والوكلاء الاصطناعي.ومع ذلك، لا يزال التعميم يمثل تحديا كبيرا حيث يعتمد الوكلاء بشكل خطير على تعقيد ومجموعة متنوعة من المهام التدريبية.ف
في حين أن نماذج قوية مدربة مسبقا قد تحسنت بطلاقة نماذج توليد النص، فإن كفاية الدلالة - القدرة على توليد نص مخلص من الدلالة إلى الإدخال - لا تزال قضية ملحوظة. في هذه الورقة، نقدم كفايات دهالية التقييم التلقائية الجديدة، والتي يمكن استخدامها لتقييم نما
في الترجمة الآلية المتزامنة، والعثور على وكيل مع تسلسل العمل الأمثل للقراءة والكتابة التي تحتفظ بمستوى عال من جودة الترجمة مع التقليل من التأخر المتوسط في إنتاج الرموز المستهدفة لا يزال مشكلة صعبة للغاية. نقترح نهج تعليمي تحت إشراف رواية لتدريب وكي
تحديد المشاعر من النص أمر حاسم لمجموعة متنوعة من مهام العالم الحقيقي.نحن نعتبر أكبر فورسورا المتوفر الآن لتصنيف العاطفة الآن: جيموتونات، مع رسائل 58 ألفا تسمى القراء، والتنفيس، مع رسائل 33 مترا مصممة الكاتب.نقوم بتصميم معيارا وتقييم العديد من المساحا
غالبا ما تتطلب طرق تعلم التعلم العميق (RL) العديد من التجارب قبل التقارب، ولا يتم توفير إمكانية التفسير المباشر للسياسات المدربة.من أجل تحقيق التقارب السريع والتفسيرية للسياسة في RL، نقترح طريقة RL رواية للألعاب القائمة على النصوص مع إطار عمل رمزي مؤ