يمكن استخدام الألعاب القائمة على النصوص لتطوير وكلاء نص موجه نحو المهام لإنجاز المهام ذات التعليمات اللغوية رفيعة المستوى، والتي لها تطبيقات محتملة في المجالات مثل تفاعل الإنسان الروبوت. بالنظر إلى تعليمات نصية، يستخدم تعلم التعزيز عادة لتدريب الوكلاء لإكمال المهمة المقصودة بسبب راحتها في سياسات التعلم تلقائيا. ومع ذلك، بسبب مساحة كبيرة من الإجراءات النصية للكبار، تعلم شبكة السياسة التي تنشئ كلمة عمل من Word مع تعلم التعزيز أمر صعب. تظهر أعمال البحث الحديثة أن التعلم التقليد يوفر طريقة فعالة لتدريب شبكة السياسة القائمة على الجيل. ومع ذلك، فإن الوكلاء المدربين مع التعلم المقلم يصعب إتقان مجموعة واسعة من أنواع المهام أو المهارات، ومن الصعب عليهم التعميم أيضا مع البيئات الجديدة. في هذه الورقة، نقترح طريقة تعزز التعزيز التيلة لتدريب وكلاء النص من خلال التعلم إلى الاستكشاف. على وجه الخصوص، يستكشف وكيل النص أولا البيئة لجمع المعلومات الخاصة بالفصل، ثم تتكيف مع سياسة التنفيذ لحل المهمة مع هذه المعلومات. على ALFWorld المتاحة للجمهور، أجرينا دراسة مقارنة مع التعلم التقليد وإظهار تفوق طريقنا.
Text-based games can be used to develop task-oriented text agents for accomplishing tasks with high-level language instructions, which has potential applications in domains such as human-robot interaction. Given a text instruction, reinforcement learning is commonly used to train agents to complete the intended task owing to its convenience of learning policies automatically. However, because of the large space of combinatorial text actions, learning a policy network that generates an action word by word with reinforcement learning is challenging. Recent research works show that imitation learning provides an effective way of training a generation-based policy network. However, trained agents with imitation learning are hard to master a wide spectrum of task types or skills, and it is also difficult for them to generalize to new environments. In this paper, we propose a meta reinforcement learning based method to train text agents through learning-to-explore. In particular, the text agent first explores the environment to gather task-specific information and then adapts the execution policy for solving the task with this information. On the publicly available testbed ALFWorld, we conducted a comparison study with imitation learning and show the superiority of our method.
المراجع المستخدمة
https://aclanthology.org/
يوفر التعلم العميق التعلم نهجا واعدا للألعاب القائمة على النصوص في دراسة التواصل الطبيعي باللغة الطبيعية بين البشر والوكلاء الاصطناعي.ومع ذلك، لا يزال التعميم يمثل تحديا كبيرا حيث يعتمد الوكلاء بشكل خطير على تعقيد ومجموعة متنوعة من المهام التدريبية.ف
حاليا، تتلقى الترجمة متعددة اللغات الآلية أكثر اهتماما أكثر وأكثر لأنها تجلب أداء أفضل لغات الموارد المنخفضة (LRLS) وتوفر مساحة أكبر. ومع ذلك، فإن نماذج الترجمة متعددة اللغات الحالية تواجه تحديا شديدا: عدم التوازن. نتيجة لذلك، فإن أداء الترجمة من لغا
البناء التلقائي لقواعد المعرفة ذات الصلة (KBS) من النص، وتوليد نص مغزى من KBS هما أهداف طويلة الأمد في تعلم الآلات. في هذه الورقة، نقدم Regen، وهي جيل ثنائي الاتجاه من النص والرأس الرسم البياني الاستفادة من التعزيز لتعزيز الأداء. يتيح لنا الخطية الرس
حتى الآن، اعتمدت معظم نماذج التلخيص المذهلة على متغيرات من احتمال السجل السلبي (NLL) كهدف تدريبهم. في بعض الحالات، تمت إضافة التعلم التعزيز لتدريب النماذج بهدف أقرب إلى تدابير التقييم الخاصة بهم (مثل Rouge). ومع ذلك، فإن وظيفة المكافآت التي سيتم استخ
تهدف استخراج العلاقات المنخفضة الموارد (LRE) إلى استخراج حقائق العلاقة من كورسا محدودة المسمى عندما تشريح الإنسان نادرة. تعمل الأعمال الموجودة إما استخدام مخطط التدريب الذاتي لتوليد ملصقات زائفة ستتسبب في مشكلة الانجراف التدريجي، أو نظام التعلم التلو