برزت الألعاب القائمة على النصوص (TBGS) كخطط مهم لتعزيز التعزيز (RL) في مجال اللغة الطبيعية.الأساليب السابقة باستخدام سياسات الإجراءات القائم على LSTM غير قابلة لإرسالها وغالبا ما تتجاوزت ألعاب التدريب التي تظهر أداء ضعيف لألعاب الاختبار غير المرئية.نقدم سياسة الإجراءات الرمزية للبيئات النصية (لائحة)، والتي تتعلم قواعد سياسة العمل القابلة للتفسير من التجريدات الرمزية للملاحظات النصية لتحسين التعميم.نحن نبحث عن طريقة لتعلم القاعدة الرمزية المتفوقة في نهاية إلى نهاية وإظهار أن هذه السياسات الرمزية تتفوق على الأساليب السابقة من أحدث الأحوال الفنية في RL القائمة على الرسائل النصية لبيئة جامع العملة من 5-10x ألعاب تدريب أقل.بالإضافة إلى ذلك، توفر طريقتنا قواعد سياسية مفهومة للإنسان والتي يمكن التحقق منها بسهولة من أجل الاتساق المنطقي ويمكن تصحيحها بسهولة.
Text-Based Games (TBGs) have emerged as important testbeds for reinforcement learning (RL) in the natural language domain. Previous methods using LSTM-based action policies are uninterpretable and often overfit the training games showing poor performance to unseen test games. We present SymboLic Action policy for Textual Environments (SLATE), that learns interpretable action policy rules from symbolic abstractions of textual observations for improved generalization. We outline a method for end-to-end differentiable symbolic rule learning and show that such symbolic policies outperform previous state-of-the-art methods in text-based RL for the coin collector environment from 5-10x fewer training games. Additionally, our method provides human-understandable policy rules that can be readily verified for their logical consistency and can be easily debugged.
References used
https://aclanthology.org/
Deep reinforcement learning provides a promising approach for text-based games in studying natural language communication between humans and artificial agents. However, the generalization still remains a big challenge as the agents depend critically
While powerful pre-trained language models have improved the fluency of text generation models, semantic adequacy -the ability to generate text that is semantically faithful to the input- remains an unsolved issue. In this paper, we introduce a novel
In simultaneous machine translation, finding an agent with the optimal action sequence of reads and writes that maintain a high level of translation quality while minimizing the average lag in producing target tokens remains an extremely challenging
Identifying emotions from text is crucial for a variety of real world tasks. We consider the two largest now-available corpora for emotion classification: GoEmotions, with 58k messages labelled by readers, and Vent, with 33M writer-labelled messages.
Deep reinforcement learning (RL) methods often require many trials before convergence, and no direct interpretability of trained policies is provided. In order to achieve fast convergence and interpretability for the policy in RL, we propose a novel