غالبا ما تتطلب طرق تعلم التعلم العميق (RL) العديد من التجارب قبل التقارب، ولا يتم توفير إمكانية التفسير المباشر للسياسات المدربة.من أجل تحقيق التقارب السريع والتفسيرية للسياسة في RL، نقترح طريقة RL رواية للألعاب القائمة على النصوص مع إطار عمل رمزي مؤخرا يسمى الشبكة العصبية المنطقية، والتي يمكن أن تتعلم القواعد الرمزية والتفسيرية في شبكتها المختلفة.الطريقة الأولى لاستخراج الحقائق المنطقية من الدرجة الأولى من مراقبة النص وشبكة معنى الكلمة الخارجية (Congernet)، ثم قم بتدريب سياسة في الشبكة مع مشغلين منطقي قابل التفسير مباشرة.تظهر النتائج التجريبية لدينا التدريب RL مع الأسلوب المقترح بشكل أسرع بكثير من الأساليب الخلية العصبية الأخرى في مؤشر TextWorld.
Deep reinforcement learning (RL) methods often require many trials before convergence, and no direct interpretability of trained policies is provided. In order to achieve fast convergence and interpretability for the policy in RL, we propose a novel RL method for text-based games with a recent neuro-symbolic framework called Logical Neural Network, which can learn symbolic and interpretable rules in their differentiable network. The method is first to extract first-order logical facts from text observation and external word meaning network (ConceptNet), then train a policy in the network with directly interpretable logical operators. Our experimental results show RL training with the proposed method converges significantly faster than other state-of-the-art neuro-symbolic methods in a TextWorld benchmark.
المراجع المستخدمة
https://aclanthology.org/
تم استخدام خوارزميات التعلم التلوي من الدرجة الأولى على نطاق واسع في الممارسة لتعلم معلمات النماذج الأولية التي يمكن تكييفها بسرعة مع مهام جديدة بسبب كفاءتها وفعاليتها. ومع ذلك، تجد الدراسات الحالية أن Meta-Learner يمكن أن يتألف إلى بعض التكيف المحدد
في الآونة الأخيرة، حققت نماذج اللغة (LMS) أداء كبيرا في العديد من مهام NLU، التي حفزت اهتماما واسع النطاق للتطبيقات المحتملة في المجال العلمي والاجتماعي.ومع ذلك، واجهت LMS الكثير من الانتقاد لما إذا كانت قادرة حقا على التفكير في NLU.في هذا العمل، نقت
نقدم نظاما للتعلم أنماط التعلم المعممة أو النمطية للأحداث - أو المخططات "--- من قصص اللغة الطبيعية، وتطبيقها على إجراء تنبؤات حول القصص الأخرى.يتم تمثيل مخططاتنا منطق Episodic، وهو شكل منطقي يعكسان عن كثب اللغة الطبيعية.من خلال البدء بمجموعة "مجموعة
من الصعب تصميم استراتيجيات تداول مربحة وعملية، حيث أن حركات أسعار الأسهم هي مؤشر استوكاستي للغاية، وتتأثر السوق بشدة بالبيانات الفوضوية عبر مصادر مثل الأخبار والوسائط الاجتماعية. تقترب NLP الحالية تعالج إلى حد كبير تنبؤ الأسهم كصنف أو مشكلة في الانحد
تهدف الملخصات الزمنية (TLS) إلى توليد قائمة موجزة من الأحداث الموضحة في مصادر مثل المقالات الإخبارية.ومع ذلك، فإن النظم الحالية لا توفر طريقة كافية للتكيف مع مجالات جديدة ولا تركز على جوانب الاهتمام لمستخدم معين.لذلك، نقترح طريقة للتعلم بشكل تفاعلي T